- Special Issue 04 첨단 바이오 데이터 기술의 혁신과 미래
첨단 바이오 정보학의 최신동향과 미래 기술
첨단 바이오 정보학 분야는 생명과학, 유전학, 분자생물학 등과 같은 전통적인 생명과학 분야와 정보기술(IT), 인공지능(AI), 데이터 과학 등의 첨단 정보기술이 융합된 분야다. 이 분야는 복잡한 생명현상을 이해하고 질병을 조기에 진단하며, 새로운 신약을 개발하는 데 중요한 역할을 한다. 최근 정부는 AI, 첨단 바이오, 양자 분야를 국가의 3대 첨단 분야로 선정하고, 이들 분야에 대한 연구개발 예산을 집중적으로 투입하기로 했다. 이는 첨단 바이오가 우리나라의 미래 먹거리 산업으로 성장할 것이라는 기대를 반영한 조치다.
첨단 바이오 분야에서 ‘바이오 파운드리’가 점점 더 중요해지고 있으며, 이는 데이터 과학과 인공지능(AI)의 토대 위에서 발전하고 있다. 바이오 파운드리는 생물학 실험의 설계와 제작을 자동화하여 대량의 생물학적 실험을 신속하게 수행함으로써 신약 개발, 유전자 편집, 합성생물학 등의 분야에서 혁신적인 발전을 이끌고 있다. 이러한 진보는 거대한 생명과학 데이터의 분석에 근거하며, AI와 데이터 과학은 이 과정에서 중심적인 역할을 한다. 기계 학습과 딥러닝 기술을 활용하여 유전자 변이, 단백질 구조, 질병 관련 패턴 등을 정확히 식별하고 분석함으로써, 바이오 파운드리 내에서의 연구 및 개발 과정은 더욱 효율적이고 목표 지향적으로 진행될 수 있다.
세계적인 바이오 파운드리 회사인 Ginkgo Bioworks는 머크, 바이오젠, 화이자와 같은 글로벌 제약사를 대상으로 매년 수백만 달러에 달하는 다양한 파트너십을 체결하고, 매년 수천억 원의 매출 성과를 내고 있다. 이러한 파트너십은 Ginkgo Bioworks가 첨단 바이오 정보학 기술을 접목했다는 강점이 있어 가능했다. 즉, 대규모의 생물학적 및 유전학적 데이터를 수집하고 분석하여 단백질의 기능, 유전자의 역할, 미생물의 특성 등을 알아낸 것이다. 또한 AI와 기계 학습 알고리즘 등 방대한 데이터를 통해 패턴을 식별하고 생물학적 관계를 정확하게 예측하여, 신규 생물학적 설계의 가능성을 찾아냈다(그림 1). 더 나아가 대규모 실험을 효율적으로 자동화·최적화하기 위한 설계에서, 실험의 성공 확률을 높이고 비용을 줄이기 위해 AI를 핵심적인 도구로 활용했다. 이외에도 생물학적 경로를 최적화하기 위해 유전자 변형 및 RNA/단백질 설계, 생산 공정을 모니터링하고 수율을 최적화했다.
또한 비용을 줄이기 위해 생산 공정을 최적화하고 잠재적인 약물 표적을 발굴하였으며, 약물 후보 물질을 스크리닝해 임상시험 전 단계에서 약물의 효능과 안전성을 예측하는 데 효율성을 높였다. 이러한 첨단 바이오 정보학은 바이오 파운드리 기업인 Ginkgo Bioworks의 운명을 가르는 키가 되었다. 이 혁신적인 데이터 기반 과학의 활용 여부가 결정짓는 것은 단순히 미래의 연구 방향만이 아니다. 바로 생명공학 연구와 산업 전체의 새로운 패러다임을 책정하고 있다. 이는 바이오 파운드리 기업에 막중한 도전과 혁신을 주도할 무한한 기회를 동시에 제공한다.
가상 임상시험: 데이터 분석으로 임상시험의 미래를 재구성
가상 임상시험은 최근 몇 년간 첨단 바이오 분야에서 주목받고 있는 혁신적인 접근 방식이다. 기존 임상시험은 실제 환자를 대상으로 하여 막대한 자금과 시간이 들어갔다. 그러나 가상 임상시험은 인공지능, 데이터 분석, 컴퓨터 모델링을 활용하여 임상시험의 효율성과 정확성을 크게 향상했다. 또한 실제 환자를 대상으로 한 임상시험에는 여러 윤리적 문제와 환자의 안전성 문제가 수반되므로, 이러한 문제를 해결하기 위해 가상 임상시험이 등장하게 되었다.
가상 임상시험은 컴퓨터 모델과 시뮬레이션을 활용하여 임상시험을 가상으로 수행하는 기술이다. 이 과정에서 환자의 생리학적, 유전학적 정보를 바탕으로 한 상세한 컴퓨터 모델이 구축된다. 이 모델은 실제 인간의 반응을 모방하므로 특정 약물이나 치료법의 효과 및 안전성을 예측할 수 있다. 가상 임상시험의 핵심은 AI와 빅 데이터 분석 기술의 발전에 기반한다.
AI 알고리즘은 대규모 의료 데이터를 분석하여 질병의 진행과 약물 반응에 대한 정밀한 예측 모델을 생성할 수 있다. 이는 임상시험 설계의 정확성을 높이고, 실제 환자를 대상으로 한 시험의 수를 줄일 가능성을 열어준다. 전통적인 임상시험 방법에 비해 가상 임상시험은 더 빠르고 비용 효율적이며, 더 넓은 범위의 데이터를 기반으로 안전성과 효과성을 검증할 수 있다. 이를 통해 신약 개발 과정이 가속화될 뿐만 아니라, 개인 맞춤형 의약품 개발에도 크게 기여할 것으로 예상된다. 현 정부는 첨단 바이오, 특히 가상 임상시험 분야의 연구와 개발에 크게 기대하고 있다. 이러한 가상 임상시험 기술의 발전을 가속화하기 위한 지원은, 우리나라가 첨단 바이오산업의 글로벌 리더로 자리매김하는 데 중요한 역할을 할 것이다.
대규모 바이오 데이터 분석을 통한 질병 조기 발견 기술의 혁신
다양한 생물학적 데이터 소스(유전체, 전사체, 단백체, 대사체 등)와 복잡한 생명 정보를 포함한 대규모 데이터의 통합 분석을 통해, 각 개인의 생물학적 특성과 질병 발생 위험 사이의 상관관계를 파악하고자 하는 시도가 있어 왔다. 이를 영국과 미국이 빨리 준비하고 있는데, UK Biobank는 영국의 거주민 50만 명 이상의 의료기록, 유전정보, 생활 습관 데이터를 포괄적으로 수집하여 관리한다(그림 2). 이 기관은 질병의 원인 파악과 더불어 새로운 진단법 및 치료제의 발견, 건강한 노화를 위한 기술 개발을 지원하고 있다.
특히, 유전체 데이터와 결합된 생활 습관 및 환경 데이터를 분석하여, 특정 질병의 위험 요소를 파악하고 이를 조기에 발견할 수 있는 바이오 마커를 개발하고 있다. Genomic England는 10만 명의 NHS 환자들의 전장 유전체 시퀀스 데이터를 확보하고 분석하여, 유전자 변이와 연관된 희귀 질환 및 암에 대해 연구를 진행 중이다. ‘100,000 게놈 프로젝트’는 개인 맞춤형 의학의 기반 마련과 질병에 대한 보다 정밀한 이해를 목적으로 한다. 이를 통해 진단 방법을 개선하고, 여기에 적합한 더 효과적인 치료 전략을 개발하고자 한다.
미국의 All of Us 연구 프로그램은 다양한 인종, 연령, 라이프스타일, 다양한 환경을 대표하는 100만 명 이상의 참여자로부터 헬스 데이터, 유전체 정보, 생물학적 샘플 등을 수집한다. 이를 활용하여 개인별 질병 위험 요인을 파악하고, 예방 및 치료 전략을 맞춤화하는 연구를 진행 중이다. 이 세 기관은 모두 대규모 데이터셋의 통합과 분석을 통해, 질병의 조기 발견 및 예방을 위한 연구에 필수적인 역할을 수행하고 있다. 또한 이들 기관은 빅 데이터와 AI 기술의 활용을 통해 질병 예측 모델을 개선하고, 실제 임상 응용에서 정확성과 효율성을 높이는 방안을 지속적으로 혁신하고 있다.
이 분야의 지속적인 혁신을 위해 영국과 미국은 대규모 투자를 진행하고 있으며, 그들의 기술과 서비스는 전 세계적으로 다양한 연구 파트너와 글로벌 진단·제약회사들과 협력하여 질병 조기 발견 및 치료 분야에서 혁신을 주도하고 있다. 앞서 말한 UK Biobank, Genomic England, All of Us 프로그램과 같이, 대규모 바이오 데이터를 통한 질병 조기 발견 기술의 혁신을 추구하는 글로벌 트렌드는 한국에도 적용된다. 뒤늦게 시작했지만 우리나라는 국가 바이오 빅데이터 프로젝트를 통해 이를 진행할 예정이다. 이러한 연구들은 바이오 메디컬 데이터의 통합, 분석 및 응용에 중요한 기반이 된다.
특히 한국은 유전학적, 의료적 데이터를 국가적 차원에서 체계적으로 수집하고, 이를 활용하여 맞춤형 의료 솔루션과 질병의 조기 진단 전략을 개발하고자 한다. 한국의 국가 바이오 빅데이터 프로젝트는 생명공학 및 의료 연구 분야의 미래를 선도하기 위한 도약대를 마련하고 있다. 이는 개인의 건강 관리를 향상시키고 의료 시스템의 전반적인 효율성을 높이는 데 중대한 역할을 할 것이다. 이와 같은 국내외 연구 기관들의 노력으로, 의료 연구 혁신 및 질병의 조기 발견과 효율적인 관리를 가능하게 하는 의학 분야의 새로운 패러다임이 예상된다.
클라우드 기반 바이오 데이터 관리 및 통합 시스템의 발전
앞서 언급한 Ginkgo Bioworks는 본인들의 바이오 파운드리 플랫폼을 구축하기 위해 구글 클라우드와 파트너십을 맺고, 2024년 현재까지 약 3,000억 원 이상을 투자했다. 그만큼 클라우드 기반 AI 모델의 개발과 데이터 분석을 중요한 구성 요소로 채택하고 있다고 볼 수 있다. 클라우드 컴퓨팅은 대규모의 유전학적 실험 데이터를 처리하고, 이를 기반으로 생명공학 솔루션 및 서비스를 신속하게 제공하고 있다. 영국과 미국의 주요 대규모 바이오 데이터 활용 프로젝트인 UK Biobank, All of Us 또한 다양한 생물학적 및 의료 데이터를 수집하고, 이들을 전 세계 연구자들에게 제공하기 위해 클라우드 기반 인프라를 활용한다. 이를 통해 연구자들은 데이터에 액세스하고 이를 분석할 수 있으며, 데이터의 통합성이 유지되고 연구의 효율성이 극대화된다.
UK Biobank의 경우, 클라우드 인프라 회사인 AWS와 생명 정보 및 유전체학 연구를 위한 클라우드 기반 플랫폼인 DNAnexus와 협력한다. 이를 통해 클라우드 기반의 고성능 컴퓨팅 환경을 전 세계 연구자들에게 제공하여 복잡한 유전체 데이터를 처리한다. 또한 민감한 유전체 및 의료 데이터를 안전하게 관리할 수 있는 연구 활용 체계를 구축하였다(그림 3). All of Us 또한 참가자로부터 수집한 방대한 건강 데이터를 클라우드에 저장하고 관리한다. 이 데이터는 보안이 유지된 환경에서 허락된 미국 및 전 세계 연구자들이 접근할 수 있도록 만들어져 있다. 이는 개인 맞춤형 의료 솔루션 연구를 위한 전 세계의 가장 중요한 바이오 데이터 자원으로 활용되고 있고, 시간이 지날수록그 중요성이 더욱더 커질 것으로 예상된다.
이들 기업과 프로젝트들은 클라우드 컴퓨팅의 잠재력을 잘 활용했다. 생명과학 연구의 방대한 데이터를 보다 효율적으로 관리하고, 전 세계 연구자들이 쉽게 접근하고 공유할 수 있는 시스템을 발전시켜왔다. 이와 같이 클라우드 기반의 바이오 데이터 관리 및 통합 시스템은 바이오 분야 연구의 속도를 높일 뿐만 아니라 협업을 강화하고 있다. 또한 혁신적인 의료/건강 솔루션 및 서비스를 시장에 더 빠르게 내놓을 수 있는 기반을 마련해주고 있다.
- Vol.465
24년 05/06월호