BioINpro
(BioIN + Professional) : 전문가의 시각에서 집필한 보고서 제공[KRIBB 워킹그룹] 데이터 주도 과학 시대의 바이오 디지털 전환
- 등록일2023-01-27
- 조회수2934
- 분류플랫폼바이오 > 바이오융합기술
-
저자/소속
김선규 외 8명/ 한국생명공학연구원 노화융합연구단
-
발간일
2022-12-21
-
키워드
#바이오디지털#정밀의료
- 첨부파일
-
차트+
?
차트+ 도움말
데이터 주도 과학 시대의 바이오 디지털 전환
2022년도 KRIBB 워킹그룹 이슈페이퍼 제5호
저자 : 한국생명공학연구원 노화융합연구단 김선규 외 8명
1 개요
▉︎ 빅데이터·인공지능을 위시한 바이오 연구 패러다임의 격변
● 차세대 시퀀싱(Next Generation Sequencing, NGS)이라 불리는 유전체 서열 생산기술의 비약적인 발전과 the Encyclopedia Of DNA Elements(ENCODE), The Cancer Genome Atlas(TCGA), Exome Aggregation Consortium(ExAC), The Genotype-Tissue Expression project(GTEx)와 같은 NGS 기술 기반 대형 프로젝트의 완성에 힘입어, 환자 개개인의 유전학적 특성에 가장 적합한 치료방법을 제시하는 정밀의료에 대한 수요가 증대되고 있음
- 인간 및 다양한 개체로부터 생산된 바이오 빅데이터는 상상을 넘어서는 속도로 빠르게, 그리고 대량으로 쏟아져서 정확한 해석의 어려움에 직면해 있음
- 딥러닝(Deep Learning, DL)이라는 이름으로 알려진 고급 IT 인공지능 기술의 발달로 난해한 빅데이터에 대한 정확한 분석 및 이해가 요구됨
- 데이터 및 분석기술의 발전을 위시한 생명과학은 소위 데이터 주도 과학(Data-driven Science) 패러다임의 선두 영역으로 자리매김하고 있음
- 생명과학 분야의 기술혁신으로 인해 다양한 데이터 소스에서 필요한 정보를 손쉽게 수집하는 것이 가능해졌고, 데이터 기반 생명연구는 의료산업과의 연계를 통해 임상정밀의료 실현에 매우 큰 기여를 하고 있음
● 전통적인 실험연구를 수행하던 바이오 연구소, 대학, 및 기관에서는 데이터 주도 과학 패러다임의 안착을 위한 실질적 방법론 도입이 요구됨
- 바이오 빅데이터 생성·분석, 표적 후보 발굴·검증, 및 분석도구 개발 등의 다양한 스펙트럼에 걸쳐 실용적인 디지털 솔루션을 도출하고자 다각도로 노력 중 [그림 1]
- 이러한 다양한 기관의 노력에도 불구하고 데이터 주도 연구 방법론의 실질적 안착은 매우 미미한 편으로, 이는 국내 바이오 데이터 규모의 한계, 데이터의 파편화, 데이터 지속성 단절 등의 문제로 인해 데이터 기반 정밀의학 실현에 한계가 존재함
- 다양한 국제 컨소시엄과 더불어 국가생명연구자원정보센터(Korea Bioinformation Center, KOBIC)의 바이오 데이터 스테이션(K-BDS)과 같은 대규모 바이오 데이터 제공 플랫폼들이 존재하지만, 바이오 데이터의 특성상 그 크기가 매우 커서 전문 데이터 과학자 이외의 일반 연구자가 활용하기는 매우 어려운 점도 제약이라 할 수 있음
- 공개 바이오 빅데이터는 대부분 인체에서 유래한 정보로써, 개인정보 보호 문제 및 제공자 동의 부재로 인해 타 연구 및 산업적 활용성에 제약이 존재함. 요컨대, 바이오 데이터는 1) 데이터의 다양성, 2) 다루기 힘든 데이터의 크기, 및 3) 개인정보 보호 등의 장벽이 존재하므로 데이터의 활용에 제약이 크다고 할 수 있음
- 디지털 전환 및 연구 패러다임의 변화를 희망하는 대학 및 연구소는 기관의 데이터 보유 현황, 데이터 분석의 수요, 구축된 분석 인프라, 및 인적 구성을 면밀히 파악하여 기관의 특성에 가장 알맞은 디지털 전환 솔루션을 도입할 필요가 있음
● 본 보고서에서는 국내외 바이오 빅데이터 및 디지털 전환과 연관된 연구 동향을 기술하고, 생명과학 분야에서 기술과 정책의 현실적 한계를 극복하고 실질적으로 데이터 주도 과학의 안착을 위해 실천해야 할 사항들을 논의함
출처 : 한국생명공학연구원 디지털바이오혁신센터 자체 작성 |
[그림 1] 바이오 빅데이터 기반 데이터 주도 연구 흐름도 |
2 주요 동향 및 이슈
2.1 국내외 바이오 빅데이터 사업 동향
▉︎ 다학제 협력연구의 해외 현황
● NGS를 위시한 생명현상 연구 기법의 비약적인 발전으로 ENCODE 및 TCGA와 같은 다양한 협력 컨소시엄이 추진되어 대용량의 데이터들이 무상으로 제공되고, 다양한 활용연구 결과들이 보고되고 있음
- 국제 협력 컨소시엄이 제공하는 바이오 데이터의 종류 또한 각 컨소시엄의 목표에 따라 매우 다양함
● 이렇듯 여러 가지 데이터 공급처를 통해 연구주제에 맞는 데이터를 활용할 수 있지만, 바이오 데이터의 특성상 그 크기가 매우 커서 전문 데이터 과학자 이외의 일반 연구자가 활용하기는 매우 어려움
- 컨소시엄이 제공하는 데이터는 대부분 인체에서 유래한 정보로써, 시료 제공자의 개인정보 보호를 이유로 데이터의 완전한 활용을 제한하는 경우가 많음. 예를 들어, [표 1]에서 a로 표시한 컨소시엄은 2차 가공 데이터는 제공하지만 원천 데이터의 활용은 제한함
● 바이오 데이터 활용에 있어서 기술적·정책적 제약이 존재하지만, 한편으로는 더 자유롭고 활발한 바이오 데이터 공유와 협력 연구의 필요성이 강력히 제기되고 있음(Clinical Cancer Genome Task Team, et al., 2017)
- 국제 컨소시엄에서 제공하는 바이오 데이터를 쉽게 활용하기 위해 cBioPortal, AACR GINIE, 및 OncoKB(Chakravarty, et al., 2017)와 같은 여러 가지 2차 가공 데이터베이스들이 구축되어 유용한 정보들이 제공되고 있음
- 특히 cBioPortal(https://www.cbioportal.org)은 사용하기 쉽고 다양한 시각화 기능을 제공하여, TCGA를 비롯한 다양한 1, 2차 DB까지 통합하여 유용한 정보를 제공하고 있음
출처 : https://www.cbioportal.org |
[그림 2] cBioPortal 메인 페이지 |
● TCGA와 같은 국제 컨소시엄 데이터를 비롯하여 AACR GINIE 및 OncoKB와 같은 2차 가공 DB까지 cBioPortal에서 다루고 있는 것은, cBioPortal 웹서비스의 직관적이고 쉬운 사용성, 다양한 시각화, 분석에 바로 적용할 수 있는 2차 가공 데이터의 쉬운 다운로드 기능 때문이라 할 수 있음. 이는 바이오 빅데이터의 활용성 증진을 위해 서비스 시스템이 갖추어야 할 필수 조건으로 사료됨
...................(계속)
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
지식
- BioINwatch 전 세계 바이오 연구 커뮤니티를 위한 강력한 리소스, 영국 바이오뱅크(UK Biobank) 2024-06-20
- BioINpro [3D 바이오프린팅 기술] 인공지능 기반 3D프린팅 기술 및 생체의료분야 적용 기술동향 2024-04-19
- BioINwatch 정밀의료를 위한 새로운 접근, 기능 정밀의학(Functional precision medicine) 2024-02-27
- BioINwatch 유전체 분석에 따른 정밀의료 프레임워크 설계 및 치료효과 향상에 관한 보고 2022-10-14
- BioINpro 암 오가노이드 연계 항암제 검색 및 면역세포 치료기술 2019-07-25