본문으로 바로가기

BioINglobal

BioINglobal (BioIN + Global + Trend) : 해외 바이오 동향 및 행사 관련 정보 제공

데이터 과학을 위한 NIH 전략 계획

  • 등록일2018-10-11
  • 조회수5000
  • 분류플랫폼바이오 > 바이오기반기술
  • 종류
    Conference
  • 원문링크
  • 발간일
    2018-10-11
  • 키워드
    #NIH 데이터#바이오메디컬 데이터 #데이터 과학
  • 첨부파일

 

[BioINglobal No.15] 데이터 과학을 위한 NIH 전략 계획

 

바이오메디컬 발견 및 혁신을 위한 데이터 가치 극대화

 

 

 


 

※ 본 보고서의 내용은 해외 각국의 보고서 및 언론기사 등을 참고하여 전문가의 시각으로 집필한 원고를 생명공학정책연구센터에서 제공함.

 

 

 


 

 

 

 

 

작성자 : 김치구 행정학 박사
(기술경영경제정책 전공)

 

 

 


 

*출처: National Institute of Health, 2018.06.04.

 

 

※ 본 원고는 원본 원고의 내용을 번역하여 각색한 내용을 포함하고 있습니다.
   (원제 : NIH STRATEGIC PLAN FOR DATA SCIENCE)
(https://datascience.nih.gov/sites/default/files/NIH_Strategic_Plan_for_Data_Science_Final_508.pdf)

 

 

 

서문

 

 

 

미국 국립보건원(National Institute of Health, NIH)의 확대 전략계획(NIH-Wide Strategic Plan)과 미국 보건복지부(Department of Health and Human Services, HSS) 전략 계획에서 설명된 바와 같이 미국과 세계는 바이오메디컬 연구의 중요한 순간에 직면해 있으며, 데이터 과학이 필수적인 기여를 하고 있다. NIH가 후원하는 연구를 통해 기본적인 생물학적 메커니즘을 이해하는 것은 방대한 양의 데이터에 달려 있으며, 국내외 경제의 다른 분야와 함께 생의학을 "빅 데이터" 영역으로 밀어 넣었다. 오늘날의 고도로 통합된 바이오메디컬 연구 환경을 반영하여, NIH는 데이터 과학을 "양적 및 분석적 접근, 프로세스 및 시스템이 개발되고 점점 더 많거나/혹은 데이터의 복잡한 세트로부터 지식과 통찰력을 도출하는 다학제적 분야"로 정의한다.

 

 

 

NIH는 생체 모델들(생쥐, 과일, 파리, 제브라피쉬 포함), 임상 연구들(의학영상 포함), 관찰 및 역학 연구(전자 건강기록 및 웨어러블 장치 포함)를 포함하는 바이오메디컬 연구 데이터의 순차적 생성 및 분석을 지원한다. ‘데이터에 대한 데이터(data about data)’인 메타데이터(Metadata)는 데이터 내용, 문맥 및 구조와 같은 정보를 제공하며, 이 정보는 발견 및 사용할 데이터의 능력에 영향을 미치기 때문에 바이오메디컬 연구 집단에도 유용하다. 메타데이터의 한 가지 예는 참조 인용에 포함된 출판물의 저자들, 형식(예: pdf) 및 위치(DOI 또는 디지털 객체 식별자)와 같은 문헌 정보이다.

 

 

 

2025년까지 유전체 데이터의 총량은 많은 양의 데이터를 생산하는 다른 3대 주요 생산 분야인 천문학, 유튜브, 트위터 등의 총합과 동일하거나 초과할 것으로 예상된다. 실제로, NIH의 국립 생명공학정보센터(National Center for Biotechnology Information, NCBI)에 저장된 차세대 시퀀싱 데이터는 수년간 기하급수적으로 증가해왔으며, 느려질 기미가 보이지 않는다(그림 1. 참조).

 


그림 1. NCBI 데이터 및 서비스의 성장, 1989-2017

 

nih_1.png

 

출처: NCBI(2018)

 

 

 

대부분의 바이오메디컬 데이터의 생성은 광범위하게 분산되어 있으며 주로 개별 과학자나 상대적으로 소규모의 연구자들에 의해 이루어진다. 또한, 데이터는 다양한 형식으로 존재하며, 이는 연구자들이 다른 사람들이 생성한 바이오메디컬 연구 데이터를 찾고 사용하는 능력을 더욱 복잡하게 만들고, 광범위한 데이터 "정화(cleaning)"의 필요성이 대두되도록 한다. 2016년 설문조사에 따르면 다양한 분야의 데이터 과학자는 대부분의 업무 시간(약 80%)을 기존 데이터셋 수집 및 데이터 구성 등 가장 하기 싫은 일을 하는 데 사용한다고 응답했다. 이것은 새로운 연구 발견으로 이어지는 패턴 관련 데이터를 발견하는 것과 같은 창조적인 작업에 그들의 시간 중 20퍼센트 정도를 배정하고 있다는 의미다.

 

 

 

저장, 통신 및 처리의 발전으로 인해 10년 전에는 불가능했던 새로운 연구 방법과 도구가 등장했다. 기계 학습(machine learning), 심층 학습(deep learning), 인공 지능(artificial intelligence) 및 가상현실기술(virtual-reality technologies)은 향후 10년 동안 바이오메디컬 연구를 위한 변형적 변화를 가져올 수 있는 데이터 관련 혁신의 예이다. 기술 집약적인 연구를 최적화하는 새로운 방법을 실험하는 능력은 향후 정책, 접근 방식 및 비즈니스 실행에 관한 결정에 정보를 제공할 수 있고, NIH가 향후 높은 가치의 데이터를 포획, 접근, 유지 및 재사용하는 비용 효율적인 방법을 채택할 수 있게 해준다. 이를 위해 NIH는 기존의 데이터 과학 노력을 더 큰 데이터 생태계로 엮어야 하며, 다양한 민간 파트너십을 통해 현재 및 새롭게 부상하고 있는 데이터 관리 및 기술 전문지식, 컴퓨팅 플랫폼 및 도구를 최대한 활용하고자 한다.

 


오늘날 세계에서 가장 빠른 슈퍼컴퓨터는 매초마다 1000조 개의 계산을 수행한다. 다음 개척지는 엑사급(exascale) 컴퓨팅(petascale보다 1,000배 빠른 속도 또는 매초 1018조 계산)이다. 엑사급 수준의 컴퓨팅에 도달하는 것은 일상 생활에 광대한 영향을 미칠 것으로 예상되는 기술적 이정표이다. 엑사급 수준의 컴퓨팅 속도에서 슈퍼컴퓨터는 인체 내에서 돌아가는 삶의 속도를 보다 현실적으로 모방할 수 있게 되어 임상 데이터를 포함하는 바이오메디컬 연구를 추구하는 새로운 길을 약속할 수 있게 될 것이다. 이러한 데이터 집약적 프로그램은 초기 도입자 및 엑사급 컴퓨팅 추진자 중 하나일 수 있다. 이 프로그램에는 the Precision Medicine Initiative, the Human Connectome project, Advancing Innovative Neurotechnologies(BRAIN®) initiative을 통한 the Brain Research 및 그 외 다른 것들로 구성된 All of Us 연구 프로그램 및 Cancer MoonshotSM이 포함된다.

 

 

 

 

 

...................(계속)

 

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

☎ 해당 사이트 링크가 열리지 않을시 Bioin 담당자(042-879-8377, bioin@kribb.re.kr)에게로 연락주시기 바랍니다.



자료 추천하기

받는 사람 이메일
@
메일 내용