기술동향
바이오 빅데이터 활용 인프라
- 등록일2021-04-23
- 조회수2921
- 분류기술동향 > 플랫폼바이오 > 바이오기반기술
-
자료발간일
2021-04-23
-
출처
한국경제
-
원문링크
-
키워드
#바이오 빅데이터#국가생명연구자원정보센터
- 첨부파일
[바이오리포트] 바이오 빅데이터 활용 인프라
이병욱 / 한국생명공학연구원 국가생명연구자원정보센터 책임연구원
동양인 중에는 술을 먹으면 얼굴이 금방 빨개지거나 우유를 잘 소화하지 못하는 사람들이 많다. 하지만 서양인들은 그런 경우가 드물다. 원인은 동양인들 유전자에는 서양인과 비교해 술 분해와 관련된 아세트알데하이드 분해효소와 우유의 젖산을 분해하는 락타아제가 부족하기 때문이다.
우리 세포는 부모로부터 물려받은 46개(23쌍)의 염색체를 가지고 있다. 인간 염색체는 약 3억개 DNA 염기(A, C, G, T)들로 구성되어 있으며, 약 2만 개의 유전자를 가지고 있다. 이들 유전자에는 세포와 인간의 많은 부분을 결정하는 ‘유전정보’가 들어있다. 동양인과 서양인의 유전정보 차이에 의해서 술과 우유 분해 능력에 차이가 생기는 것이다.
이러한 유전자에 돌연변이는 암과 같은 다양한 질병의 원인이 되기도 한다. 돌연변이가 일어난 위치와 변이 정보를 알면 암을 예방하거나 치료도 가능하게 되었다. 미국의 유명 여배우 앤젤리나 졸리는 2013년 유전자 검사를 통해 자신이 유방암 관련 유전자인 'BRCA1'에 돌연변이가 있다는 것을 알게 되었다. 그녀는 유방암 예방을 위해 자신의 유방을 모두 절제하였다. 애플 창업자인 스티브 잡스 역시 췌장암 치료를 목적으로 개인 유전체 서열을 분석하여 암의 원인이 되는 돌연변이를 찾아서 치료하려고 시도하였지만, 아쉽게도 무위로 돌아갔고 2011년 운명하였다.
2000년대 초 인간 DNA 염기서열 전체를 해독한 인간 유전체 지도 초안이 발표되었다. 이는 유전체 빅데이터 시대 서막을 알리는 역사적인 전환점이었다. 하지만 당시 한 명의 유전체 해독을 위해 10년이라는 기간과 3조원 비용이 소요된다는 것은 유전체 대중화를 막는 장애물이었다. 2005년 새롭게 등장한 차세대 유전체 서열결정(NGS) 기술과 이후 급속한 기술발달은 이러한 문제를 해결하였으며 지금은 50만원과 1주일 시간으로 개인 유전체를 생산할 수 있게 되었다. 이는 병원에서 MRI나 초음파 진료와 유사한 수준 비용으로 개인 유전체 정보를 얻을 수 있다는 것을 의미한다.
유전체 생산 비용의 급격한 감소는 대량의 데이터들이 쏟아지게 했다. 빅데이터로부터 새로운 지식을 생산하는 시대가 열리게 되면서 실험과 이론 중심의 바이오가 데이터가 중심이 되는 과학으로 패러다임이 변화하게 되었다. 하지만 데이터 생산 비용의 감소가 빅데이터의 활발한 활용으로 바로 연결된다는 것을 의미하지는 않는다.
대량의 바이오 데이터를 활용하기 위해서는 빅데이터 기술과 활용 인프라 구축이 필요하다. 바이오 빅데이터 활용은 전산 인프라, 빅데이터 수집 및 공유, 및 빅데이터 분석 환경의 세 가지 기본요소가 골고루 발전해야 가능하다.
우선 빅데이터 전산인프라 구축을 살펴보자. 사람 한 명 유전체 실험에서 생산되는 정보량은 약 250기가바이트(GB)며, 10만명이면 25페타바이트(PB) 데이터가 생산된다. 1PB는 DVD를 55층 높이 건물로 쌓아 올릴 수 있으며 영화로는 767년간 볼 수 있는 용량이다. 현재 전 세계적으로 10만명 이상의 휴먼 유전체 프로젝트를 수행하는 나라는 우리나라를 포함하여 10개국 이상이다. 이러한 데이터를 개인 연구자 실험실에서 전산 시스템을 구축하여 분석하는 것은 비용적 측면에서 거의 불가능하다. 따라서 필요할 때 전산 인프라를 빌려서 사용하는 클라우드 기술이 바이오 분야에서 활용되고 있다. 또한 빅데이터 저장을 위한 데이터 압축기술과 전송을 위한 빅데이터 전송기술 역시 바이오 분야에서 활발하게 연구되고 있다.
두 번째는 빅데이터 수집과 공유이다. 전국의 대학, 연구소, 병원, 기업 등에서 생산되는 데이터를 한곳으로 모을 수 없다면 빅데이터로 가치가 없다. 흩어져 있는 데이터를 수집하는 체계와 중심기관이 필요하며, 이를 위해 우선 데이터별 표준양식을 정하여야 하며 이는 국제 양식과 호환이 되어야 한다. 수집된 데이터는 전문가의 철저한 품질관리를 통해 연구자들이 믿고 사용할 수 있어야 한다. 이러한 데이터 수집·공유 인프라는 개인이나 기업이 할 수 없으며 국가가 주도적으로 구축하여야 한다.
마지막으로 데이터 분석 환경 구축이다. 과거에는 데이터가 커지면 고성능 컴퓨터를 구매하여 분석 문제를 해결하였다. 하지만 데이터가 너무 방대해진 지금은 아무리 고성능 컴퓨터라고 해도 한 대로는 분석은커녕 저장조차 무리다. 일반적인 인간 전장유전체 실험에서는 약 6억 개의 서열 단편(read)이 생산된다. 각 단편의 원래 위치는 표준 유전체와 비교하여 정렬하는 매핑을 통해서 알 수 있다. 만약 단편 한 개씩 매핑하여 전체 단편의 위치 파악하려면 몇천 년이 걸릴 수도 있다. 이러한 문제는 빅데이터를 분할해서 적당한 용량의 컴퓨터들에게 배정하고 이 컴퓨터들이 일제히 데이터 분석을 한 결과를 취합해 최종적으로 해답을 도출하는 방법으로 해결할 수 있다. 대표적인 예가 구글의 ‘맵리듀스(MapReduce)’라는 알고리즘이다. ‘맵’ 단계는 데이터를 나누는 것에 해당하고 ‘리듀스’ 단계는 각 결과를 취합하는 것이다. 이러한 개념을 도입한 빅데이터 도구가 ‘하둡(Hadoop)’이다. 하둡은 표준 크기의 서버들에 데이터를 분산해서 고속처리하며, 더 많은 데이터를 처리하려면 컴퓨터만 추가하면 된다. 인간 유전체 데이터 분석도 이러한 기술을 이용하면 몇 시간이면 해결할 수 있다.
한국생명공학연구원 국가생명연구자원정보센터(KOBIC)은 국내 최대 바이오 데이터 센터로서 10PB 저장공간과 3,100개 CPU코아를 보유하고 있다. KOBIC은 ‘국가 바이오 데이터 스테이션’을 구축하여 국내 바이오 R&D에서 생산되는 다양한 연구데이터를 수집·공유 인프라를 구축하고 있다. 이를 위해 국내 최초로 국내 연구자들과 협력하여 바이오 데이터 표준양식 51종을 마련하였다. 수집된 데이터는 철저한 전문가 품질관리와 큐레이션을 통해서 연구자들이 쉽게 활용할 수 있도록 하였다.
KOBIC은 국내 연구자들의 빅데이터 분석을 위해 클라우드 기반의 빅데이터 서비스인 바이오익스프레스(Bio-Express) 시스템을 개발하였으며, 국내 연구자들이 필요로 하는 분석 SW 및 파이프라인이 설치되어 있어서 연구자들이 원하는 분석을 마음껏 할 수 있다. 마지막으로 빅데이터 분석 최신 기술을 온·오프라인 교육과 지원을 통해 연구자들에게 제공하고 있다.
...................(계속)
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
지식