바이오 빅데이터
헬스케어 산업의 패러다임이 질병 치료 및 의료기관 중심에서 사전 예방 및 소비자 중심으로 변화함에 따라 바이오·의료산업 전반의 생태계적 변화가 일어나고 있다. 바이오·의료 관련 데이터의 양적 증가와 함께 인공지능, 클라우드, 딥러닝 등 분석기술의 발전에 따라 바이오 관련 빅데이터의 분석·활용의 중요성이 대두되고 있다. 개념 및 동향 자세히 보기-
BioINpro 유전체 관련 바이오 빅데이터 분석 활용 및 시사점 유전체 관련 바이오 빅데이터 분석 활용 및 시사점 한국과학기술정보연구원 슈퍼컴퓨팅응용센터 염민선 1. 개요와 현황 생명현상의 유전 및 형질의 발현과 관련된 정보를 포함하는 유전체 관련 바이오 빅데이터는 유전체 데이터, 전사체 데이터, 대사체 데이터, 단백체 데이터, 후성유전체 데이터 등으로 구성된다. 이들 유전체 관련 데이터에 대해 간략히 설명하면 다음과 같다. 한 개체를 만들기 위해 필요한 DNA 염기 서열을 의미하는 유전체를 분석함으로써 각 생명체가 가진 유전자를 파악하고 어떤 특징을 보이는지 이해할 수 있다. 그러나 생명체는 자신이 가진 유전체에 들어 있는 모든 유전자를 항상 발현하는 것이 아니고, 자신이 가진 유전자를 특정 상황에 맞게 발현시켜 외부 환경에 대응한다. 어떤 생명체가 특정 환경에서 어떻게 대응하는지를 파악하기 위해서는 DNA에서 RNA로 서열 정보가 전달되는 과정을 통해 만들어진 물질들을 분석하면 된다. 이처럼 DNA에서 RNA로 서열 정보가 전달되는 과정을 통해 만들어진 물질들의 총합을 의미하는 전사체 데이터를 분석하는 것은 각 생명체가 가진 여러 대사 경로나 기타 여러 생명현상들의 상호 상관관계를 파악하는데 매우 유용하다. 생명체가 부모로부터 물려받은 유전 정보는 변하지 않더라도 유전자의 발현은 평생 살아가면서 끊임없이 외부 환경에 따라서 변화한다. DNA 염기 서열의 변화 없이도 DNA 메틸화, 히스톤의 변형, 염색질 리모델링에 의해 유전자 발현 패턴 및 활성이 변화되고, 이것이 다음 세대로 유전되는 현상을 연구할 때 사용되는 것이 후성유전체 데이터이다. DNA 분자에 메틸기가 첨가되어 세포에서 유전자 표현형을 변화시키는 DNA 메틸화, 염색질을 구성하는 기본단위인 뉴클레오솜의 중심 단백질인 히스톤에 메틸화, 인산화, 아세틸화가 일어나는 히스톤 변형, 히스톤의 화학적 구조는 바뀌지 않고 염색질 구조가 변화되는 염색질 리모델링이 DNA 염기서열이 아닌 다른 부분의 변화로 유전자 발현이 일어나는 후성 유전의 대표적인 경우이다. 유전자형과 그 조절 결과에 의해서 생겨나는 모든 대사물질의 발현을 유전체와 연관시켜 분석하는데 사용되는 대사체 데이터는 생체 내에서 일어나는 다양한 생리적 또는 병리적인 현상에 관하여 유용한 정보를 제공한다. 염기 서열 정보를 분석해야하는 유전체 및 전사체와 달리 저분자 대사물질을 대상으로 하는 대사체 분석은 고분해능 핵자기공명(NMR) 분광분석기, 질량 분석기(MS), 액체크로마토 그래피(LC)와 같은 분석기기를 사용한다. 생명 활동의 기본 단위인 단백질과 관련된 단백체학은 단백질 동정(Protein identification), 단백질체 프로파일링, 단백질간의 상호작용, 단백질 전사 후 수식 분석(Post-translational modification), 특정 단백질 및 그와 상호작용하는 단백질들의 구조적인 특성 연구, 단백질 상호 작용 표면 분석(Interface analysis of protein-protein interaction), 당쇄 구조 분석(Glycan structure analysis) 등을 수행하며, 주로 물질의 질량을 질량 대 전하의 비로 측정하는 질량분석기를 사용하게 된다. 나. 현황 바이오헬스 관련 연구 및 산업, 농업 및 해양수산업 등에서 유전체 관련 바이오 빅데이터의 중요성이 증가함에 따라 해외 주요국들은 30~40년 전부터 바이오 데이터를 수집하여 활용성을 높이기 위해 노력하고 있으며, 미국(NCBI), 유럽(EBI), 일본(DDBJ)는 1980년대부터 전 세계를 상대로 바이오 데이터를 수집하고, 바이오 데이터를 활용한 다양한 연구를 활발히 진행하고 있다. 해외 주요국의 바이오 데이터센터들이 보유하고 있는 데이터 현황은 다음과 같다. [표1] 해외 주요국의 생명정보 수집기관 현황(’19년) 구분 미국 유럽 일본 중국 기관명 NCBI EBI DDBJ NGDC 설립년도 1988 1992 1987 2015 등록데이터 GenBank Sequence 215,333,020건, Whole Genome Shotgun Sequence 1,127,023,870건 Sequence 24억 3천 9백만건 Bases 6조 9천억건 Sequence 2,144,934,739건, Base 5,462,873,898,835건 - ※ 출처 : 생명공학정책연구센터(2020), BioINpro 바이오연구데이터 동향과 시사점 또한 미국, 영국 등 해외 주요국들은 미래의료 시장을 사전에 선점하기 위해 수십만에서 수백만 명 규모의 유전체 데이터와 임상 데이터를 구축하는 사업을 진행 중이다. 해외 주요국들이 진행하고 있는 바이오 빅데이터 구축 사업은 미국의 All of Us, 영국의 100K Genomes, 중국의 정준의료계획 등이 있다. [표2] 해외 바이오 빅데이터 구축 현황 국가 프로그램명 내용 미국 All of Us Research Program ∎데이터·생체자원 DB화를 위해 최소 10년 간 100만 명의 유전체· 생체시료· 환경적 정보(식습관, 생활습관 등)·의무 기록 등을 수집하는 세계 최대 규모의 프로젝트 영국 100,000 Genomes ∎2012년 10만명 규모의 전장 유전체 시퀀싱 결과와 NHS의 의료자원을 연계하여 희귀질환, 유전질환, 암, 전염병의 유전학적 원인 규명 ∎향후 500만명 목표로 유전체 생산 사업을 확대·개편(‘19~) 중국 정준의료계획 (精準醫療計劃) ∎PB급 이상 데이터를 구축하는 ‘정밀의료 빅데이터 플랫폼 구축’ 프로젝트 ∎중증질환과 유전체의 인과관계 규명을 통한 정밀의료실현을 목표로 100만명 이상의 유전체 분석을 추진 일본 질병 극복을 위한 게놈의료 실현화 프로젝트 ∎유전체 정보를 활용해 환자의 특성에 따른 최적의 맞춤형 치료 서비스를 제공 목표 ∎바이오 뱅크에 기 축적된 40만 명의 규모의 보유 시료・정보의 활용 추진 핀란드 핀젠프로젝트 (FinnGenResearch Project) ∎게놈데이터와 건강정보 결합에 의한 의학 혁신을 창출하고,맞춤 헬스케어 및 새로운 맞춤 치료제를 제공하여 건강 혁신을 이룩하고자 50만명의 유전체 데이터 수집 ※ 출처 : 국가 통합 바이오 빅데이터 구축 사업 기획보고서, 2021년도 ...................(계속) ☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
- 등록일 2021.11.30
- 출처 염민선/한국과학기술정보...
-
BioINglobal 생명공학기술, 빅데이터 그리고 인공지능 : 스위스 바이오협회 연간 리포트 2020 스위스 바이오협회 연간 리포트 2020 : 생명공학기술, 빅데이터 그리고 인공지능 작성자 : 스위스 바이오협회 (Swiss Biotech) 출처: Swiss Biotech Report, 2020. https://www.swissbiotech.org/report/ 【요약】 ① 스위스 생명공학 산업은 2018년 CHF 40억에 비해 거의 48억 CHF의 수익을 창출했으며, 주로 협력 및 라이센스 계약을 통해 발생했음 ② 재정은 지난 2년간의 "기록적인 해"에 못 미치는 1년으로, 총 12억 CHF를 기록했으며, 공공과 민간 비슷한 수준이었음. ③ 스위스 의약품 관리청은 2019년에 29개의 신약을 승인했으며, 이는 2018년 혁신신약에 대한 31 건의 승인보다 2 건 줄어들었음 【목차】 1. 인사말 2. 스위스 생명공학 산업 통계 개요 3. 혁신 과학기술 3.1 인공지능과 빅데이터를 활용한 의약품 개발 3.2 생명과학에서의 빅데이터 3.3 개인맞춤형 헬스케어 3.4 인공지능관련 생명공학 특허 3.5 생명과학에서의 인공지능 4. 혁신 비즈니스 4.1 다이나믹 스위스 바이오 허브 4.2 SXI Bio+Medtech Index에 따른 5년간 성과 4.3 혁신 예측을 위한 Innosuisse의 역할 4.4 2019년 스위스 생명공학 네트워크 5. 스위스 바이오기업의 성공스토리 6. 2019년 하이라이트 ...................(계속) ☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
- 등록일 2020.05.07
- 출처 생명공학정책연구센터
-
BioINpro 국내외 바이오 빅데이터 현황 및 활용 방안 1. 4차 산업혁명과 바이오 빅데이터
- 등록일 2019.01.31
- 출처 이세민 교수/UNIST...
-
BioINpro 바이오 빅데이터 연구동향 1. 배경 및 필요성 가. 바이오 빅데이터 개념 빅데이터 기반 창출의 방법을 활용해 방대한 바이오 정보를 효율성 있게 정리·해석하고 그 생물 및 의학적인 의미를 밝혀 새로운 지식 및 서비스를 개발하는 것으로 생명과학과 헬스케어의 융합영역을 말한다. 나. 바이오 빅데이터 등장 배경 2,000년에 완성된 인간 게놈프로젝트 이래 현재까지 축적된 엄청난 유전체 정보의 생성량으로부터 의미있는 정보분석 결과를 도출할 필요성이 증대되고 있으며, 아울러 의료서비스 확대와 바이오 산업육성을 통해 관련분야의 발전을 기대하고 있다. 또한 맞춤형 의료서비스에 대한 관심이 늘면서 진료기록과 의료 영상뿐 아니라 유전자 통계와 전염병 현황을 포함한 방대한 보건 의료 정보에서 유의미한 정보를 얻어내는 연구가 활성화되고 있다. [그림 1. BT와 IT의 융합발전과정] ※ 출처 : ‘IT와 Bio가 만나는 블루오션’ - KT경제경영연구소, 2013 2. 국내외 연구동향 가. 국외 연구동향 1) 해외 정책동향 미국은 “Big Data Initiative('13)”에서 빅데이터 R&D에 2억 달러의 투자 계획을 발표했는데, 특히 미국 국립보건원(NIH : National Institutes of Health)을 중심으로 거대하고 복잡한 생물·화학적 데이터처리기술 고도화를 통해 유전체학(Genomics), 단백질체학(Proteomics), 생물정보학(Bioinformatics), 시스템생물학(Systems Biology) 등 대규모 데이터 분석이 요구되는 바이오/보건의료 최첨단 R&D 분야에서 성과를 창출할 것으로 기대하고 있다. 또한 NIH는 빅데이터 과학, 공학 핵심 기술 개발 및 게놈 프로젝트 데이터를 아마존 웹 서비스(Amazon Web Services, AWS)에 무료로 공개하고 있다. EU는 “Data Open Strategy(‘11)”를 발표하고 빅데이터 처리기술 R&D에 ′11~′13년에 걸쳐 1억 유로를 지원하였다. 이어서 ′13~′23년 까지 10년 간 뇌 연구를 위한 HBP(Human Brain Project)에 10억 유로를 투자하기로 발표하였다. 범유럽 차원에서 진행되는 HBP는 각국에 분산된 연구능력을 집중하여 뇌공학(Neuroscience), 뇌의학(Medicine), 미래 컴퓨팅(Future Computing) 등 3가지 영역에 목표를 두고 진행되는 대규모 프로젝트이다. HBP는 뇌에서 생성되는 무수히 많은 데이터를 ICT 기술을 기반으로 분석하려는 시도를 진행 중이며, ICT 기반 통합 연구 플랫폼 구축을 통해 기존의 전통적 뇌 연구 관점과는 다른 시각으로 뇌를 이해하고 새로운 해석을 제공할 수 있을 것으로 기대된다. 또한 EU집행위원회는 공공데이터 개방에 따른 경제성장을 통한 고용창출 효과를 인식하고 ?11년 Europe Digital Agenda의 일환으로 보건의료를 포함하여 모든 공공데이터의 온라인 개방을 의무화한 Open Data Strategy를 발표하였다. 일본 총무성 산하 정보통신심의회는 ?12년 ICT기반의 개인·사회·국가 발전전략인 Active Japan ICT를 수립하였으며 빅데이터의 활용과 R&D투자, 인력양성, 기반구축을 통해 보건의료 등 사회과제 해결을 추진하고 있다. [표 1. 주요국 관련 정책 주요내용] 구분 정책 내용 미국 Big Data Initiative(’12.3) -정부가 지닌 공공데이터를 개방하여 유전자 연구 및 의료, 교육, 국방, 과학기술 등의 분야에서 빅데이터 활용 효과가 뛰어난 분야의 기관들이 우선적으로 참여 -특히 국립보건원(NIH)는 복잡한 생물·화학적 데이터 처리에 관심을 갖고 있으며 유전체학(genomics), 단백질체학(proteomics), 생물정보학(bioinformatics), 시스템생물학(systems biology) 등 대규모 데이터의 분석과 처리가 요구되는 보건의료 R&D분야에서 성과 창출을 기대 영국 Open data strategy(’12.3) -부처별 의료, 교육, 세금, 고용, 기상 등의 데이터에 대해 2015년까지 개방을 확대. 2013년부터 700만 파운드 지원 EU Open data strategy(’11.5) -영국, 독일 등 일부 회원국의 공공 데이터 개방에 따른 경제성장 및 고용창출효과를 인식함에 따라, 유럽 데이터 포털 개설 -’11~’13년에 걸쳐 1억 유로를 데이터 처리기술 R&D지원에 투자 일본 Active Japan(’12.5) 중 Active Data -Active Data는 빅데이터 활용을 통한 재난관리 등과 더불어 수십 조엔 규모의 데이터 활용 시장 창출을 목표로, ’13년 89억 3천 엔의 예산이 투입될 예정 -‘Active Communication’을 통해 빅데이터 전송기반이 되는 인프라구축을 병행 추진 예정 ※ 출처 : '빅데이터를 활용한 보건산업 신산업 전망 및 정책방향' 재편집 - KHIDI, 2013 2) 해외 시장동향 미국의 게놈 진단 회사인 카디오엑스(CardioDX)에서는 유전자를 분석해 초기 단계에서 관상 동맥 질환을 식별할 수 있는 진단 시스템 ‘코러스 캐드(Corus CAD)'를 개발하여, 다양한 환자의 혈액을 수집 후 증상을 분석하고 원인을 혈액 분석 결과와 함께 연동하여 관리함으로써, 의사가 환자에 대한 증상을 자문하기 위한 시스템이나 환자를 적절한 전문의에게 연결하도록 지원하고 있다. IBM의 수퍼컴퓨터인 Watson은 빅데이터 분석능력과 인공지능을 결합하여 클라우드 컴퓨팅을 통해 의료진의 데이터 활용도를 향상시키는 서비스 제공하고 있다. 이 외 많은 기업들이 바이오산업에 있어서 빅데이터 기술을 활용하여 서비스를 제공하고 있다. [표 2. 바이오 기업들의 빅데이터 활용 주요서비스] 기업명 소재지 주력분야 lllumina 캘리포니아(미국) ·시퀀싱기기, 염기서열 분석 서비스 BGI 베이징(중국) ·염기서열 분석 서비스 Foundation Medicine 메사츄세스(미국) ·염기서열 분석에 기반한 맞춤형 치료 Genome Liberty 뉴저지(미국) ·유전자-약물 상호 관계 분석에 기반한 약물 유전체학 테스트 Genophen 캘리포니아(미국) ·유전체 정보와 환경적 요인을 융합한 질병 리스크 분석 및 예방법 제안 ATLAS Sports Genetics 콜로라도(미국) ·개인의 운동 적성 테스트 Genetic Performance 더블린(아일랜드) ·운동 적성 테스트 및 맞춤형 체중관리 프로그램 Nutrigenomix 토론토(캐나다) ·만성질환 예방을 위한 맞춤형 식단 프로그램 23andMe 캘리포니아(미국) ·개인의 선조 찾기 및 염기서열 데이터 제공 ※ 출처 : 빅데이터를 활용한 보건의료산업 활성화를 위한 사업 및 제도개선 방안 - ITSA, 2014 나. 국내 연구동향 1) 국내 정책동향 지난 5년간 우리나라 빅데이터 R&D 투자는 지속적으로 증가하고 있으며 국가적인 현안문제 해결 등을 위해 창의적 서비스를 발굴하고, 신성장동력을 창출하기 위해 부처별 사업을 추진하고 있다. [그림 2.바이오산업 분야 부처별 정책방향] ※ 출처 : ‘바이오빅데이터 포럼 10월 미래부 발표자료’, 2013 또한 '11년 국가정보화전략위원회의 “빅데이터를 활용한 스마트정부 구현(안)”에서 빅데이터의 활용을 통한 과학기술·의료 선진화 이니셔티브를 공개한바 있다. 관련 내용으로는 DNA ㆍ의료 데이터 공유 및 활용 촉진으로 개인 맞춤형 의료시대 실현을 목표로 하여 폭증하는 바이오데이터의 수집ㆍ관리 및 분석을 바탕으로 의료데이터와의 연계 시스템을 추진하고 있다. [그림 3. 데이터를 활용한 스마트정부 구현(안)] ※ 출처 : 국가정보화전략위원회, 2011 R&D 측면으로 정부는 유전체 기술이 가져올 ‘14년도 신규 사업으로 포스트게놈 신산업 육성을 위한 다부처 유전체 사업을 추진하고 있다. 관련하여 대량의 유전 정보(빅데이터)를 일시에 해독?분석하는 IT기술의 발전으로 개인 유전체 해독에 소요되는 비용과 시간을 감소할 수 있을 것으로 보인다. [그림 4. 다부처 유전체 사업 구성] ※ 출처 : 다부처 유전체 사업, 미래를위한 투자 본격시동, 미래창조과학부 보도자료, 2014 2) 국내 시장동향 공공분야에서 국민건강보험관리공단은 다음소프트와 함께‘국민건강 주의 예보 서비스’제공을 위해 건강보험 빅데이터를 분석, 질병 예측모델을 개발하며 종합적으로 국민건강 주의 예고를 위한 플랫폼을 개발중이다. [그림 5. 국민건강 주의 예보 서비스 개요] [표 3. 민간분야의 주요 기업 관련사업 추진 현황] 기업명 서비스명 내용 다음 소프트 국민건강 주의예보 서비스 국민건강보험관리공단의 건강보험 빅데이터를 분석, 질병 예측모델을 개발하여 종합적으로 국민건강 주의 예고를 위한 플랫폼 개발 보건의료 빅데이터 활용서비스 아산병원, 전자통신연구원, SAS 등과 함께 인플루엔자 예측 서비스, 신종 마약류 인지 및 감지 서비스, 심박변이도 기반 심실부정맥 예측 서비스 등 개발 SGA 빅데이터 기반 의약품 안전성 조기경보 서비스 한국의약품안전관리원과 아주대학교병원과 함께 인터넷상의 소셜정보로부터 병원 임상정보를 연계한 부작용 검증 및 의약품 오남용 모니터링을 제공 마크로젠 차세대 유전체 분석시스템 미국 일루미나社의 'HiSeq X Ten'을 도입하여 유전체 정보에 기반한 개인별 맞춤의학 서비스 계획, 서울대학교 유전체의학연구소와 협력해 아시안 1만 게놈 프로젝트를 추진 계획 KT 조류인플루엔자 확산 방지시스템 농림축산식품부와 함께 빅데이터 분석을 통해 조류인플루엔자(AI) 확산 방지 방안 마련 디엔에이링크 한국인 특이 유전변이 칩을 이용한 한국인 인구집단 유전체 정보구축 포스트게놈 다부처유전체사업의 일환으로, 한국인 염기서열 정보를 바탕으로 한국인에게 최적화된 유전변이 칩을 개발해 당뇨 등 만성질환 유전체 연구의 표준 플랫폼 개발 소프트센 의료정보 빅데이터 솔루션 ‘빅센메드(Big-CenMed)' 정형 및 비정형 데이터를 수집하여 분석하는 의료정보 빅데이터 솔루션으로 병원내 축적된 수많은 의료데이터(환자정보, 검사정보, 진료정보, 수납정보, 처방정보 등)로부터 가치 있는 정보를 찾아내 의료진이 직접 편리하게 사용할 수 있는 분석 시스템 대웅제약 생체나이분석서비스 빅데이터 분산처리 기술인 하둡과 그리드컴퓨팅을 활용한 의뢰인의 DNA정보(유전체)를 분석해 생체기능별 나이를 파악하고, 개인맞춤형 처방 ※ 출처 : ‘빅데이터를 활용한 보건의료산업 활성화를 위한 사업 및 제도개선방안’, 2014 재구성 3. 법?제도적 이슈 현재 범 부처 차원에서 과학기술 빅데이터의 수집·관리 및 공동 활용을 촉진 지원하는 종합적인 법제도 부재로 국가 차원의 미래전략 및 법적 근거 및 관리 규정 수립이 필요하다. [표 4. 국내 바이오빅데이터 관련 법·제도 현황] 구분 보건의료정보 일반 개인정보 개념 ·진료를 목적으로 수집하여 처리하는 개인정보가 포함된 정보 -진료기록부, 수술기록부, 조산기록부, 간호기록부, 환자 명부 등 ·홈페이지 회원정보, 홍보를 위한 연락처 등 일반 개인정보 원칙 ·의료법에 규정이 있는 경우 의료법 우선 적용 -규정이 없는 경우 개인정보보호법 적용 ·개인정보보호법 적용 수집 및 이용 ·의료법 제2조(시행규칙 제14조) -동의없이 수집 가능 -진료목적으로만 사용 가능 ·개인정보보호법 제15조 -동의를 받아 수집 관리 ·개인정보보호법 -제26조 : 위탁시 문서로 위탁하여야 하며 위탁사실을 공개하여야 함 - 제29조 : 안전한 관리를 위해 접근통제, 암호화, 접속기록보관, 물리적 보호조치 등 안전성 확보조치를 하여야 함 -제30조 : 개인정보처리방침을 수립하여 공개하여야 함 -제31조 : 개인정보보호책임자를 지정하여야 함 4. 활성화 방안 바이오 빅데이터 활성화 방안으로 4가지 전략이 필요하다. 첫 번째로, 바이오데이터 공유 및 활용기반 구축 활성화 방안으로, 바이오빅데이터 활용에 공통적으로 필요한 기능을 통합하여 활용 플랫폼 구축 및 산업간 연계를 위한 표준화 추진 등 국가 바이오 빅데이터 지도 구축, 민간 제공, 민간대상 테스트베드 구축 운영을 통한 민간참여 유도가 필요하다. 두 번째로, 바이오 빅데이터 R&D 활성화를 위한 방안으로 바이오 빅데이터 원천기술 및 분석 SW 개발 및 바이오메디칼 분야의 새로운 발견과 치료법, 질병의 사전예방을 가능하게 하는 보건, 질병, 유전자 관련 지식베이스 및 플랫폼 마련이 필요하다. 세 번째로, 산업생태계 조성 및 전문인력 양성을 위한 방안으로, 바이오 빅데이터의 산업기반인 클라우드컴퓨팅, 서버, 플랫폼, 네트워킹, 시각화 기술 분야의 전문 중소기업 및 벤처기업 육성정책과 바이오산업분야 특화형 데이터 사이언티스트 전문인력 양성을 위한 교육 지원이 필요하다. 네 번째로 바이오 빅데이터 법적·제도적 기반조성을 위한 방안으로, 바이오 과학기술 빅데이터의 효율적인 관리와 국가 정책적으로 추진할 전담 조직이 필요하고, 국가 과학기술 빅데이터의 수집, 관리, 공개 및 활용촉진을 위한 법적 근거 및 관리 규정 마련이 절실히 필요한 상황이다. 참고문헌 1. 보건산업진흥원, ‘빅데이터를 활용한 보건산업 신산업 전망 및 정책방향’, 2013 2. LGERI, ?헬스케어의 미래 바꿀 유전체 의학 속도내기 시작했다?, 2014 3. IT서비스산업협회, ‘빅데이터를 활용한 보건의료산업 활성화를 위한 사업 및 제도개선 방안’, 2014 4. KT경제경영연구소, ?IT와 Bio가 만나는 블루오션?, 2013
- 등록일 2014.12.24
- 출처 이인재 팀장/ IT서비...
-
기술동향 바이오 빅데이터 시대…국가가 주도적으로 인프라 구축해야
바이오 빅데이터 활용 인프라 한국생명공학연구원 국가생명연구자원정보센터 이병욱 책임연구원 동양인 중에는 술을 먹으면 얼굴이 금방 빨개지거나 우유를 잘 소화하지 못하는 사람들이 많다. 하지만 서양인들은 그런 경우가 드물다. 원인은 동양인들 유전자에는 서양인과 비교해 술 분해와 관련된 아세트알데하이드 분해효소와 우유의 젖산을 분해하는 락타아제가 부족하기 때문이다. 우리 세포는 부모로부터 물려받은 46개(23쌍)의 염색체를 가지고 있다. 인간 염색체는 약 3억개 DNA 염기(A, C, G, T)들로 구성되어 있으며, 약 2만 개의 유전자를 가지고 있다. 이들 유전자에는 세포와 인간의 많은 부분을 결정하는 ‘유전정보’가 들어있다. 동양인과 서양인의 유전정보 차이에 의해서 술과 우유 분해 능력에 차이가 생기는 것이다. 이러한 유전자에 돌연변이는 암과 같은 다양한 질병의 원인이 되기도 한다. 돌연변이가 일어난 위치와 변이 정보를 알면 암을 예방하거나 치료도 가능하게 되었다. 미국의 유명 여배우 앤젤리나 졸리는 2013년 유전자 검사를 통해 자신이 유방암 관련 유전자인 'BRCA1'에 돌연변이가 있다는 것을 알게 되었다. 그녀는 유방암 예방을 위해 자신의 유방을 모두 절제하였다. 애플 창업자인 스티브 잡스 역시 췌장암 치료를 목적으로 개인 유전체 서열을 분석하여 암의 원인이 되는 돌연변이를 찾아서 치료하려고 시도하였지만, 아쉽게도 무위로 돌아갔고 2011년 운명하였다. 2000년대 초 인간 DNA 염기서열 전체를 해독한 인간 유전체 지도 초안이 발표되었다. 이는 유전체 빅데이터 시대 서막을 알리는 역사적인 전환점이었다. 하지만 당시 한 명의 유전체 해독을 위해 10년이라는 기간과 3조원 비용이 소요된다는 것은 유전체 대중화를 막는 장애물이었다. 2005년 새롭게 등장한 차세대 유전체 서열결정(NGS) 기술과 이후 급속한 기술발달은 이러한 문제를 해결하였으며 지금은 50만원과 1주일 시간으로 개인 유전체를 생산할 수 있게 되었다. 이는 병원에서 MRI나 초음파 진료와 유사한 수준 비용으로 개인 유전체 정보를 얻을 수 있다는 것을 의미한다. 유전체 생산 비용의 급격한 감소는 대량의 데이터들이 쏟아지게 했다. 빅데이터로부터 새로운 지식을 생산하는 시대가 열리게 되면서 실험과 이론 중심의 바이오가 데이터가 중심이 되는 과학으로 패러다임이 변화하게 되었다. 하지만 데이터 생산 비용의 감소가 빅데이터의 활발한 활용으로 바로 연결된다는 것을 의미하지는 않는다. 대량의 바이오 데이터를 활용하기 위해서는 빅데이터 기술과 활용 인프라 구축이 필요하다. 바이오 빅데이터 활용은 전산 인프라, 빅데이터 수집 및 공유, 및 빅데이터 분석 환경의 세 가지 기본요소가 골고루 발전해야 가능하다. 우선 빅데이터 전산인프라 구축을 살펴보자. 사람 한 명 유전체 실험에서 생산되는 정보량은 약 250기가바이트(GB)며, 10만명이면 25페타바이트(PB) 데이터가 생산된다. 1PB는 DVD를 55층 높이 건물로 쌓아 올릴 수 있으며 영화로는 767년간 볼 수 있는 용량이다. 현재 전 세계적으로 10만명 이상의 휴먼 유전체 프로젝트를 수행하는 나라는 우리나라를 포함하여 10개국 이상이다. 이러한 데이터를 개인 연구자 실험실에서 전산 시스템을 구축하여 분석하는 것은 비용적 측면에서 거의 불가능하다. 따라서 필요할 때 전산 인프라를 빌려서 사용하는 클라우드 기술이 바이오 분야에서 활용되고 있다. 또한 빅데이터 저장을 위한 데이터 압축기술과 전송을 위한 빅데이터 전송기술 역시 바이오 분야에서 활발하게 연구되고 있다. 두 번째는 빅데이터 수집과 공유이다. 전국의 대학, 연구소, 병원, 기업 등에서 생산되는 데이터를 한곳으로 모을 수 없다면 빅데이터로 가치가 없다. 흩어져 있는 데이터를 수집하는 체계와 중심기관이 필요하며, 이를 위해 우선 데이터별 표준양식을 정하여야 하며 이는 국제 양식과 호환이 되어야 한다. 수집된 데이터는 전문가의 철저한 품질관리를 통해 연구자들이 믿고 사용할 수 있어야 한다. 이러한 데이터 수집·공유 인프라는 개인이나 기업이 할 수 없으며 국가가 주도적으로 구축하여야 한다. 마지막으로 데이터 분석 환경 구축이다. 과거에는 데이터가 커지면 고성능 컴퓨터를 구매하여 분석 문제를 해결하였다. 하지만 데이터가 너무 방대해진 지금은 아무리 고성능 컴퓨터라고 해도 한 대로는 분석은커녕 저장조차 무리다. 일반적인 인간 전장유전체 실험에서는 약 6억 개의 서열 단편(read)이 생산된다. 각 단편의 원래 위치는 표준 유전체와 비교하여 정렬하는 매핑을 통해서 알 수 있다. 만약 단편 한 개씩 매핑하여 전체 단편의 위치 파악하려면 몇천 년이 걸릴 수도 있다. 이러한 문제는 빅데이터를 분할해서 적당한 용량의 컴퓨터들에게 배정하고 이 컴퓨터들이 일제히 데이터 분석을 한 결과를 취합해 최종적으로 해답을 도출하는 방법으로 해결할 수 있다. 대표적인 예가 구글의 ‘맵리듀스(MapReduce)’라는 알고리즘이다. ‘맵’ 단계는 데이터를 나누는 것에 해당하고 ‘리듀스’ 단계는 각 결과를 취합하는 것이다. 이러한 개념을 도입한 빅데이터 도구가 ‘하둡(Hadoop)’이다. 하둡은 표준 크기의 서버들에 데이터를 분산해서 고속처리하며, 더 많은 데이터를 처리하려면 컴퓨터만 추가하면 된다. 인간 유전체 데이터 분석도 이러한 기술을 이용하면 몇 시간이면 해결할 수 있다. 한국생명공학연구원 국가생명연구자원정보센터(KOBIC)은 국내 최대 바이오 데이터 센터로서 10PB 저장공간과 3,100개 CPU코아를 보유하고 있다. KOBIC은 ‘국가 바이오 데이터 스테이션’을 구축하여 국내 바이오 R&D에서 생산되는 다양한 연구데이터를 수집·공유 인프라를 구축하고 있다. 이를 위해 국내 최초로 국내 연구자들과 협력하여 바이오 데이터 표준양식 51종을 마련하였다. 수집된 데이터는 철저한 전문가 품질관리와 큐레이션을 통해서 연구자들이 쉽게 활용할 수 있도록 하였다. KOBIC은 국내 연구자들의 빅데이터 분석을 위해 클라우드 기반의 빅데이터 서비스인 바이오익스프레스(Bio-Express) 시스템을 개발하였으며, 국내 연구자들이 필요로 하는 분석 SW 및 파이프라인이 설치되어 있어서 연구자들이 원하는 분석을 마음껏 할 수 있다. 마지막으로 빅데이터 분석 최신 기술을 온·오프라인 교육과 지원을 통해 연구자들에게 제공하고 있다. ☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
- 등록일 2021.04.23
- 출처 한국경제
-
기술동향 [BIO ECONOMY REPORT] 바이오빅데이터-데이터가 생명을 살린다
바이오 빅데이터 (Bio BigData) - 데이터가 생명을 살린다(Data Saves Lives) 김태형(테라젠바이오 상무) 개요 인간 게놈을 해독하는데 들어가는 비용은 2006년만 해도 약 1000억 원이 들어갔다. 차세대 염기 해독(NGS, Next Generation Sequencing) 기술 덕분에 현재는 게놈당 100만원이면 시퀀싱이 가능해졌다. 또한 휴먼 게놈 프로젝트 당시만 해도 한 명의 게놈을 해독하는데 수년간의 시간이 들어갔지만 지금은 시간도 엄청 단축되어 48시간 정도면 한 사람의 유전체를 해독할 수 있는 시대가 되었다. 바이오 빅데이터 분야에 있어서 유전체뿐만 아니라 데이터 마이닝 분야에서도 새로운 비즈니스 기회를 창출하려고 하고 있다. 인간 게놈은 30억 개의 염기쌍으로 구성된 약 2만 개의 유전자로 구성된 3 기가바이트의 데이터이다. 서열 이외에도 구조/기능 해석, 질병 상관관계, 인구 집단내 차이 등의 가치 있는 데이터들을 어떻게 마이닝을 하느냐에 따라서 엄청난 보석을 얻을 수가 있는 무궁무진한 데이터이다. 이 데이터를 기반으로 다양한 기업 및 연구소들은 암, 유전질환 및 만성질환 환자들을 진단하고 치료하기 위해 다양한 오믹스 빅데이터 및 인공지능 기술을 적용하고 있다. 이러한 가치 있는 바이오 빅데이터들을 활용하고 공유하기 위한 많은 시도도 함께 이뤄지고 있다. 이번 호에서는 바이오 빅데이터가 적용된 사례 위주로 소개하고자 한다. 출처: GA4GH 2017년까지만 해도 미국 국립생명공학정보센터(NCBI)에 등록되는 유전체 데이터가 약 2년마다 2배씩 증가 되고 있다고 했다. 이 기록은 최근에 그 주기가 더 짧아져 7개월밖에 되지 않을 정도로 유전체 데이터가 급속히 모이고 있다. [1] 여기에 가장 강력한 주체가 되어 가고 있는 단체로 GA4GH(Global alliance for genomic & health) 컨소시엄은 향후 몇 년 간 우선적으로 진행할 유전체와 임상 데이터를 수집하고 안전하게 공유하는 기술 및 표준화 개발 로드맵을 발표했다. GA4GH는 정밀 의료를 위한 표준화와 프레임웍을 만들기 위한 컨소시엄 형태의 프로젝트로 625개 기관 회원으로 구성된 큰 단체로 발전했다. 이들은 2025년까지 약 1억 명 이상의 환자 유래 유전체와 임상 데이터가 전 세계적으로 모일 거라고 예상하며 이를 위해 이 데이터들이 전 세계 연구자 및 기업들이 참여해 활용할 수 있게 이들 데이터를 안전하게 공유하는 시스템을 구축하겠다고 발표했다. [2] 이러한 바이오 빅데이터를 가장 먼저 생산하고 활용을 가장 먼저 실행하고 있는 국가는 영국이다. 2012년 캐머런 수상이 발표한 영국 10만 명 유전체 프로젝트의 구체적인 실행을 위해 영국 NHS는 공공기업인 지놈잉글랜드를 설립하고 이후 5년 만인 2018년 10만 명 유전체 해독을 모두 완료했다. 2019년 10월 1일부터는 전체 국민을 대상으로 ‘Data Saves Lives'를 위해 유전체 검사를 진행하기로 결정했다. 그리고 이렇게 모인 유전체/임상 데이터로 최대한 고부가가치를 만들기 위해 5개 유전체 기업과 13개 글로벌 제약사로부터 연구비/기술/노하우도 기부받고 각 영리 기업들이 이 데이터를 활용해 미래의 진단기술과 신약개발을 하도록 적극 독려하고 있다. 최근 영국 보건복지부 장관은 유전체의학을 통해 향후 5년 안에 500만 명 유전체를 확보한다는 계획도 추가로 발표했다. [3] ...................(계속) ☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
- 등록일 2020.09.17
- 출처 한국바이오협회
-
산업동향 빅데이터 시대의 바이오산업 : 해외 동향 및 국내환경 변화의 필요성
출처 : 과학기술정책연구원 빅데이터 시대의 바이오산업: 해외 동향 및 국내환경 변화의 필요성 글 : 김운봉 한국생명공학연구원 생명정보센터(KOBIC)장 Ⅰ. 개요바야흐로 빅데이터를 일상생활을 통하여 피부로 느낄 수 있는 시대가 되었다. 우리가 지닌 핸드폰만으로도 다양한 SNS의 정보를 생산하고 접근 할 수 있을 뿐만 아니라, 스마트폰에 연결된 고도의 융합기술을 접할 수 있게 되었다. 만보기, 혈압, 수면상태 측정 등의 비교적 간단한 기술부터, Google의 스마트 렌즈처럼 평범한 콘텍트 렌즈와 같아 보이지만 일렉트릭 센서를 갖고 있어 눈물의 당 함량을 실시간으로 모니터링 하고 연결된 스마트폰 앱을 통해 당뇨병의 위험도를 지속적으로 감지하거나, 입의 냄새를 인식하는 나노센서를 스마트폰과 연결하여 특정한 질병들에 대한 감수성 여부를 판단하는 등 고도화된 첨단의 다양한 기기들이 꾸준히 개발되고 있다. 이와 같은 다양한 나노 테크놀로지와 병합한 디지털 데이터의 생산 및 분석 기술과 스마트 기기로 연결되는 빅데이터의 실용화는 다양한 분야에 빠르게 응용되고 있다. ...................(계속) ☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
- 등록일 2015.12.15
- 출처 과학기술정책연구원
개념 및 동향 자세히 보기
헬스케어 산업의 패러다임이 질병 치료 및 의료기관 중심에서 사전 예방 및 소비자 중심으로 변화함에 따라 바이오·의료산업 전반의
생태계적 변화가 일어나고 있다. 바이오·의료 관련 데이터의 양적 증가와 함께 인공지능, 클라우드, 딥러닝 등 분석기술의 발전에
따라 바이오 관련 빅데이터의 분석·활용의 중요성이 대두되고 있다.
이에 우리나라를 포함한 주요국들은 국가 차원에서 바이오 빅데이터 확보, 관리, 공유, 활용을 위한 정책을 펼치고 있으며, 대규모 빅데이터 구축 사업을 추진하고 있다. 바이오분야 빅데이터 분석은 개인 맞춤 의료 제공, 의료비 절감, 신약개발(예, 유전체·임상·건강정보 등 바이오 빅데이터를 활용하여 코로나19 치료제 개발 시간 단축) 등에 활용할 수 있다.
여기에서는 바이오인에서 담고 있는 바이오 빅데이터에 관련된 다양한 자료들을 종합적으로 살펴볼 수 있다.
바이오 빅데이터,
정밀의료 실현 및
신약개발 등 활용
주요국 정책 및
법·제도적 이슈
바이오 빅데이터
관련 기업 동향
내용 출처
○
바이오 빅데이터란, 빅데이터 기반 창출의 방법을 활용해 방대한 바이오 정보를 효율성 있게 정리·해석하고 그 생물 및 의학적인 의미를 밝혀
새로운 지식 및 서비스를 개발하는 것으로 생명과학과 헬스케어의 융합영역을 말한다.
○
바이오분야 빅데이터는 유전정보, 전자의무기록(EHR), 약물반응성 데이터, 임상정보, 생활습관 데이터, 개인건강관리 기기 데이터
등이 포함된다.
수집된 다양한 빅데이터들의 통합·분석을 통해 개인의 건강증진(질병 예방, 치료효과 향상 및 부작용 감소 등), 의료비용 절감, 신약개발 등에 활용 가능하다.
○
미국, 영국, 일본 등 주요국은 글로벌 바이오헬스 시장 선점을 위해 보유한 데이터를 정비하고 데이터 제출 및 관리계획 수립을 의무화하며
규정 마련으로 자국 내 공유를 장려하고 있다.
- 대규모로 통합된 바이오 빅데이터 구축 사업을 추진중으로 미국은 100만명 이상의 코흐트를 구축하는 All of Us 프로그램을,
영국은 50만명의
UK biobank 프로젝트를, 우리나라에서도 100만명 이상의 ‘국가 통합 바이오빅테이터 구축 사업’을 추진, 현재 시범사업이 진행되고 있다.
○
2019년 전면 시행된 유럽연합의 ‘일반개인정보보호법(GDPR)’은 전세계에서 가장 광범위한 영향력을 미치는 정보보호 법제로,
데이터 활용과
정보보호의 조화를 추구하여 데이터 산업 활성화를 지원한다. 국내에서도 2020년 1월 데이터 이용 활성화를 위한 ‘데이터 3법*’ 개정안이 국회를 통과하였다.
* 개인정보보호법, 정보통신망 이용촉진 및 정보보호 등에 관한 법률, 신용정보의 이용 및 보호에 관한 법률
○
인공지능, 딥러닝 등 최신 기술과의 접목을 통해 바이오/의료 빅데이터 분석이 가능해지면서 다양한 비즈니스 모델이 창출되기
시작하였다.
IBM 왓슨을 대표주자로 로슈, 애플, 구글 등이 관련 서비스를 출시하였고, 23andMe와 유전체 분석기업들도 고객의 유전체 정보를 활용하여
신약개발에 활용하기 시작하였다.
○
생명공학정책연구센터, [2014년 전문가리포트 7호] 바이오 빅데이터 연구동향, 2014,12
○
생명공학정책연구센터, [BioINwatch 20-13] 유전자 분석기업 23andMe, 신약 후보물질 자체개발하여 기술수출, 2020,2
○
과학기술정보통신부·보건복지부 등, 국가 통합 바이오 빅데이터 구축 발표자료, 2020.11
○
생명공학정책연구센터, [BioINpro 71호] 데이터 3법 개정에 따른 바이오·의료정보 활용방향과 시사점, 2020.1
○
국가통합바이오벡데이터구축사업 홈페이지(
https://bighug.kdca.go.kr/bigdata/
)