유전체 관련 바이오 빅데이터 분석 활용 및 시사점

검색연산자, 기능, 검색식 예
검색연산자	기능	검색식 예
()	우선순위가 가장 높은 연산자	예1) (나노 & (기계 Ⅰ machine))
&,공백	두 개의 검색어(식)를 모두 포함하고 있는 문서 검색	예1) 나노 & 기계
\|	두 개의 검색어(식) 중 하나 이상 포함된 문서 검색	예1) 줄기세포 \| 면역
~	~ 이후에 있는 검색어가 포함된 문서는 제외	예1) 황금 ~ 백금

등록일2021-11-30
조회수9979
분류플랫폼바이오 > 바이오기반기술, 플랫폼바이오 > 바이오융합기술

저자/소속
염민선/한국과학기술정보연구원
발간일
2021-11-30
키워드
#유전체#바이오 빅데이터#genomics#bio big data
첨부파일
- [BioINPro 96호] 유전체 관련 바이오 빅데이터 활용 및 시사점_... (다운로드 768회) 다운로드 바로보기
차트+ ? 차트+ 도움말
더보기

접기

유전체 관련 바이오 빅데이터 분석 활용 및 시사점

한국과학기술정보연구원 슈퍼컴퓨팅응용센터 염민선 염민선.png

1. 개요와 현황

생명현상의 유전 및 형질의 발현과 관련된 정보를 포함하는 유전체 관련 바이오 빅데이터는 유전체 데이터, 전사체 데이터, 대사체 데이터, 단백체 데이터, 후성유전체 데이터 등으로 구성된다.

이들 유전체 관련 데이터에 대해 간략히 설명하면 다음과 같다.

한 개체를 만들기 위해 필요한 DNA 염기 서열을 의미하는 유전체를 분석함으로써 각 생명체가 가진 유전자를 파악하고 어떤 특징을 보이는지 이해할 수 있다. 그러나 생명체는 자신이 가진 유전체에 들어 있는 모든 유전자를 항상 발현하는 것이 아니고, 자신이 가진 유전자를 특정 상황에 맞게 발현시켜 외부 환경에 대응한다. 어떤 생명체가 특정 환경에서 어떻게 대응하는지를 파악하기 위해서는 DNA에서 RNA로 서열 정보가 전달되는 과정을 통해 만들어진 물질들을 분석하면 된다. 이처럼 DNA에서 RNA로 서열 정보가 전달되는 과정을 통해 만들어진 물질들의 총합을 의미하는 전사체 데이터를 분석하는 것은 각 생명체가 가진 여러 대사 경로나 기타 여러 생명현상들의 상호 상관관계를 파악하는데 매우 유용하다.

생명체가 부모로부터 물려받은 유전 정보는 변하지 않더라도 유전자의 발현은 평생 살아가면서 끊임없이 외부 환경에 따라서 변화한다. DNA 염기 서열의 변화 없이도 DNA 메틸화, 히스톤의 변형, 염색질 리모델링에 의해 유전자 발현 패턴 및 활성이 변화되고, 이것이 다음 세대로 유전되는 현상을 연구할 때 사용되는 것이 후성유전체 데이터이다.

DNA 분자에 메틸기가 첨가되어 세포에서 유전자 표현형을 변화시키는 DNA 메틸화, 염색질을 구성하는 기본단위인 뉴클레오솜의 중심 단백질인 히스톤에 메틸화, 인산화, 아세틸화가 일어나는 히스톤 변형, 히스톤의 화학적 구조는 바뀌지 않고 염색질 구조가 변화되는 염색질 리모델링이 DNA 염기서열이 아닌 다른 부분의 변화로 유전자 발현이 일어나는 후성 유전의 대표적인 경우이다.

유전자형과 그 조절 결과에 의해서 생겨나는 모든 대사물질의 발현을 유전체와 연관시켜 분석하는데 사용되는 대사체 데이터는 생체 내에서 일어나는 다양한 생리적 또는 병리적인 현상에 관하여 유용한 정보를 제공한다. 염기 서열 정보를 분석해야하는 유전체 및 전사체와 달리 저분자 대사물질을 대상으로 하는 대사체 분석은 고분해능 핵자기공명(NMR) 분광분석기, 질량 분석기(MS), 액체크로마토 그래피(LC)와 같은 분석기기를 사용한다.

생명 활동의 기본 단위인 단백질과 관련된 단백체학은 단백질 동정(Protein identification), 단백질체 프로파일링, 단백질간의 상호작용, 단백질 전사 후 수식 분석(Post-translational modification), 특정 단백질 및 그와 상호작용하는 단백질들의 구조적인 특성 연구, 단백질 상호 작용 표면 분석(Interface analysis of protein-protein interaction), 당쇄 구조 분석(Glycan structure analysis) 등을 수행하며, 주로 물질의 질량을 질량 대 전하의 비로 측정하는 질량분석기를 사용하게 된다.

나. 현황

바이오헬스 관련 연구 및 산업, 농업 및 해양수산업 등에서 유전체 관련 바이오 빅데이터의 중요성이 증가함에 따라 해외 주요국들은 30~40년 전부터 바이오 데이터를 수집하여 활용성을 높이기 위해 노력하고 있으며, 미국(NCBI), 유럽(EBI), 일본(DDBJ)는 1980년대부터 전 세계를 상대로 바이오 데이터를 수집하고, 바이오 데이터를 활용한 다양한 연구를 활발히 진행하고 있다. 해외 주요국의 바이오 데이터센터들이 보유하고 있는 데이터 현황은 다음과 같다.

[표1] 해외 주요국의 생명정보 수집기관 현황(’19년)

구분	미국	유럽	일본	중국
기관명	NCBI	EBI	DDBJ	NGDC
설립년도	1988	1992	1987	2015
등록 데이터	GenBank Sequence 215,333,020건, Whole Genome Shotgun Sequence 1,127,023,870건	Sequence 24억 3천 9백만건 Bases 6조 9천억건	Sequence 2,144,934,739건, Base 5,462,873,898,835건	-

※ 출처 : 생명공학정책연구센터(2020), BioINpro 바이오연구데이터 동향과 시사점

또한 미국, 영국 등 해외 주요국들은 미래의료 시장을 사전에 선점하기 위해 수십만에서 수백만 명 규모의 유전체 데이터와 임상 데이터를 구축하는 사업을 진행 중이다. 해외 주요국들이 진행하고 있는 바이오 빅데이터 구축 사업은 미국의 All of Us, 영국의 100K Genomes, 중국의 정준의료계획 등이 있다.

[표2] 해외 바이오 빅데이터 구축 현황

국가	프로그램명	내용
미국	All of Us Research Program	∎데이터·생체자원 DB화를 위해 최소 10년 간 100만 명의 유전체· 생체시료· 환경적 정보(식습관, 생활습관 등)·의무 기록 등을 수집하는 세계 최대 규모의 프로젝트
영국	100,000 Genomes	∎2012년 10만명 규모의 전장 유전체 시퀀싱 결과와 NHS의 의료자원을 연계하여 희귀질환, 유전질환, 암, 전염병의 유전학적 원인 규명 ∎향후 500만명 목표로 유전체 생산 사업을 확대·개편(‘19~)
중국	정준의료계획 (精準醫療計劃)	∎PB급 이상 데이터를 구축하는 ‘정밀의료 빅데이터 플랫폼 구축’ 프로젝트 ∎중증질환과 유전체의 인과관계 규명을 통한 정밀의료실현을 목표로 100만명 이상의 유전체 분석을 추진
일본	질병 극복을 위한 게놈의료 실현화 프로젝트	∎유전체 정보를 활용해 환자의 특성에 따른 최적의 맞춤형 치료 서비스를 제공 목표 ∎바이오 뱅크에 기 축적된 40만 명의 규모의 보유 시료･정보의 활용 추진
핀란드	핀젠프로젝트 (FinnGenResearch Project)	∎게놈데이터와 건강정보 결합에 의한 의학 혁신을 창출하고,맞춤 헬스케어 및 새로운 맞춤 치료제를 제공하여 건강 혁신을 이룩하고자 50만명의 유전체 데이터 수집

※ 출처 : 국가 통합 바이오 빅데이터 구축 사업 기획보고서, 2021년도

...................(계속)

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

목록 스크랩

관련정보

지식

동향

발간물

자료 추천하기

받는 사람 이메일

메일 내용