본문으로 바로가기

기술동향

[R&D Brief 2024-9호] AI 기반 생명과학 연구

  • 등록일2024-04-02
  • 조회수3944
  • 분류기술동향 > 종합 > 종합

 

 

[R&D Brief 2024-9호] AI 기반 생명과학 연구



 

◈본문


  • 1. AI 기반 생명과학 연구란?

  •  AI 기반 생명과학 연구(AI-based biology)는 생명 현상에서 추출한 빅데이터(유전체 서열, 단백질 서열, 오믹스 데이터, 이미지 데이터 등)를 활용하여 인공지능(Artificial Intelligence, AI) 모델을 학습시킴으로써 생체 분자의 구조, 세포의 표현형, 더 나아가 개체의 표현형 등을 예측하고자 하는 연구를 통칭함. 

  • 이와 관련된 소주제로 AI를 활용한 유전자 및 단백질 발현 예측, AI를 활용한 단백질의 구조 및 상호작용 예측, AI를 이용한 질병 기전 파악, 진단 및 예후 예측을 중심으로 본 브리핑을 정리하고자 함. 

  • →︎기존의 생명과학 연구는 주로 실험에 의해 이루어져 왔으나 인간 유전체 프로젝트 이후로 생명체에 대한 방대한 데이터가 쌓이기 시작하면서 이를 분석하기 위한 계산 기법들이 개발되기 시작하였음.

  • →︎지난 50여 년간 축적된 단백질 구조 데이터와 차세대 서열 분석법(Next Generation Sequencing, NGS)의 개발에 따라 급격히 증가하고 있는 단백질 서열 데이터는 인공지능 기반 단백질 구조 예측을 가능하게 하였음. 구글 딥마인드가 개발한 알파폴드, 미국 워싱턴 대학교가 개발한 로제타폴드는 고정확도의 단백질 구조를 수 분~수 시간 내 예측함.

  • →︎생물학계의 난제로 여기던 단백질 구조 접힘 문제를 알파폴드, 로제타폴드와 같은 인공지능이 해결한 것을 계기로 유전자 및 단백질의 발현 예측, 단백질의 구조 및 상호작용 예측, 질병 진단 및 예후 예측 등의 그동안 축적된 데이터를 기반으로 생명현상을 예측하려는 AI 기반 생명과학 연구가 활발히 진행되고 있음.

  • 2.왜 주목받고 있나?

  • AI를 활용한 유전자/단백질 발현 예측 연구의 중요성

  • →︎세포 안에 존재하는 DNA는 해당 세포의 생명 현상과 관련된 정보를 사전처럼 저장하고 있음. DNA에는 실제로 단백질이 발현되는 부위인 암호화 영역(coding region)과 단백질이 직접적으로 발현되는 부위는 아니지만 발현 조절과 DNA 구조에 다각도로 관여하는 비암호화 영역(non-coding region)이 존재함.

  • →︎이와 같은 DNA 염기 서열로부터 RNA로 전사되고, 이후에 단백질로 번역되는 일련의 메커니즘은 센트럴 도그마로서 이전부터 분자생물학에서 끊임없이 연구되어 온 분야이지만, 이 과정에 수반되는 조절 메커니즘이 다양하여 아직까지도 활발히 연구가 진행되고 있음. 또한, 이 과정을 잘 이해하면, 기존의 세포가 가진 DNA 서열을 변형시켜, 목적에 맞는 단백질의 생산량을 증감시키거나, 기존 자연계에 존재하지 않았던 단백질을 새로이 합성하는 데 용이하기 때문에 이 과정을 정량적으로 파악하는 것이 유전 공학 및 합성 생물학 분야에서도 중요한 이슈가 됨.

  • →︎특히 최근 생물학 실험에서 고효율 데이터 생산이 가능한(High-throughput) 에세이가 보편화되면서 유전형(genotype)과 표현형(phenotype)을 유전체 스케일로 매칭시킬 수 있는 빅데이터들이 축적되고 있으며, 여기에 AI를 접목하여 유전형으로부터 표현형을 예측하는 모델을 구축하려는 연구가 활발해짐.

  • AI를 활용한 단백질의 구조 및 상호작용 예측 연구의 중요성

  • →︎단백질은 생명체를 구성하는 기본 물질이자 생명체 내에서 일어나는 거의 모든 생명현상을 매개하는 중요 생체분자임. 20가지의 아미노산이 적게는 수십 개, 많게는 수천 개 선형으로 결합하여 형성되는 단백질은 그 아미노산의 서열에 따라 3차원 구조가 달라지며 구조에 따른 기능을 수행함.

  • →︎단백질의 구조를 바탕으로 그 기능을 이해하고 더 나아가 수많은 생명현상을 분자수준에서 설명하는 것은 그동안 구조생물학의 주요 연구 주제가 되어왔음. 하지만 실험을 통한 단백질 구조 결정은 시간과 비용이 많이 소모되어 생명체에 존재하는 모든 단백질의 구조를 풀어내기엔 명확한 한계가 존재함. 이 한계를 극복하기 위하여 인공지능을 활용하여 고정확도의 단백질의 구조를 예측하는 연구가 주목을 받게 됨.

  • →︎알파폴드, 로제타폴드의 등장으로 단백질의 단일 구조 예측이 가능해진 지금, 연구자들은 단백질의 단일 구조 예측을 넘어서서 단백질과 다른 생체분자(다른 단백질, 유기분자, 핵산 등) 사이의 상호작용 및 결합구조 예측으로 연구를 확장하고 있음. 특히 단백질이 이루는 상호작용 예측은 단백질의 기능 및 생명현상 이해에 핵심일 뿐만 아니라, 신약 및 백신 개발, 친환경 효소 기반 생산 공정 개발 등의 응용에도 매우 중요한 문제임.

  • 3.최근 많은 연구가 이루어지고 있나?

  • 최근 AI 기술에 대한 사회적인 관심이 높아짐에 따라 AI 기반 생명과학 연구 또한 그 어느 때보다 활발하게 진행되고 있음.

  • AI 기반 생명과학 연구 관련 일정 주기별 논문 출판 수 변화를 살펴보기 위하여 2000년도부터 2023년도까지를 대상으로 PubMed에서 생명과학 논문 출판 수를 조사하였음. 이때 공통 키워드로는 Artificial intelligence, machine learning, deep learning 중 하나를 가지면서 다음 소주제 중 하나의 키워드를 추가적으로 포함하는 논문 출판 수를 조사한 결과 2000년 이후 각 주제에 대하여 꾸준히 연구 논문의 수가 증가되어왔음을 알 수 있음.

  • ╺︎소주제 1 : expression prediction, (TF-DNA) binding prediction

  • ╺︎소주제 2 : protein design, protein structure, protein-protein interaction

  • ╺︎소주제 3 : disease diagnosis, pathogenesis

<그림> 2000년도 이후 AI 기반 생명과학 연구의 각 소주제 별 논문 출판 수 변화.

<그림> 2000년도 이후 AI 기반 생명과학 연구의 각 소주제 별 논문 출판 수 변화.


  • 해외의 인공지능 개발 중심의 대규모 기업들(Google, DeepMind, Meta, Amazon, Microsoft, Baidu, Tencent 등)에서도 인공지능을 활용한 생명과학 연구 논문을 발표하고, 인공지능 분야의 권위 있는 학회에서도 계산생물학 분야 워크샵을 진행하는 등 기존 인공지능 연구자들의 생명과학 연구로의 유입도 활발히 이루어지고 있음.

  • 국내에서도 바이오 인공지능 융합연구 더욱 촉진시키기 위해 바이오-인공지능 융합연구센터(서울대학교 바이오-인공지능 융합연구단, 충남대학교 바이오 AI 융합연구센터, 인하대학교 인공지능 바이오산업기술연구소 등)들이 출범하고 바이오-인공지능 인력양성사업(서울대학교 AI 연구원-목암생명과학연구소 협력 AI-Bio 인력양성 프로그램 등)을 수행하는 등 AI 기반 생명과학 연구가 활발해지는 추세임.

 

 

...................(계속)

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

관련정보

자료 추천하기

받는 사람 이메일
@
메일 내용