본문으로 바로가기

BioINpro

(BioIN + Professional) : 전문가의 시각에서 집필한 보고서 제공

인공지능 기반 단백질 모델링 기술개요 및 시사점

  • 등록일2021-05-31
  • 조회수8021
  • 분류플랫폼바이오 > 바이오기반기술,  플랫폼바이오 > 바이오융합기술


인공지능 기반 단백질 모델링 기술개요 및 시사점

한국생명공학연구원 질환표적구조연구센터 구본수 image01.png


1. 개요


지난 2016년 3월의 구글 딥마인드 챌린지 매치, 즉 바둑기사 이세돌 9단과 구글 딥마인드(Google DeepMind)가 개발한 바둑 인공지능 프로그램인 알파고(AlphaGo) 간의 바둑 대국은 전 세계적인 화제를 불러 일으켰다. 해당 대결에서 알파고가 이세돌 기사에게 4:1로 승리를 거두면서, 기계학습법(machine learning)에 기반한 인공지능(artificial intelligence, AI) 기술이 얼마나 발달했는지를 입증하는데 성공하였다. 그리고 4년 후인 2020년 12월, 인공지능과 관련된 또 하나의 뉴스가 사람들을 놀라게 만들었다. 바로 같은 회사에서 만든 단백질 구조 예측 인공지능 프로그램인 알파폴드 2(AlphaFold 2)가 제 14차 단백질 구조 예측 학술대회(Critical Assessment of Protein Structure Prediction, CASP)에서 경쟁 프로그램과는 비교불가한 성과를 보여주며 단백질 삼차구조를 매우 높은 정확도로 예측하는데 성공하였던 것이다1). 이러한 성과에 대해, 과학계는 “모든 것을 변화시킬 것이다” (It will change everything - 알파폴드 2를 소개하는 네이쳐 기사 제목), “경기는 바뀌었다” (The game has changed - 알파폴드 2를 소개하는 사이언스 기사 제목), “단백질 연구의 미래를 바꿀 것이다” (재닛 손튼, 유럽생물정보학연구소장), “앞으로 단백질 구조 분석은 컴퓨터에 전적으로 의존하게 될 것이다” (안드레이 루파스, 독일 막스 플랑크 연구소 연구원), “컴퓨터 프로그램에 노벨상 수여 자격이 주어진다면” (리처드 도킨스, [이기적 유전자] 저자) 등의 반응을 보이며 놀라움과 기대감을 나타내었다 (그림 1). 

지금부터는 이러한 인공지능 기반 단백질 삼차구조 모델링 기술의 현황 및 중요성, 그리고 그것이 가져다올 변화와 앞으로의 전망에 대해 소개하고자 한다.


image02.pngimage03.png

[그림 1] 알파폴드 2를 소개하는 네이쳐 기사1) 및 과학저술가 리처드 도킨스의 SNS2)

출처 : 1) Callaway E. 'It will change everything': DeepMind's AI makes gigantic leap in solving protein structures. Nature.                  2020;588(7837):203-204.       

        2) https://twitter.com/RichardDawkins/status/1333690411223707653

 


2. 배경 설명


가. 단백질 삼차구조와 구조생물학


일차원적 DNA 염기서열로 구성된 생명체의 유전 정보는 mRNA로의 전사(transcription), 단백질로의 번역(translation) 과정을 거쳐서 단백질 삼차구조를 형성하게 된다. 하나의 단백질은 기본적으로 아미노산이 연속적으로 이어진 폴리펩타이드(polypeptide)인데, 이러한 일차원적 형태의 폴리펩타이드가 생화학적 원리에 의하여 접히게 되면서(folding) 삼차원적 구조를 형성하게 된다. (그림 2) 이렇게 만들어진 단백질들은 세포를 구성하고 각종 생체 반응을 매개하는 분자 기계로서 작용하게 된다. “Structure dictates function – 구조가 기능을 결정한다”라는 오랜 격언처럼, 단백질의 삼차구조는 단백질의 생체 내 역할과 밀접하게 연관되어 있다. 또한 이러한 단백질 접힘 상에 문제가 발생 시 다양한 질병 발병으로 이어지게 된다. 따라서 단백질 접힘 문제는 생명 현상을 분자 수준에서 근본적으로 이해하는 데 있어서 매우 중요할 뿐만 아니라, 다양한 질병의 근본적 

원인을 규명하고 관련 단백질의 기능을 제어하는 물질을 발굴하는 신약개발 과정에서도 매우 중요한 정보를 제공해준다. 이렇게 단백질의 삼차구조 및 이에 기반을 둔 작용기작을 규명하는 학문을 구조생물학(structural biology)이라 부른다.


image04.png

[그림 2] 헤모글로빈 단백질 삼차구조. 좌측)전체 구조, 우측)단백질-heme 결합 구조3)

 출처 : 3) Bringas M, Petruk AA, Estrin DA, Capece L, Martí MA. Tertiary and quaternary structural basis of oxygen affinity in human hemoglobin as revealed by multiscale simulations. Sci Rep. 2017;7:10926.


단백질 삼차구조 규명을 위해서는 일반적으로 세 가지 실험방법이 주로 사용되는데, X-선 결정학(X-ray crystallography), 핵자기공명법(nuclear magnetic resonance, NMR), 그리고 극저온 전자현미경(cryo-electron micros)이 그것이다 (그림 3). 이러한 단백질 삼차구조 규명 방법들은 각각 장단점이 있으며, 단백질의 특성 및 연구 목적에 따라 상호보완적으로 활용 가능하다. 예를 들어 X-선 결정학은 규명 가능한 단백질 크기의 한계가 없는 대신 결정화라는 특수한 과정을 거친 단백질만 삼차구조 규명이 가능하다. 반면 핵자기공명법과 극저온 전자현미경은 결정화 과정 없이 수용액 내의 삼차구조 규명이 가능한 반면, 각각 규명 가능한 단백질 크기의 상한선(핵자기공명법)과 하한선(극저온 전자현미경)이 존재한다. 다만 이러한 실험들은 다량의 고순도 정제 단백질을 필요로 하며, 단백질 준비 및 구조 분석을 위한 실험 과정, 그리고 데이터 분석에 많은 돈과 시간, 그리고 노력이 필요하다. 실험적 방법을 통한 단백질 삼차구조 규명에는 짧게는 수개월, 길게는 수년의 시간이 들어가며, 때로는 단백질의 특성이나 상태에 따라 구조 규명이 아예 불가능한 경우도 존재한다. 

 

실제로 일부 단백질들은 중요한 질환 표적임에도 불구하고 아직까지 실험적인 방법으로 삼차구조가 규명되지 않은 경우도 종종 있다. 따라서 이러한 실험적 방법을 거치지 않고 단백질의 아미노산 서열 정보만으로 단백질 삼차구조를 분석하는 이른바 모델링(modeling) 방법 역시 많은 주목을 받고 있다. 



관련정보

자료 추천하기

받는 사람 이메일
@
메일 내용