BioINwatch
(BioIN + Issue + watch) : 바이오 이슈를 빠르게 포착하여 정보 제공AI 기반의 단백질 구조 예측 프로그램 및 DB 공개
- 등록일2021-08-05
- 조회수4742
- 분류플랫폼바이오 > 바이오기반기술, 플랫폼바이오 > 바이오융합기술
-
발간일
2021-08-05
-
키워드
# AI#단백질, 구조# protein, structure
- 첨부파일
-
차트+
?
차트+ 도움말
BioINwatch(BioIN+Issue+Watch): 21-55
AI 기반의 단백질 구조 예측 프로그램 및 DB 공개
◇ 최근 2개 연구그룹은 단백질의 정확한 3차 구조를 예측할 수 있는 AI 기반의 모델링 프로그램 및 데이터베이스를 공개. 단백질 구조는 단백질의 기능과 직결되어 있기 때문에 단백질 구조 데이터베이스는 생물학과 의학 분야에 대한 우리의 이해와 발전을 가속화 할 것으로 기대
▸주요 출처 : Nature, DeepMind’s AI predicts structures for a vast trove of proteins, 2021.7.22.; Science, Huge protein structure database could transform biology, 2021.7.30.
□ 지난 7월초 2개 연구그룹은 단백질의 정확한 3차 구조를 예측할 수 있는 모델링 프로그램 및 데이터베이스를 공개
○ 하나의 연구그룹은 구글의 모회사인 알파벳(Alphabet)이 소유한 영국의 AI 회사 딥마인드(DeepMind)의 연구팀으로,
- 단백질 구조를 예측하는 AI 알파폴드(AlphaFold)를 개발하였고 최근 인간을비롯한 20개 모델 생물체에서 350,000개 이상의 구조 예측결과를 발표
관련 논문 : Nature, Highly accurate protein structure prediction with AlphaFold, 2021.7.15.; Nature, Highly accurate protein structure prediction for the human proteome, 2021.7.22.
< 알파폴드를 활용한 단백체 구조 예측 결과 >
¶ 다중 예측(multiple predictions)으로 일부 단백질의 경우 실제 단백체 크기보다 클 수 있음
출처 : Nature, DeepMind’s AI predicts structures for a vast trove of proteins, 2021.7.22.
- 이번에 딥마인드는 AlphaFold2를 활용하여 인간 단백체(인간 게놈 상에 표현되는 2만개 이상의 단백질)의 98.5%를 예측했으며, 쥐, 초파리, 대장균, 효모 등 생물학 연구에 주요 활용되는 20가지 생물의 단백체 구조를 예측
※ 알파폴드는 2018년 제13회 CASP에 처음으로 출전하여 1위를 차지한 바 있으며, 이후 딥러닝과 텐션 알고리즘을 결합해 예측 능력이 향상된 알파폴드2를 개발
- 연구팀은 올해 말까지 알려진 단백질의 절반 이상인 약 1억 3천 만개로 단백질 구조 데이터베이스를 확장할 계획
○ 또 다른 연구그룹은 미국 워싱턴대학의 데이비드 베이커 교수*연구팀으로,RoseTTAFold라고 불리는 매우 정확한 단백질 구조 예측 프로그램을 발표하고 AI 알고리즘 컴퓨터 코드를 공개
* 베이커 교수는 단백질 구조 분야에서 세계적인 석학으로, 2020년 열린 ‘단백질 구조예측 학술대회(CASP14)’에서 2위를 차지. 당시 구글 딥마인드의 AlphaFold2가 압도적인 성적으로 1위(평균 92.4점으로 2등과의 격차가 최대 25점)를 차지
- AlphaFold2는 단일 단백질 구조만 예측한 반면 RoseTTAFold는 수용체와결합한 단백질 복합체도 예측
※ 많은 생물학적 기능은 단백질-단백질 상호작용에 의존하기 때문에 서열 정보에서 직접 단백질-단백질 복합체를 분석하는 능력은 생물학 연구에 있어 매우 고무적
- 또한 이들의 접근 방식은 구글의 대규모 서버에 의존했던 딥마인드의 접근방식보다 더 빠르고 컴퓨팅 성능이 덜 필요한 것으로 인정
관련 논문 : bioRxiv, Accurate prediction of protein structures and interactions using a 3-track network, 2021.7.15.(서울대 출신의 백민경 박사가 논문의 제1저자로 연구를 주도)
- 지난 1월 KAIST 생명과학과 오병하 교수연구팀은 베이커 교수 연구팀과 공동연구로자연에 존재하지 않는 새로운 단백질 구조를 디자인한 뒤 이를센서로 사용한 연구결과를 발표
※ B형 간염 바이러스 단백질 센서, 코로나19 바이러스 단백질 센서 등 고감도 단백질 센서 8개를 공개. 단백질 센서는 질병 진단, 미생물 감지 등에 널리 활용 가능
관련 논문 : Nature, De novo design of modular and tunable protein biosensors, 2021.1.27
□ 베이커 교수 연구팀에서 코드를 웹상에 무료로 공개하자 딥마인드 또한AlphaFold에 대한 광범위한 무료 액세스를 제공할 계획이라고 밝힘
○ 그간 딥마이드는 AlphaFold 코드를 공개하지 않아 구조생물학자 등 과학자들을 실망스럽게 했지만,
- 딥마인드의 CEO Demis Hassabis는AlphaFold2의 세부 사항을 논문에 발표하고, 이를 과학 커뮤니티에 광범위하게 무료 공개할 예정이라고 설명
○ 베이커 교수 연구팀은 코드를 온라인에 게시한 이후 4,500개 이상의 단백질서열을 모델링하는데 이 프로그램을 사용
- 또한 RoseTTAFold의 코드를 웹에 공개했기 때문에 많은 연구자들이 이를 개선할 수 있을 것으로 기대
□ 인공지능(AI)은 과학에 획기적인 발전을 가속화하고 있으며, 특히 생물학과 의학 분야에 많은 영향을 미칠 것으로 기대
○ AI는 과학기술계에서 가장 어려운 숙제 중 하나로 여겨졌던 단백질 접힘 (Protein folding) 및 구조 예측 문제를 해결하는 데 크게 기여할 것으로 전망
- 단백질 구조에 기반한 다양한 단백질 기능 분석은 질병에 대한 치료법, 항생제 내성, 미세플라스틱 오염 및 기후변화등 인류가 직면한 문제들을 해결하는데 새로운 통찰력을 제공할것으로 기대
○ 단백질 구조 예측 AI 프로그램은 다양한 관점에서 활용 가능할 것으로 전망
- DNDi(Drug for Neglected Disease Initiative)는 세계 가난한 지역에서 많이 발생하는 질병 치료에 대한 연구에 AlphaFold를 활용
- CEI(Center for Enzyme Innovation)는 일회용 플라스틱을 재활용하기 위해 더 빠른 효소를 설계하는 데 활용
- 실험적 단백질 구조 결정에 의존하는 과학자들에게 AlphaFold의 예측은 연구를 가속화하는 데 활용
※ 콜로라도대학 연구팀은 AlphaFold를 사용하여 항생제 내성을 연구할 가능성을 찾고 있으며, UCSF 연구그룹은 SARS-CoV-2 생물학 이해에 사용
○ EMBL(European Molecular Biology Laboratory) 부국장인 Ewan Birney는 “단백질 구조 데이터베이스는 인간 유전체 분석 이후 가장 중요한 데이터세트 중 하나가 될 것이다.”라고 말함
- 또한 콜롬비아대학의 컴퓨터 생물학자 Mohammed AlQuraishi 박사는 이렇게 많은 단백질 구조 이용 가능성은 생물학 분야의 “패러다임 전환”을일으킬 가능성이 높다고 강조
지식