기술동향
인공지능 기반 단백질 설계 도구 동향
- 등록일2023-08-07
- 조회수5611
- 분류기술동향 > 플랫폼바이오 > 바이오기반기술
-
자료발간일
2023-07-27
-
출처
KOSEN 한인과학기술자네트워크
- 원문링크
-
키워드
#인공지능#단백질#설계도구
인공지능 기반 단백질 설계 도구 동향
◈ 목차
1. 개요
2. 본론
2.1. 단백질 설계란?
2.2. ProteinMPNN
2.3. RFdiffusion
3. 결론
요약문
단백질은 생명체 내에서 중요한 기능을 수행하며, 이러한 기능은 단백질의 구조와 상호작용에 의해 결정된다. 기존의 단백질 설계는 실험실에서 수년간의 연구와 시행착오를 통해 이루어져왔지만, 최근 인공지능 기술의 발전으로 인해 단백질 설계 분야에서 혁신적인 변화가 일어나고 있다. 인공지능 기반 단백질 설계 도구는 주로 딥러닝 알고리즘과 기계학습 모델을 활용하여 단백질의 구조와 기능을 예측하는 데에 사용된다. 이 보고서에서는 최신 인공지능 기반 단백질 설계 도구에 대해 가볍게 소개하고자 한다.
단백질 설계, 인공지능, 딥러닝, 스테이블 디퓨전
Protein design, AI, Deep learning, Stable diffusion, RFdiffusion
◈본문
1. 개요
단백질은 생명체의 기본 구성 요소이자 다양한 생화학적 반응의 주체이다. 인간의 건강과 질병, 식량과 에너지, 환경과 재료 등 많은 분야에서 단백질의 역할은 중요하고도 다양하다. 따라서 새로운 단백질을 설계하고 개발하는 것은 과학적 도전과 기회를 함께 제공하는 분야이다. 그러나 단백질 설계는 전통적으로 매우 어려운 작업이었다. 왜냐하면 단백질의 구조와 기능은 그 서열에 의해 결정되는데, 이는 매우 복잡하고 다양한 패턴을 가지기 때문이다. 단백질의 서열은 20 가지 아미노산으로 구성되는데, 이들의 조합은 거의 무한하다고 할 수 있다. 따라서 새로운 단백질을 설계하기 위해서는 단백질의 서열과 구조 사이의 관계를 정확하게 파악하고 예측할 수 있는 도구가 필요하다.
최근에는 인공지능 기술이 이러한 도구를 제공하는 데 큰 역할을 하고 있다. 인공지능 기술은 컴퓨터가 새로운 단백질의 구조와 기능을 예측하고 생성할 수 있게 하는 놀라운 분야이다. 인공지능 기술은 다양한 머신러닝 알고리즘과 신경망 모델을 사용하여 단백질의 서열과 구조 사이의 숨겨진 패턴을 학습하고, 조건부 정보를 통해 원하는 목적에 맞는 새로운 단백질을 설계할 수 있다.
이 보고서에서는 인공지능 기반의 단백질 설계 기술 중 ProteinMPNN 과 Stable diffusion 기술을 결합한 RFdiffusion 에 대해 소개한다. ProteinMPNN 은 단백질 구조를 입력으로 받아 새로운 아미노산 서열을 빠르게 찾아내는 도구이다. Stable diffusion은 단백질 구조 예측 모델인 RoseTTAFold를 기반으로 한 새로운 단백질 설계 모델이다. 이 2 가지 기술을 결합한 RFdiffusion은 다양한 단백질 설계 문제에 적용할 수 있는 강력한 인공지능 도구이다. 이 보고서에서는 RFdiffusion 의 원리와 특징, 그리고 적용 사례에 대해 설명한다.
2. 본론
2.1. 단백질 설계란?
단백질은 생체 내에서 다양한 생화학 반응 및 생물학적 반응을 매개하는 물질이다. 단백질은 고부가가치 물질 생산, 약물, 바이오의약품 등 다양한 응용 분야에서 사용될 수 있다. 예를 들어, 특정 질병의 치료를 위해 효과적인 단백질 약물을 만들거나, 효율적인 효소 생산을 통해 고부가가치의 물질을 생산하는 데 활용될 수 있다.
단백질의 구조에 따라 해당 단백질이 가지는 기능이 달라지므로 인류는 단백질의 기능과 구조를 예측하기 위해 오랜 기간 동안 다양한 연구와 노력을 기울여왔다. 초기에는 실험적인 방법과 기존 단백질의 구조와 기능을 분석하여 이해하려는 시도가 있었다. 그러나 이러한 방법은 시간과 비용이 많이 소요되고 실험적인 한계가 있어 단백질 설계의 제약이 있었다.
하지만 지난 몇 년간 데이터 프로세싱 기술 및 인공지능의 발전에 힘입어 단백질의 구조 예측의 정확도가 비약적으로 향상되었고, 알파폴드 2(AlphaFold2)와 로제타폴드(RoseTTAFold)와 같은 기술이 개발되었다.
그러나 단백질의 구조를 예측할 수 있는 것과 특정 기능을 가지는 단백질을 설계하는 것은 다른 이야기이다. 특정 아미노산 서열로부터 해당 단백질의 구조를 예측하여 해당 단백질이 가지는 기능을 유추할 수는 있으나, 특정 기능을 가지는 단백질을 찾기 위해서는 아미노산 서열에 변화를 주고 예측된 구조의 기능을 살펴보는 과정을 무한히 반복해야 한다.
연구자들은 이 과정을 반대로 진행하여 특정 구조의 단백질을 형성하고 이 단백질이 될 수 있는 아미노산 서열을 예측할 수 있도록 노력하였다. 앞서 이야기한 아미노산 서열로부터 구조를 예측하는 과정과 이 과정은 서로 역함수 관계에 있다.
그림 1. 단백질 설계의 개념
2.2. ProteinMPNN
ProteinMPNN(Protein message-passing neural network)은 단백질의 구조로부터 아미노산 염기서열을 디자인할 수 있도록 개발된 도구이다. 단백질 구조의 골격으로부터 이 골격구조에 가장 어울리는 아미노산 서열을 찾는 방식이다. 아미노산의 질소(Na), 알파 탄소(Ca), 카르복시 카본(C), 산소(O), 베타 탄소(Cb)와 인접한 아미노산들 간의 거리를 측정하여, 이 정보를 인코더에 입력으로 제공한다. 인코더는 입력된 정보를 활용하여 시퀀스 디코더에서 가장 가능성이 높은 아미노산을 계산한다. 노드는 아미노산을, 에지는 아미노산 사이의 거리나 각도를 나타낸다. 노드와 에지에는 각각 벡터로 표현된 정보가 부여된다. 예를 들어, 노드에는 아미노산의 종류, 위치, 이차구조 등이, 에지에는 거리, 각도, 수소결합 등이 포함된다. ProteinMPNN 은 신경망을 사용하여 그래프의 노드와 에지에 대한 정보를 반복적으로 갱신한다. 이 과정에서 단백질의 구조와 시퀀스에 대한 특징을 추출한다. 이를 통해, 처음에는 아미노산의 종류만 알고 있었지만, 신경망을 거치면서 아미노산의 위치나 이차구조 등도 알게 된다. ProteinMPNN 은 갱신된 노드 정보를 바탕으로 각 아미노산 위치에 대한 확률분포를 예측한다. 이 확률분포는 단백질의 구조와 시퀀스가 얼마나 잘 맞는지를 나타낸다. 확률분포에서 가장 확률이 높은 아미노산이 입력 시퀀스와 일치하는 경우가 많다. 일치하지 않는 경우에는 ProteinMPNN이 입력 시퀀스보다 더 적합한 아미노산을 제안한다. ProteinMPNN 은 확률분포에서 샘플링을 통해 새로운 시퀀스를 생성한다. 이 시퀀스는 단백질의 구조에 적합할 가능성이 높다.
그림 2. ProteinMPNN 개념 및 작동 원리
구조 예측 방법은 서열로부터 예측된 구조와 실험으로 확인된 구조를 비교하여 성능을 평가한다. 이미 구조가 알려진 단백질에서 골격을 추출한 다음, 해당 골격과 일치하는 아미노산 서열을 찾아 비교한다. 402 개의 알려진 단백질 구조를 변경하지 않고 아미노산을 디자인하는 실험에서, Rosetta 기반 단백질 디자인 프로토콜을 사용한 서열은 원래 단백질의 서열과 32.9% 일치했다. 반면에 ProteinMPNN 을 사용한 경우 52.9%로 높게 나타났다. ProteinMPNN 은 단백질의 골격구조를 기반으로 원래 단백질에 해당하는 아미노산을 예측하는 능력이 이전 방법보다 우수함을 나타냈다.
...................(계속)
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
-
이전글
- 바이오디젤 생산 과정에서 발생하는 고농도 유기폐수의 처리 방안에 관한 고찰
-
다음글
- 보건산업정책연구 PERSPECTIVE(Vol.3 No.1) - 의료 인공지능의 윤리와 전망
지식
- BioINpro [2025 바이오 미래 유망기술(상)] 분자 접착제(Molecular Glue)의 동향과 미래 2025-05-21
- BioINwatch 어떻게 하면 단백질 구조 만큼 RNA 구조도 정확히 예측할 수 있을까? 2025-04-03
- BioINwatch AI 기반 De novo 단백질 설계를 통한 항독소 치료제 개발에 관한 연구 2025-03-11
- BioINwatch 바이오신약 개발을 혁신할 AI 단백질 언어 모델 2025-02-14
- BioINpro [KRIBB 워킹그룹] 2024 인공지능을 활용한 신약재창출 연구동향 2025-01-15
동향