BioINpro
(BioIN + Professional) : 전문가의 시각에서 집필한 보고서 제공[KRIBB 워킹그룹] 생명공학분야 인공지능 연구동향
- 등록일2024-01-22
- 조회수4127
- 분류레드바이오 > 의료기기기술
-
저자/소속
이경륜 외 16명/한국생명공학연구원 실험동물자원센터
-
발간일
2024-01-22
-
키워드
#AI신약#인공지능 신경망#단백질 설계
- 첨부파일
-
차트+
?
차트+ 도움말
[KRIBB 워킹그룹] 생명공학분야 인공지능 연구동향
2023년도 KRIBB 워킹그룹이슈페이퍼 제 14호
◈ 목차
1.개요
2.최신동향
2.1.약물 발견 및 개발
2.2.유전자 연구
2.3.분자 속성 예측
2.4.새로운 분자 생성
2.5.단백질 구조 예측
2.6.단백질 설계
2.7.단백질 - 리간드 도킹
2.8.단백질 - 단백질 상호작용
2.9.유전자 발현 조절
2.10.유전자 연구
3.결과 및 시사점
◈본문
1.개요
□︎ 생명공학분야 인공지능
○생명공학에서의 인공지능(AI)은 기계 학습, 딥 러닝, 신경망, 자연어 처리 등 다양한 기술을 포괄하며, 생명공학에서 AI의 핵심 전제는 이러한 기술을 사용하여 복잡한 생물학적 과정을 이해하고, 연구 방법론을 개선하며, 혁신적인 생명공학 애플리케이션을 개발하는 것임
○AI 기술은 생명공학에서 흔히 볼 수 있는 크고 복잡한 데이터 세트를 처리하는 데 능숙하므로 인간의 능력을 훨씬 뛰어넘는 패턴과 인사이트를 발견하여 유전자 분석, 신약 개발, 질병 진단 및 개인 맞춤형 의료 분야에서 획기적인 발전을 이룰 수 있음
○생명공학 분야에 AI를 통합하는 것은 단순한 보완이 아니라 데이터 분석, 예측 모델링 및 자동화 분야에서 전례 없는 기능을 제공하는 혁신적인 일임
‒︎최신 AI는 불과 몇 년 전만 해도 상상할 수 없었던 일들을 가능하게 하고 있으며, 생명공학을 획기적으로 발전시킬 수 있는 잠재력을 가지고 있음
□︎ 최신 인공지능 모델의 특징
○ 현재 가장 뛰어난 성능을 자랑하는 인공지능의 형태는 인공신경망의 일종인 딥러닝 모델임
‒︎딥러닝이 전통적인 인공지능 모델과 구별되는 가장 중요한 특징은 사람의 경험과 직관에 의존하던 데이터의 표현(representation)이나 특징(feature)을 구성하고 최적화하는 과정까지도 알고리즘으로 대체하여 스스로 학습한다는 점임
○학습 데이터에서 시작해 학습과정을 거쳐 최종 모델에 이르는 모든 과정에 해당 분야 전문가의 경험과 지식을 참조함이 없이 스스로 학습하는 모델을 엔드투엔드(end-to-end) 모델이라 칭함
○사람이 개입하는 지점은 1) 학습에 어떤 데이터를 얼마만큼 사용할 것인지, 2) 어떤 모델 아키텍처를 사용할 것인지, 3) 어떤 기준으로 모델의 성능을 측정할 것인지를 결정하는 것으로 최소화됨
□︎ 인공신경망(Artificial Neural Net)
○생물학적 뇌를 모사한 수학적 모델로 간단히 신경망(Neural Network)이라고 함. 단일 뉴런에 해당하는 최소 구성 단위인 인공뉴런(Artificial neuron)의 배열을 층층이 쌓고 서로 연결해 인공신경망 구조를 만듦
출처 : Fjodor van Veen.(2016, September 14). The neural network zoo. The Asimov Institute. https://www.asimovinstitute.org/neural-network-zoo/ |
[그림 1] 다양한 종류의 인공신경망 아키텍처 |
□︎딥러닝(Deep Learning)
○ 2006년 캐나다 토론토 대학의 제프리 힌튼(Geoffrey Hinton)과 그의 동료가 발표한 연구 논문에서 신경망의 깊이(즉, 여러 층을 가진 구조)가 네트워크의 성능에 중요한 영향을 미친다는 개념이 소개됨
○이후 이 개념은 인공 지능 및 기계 학습 분야에서 중요한 연구 분야로 자리 잡게 됨. 딥러닝이라는 용어는 이러한 다층 신경망의 개념을 강조하기 위해 사용되고 널리 알려지기 시작함 [1]
○ ’12년 제프리 힌튼(Geoffrey Hinton)과 그의 동료들이 만든 AlexNet은 이미지 인식 분야에서 딥러닝의 탁월한 성능을 입증함
‒︎이후 딥러닝은 오래된 통계적 접근 방식 대신 인공지능 분야의 핵심 기술로 자리잡음 [2]
□︎ 트랜스포머(Transformer)
○2017년 미국 구글과 캐나다 토론토 대학 연구원들이 발표한 트랜스포머 모델은 자연어 처리(NLP) 분야에서 혁신적인 발전을 가져왔음
‒︎트랜스포머 기반의 대규모 언어 모델은 자연어 처리, 생물학, 화학, 컴퓨터 프로그래밍 등 다양한 분야에서 상당한 진전을 보이고 있음
‒︎트랜스포머 아키텍처는 NLP뿐만 아니라 다방면에서 성능이 뛰어나 여러 인공지능 태스크에 쓰이고 있음
○ 셀프 어텐션 메커니즘(Self-Attention Mechanism)은 트랜스포머의 핵심 요소 중 하나로 중요한 정보에 더 많은 '주의(Attention)'를 기울일 수 있도록 함
‒︎모델이 문장 속 단어들 사이의 연관성을 파악하고, 같은 단어가 맥락에 따라 다른 의미로 해석되는 경우 맥락에 따른 적절한 의미를 정확히 이해하여, 입력 데이터의 여러 구성 요소 사이의 관계를 파악하고 맥락을 이해하는 역할을 함 [3]
출처 : Sebastian Raschka, “Understanding and Coding the Self-Attention Mechanism of large Language Models From Scratch.” Sebastian Raschka, February 9, 2023, https://sebastianraschka.com/blog/2023/self-attention-from-scratch.html |
[그림 2] 셀프 언텐션 메커니즘(Self-Attention Mechanism) |
□︎ 생성형 모델(Generative Model)
○생성 모델이란 인공지능이 학습 데이터를 바탕으로 새로운 데이터를 생성하는 방식을 말함
‒︎모든 인공 지능과 마찬가지로 생성형 AI도 방대한 양의 데이터를 기반으로 사전 훈련된 초대형 모델인 기계 학습 모델을 사용하며, 트랜스포머와 디퓨전 모델이 혁신을 주도하고 있음
○생성형 AI의 가장 유망한 사용 사례 중 하나는 신약 발견과 연구를 가속화하는 것임
‒︎생성형 AI는 모델을 사용하여 항체, 효소, 백신 및 유전자 요법을 설계하기 위한 특정 특성을 가진 새로운 단백질 서열을 생성할 수 있음
□︎ 대규모 언어 모델(Large Language Model; LLM)
○대규모 언어 모델은 소수의 예제만으로 학습이 가능한 상식을 갖춘 인공지능 언어모델로 최초로 사람 수준의 문해력을 갖춤
‒︎OpenAI의 GPT4(Generative Pre-trained Transformer 4)가 현재 압도적인 성능으로 시장을 주도하고 있음
○LLM은 오토리그레시브 모델(Auto-regressive Model)로 발화가 진행됨에 따라 에러가 축적되는 특성이 있어 사실에 전혀 부합하지 않는 말을 지어내는 환각현상이 발생할 수 있음
‒︎환각현상을 없앨 수 있는 방법으로 Retrieval Augmented Generation(RAG) 기법이 빠른 속도로 발전하고 있으며, RAG은 사용자가 제공하는 자료에 입각해 답하도록 LLM을 제한함으로써 환각현상을 피함
○단백질 구조 예측 및 유전자의 돌연변이 효과를 예측하는 등 생명공학 분야의 혁신을 주도 중
□︎ 확산 모델(Diffusion Model)
○확산 모델은 또 다른 강력한 성능의 생성형 모델 중 하나로 주목 받고 있음
○자가지도학습(Self-supervised Learning) 방법 중 하나로 학습 데이터로 주어진 입력(이미지, 혹은 단백질 서열)에 잡음을 섞고(Forward diffusion) 본래 입력값을 역으로 추론하는(Reverse diffusion) 모델을 기초로 사용자의 지시에 따라 입력값을 생성함
○새로운 분자와 단백질 구조의 예측 및 설계 분야의 혁신을 주도하고 있음
※ 확산 모델은 원본 입력에 작은 잡음을 추가한 뒤 이를 제거해 원본을 복원할 수 있도록 모델을 학습시킴. 이 역과정을 축적하면 생성 모델임 출처 :Watson, J.L., Juergens, D., Bennett, N.R. et al. De novo design of protein structure and function with RFdiffusion. Nature 620, 1089–1100 (2023). https://doi.org/10.1038/s41586-023-06415-8 |
[그림 3] 확산모델(Diffusion Model)을 이용한 단백질 디자인 프로세스 |
2.최신동향
2.1 약물 발견 및 개발
□︎ 항생제 개발(2023, 미국 MIT)
○신경망 모델이 학습한 항생제 활성과 관련된 화학적 하부구조를 식별해 항생제의 구조적 종류를 예측함
○딥러닝을 통해 화학 공간을 효율적으로 탐색할 수 있는 설명 가능한 하위구조 기반 접근법을 개발함
‒︎39,312개 화합물의 항생제 활성과 인간 세포 독성 프로파일을 확인하고 그래프 신경망 앙상블을 적용해 12,076,365개 화합물의 항생제 활성과 세포 독성을 예측함
‒︎설명 가능한 그래프 알고리즘을 사용하여 예측된 항생제 활성은 높고 예측된 세포 독성은 낮은 화합물에 대한 하위 구조 기반 근거를 확인함
‒︎283개의 화합물을 실험적으로 테스트한 결과 황색포도상구균에 대한 항생제 활성을 보이는 화합물은 위의 근거에 따라 추정되는 구조 클래스가 더 풍부하다는 것을 확인함
‒︎이러한 구조적 분류의 화합물 중 하나는 메티실린 내성 황색포도상구균(MRSA)과 반코마이신 내성 장구균에 선택적으로 작용하고, 상당한 내성을 회피하며, MRSA 피부 및 전신 허벅지 감염 마우스 모델에서 박테리아 역가를 감소시키는 것을 확인함
○선택적 항생제 활성의 기반이 되는 화학 물질 구조에 대한 인사이트를 제공함으로써 신약 개발의 머신러닝 모델을 설명할 수 있음을 입증함 [4]
2.2 유전자 연구
□︎ 알파미스센스(2023, 미국 구글 딥마인드)
○LLM은 유전자 서열을 분석하여 유전자 기능, 상호 작용 및 돌연변이를 이해할 수 있으며, 이러한 이해는 질병을 치료하기 위해 유전 물질을 정밀하게 수정해야 하는 유전자 치료와 같은 분야에서 매우 중요함
○알파미스센스는 미스센스 변이가 병원성이 될 확률을 예측하고 양성, 병원성, 불확실성으로 분류하여, 가능한 모든 인간 미스센스 변종에 대한 예측을 제공함
‒︎인간과 영장류의 변이체 집단 빈도 데이터에 대해 AlphaFold를 미세 조정하고 알려진 질병 변이체에 대한 신뢰도를 보정함 [5]
※ 알파미스센스는 미스센스 변이가 병원성이 될 확률을 예측하고 양성, 병원성, 불확실성으로 분류함 출처 : [5] |
[그림 4] 알파미스센스 변이 예측 프로세스 |
2.3 분자 속성 예측
□︎ KANO(2023, 중국 Zhejiang University)
○딥러닝 모델은 분자의 특성을 정확하게 예측하여 잠재적인 신약 후보 물질을 더 빠르고 효율적으로 검색할 수 있도록 도와줄 수 있음
○기존의 많은 방법은 화학적 사전 정보 없이 분자의 고유한 토폴로지 및 구성 규칙을 활용하는 데 초점을 맞춘 데이터 기반 방식으로, 데이터 의존도가 높기 때문에 더 넓은 화학 공간으로 일반화하기 어렵고 예측에 대한 해석 가능성도 부족함
○이러한 문제를 해결하기 위해 화학 원소 중심의 지식 그래프를 도입하여 원소와 밀접하게 연관된 작용기에 대한 기본 지식을 정리하며, 사전 학습과 미세 조정 모두에서 외부의 기본 도메인 지식을 활용하는 기능적 프롬프트(KANO)를 사용한 지식 그래프 강화 분자 대조 학습 방법을 제안함
‒︎구체적으로, 먼저 원소 지향 지식 그래프를 기반으로 대조 기반 사전 학습에서 원소 안내 그래프 증강을 설계하여 분자 의미를 위반하지 않고 미시적인 원자 연관성을 탐색함
‒︎그리고, 사전 학습된 모델에서 획득한 하위 작업 관련 지식을 불러일으키기 위해 미세 조정을 통해 기능적 프롬프트를 학습함
‒︎학습을 기반으로 광범위한 실험을 통해 KANO는 14개의 분자특성 예측 데이터 세트에서 최첨단 기준선을 능가하는 성능을 보였으며, 예측에 대해 화학적으로 타당한 설명을 제공함
○KANO는 고품질의 사전 지식, 해석 가능한 분자 표현, 우수한 예측 성능을 제공함으로써 보다 효율적인 약물 설계에 기여함 [6]
※ KANO는 화학 원소 중심의 지식 그래프를 도입하여 원소와 밀접하게 연관된 작용기에 대한 기본 지식을 정리하고, 사전 학습과 미세 조정 모두에서 외부의 기본 도메인 지식을 활용하여 분자의 속성을 학습하고 예측함 출처 : [6] |
[그림 5] 화학 원소 기반 지식 그래프를 도입한 기능적 프롬프트 ‘KANO’ |
2.4 새로운 분자 생성
□︎ Coscientist(2023, 미국 카네기멜론 대학)
○코스사이언티스트는 인터넷 및 문서 검색, 코드 실행, 실험 자동화 등의 도구를 통해 대규모 언어 모델을 통합하여 복잡한 실험을 자율적으로 설계, 계획, 수행하는 GPT-4 기반의 인공지능 시스템
‒︎코스사이언티스트는 팔라듐 촉매 교차 결합의 성공적인 반응 최적화를 비롯해 6가지 다양한 과제에서 연구를 가속화할 수 있는 잠재력을 보여주었으며, (반)자율 실험 설계 및 실행을 위한 고급 기능을 선보임
○코스사이언티스트와 같은 인공지능 시스템이 연구를 발전시키는 데 있어 다양성, 효율성 및 설명 가능성을 입증함 [7]
※ a, 코사이언티스트는 메시지를 주고받는 여러 모듈로 구성되어 있음. 파란색 배경의 상자는 LLM 모듈을, 녹색은 플래너 모듈을, 빨간색은 입력 프롬프트를 나타냄. 흰색 박스는 LLM을 사용하지 않는 모듈을 나타냄 출처 : [7] |
[그림 6] 코사이언티스트(Coscientist) 작동 체계 |
□︎ Uni-RXN(2023, 중국 북경대학)
○화학 반응은 약물 설계와 유기 화학 연구의 기본으로 화학 반응의 기본 규칙을 효율적으로 포착할 수 있는 대규모 사전 학습 계산 프레임워크가 절실히 필요하나 분자 생성 작업에 화학 반응을 적용하는 것은 종종 소수의 반응 템플릿으로 제한됨
○Uni-RXN은 유기 화학 메커니즘에서 영감을 받아 귀납적 편향을 모델에 통합할 수 있는 사전 학습 모델이며 표현 학습과 생성 작업을 모두 처리하는 통합 프레임워크로 보다 총체적인 접근이 가능함
‒︎반응 분류와 같은 까다로운 다운스트림 작업에서 최첨단 결과를 달성함
‒︎가상 약물과 유사한 화학 라이브러리 설계와 같은 생성 작업에서 큰 잠재력을 보여주며 더 많은 합성 가능한 구조 아날로그를 생성할 수 있음 [8]
※ 가장 높은 점수를 받은 COVID-19 3CLPro 억제제의 도킹 포즈. 회색 포즈는 원본 PDB 파일에서 파생된 시드 분자의 참조 포즈. Uni-RXN 샘플링된 분자와 Lib-invent 생성 분자의 스캐폴드가 기준 포즈와 완벽하게 정렬되어 있으며, Uni-RXN 샘플링된 분자의 절대 도킹 점수가 더 높음 출처 : [8] |
[그림 7] Uni-RXN 샘플링 분자의 스캐폴드 비교 |
2.5 단백질 구조 예측
□︎ 알파폴드(2020, 미국 Google DeepMIND)
○구글 딥마인드가 개발한 알파폴드는 단백질 구조예측에 있어서 강력한 성능을 보이는 모델 중 하나임
‒︎2년 마다 열리는 단백질구조예측대회(CASP, Critical Assessment of Structure Prediction)에서 2018년, 2020년, 두 차례에 걸처 압도적인 점수 차이로 1등을 차지하였으며,
‒︎2020년 알파폴드2는 실험에 필적하는 정확도를 달성하고 2억 개의 게놈 서열 정보와 20만개의 단백질 구조 데이터에 대한 학습 및 예측 시 참조함
‒︎지금까지 구조가 알려지지 않은 2억개의 단백질 구조를 계산해 공개함
출처 : Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold. Nature 596, 583–589 (2021). https://doi.org/10.1038/s41586-021-03819-2 |
[그림 8] 알파폴드2 아키텍처 |
○● 단점으로 ➊대다수의 연구자들에겐 접근하기 어려운 최상급의 컴퓨팅 자원이 필요하며, ➋예측 결과에 대한 설명이 없고, ➌동적이거나 무질서한 단백질 영역 예측에 한계가 있음
출처 : Google DeepMind, “The making of a scientific breakthrough”, December 1, 2020, Video, 3:06, https://www.youtube.com/watch?v=gg7WjuFs8F4] |
[그림 9] 1992년 이후 단백질 구조 예측모델의 성능 향상 추이 |
□︎ESMFold(2023, 미국 Meta AI)
○ESMFold는 150억 개의 파라미터로 구성된 지금까지 발표된 것 중 가장 크고 정교한 단백질 언어 모델 Protein Language Model(PLM)에 해당됨. ESM-2는 PLM 그 자체이고, ESMFold는 구조 예측 도구, ESM-1v는 변이 병원성 예측 도구, ESM-if는 inverse folding 예측 도구임
○알파폴드와 달리 구조 정보를 참조하지 않고 서열을 기반으로 구조를 생성할 수 있음
‒︎그 결과 알파폴드보다 최대 60배 더 빠름. 단백질 엔지니어링 워크플로우에서 수백만 개의 단백질 서열을 한 번에 스크리닝하고자 할 때, 이러한 속도 이점은 큰 차이를 만들어 냄
○진화적으로 유사한 유사체가 없는 고아 단백질의 경우, ESMFold는 알파폴드보다 더 정확한 구조 예측을 생성할 수 있음 [9]
□︎ RoseTTAFold(2023, 미국 워싱턴 대학)
○로제타폴드는 차원(1D) 수열 수준, 2차원 거리 지도 수준, 3차원 좌표 수준의 정보를 순차적으로 변환하고 통합하는 3트랙 네트워크로서 CASP14에서 딥마인드에 근접하는 정확도로 구조를 예측함
○까다로운 엑스레이 결정학 및 극저온 전자 현미경 구조 모델링 문제를 신속하게 해결할 수 있으며, 현재 알려지지 않은 단백질의 기능에 대한 통찰력을 제공함
○서열 정보만으로 정확한 단백질-단백질 복합체 모델을 신속하게 생성할 수 있어 개별 서브유닛을 모델링한 후 도킹해야 하는 기존 접근 방식을 단축할 수 있어 생물학 연구의 속도를 높일 수 있음 [10]
2.6 단백질 설계
□︎ProGen(2020, 미국 Salesforce Research)
○ProGen 모델은 12억 개의 파라미터로 구성되어있는 트랜스포머 기반 LLM을 사용하여 새로운 단백질을 설계한 최초의 연구임
‒︎원시 단백질 서열로 훈련된 기성 언어 모델만으로는 문제해결에 한계가 있어, 구조 및 기능 데이터를 통합하는 것이 필수적임
○Salesforce Research에서 Progen 프로젝트를 이끌었던 수석 연구원 알리 마다니(Ali Madani)는 이후 프로플루언트 바이오(Profluent Bio)라는 스타트업을 설립함
‒︎2022년 10억개 이상의 단백질 서열 데이터셋을 학습한 ProGen2를 공개
○항체 설계(2020, 미국 Nabla Bio, Harvard University)
○나블라 바이오는 하버드대 조지 처치의 연구실에서 분사하여 새로운 단백질 치료제를 설계하는 데 LLM을 적용함
‒︎오늘날 모든 단백질 치료제의 60%가 항체이고 세계에서 가장 많이 팔리는 두 가지 약물이 항체 치료제라는 점을 감안하여 항체에 초점을 맞추고 있음
○나블라는 자체적으로 치료제를 개발하기보다는 바이오 제약 파트너가 자체적으로 치료제를 개발할 수 있도록 자사의 첨단 기술을 제공함
○ProteinMPNN(2022, 미국 Washington University)
○미국 워싱턴 대학교의 데이비드 베이커(David Baker) 연구실은 LLM을 사용하는 대신 단백질 구조 데이터에 의존하여 새로운 단백질 서열을 찾는 inverse folding 모델을 사용해 Grb2 SH3 도메인에 결합하는 프롤린이 풍부한 펩타이드를 스캐폴딩하는 단백질을 설계하는 데 성공함
‒︎Bio-Layer Interferometry(BLI) 실험 결과 네이티브 펩타이드 및 기존 모델이 설계한 단백질은 Grb2 SH3와 결합하지 않으나, ProteinMPNN이 설계한 서열은 펩타이드보다 훨씬 높은 신호로 나타남. 결합을 방해할 것으로 예상되는 점 돌연변이는 결합 신호를 완전히 제거 (그림9 참조)
출처 : [11] |
[그림 9] ProteinMPNN을 이용한 단백질 기능 설계 |
○타깃 단백질과 밀접하게 상호작용하는 프롤린이 풍부한 2차 구조를 가진 천연 단백질은 거의 없기 때문에 이 설계 문제는 어려운 과제이나, 프롤린의 독특한 고리 구조로 인해 프롤린이 풍부한 펩타이드는 구조적 안정성이 뛰어나 프로테아제에 의한 분해에 대한 저항성이 높으며 수명이 김
‒︎또한, 크기가 작고 구조가 안정적이기 때문에 면역 반응을 유도할 가능성이 낮아 치료 용도로 유용 [11]
□︎ RFdiffusion(2023, 미국 Washington University)
○미국 Washington University의 David Baker 연구소는 최근 더 발전되고 일반화된 단백질 설계 모델인 RFdiffusion을 발표함. 이름에서 알 수 있듯이 RFdiffusion은 확산 모델을 사용함
‒︎RFdiffusion은 새롭고 사용자 정의 가능한 단백질 "백본", 즉 단백질의 전체 구조적 스캐폴딩을 생성할 수 있으며, 그 위에 서열을 레이어링할 수 있음
○RFdiffusion을 통해 인플루엔자 A H1 HA, IL-7Rα, InsR, PD-L1, TrkA의 5가지 단백질 표적에 대해 새로운 결합체를 설계했으며, 모든 표적에서 양성 대조군의 50% 이상의 BLI 반응을 보이는 힛이 확인됨
‒︎IL-7Rα, InsR, PD-L1, TrkA의 경우, RFdiffusion+AlphaFold2의 성공률은 기존 방법 대비 수 십배 가량 더 높음
‒︎성공요인 중 한 가지는 RFdiffusion에 기인하고, 다른 한 가지는 AF2 필터링에 기인함
※ AF2 필터링을 사용한 경우 이전 캠페인의 예상 성공률은 HA, 0%; IL-7Rα, 2.2%; InsR, 5.5%; PD-L1, 3.7%; TrkA, 1.5%수준이었던 데 반해, RFdiffusion+AlphaFold2의 경우, 비약적인 성공률 증가 확인 가능 출처 : [12] |
[그림 10] 이전 모델과 RFdiffusion model의 예측 성능 차이 |
□︎ FoldingDiff(2022, 미국 Microsoft & Stanford University)
○FoldingDiff는 네이티브 폴딩 과정을 모방하는 절차를 통해 단백질 백본 구조를 설계하는 확산 기반 생성 모델임
‒︎단백질 백본 구조를 구성하는 아미노산 잔기의 상대적 방향을 포착하는 일련의 연속적인 각도로 정의하고, 무작위로 펼쳐진 상태에서 안정적인 접힌 구조로 노이즈를 제거하여 새로운 구조를 생성함
‒︎이는 단백질이 생물학적 및 에너지적으로 유리한 형태로 비틀어지는 방식을 반영할 뿐만 아니라, 이 표현의 고유한 이동 및 회전 불변성으로 인해 복잡한 등변량 네트워크의 필요성을 완화함
○간단한 트랜스포머 백본으로 노이즈 제거 확산 확률 모델을 훈련하고 그 결과 모델이 자연 발생 단백질과 유사한 복잡성과 구조 패턴을 가진 매우 사실적인 단백질 구조를 무조건 생성한다는 것을 입증함 [13]
2.7 단백질-리간드 도킹
□︎ DiffDock(2022, 미국 MIT)
○DiffDock은 저분자 리간드와 단백질의 결합 구조를 예측하는 작업으로 즉 분자 도킹은 약물 설계에 있어 매우 중요함
‒︎도킹을 회귀 문제로 처리하는 최근의 딥러닝 방법은 기존의 검색 기반 방법에 비해 런타임은 단축되었지만 정확도는 크게 향상되지 않았음
○분자 도킹을 생성 모델링 문제로 간주하고 리간드 포즈의 비유클리드 다양체에 대한 확산 생성 모델인 DiffDock을 개발함
‒︎이를 위해 이 다양체를 도킹에 관련된 자유도(병진, 회전, 비틀림)의 곱 공간에 매핑하고 이 공간에서 효율적인 확산 프로세스를 개발함
○DiffDock은 PDBBind에서 상위 1순위 성공률(RMSD<2A) 38%을 달성하여 기존의 최신 도킹(23%) 및 딥러닝(20%) 방법보다 훨씬 뛰어난 성능을 보였음
‒︎이전 방식은 접힌 구조물에 도킹할 수 없는 반면(최대 정확도 10.4%), DiffDock은 훨씬 더 높은 정밀도(21.7%)를 유지함. DiffDock은 추론 시간이 빠르고 높은 선택적 정확도로 신뢰도 추정치를 제공함 [14]
출처 : [14] |
[그림 11] 분자 도킹을 생성 모델링 문제로 간주하고 리간드 포즈의 비유클리드 다양체에 대한 확산 생성 모델인 DiffDock |
2.8 단백질-단백질 상호작용
□︎ 거대 단백질 복합체 구조 예측(2022, 스웨덴 스톡홀름 대학)
○알파폴드는 단일 사슬 및 다중 사슬 단백질의 구조를 매우 높은 정확도로 예측할 수 있으나 사슬의 수에 따라 정확도가 떨어지고, 사용 가능한 GPU 메모리는 예측할 수 있는 단백질 복합체의 크기를 제한함
○몬테카를로 트리 검색(MCTS)을 사용하여 예측된 하위 구성 요소로부터 10~30개의 사슬을 가진 175개의 복합체 중 91개의 복합체를 조립한 결과,
‒︎평균 TM 점수는 0.51점임. 전체 어셈블리의 33%에 해당하는 상위 30개의 복합체는 정확도가 매우 높음(TM 점수 ≥0.8,)
○TM-score는 두 단백질 구조 간의 유사성을 측정하는 척도로 단백질 구조의 전체적 유사성을 0과 1 사이의 점수로 나타냄
‒︎일반적으로 0.20 미만의 점수는 무작위로 선택된 관련 없는 단백질에 해당하며, 0.5보다 높은 점수의 구조는 거의 동일한 구조로 봄
○어셈블리가 완전한지 구분하고 그 정확도를 예측할 수 있는 점수 함수인 mpDockQ를 만들었으나, 대칭을 이루는 복합체는 정확하게 조립되는 반면 비대칭 복합체는 여전히 어려움
※ 모든 상호 작용하는 사슬의 구조는 각 사슬의 단백질 서열과 상호 작용 네트워크를 통해 예측고, 이러한 예측을 기준으로 조립 경로가 구성됨. 각 단계에서 네트워크 에지를 통해 새로운 사슬이 하나씩 추가되어 복합체가 순차적으로 구성됨. 취해진 경로는 빨간색으로 윤곽이 그려져 있음. 완전한 어셈블리는 기본 복합체(회색)와 겹쳐서 표시됨. TM 점수는 0.93점 출처 : [15] |
[그림 12] 아세토아세틸-CoA 티올라제/HMG-CoA 합성효소 복합체(복합체 6ESQ)의 조립 원리 |
2.9 유전자 발현 조절
□︎ dSort-Seq(2023, 중국 칭화대)
○유전자 발현의 비결정적이고 비선형적인 특성으로 인해 클론 집단의 정상 상태 세포 내 단백질 농도는 다양한 분포를 형성함. 발현 강도 및 노이즈를 포함한 이 분포의 특성은 세포의 행동과 밀접한 관련이 있음
○그러나 이러한 특성을 정량적으로 설명하기 위해서는 지금까지 시간과 노동 집약적인 배열 방법에 의존해 왔음
‒︎이 문제를 해결하기 위해 이 연구에서는 딥러닝을 이용한 정렬 시퀀스 접근법(dSort-Seq)을 제안하여 높은 처리량으로 높은 정밀도로 발현 특성을 프로파일링할 수 있도록 함
‒︎이를 통해 바이오센서의 용량-반응 관계에 대한 대규모 분석에서 dSort-Seq의 유효성을 입증함
○또한 대장균의 노이즈 생성에 대한 전사 및 번역의 기여도에 대한 종합적 조사결과, 발현 노이즈가 평균 발현 수준과 강하게 결합되어 있음을 발견하였으며,
‒︎겹치는 RpoD 결합 부위로 인한 전사 간섭이 노이즈 생성에 기여한다는 사실을 발견하여 대장균에서 간단하고 실현 가능한 노이즈 제어 전략의 존재를 시사함 [16]
※ (I~L) 세포분석을 통해 재구성된 tnaC 변이체의 발현 특성을 개별적으로 분석한 결과, 평균 [(I) 0 μM Ala-Trp, n = 26; (K) 100 μM Ala-Trp, n = 30] 및 SD [(J) 0 μM Ala-Trp, (L) 100 μM Ala-Trp] 측면에서 dSort-Seq으로 추정된 것과 높은 상관관계가 나타남 출처 : [16] |
[그림 13] tnaC 변이체 발현 특성 분석결과 |
□︎ 인핸서 설계(2023, Belgium KU Leuven)
○전사 인자는 전사 인자(TF)의 조합을 위한 도킹 스테이션 역할을 하며, 이를 통해 표적 유전자의 시공간적 활성화를 조절함
‒︎인핸서 조절 로직을 해독하고 인핸서 서열에서 시공간적 유전자 발현이 어떠한 방식으로 인코딩되는지의 세부 사항을 이해하는 것은 이 분야의 오랜 목표임
○딥러닝 모델을 사용하여 무작위 서열에서 시작하여 세포 유형별 합성 인핸서를 효율적으로 설계할 수 있으며, 이러한 최적화 프로세스를 통해 단일 뉴클레오티드 해상도로 인핸서의 특징을 상세히 추적할 수 있음을 보임
‒︎형질전환 동물을 이용해 초파리 뇌의 케니언 세포 또는 신경교세포를 특이적으로 표적화하는 완전 합성 인핸서의 기능을 평가함. 또한 인핸서 설계를 활용하여 두 가지 세포 유형을 표적으로 하는 '이중 코드' 인핸서와 완전한 기능을 하는 50개보다 작은 염기쌍의 최소 인핸서를 만듦
○국부적 최적점을 향한 상태 공간 탐색을 조사하여 TF 활성화 모티브와 TF 억제 모티브의 강도, 조합, 배열을 통해 인핸서 코드를 특성화함
‒︎초파리 인핸서와 유사한 인핸서 규칙을 준수하는 인간 인핸서를 성공적으로 설계하기 위해 동일한 전략을 적용함
‒︎딥러닝에 기반한 인핸서 설계는 인핸서의 작동 원리를 더 잘 이해하도록 이끌고, 세포 상태를 조작하는 데 인핸서 코드를 활용할 수 있음을 보임 [17]
2.10 유전자 연구
□︎ DeepECtransformer(2023, 한국 KAIST, 미국 UCSD)
○미생물 게놈의 오픈 리딩 프레임(ORF)에 대한 기능적 주석은 상당히 불완전한 상태로 남아 있음. 효소는 미생물 게놈에서 가장 널리 퍼진 기능성 유전자 부류로, Enzyme Commission(EC) 번호를 사용해 특정 촉매 기능으로 설명할 수 있음
‒︎따라서 EC 번호를 예측할 수 있다면 주석이 달리지 않은 유전자의 수를 크게 줄일 수 있음
○이에 따라 EC 번호를 예측하기 위한 방법이 연구되고 있음
‒︎EC 번호 예측용으로 신경망 아키텍처로써 트랜스포머 레이어를 활용하는 딥러닝 모델인 DeepECtransformer를 만듦
‒︎광범위하게 연구된 대장균 K-12 MG1655 게놈 중 464개의 주석이 없는 유전자에 대한 EC 번호를 예측하고, 세 가지 단백질(YgfF, YciO, YjdM)에 대해 예측된 효소 활성을 실험적으로 검증함
○신경망의 추론 과정을 자세히 살펴본 결과, 훈련된 신경망이 효소의 기능적 모티프에 의존해 EC 수치를 예측한다는 사실을 밝힘 [18]
※ 박스 플롯은 1단계 EC 번호에 따른 신경망의 다양한 성능을 나타냄. 박스 플롯의 각 데이터 포인트는 단일 EC 번호에 대한 신경망의 성능을 나타내며 정밀도, 재현율, F1 점수는 EC 번호 클래스에 따라 다르게 나타남. 박스 플롯의 중심선, 박스 한계선, 수염, 점은 각각 중앙값, 상위 및 하위 사분위수, 1.5배 사분위수 범위, 이상값을 나타내며 EC:1, EC:2, EC:3, EC:4, EC:5, EC:6 및 EC:7에 대한 박스 플롯의 샘플 크기는 각각 720, 828, 649, 283, 149, 129 및 44에 해당 출처 : [18] |
[그림 14] 테스트 데이터 세트에 대한 신경망의 예측 성능 |
3
결론 및 시사점
○AI는 생명공학을 단순히 보조하는 것이 아니라 생명공학을 재편하고 있음
○AI 기술을 활용하여 복잡한 생물학적 데이터를 분석하고 결과를 예측하며 치료를 개인화할 수 있는 도구를 제공함으로써 AI는 생물학적 시스템을 이해하고 조작하는 데 새로운 지평을 열고 있음
○이러한 파트너십이 발전함에 따라 의료, 농업, 생명 자체에 대한 접근 방식을 근본적으로 바꿀 수 있는 혁신을 가져올 것으로 기대함
○AI의 통합은 단순한 기능 향상이 아니라 미래를 위한 필수 요소임
‒︎신약 발견 및 개발과 관련된 시간과 비용을 크게 줄이고, 맞춤화된 의료를 통해 환자 치료 결과를 개선하며, 예측 분석을 통해 가치 있는 인사이트를 제공할 수 있는 잠재력을 제공할 것임
○기술이 계속 발전함에 따라 AI의 역할은 더욱 중요해질 것이며, 보다 효율적이고 효과적이며 개인화된 의료 솔루션을 위한 기반을 마련할 것임
‒︎특히, AI 기술을 통해 환자 개인의 유전자 정보 등 고유 데이터를 바탕으로 맞춤형 치료기술 개발에 기여하여 미래 정밀의료 산업의 혁신할 것으로 기대
○또한, 딥러닝 등 AI 기술을 통해 이미지 기반 표현형 데이터를 유전체 변이, 유전자 및 단백질 발현 등 분자 수준의 정보와 결합하여 다양한 이미징 기술 개선 예상
○AI는 많은 이점을 제공하지만, 특히 데이터 프라이버시 및 윤리적 고려 사항과 관련된 도전과제를 제시하고 있어, 이를 극복하기 위한 방안을 함께 모색할 필요가 있음
...................(계속)
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.