BioINpro
(BioIN + Professional) : 전문가의 시각에서 집필한 보고서 제공[KRIBB 워킹그룹] de novo 단백질 디자인 기술의 발전 현황 III
- 등록일2024-10-08
- 조회수2718
- 분류플랫폼바이오 > 바이오융합기술
-
저자/소속
안우찬 외 7명/한국생명공학연구원 인공단백질디자인 워킹그룹
-
발간일
2024-10-08
-
키워드
#단백질 구조#인공단백질 디자인#단백질 언어모델
- 첨부파일
-
차트+
?
차트+ 도움말
de novo 단백질 디자인 기술의 발전 현황 III
2024년도 KRIBB 워킹그룹 이슈페이퍼 제6호
◈ 목차
1.개요
2.주요 동향 및 이슈
2.1 단백질 설계 기술 개발 동향
2.2 단백질 기능에 따른 디자인 개발 동향
2.3 인공단백질 디자인 기반 산업계 및 학회 동향
2.4 단백질 설계에 대한 규제와 개념적 논의3.결론 및 시사점
◈본문
1 개요
■단백질 구조 예측과 인공단백질 디자인
○단백질 구조 예측 연구는 1차원의 아미노산 서열 정보를 이용해서 단백질의 3차 구조를 예측하는 연구 분야
○단백질 디자인은 단백질 구조 예측의 역순으로, 특정한 3차원 구조를 형성하기 위해서 어떤 아미노산 서열이 필요한지 추적하는 연구
○인공 단백질 디자인은, 자연적으로 발생한 경우의 수 범위를 넘어서 무한한 아미노산 서열 조합을 통해 자연계에 존재하지는 않지만, 인류에게 필요한 기능을 갖는 단백질을 인공적으로 설계하여 만들어내고, 이를 광범위한 분야에 활용하고자 하는 미래형 기술
[그림 1] 단백질 디자인과 단백질 구조 예측의 관계
출처 : 인공단백질 WG 집필진 편집 PBD ID : 2JWU
■인공지능과 함께 혁신적 진보를 이루고 있는 인공단백질 디자인 분야
○알파폴드 등장 이후, 단백질 구조 예측과 단백질 디자인 분야는 인공지능(AI) 기술이 적용되면서, 구조 예측 정확도와 디자인 성공률에 있어서 급격한 발전을 이룸
–︎2021-22년 알파폴드와 로제타폴드가 높은 구조예측 정확도를 보여주면서, 다양한 분야의 연구자들이 신뢰하고 활용하기 시작하여, 새로운 통찰과 연구 효율성을 향상시킴
※ 2021년 사이언스지는 ‘올해의 혁신(Breakthrough of the year)’으로 인공지능을 이용한 단백질 구조 예측으로 선정(“Protein structures for all”)
※ 2021년, 미국의 노벨상이라고 하는 혁신상(Breakthrough prize)을 단백질 디자인 분야 선두 주자인 워싱턴대학교 데이비드 베이커(David Baker) 교수가 수상
※ 2022년 MIT technology review에서 해마다 선정하는 10대 혁신(breakthrough) 중 하나로 ‘AI for protein folding’을 선정
■인공지능 기반 단백질 설계 전략
○단백질의 기능은 단백질이 어떤 구조를 이루고 있는지에 의해서 결정되고, 단백질의 구조는 단백질 서열에 의해서 결정됨
○단백질 설계는 원하는 기능의 단백질을 위해서 어떤 아미노산 서열이 필요한지 추적하는 과정으로, 기능, 구조, 서열의 관계로 인하여 1)기능에서 구조, 2)구조에서 서열, 3)기능에서 서열 중 하나의 전략을 취하여 이루어짐.
○(기능→구조) 단백질 기능을 위한 구조 설계
–︎특정한 단백질의 기능을 위하여 필요한 구조를 설계하는 방법으로, 표적 결합 단백질, 효소 단백질, 올리고머 단백질 등 필요한 기능에 적합한 구조를 도출하는 방식
–︎대표적인 디자인 방법은 할루시네이션과 확산(diffusion) 모델 기반의 기술이 있음
※ 할루시네이션의 경우, 무작위적인 돌연변이와 구조 예측을 여러 차례 반복하여 구조 예측 알고리즘에 의해서 성립 가능한 구조를 찾아 나가는 방식
※ RFdiffusion은 단백질의 모든 원자를 사용하지 않고, 골격에 사용되는 N, Ca, C만을 사용하여 골격을 형성함. 대칭 올리고머 디자인, 결합체 디자인, 모티프나 효소 활성 부위 고정을 위한 골격 설계 등이 가능하며, 골격 생성 이후에 서열 디자인을 필요로 함
○(구조→서열) 단백질 구조를 위한 서열 예측
–︎필요한 단백질의 구조가 정해진 상황에서, 해당 구조를 형성하기 위해 필요한 아미노산 서열을 찾는 전략
–︎이 부분에서는 ProteinMPNN이 가장 대표적인 모델이었고, 최근 리간드를 포함하는 업그레이드 형태 LigandMPNN이 개발됨
※ ProteinMPNN을 사용하여 디자인된 단백질의 성공 사례가 이미 다수 보고되었고, 최근 수용성 단백질 설계에 적합한 수용성 모델(soluble model)이 추가됨
※ LigandMPNN은 단백질 서열 뿐 아니라 다양한 리간드 정보가 포함되어, 리간드 결합 단백질 디자인 성능이 추가된 모델
○(기능→서열) 단백질 기능을 위한 서열 도출
–︎특정한 단백질의 기능을 위한 구조를 생성하는 단계를 생략하고, 서열을 생성하는 방식
–︎주로 특정한 기능을 하거나 또는 할 것으로 예상되는 단백질 서열을 학습하고, 그와 유사한 서열을 생성하게 하는 전략을 취함
※ 형광 루시퍼레이즈 유사 단백질 서열들로 학습된 모델이 유사 형광 단백질 서열을 생성하거나, 특정 항원에 결합 수 있는 항체의 서열을 기반으로 학습하여 해당 항원에 결합할 수 있는 새로운 항체 서열을 생성하는 사례가 있음–︎ProGen2가 대표적인 모델로 방대한 양의 단백질 서열 데이터로 학습된 언어 모델을 목적에 맞게 미세조정(fine-tuning)하여 사용함
–︎최근 생물정보학 단백질 주석(annotation) 분야의 발전은 거대 단백질 언어 모델 발전과 시너지가 있을 것을 기대됨
※ 인공지능과 구조예측 기능 향상을 통해서 급속히 발전하는 메타지놈 데이터의 주석연구는 낮은 서열 상동성에도 불구하고, 유사한 구조와 기능을 가진 단백질 서열을 같은 패밀리로 군집화할 수 있게 함. 이는 기능을 위한 서열 생성 모델의 학습 데이터로 다시 활용될 수 있음.
[그림 2] 단백질 기능-구조-서열의 관계와 단백질 디자인 전략 유형
출처 : 인공단백질 WG 집필진 작성
지식