기술동향
AI 기반 단백질 구조 예측 기술의 발전과 독성 평가 분야에서의 혁신 가능성
- 등록일2025-10-29
- 조회수165
- 분류기술동향 > 플랫폼바이오 > 바이오기반기술
-
자료발간일
2025-10-24
-
출처
BRIC
- 원문링크
-
키워드
#AI 기반# 단백질 구조 예측 기술#독성 평가
AI 기반 단백질 구조 예측 기술의 발전과 독성 평가 분야에서의 혁신 가능성
◈본문
요약문
단백질은 생명체의 다양한 기능을 수행하며, 그 기능은 3차원 구조에 의해 결정된다. 아미노산 서열로부터 단백질의 입체 구조를 예측하는 이른바 단백질 접힘 문제(protein folding problem)는 50년 이상 생물학 분야의 난제로 남아 있었다. 그러나 2020년, 구글 딥마인드(DeepMind)의 AlphaFold가 이 문제를 획기적으로 해결하면서 구조 생물학의 패러다임이 변화했다. AlphaFold는 국제 대회 CASP14에서 기존 기술을 크게 앞서는 정확도로 단백질 구조를 예측하여 큰 주목을 받았다. 같은 해 워싱턴 대학교의 RoseTTAFold도 발표되며, 적은 계산 자원으로 높은 정확도를 달성하는 또 다른 AI 기반 도구로 자리 잡았다. 이러한 기술의 등장은 단백질 구조 해석의 문턱을 크게 낮췄으며, 2022년에는 AlphaFold가 예측한 전 세계 거의 모든 단백질의 구조 데이터베이스가 공개되어 ‘단백질 우주(protein universe)’의 지도가 제시되었다. 이는 생명과학 전반에 걸친 연구는 물론, 독성 평가와 신약 개발 분야에서도 매우 중요한 기초 데이터를 제공한다. 특히 독성학적 맥락에서, 특정 화학물질과 상호작용할 수 있는 단백질의 3차원 구조를 사전에 예측함으로써 독성 발현 가능성을 보다 정밀하게 평가할 수 있게 되었다. 이처럼 AI 기반 단백질 예측 기술은 생명과학, 의약학, 환경 독성학 등 다양한 분야에서 새로운 연구 방향을 제시하는 핵심 도구로 떠오르고 있다.
키워드
#단백질 구조 예측(Protein Structure Prediction) #AlphaFold #AI 독성평가(AI-based Toxicity Assessment) #신약개발(Drug Discovery) #단백질-화합물 상호작용(Protin-Ligand Interaction)
분야
기타 > 기타
목 차
1. 서론
1.1. AlphaFold와 RoseTTAFold: 단백질 구조 예측의 혁신
2. 본론
2.1. AlphaFold 및 RoseTTAFold 개요
2.1.1. 개발배경
2.2. 기술적 특징 및 차이점
2.3. 독성 평가 분야에서의 응용
2.3.1. 독소-단백질 상호작용 예측
2.3.2. 단백질 변이 분석
2.3.3. 약물 독성 예측
2.4. 장점과 혁신성
2.4.1. 실험 대체 가능성
2.4.2. 비용 절감 및 시간 단축
2.5. 도전 과제 및 한계
2.5.1. 데이터 품질 문제
2.5.2. 해석의 불확실성
2.5.3. 윤리적 고려사항
3. 결론
4. 참고문헌
1. 서론
1.1. AlphaFold와 RoseTTAFold: 단백질 구조 예측의 혁신
생명체의 다양한 기능을 수행하는 단백질은 그 3차원 구조에 의해 그 기능이 결정되는 경우가 많다. 단백질의 아미노산 서열로부터 그 입체 구조를 예측하는 문제, 이른바 단백질 접힘 문제(protein folding problem)는 생물학 분야에서 50년 이상 해결되지 않은 난제로 알려져 있었다. 그러나 2020년, 구글 딥마인드(DeepMind)의 AlphaFold가 이 문제에 획기적인 해답을 제시하면서 상황이 일변하였다. AlphaFold는 국제 예측 대회인 CASP14에서 이전까지의 모든 예측 방법들을 크게 앞서는 정확도로 단백질 구조를 예측하여 구조생물학계를 놀라게 하였으며, 그 성능은 “상당히 놀랍고 변혁적”이라는 평가를 받았다 [1-2]. 같은 해 미국 워싱턴 대학교의 베이커(Baker) 연구팀 또한 RoseTTAFold라는 대표적인 AI 기반 구조 예측 도구를 발표하여, 비교적 적은 계산 자원으로도 높은 정확도의 구조 예측이 가능함을 보여주었다.
AlphaFold와 RoseTTAFold의 등장은 생물의학 연구의 새로운 시대를 열었다고 평가된다. 이들 도구를 통해 연구자들은 실험 구조가 알려지지 않은 수많은 단백질들의 모델을 손쉽게 얻을 수 있게 되었고, 2022년에는 AlphaFold로 예측된 전 세계 거의 모든 단백질에 대한 구조 데이터베이스가 공개되어 “단백질 우주(protein universe)의 지도”가 제시되었다.
The ESM Metagenomic Atlas contains structural predictions for 617 million proteins. [3]
AI를 활용한 단백질 접힘 예측은 마치 종이 접기처럼 복잡한 입체 구조를 형성하는 단백질의 3차원 형태를 정확히 밝혀낸다. AlphaFold와 같은 모델의 등장은 이러한 복잡한 구조를 데이터로부터 예측해 내는 데 성공한 사례이다. 이러한 AI 기반 구조 예측 기술은 신약 개발, 효소 공학, 질병 기전 연구 등 다양한 분야에서 파급효과를 나타내고 있으며, 특히 독성 평가 분야에서도 혁신적인 활용 가능성을 보여주고 있다. 약물의 부작용 독성, 환경 독소의 인체 영향, 단백질 독소의 작용 기전 등은 모두 분자 수준에서 단백질과 리간드(소분자나 다른 단백질)의 상호작용 및 구조적 변화와 밀접한 관련이 있다. 따라서 최신 AI 구조 예측 도구를 독성 평가에 활용하면, 전통적인 실험에 의존하던 독성 연구에 새로운 통찰을 제공하고 비용과 시간을 크게 절감할 수 있을 것으로 기대된다.
본 보고서에서는 대표적인 AI 기반 단백질 구조 예측 도구인 AlphaFold와 RoseTTAFold의 기술적 발전과 원리를 개괄하고, 이들이 독성 평가 분야에 가져올 수 있는 잠재적 혁신을 다양한 측면에서 살펴보고자 한다. 먼저 두 도구의 개발 배경과 작동 원리, 성능을 비교하고, 이어서 독성 평가 응용 사례로서 독소-단백질 상호작용 예측, 단백질 변이의 영향 분석, 약물 독성 예측 등에 어떻게 활용될 수 있는지 논한다. 또한 이러한 접근법의 장점과 혁신성(예: 동물실험 대체 가능성, 연구 비용·시간 절감)을 평가하고, 데이터 한계나 예측의 불확실성, 윤리적 고려사항 등 남은 도전 과제를 고찰한다. 실제 연구에서의 실증적 성과들을 최신 논문 기반으로 소개함으로써 현시점의 활용 수준을 점검하고, 정리하고자 한다.
2. 본론
2.1. AlphaFold 및 RoseTTAFold 개요
2.1.1. 개발배경
단백질 구조 예측 분야에서 AlphaFold와 RoseTTAFold의 등장은 딥러닝 기술 발전과 오랜 국제 공동 노력이 결실을 본 사례이다. AlphaFold는 구글 딥마인드가 개발한 딥러닝 기반 예측 모델로, 2018년 CASP13 대회에서 1차 버전(AlphaFold 1)이 우수한 성적으로 1위를 차지하며 주목받았다. 이후 개선된 AlphaFold 2가 2020년 CASP14에서 다시 한번 1위를 기록했는데, 특히 일부 단백질에서는 예측 구조와 실제 실험 구조의 유사도 지표인 GDT 점수가 90점 이상(100점 만점) 일 정도로 높은 정확도를 보였다.
Median Free-modeling Accuracy [4]
이는 당시 다른 어떤 참가팀보다도 압도적으로 뛰어난 성능으로, 기존에 어려웠던 데 노보(de novo) 단백질에 대해서도 원자 수준에 가까운 예측을 달성했다는 의미이다.
2024년 노벨화학상 수상자 [5]
이러한 성과로 AlphaFold 팀은 2023년 생명과학 분야의 브레이크스루상(Breakthrough Prize)을 비롯해 2024년에는 노벨화학상까지 수상하며 과학계의 큰 인정을 받았다. 한편, 미국 워싱턴대의 데이비드 베이커(David Baker) 교수 팀은 전통적으로 단백질 구조 예측과 디자인 분야를 선도해 왔으며, AlphaFold의 성공에 자극을 받아 2021년 RoseTTAFold라는 새로운 예측 모델을 발표하였다. RoseTTAFold는 딥러닝 기반 방법을 보다 경량화하여 일반 연구자들도 활용하기 쉽게 만든 것이 특징으로, 공개 직후 전 세계 연구자들이 웹 서버와 오픈소스 코드를 통해 이를 활용할 수 있게 되었다. 요컨대, AlphaFold와 RoseTTAFold의 출현 배경에는 오랜 기간 축적된 구조생물학 데이터(수십만 개의 알려진 단백질 구조)와 딥러닝 알고리즘의 발전, 그리고 국제 경진대회를 통한 혁신 촉진이 있었다.
2.2. 기술적 특징 및 차이점
AlphaFold와 RoseTTAFold는 모두 딥러닝을 활용한다는 공통점이 있지만, 세부적인 기술적 구현과 특징에서 몇 가지 차이가 존재한다. 먼저 예측 정확도 측면에서, AlphaFold는 독립 평가에서 현존 최고 수준의 정확도를 보여준다. 예를 들어 CASP14 결과 기준으로 AlphaFold2는 약 3분의 2에 해당하는 단백질 도메인에서 거의 실험과 구분이 어려운 정확도의 모델을 산출한 반면, RoseTTAFold 역시 뛰어나지만 약간 더 낮은 정확도를 보이는 것으로 보고되었다. 한 연구에서는 G-단백질 연결 수용체(GPCR) 73종에 대해 두 프로그램을 비교한 결과, AlphaFold 예측이 RoseTTAFold에 비해 루프 영역 등에서 다소 더 정확하여, 최고 모델의 RMSD(근원평균제곱 편차) 값이 평균 5.5 A (AlphaFold) 대 6.3 A (RoseTTAFold)를 나타냈다고 한다. 그러나 이는 어려운 막단백질 계열에 대한 평가이며, 전반적으로 두 모델이 대부분의 경우 3~4 A 수준 내외의 비교적 정확한 구조를 제공한다는 공통점을 가진다.
둘째, 계산 자원 및 속도 면에서 RoseTTAFold는 경량화에 초점을 맞추어 개발된 덕분에 단일 GPU로 수십 분 이내에 구조 예측을 완료할 수 있을 정도로 빠르다. 반면 AlphaFold2는 높은 정확도를 얻기 위해 거대한 모형 파라미터와 반복 연산을 사용하므로 초기에는 TPU 등 대규모 연산 자원이 필요했으며, 일반 연구자가 직접 실행하려면 상당한 GPU 메모리와 시간이 요구된다. 다만 2021년 공개된 AlphaFold2 오픈소스 버전은 최적화가 진행되어 현재는 고사양 GPU 한 대로도 동작이 가능하고, 예측 속도도 단백질 크기에 따라 수 분에서 수 시간 정도로 실용화 단계에 접어들었다.
셋째, 출력 및 신뢰도 지표에 약간의 차이가 있다. 앞서 언급한 대로 AlphaFold는 pLDDT라는 내부 신뢰도 점수를 출력하여 연구자가 예측 결과를 해석하는 데 도움을 준다. RoseTTAFold의 경우 유사하게 각 잔기에 대해 예상되는 위치 오류 범위를 B-팩터 값 형태로 제공하는데, 이는 예측 구조와 실제 구조의 RMSD를 추정한 값으로 이해할 수 있다. 따라서 두 모델 모두 사용자에게 “이 부분은 확실하고, 저 부분은 불확실하다”를 알려주는 지표를 제시하지만, 형식과 산출 방식에 약간의 차이가 있다.
넷째, 복합체(상호작용) 예측 능력에서의 차별점이 있다. AlphaFold는 본래 단일 단백질 접힘 예측을 목표로 개발되었으나, 2021년 이후 다중 사슬 단백질 복합체에 대한 예측 기능(AlphaFold-Multimer)이 추가되어 이종 단백질 상호작용도 일정 수준 예측할 수 있게 되었다. 더 나아가 2024년 발표된 AlphaFold 3에서는 단백질-단백질은 물론 DNA, RNA, 소분자 리간드, 이온과의 결합까지 예측하도록 확장되어, 기존 대비 상호작용 예측 정확도를 평균 50% 향상시켰다는 보고가 있다. 반면 RoseTTAFold도 초기 버전부터 하나의 신경망으로 여러 서열을 동시에 입력받아 단백질 간 접촉을 예측하는 기능이 포함되어 있어, 일부 단백질-단백질 복합체의 구조를 성공적으로 예측한 바 있다. 즉, 복합체 예측 면에서는 두 접근법 모두 발전을 거듭하고 있으나, 현시점에서 AlphaFold 쪽이 다양한 종류의 상호작용 파트너를 다룰 수 있다는 점에서 한 발 앞서 나가는 모양새이다.
마지막으로, 사용자 접근성 측면에서 두 도구 모두 학술용으로 무료 공개되어 있으나 약간의 차이가 있다. AlphaFold2는 2021년 논문 출판과 함께 소스 코드와 사전 훈련된 모델 파라미터가 공개되어 누구나 로컬 환경에서 실행하거나 맞춤 개선이 가능해졌다. 또한 유럽 Bioinformatics Institute(EBI)와 DeepMind는 전 세계 수백만 단백질 서열에 대한 AlphaFold 예측 구조를 데이터베이스화하여 웹 포털을 통해 제공하고 있다. RoseTTAFold 역시 GitHub를 통해 소스와 모델이 공개되어 있으며, 베이커 연구팀이 운영하는 웹 서버(Robetta)를 통해 일반 연구자들이 서열을 제출하면 예측 구조를 얻을 수 있는 서비스를 제공 중이다. 두 도구 모두 오픈소스 프로젝트로서 지속적인 개선이 이루어지고 있지만, 2024년 등장한 AlphaFold 3는 아직 상업적 이용이 제한된 채 웹 서비스 형태로만 제공되어 개방성 면에서 논란이 있다. 이는 뒤의 윤리적 고려사항에서 다시 언급한다.
AlphaFold 와 RoseTTAFold의 주요 특징 및 차별점

위 표에서 볼 수 있듯이, AlphaFold와 RoseTTAFold 모두 혁신적인 구조 예측 능력을 갖추고 있으나 각자의 강점이 있다. AlphaFold는 뛰어난 정확도와 폭넓은 예측 데이터베이스로 표준 도구로 자리 잡았고, RoseTTAFold는 신속하고 유연한 플랫폼으로 연구 커뮤니티에 친화적인 장점을 보여준다. 다음 장에서는 이러한 도구들이 실제로 독성 평가 분야에서 어떻게 응용될 수 있는지 구체적인 사례와 함께 살펴본다.
2.3. 독성 평가 분야에서의 응용
2.3.1. 독소-단백질 상호작용 예측
독성 물질이 생체 내에서 작용하려면 결국 특정 표적 단백질에 결합하거나 화학적 반응을 일으키게 된다. 따라서 어떤 독소가 어느 단백질에, 어떤 방식으로 붙는지를 분자 수준에서 예측하는 것은 독성 기전 이해의 핵심이다. AI 기반 구조 예측 도구는 이러한 독소-단백질 상호작용 연구에 새로운 가능성을 열어준다. 과거에는 특정 독소와 단백질의 결합 구조를 알아내려면 X선 결정학이나 NMR로 복합체 구조를 풀거나, 무수한 돌연변이 실험을 통해 간접적으로 추론해야 했다. 그러나 이제는 AlphaFold로 예측한 단백질 3D 구조와 독소의 화학 구조 정보를 결합하여 컴퓨터 시뮬레이션으로 상호작용을 시험해 볼 수 있다. 예를 들어, 인체에 유해한 중금속 이온이나 환경오염물질이 어떤 단백질들을 표적으로 삼아 독성을 나타내는지 알고 싶다면, 해당 독소 후보를 인체 단백질 구조 데이터베이스(대부분 AlphaFold로부터 얻은 모델) 상의 수천 개 단백질에 도킹(docking) 시뮬레이션으로 결합시켜 보고, 결합 친화도가 높은 단백질을 찾는 방식을 생각해 볼 수 있다. 최근 한 연구에서는 이러한 네트워크 독성학과 AlphaFold3 예측 구조, 분자 도킹을 결합하여 코발트(II) 이온과 유기 착물의 독성을 분석한 사례도 보고되었다. 이처럼 역방향 약리학(reverse pharmacology) 접근을 통해 미지의 독소에 대해 취약한 표적 단백질들을 가상으로 예측해 볼 수 있으며, 이는 독성 평가에서 위험한 작용점을 사전에 밝혀내는 데 도움을 준다.
또 다른 측면으로, 독성 물질 자체가 단백질인 경우(예: 뱀독이나 세균 외 독소 등) AI 예측 도구는 그 독소 단백질의 3차원 구조를 규명하는 데 직접적인 역할을 한다 [6]. 단백질 독소는 흔히 인간의 수용체나 효소에 결합하여 치명적인 효과를 유발하는데, 과거에는 이들의 구조를 몰라서 해독제 개발에 어려움이 컸다. AlphaFold는 이러한 독소 단백질들의 구조도 서열만 알면 높은 정확도로 모델링해준다. 실제로 2021년에 AlphaFold DB가 공개되자, 연구자들은 인간 단백질뿐 아니라 각종 동식물 독소, 바이러스 단백질 등의 예상 구조도 얻을 수 있었고, 이를 통해 독소의 작용 기작 추정이나 중화 항체 디자인 연구가 가속화되었다. 예를 들어, 이전까지 구조가 알려지지 않았던 어떤 뱀독 신경독소의 AlphaFold 모델과 인간 아세틸콜린수용체 구조를 기반으로 결합모델을 예측하면, 독소의 결합 부위를 파악하여 그 상호작용을 차단할 수 있는 단백질 치료제(항독소)를 설계하는 식이다. 이러한 접근은 최근 Nature지에 발표된 연구에서도 활용되어, AI가 설계한 단백질이 치명적인 뱀 독소를 효과적으로 무력화하는 결과를 보였다. 이처럼 AI 예측 구조는 독성 물질-단백질 상호작용의 분자적 지도를 제공함으로써, 독성 기전 이해와 해독 전략 개발에 크게 이바지하고 있다.
2.3.2. 단백질 변이 분석
독성 평가에서는 특정 단백질의 돌연변이(mutation) 또는 변형이 독성을 증가시키거나 새로운 독성 표현형을 낳는 경우도 중요하게 다룬다. 예컨대, 어떤 효소 단백질에 발생한 유전적 변이가 그 효소의 안정성을 떨어뜨려 대사산물이 축적되고 독성을 일으킬 수 있다. 또는 세포 증식을 억제하는 단백질에 변이가 생겨 기능을 상실하면 발암 독성이 나타날 수도 있다. 이러한 사례들을 정확히 평가하려면 변이가 단백질 구조와 기능에 미치는 영향을 이해해야 하는데, AlphaFold 같은 도구가 큰 도움이 된다 [7]. 기본적으로 AlphaFold는 입력 서열의 길이가 허용하는 한 단일 아미노산 치환이 있는 변이체 단백질도 예측할 수 있다. 변이 단백질의 예측 구조를 야생형과 비교함으로써, 변이가 핵심 활성 부위를 변형시켰는지, 단백질의 접힘을 불안정하게 만들었는지 등을 시각적으로 검토할 수 있다. 물론 현재 예측의 정확도가 매우 높더라도 미묘한 변이 영향까지 정확히 반영한다고 단정할 수는 없지만, 실험적으로 구조를 규명하기 힘든 변이에 대해서 가설을 세우는 유용한 수단임은 분명하다.
AlphaMissense AI 모델 [8]
나아가, AlphaFold 알고리즘을 변형하여 특정 변이가 질병이나 독성과 연관될 가능성을 바로 예측해 주는 시도도 등장했다. 2023년 딥마인드가 발표한 AlphaMissense라는 AI 모델은 Al-phaFold의 신경망을 활용하여 인간 단백질의 모든 가능한 단일 아미노산 변이에 대해 병을 일으킬지 여부를 예측하였다. 이 모델은 AlphaFold로부터 학습한 구조적 직관(structural intuition)과 단백질 언어모델을 결합함으로써, 수천만 개에 이르는 잠재적 변이의 영향을 분석해 냈다. 그 결과 인간 유전체에서 발생 가능한 7천만 개 이상의 미스센스 변이에 대해 57%는 무해(양성), 32%는 유해(질병 관련) 가능성으로 분류하는 거대한 변이 영향 데이터베이스를 구축하였다. 이는 기존의 어떤 실험 자료에도 없는 방대한 예측으로, 향후 독성유전학 분야에서 특정 유전형의 독성 민감도를 평가하는 데 핵심 참고자료가 될 수 있다. 물론 이러한 예측은 임상적으로 검증이 필요하며 현재로선 참고보조 수단에 불과하지만, AI가 구조 예측을 넘어 변이의 독성 여부까지 평가하는 단계로 발전하고 있음을 보여준다. 향후에는 신약 개발이나 화학물질 안전성 평가 시에, 개인별 유전체에 존재하는 단백질 변이 정보를 고려하여 독성 위험도를 예측하는 정밀의학적 독성 평가도 가능해질 것으로 전망된다.
2.3.3. 약물 독성 예측
신약 후보 물질의 독성 예측은 신약 개발 과정에서 가장 중요한 평가 중 하나이며, 여기에도 AI 기반 구조 예측이 기여하고 있다. 신약의 독성은 주로 약물이 표적 이외의 단백질들과 상호작용하여 생기는 부작용에서 기인한다. 그러므로 후보 화합물이 인체 내에서 어떤 단백질들과 결합할지 미리 예측할 수 있다면, 독성 위험이 있는 후보를 조기에 걸러낼 수 있다. AlphaFold의 등장으로 인간 프로테옴 거의 전체에 대한 구조 정보가 사용 가능해짐에 따라, 제약 연구자들은 수많은 잠재적 오프 타깃(off-target) 단백질들에 대한 가상 스크리닝을 수행할 수 있게 되었다. 예를 들어, 심장 독성을 야기하는 대표적 오프타깃인 hERG 이온채널이나 간독성과 연관된 특정 대사효소 단백질들의 구조를 AlphaFold로 확보한 뒤, 신약 후보가 이들 단백질의 활성 부위에 잘 결합하는지 역-도킹(reverse docking) 기법으로 평가해 볼 수 있다. 결합이 예측되면 해당 화합물은 독성 위험이 높은 것으로 간주되어 개발 우선순위에서 제외하거나, 반대로 화합물 구조를 변형하여 그 단백질과의 친화도를 낮추는 전략을 취할 수 있다. 이처럼 구조 예측과 도킹 시뮬레이션을 접목한 방법은 가상 독성 테스트로서 유망하며, 실제로 많은 제약사가 도입을 검토하고 있다.
또한 구조 예측은 약물의 대사 과정에서 생기는 독성 부작용 예측에도 도움을 준다. 약물이 체내 효소에 의해 대사 될 때 생성되는 대사산물이 특정 단백질에 강하게 결합하여 독성을 유발하는 경우, 그 대사산물과 표적 단백질의 결합 모델을 시뮬레이션하여 위험성을 평가할 수 있다. 예를 들면 어떤 약물이 대사 된 후 생성되는 활성 중간체가 간세포의 단백질과 공유결합하여 면역 독성을 일으키는 경우를 생각해 볼 수 있다. 이러한 메커니즘을 밝히는 데에도 AlphaFold 예측 구조는 유용하다. 관련 효소와 표적 단백질의 구조를 이용해 중간체의 결합 가능성을 탐색함으로써, 어떤 대사 경로가 위험한지 사전에 인지할 수 있다.
무엇보다도, AI 구조 예측은 독성 예측의 효율성과 범위를 크게 넓혔다. 신약 개발의 실패 요인은 약 30%가 독성 등 안전성 문제로 인한 것인데, 개발 초기에 수많은 후보 물질에 대해 in silico 독성 평가를 수행함으로써 불량 후보를 조기에 걸러낼 수 있다면 개발 비용 절감과 임상 실패 감소로 이어진다. 이는 신약 개발의 성공 확률을 높이고 개발 기간을 단축하는 데 기여하며, 결과적으로 안전하고 효과적인 의약품을 더 신속히 시장에 내놓을 수 있게 한다. 또한 전통적으로는 동물 모델에서 수천 종의 화합물을 테스트해야 알 수 있었던 독성 정보를 이제는 컴퓨터가 예측함으로써 동물실험의 일부 대체 효과도 기대된다. 물론 현재 단계에서는 예측이 완전하지 않으므로 최종 검증을 위해 실험이 필요하지만, 구조 기반 독성 예측은 연구자에게 독성을 야기할 가능성이 높은 상호작용들을 미리 경고하여 안전한 약물 디자인으로 방향을 잡게 해 준다. 최근에는 AI가 제시한 단백질-화합물 상호작용 정보를 토대로 다중 표적 영향까지 고려한 약물 설계, 이른바 폴리팜콜로지(polypharmacology) 전략도 주목받고 있다. 이러한 흐름에서 AlphaFold와 RoseTTAFold의 데이터는 신약의 부작용을 예측하는 모델에 필수적인 구조적 특징들을 제공함으로써, 모델의 성능을 높이는 역할을 한다.
이와 같이, AI 기반 단백질 구조 예측은 독성 평가의 여러 측면-환경 독소의 작용 타깃 예측, 유전적 변이에 따른 독성 감수성 평가, 신약 후보의 오프타깃 독성 예측 등에서 혁신적인 도구로 활용되고 있다. 다음 장에서는 이러한 접근이 가지고 있는 구체적인 장점과 혁신성을 정리하고, 이어서 여전히 남아있는 과제들을 살펴본다.
2.4. 장점과 혁신성
2.4.1. 실험 대체 가능성
AlphaFold와 RoseTTAFold의 가장 큰 장점 중 하나는 많은 경우에 고비용의 실험을 대체하거나 보완할 수 있다는 점이다. 과거에 새로운 단백질 구조를 밝히려면 일련의 어려운 실험 과정을 거쳐야 했다. 예를 들어 어떤 단백질의 3D 구조를 X선 결정학으로 규명하려면, 해당 단백질을 대량 발현 및 정제한 뒤 결정화 조건을 찾고, 방사광원을 이용해 회절 데이터를 수집하고, 이를 계산하여 구조를 풀기까지 수개월에서 수년의 시간이 걸렸다. 반면 AlphaFold를 이용하면 단백질 서열만으로 몇 시간 이내에 고해상도 3D 구조 모델을 얻을 수 있다. 워싱턴대 연구진은 “기존에는 실험실에서 하나의 단백질 구조를 밝히는 데 수년이 걸렸지만, RoseTTAFold를 활용하면 단일 게이밍 컴퓨터로도 10분 만에 구조를 계산할 수 있다”라고 언급한 바 있다. 이는 구조생물학 분야에서 패러다임의 전환이라고 할 수 있다. 물론 모든 경우에 실험을 완전히 대체할 수는 없지만, 이미 AlphaFold로 예측한 구조 덕분에 추가적인 구조생물학 실험이 불필요해진 사례들이 보고되고 있다. 특히 막단백질처럼 결정화가 극도로 어려운 표적이나, 일시적인 복합체 상태 등 기존 기술로 잡기 힘든 구조 정보는 AI 예측을 통해서만 얻는 경우도 있다. 이러한 측면에서 AI 구조 예측은 많은 단백질 연구에서 in vitro 구조실험을 부분적으로 대체하여 연구 과정을 단축시키고, 위험물질을 다루는 실험(예: 독성물질 노출 실험)의 필요성을 줄여주는 혁신적 도구로 평가된다.
독성 평가 분야에서도 이 장점은 두드러지게 나타난다. 예컨대, 어떤 화학물질이 특정 단백질과 결합하는지를 확인하기 위해 동물 모델에 독성을 주입하고 조직 병리 변화를 관찰하거나, 방사성 동위원소 표지 결합 실험을 하는 대신 컴퓨터 상에서 해당 단백질의 구조에 물질을 도킹시켜 확인함으로써 일차적인 판단을 내릴 수 있다. 독성 예측 단계에서 위험성이 높은 후보들을 가려낼 때, 과거에는 세포나 생체 실험을 통해 일일이 확인해야 했던 것들을 이제는 모델 예측으로 걸러내고 나서 핵심적인 검증 실험만 수행하면 된다. 이는 동물 사용을 줄이고, 인간에게 유해한 물질을 다루는 실험 횟수를 감소시켜 윤리적·안전적으로도 이점이 있다. 또 한 가지 예로, 식품이나 의약품에 새로 도입되는 단백질 물질(예: 신규 효소나 단백질성 의약품)의 독성 평가에서, 그 단백질이 혹시 기존에 알려진 독소와 유사한 구조적 독성 도메인을 갖는지 미리 점검할 수 있다. 이러한 점검은 AlphaFold 예측 구조를 통해 비교함으로써 가능하며, 잠재적 위험이 높은 단백질은 조기에 걸러낼 수 있다. 유럽 식품안전청(EFSA)도 2024년 보고서에서 “AlphaFold와 같은 AI 기반 구조 예측 기법은 아직 규제에 바로 적용되기엔 개발도상에 있지만, (신규 단백질의 안전성 평가에) 유망한 도구”라고 평가하며 향후 이를 독성 평가 파이프라인에 포함하는 방안을 검토하고 있다 [9].
2.4.2. 비용 절감 및 시간 단축
앞서 언급한 대로 AI 구조 예측 도구의 활용은 연구 비용과 시간을 크게 줄여준다. 구조 결정에 소요되는 인력·장비·시약 등의 비용을 절감하는 것은 물론이고, 신약 개발에서 수많은 화합물을 테스트하는 데 들어가는 비용 역시 in silico 예측으로 상당 부분 아낄 수 있다. 제약 업계에서는 한 후보 물질을 임상 단계까지 끌고 갔다가 독성 문제로 실패하면 그 손실 비용이 수억 달러에 이른다고 알려져 있다. 따라서 초기 개발 단계에서 AlphaFold로 표적 단백질 구조를 밝히고, 독성 관련 오프타깃들과의 결합 가능성을 가려내어, 고위험 물질을 일찍 탈락시키는 것은 막대한 비용 절감 효과로 이어질 수 있다. 이는 신약 개발의 성공 확률을 높이고 개발 기간을 단축하는 데 기여하며, 결과적으로 안전하고 효과적인 의약품을 더 신속히 시장에 내놓을 수 있게 한다.
연구 현장에서도 시간 단축의 효익은 뚜렷하다. 과거에는 새로운 독성 작용 기전을 규명하기 위해 어떤 단백질이 관여하는지 찾고, 그 단백질을 분리정제하여 특성을 분석하고, 구조를 풀어 약물과 상호작용을 연구하는 데 수년이 걸렸다면, 이제는 유전자 서열 정보만으로 며칠 내에 구조 가설 모델을 세우고 독성 작용을 예측해 볼 수 있다. 이처럼 빠른 가설 수립과 검증 사이클은 연구개발 프로세스를 가속화하여 혁신을 촉진한다. 예를 들어, 한 독성 물질에 대해 “특정 수용체를 활성화하여 독성을 낼 것이다”라는 가설이 있으면, 해당 수용체의 AlphaFold 구조를 활용해 실제 결합 가능성을 금방 테스트해 보고, 결과에 따라 가설을 수정하거나 추가 실험을 설계할 수 있다. 이런 접근은 과거보다 훨씬 민첩한 연구 진행을 가능케 한다.
또한 AI 예측 도구의 보급은 전문 구조생물학자가 아닌 연구자들도 구조 정보를 활용할 수 있게 함으로써 연구의 효율성을 높인다. 이전에는 구조 정보가 필요한 경우 협업으로 전문가에 의뢰해야 했지만, 이제 분자생물학자나 독성학자도 공개된 AlphaFold 예측을 바로 확인하여 자기 연구에 적용할 수 있다. 이는 지식 공유와 접근성 측면에서 혁신적이며, 전체 연구 커뮤니티의 생산성을 향상시킨다. 요약하면, AI 기반 단백질 구조 예측은 독성 평가를 포함한 생물의학 연구에서 비용 절감과 시간 단축이라는 두 마리 토끼를 잡게 해주는 기술적 도약이라 할 수 있다. 실제로 이러한 이점들 덕분에 많은 분야에서 연구 방향과 방법론 자체가 재편되고 있으며, 독성 평가 분야에서도 보다 많은 가설을 저비용으로 신속히 검증하는 고속 발견(discovery) 시대가 열리고 있다.
2.5. 도전 과제 및 한계
2.5.1. 데이터 품질 문제
현재의 AI 구조 예측이 놀라운 성과를 거두고 있지만, 그 전제 조건 중 하나는 충분한 양질의 학습 데이터와 입력 정보가 있을 때라는 점이다. AlphaFold와 RoseTTAFold는 대규모로 축적된 단백질 서열 데이터베이스와 실험으로 규명된 구조 데이터를 학습하여 탄생했다. 하지만 학습 데이터에 대표적으로 포함되지 않은 특이한 단백질이나 진화적으로 고립된 서열의 경우, 예측 정확도가 떨어질 수 있다. 예를 들어, 다른 단백질과 유사성이 거의 없어 MSA를 구성하기 어려운 고아 단백질(orphan protein)의 경우 모델이 신뢰할 만한 패턴을 찾지 못해 부정확한 예측을 내놓거나, 아예 구조를 수렴시키지 못하는 경우도 있다. 또한 예측 성능이 높은 단백질들은 대개 자연계에서 잘 보존된 구조를 가진 것들인데, 반대로 말하면 특이 구조나 동적 움직임이 큰 단백질(예: 인트린식 하게 무질서한 영역이 넓은 단백질)은 현재 모델들이 정확히 다루기 어렵다.
데이터 품질 이슈는 학습 데이터의 편중(bias)과도 연관된다. 현재 공개된 단백질 구조 데이터(PDB)는 주로 잘 정제되고 결정화에 성공한 안정된 단백질들로 편중되어 있다. 따라서 막단백질, 반복 서열, 다중 도메인으로 유연하게 연결된 단백질 등은 데이터베이스에서 상대적으로 저평가되어 있고, 이러한 유형의 단백질에 대해서는 예측 모델도 정확도를 담보하기 어렵다. 실제로 AlphaFold의 CASP14 결과를 보면 전체적으로 경이적인 성능을 보였지만, 약 3분의 1 정도의 표적에 대해서는 여전히 충분히 정확하지 못했고, 특히 일부 영역에서는 모델의 자신감은 높지만 실제로는 틀린 예측을 내놓기도 했다. 예컨대, 두 개 이상의 도메인이 긴 링커로 연결된 단백질은 각각의 도메인은 정확히 접히지만 상호 배치 관계는 제약이 없어 잘못된 상대적 방향으로 예측될 수 있다. 그러나 AlphaFold는 각 도메인에 높은 pLDDT 값을 부여하기 때문에 사용자는 전체 구조를 신뢰하고 싶어질 수 있다. 이처럼 데이터 또는 단백질 자체의 특성으로 인해 예측 결과에 맹점(blind spot)이 생길 가능성을 항상 염두에 두어야 한다.
또한 현재 모델들은 리간드(예: 금속 이온, 보조인자)나 변형(예: 인산화, 글리코실화)이 결합된 상태까지는 고려하지 않기 때문에, 이러한 요소들이 구조 안정에 필수적인 경우 예측 구조는 실제 생물학적 구조와 차이가 있을 수 있다. 독성 평가에서 중요한 금속 이온 결합 단백질이나 화학적 변형된 단백질의 경우, AI 예측이 해당 부분을 정확히 처리하지 못해 엉뚱한 구조를 낼 위험이 있다. 결국 “쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)”는 말처럼, 입력 데이터와 전제 정보의 품질이 담보되지 않으면 예측도 한계를 지닌다. 이를 극복하려면 지속적으로 다양한 유형의 단백질 구조 데이터를 모델에 반영하고, 새로운 알고리즘으로 데이터 편중을 완화하는 연구가 필요하다.
2.5.2. 해석의 불확실성
AI가 내놓은 예측 구조는 어디까지나 예측일 뿐, 실험으로 확인된 사실이 아니다. 따라서 이를 토대로 과학적 결론을 내릴 때는 항상 불확실성을 감안해야 한다. AlphaFold의 pLDDT나 예측 위치 오차값 등 신뢰도 지표는 참고가 되지만, 결국 예측 구조가 실제와 얼마나 가까운지는 후속 실험으로 검증되기 전까지는 확률적인 판단에 머문다. 특히 독성 평가처럼 인체 안전성과 직결된 분야에서는 잘못된 예측에 의존하여 결정을 내릴 경우 큰 위험을 초래할 수 있다.
예를 들어 앞서 언급한 약물-단백질 도킹의 경우, AlphaFold로 얻은 단백질 구조를 이용해 신약 후보의 결합을 예측했더니 실제와 다른 결과가 나오는 사례들이 보고되고 있다. 한 연구에서는 G-단백질 연결 수용체(GPCR)에 대한 리간드 결합을 예측하기 위해 AlphaFold2로 모델을 만든 후 여러 도킹 프로그램을 적용해 보았는데, 예측 구조를 사용한 도킹이 기존의 단순 동형 모델을 사용한 경우보다 특별히 우수하지 않았고, 오히려 일부 경우에는 실험 구조에 기반한 도킹보다 성능이 떨어졌다 [10]. 이는 아무리 AlphaFold 구조의 글로벌 정확도가 높아도, 결합 부위의 국소적인 미세 구조가 실제와 다르면 도킹 예측에 오류가 생길 수 있다는 점을 보여준다. 결국 AlphaFold 구조라고 해도 맹신은 금물이며, 약물 작용점 분석에는 가능한 한 실험 구조를 활용하거나, 예측 구조를 사용할 때는 충분한 컨트롤 실험과 교차검증이 동반되어야 한다.
또한 AI 예측은 단일 정적인 구조만 제공할 뿐, 단백질의 다이나믹스나 다중 활성 상태를 반영하지 못한다. 많은 수용체 단백질이나 효소는 활성/비활성 형태 간 구조 변화를 보이는데, AlphaFold는 이러한 다양한 상태를 모두 예측하지는 않는다. 독성 평가에서 어떤 화합물이 단백질의 비정상적 활성화로 독성을 유발하는 경우, AI 모델이 그 활성형 구조를 캐치하지 못하면 위험 신호를 놓칠 수 있다. 변이 영향 예측도 마찬가지로, AlphaMissense 같은 도구가 등장했지만 아직 계산 예측은 보조 증거로만 활용해야 한다는 것이 전문가들의 지적이다. 실제 임상 유전 진단에서는 여전히 실험 증거가 없는 변이는 “불확실한 의미”로 분류되며, AI 결과만으로 병원성을 단정하지 않는다. 이는 독성 평가에서도 마찬가지여서, 컴퓨터 예측은 어디까지나 가설을 세우고 우선순위를 정하는 데 활용해야 하며, 최종 판단은 다층적인 검증 데이터에 기반해야 한다.
2.5.3. 윤리적 고려사항
AI 기반 구조 예측 기술의 발전과 활용에는 몇 가지 윤리적·사회적 쟁점도 수반된다. 첫째, 과학기술의 공평한 접근성 문제이다. AlphaFold2의 성과는 공개된 코드와 데이터베이스를 통해 전 세계 연구자들이 고르게 혜택을 볼 수 있었지만, 2024년 발표된 AlphaFold 3는 모델 파라미터와 코드가 비공개로 남아 있어 상업적 연구나 대규모 고속 연구에 제약이 따르고 있다. 전문가들은 AlphaFold3의 제한된 접근을 두고 “AlphaFold2 때의 훌륭한 업적이 퇴색될 만큼 큰 퇴보”라고 비판하고 있으며, 인류 공동의 과학 자산으로 여겨지는 단백질 구조 예측 기술이 특정 기업의 통제 하에 놓이는 상황을 우려하고 있다 [11]. 이는 구조 예측 AI의 개발과 배포에 대한 개방성과 책임에 대해 논의가 필요한 지점이다. 또한 향후 유사한 과학 AI 모델들의 소유권과 특허 문제도 제기될 수 있다. 예를 들어, AI가 예측한 새로운 단백질 구조나 설계한 단백질에 대해 누가 권리를 갖는지, 공개 여부를 어떻게 결정할지 등에 대한 사회적 합의가 필요할 것이다.
둘째, AI 기술의 오남용 가능성에 대한 우려이다. 단백질 구조 예측 기술은 본래 인류의 질병 치료와 과학 발전을 위한 것이지만, 만약 악의적인 목적에 이용된다면 새로운 생물학적 위협을 만들 우려도 배제할 수 없다. 예컨대, 테러리스트가 AlphaFold를 활용해 치명적인 독소 단백질의 구조를 개선하거나 합성 생물학과 결합해 더 강력한 병원체를 설계하는 시나리오는 현실적으로 가능성은 낮지만 개념적으로는 우려되는 부분이다. 2022년 한 연구에서는 AI를 사용해 기존 약물을 변형하여 잠재적 독성 화합물을 설계하는 실험을 수행해 화제가 되었는데, 이는 AI의 이면에 존재하는 위험성을 상기시켰다. 다행히 현재로선 단백질 디자인에는 여전히 인간 전문가의 평가와 추가적인 실험 검증이 필요하나, 기술이 발전할수록 이러한 이중 용도(dual-use) 문제에 대한 대비도 필요하다 [12].
마지막으로, AI 예측 결과에 의존해 의사결정을 내릴 때의 책임 소재 문제도 고려해야 한다. 만약 AI의 잘못된 예측을 맹신하여 유해한 물질을 안전하다고 평가하는 일이 발생하면, 그 책임은 모델 개발자에게 있을까 사용자에게 있을까? 현재로서는 인간 전문가가 최종 판단을 내리지만, AI의 관여가 커질수록 이러한 경계는 모호해질 수 있다. 따라서 중요한 안전성 판단에는 언제나 AI의 예측과 인간의 판단을 병행 검토하여 상호 보완하는 체계를 유지해야 하며, AI는 어디까지나 보조적 도구로서 활용된다는 원칙이 확립되어야 한다.
위의 도전과제를 인지하면서, 우리는 AI 기반 구조 예측을 독성 평가에 통합해야 하며, 이를 위한 기술 발전 및 정책적 지원이 필요하다.
3. 결론
AI 기반 단백질 구조 예측 도구의 등장은 생물학 및 독성 평가 분야에 거대한 변화를 가져왔다. AlphaFold와 RoseTTAFold를 통해 우리는 단백질의 3차원 구조 정보를 과거보다 훨씬 쉽게 얻고 활용할 수 있게 되었으며, 이는 독성 물질의 작용 기전을 이해하고 안전한 의약품을 개발하는 데 혁신적인 도구가 되고 있다. 물론 데이터 한계, 예측 불확실성, 윤리적 이슈 등 해결해야 할 과제들도 남아 있지만, 이러한 문제들은 지속적인 기술 발전과 신중한 활용으로 극복 가능할 것으로 보인다. 앞으로 정책 입안자와 연구 공동체는 AI 예측을 독성 평가 체계에 통합하기 위한 표준과 가이드라인을 마련하고, 관련 인프라와 교육을 지원해야 한다. 또한 예측 정확도를 높이기 위한 데이터 공유와 모델 고도화를 장려하고, 다양한 분야 전문가들이 협력하는 다학제 연구를 촉진해야 한다. 그렇게 함으로써 “실험과 경험”에 의존하던 독성 평가에서 “데이터와 AI”가 조력하는 새로운 패러다임으로 안전성 평가를 발전시킬 수 있을 것이다. 궁극적으로 AI와 인간의 조화를 통한 과학적 혁신이 독성으로부터 더욱 안전한 사회를 만드는 데 기여할 것으로 기대된다.
4. 참고문헌
==>첨부파일(PDF) 참조
...................(계속)
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
지식

