BioINpro
(BioIN + Professional) : 전문가의 시각에서 집필한 보고서 제공[2025 바이오 미래유망기술(하)] 딥 러닝 기반 생성모델의 구조적 원리와 인간 면역데이터 응용 신약개발 전략
- 등록일2025-06-30
- 조회수65
- 분류생명 > 생명과학, 플랫폼바이오 > 바이오융합기술
-
저자/소속
장현빈, 송우현, 홍승희/연세대학교 홍승희
-
발간일
2025-07-08
-
키워드
#인간 면역데이터#생명 정보학#딥러닝 알고리즘 모델#대규모 언어 모델(LLM)#변분오토인코더(VAE)
- 첨부파일
-
차트+
?
차트+ 도움말
딥 러닝 기반 생성모델의 구조적 원리와 인간 면역데이터 응용 신약개발 전략
딥 러닝 기반 생성모델의 구조적 원리와 생명정보학 연구 동향
연세대학교 생명과학부 통합과정 장현빈, 송우현, 연새대 생화학과 교수 홍승희
◈ 목차
1.개요
2.대규모 언어모델 (LLM; Large Language Model)
3.변분오토인코더(VAE; Variational Autoencoder)
- 4.Conclusion
◈본문
1. 개요
기존의 생명과학 연구는 면역학, 병리학, 암 연구, 신약 개발 등 각 분야에서 상대적으로 소규모의 데이터셋과 실험 중심의 분석 기법에 의존해 왔다. 면역학 연구에서는 일부 면역세포 아형이나 사이토카인에 집중해 분석했으며, 암 연구 에서도 소수의 바이오마커나 유전자 변이를 표적으로 한 연구가 주를 이루었다. 신약 개발 과정에서는 단일 약물과 표적 간 상호작용에 초점을 맞춘 접근 방법이 일반적이었으며, 병리학적인 진단은 주로 현미경 관찰과 조직학적 특성에 기반해 이루어졌다.
그러나 기술의 발전으로 오믹스 데이터의 대량 생산이 가능해지고 데이터의 처리와 공유도 용이해지면서 고차원의 생물학적 데이터베이스가 대규모로 구축되고 있다. 이러한 변화에 따라, 생물학적 데이터를 컴퓨터 기반으로 분석하고 해석하는 “생명정보학(Bioinformatics)”의 역할이 확장되었다. 특히 생명정보학과 빅데이터 과학이 융합되면서 생물학적 정보에 통계학 기반의 컴퓨터 과학과 데이터 과학적 분석을 접목할 수 있게 되면고, 우리가 흔히 인공지능이라고 부르는 머신러닝과 딥러닝 알고리즘을 다양한 생물학 연구에 적용하는 것도 가능해졌다.
|
[그림 1] 생명정보학과 관련된 여러 학문 분야 |
인공지능(Artificial Intelligence)은 매우 넓은 범주의 기술을 포함하지만, 여기에서는 그중 딥러닝(Deep Learning)에 초점을 맞추고자 한다. 딥러닝은 인공신경망(Artificial Neural Network)을 기반으로 한 머신러닝의 하위 개념이다. 인공신경망 구조의 대표적인 형태인 퍼셉트론(Perceptron)은 동물의 신경계를 모방해 만들어진 모델로, 뉴런이 다양한 전기 신호를 받아 다른 뉴런에 전달하듯, 퍼셉트론도 다수의 입력(Input)을 받아서 하나의 출력(Output)을 다음 레이어(Layer)의 퍼셉트론으로 전달한다. 이때 생물학적인 전기 신호 대신 입력값에 일종의 함수를 적용해 얻은 값이 가중치(Weight) 형태로 다음 단계로 전달된다. 딥러닝 모델의 기본 작동 원리는 학습을 통해 목표를 더 잘 수행할 수 있도록 이 가중치를 조정해 나가는 것이다.
|
[그림 2] 뉴런과 퍼셉트론 |
딥러닝 모델은 일반적으로 분류 모델(Classification model)과 생성 모델(Generative model)로 나뉘며, 각각은 데이터 해석과 데이터 생성을 목적으로 한다.
우리가 관측한 값인 데이터에는 다양한 특징이 존재한다. 예를 들어 검은 고양이가 앉아 있는 사진과 작은 새가 날고 있는 사진이 있다고 해보자. 우리는 그 사진들을 관찰해 얻은 다양한 특성을 바탕으로 ‘검은 고양이가 앉아 있다.’, ‘작은 새가 날고 있다.’ 와 같은 판단을 내릴 수 있다. 이처럼, 데이터를 통해 여러 특성을 학습하여 결과를 출력하는 것이 딥러닝 모델의 원리이다. 이렇게 관측값으로부터 다양한 특성을 학습하여 결과값에 라벨을 붙이는 작업을 수행하는 딥러닝 모델을 ‘분류모델’이라고 한다. 이때, 데이터의 다양한 특성들은 저차원의 잠재 공간(Latent space) 내에서 확률분포 형태로 표현된다.
따라서, 이 예측 결과는 이 확률을 기반으로 결정된다. 다시 고양이와 새를 분류하는 예로 돌아가 보면, 모델은 여러 장의 고양이와 새의 사진을 학습하면서 각 사진의 정보가 고양이의 특성인지 새의 특성인지 구분하는 방법을 배우게 된다. 학습이 잘 된 모델이라면, 처음 보는 고양이 사진을 보고도 사진에 담긴 특징들이 기존에 학습한 고양이의 특성 분포와 일치할수록 ‘이 사진은 고양이이다.’라고 판단할 확률이 높아진다. 반면, 새의 특성과는 다르기 때문에 ‘새’로 분류될 확률은 낮아진다. 결과적으로 모델은 가장 높은 확률을 갖는 라벨, 즉 ‘고양이’를 최종 분류 결과로 제시한다.
이처럼 분류 모델은 관측된 데이터를 기반으로 라벨을 예측하는 것이 목적이지만, 생성 모델은 주어진 라벨을 기반으로 현실성 있는 데이터를 생성하는 데 목적이 있다. 예를 들어 귀여운 고양이 사진이 필요하다면, Midjourney와 같은 인공지능 프로그램은 “고양이 사진을 만들어줘.”라는 명령을 받아 실제로 존재할 법한 고양이 이미지를 생성할 수 있다. 이처럼 주어진 라벨을 바탕으로 현실성 있는 데이터를 만들어내는 딥러닝 모델을 “생성 모델”이라 한다.
생성 모델에서 각 라벨이 가진 특성이 잠재 공간 내의 확률분포로 표현되기 때문에, 이 분포에서 적절한 값을 선택하면 해당 라벨의 다양한 특성들을 조합해 새로운 형태의 데이터를 생성할 수 있다. 이러한 생성 모델은 최근 인공지능 연구의 핵심 영역 중 하나로 자리잡으며 다양한 분야로 그 응용 범위를 빠르게 확장하고 있다.
|
[그림 3] 분류모델과 생성모델 |
최근 생명정보학 분야에서도 생성 모델 기반의 딥러닝 접근법이 빠르게 확산되고 있다. 특히 대규모 언어 모델(LLM; Large Language Model)과 변분오토인코더 (VAE; Variational Autoencoder) 기반 모델이 중심이 되어, 면역체 분석 및 오믹스 데이터 모델링, 신약 개발 과정에서 화합물 구조 및 반응성 예측, 개인 맞춤형 진단 데이터 생성 등 다양한 응용 분야에 생성 모델이 활발히 활용되고 있다. 본 글에서는 이러한 최신 생성 모델의 구조적 원리와 생명정보학 내 응용 사례를 조망하며, 향후 연구 방향에 대한 시사점을 제시하려 한다.