BioINwatch
(BioIN + Issue + watch) : 바이오 이슈를 빠르게 포착하여 정보 제공최대 규모의 오픈소스 Evo2를 활용한 유전체 모델링 및 설계
- 등록일2025-03-21
- 조회수854
- 분류플랫폼바이오 > 바이오융합기술
- 원문링크
-
발간일
2025-03-21
-
키워드
#오픈소스#유전체 파운데이션 모델#Evo2#유전체 모델링#유전체 설계
- 첨부파일
-
차트+
?
차트+ 도움말
최대 규모의 오픈소스 Evo2를 활용한 유전체 모델링 및 설계
BioINwatch(BioIN+Issue+Watch): 25-20
◇ Arc 연구소는 전례 없는 수준으로 유전체 서열을 해석·예측·설계할 수 있는 유전체 파운데이션 모델인 Evo2를 개발하고 NVIDIA BioNeMo 플랫폼을 통해 전 세계 연구자들에게 공개. Evo2는 복잡한 생명현상을 규명하고 새롭고 유용한 생명 시스템을 설계하여 정밀의학, 합성생물학 및 유전자 편집기술 혁신, 농업·환경 분야의 발전에 중요한 인사이트를 제공할 것으로 기대 ▸주요 출처 : BioRxiv, Genome modeling and design across all domains of life with Evo2, 2025.2.21 |
세계 최대 규모의 완전 개방형 유전체 파운데이션* 모델 ‘Evo2’ 공개(2025.2)
* 대규모 데이터로 학습하여 다양한 작업에 적용 가능한 범용 인공지능 모델
○ NVIDIA, Arc 연구소, 스탠포드 대학이 공동 개발한 ‘Evo2’는 유전체 서열을 해석·예측·설계하는 역량 면에서 기존 모델을 능가
- (특징) NVIDIA DXG 클라우드 플랫폼을 기반으로 구축되었으며, AWS의 고성능 컴퓨팅 인프라를 활용해 방대한 생물학적 데이터를 처리할 수 있도록 설계
- (데이터규모) 생명체 전반 12.8만 개 유전체 데이터셋에서 선별된 9.3조 개의 뉴클레오타이드를 학습해 유전체를 해석하는 역량을 갖췄으며, 현재까지 공개된 AI 모델 중 가장 광범위하고 방대한 수준
- (데이터규모) 생명체 전반 12.8만 개 유전체 데이터셋에서 선별된 9.3조 개의 뉴클레오타이드를 학습해 유전체를 해석하는 역량을 갖췄으며, 현재까지 공개된 AI 모델 중 가장 광범위하고 방대한 수준
※ 고세균(5.9K), 원핵생물(107.5K), 진핵생물(15.3K) 12만 8천(128k)개 유전체 데이터셋 활용
- (다중모드 통합분석) 3가지 필수 생체분자(DNA,RNA,단백질)에서 유전체 규모까지 해석·예측·설계가 가능한 다중모드 통합 방식을 사용
※ 3가지 필수 생체분자 통합분석은 단일 양식(기능)에만 특화되었던 기존 모델과 차별화
※ Evo2는 생명체 전반의 유전정보를 학습해 DNA-RNA-단백질의 상관관계를 정밀하게 분석할 수 있어 유전체 뿐 아니라 RNA와 단백질 분자도 분석 가능
- (아키텍처) 개선된 StripedHyena2*를 사용하여 최대 40B까지 매개변수를 확장, 긴 서열 정보를 정확·신속·효율적으로 처리
* 멀티헤드 attention과 hyena 블록으로 배열된 심층 신호처리 하이브리드 아키텍처로 기존 attention 방식 트랜스포머 디코더를 개선한 모델
※ Evo2는 향상된 아키텍처와 매개변수로 컨텍스트 윈도우(한번에 처리 가능한 데이터 크기)를 효모 유전체 크기인 1백만(1M) 뉴크레오타이드로 확장
< Evo2의 향상된 아키텍처와 매개변수 >
|
▶Striped Hyena는 기존 attention 방식의 트랜스포머 아키텍처를 멀티헤드 어텐션(gray)과 29개 Hyena 블록으로 배열된 gate 합성곱(convolution)으로 구성된 하이브리드 아키텍처로, Evo1은 기존 트랜스포머의 컨텍스트 윈도우를 512개 nt(뉴클레오타이드)에서 최대 131,072개 nt로 약 250배로 확장 Evo2 Striped Hyena2 아키텍처는 Hyena 블록 내 레이어를 SE, MR, LI로 분류하여 처리, 매개변수를 이전 7B→40B로 확장 |
|
|
▶Evo2의 Striped Hyena2 아키텍처는 매개변수를 40B까지 확장하여 한 번에 처리 가능한 유전체 길이를 효모 유전체 크기인 약 1M(1,048,576) nt 길이로 확장 |
출처 : BioRxiv, Genome modeling and design across all domains of life with Evo2, 2025.2.21
...................(계속)
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
-
이전글
- 신기술(합성생물학, 유전자편집기술 등) 발전에 따른 유전자변형미생물(GMM)의 합리적 규제 방안
-
다음글
- 후성 유전체 비트(Epi-bits)를 활용한 DNA 기반의 데이터 저장 기술