본문으로 바로가기

BioINwatch

(BioIN + Issue + watch) : 바이오 이슈를 빠르게 포착하여 정보 제공

최대 규모의 오픈소스 Evo2를 활용한 유전체 모델링 및 설계

  • 등록일2025-03-21
  • 조회수854
  • 분류플랫폼바이오 > 바이오융합기술

 

최대 규모의 오픈소스 Evo2를 활용한 유전체 모델링 및 설계  

BioINwatch(BioIN+Issue+Watch): 25-20

 

       ◇  Arc 연구소는 전례 없는 수준으로 유전체 서열을 해석·예측·설계할 수 있는 유전체 파운데이션 모델인 Evo2를 개발하고 NVIDIA BioNeMo 플랫폼을 통해 전 세계 연구자들에게 공개. Evo2는 복잡한 생명현상을 규명하고 새롭고 유용한 생명 시스템을 설계하여 정밀의학합성생물학 및 유전자 편집기술 혁신농업·환경 분야의 발전에 중요한 인사이트를 제공할 것으로 기대

주요 출처 BioRxiv, Genome modeling and design across all domains of life with Evo2, 2025.2.21

 

세계 최대 규모의 완전 개방형 유전체 파운데이션* 모델 ‘Evo2’ 공개(2025.2)

대규모 데이터로 학습하여 다양한 작업에 적용 가능한 범용 인공지능 모델

○ NVIDIA, Arc 연구소스탠포드 대학이 공동 개발한 ‘Evo2’는 유전체 서열을 해석·예측·설계하는 역량 면에서 기존 모델을 능가

  (특징) NVIDIA DXG 클라우드 플랫폼을 기반으로 구축되었으며AWS의 고성능 컴퓨팅 인프라를 활용해 방대한 생물학적 데이터를 처리할 수 있도록 설계                                                                              

(데이터규모생명체 전반 12.8만 개 유전체 데이터셋에서 선별된 9.3조 개의 뉴클레오타이드를 학습해 유전체를 해석하는 역량을 갖췄으며현재까지 공개된 AI 모델 중 가장 광범위하고 방대한 수준

(데이터규모생명체 전반 12.8만 개 유전체 데이터셋에서 선별된 9.3조 개의 뉴클레오타이드를 학습해 유전체를 해석하는 역량을 갖췄으며현재까지 공개된 AI 모델 중 가장 광범위하고 방대한 수준

※ 고세균(5.9K), 원핵생물(107.5K), 진핵생물(15.3K) 12만 8(128k)개 유전체 데이터셋 활용

(다중모드 통합분석) 3가지 필수 생체분자(DNA,RNA,단백질)에서 유전체 규모까지 해석·예측·설계가 가능한 다중모드 통합 방식을 사용

※ 3가지 필수 생체분자 통합분석은 단일 양식(기능)에만 특화되었던 기존 모델과 차별화

※ Evo2는 생명체 전반의 유전정보를 학습해 DNA-RNA-단백질의 상관관계를 정밀하게 분석할 수 있어 유전체 뿐 아니라 RNA와 단백질 분자도 분석 가능

(아키텍처개선된 StripedHyena2*를 사용하여 최대 40B까지 매개변수를 확장, 긴 서열 정보를 정확·신속·효율적으로 처리

멀티헤드 attention과 hyena 블록으로 배열된 심층 신호처리 하이브리드 아키텍처로 기존 attention 방식 트랜스포머 디코더를 개선한 모델

※ Evo2는 향상된 아키텍처와 매개변수로 컨텍스트 윈도우(한번에 처리 가능한 데이터 크기)를 효모 유전체 크기인 1백만(1M) 뉴크레오타이드로 확장

 

< Evo2의 향상된 아키텍처와 매개변수 >


 

Striped Hyena는 기존 attention 방식의 트랜스포머 아키텍처를 멀티헤드 어텐션(gray)과 29 Hyena 블록으로 배열된 gate 합성곱(convolution)으로 구성된 하이브리드 아키텍처로,

 Evo1은 기존 트랜스포머의 컨텍스트 윈도우를 512개 nt(뉴클레오타이드)에서 최대 131,072 nt로 약 250배로 확장

 Evo2 Striped Hyena2 아키텍처는 Hyena 블록 내 레이어를 SE, MR, LI로 분류하여 처리매개변수를 이전 7B40B로 확장

 

 

Evo2의 Striped Hyena2 아키텍처는 매개변수를 40B까지 확장하여 한 번에 처리 가능한 유전체 길이를 효모 유전체 크기인 약 1M(1,048,576) nt 길이로 확장


출처 : BioRxiv, Genome modeling and design across all domains of life with Evo2, 2025.2.21

 


...................(계속)

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

관련정보

자료 추천하기

받는 사람 이메일
@
메일 내용