본문으로 바로가기

기술동향

단백질 시퀀스 정보를 벡터로 변환하는 방법(임베딩)에 대한 소개와 연구 동향

  • 등록일2022-11-24
  • 조회수3643
  • 분류기술동향 > 생명 > 생명과학
  • 자료발간일
    2022-11-16
  • 출처
    생물학정보센터
  • 원문링크
  • 키워드
    #단백질#벡터
  • 첨부파일

 

 

단백질 시퀀스 정보를 벡터로 변환하는 방법(임베딩)에 대한 소개와 연구 동향


 

◈ 목차


1. 서론

2. 본론

2.1. 아미노산 인코딩

2.1.1. 아미노산 인코딩에 대한 소개

BRIC View 동향리포트

단백질 시퀀스 정보를 벡터로 변환하는 방법(임베딩)에 대한 소개와 연구 동향 오세진 Page 2 / 14

2.1.2. 기정의 된 방식의 인코딩

2.1.3. 이진 인코딩(binary encoding)

2.1.4. 물리화학 기반 인코딩(physio-chemical property based encoding)

2.1.5. 진화적 특징 기반 인코딩(evolutionary property based encoding)

2.1.6. 구조 기반 인코딩(structural property based encoding)

2.1.7. 조성-치환-분포(Composition-transition-distribution based encoding)

2.2. 기계학습 방식의 임베딩(Machine learning based embedding)

2.2.1. 언어 모델을 통한 단백질 서열 임베딩(NLP-based protein sequence embedding)

2.2.2. NLP 기반 단백질 서열 임베딩의 기술 동향

2.2.3. 훈련 데이터 및 평가 데이터

3. 결론

4. 참고문헌

 

 

◈본문


1. 서론


센트럴 도그마(Central dogma)는 DNA, RNA 그리고 단백질로 이어지는 정보전달을 일컫는 개념으로 분자생물학 연구의 근본이다. 따라서, 연구자들은 DNA 서열로 이루어진 유전체를 연구하는 것이 생명현상을 이해하고 질환을 치료하는데 주요한 접근법이라 생각했다. 이러한 합의를 바탕으로 인간게놈프로젝트(Human genome project)가 시작됐으며 대규모 염기 서열 데이터를 처리하기 위한 서열 정렬(alignment) 및 돌연변이 예측(variant effect prediction) 등의 알고리즘 개발이 활발하게 진행됐다. 또한, CRISPR-Cas9 발견과 mRNA백신에 이르기까지 염기서열 중심의 분자생물학 연구가 지난 20여 년에 걸쳐 현재에 이르기까지 진행 중이다. 하지만, 이러한 연구결과들은 DNA나 RNA에 대한 이해를 넓혔지만 단백질에는 최적화가 덜되어 있었기에 단백질에 대한 이해 및 응용에는 제한적일 수밖에 없었다.

다양한 기능들이 있지만 DNA와 RNA의 주요한 역할은 정보의 저장과 전달인 반면 단백질은 세포 내에서 실질적인 기능을 수행한다. 단백질 구조는 4종류의 구조로 분류되며 단순한 아미노산 서열의 나열인 1차 선형 구조(Primary structure)에서 시작해 3차 구조(Tertiary structure) 또는 단백질 복합체인 4차 구조(Quaternary structure)를 형성한다. 그리고, 단백질의 3차와 4차 구조가 기능을

결정한다. 

따라서, 단백질의 서열로부터 형태와 기능을 예측하고 더 나아가 설계를 하는 것은 생명공학과 단백질 기반 신약 개발에 있어서 중요한 문제이다. 특히나, 단백질은 4가지인 염기서열 (A, T/U, G, C)에 비해 종류가 정규 아미노산만 20가지로 훨씬 다양하고 물리화학적(physicochemical) 특징이 더 많아 서열 분석의 난이도가 높다. 하지만, 수십 년간 서열분석을 위한 알고리즘은 DNA/RNA 염기서열 분석법과 큰 차이가 없었으며 1990년에 개발된 BLAST와 같은 서열 유사도(sequence similarity)에 기반한 고전적인 알고리즘과 통계들이 주류를 차지하고 있었다 [1].

최근 몇 년간 단백질 서열에서 구조, 상호작용, 분류, 기능 예측 및 설계에 있어서 주목할 만한 연구 결과들이 보고되었다 [2–4]. 이러한 성과는 1) 컴퓨터 하드웨어 및 알고리즘의 발달, 2)훈련 데이터량의 증가 그리고 3) 단백질의 특징을 표현하는 아미노산 인코딩과 단백질

임베딩(protein embedding) 기법의 향상에 기인한다.

인코딩과 임베딩이란 컴퓨터가 사물을 이해할 수 있도록 특징들을 수치적 벡터 값으로 변환하는 작업을 말한다. 적절한 인코딩과 임베딩에 따른 모델의 성능 차이는 인간이 수학의 개념을 이해할 때 사용하는 기호인 힌두/아라비아 숫자 체계(Hindu-Arabic numerals)로 예시를 들 수 있다.

숫자 표기 방식은 지역과 시대 별로 다양했지만 현재는 힌두/아라비아 숫자가 장악을 했다. 그 이유는 다른 어떤 숫자 표기법보다 글자가 간단하고 10개의 기호들만으로 진법이나 자릿수와 같은 수학적 개념들을 표현하기 용이한 점이었다. 이러한 특징들을 통해 사칙연산의 난이도가 하락했고 이를 통해 수학의 발전을 가속화시켰다. 마찬가지로, 적절한 인코딩과 임베딩은 표현하고자 하는 대상의 특징을 유한한 벡터 안에 효과적으로 담아내고 모델의 업무 성능을 개선할 수 있어야 한다

 

...................(계속)

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

관련정보

자료 추천하기

받는 사람 이메일
@
메일 내용