기술동향
롱리드 시퀀싱 기술의 최신 동향
- 등록일2023-11-28
- 조회수2964
- 분류기술동향 > 플랫폼바이오 > 바이오기반기술
-
자료발간일
2023-11-24
-
출처
BRIC
- 원문링크
-
키워드
#롱리드 시퀀싱#DNA 염기서열#mRNA#이소형 발굴
롱리드 시퀀싱 기술의 최신 동향
◈ 목차
1. 시퀀싱의 역사
1.1. 일세대 시퀀싱
1.2. 숏리드(이세대) 시퀀싱
1.3. 롱리드(삼세대) 시퀀싱
2. 롱리드 시퀀싱의 응용분야
2.1. 텔로미어 투 텔로미어(Telomere-to-Telomere; T2T) 컨소시엄
2.2. 판게놈 참조(Pangenome Reference) 컨소시엄(HPRC)
2.3. RNA 이소형(isoform) 발굴
3. 결론 및 고찰
4. 참고문헌
◈본문
1. 시퀀싱의 역사
1.1. 일세대 시퀀싱
생체 시스템을 구성하는 대부분의 정보는 DNA 및 RNA 등을 포함하여 핵산 염기서열로 구 성되어 있다. 따라서 이 염기서열을 해독함으로써 생체 시스템의 특성을 분석하고자 하는 연구는 오 래전부터 시작되었다. 시퀀싱 기술의 첫 번째 의미 있는 등장은 1977년 프레드릭 생어와 그의 동료 들이 '생어 시퀀싱'이라고도 알려진 DNA 분자 시퀀싱을 위한 '디데옥시' 연쇄 말단 방법을 도입하면 서 시작되었다. 이 방식을 통하여 약 10,000 염기 쌍 이상의 긴 인간 마이토콘드리아 DNA(mtDNA)와 박테리오파지 람다 (λ)의 염기서열을 성공적으로 해독함으로써 완전한 게놈을 해독 하는 것이 가능하다는 것을 보여주었다. 생어 시퀀싱 기술은 그 원리적 단순성에도 불구하고 비교적 정확한 염기서열을 제공한다는 장점이 있어, 이후 약 30년간 생어 시퀀싱은 염기 서열을 해독하는데 주요 방법으로 사용되었으며 기술적 자동화도 진행되어 왔다. 그리고 2001년 인간 게놈의 약 90% 이상을 해독한 최초의 인간 게놈 시퀀싱 연구에도 주로 생어 시퀀싱 기술이 활용되었다. 그러나 대 용량 분석이 어려웠고, 긴 염기서열을 해독하는 데 기술적 한계가 있었으며, 이를 극복하기 위해서 는 상당한 비용의 증가가 발생하여 생어 시퀀싱이 갖는 한계점 또한 명확하였다.
그림 1. 숏리드 및 롱리드 시퀀싱 방법에 대한 일러스트레이션.
(A) 일루미나 사의 숏리드 시퀀싱 방법. (B) 팩바이오 사의 롱리드 시퀀싱 방법. (C) 옥스퍼드 나노포어 테크놀로지 사의 롱리드 시퀀싱 방법. 논문 [1, 4]의 그림을 재구성함.
1.2. 숏리드(차세대) 시퀀싱
차세대(second generation) 시퀀싱 기술은 1990년대 후반 등장한 파이로 시퀀싱 기술로부터 시작하였다. 파이로시퀀싱(pyrosequencing)은 합성에 의한 시퀀싱(sequencing by synthesis; SBS) 기술 로 염기서열을 합성하면서 각 염기가 발생시키는 특이적인 형광을 검출함으로써 시퀀싱을 수행하는 방법이다. 기술의 지속적인 발전을 통해 일루미나(Illumina) 사에서 긴 DNA 서열의 적절한 길이로 절단 및 어뎁터 서열과의 합성을 통해 일정한 길이의 DNA 서열을 획득한 뒤 이를 대량으로, 병렬적 으로 시퀀싱 하는 기술을 개발함으로써 대용량 시퀀싱 시대를 열 수 있게 되었다. 차세대 시퀀싱은 엄청나게 긴 DNA 염기서열을 계속 읽어 가기보다는 이를 짧게 자른 뒤(약 300 ~ 500 염기 쌍), 어 뎁터를 이용하여 기판(flow cell)에 동일하게 접지시킨 뒤에 개별 DNA 염기서열을 다른 염기서열과 잘 구별할 수 있도록 이를 증폭하고 DNA 합성을 해 나가면서 한쪽 말단(single-end) 또는 양쪽 말 단(paired-end)에 해당하는 서열을 읽어내는 방식이다. 이 방식은 그 기술적 특이성으로 인해 주어진 DNA 염기 서열의 전체를 다 해독하지 않으며, 읽어지는 모든 염기서열 쌍의 길이가 동일한(50 ~ 300 염기서열 쌍) 특징이 있다 (그림 1A).
차세대 시퀀싱 기술, 특히 일루미나 사를 중심으로 한 시퀀싱 기술은 저렴한 비용으로 대용 량 염기서열 쌍을 읽어낼 수 있다는 그 기술적 장점과 이에 맞는 여러 계산적 알고리즘의 등장 등 으로 인하여 전체 시퀀싱 시장의 대부분을 차지하게 되었다. 일루미나 사의 시퀀싱 기법은 현재에도 지속적으로 기술적 혁신이 이루어지고 있으며, 그 방향은 주로 반도체와 같이 더 좁은 면적에 더 많 은 리드를 집적하면서도 여전히 리드가 생성하는 염기서열 정보를 정확하게 구별해 내는 데 집중되 어 있다. 가장 최근에는 NovaSeq X를 출시하였는데 이 기계는 최대 260억 개의 리드를 동시에 읽어 낼 수 있는 장비로 2013년 최초로 출시한 수백만 리드를 동시에 읽을 수 있는 MiSeq과 비교하면 약 2,600배의 차이가 있다.
1.3. 롱리드(삼세대) 시퀀싱
차세대 시퀀싱 기술은 현재 시장 지배적이며, 이에 맞는 여러 실험적 기법 및 계산적 알고리즘 또한 계속 등장하고 있다. 그러나 차세대 시퀀싱 기술은 아주 짧은 리드를 반복적으로 읽는 기술적 특성상 유전체가 가지고 있는 여러 특징들 (예를 들어, 동일 염기서열이 반복되는 DNA 지역 및 DNA 염기서열의 구조적 차이(structural variation) 등)을 상세히 해독하기에는 한계가 있다. 이러한 한계를 극복하기 위하여 롱리드(삼세대) 시퀀싱 기술이 등장하였다. 롱리드 시퀀싱 기술은 크게 두 회사, 팩바이오(Pacific Biosciences; PacBio) 사의 단일 분자 실시간(single-molecule real-time; SMRT) 시퀀싱 기술과 옥스퍼드 나노포어 테크놀로지(Oxford Nanopore Technologies; ONT) 사의 나노포어 시퀀싱 기술로 분류할 수 있다 (그림 1B, C).
팩바이오 사의 SMRT 시퀀싱 기술의 특징은 일루미나 사에서 요구하는 짧은 선형의 DNA 라이브러리 대신에 양 말단에 헤어핀 어뎁터를 부착함으로써 폐쇄 형태의 DNA 라이브러리로부터 시작한다는 것이 특이점이다. 다음 이 DNA 라이브러리는 가닥이 풀리면서 단일 가닥의 형태로 제로모드 도파관(zero-mode waveguide; ZMW)이라는 광학장비를 통과하게 된다. 그 바로 아래에는 DNA 중합효소가 부착되어 있어 각각의 형광을 갖는 염기서열이 DNA 중합효소에 의해 합성이 되는데, 이때 합성된 염기 서열의 정보를 빛의 파장을 이용하여 구별할 수 있다. 이러한 기술적 특성으로 실시간으로 DNA 염기 서열을 기록할 수 있고, 이는 DNA 중합효소가 그 역할을 수행하지 못할 때까지 지속적으로 진행될 수 있다. 이렇게 획득된 염기서열은 연속 긴 리드(continuous long read; CLR)로 부른다. CLR은 모두 동일한 길이를 갖는 차세대 시퀀싱 데이터와 달리 DNA 중합효소의 수명에 따라 다르다. 보통 500에서 50,000 염기서열 쌍까지의 길이가 한 번의 해독으로 가능하다. 또한 SMRT 시퀀싱 기술을 입력으로 필요한 DNA 라이브러리의 구조적 특성으로 인하여 동일한 형태의 서열을 반복적으로 읽는 것이 가능하다. 알고리즘을 통해 어뎁터 서열을 분리하고 나면 동일한 리드가 반복되는 경우를 분리할 수 있고, 이는 원형 컨센서스 시퀀스(circular consensus sequence; CCS)로 정의하며 동일한 리드를 반복해서 읽었기 때문에 더 정확한 염기서열 정보를 제공할 수 있다는 점이 특징이다. 추가적으로 이 기술은 실시간으로 염기서열을 읽어 나가기 때문에, 단지 형광의 발현 정보 외에도 중합효소를 통해 합성되는 동안의 운동 역학적 특성 정보를 토대로 DNA 메칠화(methylation) 정보도 제공할 수 있다는 특징이 있다. 지속적인 기술의 발전으로 최근에는 Revio 시스템을 발표하였으며 이는 약 한 번의 시퀀싱에 2천5백만 개의 리드를 읽을 수 있다.
옥스퍼드 사의 나노 포어 시퀀싱 기술의 특징은 나노 스케일의 단백질 포어가 부착되어 있고 이 포어를 단일 가닥 염기서열이 통과할 때 발생하는 전기적 신호를 검출함으로써 염기 서열을 해독하는 것이다. 나노 포어 단백질을 이용한 시퀀싱 기술은 1980년 대에 개념화가 시작되었으며, 여러 생체 시스템에 자연적으로 존재하는 포어 단백질로 염기 해독이 가능하다는 사실이 알려졌다. 그러나 이들은 염기서열을 정확하게 측정할 수 있을 정도의 전기적 신호가 뚜렷하게 나뉘지 않는 어려움이 있었다. 이 부분에 대한 가장 큰 진전은 나노 포어(α-hemolysin 및 MspA25)와 phi29 DNA 중합효소를 결합함으로써 단일 가닥의 통과 시간을 적절하게 늦추는 데 있다. 이 전에 언급되었던 시퀀싱 기술(일루미나 및 팩바이오 사)들은 형광에 의존하여 염기 서열을 결정하는데, 나노 포어 기술은 포어를 통과하는 염기서열의 미묘한 구조적 특성에 따른 전기적 신호의 특성을 검출함으로써 염기 서열을 결정하게 된다. 그러나 그 신호의 비선형적 특성으로 정확하게 신호를 분류하는 것은 여전히 활발히 진행 중인 연구 분야이다. 여러 기계학습 알고리즘 등을 활용하여 그 정확성을 높이기 위한 시도가 계속해서 진행 중이며, 현재는 Guppy라는 알고리즘이 가장 보편적으로 활용되고 있다. 실험적으로는 DNA 염기 서열 한쪽 끝에 헤어핀 어뎁터를 부착함으로써 한 번만 읽는 대신 두 번을 읽는 것(2D read) 이 가능하고 이를 이용하여 염기서열 판독의 정확성을 높이는 것이 가능하다. 나노 포어 시퀀싱 기술은 획득한 DNA 라이브러리의 길이에 따라 시퀀싱 길이가 달라지며 약 500 염기 서열부터 최대 백만 염기 서열까지 한 번에 읽는 것이 가능하다고 알려져 있다. 나노 포어 시퀀싱 기술 또한 SMRT 시퀀싱 기술과 유사하게 염기 서열을 판독하는 과정에 획득할 수 있는 여러 신호를 재가공함으로써 DNA 메칠화 등을 검출하는 것이 가능하며 이에 관련된 여러 알고리즘들이 존재한다. 또한 나노 포어 시퀀싱 기술을 포함하는 기판(flow cell)은 그 크기도 다른 장비들과 달리 상대적으로 매우 작을뿐더러 적절한 처리 후 나노 포어의 기능적 특성을 유지할 수 있을 때까지 재사용이 가능하다는 특징이 있다. 다른 기술들이 염기 서열을 검출하는데 기술적 특성상 이중 가닥 DNA 서열이 있어야 하는 데 반해 나노 포어 시퀀싱 기술은 단일 가닥 서열만 있어도 가능하기 때문에 RNA 서열을 직접 시퀀싱 하는 것도 가능하다. 옥스퍼드 사는 2014년 최초로 2,048개의 나노 포어가 포함되어 있는 MinION을 출시하였고, 현재도 지속적으로 나노 포어 단백질의 특성을 개선하고, 집적함으로써 시퀀싱 서열의 정확성과 규모를 높이고 있다. 가장 최근에는 PromethyION을 발표하였고 이는 최대 288 개의 MinION을 동시에 수행할 수 있는 규모이다.
그림 2. 롱리드 시퀀싱의 응용분야.
(A) DNA 염기 서열의 구조적 변이 및 반복 서열 등의 문제로 기존 인간 게놈 서열 레퍼런스에서 해독이 되지 못한 부분이 존재함. (B) 판 게놈 참조 연구를 통해 선형적 염기서열이 아니고 그래프 형태의 염기서열 구성이 가능함. (C) mRNA 이소형 발굴 측면에서 숏리드 시퀀싱에 비해 롱리드 시퀀싱의 유용성. 논문 [9, 13]의 그림을 참조 및 재구성함.
...................(계속)
☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.
-
이전글
- [합성생물학 월간동향 '23.11월호] 과기정통부, 합성생물학 핵심기술개발 및 확산전략 현장발표회 개최
-
다음글
- ESMO 2023 주요 폐암 임상연구 데이터(Amivantamab)