본문으로 바로가기

기술동향

정확한 유전변이 주석

  • 등록일2015-02-02
  • 조회수6231
  • 분류기술동향
  • 자료발간일
    2015-02-02
  • 출처
    질병관리본부
  • 원문링크
  • 키워드
    #유전변이#유전자#genome#Genetic variation#SNP
  • 첨부파일

질병관리본부 주간건강과질병에서 발간되었습니다.

 

정확한 유전변이 주석
Accurate annotation of variants in genome

질병관리본부 국립보건연구원 유전체센터 형질연구과
허 룡, 문상훈, 김영진, 김봉조

Abstract
Background: Single Nucleotide Polymorphism (SNP) has been widely used as a marker indicating unique region in human genome. Using the SNP markers, Genome-Wide Association Study (GWAS) has discovered thousands of SNPs associated with diseases. Despite the importance of uniqueness, however, previous studies have reported that some SNPs in the public databases mapped to multiple positions of genome. These non-unique SNPs (NU-SNP) may result in mislead in interpreting association analysis.
Methods: Using dbSNP data, we profiled and analyzed characteristics of NU-SNPs in the human genome. NU- SNP was defined as follows: (1) identical position yet different rsID, (2) rsID with multiple genomic position, (3) fail of experimental validation by 1000 genome projects, (4) SNPs on paralog region. To identify influences of NU-SNPs on genomic studies, we analyzed the SNPs of commercial chips, imputation panel, repeats, and previously reported GWAS results.
Results: We identified that over 40% of NU-SNPs were distributed on repeats and almost all suspected SNPs located at segmental duplications. Moreover, NU-SNPs were also observed from commercial chips, imputation reference panels, and GWAS catalogue. In conclusion, we recommend careful interpretation and inspection of non-unique and suspected SNPs among analysis results prior to further experiment or replication study.

 I. 들어가는 말

우리 몸에 존재하는 30억 개의 유전자 서열에서 특정위치의 단일염기는 사람마다 변화를 보일 수 있다. 이러한 변이는 유전체 염기서열에서 약 100-300개 당 하나씩 다르다. 단일염기다형성(Single nucleotide polymorphism, SNP)이라고 불리는 이러한 유전정보의 차이들은 외모나 질병에 대한 민감성 등의 사람 간 표현형의 차이로 이어진다. SNP는 인간 유전변이(Genetic variation) 중 가장 수가 많고 단순한 형태의 유전변이이며[1], 특히 질병과 관련된 유전변이를 발굴하는 전장유전체 연관분석 연구 등에서 특정 유전체 지역을 대표하는 유일한 지표(Unique marker, 이하 서열마커)로 활용되고 있다[2, 3]. 실험을 통해 유전자 서열에 존재하는 새로운 SNP을 발굴한 연구자는 미국국립생물정보센터(National Center for Biotechnology Information, NCBI)에 서열정보를 제공하고, NCBI에서는 제공된 SNP에 고유한 참조 SNP 클러스터 식별자(Reference SNP cluster ID, rsID)를 부여하고 있다.

그러나 최근 연구 결과에서 rsID를 부여받은 SNP 정보 중 일부는 유전체의 여러 지역에 존재하거나, 동일한 위치에 존재하는 SNP에 여러개의 rsID가 부여되는 등 고유 식별자로서의 유일성을 갖지 못하고 있어, 질병 연관 유전변이 연구를 위한 서열마커로서 적합하지 않다는 것이 보고되었다[5]. 특히 여러 지역에 동시에 존재하는 SNP가 전체 정보의 4.2-11.9%를 차지하고 있다고 보고하고 있다[5]. 이러한 SNP 정보를 이용한 질병연관성 연구에는 위양성 결과(False positive)가 포함될 가능성이 있다. 예를 들어, 전장유전체 연관분석을 통해 질병에 연관된 SNP를 발굴하였으나 실제로는 그 SNP가 유전체의 여러 지역에 존재한다면 이 연구를 통해 발굴된 결과는 잘못된 표식(mark)에 의해 발생된 오류가 된다.
이 글에서는 질병 연관 표식으로서 활용 시에 문제가 있는 SNP(Non-unique SNP, NU-SNP)를 분석한 결과와 현재 공개 데이터베이스를 바탕으로 많이 사용되고 있는 NU-SNP에 대해 소개하고자 한다.

II. 몸 말
NU-SNP는 아래와 같이 네 가지로 분류되었다. (1) 서로 다른 rsID를 가지고 있지만 동일한 위치정보를 갖는 경우(Non-unique SNPs(POS)), (2) 동일한 rsID를 가지고 있지만 서로 다른 위치정보를 갖는 경우(Non-unique SNPs(rsID)), (3) 1,000명의 시퀀싱 정보에서 발굴되었으나 검증실험이 실패한 경우(Suspected SNPs(1000G fail)), (4) 패럴로그(paralog) 유전자에 위치한 SNP(Suspected SNPs(Paralog)).

이 글에서는 산타크루즈 캘리포니아 대학(University of California, Santa Cruz, UCSC)와 NCBI에서 제공하는 SNP 데이터베이스를 대상으로 NU-SNP을 분석하였다. 두 곳에서 제공되는 데이터베이스에는 SNP 이외에 Indel 등 또 다른 형태의 유전변이를 포함하고 있기 때문에, 질병 연관성 연구에서 가장 많이 사용되는 SNP 정보만을 추출하였다. 추출된 SNP정보는 UCSC가 5,936만개이고 NCBI의 경우 5,323만개가 있었다. NU-SNP는 UCSC에서 제공하는 SNP 정보를 주로 이용하였으며 패럴로그와 1000G failed에 해당하는 NU-SNP은 NCBI 정보에서 추출하였다. UCSC와 NCBI에서 제공하는 SNP 정보를 분석한 결과 서로 다른 위치정보에 동일한 rsID가 부여된 290만개의 SNP와 동일한 위치정보에 서로 다른 rsID가 부여된 230만개의 SNP가 있는 것을 확인하였다. 또한, NCBI데이터에서 패럴로그에 위치한 5만 7천여 개 및 1,000명의 시퀀싱 정보에서 발굴되었으나 17만 4천여 개의 SNP는 검증에서 발굴되지 않았다(Table 1).

각 염색체 별로 각각 분류한 NU-SNP의 분포를 확인해보았다. 전체 염색체에서 총 11% 이상의 non-unique SNPs(RS)와 non-unique SNPs(POS)가 9번 염색체에 두드러지게 존재하는 것을 확인하였고, 염색체 9번은 인간유전체에서 가장 많은 이질염색질 블록(Heterochromatin block)을 가지고 있으며, 부분 중복을 포함하는 염색체 내부(Intra-)와 상호간(Inter-)의 중복 서열을 포함하고 있다[6]. 또한 13% 이상의 Suspected SNPs(Paralog)는 7번 염색체에 분포되어 있었다(Figure 1).

...................(계속)

 

☞ 자세한 내용은 내용바로가기 또는 첨부파일을 이용하시기 바랍니다.

 

 

 

 

관련정보

자료 추천하기

받는 사람 이메일
@
메일 내용