본문으로 바로가기

기술동향

구조 유전체학(Structural Genomics) 연구의 현재와 미래

  • 등록일2003-03-01
  • 조회수14542
  • 분류기술동향
  • 자료발간일
    2005-01-19
  • 출처
    biozine
  • 원문링크
  • 키워드
    #구조 유전체학#Structural Genomics

 

구조 유전체학(Structural Genomics) 연구의 현재와 미래


노성환 / 광주과학기술원 생명과학과 박사과정

엄수현 / 광주과학기술원 생명과학과 교수

서세원 / 서울대학교 화학부 교수


1. 구조 유전체학의 개념 및 소개


 

가. 배경

지난 10여년간 미생물에서 인간에 이르기까지 생물체의 분자 수준에서의 청사진이라고 할 수 있는 유전체, 즉 게놈의 염기 서열 해석이 완성되면서 생물학 연구 전반에서 방법론 및 인식론적 전환이 일어나고 있다. 유전체의 서열 정보는 상호 연관된 유전자들 사이에서 진화적인 혹은 기능적인 관계를 규명하는 데 쓰일 뿐만 아니라 인간의 질병에 관련된 유전자나 특정병원균에 고유한 유전자들을 찾아내는 데에도 매우 중요하다. 하지만 일차적 서열정보는 단백질의 작용 메카니즘을 완벽히 이해하고 의약품을 개발하기 위해 필요한 전체 정보의 일부분일 뿐이다. 따라서 유전체 연구가 진행됨에 따라서 해석된 유전자들의 산물인 단백질이 갖는 생물학적 기능을 규명하고 그에 상응하는 삼차원 구조를 해석하기 위한 노력의 필요성이 자연스럽게 제기되었다. 이러한 유전체 단위의 노력들은 각각 기능 유전체학(functional genomics)과 구조 유전체학(structural genomics)이라는 이름으로 불리고 있다. 구조 유전체학이 널리 쓰이고 있는 용어이지만 간혹 구조 단백질체학(structural proteomics)이라고 부르는 경우도 있다. 구조 유전체학의 가장 큰 특징은 하나의 유전체 전체에 걸쳐 high-throughput (HT) 구조 해석을 추구한다는 것이다.


 

나. 구조 유전체학의 기술적인 측면

유전체 단위의 염기 서열의 해석이 가능했던 이유는 유전체 DNA의 증폭과 HT 서열 분석 및 생물정보학적 기법의 발전이 있었기 때문이다. 마찬가지로 구조 유전체학이 그 소기의 목적을 달성하기 위해서는 HT 삼차원 구조 해석이 가능해야 한다. 기존의 X-선 결정학과 핵자기 공명분광학(nuclear magnetic resonance, NMR)을 통한 단백질 구조의 해석은 상대적으로 느리고 비용이 많이 드는 과정이었다. 하지만 단백질 결정학의 경우 최근 몇 년 동안 중요한 기술적 진보들이 있었고, 그 결과 구조 분석 과정이 점차 빨라지고 있다. 최근의 통계를 보면 Protein Data Bank 데이터베이스에 등록된 구조는 약 20,000개 이상이며 매년 약 수 천 개의 구조들이 추가되고 있다. 구체적인 예를 들면, 보다 강력한 방사광 설비, 셀레늄 유도체의 손쉬운 대량 발현, cell-free 단백질 생산 시스템, 로봇을 이용한 결정화 조건의 체계적 탐색, 빔 손상을 최소화하는 결정의 급속 냉각 기법, 보다 빠른 데이터 수집을 가능하게 하는 CCD detector 장치, multiwavelength anomalous diffraction (MAD) 기법을 통한 단백질 구조의 자동 해석 등이다. 구조 유전체학 연구팀들은 초기에 이러한 기술들의 자동화, 소형화, 그리고 병렬화를 통하여 궁극적으로 X-선 결정학을 통한 HT 단백질 구조 해석의 실현 가능성을 탐구하였다. 현재는 전세계적으로 이런 기술들을 이용한 구조 유전체학 연구가 활발히 이루어지고 있는데 대략 반년에서 일년 이내에 특정 대상의 cDNA로부터 구조 정보를 얻어내는 것을 목표로 하고 있다. 또한 비용 면에서 막단백질을 제외했을 때 현재 단백질 하나의 구조를 해석하는 데 전세계적으로 평균 5만 불에서 20만 불 정도 소요되는 것으로 알려져 있는데 궁극적으로 이를 90% 이상 줄이는 것을 목표로 하고 있다.

단백질의 NMR 분광학 기법 역시 구조 유전체학에서 중요한 역할을 담당하고 있다. 현재는 비록 NMR을 통한 고분해능 구조 결정은 30kDa 이하의 분자량을 갖는 단백질이나 도메인 구조로 국한되는 것이 보통이지만, 많은 구조 유전체학의 대상 단백질들이 이 범위에 포함된다. 대략 10~20%의 진핵 생물의 단백질들이 작은 단일 도메인의 단백질로 알려져 있다. NMR 기법은 chemical shift의 섭동을 통하여 구조-기능 상관관계를 조사하거나 nuclear relaxation을 통하여 동력학적 정보를 얻을 수 있기 때문에 X-선 결정학과는 서로 보완적인 기법으로서 그 의의를 갖는다. 또한 최근에 NMR 기법에서도 여러 기술적 진보를 통하여 액상의 구조 결정 과정을 앞당길 수 있게 되었다. 요코하마의 NMR Park 연구시설을 자랑하는 일본에서는 수 십대의 600, 800 및 900 MHz NMR 분광기들을 연계하여 하루에 평균 하나의 구조를 해석해 내려는 목표에 도전하고 있다.


 

다. 구조 유전체학의 대상

대상 유전자들은 서열 해석이 완료된 유전체들의 전체 혹은 일부분의 유전자들 중에서 생물학적 의미와 유사구조의 유무, 구조 분석에 적합한 정도에 따라서 일차적으로 선별된다. 대량 발현과 정제, 그리고 결정화 조건의 탐색을 통하여 구조 정보를 얻기 적합한 품질의 결정을 생성하는 것들의 구조가 해석되게 된다. 현재 자연에 존재하는 단백질들이 취할 수 있는 공통된 fold는 약 수 천 개로 여겨진다. 이 중 약 400-500개 가량이 현재 단백질 구조 데이터베이스에 저장되어 있다. 따라서 구조 유전체학의 중요한 한가지 목표는 각 도메인의 서열 가계(family)들의 대표적인 구조 하나씩을 포함하는 fold들의 기본 집합을 만드는 것이며 현재 진행되고 있는 국제적인 주요 구조 유전체학 관련 연구의 대다수가 이를 목표로 하고 있다. 이러한 데이터베이스가 구축된다면 나머지 대부분의 구조들은 특정 fold로부터 상동 모델링(homology modeling)을 통하여 구조를 예측할 수 있을 것으로 예상된다. (그림 1 참조)

최근에는 단백질체(proteome) 전반의 구조 분석 프로젝트에서 그 대상의 방대한 크기가 문제가 되고 있다. 지금까지 서열 해석이 완료된 유전체의 경우, 전체 유전자의 개수가 예상보다는 훨씬 적긴 하지만 실제 단백질체 내의 전체 단백질의 수는 splice 변이체나 변형에 의하여 상당히 크기 때문이다. 더욱이 단백질의 물리적 성질은 핵산의 보존적인 성질에 비하여 아주 큰 변화를 보이기 때문에 단백질 구조 유전체학의 연구 대상의 범위는 유전체의 염기 서열분석과 비교할 수 없을 정도로 방대하며, 그 완료 시점조차도 분명하지 않다. 심지어 미생물과 같은 아주 작은 유전체의 경우에도 모든 구조들을 완벽하게 규명하는 것은 현재의 기술 수준으로는 불가능할 것으로 예측되고 있다. 따라서 대상 선정의 문제가 상당히 중요하다. 만약 무작위로 대상을 선정하여 대표적 단백질들의 fold의 90%를 포함하기 위해서는 실제보다 7배나 많은 구조를 풀어야 한다. 반면에 그러나 대상 선정 과정을 최적화하여 새로운 fold를 가질 가능성이 높은 단백질에 집중할 경우에는 새로운 단백질 구조 16,000개면 거의 모든 단백질의 모델을 만들어 낼 수 있을 것으로 예상이 된다. 이는 미국의 NIH에서 10년 이내에 달성하려고 하는 목표와 가까운 수치이다. 더 많은 수의 구조가 풀리게 되면 새로운 서열이 새로운 가계에 속하거나 새로운 fold를 가지는 비율은 점점 더 낮아지게 된다. 현재는 약 85% 이상의 새로운 단백질 구조가 PDB에 이미 등록된 단백질과 SCOP (Structural Classification of Proteins) 데이터베이스상의 동일한 가계에 속한다. 따라서 신뢰도 높은 상동 모델링 기법이 개발된다면 단백질체의 구조 분석은 좀더 완전해질 수 있을 것이다.


 

 

그림 1. 사각형은 fold 공간이고 PDB database는 현재의 지식을 나타낸다. 구조 유전체학이 진행됨에 따라 fold 공간은 채워져간다. (Stevens et al., 2001)

2. 구조 유전체학의 현황


 

가. 미국

National Institutes of Health (NIH) 산하의 National Institute of General Medical Sciences (NIGMS)가 후원하는 Protein Structure Initiative (PSI)는 모든 단백질 서열 가계들을 대표하는 고유하며, 중복되지 않는 단백질들의 구조를 제공하며 단백질의 구조 공간 (structure space)을 완전히 채우는 것을 주된 목적으로 10년 동안 만 개의 새로운 구조를 결정하려는 목표를 세워놓고 있다. 이에 따라 2000년 10월에 7개의 시범적인 구조 유전체학 센터가 선정되어 센터 당 매년 약 5백만 불의 연구비가 5년 동안 제공되고 있다. 또한 2001년에 두 개의 새로운 센터가 추가되었다 (표 1 참조). 2005년 경에는 구조 유전체학 연구를 현재보다 월등히 큰 규모로 확대하여 수행하려는 계획을 수립 중에 있다. 또한 이들 구조 유전체학 컨소시움들과 함께 Syrrx, Structural Genomix, Astex, Integrative Proteomics, Plexxikon등의 여러 기업들도 HT 공정의 개발에 힘쓰고 있다.

 

표 1. 미국 NIH의 9개 구조 유전체학 연구센터 현황 

NIH 구조 유전체학 센터

목 표

The Berkeley Structural Genomics Center

X-선 결정학과 NMR에 의한 구조 결정의 속도화. 극도로 작은 유전체를 가진 두 박테리아 (Mycoplasma)에 초점을 맞추어 독립적인 생명 유지에 필수적인 단백질의 연구

Center for Eukaryotic Structural Genomics

Arabidopsis를 중심으로 진핵 생물의 단백질 생산 및 분석, 구조 결정을 위한 유전체 단위의 HT 기법연구

The Joint Center for Structural Genomics

Thermotoga maritima, C. elegans 및 인간의 세포 신호전달에 관련된 새로운 단백질 구조

The Midwest Center for Structural Genomics

단백질 구조 결정 비용의 절감. 질병을 일으키는 생물체의 단백질들과 새로운 fold를 지닌 대상 단백질들에 중점

The New York Structural Genomics Research Consortium

수백 개의 단백질 구조 해석

The Northeast Structural Genomics Consortium

다양한 모델 생명체의 단백질과 인간의 관련 단백질 구조 분석 연구. X-선과 NMR 기법 둘 다 사용.

The Southeast Collaboratory for Structural Genomics

인간과 C. elegansPyrococcus furiosus의 단백질들.

X-선과 NMR 기법 둘 다 사용.

Structural Genomics of Pathogenic Protozoa Consortium

의학적으로 중요한 병원균들인 P. falciparum (malaria), T. brucei (sleeping sickness), T. cruzi (Chagas' disease), 및 다양한 Leishmania 종들 (Leishmaniasis)에서의 단백질 및 그 복합체들을 대상으로 새로운 fold와 서열/fold 상관 관계를 밝히기 위한 결정학 연구

The TB Structural Genomics Consortium

Mycobacterium tuberculosis에서 400개의 구조 해석


나. 일본

 

RIKEN Structural Genomics/Proteomics Initiative (RSGI)에서는 cell-free 단백질 합성 및 하리마 연구소의 SPring-8 가속기의 X-선 결정학 시설과 요코하마의 RIKEN Genomic Sciences Center내 의 NMR 시설을 결합하여 생쥐와 식물 단백질의 삼차원 구조 및 기능에 관한 HT 분석을 시작하였다. 동경의 Biological Information Research Center는 막 단백질을 대상으로 하고 있다. 2002년에는 교육부(MEXT) 주관하에 기존의 구조 유전체학 연구를 확장하여 “단백질 3000”이라는 과제를 시작하였다. 2002년에만 118억엔을 투자하여 SPring-8과 Photon Factory의 전용 빔라인을 활용하고 RIKEN Genomic Science Center에서 2,500개의 구조를, 나머지 참가 대학들이 500개를 풀어 5년 안에 총 3,000개의 구조를 해석하겠다는 야심찬 목표를 세우고 있다. 또한 이와 연결되어 2003년에는 질병 관련 단백질을 찾는 Proteome Factory 과제가 시작될 예정이다. 그리고 주요 제약 회사들의 컨소시엄들이 참여할 예정이다.


 

다. 유럽

베를린의 Protein Structure Factory가 German Human Genome Project에서 얻어진 cDNA나 유전자들이 발현하는 단백질의 구조를 밝히기 위하여 세워졌다. 또한 인간 건강에 관련된 HT 구조 유전체학을 위한 컨소시엄이 유럽 연합에서 제안되고 있다. British Medical Research Council은 옥스퍼드에서의 구조 및 기능 유전체학을 위한 단백질 생산 시설에 대한 연구비를 조성하였다.


 

라. 기타 국가  

중국의 경우 청화대학교, 북경대학교를 중심으로 구조 유전체학 연구의 싹이 트고 있다. 최근 청화대학교의 Rao교수는 매년 약 3백만 불을 지원 받아 구조 유전체학 연구를 가속하고 있다. 카나다의 경우 토론토 대학교를 중심으로 구조 유전체학 연구를 활발히 진행 중이다. 이외에도 구조 유전체학 연구의 중요한 기반 시설인 방사광을 영국, 카나다, 중국, 인도 등에서 새로이 건설중이다.

 

마. 국내  

국내의 구조 유전체학 연구는 아직까지 인력과 장비, 연구비 면에서 선진국에 비하여 매우 미흡한 편이다. 따라서 앞에서 서술한 선진국 규모의 대단위 구조 유전체학 연구보다는 특정 대상에 초점을 맞춘 소규모의 연구가 진행되고 있다. 현재 서울대, 광주과학기술원, 성균관대, 연세대, KIST 및 크리스탈지노믹스 등이 참여하는 Helicobacter pylori의 구조 유전체 연구가 진행되고 있다. H. pylori는 85% 이상의 한국인들에게서 발견되며 위궤양과 위암 등 각종 위장질환을 유발한다. H. pylori는 미국의 The Institute of Genomic Research 연구소에 의하여 1999년 유전체의 해석이 완료되었으며 약 1,500개 가량의 유전자를 가지는 것으로 추정되었다. 이 유전자들 중에서 수용성 단백질과 질병 관련 단백질들의 구조 해석을 위한 노력이 현재 진행중이다. 서울대학교 서세원 교수 실험실에서는 directed evolution 기술을 적용하여 결핵균 단백질의 수용성 형태로의 발현에 성공하고 기능 및 구조 규명에 성공하였다 (Yang et al., 2002).


 

바. Airlie Agreement 및 연구 결과 공유 문제  

2001년 4월, 미국 버지니아의 Airlie에서 Second International Structural Genomics Meeting이 열려 네 개의 대륙에서 온 참가자들이 국제적인 정책을 논의 하였다. 여기에서 구조 유전체학의 목적을 보다 빨리 달성하기 위해서는 데이터와 기술을 공유하려는 전세계적인 노력이 중요하다는 공감대가 형성되었으며 그 결과로서 International Structural Genomics Organization (ISGO)가 결성되었다. 또한 모든 구조 대상 및 진척 상황이 공개되어야 하며 덧붙여서 cDNA clone, 발현 벡터 및 construct, 정제된 단백질에 관련된 정보를 한 곳의 등록처로 통합할 것을 권고 하였다. 현재 NIH에서는 웹사이트를 통하여 대중에게 대부분 컨소시엄의 대상 목록과 진척 상황을 제공하고 있다.

미국에서는 2000년 2월부터 단백질의 삼차원 구조에 대해 특허를 내주고 있는 상황이기 때문에 구조 관련 지적재산권의 문제도 제기되었다. Airlie Agreement에서는 단백질 구조 정보의 특허와 관련하여 모든 구조 정보가 무상으로 공유되어야 함과, 다만 구조에 기반한 발명에 대해서는 보호해야 함을 확인하였다. 동시에 전혀 기능을 모르는 삼차 구조에 대해 특허를 신청하는 것에 대해서는 우려를 나타내고 있다. NIH의 구조 유전체학 연구 결과는 Protein Data Bank에 등록하여 즉시 공개함을 원칙으로 하고 있으며, 특허 신청을 허용하지 않고 있다. 일본 RIKEN 연구소의 경우, 국가 연구비로 지원되는 경우는 보통 특허 신청을 요구하지 않으나, 기업의 지원 하에 수행되는 연구 과제의 경우는 다르다. 미국의 Syrrx, Structural GenomiX등 대표적 회사에서는 다수의 신약 개발 표적 단백질의 삼차원 구조를 규명하고, 이들에 대한 특허권을 다량 확보하려는 목표를 가지고 있다.

3. 구조 유전체학의 기대 효과 및 과제 

 

현재까지의 구조 유전체학의 가장 큰 성과는 cDNA 또는 genomic DNA로부터 삼차 구조를 해석하는 과정에 HT 기법을 성공적으로 적용하여 보다 짧은 시간에 안정적이고 경제적으로 구조를 해석할 수 있는 기반을 마련하였다는 것이다. 그러나 아직도 단백질 생산 단계 및 결정화 단계의 어려움이 해결해야 할 주요 과제로 남아 있다. 급속도로 증가하고 있는 삼차 구조의 정보가 자유롭게 공개되고 있으므로 이미 생물학, 의학, 약학, 등 생명과학 전 분야의 모든 연구자가 그 수혜자가 되고 있다.

앞으로 모든 도메인의 대표 단백질의 구조 해석을 통하여 fold 공간이 모두 채워지게 된다면 거의 모든 단백질들의 상동 모델링이 가능해질 것이다. 그리고 모델링을 통해 비록 정확도가 약간 떨어지더라도 활성 부위의 구조 정보를 얻게 된다면 약물 개발의 효율성이 크게 개선될 것이다.

 

또다른 구조 유전체학의 중요한 효과로서는 단백질들 간의 삼차원 구조의 유사성을 비교하여 새로운 유전자 산물의 생화학적 기능을 예측하는 것이다. 구조적 유사성은 서열의 유사성에 비하여 더 긴 진화적 거리에 걸쳐 보존되는 것으로 알려져 있다. 따라서 유전체 전체를 대상으로 새로운 유전자 산물의 구조를 해석하거나 상동 모델링을 통하여 잠재적인 생화학적 기능에 관한 실마리를 찾고 적절한 실험을 통하여 검증하는 구조-기능 유전체학도 가능할 것으로 예상된다. 만일 완전한 단백질 구조의 집합을 가지고 있다면 결국 모든 종류의 상호작용 및 돌연변이 실험의 디자인을 가능하게 해 줄 것이며 필연적으로 전통적인 분자 생물학과 생화학은 갈수록 이러한 구조 정보에 의존하게 될 것이다.

 

단백질체에 관한 구조 정보는 그 양과 복잡성에서 유전체의 염기 서열 정보를 압도한다. 그 어마어마한 정보의 대륙붕에서 주인이 없는 석유를 캐는 작업이 바로 구조 유전체학이 아닐까? 국내에서의 구조 유전체학의 현황은 선진 외국에 비교할 때 기술적인 면보다도 인력과 장비, 그리고 연구비 규모 면에서 큰 격차를 보이고 있다. 이미 국내에서도 유전체의 염기 서열 해독 능력을 갖추고 있고 자체의 방사광 시설을 확보하고 있기 때문에 구조 유전체학의 발전을 위한 초석은 놓아져 있는 상태이다. 하지만 구조 유전체학 자체의 핵심인 HT 기술면에서의 격차가 큰 상황이다. 현재 진행 중인 국제적 구조 유전체학 프로그램이 정보의 공유를 원칙으로 하고 있고 국제적 협력도 강조되고 있으므로 국내의 부족한 시설과 장비를 국제 협력과 공동 연구를 통하여 어느 정도 해결할 수 있을 것이다. 그러나 궁극적으로 단백질의 구조가 미래 신약개발의 아주 중요한 관건이라는 점에서 우리 자체적으로 구조 유전체학의 HT 기술을 확보하지 않으면 미래의 신약개발에 필수적인 구조 정보를 외국으로부터 입수하기 위하여 막대한 비용의 지출이 불가피할 것으로 우려된다. 미국의 노바티스와 같은 큰 기업들과 일본의 많은 제약회사들이 구조 유전체 컨소시엄들과 협력하여 HT 기술을 개발하고 있음은 단백질 구조 정보가 기업에게도 큰 가치를 가지고 있음을 보여주는 것이 아닐까? 그리고 일본의 SPring-8과 같은 강력한 가속기에 국내 구조유전체학 연구를 위한 전용 빔라인을 건설하고, 포항 가속기에 단백질 구조 해석용 빔라인이 더 증설되어야 할 것이다. 전세계적으로 구조 유전체학이 본격적으로 시작된 것은 불과 몇 년이 안되기 때문에 보다 과감한 투자가 이루어진다면 우리도 충분히 국제적인 경쟁력을 갖게 될 것이다.

4. 참고 문헌 및 웹사이트 정보  

1. Brenner SE, Levitt M. 2000. Expectations from structural genomics. Protein Science 9:197-200.

2. Liu Y, Luscombe NM, Alexandrov V, Bertone P, Harrison P, Zhang Z & Gerstein M. 2002. Structural genomics: a new era for pharmaceutical research. Genome Biology 3:4004.1-4004.3

3. Montelione T, Anderson, S. 1999. Structural genomics: keystone for a human proteome project. Nature Struct. Biol. 6:11-12.

4. Stevens R, Norvell J, Wemmer D, Hendrickson W. 2002. April 5. Structural Genomics: A New Field Unfolds. from webcast, InFocus, Bio.com.

5. Stevens RC, Yokoyama S, Wilson IA. 2001. Global efforts in structural genomics. Science 294:89-92.

6. Yang JK, Park M, Waldo GS, Suh, SW. 2003. Directed evolution approach to a structural genomics project: Rv2002 from Mycobacterium tuberculosis. Proc. Natl. Acad. Sci. USA 100:455-460.

7. RIKEN Gnomic Sciences Center ( http://www.rsgi.riken.go.jp)

8. Protein Structure Factory ( http://userpage.chemie.fu-berlin.de/~psf)

9. Protein Structure Initiative ( http://www.nigms.nih.gov/funding/psi.html)

10. Airlie Agreement ( http://www.nigms.nih.gov/news/meetings/airlie.html)

11. Protein Data Bank target registration database ( http://targetdb.pdb.org)

12. Structural Genomics Consortium link ( http://www.rcsb.org/pdb/strucgen.html)

13. International Structural Genomics Organization ( http://www.isgo.org)

 

관련정보

자료 추천하기

받는 사람 이메일
@
메일 내용