TCGA (The Cancer Genome Atlas) 프로젝트에 대하여

ngs
tcga
genome

#1

intro

얼마 전 33개 종양 유형을 지닌 11,000명의 유전체를 분석해 낸 The Cancer Genome Atlas 프로젝트가 막을 내렸습니다. 이 연구는 20여 개 국가가 참여한 공동 작업으로 수행되었고, 10년 넘는 기간 동안 이루 말할 수 없는 자산을 만들어냈습니다. Carolyn Hutter와 Jean Claude Zenklusen은 TCGA 팀이 만들어낸 자산에 대해 서술하고자 프로젝트에 대한 짧은 평을 Cell에 실었습니다. 의역과 오역이 많지만 가볍게 번역해보았으니 읽어보시면 좋을 듯 합니다.

출처: http://www.cell.com/cell/abstract/S0092-8674(18)30374-X

The Cancer Genome Atlas: Creating Lasting Value beyond Its Data (암 유전체 지도책 프로젝트: 데이터를 넘어서서 꾸준히 창출될 가치)

TCGA 연구진은 이제 암 종류를 모두 아우르는 암 지도책을 내놓는다. 이 지도책은 TCGA 프로젝트가 10년 넘는 기간 동안 생성한 데이터를 분석함으로써 암 생물학의 다른 측면을 살펴보고 있다.

TCGA는 국립 암 연구소(National Cancer Institute)와 국립 인간 유전체 연구소(National Human Genome Research Institute)의 합동 프로젝트이다. TCGA는 2006년 폐, 난소, 신경교세포에서 발병하는 세 가지 암 유형에 초점을 맞춘 시범 사업으로 시작됐다. 초기에 쏟은 노력은 성공을 거뒀고, 그 덕분에 2009년 온전한 사업으로 다시 허가를 받을 수 있었다. 그 후 10년 동안 TCGA는 33개 종양 유형에 대해 11,000건 이상의 사례를 수집했으며, 암세포에서 발생하는 분자 수준의 변화를 종합적으로 설명할 수 있는 거대한 데이터셋을 생산했다. 조직 시료 수집과 데이터 생산은 각각 2013년과 2016년에 끝났다. 다양한 플랫폼을 연결지어 개별 암 유형에 대한 TCGA 데이터를 통합 분석한 네트워크 지표 논문들은 현재까지 알려진 종양 유형 중 31개 유형을 다루고 있다. 마지막 두 편의 지표 논문은 2018년 봄에 출판될 예정이다.

TCGA 데이터 셋이 지니는 가치

TCGA 데이터셋이 지니는 가치는 과장하기가 어렵다. 그 풍부함 덕분에 연구자들은 암에서 나타나는 특정 유전체 수준의 변화나 분자 수준의 변화를 목록으로 정리할 수 있게 됐고, 암 유형과 하부 유형에 대해 보다 의미 있는 분류 체계를 정의할 수 있게 됐으며, 심지어 이 프로젝트를 시작할 때는 상상조차 못했던 질문들, 예컨대 새로운 바이러스나 다른 세균성 요인을 발견하고자 데이터를 모으는 것 같은 일에 대해 연구하는 것도 가능하게 됐다. TCGA 지표 논문들은 암이 지닌 분자 수준의 특징을 이해하는 데 도움을 줄 추가 자원으로 쓰일 수 있으며, 개별 연구자들이 이 데이터를 깊이 있게 탐험하기 위한 시작점으로 기여할 것으로 보인다.

Cell, Cancer Cell, Cell Systems, Cell Reports, 그리고 Immunity의 최근호에서 TCGA 연구진은 10년 넘는 기간 동안 TCGA 프로젝트에서 생산된 데이터 전체를 통째로 분석함으로써 암 생물학의 새로운 측면을 살펴보는 26편의 원고를 발표했다. 우리는 이 노고를 암을 아우르는 지도책(Pan-Cancer Atlas), 또는 줄여서 PanCan Atlas라고 부르고 있다. 이 이름은 연구진들이 지닌 공통 시각에서 유래했는데, 이 프로젝트의 방점을 찍는 일이 될 것이다. 다른 원고의 주제는 크게 보면 세 범주에 들어간다. (1) 생물학식 접근법이나(Pan-Gynecological, Pan-Gastrointestinal) 조직학 하부 유형에 기반을 둔 종양의 뭉침과 더불어 기원이 되는 세포, (2) 특징을 분석해낸 모든 종양 유형에서 나타나는 종양 형성 과정들(면역, 돌연변이, 염색체 이수성), (3) 서로 다른 종양 유형이 발달하는 데 서로 다른 신호전달 경로가 관여하는 역할에 대한 조사. 이전에 암끼리 비교한 분석과 마찬가지로, PanCan Atlas는 연관된 조직 유형을 가로지르는 특징을 밝혀내고, 거대한 규모로 수집한 사례를 종합적으로 분석함으로써 밝힌 암 생물학의 다른 측면에 대한 넓은 범위의 개괄을 학계에 제공한다. 우리는 PanCan Atlas를 마지막 분석으로 보진 않는다. 그보다는 연구자들이 TCGA 데이터 총체를 탐험하고, 특정 암 연구나 보다 폭넓은 뜻에서 의생명 연구를 수행하는 데 이 데이터를 살펴볼 수 있는 시발점이 될 것이다.

TCGA 데이터 분석

TCGA 데이터와 분석 결과는 학계가 과학적 탐사를 위한 귀중한 자원으로서 계속 기여하겠지만, 정작 우리는 TCGA의 가장 위대한 기여는 암 유전학 연구가 수행되는 방식을 전환시켰다는 점이라 믿고 있다. TCGA 프로젝트가 진행되는 기간 동안, 이 프로젝트는 풍부한 데이터셋에서 유래된 결과물보다도 생물학 연구에 더 큰 영향을 줄 수많은 부수적인 성과를 창출해냈다. 이런 "무형"의 성과는 다음과 같다.

(1) 팀 과학

컨소시엄 덕분에 플랫폼을 가로지르는 통합적인 학제간 연구가 가능해졌는데, TCGA는 이 방식이 대단히 귀중하면서도 연구를 수행하는 데 적절한 모형이라는 것을 보여줬다. TCGA 프로젝트는 연구자 개인으로는 달성하지 못했을 분석 작업을 팀 단위로 착수하게 함으로써, 서로 다른 전문가들이 지닌 깊이와 그 상호연결을 통해 한층 더 발전할 수 있었다. 이에 더해 TCGA는 보통 1저자를 받아야만 학계에서 승진할 수 있다고 생각하는 것과는 달리, 컨소시엄에 참여하는 것만으로도 그에 필요한 경력을 쌓을 수 있다는 것을 보여줬다. 대부분의 지표 논문들은 단일 저자로서 The Cancer Genome Atlas Research Network만 내걸고 있지만, TCGA에 참여한 많은 과학자들은 학계에서 성공적으로 경력을 쌓고 있다. TCGA에서 본격적인 연구를 갓 시작한 과학자들은 학계에서 신뢰와 인지도를 얻을 수 있었고, 많은 경우에 해당 분석 분야에서 세계적 지도자로 성장할 수 있었다. TCGA에게 감사한다. 팀 과학은 과학은 물론 과학자에게도 이점을 가져다주면서 의생명과학계에서 새로운 모델로서 번창할 것이다.

(2) 유전체 분석 과정(pipeline, 파이프라인)

생성된 데이터셋이 풍부한 덕분에 알고리즘 개발자들 또한 프로젝트 초기부터 TCGA에 합류해 유전체 데이터를 분석하는 데 필요한 방법론을 만들고 또 갈고 닦았다. 이런 개발자들 중 많은 이들은 원래는 종양학 분야와 별 인연이 없는 사람들이었다. TCGA라는 배경에서 개발된 많은 분석 도구들은 인간 질병 연구뿐만 아니라 생물학 전반에서도 새로운 발견을 도움으로써 어떤 유전체 분석에서도 쓰이는 표준이 되었다. 거대한 TCGA 데이터셋 자체 크기라는 문제와 수천 개 사례에 대해 일관성 있고 재현되는 데이터를 생산해야 한다는 필요성 때문에 연구자들은 데이터 과학과 계산생물학 분야를 혁신할 수밖에 없었다. 유전체 데이터를 생산하고 분석하는 데 필요한 파이프라인 뿐만 아니라 조직 시료를 수집하고 처리하기 위해 개발된 실험 규약은 TCGA 프로그램에서 가장 자주 공유를 요청 받는 항목이 되었다. 데이터는 물론 중요하지만 많은 경우 데이터가 어떻게 만들어졌는지에 관한 것은 그 배경에 감춰져 있는 핵심적인 정보이다. 모든 TCGA 프로토콜은 누구나 쉽게 접근할 수 있었고, 이런 내용이 담긴 메타 데이터는 그제야 제자리를 찾게 되었다. 따라서 TCGA에서 개발한 파이프라인, 표준, 시행 과정은 값을 매길 수 없을 만큼 소중한 학계의 자산이 되었고, 이후에 진행될 유전체 프로젝트에서도 그 토대가 될 것이다.

(3) 시료 획득과 연구 설계

TCGA는 주석을 철저하게 달아놓은 높은 품질의 종양 시료, 그에 상응하는 비 종양 대조군, 그리고 환자에게 고지하고 승인 받는 것에 대한 필요성을 강조하는 데 큰 기여를 했다. 2006년 프로젝트를 시작할 당시, 주석이 달린 시료와 그에 상응하는 대조군이라는 생각은 역학 분야에서나 존재하는 것이었다. TCGA가 일정 부분 기여했다는 점에 감사한다. 이런 가시성은 생물학 연구를 수행하는 여러 분야에서 가장 중요한 위치를 차지하게 되었다. 사실 국립 암 연구소는 현재 연구자들이 상관관계가 있는 연구를 수행할 수 있을 만큼 고품질 조직 시료를 준비할 수 있도록 임상 시험에서 표준 시행 과정을 따를 것을 요구한다. 이런 요구사항의 많은 부분은 TCGA 계획서에서 직접 나온 것이다. 임상시험 설계와 조직화에 있어 이런 개선 사항은 분자 발견이 침대 옆 약까지 쉽게 옮겨갈 수 있도록, 암 유전체학과 임상 암 연구 사이의 통합을 대단히 촉진시키고 있다.

(4) 데이터 접근성

TCGA 프로그램의 주요 교리 중 하나는 만들어진 모든 데이터를 학계와 일반 대중에게 접근 가능한 자원으로 제공해야 한다는 것이다. TCGA는 심지어 각 종양 유형에 대한 특징을 서술한 지표 논문이 출판되기 전에도 어디에서 데이터에 접근을 가능하게 할 수 있을지에 관해 정책을 개발하고 시행했다. 이러한 공유와 개방성은 이 프로젝트를 시작할 때 당시만 해도 정말이지 혁신적인 것이었다. TCGA 네트워크 안과 밖에서 출판된 결과물을 통해, 우리는 데이터 공유를 두려워할 필요가 없으며, 오히려 원래 하려던 방식뿐만 아니라 다른 관점에서 접근하는 것을 가능케 함으로써 데이터의 가치를 높일 수 있기 때문에 이런 공유 방식을 받아들여야 한다는 것을 확인했다. TCGA는 개인정보를 적절하게 보호하면서도 데이터를 폭넓게 공유하는 초기 개척자 중 하나였다. 이는 국제 암 유전체 컨소시엄의 데이터 공유나 NIH 유전체 데이터 공유 정책과 같은 다른 모형을 이끌어냈다. 이에 더해 관심 있는 모든 단체가 데이터를 사용할 수 있게 하려는 갈망은 국립 암 연구소에서 유전체 데이터 커먼즈를 개발하게 하는 동력이 됐다. 유전체 데이터 커먼즈는 TCGA 뿐만 아니라 유전체 프로젝트의 주최로부터 얻은 데이터까지 보관하고, 프로젝트 간 비교를 위해 조율한 데이터를 처리할 때 표준화된 파이프라인을 사용하며, 제한되지 않으면서 공개 접근이 가능하고 동시에 보호되면서도 조건부 접근이 가능한 데이터를 제공했다. 게다가 유전체 데이터 커먼즈는 페타바이트(Gb의 100만 배)를 내려받지 않고도 데이터를 시각화하고 분석할 수 있는 인터페이스를 개발하고 있다. 사용자들은 홈페이지에서도 간단히 정보를 뒤져볼 수 있을 것이고, 이를 통해 데이터 접근에 대한 완벽한 민주화를 달성할 수 있을 것이다.

맺음말

우리는 TCGA가 생물학 연구를 하는 방식을 유의미하게 바꿔냈다는 것을 자랑스럽게 생각한다. 협력 연구는 인간 질병에 관한 복잡하면서도 다차원적인 문제를 해결하고자 할 때 필수적이며, TCGA는 이런 핵심적인 협력 연구를 통해 자원을 생산하는 프로젝트의 모델을 분명하게 정립시켰다. PanCan Atlas는 암 생물학에 대한 우리의 이해를 증진시키고, 암을 진단하고 치료하며 예방하는 능력을 향상시키고자 하는 우리의 목표를 향해 해당 분야를 가깝게 움직인 고단한 과정에서 얻은 결과였으며, 또 어떻게 이런 노고들이 조율된 데이터, 표준화된 분석, 통합된 연구 발견으로서 막을 내릴 수 있는지 보여주는 실제 사례로 자리 잡을 것이다.

M’s thinking

유전체를 비롯한 소위 말해 "신기술"은 기존에 관찰하지 못한 생명현상을 여러가지 측면에서 아주 방대하게 측정하는 기회를 제공합니다. 흔히 말해서 high-throughput이 되겠습니다. 그런데, 여기에는 치명적인 단점이 있습니다. 바로 우리는 그 신기술로 인해 관찰된 값이 실제 true biological signal인지 아니면 단순한 measurement error인지를 정확히 알아낼 방법이 없습니다. 따라서 방대한 양으로 관찰된 정보들은 여러가지 차원에 올려놓고 다양하게 해석하고 고민해봐야 합니다. 위의 컨소시엄에서 데이터를 분석하는 일은 여러 사람의 노고와 입장을 들어보는 기회가 됩니다. 이런 과정은 사실 여러 사람의 노력이 모여도 매우 느립니다. 그러나 너무 민감한 신기술에서 얻은 결과가 단순히 measurement error에서 나온 오류가 아닌지, 혹은 감지 하지 못한 실험 디자인에 기인한 것인지를 충분히 파악하기엔 1년은 결코 긴 시간이 아니지요. 이미 지난 30년간의 질병 유전학 연구에서 겪은 여러 사례들을 기억한다면 이러한 방식의 컨소시엄 연구는 지난 몇년동안 다양해졌고, 앞으로 더욱 많아질 것입니다. 소규모로 진행되던 연구들이 동일한 분석 방법(충분히 논의된)을 통해 처리되고, 여러 입장을 가진 사람들이 논의하는 기회는 많아 질 것입니다. 유전학을 연구하고 싶으신 분들, 특정 주제에 대한 깊은 고민을 갖고 있는 사람들에게는 좋은 기회가 되겠습니다.