編譯 舒愉棉
癌癥基因組研究的未來就藏身于臨床信息之中。2020年2月5日,《自然》雜志基于PCAWG成果發布的系列論文對癌癥的遺傳學原因給出了新的解釋,而這些研究結果為我們展示了人類對癌癥理解的最新進展,以及未來我們還有多遠的路要走。

科學家如今對引發癌癥的遺傳學改變有了前所未有的了解,這些癌癥里包括鱗狀細胞癌,一種常見的口腔癌
全基因組泛癌分析聯盟(PCAWG,又稱為泛癌癥全基因組分析合作項目)聯合了跨越四大洲的約750家合作單位,對代表38個癌種、超過2 600份樣本進行了全基因組測序,所獲成果刊登在《自然》雜志上。
這一項目了不起的地方在于其所具有的廣度與復雜度。從獲取樣本到把上萬億字節的數據交到研究者手中,同時還要保護病人的隱私,項目的每一步都面臨著各種挑戰,而它的龐大規模亦是挑戰的來源之一。
多虧聯盟的努力以及此前的全基因組測序成果,科學家如今對引發癌癥的遺傳學改變有了前所未有的了解,對現有知識中的空白部分也有了更清晰的認識。通過合作,研究組找到了在癌癥基因組中反復出現的705個遺傳突變,并指出這些突變可能對于腫瘤生長有重要作用。在這705個突變中,有約100個突變發生在基因組蛋白質編碼區以外。隨著對非編碼區進行分析的計算技術水平的提高,未來將會有更多這樣的突變被人發現。總而言之,論文作者發現了平均每個癌癥基因組含有4~5個導致腫瘤生長的遺傳突變,但同時他們也發現有5%的病例不含有這些突變。
盡管癌癥基因組測序完成時間超過十年,研究人員及這一研究的資助者現在仍舊必須要克服接下來的挑戰。癌癥基因組測序研究的目標一直都是改善癌癥患者的生活,而測序項目積累起來的大量數據的確有所幫助。這些數據被研究人員用于尋找新的藥物靶點和合成能夠用于匹配病人與最佳治療方案的腫瘤標記物。
但是,直至今日,絕大部分的數據都在一個關鍵部分受到限制,那就是樣本捐贈者的臨床信息通常是缺失的。癌癥基因組圖譜計劃(TCGA,是一項由美國國家癌癥研究所與美國國家人類基因組研究所共同資助、2006至2018年期間開展的大規模多癌癥全基因組測序項目)收集到的第一批樣本就是典型,除了樣本捐贈者的性別、疾病診斷以及就診年齡這些信息,其他伴隨樣本而來的信息寥寥。缺失的必要信息還包括捐贈者家族史或用藥史、接受過的治療記錄以及病人對治療出現的反應記錄,如果想要將癌癥基因組測序所得信息用來幫助病人,上述的信息都至關重要。
下一代癌癥基因組測序項目將致力于改變這一點,但是收集詳細的臨床信息比基因組測序更困難也更昂貴,尤其是在許多缺少統一醫療系統的國家更是如此。在那里,要獲取醫療記錄很復雜:不同的醫院分別儲存著不同的記錄;病人常常從一家醫療中心轉診到另一個;不同醫院的記錄質量千差萬別。與此同時,更詳細的記錄在隱私遭到侵犯時也意味著個體暴露的風險更大,因此對樣本捐贈者保護的力度也要再次加大。
這些迫在眉睫的問題不僅存在于癌癥研究之中,整個醫療研究都面臨著這些問題。人們正在努力將居民健康檔案轉化為更易獲取、更易研究,同時更安全的新格式,比如美國癌癥研究協會(AACR)的一項國際基因組和臨床數據共享項目(GENIE)就對70 000份腫瘤DNA序列信息和現實世界的臨床數據記錄進行了編輯,而英國的10萬人基因組計劃也旨在將DNA序列信息與臨床信息配對以供不同使用需求。協調過眾多腫瘤測序工作的國際癌癥基因組聯盟(ICGC)也啟動了新的階段性工作,這一次的工作重點將聚焦在臨床信息。
匯集大量樣本形成樣本池可以有效尋找引發癌癥的遺傳學改變,并為研究這些遺傳學改變如何引發癌癥提供一個起跑點。然而,只有在這些數據能夠用于為病人量身定制治療方案時,所有的付出才算是真正有了回報。而為了實現這一點,研究對象的臨床背景信息是不可或缺的。
當癌癥基因組測序項目首次啟動時,人們希望這一項目能提供引發癌癥的遺傳突變清單,并能夠揭示可以作為藥物研發基礎的普適性遺傳特征。這一任務的核心目標已經完成,但許多癌癥被證實比人們所預期的要更為復雜。看上去相似的癌癥會包含相當不同的遺傳突變組合,沒有什么癌癥與另一個癌癥是完全一樣的。
正如生物醫學研究中經常出現的情況那樣,問題的答案比最初設想的要復雜得多。不過,能夠認識到問題的復雜性,這本身就是能力的提升,而善用這一認知在尋求更好的治療方法的過程中將必不可少。
《自然》雜志2020年2月5日發布的6篇研究論文中,全基因組泛癌分析聯盟為讀者呈現了迄今為止最全面和最宏偉的癌癥基因組元分析成果。與過去主要集中精力投入癌癥基因組蛋白質編碼區的研究不同,PCAWG聯盟這次對癌癥的全基因組進行了分析。每一篇論文都仔細研究了癌癥遺傳學的一個重要方向,而合在一起,這些成果將會成為全面理解癌癥遺傳學復雜性的關鍵。
首篇研究論文對PCAWG數據集的廣度與深度進行了概述。該文稱,平均每個癌癥基因組含有4~5個驅動突變,這讓癌癥細胞具有選擇性優勢。研究中僅有5%的腫瘤樣本中未檢測出驅動突變。與之相對的,許多癌癥樣本呈現出基因組災難性事件的標記,其中包括染色體重排(占腫瘤樣本17.8%)及染色體碎裂(22.3%),這些都會導致嚴重的基因組結構性改變。
另外五篇論文則分別從不同方面對數據集進行了更加詳細的探討。比如在第二篇論文中,萊因巴伊(Esther Reinbay)等人就試圖在非編碼DNA中鑒定出驅動突變,這一目標可謂是雄心勃勃,畢竟要在非編碼區中準確地檢測出突變基因以及評估其重復率都要比在編碼區內困難得多,而作者則采用了細致的模型來對非編碼區驅動突變進行排除和系統性鑒定。
他們的研究結果對之前報道的非編碼區驅動突變——例如名為NEAT1和MALAT1的長鏈非編碼RNA——提出了質疑,同時他們也發現了一些新的驅動突變。例如,該文報道了他們一個在關鍵腫瘤抑制基因TP53的非編碼區發現的頻發突變,以及在端粒酶基因TERT的非編碼區發現的一種相對高頻的基因突變,后一種突變會導致端粒酶過表達(端粒酶過表達會讓腫瘤細胞不受控制地分裂增殖),這一結果與之前在轉移性腫瘤上進行的泛癌研究中發現的端粒酶高發突變(12%)的結果相對應。盡管這一研究不能將其他非編碼區驅動基因的存在排除在外,它依然決定性地顯示出這類突變并不正常。
在第三篇和第四篇論文中,亞歷山德羅夫(Ludmil B. Alexandrov)等人及李(Yilong Li)等人則聚焦在名為突變標簽的基因組變異上。不同的遺傳誘變過程——例如DNA修復系統缺陷或者是暴露于環境誘變劑——會產生具有典型特征的DNA變異,如果我們想要提煉已知標簽和發現新標簽,那么海量的基因組數據集是必不可少的。這一次,亞歷山德羅夫等人及李等人鑒定出了97個突變標簽,這一研究成果令人印象深刻。這一在過去工作的基礎上進行的拓展研究不僅涵蓋了傳統的單核苷酸標簽,還涵蓋了涉及多核苷酸突變以及DNA短片段插入與刪除的突變標簽。
值得注意的是,李及其同事是第一批發現了基因組結構變異(SVs,即基因組大范圍的結構重組)等可復制突變標簽的研究團隊之一。由于基因組結構變異的多樣性與復雜性,該項工作比鑒定突變標簽要更為錯綜復雜。
通過一系列突變分組操作,研究人員鑒定出了16種基因組結構變異標簽,并由此獲得新發現,例如他們推測出在基因片段缺失和倒位突變(即DNA片段方發生向翻轉)這兩種基因組結構變異之間可能存在聯動機制。他們還對這16種變異標簽在癌癥中所起作用有了進一步了解,在一些特定的DNA修復基因里發生的突變顯示出與典型的癌癥突變標簽存在關聯。例如,研究人員發現在CDK12基因上的突變與DNA串聯復制有關,而DNA修復酶MBD4的截短異構體與另一種含有CpG島(一種DNA序列)的突變標簽會同時出現。放在一起,這些新發現的突變標簽為理解癌癥發展的機制以及誘變劑暴露在突變過程中所起作用奠定了基礎。
“癌癥發展是一種進化的過程”這一概念最開始是在1976年被提出來的。自那兒開始,癌癥演化就一直都以隨機突變與自然選擇作為其標志性特征。獲得了高適應性突變的癌癥細胞會迅速擴散,并將成為細胞群中占主導地位的細胞克隆。這一現象被稱為克隆清除,常發生于癌癥細胞生長時反復進行的細胞周期。癌癥演化最有效的研究方法是對腫瘤多個區域隨著時間推移進行多次測序,不過這一過程也可以通過單次活檢來進行重構,而這正是格爾斯頓(Moritz Gerstung)等人在第五篇論文中采用的方法。
該文作者引入了“分子時間”這一概念來區分克隆突變(指或早或晚都會在所有腫瘤細胞中出現的突變)與亞克隆突變(指僅出現在癌癥細胞的一種子細胞集里的突變)。他們對克隆突變進行了分類,分類的依據在于突變出現的時間是在細胞克隆經歷拷貝數增益(一種基因或染色體區域拷貝數量增加的現象)之前還是之后,并推斷出亞克隆突變會在癌癥演化的晚期出現。研究人員整合了來自多種腫瘤的演化數據,并由此鑒定出了諸如APC-KRASTP53突變進程等常見的突變軌跡,APCKRAS-TP53突變進程描述的正是在直腸癌中突變出現的典型順序。
格爾斯頓等人還發現,在一個已知癌癥中最常出現的驅動突變往往也出現得最早。類似的,如果拷貝數增益在特定某類癌癥中高頻發生,那么其發生的時間也往往是在早期。舉例來說,5號染色體的局部拷貝數增益常見于透明細胞型腎癌,并且常出現于這一癌癥演化早期。反過來說,全基因組復制在這一癌癥中出現得相對較晚。最終,研究人員發現隨著時間推移,突變標簽在40%的腫瘤中發生了改變,這些改變反映出了環境暴露在疾病進程中重要性的下降以及DNA修復缺陷發生頻率及其嚴重性的上升。總的來看,這些發現意味著驅動突變可能發生在癌癥確診的數年之前,并會對癌癥的早期篩查和生物標記物發展產生影響。
在最后一篇論文中,PCAWG轉錄組核心研究組及其合作者利用1 188份與轉錄組數據匹配的PCAWG樣本,將DNA改變和RNA改變功能性地聯系在了一起。研究組發現了600多個單核苷酸DNA突變與相鄰基因表達之間存在關聯。不過,拷貝數變化更大的突變才是癌癥細胞基因表達發生改變的主要驅動力。突變還與RNA轉錄物結構的變化相關,例如在一個非編碼區(內含子)里形成了一個新的蛋白編碼區(外顯子)。
作者還鑒定出了橋式融合(即兩個基因由于第三個DNA片段介入而發生融合的現象)的發生頻率。盡管在被分析的1 188份樣品中有87份不含有DNA水平上的驅動突變,最終的研究結果顯示每一份樣品中都含有RNA水平上的改變。這些研究成果展現出了RNA測序分析與DNA測序分析的整合運用在癌癥研究中所具備的強大功能。
這六篇研究論文連同發表在其他地方的配套論文可謂是癌癥與云計算基因組學研究的里程碑。通過聚焦于推導論證,PCAWG聯盟成功地對十年來主要基于現象觀察的癌癥測序分析進行了詳細闡釋。值得注意的是,盡管推導論證分析對癌癥的研究比描述性研究開展得更深入,其研究結果所具備的不確定性也更高。
幾乎可以肯定的是,PCAWG數據集的廣泛可用性及其高質量將會掀起生物學研究與方法學發展的浪潮,而把它與其他功能性基因組數據集整合使用(比如用于基因組三維結構探測)更是將毫無疑問地深化人們對遺傳變異前因后果的理解。
目前研究的最大瓶頸在于缺乏與患者病情后續發展及治療手段相關的臨床數據,這些數據可以讓研究人員鑒別出能夠預測臨床結果的遺傳學改變。幸運的是,名為“國際癌癥基因組聯盟-加速基因組腫瘤學研究”(ICGC-ARGO)的項目目前正在進行中,這將會為超過10萬癌癥患者創造一個類似的資源庫。
PCAWG聯盟讓成千上萬的科學家們聯手,為實現共同目標一起努力,這帶來的長期影響將不止于現在所發表的這些研究論文,經過這一項目,這個全球聯盟的成員之間所建立的合作關系以及所進行的知識交換也將會產生深遠的影響。