
不尋常的細胞系幫助測序設備讀取過往難以辨認的DNA片段。
人類基因組測序工作一直在完善,卻始終不完整。第一版序列誕生于20年前,破譯了大部分編碼蛋白質的區域,卻也留下8%,也就是大約2億堿基對的空白,它由高度重復、復雜的DNA片段組成,其中包含功能基因以及位于染色體中間和末端的著絲粒和端粒。在很長一段時間內,由于測序技術所限,要填上這8%的空隙看起來是一項遙不可及的任務。
現在,一支國際科研團隊成功破譯剩下的難解堿基,于2022年3月底在《科學》(Science)雜志發表6篇論文,公布歷史首個完整無間隙的人類基因組序列。
該團隊名為“端粒到端粒”(T2T)聯盟,由來自數十個研究機構的近百名科學家組成。他們所填上的近2億堿基對包括99個可能編碼蛋白質的基因和其中近2 000個還需進一步研究的候選基因(還剩下1 000萬堿基待解)。此外,新序列也糾正了老版本里的數千個結構錯誤。
歐洲分子生物學實驗室副主任、曾經的人類基因組計劃成員、生物信息學家伊萬·伯尼(Ewan Birney)表示:“我認為我們在10年前甚至5年前都無法想象此壯舉。”T2T聯盟的研究人員表示,新測序的片段揭示了基因組中遺傳進化的熱點,并強調了人類基因組的混亂歷史。基因編輯公司Inscripta的基因組學家迪安娜·丘奇(Deanna Church)指出:“它確實讓我們對基因組內不可見的區域有了新的了解。”
過往難辨真顏的基因組序列現已清晰可見:5個染色體短臂幾乎被完全揭示,眾所周知,這些短臂含有大量編碼核糖體骨架的基因,而核糖體是細胞的蛋白質工廠;包括端粒和著絲粒在內的高度重復序列也被摘下面紗,著絲粒肩負著協調染色體復制分離的關鍵任務。
當伯尼、丘奇和同事在2001年介紹初版人類基因組,甚至于2004年正式發布該序列以后,測序設備和基因組組裝軟件沒能力涉足高度重復的序列區域。隨著測序技術進步及其成本下降,科學家減少了序列的間隙和錯誤組裝,最終于2017年發布人類基因組GRCh38。由于不到1 000個間隙,它成為許多人用來比較其他人類基因組的參考序列。
但凱倫·米加(Karen Miga)和亞當·菲利普(Adam Phillippy)希望更上一層樓。米加是加州大學圣克魯斯分校的遺傳學家,長期致力于探究衛星DNA的準確序列,這些獨特的衛星片段能幫助形成著絲粒。與此同時,美國國家人類基因組研究所的生物信息學家菲利普專注利用新型測序技術讀取很長的DNA片段,從而減少拼合較短序列的需要。他們在一次會議上相遇,并建立合作。到2019年,菲利普報告稱,他們成功完成X染色體的端到端測序。數十位學者受此鼓舞,也加入了這項研究事業。
為簡化任務,他們決定使用一種匿名化細胞系。該細胞系源于20多年前某女性子宮的異常生長——精子進入缺乏染色體的卵子,由于只有精子的遺傳物質,故“受精卵”無法發育成胚胎,卻仍能復制,尤其是在精子帶去X染色體而非Y染色體的情況下。選擇此匿名化細胞系的一個優點是,它的23對染色體,每對里的兩條都相同。
人類基因組計劃先驅之一、西雅圖華盛頓大學遺傳學家羅伯特·沃特斯頓(Robert Waterston)表示,這對消除基因組間隙“產生了很大影響”,因為測序設備無需解決父母染色體差異的問題。
T2T團隊結合使用了兩種先進技術,一種能一次讀取10萬堿基的納米孔測序技術,另一種則精確度極高,能處理差別極小的片段。此外,他們還改進后一種技術,從而進一步提高了準確性。最后,除了5個終極難點,他們解決了能夠解決的所有問題。沃特斯頓表示:“你只要看到他們采用的方法,就知道他們解決的都是高難度問題。”
大約2億堿基對最終以正確的順序和位置公諸于世,包含著1 900多個基因,其中大部分是已知基因的拷貝。研究人員對重復區域和可移動元素進行了編目——來自病毒的遺傳物質被整合至基因組中。在對每個著絲粒進行測序時,他們了解到重復區域的大小差異很大,這相當出乎意料,因為著絲粒之于每條染色體的作用都相同。
關于染色體短臂的工作帶來了另一個驚喜。正如預期的那樣,它們包含了共計400個編碼用于制造核糖體的RNA的基因拷貝。
美國斯托瓦斯醫學研究所(SIMR)的染色體生物學家詹妮弗·格頓(Jennifer Gerton)指出,染色體短臂也充滿了可移動元素、重復片段和其他類型的重復DNA序列,以及來自基因組其他部分的許多基因拷貝。用丘奇的話說:“人類基因組的動態變化令人驚訝。”格頓表示,這5個染色體短臂信息不明確造成了極為復雜混亂的情況,使得研究人員縱已粗略了解序列,卻終難明確堿基順序。
菲利普認為,染色體短臂很可能是基因進化的熱點,因為那里的基因拷貝能夠自由變異,產生新功能。研究小組所做的重復區域編目還可揭示與特定序列拷貝數變化有關的神經和發育障礙。復雜重復區域內DNA的化學修飾似乎也與疾病相關(這些變化已被繪制出來)。
雖然取得里程碑式突破,但人類基因組測序工作并未就此止步。人類基因組計劃聯合負責人、美國貝勒醫學院的遺傳學家理查德·吉布斯(Richard Gibbs)強調,該領域現需獲取來自更多樣化人群的完整基因組序列,以尋找可能在疾病或性狀中發揮作用的短臂及其他難以閱讀區域的變異。
T2T團隊再啟征程,并取得開門紅——他們的目標是破譯來自不同族群的350位個體和基因序列,現已完成70多位基因組的測序。新項目作為人類泛基因組參考聯盟(HPRC)的一部分,可謂極具挑戰性,因為這些待測基因組的來源不再是前文提到的匿名化細胞系,而是互不相同的正常染色體對。
資料來源 Science
本文作者伊麗莎白·彭尼西(Elizabeth Pennisi)是《科學》雜志的特約撰稿人,主要關注基因組學、演化、微生物學和有機體生物學,也涉獵生態學和行為學