袁越

人類基因組計劃完成于2003年4月14日。當時除了人類,科學家們只測出了小鼠、大鼠和黑猩猩這3種哺乳動物的全基因組序列,很難作出全面的橫向對比。科學家們發現,如果沒有橫向對比,單從人類基因組序列出發,很難得出太多有意義的結論。于是,在此后的20年時間里,科學家們又陸續測出了幾百種哺乳動物的全基因組序列,終于可以得出一些具有統計意義的結論了。
為了整合各國的研究資源,提高工作效率,來自全球30家科研機構的150多名科學家組成了一個跨國聯盟,共同開啟了一項名為Zoonomia的研究項目。該項目把包括人類在內的241個哺乳動物的基因組匯總到一起,建立了一個統一的數據庫。這個數據庫涵蓋了現存的80%哺乳動物種類,基本上反映了哺乳動物綱的全貌。
2023年4月27日出版的《科學》雜志,刊登了11篇來自Zoonomia項目的科學家撰寫的論文,介紹了這個項目的進展情況。其中一篇論文證明,胎盤類哺乳動物早在恐龍時代就已經進化出來并開始分化了。另一篇論文詳細對比了上述241個基因組的基因序列,發現有10.2%的基因序列是完全一致的,說明這部分DNA的功能極為重要,任何改變都會致死。進一步的研究顯示,這部分DNA序列大都位于蛋白質編碼區之外,屬于調控基因的范疇,其中約有一半的調控基因的具體功能未知。這將是未來基因研究的一個“金礦”。
不過,大家最感興趣的肯定是人類的基因組,尤其是人類疾病和基因之間的關系。此前這個問題大都是通過全基因組關聯分析(GWAS)來研究的,這個方法只聚焦人類基因組本身,通過對比健康人和患者的基因組序列,找出兩者的差異。問題在于,這個研究方法只能發現基因和疾病之間的相關性,無法證明兩者之間的因果關系。因為很多疾病會涉及成百上千個基因位點的差異,很難判斷究竟哪個差異才是決定性的。
Zoonomia項目另辟蹊徑,試圖通過研究哺乳動物的基因進化史來判斷究竟哪個基因才最有可能是致病元兇。研究人員通過計算后發現,這個研究思路要比GWAS方法更容易獲得成功,其研究難度至少降低了一個數量級。
GWAS方法顯得太過粗糙,很難確切地知道某個基因突變到底會產生怎樣的后果。事實上,隨著DNA測序的成本越來越低,全世界恐怕已有數百萬人測過自己的基因組序列了。但是,即便測試結果顯示你有若干個基因位點和標準版不一樣,導致你體內的某個蛋白質與標準版有細微差異,你也不清楚這到底意味著什么。因為科學家們對于蛋白質的氨基酸序列與該蛋白的生理功能之間的關系缺乏了解,不太可能僅憑某個基因突變就預判出你的健康狀況將會受到怎樣的影響。
為了解決這個問題,著名的DNA測序儀制造商因美納公司的一位名叫凱爾·法赫的人工智能專家想出了一個絕妙的方案。他認為,人類和靈長類動物在進化樹上的位置最為接近,所以人體里的蛋白質應該和靈長類動物體內的蛋白質幾近同源。因此,如果發生在人類身上的某個氨基酸變異能夠在其他靈長類動物的身體里被找到,就說明這個變異經受住了進化的考驗,極有可能是良性的。按照這個邏輯,如果我們能夠把世界上現存的靈長類動物的基因組全都測出來,再和人類基因組作對比,就能構建出一個龐大的數據庫,包含了所有和人類相同或者不同的基因突變位點。只要把這個數據庫輸入人工智能神經網絡,再結合相應的蛋白質三維結構數據,就能借助神經網絡強大的學習能力,推算出某個新發現的基因突變到底是良性的還是惡性的。
法赫是在2018年提出這一設想的,當時僅有不到10%的靈長類基因組序列被測出來,數據量達不到人工智能的要求。但法赫仍然決定試試這個思路的可行性,便聯系了西班牙龐佩烏·法布拉大學的遺傳學家托馬斯·馬奎斯·波奈特。后者是比較基因組學研究領域的先驅者,手里積攢了不少靈長類基因組序列。波奈特為法赫提供了6個這樣的基因組序列,他利用這些數據對自己的設想進行了初步研究,并將研究結果寫成論文,發表在2018年7月23日出版的《自然·遺傳學》雜志上。
這篇論文證明上述思路是可行的,唯一的缺點就是靈長類基因組序列的數據庫還不夠大。于是,波奈特向全世界的同行發出號召,很快就從來自24個國家的數十位遺傳學家那里征集到了233種不同靈長類動物的基因組序列。這個數量雖然僅占全球已知靈長類動物總數的一半左右,但卻涵蓋了靈長目的所有16個科,基本上反映了靈長類動物的全貌。
有了這樣一個全面的人類近親的基因組序列數據庫,科學家們就可以拿它來做很多此前做不了的事情。2023年6月2日出版的《科學》雜志刊登了來自世界各國的遺傳學家撰寫的8篇論文,借助這個靈長類基因組數據庫探討了與人類有關的8個不同的問題。其中的一篇核心論文就是由波奈特和法赫的團隊合作完成的,科學家們找出了人類和靈長類共有的430萬個常見的錯義突變(即改變了氨基酸序列的基因突變),再和現有的基因病理學數據庫作對比,發現其中有98.7%都是良性的,重合度非常之高。
如果僅用前文提到的哺乳動物基因組序列數據庫作為參照,那么基因突變的良性率僅有87%,數據質量大打折扣。這個差異不難理解,畢竟相較于靈長類動物,哺乳動物在進化樹上的位置距離人類更遠。
總之,這項研究為人工智能系統提供了一套高質量的基因標注數據庫,其數據量比原有的數據庫增加了50多倍。科學家們相信,未來的遺傳學家們只要把這個改進過的數據庫和相應的蛋白質三維結構數據結合起來,輸入人工智能神經網絡,就可以相當準確地判斷出任何一個新的基因突變究竟是良性的還是惡性的。到那時,基因組序列就能透露關于健康的小秘密。