姜德杰 高停停
人類基因組中含有30億個字母,科學家一直都在爭論有多少字母具有功能性作用。有些字母對基因進行編碼(即人類的遺傳信息),有些字母為細胞如何使用基因提供指令。但是與數量巨大的DNA字母相比,這些已知字母序列的數量有限。長期以來,科學家一直在爭論其余的基因有沒有作用,如果有作用,其作用究竟有多大?甚至有科學家把那些不能對蛋白質進行編碼的基因稱作“垃圾DNA”。
現在,冷泉港實驗室研究人員已經研發出一種新型的計算方法,用來確定人類基因組中具有重要功能的字母。這個名為fitCons的計算機程序利用進化力量,對比了相關物種之間以及同一物種多個個體之間DNA字母的不同。得到的結果令人吃驚:無論是亙古以來的物種,還是較近時期才把個體區別開來的人類,大自然保存下來的基因組少得可憐。
“在模式生物中,比如真菌或蒼蠅,為確定某個特定基因發揮作用時需要DNA序列中的哪些字母,科學家經常會人為制造突變。”亞當·西格爾教授解釋說,“對人類我們不能做這樣的實驗。但當我們仔細一想便會覺得,大自然在物種進化的過程中一直在大規模地做著類似的實驗。基因組中的誘變是無序的,但是重要的字母都在自然選擇中被保存了下來,其余字母則可以自由改變卻不會對生物體產生不利后果。”
這一觀點成為他們分析的基礎,但僅此一點還不夠。西格爾說:“在過去的幾年中,像‘DNA元件百科全書’計劃(ENCODE)這樣的大型研究聯盟為科學界提供了大量關于基因組功能的寶貴信息。其他團隊完成了對大量人類個體和其他靈長類動物基因序列的排序。這些體量巨大的數據集第一次為我們提供了廣泛而異常詳細的基因圖,不僅包括基因組的生化活動,還包括長期以來DNA序列發生的變化。”
基于生化標記組合,西格爾的團隊開始整理ENCODE聯盟的數據。“我們不單單使用ENCODE為我們提供的序列模式,以及關于基因組中DNA讀取點及DNA因生化標記而變化的信息。”布拉德·古爾科說。他是康奈爾大學計算機科學專業的博士生。這些生化標記組合既顯示了基因組中數百種點位,也突顯了每個點位在基因組活動中所起到的各不相同的潛在作用。
隨后,研究人員利用他們之前研發的名為INSIGHT的計算方法來分析各類點位的序列在長期或短期進化中發生的變異。西格爾解釋說:“通常情況下,這種分析用來對比不同物種,比如人類、狗和老鼠等,這意味著研究人員在觀察相對較長時間內序列的變化。”但是,INSIGHT模式研究的是幾十個人類及其近親(如黑猩猩)的序列變化,這些變化為我們提供了較短時段內的進化圖譜。
科學家發現,人類基因組中最多只有約7%的字母具有重要功能。西格爾說:“一些僅基于ENCODE數據的分析辯稱,80%以上的基因組都具有功能性,但我們的進化分析表明,事實并非如此。其他研究人員做出了類似的估計,認為只有一小部分基因組在長期的進化過程中保存了下來。我們的分析表明,人類世系的功能性序列的新發現也無法解釋基于ENCODE數據的估計。我們認為,大多數被ENCODE認定為‘有生化活性’的序列很可能在人類進化的過程中并不重要。”
據西格爾所言,此項分析能讓研究人員更快地分離出引發疾病的序列。 “我們的分析有助于精確查明序列中哪些字母有可能起作用,因為它們都具有生化活性并在進化中保存了下來。”西格爾說,“這為科學家了解疾病的基因基礎提供了強有力的資源。”