在我們的基因當中,很多都沒有明顯與之近似的親緣基因,也找不到它們的進化歷史。那么,這些基因到底是從哪兒來的呢?
無家可歸是件很糟的事。孤兒們往往無人關愛,變得與大眾格格不入。他們不得不費盡心力去融入社會,克服重重困難,才能發揮自己的潛能。從亞里士多德到史蒂夫·喬布斯,那些獲得成功的孤兒有時也能改變世界。
誰又曾想過,我們的DNA竟然也可以在這樣一出孤兒苦情戲中扮演主角。當生物學家進行基因組測序的時候,他們發現每個物種之中都有將近三分之一的基因無父無母,無兄無弟。而且,這些“孤兒基因”之中也并非都是無足輕重之輩,有幾個甚至還在人腦進化中發揮了作用。
但是,它們到底是從哪來的呢?這些沒有明顯祖先的基因簡直就像是從石頭縫里蹦出來的。當然,你知道這是不可能的。每個人都以為,只要我們對這些基因進行更深入的研究,就能發現它們家族的秘密。可事實并非如此,甚至恰恰相反。
一直以來,當我們發現了一個新基因的時候,生物學家都要去探尋它的起源。在生命誕生之初,最早的一批基因肯定是偶然產生的。有一件事情幾乎是確定的:生命起源于RNA世界。也就是說,那時的基因不僅僅是制造酶的圖紙——它們本身也是酶,可以引導化學反應的發生。如果這種隨機過程偶然搞出來一段RNA,能夠進行自我復制,那么自然選擇一定會很快發揮作用,把它保留下來。
然而,隨著活細胞的進化出現,事情變得更復雜了。基因成為了一段DNA,成為了一個蛋白質的編碼。要想制造一個蛋白質,必須首先為它的編碼DNA制造一個RNA拷貝。而要完成這件工作,“DNA開關”是必不可少的。實際上,DNA開關本身也是一小段DNA,位于編碼蛋白質的DNA序列旁邊。它似乎是在說:“快來為這段DNA制造一個RNA拷貝!”接下來,這段RNA還要被送去制造蛋白質的工廠才行。在比較復雜的細胞中,這一工作需要更多附加序列的參與。它們好像是在說:“把我送出細胞核”或者“從這兒開始制造蛋白質”。
如此看來,一段垃圾DNA通過隨機突變成為一個新基因的可能性實在是微乎其微。正如法國生物學家弗朗索瓦·雅各布在35年前寫下的那句名言所說:“由氨基酸從零開始隨機組合成為一個具有功能的蛋白質,這種可能性實際上等于零。”
實際上,早在20世紀70年代,人們就意識到:基因的意外拷貝可能造就一個新的基因,成為另一個基因大家族的起源。這就像是動物的一個分支物種最終演化成為在進化上具有親緣關系的眾多物種一樣。基因在復制的時候不小心多出一個重復的拷貝,這是很常見的事情。多余的拷貝往往又會丟失掉;但也有些時候,這些拷貝會與原基因發揮同樣的功能;又或者,會發生變化,從而分化出新的功能。
就拿一種叫做視蛋白的感光色素來說吧。我們的眼睛之中有不同種類的視蛋白。它們不僅彼此具有親緣關系,而且與所有其他動物的視蛋白同樣具有親緣關系,從水母到昆蟲,無一例外。在動物界發現的數千種不同的視蛋白基因全都是通過基因重復進化而來的。它們都源自7億年前的同一個祖先基因。
大多數的基因都從屬于某個家族,其中的基因成員彼此相似,并能夠回溯到數億年前的某個共同祖先。但是,當酵母的基因組在15年前測序完成的時候,人們發現其中約三分之一的基因似乎不屬于任何一個家族。于是,“孤兒基因”這個說法被用于描述這些獨立的基因以及那些成員很少,彼此高度相似,且沒有已知親緣基因的基因家族。
“如果你看到一個基因,卻找不到它的親緣基因,那你心中一定會產生疑問。”在賓夕法尼亞州立大學研究復雜性狀進化的肯·韋斯(Ken Weiss)說到。有些人提出,孤兒基因就像現存的矛尾魚那樣,相當于基因進化中留下的活化石,是某個古老基因家族唯一幸存的成員。另一些人則認為,孤兒基因沒有什么特別的,不過是普通的基因,只是其家族成員還沒有被發現而已。畢竟,當時全基因組測序的工作才剛剛起步。
孤兒基因如此之多
但是隨著越來越多的生物完成了全基因組測序,基因呈家族式的存在方式似乎并非是普遍的規律,反而更像是特例。從蚊子到人,從蛔蟲到大鼠,迄今為止所有進行了基因組測序的物種中,都發現了孤兒基因,而且數量越來越多。
孤兒基因的研究目前才剛剛起步。我們對于其中的大多數基因仍然一無所知。那些我們有所了解的孤兒基因也是一團亂麻,毫無頭緒。其中有一些與DNA的組織和修復有關,或者控制著其他基因的活性。而昆蟲的一種孤兒基因flightin則編碼了一個振翅肌的蛋白質,用于輔助飛行。就在去年,芝加哥大學的龍漫遠教授和他的團隊發表的一項研究成果表明,兩個在進化上非常年輕的昆蟲孤兒基因幫助果蠅形成了它們的覓食行為。
在珊瑚、水母和水螅中,孤兒基因主導了刺絲細胞的發育。這是一種十分精密的結構,能夠把刺絲囊中的毒液發射出去,讓獵物失去知覺。在一種生活在淡水中的水螅體內,孤兒基因控制著口部周圍進食觸手的發育。而在北鱈體內,一種具有抗凍功能的孤兒基因能讓這種魚存活于刺骨寒冷的北冰洋之中。
但是不太可能……
奇怪的是,孤兒基因常常是在睪丸和大腦中獲得表達。最近,有人甚至提出一個大膽的假設,說孤兒基因對于進化史上最大的奇跡——人腦的進化也做出了重要貢獻。2011年,龍漫遠教授和他的同事們在人類、黑猩猩和紅毛猩猩的基因組中鑒定出了198個在腦前額葉皮質區表達的孤兒基因。大腦的這個區域與高級認知能力有著緊密的聯系。在這些孤兒基因當中,有54個是人類所特有的。從進化的角度來看,這些基因非常年輕,存在時間不超過2500萬年。而它們出現的時間似乎與靈長類的這個腦區獲得發展的時間恰好相符。龍漫遠教授表示:“這就意味著,這些新基因與腦的進化是有關聯的。”
然而,持不同觀點的人認為:大多數基因,無論新舊與否,都在某種程度上參與了腦的發展,而這種聯系未必就是因果關系。但是龍漫遠教授引用了近期的一項動物研究來支持自己的理論。在這項工作中,一個人類的孤兒基因SRGAP2C被引入到發育中的小鼠的神經細胞里進行表達。結果,這些小鼠并沒有直接長出更大的腦,然而的確在神經細胞末梢長出了更密集的樹突。這種微小的突出結構使得神經細胞能夠與鄰近的神經細胞進行聯系。龍漫遠教授認為,神經細胞之間更多的連接可能會增加運算能力。因此,這些新近進化出來的人類基因有可能幫助形成了人類的大腦。位于德國普倫的馬克思·普朗克進化生物學研究所的遺傳學家迪特哈德·陶茲(Diethard Tautz)表示:“我認為我們過去低估了孤兒基因。”
但是,它們究竟是從哪兒來的呢?2003年,陶茲和同事提出:孤兒基因仍舊是來源于基因重復,但之后經歷了快速進化,喪失了與原始基因之間的任何相似之處。而且他們的確握有一些證據,似乎能夠支持這一理論。這些證據表明,在果蠅中,孤兒基因的進化速度比非孤兒基因快了三倍。
這么一來,孤兒基因又被重新歸入了原有的模型之中,即新基因源于老基因的意外重復。然而,后續的研究指出,這只能解釋一小部分孤兒基因的起源。也就是說,這個過程當然重要,但還不是故事的全部。“這個理論在當時看起來很有道理,”陶茲說,“因為其他理論看起來都不太可能是真的。”
有其他理論嗎?當時唯一的其他可能就是,基因真的可以從零進化而來,來自于非編碼DNA的隨機序列。這個想法長久以來都被認為是無稽之談,因為從一段非編碼DNA到一個編碼有功能的蛋白產物的基因,其間存在著一條巨大的鴻溝,長久以來都被認為是無法跨越的。但是,大自然可不是按照教科書來運作的。從幾年前開始,越來越多的證據涌現出來,證明酵母、大米、小鼠以及果蠅之中都存在從零開始創造出來的全新基因。緊接著在2009年,愛爾蘭都柏林大學的大衛·諾爾斯(David Knowles)和奧依菲·麥克萊薩特(Aoife McLysaght)證明了人類自身也有三個孤兒基因的確是從零進化而來的。
他們發現,在其他靈長類動物身上也能找到與這些孤兒基因幾乎相同的DNA序列。只不過這些序列在那些動物的基因組中還只是非編碼DNA。這意味著,這些孤兒基因一定是在人類與黑猩猩在進化上分道揚鑣之后才出現的。他們還發現,這些孤兒基因在多種人體組織中都會轉錄為RNA,再進一步表達為蛋白質,但它們確切的功能目前還不得而知。
2011年,另一個研究組又找到了60個從零開始創造出來的人類孤兒基因。麥克萊薩特認為這有點兒太多了。她相信,全新基因的形成只是偶然現象。
然而,另一些研究者卻漸漸認為,這種現象可能會常見到令人吃驚的地步。西班牙巴塞羅那市政基金醫學研究所的M.馬爾·阿爾巴(M. Mar Albà)和馬卡麗娜·托爾-里耶拉(Macarena Toll-Riera)針對270個靈長類孤兒基因進行的一項研究發現,這些基因中只有四分之一可以被解釋為基因重復之后的快速進化(參見《分子生物學與進化》第26卷第603頁)。而其余大約60%的孤兒基因似乎都是全新的。“從零開始的進化無疑是一種強大的力量——一直在不斷地產生著新基因,”陶茲說,“看起來有可能大多數的孤兒基因都是通過從零開始的進化產生的。”
但是,這怎么可能呢?諾爾斯和麥克萊薩特發現,他們找到的孤兒基因往往緊挨在已經存在的舊有基因旁邊,甚至會有輕微的重疊。這樣一來,孤兒基因或許就能“借用”舊有基因的控制開關了。與此類似,阿爾巴和托爾-里耶拉發現,270個靈長類孤兒基因之中有一半都從一種叫做“可移位因子”的基因元件之中獲取了一些序列。而可移位因子就像是基因中的寄生蟲,可以在基因組中到處亂竄。此外,人類基因組“基因元件百科全書”(ENCODE)研究計劃在年初發表的結果顯示,我們的DNA中塞滿了數百萬個可以當作基因開關使用的短序列,而一個開關可以與許多基因相互作用。
所有這些研究都表明,非編碼DNA要想獲得一個給自己制作RNA拷貝的開關并非難事。實際上,ENCODE計劃發現,多達80%的DNA都會被拷貝成為RNA,至少也是偶爾為之。有人主張所有這些RNA都是有功能的,而另一種觀點則認為:這些拷貝活動大多數只是無意義的背景噪音——垃圾DNA轉錄為RNA完全是慣常之事。
原基因
果真如此的話,我們基本上每時每刻都在進行著成千上萬的潛在新基因的合成實驗。而加利福尼亞大學圣地亞哥分校的安妮-魯克山德拉·卡烏尼斯(Anne-Ruxandra Carvunis)證明,至少在酵母里,事實的確如此。去年,她的團隊分析了酵母基因組中108000個可能編碼蛋白質的未知短序列(參見《自然》第487卷第370頁)。其中有超過1000個與細胞中的蛋白質工廠發生了相互作用,說明它們當時正在被表達為蛋白質。“這可能只不過是冰山一角。”卡烏尼斯說道。
她的發現說明,酵母細胞中的蛋白質工廠不斷創造著全新的蛋白質,并讓它們有機會接受“測試”。她推測,同樣的事情在所有復雜的生物體內都在發生著。卡烏尼斯認為,在非編碼DNA和徹底成熟的基因之間,還充斥著從短到長,各式各樣的“原基因”。它們中的大多數編碼出來的蛋白質是無用或者有害的,于是不會被選擇。因此,絕大多數的原基因早晚會重新變回非編碼DNA。但是少數中性的,甚至是有用的原基因,有時會被保留下來,漸漸開始積聚有益的突變。經過數百萬年的自然選擇,它們就能成為一個真正的基因了——這就是孤兒基因誕生的過程。
所有這些研究有助于解釋為什么孤兒基因經常在睪丸中獲得表達。在大多數細胞中,DNA是緊密排列的,降低了制作RNA拷貝的幾率。然而在某些未成熟的精子細胞中,DNA的結構更加開放,更易于讓原基因拷貝成為RNA。隨著時間的積累,這些基因才漸漸開始在其他組織中表達,并進化出全新的功能來。
關于蛋白質特性的新發現也讓基因從零進化而來的理論變得更可信了。以前人們認為蛋白質必須要折疊成為一種精巧而精確的三維空間結構,才能正常發揮其功能。但是現在看來,很多蛋白質都以一種固有的無規則卷曲狀態存在著,并且在成千上萬種可能的構象狀態之間快速變換,同時還能完好地保持其功能。大約一半的人體蛋白質都有至少一大段固有的無規則卷曲片段,而10%的人體蛋白干脆從頭到尾都是無規則卷曲的。
位于布魯塞爾的弗蘭德斯生物技術研究所的彼得·湯姆帕(Peter Tompa)專門研究蛋白質的固有無規則卷曲。他推測,新出現的孤兒基因所編碼的很可能就是無規則卷曲的蛋白質,因為這種蛋白質比折疊好的蛋白質更容易生產。而無規則卷曲的蛋白質通常都在細胞信號轉導和調節之中發揮作用。“如果孤兒基因最終被發現具備調控功能,我一點也不會感到驚訝。”湯姆帕說道。
或許,這也可以解釋為什么孤兒基因會很快變得極為重要。2010年,龍漫遠教授的研究組應用RNA干擾的方法關閉了果蠅在進化上的老舊基因和新基因。他們發現,包括孤兒基因在內的新基因對于生命的重要性與老基因完全一樣(參見《科學》第330卷第1682頁)。“這與教科書上寫的是相互矛盾的。書上說編碼重要功能的基因早在遠古時代就已經形成了。”龍漫遠說到。
關于孤兒基因,還有很多未知的東西等待著我們去研究。不過人們已經開始去追尋它們的祖先來源了。對于大多數孤兒基因來說,我們之所以找不到它們所屬的家族,似乎就因為它們本就沒有自己的家族。孤兒基因萌芽之初的原始DNA是可以被回溯到的,但是作為真正的基因,孤兒基因就是它們各自家族中的最初成員。從這個意義上來說,“孤兒”這個詞用得并不合適。或許,它們應當被稱作“匹諾曹基因”——本來不是基因,卻被機遇和自然選擇的力量塑造為正常的,活生生的基因。
原文:Genes from nowhere: Orphans with a surprising story(來源:科學松鼠會,2013-03-15)