文|內莎·凱里
譯|賈乙 王亞菲
想象一下,現在你手里有一部戲劇、電影或電視節目的劇本。當然,完全可能有人僅僅把劇本當成一本書來看。但是,如果它被用來演繹成其他作品,它就會變得更有力量。在被大聲朗讀出來,甚至被表演出來時,它就不再僅是頁面上的一個個文字了。
DNA就是如此,它是最杰出的劇本。無論是從細菌到大象,還是從啤酒酵母到藍鯨,它僅使用4個簡單的字母,就攜帶了生命的所有編碼。但試管中的DNA是很無聊的,它完全沒有用處。而一旦細胞或動物開始用它進行生產的時候,DNA就會變得令人興奮。它是制造蛋白質的編碼,這些蛋白質對呼吸、進食、排泄廢物、生殖和所有其他生命特有的活動都至關重要。
蛋白質的功能是如此重要,以至于20世紀的科學家用它們來界定基因的含義——基因就是能夠編碼蛋白的DNA序列。
讓我們來懷念一下歷史上偉大的劇作家威廉姆·莎士比亞。雖然劇作家寫作時使用的英語,從他去世的那個世紀起已經發生了不小的改變。但我們仍然相信,他一定只寫了他需要演員表演出來的那些話。例如,莎士比亞不會像下面這樣寫劇本:

事實上,他只寫了畫線部分的單詞:


就是“A rose by any other name would smell as sweet(即使給玫瑰換個稱謂,它依然芳香如故)”。
但如果看看我們自己的DNA劇本,就會發現,它并不像莎士比亞那些畫了線的詞語那么清晰和緊湊。相反,每個編碼蛋白的區域就像是漂浮在“廢話海洋”上的一個詞。
多年來,科學家們無法解釋為什么我們的基因中會有那么多的DNA不編碼蛋白。這些非編碼的部分被誤會成“垃圾DNA”。但漸漸地,這個看法已經被一大堆理由逼迫得站不住腳了。
也許,轉變這一觀點最根本的原因是源于我們細胞中垃圾DNA那驚人的總量。其中一個最大的沖擊來自2001年人類基因組測序完成的時候,人們發現人類細胞中98%以上的DNA被劃入了垃圾的行列——它們不編碼任何蛋白。上面使用的莎士比亞的比喻實際上是一個精簡版的模型。在基因組里,亂七八糟的文字的比例約為前面提到的亂序劇本的4倍。每一個有意義的字母都對應著超過50個字母的垃圾文字。

人類基因組計劃
一項規模宏大、跨國、跨學科的科學探索工程,被譽為生命科學的“登月計劃”,于1990年正式啟動,美國、英國、法國、德國、日本和中國科學家共同參與,旨在揭開組成人體2.5萬個基因的30億個堿基對的秘密,破譯人類遺傳信息。2001年,人類基因組工作草圖發表,成為計劃成功的里程碑。2003年4月14日,人類基因組計劃的測序工作宣告完成。其在研究人類過程中建立起來的策略、思想與技術,構成了生命科學領域的新學科——基因組學。
還有一個類似的比喻。請想象一下,我們去參觀一家汽車廠,這家汽車廠也許非常高端,但如果看到只需要兩個人就能造好一輛炫酷的紅色跑車,而同時又有98個人在一旁無所事事的話,我們一定很驚訝。這顯然是荒謬的,那么為什么這在我們的基因組里是合理存在的?當然,你可以說從共同祖先進化而來的生物往往不是完美的——比如我們人類就確實不需要闌尾(譯者注:此觀點尚存爭議,因為有研究者認為闌尾在免疫和消化方面仍具有一定的功能)——但這次似乎不完美得有點過頭了。
事實上,在我們的汽車廠里,更可能的情況應該是:由兩個人組裝一輛汽車,其他的98個人做著其他一切使這家企業正常運轉的工作,如融資、記賬、宣傳產品、處理養老金、打掃衛生和汽車銷售等。這可能是垃圾DNA在我們基因組里更好的一種工作模式。我們可以認為蛋白質是生命所需的最終物質,但如果沒有垃圾DNA,就無法正確地生產和整合出蛋白質。確實,兩個人就能制造汽車,但他們不能保證公司能成功銷售汽車,也不能保證建立一個強大且成功的汽車品牌。同樣,如果沒有人生產汽車,就算有98個員工在展廳拖地板、磨破嘴皮子,也沒有任何意義。只有每個組件各司其職的時候,整個組織才能運轉。而這,就是我們的基因組工作的模式。
另一個來自基因組測序的令人震驚的事實是:使用經典的基因模型無法解釋人類極其復雜的解剖結構、生理功能、智力和行為。在編碼蛋白的基因數量上,人體跟簡單而微小的蠕蟲幾乎相同(均為大約2萬個)。更值得注意的是,大部分蠕蟲的基因跟人類基因可以直接等效。
當研究人員想在DNA水平上深入分析人類與其他生物到底有什么區別的時候,很顯然,基因不能提供解釋。事實上,遺傳物質只有一個特征與復雜性相關。這個唯一隨著動物復雜性變化的部分,就是垃圾DNA。一個生命體越復雜,其基因中垃圾DNA所占的百分比就越高。直到這時,科學家們才真正開始關注這個有爭議的觀點,那就是:垃圾DNA可能是生物進化復雜性的關鍵。
從某個角度看,這些數據所引出的問題是很明顯的。如果垃圾DNA不編碼蛋白,卻又如此重要,那么它們在細胞中的作用是什么?不斷出現的新發現使人們逐漸接受了垃圾DNA其實具有多種不同功能的觀點。
它們中的一些在染色體(由DNA組成的巨大分子)中形成特殊的結構,以保護我們的DNA不受損傷。隨著年齡的增長,我們染色體中的這些區域會不斷縮小,直到一個臨界程度。之后,我們的遺傳物質就變得很容易遭遇潛在的災難性重排,從而導致細胞的死亡或癌變。其他結構類型的垃圾DNA,則可以成為細胞分裂成子細胞進行染色均分時的錨點。還有一些則是絕緣結構,用于限制特定區域染色體的基因表達。
但是我們基因中很多的垃圾DNA并不僅僅具有上面提到的功能。它們確實不編碼蛋白,卻編碼另外一種分子,我們稱之為RNA。垃圾DNA里有很大一類會在細胞內建造工廠,用來幫助蛋白質的合成。其他類型的RNA分子負責將制造蛋白質所需的原料轉移到這個工廠。
另外有些垃圾DNA則來自病毒和其他微生物的入侵,它們已經如遺傳間諜般融入了人類染色體中。這些早已死去的生物殘留的遺傳物質,對人類細胞有潛在危險,有些存在于人類個體中,而有些甚至存在于廣泛的人群中。哺乳動物細胞進化出了多種機制來使這些病毒元件保持沉默,但有時候這些機制會被打破。一旦出現這種問題,它們所產生的影響可以是相對良性的,比如特定種系小鼠毛色的改變,也可以是很嚴重的,比如增加罹患癌癥的風險。
數年前,人們認識到垃圾DNA的一個主要作用其實是調節基因的表達。有時候,它在個體上會有巨大的、明顯的效果。比如,一個垃圾DNA就可以決定雌性動物能否保持正確的基因表達模式。它的作用也可以是在群體中的,一個最常見的例子是虎斑貓顏色特征的控制。在極端的例子中,這一機制也能解釋為什么有同樣遺傳性疾病的同卵雙胞胎女性,會出現截然不同的癥狀。在某些情況下,情況可以極端到雙胞胎中的一個罹患了嚴重危及生命的疾病,而另一個則是完全健康的。
成千上萬的垃圾DNA片段被認為參與進了調控基因表達的網絡。它們就像是遺傳劇本的舞臺導演一樣,只是其指導對象的復雜性是我們在劇院里無法想象的。

研究人員才剛剛開始揭開垃圾DNA龐大網絡中的奧秘和關聯的一角。這個領域仍極具爭議。在極端的情況下,有科學家聲稱這一領域中有些武斷的說法嚴重缺乏實驗證據的支持。其他有些人則覺得,有整整一代科學家(甚至更多)被困在一個過時的模型中,無法看到或者理解這個新領域。
有部分原因是,我們可以用來探索垃圾DNA功能的手段還比較落后,這有時會讓研究人員很難用實驗來檢驗他們的假設。
確實,我們對這一領域的研究時間還不長。但有時候,我們可以從實驗室的板凳和機器旁退出來,去戶外轉轉。在廣大的自然中,實驗每天都在我們身邊發生,因為自然和進化已經用了幾十億年的時間來嘗試各種變化。即使僅僅在我們這個物種出現和繁衍的時間段,也已經有足夠的時間來進行大規模的實驗測試。因此,我們可以有許多方法去開啟一段探究基因組暗物質的旅程。比如,科學家已經聚焦了一個有些奇怪但不容置疑的事實——一些遺傳病就是由垃圾DNA的突變引起的,這會是我們進入隱藏的基因組宇宙最好的起點。