
盡管其商業前景也許被夸大了,但破譯基因組的內在價值卻是不可估量:我們將有能力知道我們是誰,從哪里來,我們人類的基因和當今世界上其他生物的基因有何相同之處
如果沒有計算機處理大量的數據,包括組成我們人類自身生命體基因圖譜的30億化學單元中大多數信息,那么人類基因組奧秘的破譯將不可能發生。這場“生物信息技術”革命所提供的最重要的東西,再一次以鐵一般的事實證明了地球上所有生命的進化論原理。
不論是蛋白質還是核酸,其基因序列數據,都適合由計算機來處理,因為它們很容易被數字化,并按照它們的組成單元細分。只需要簡單的計算機程序,就能比較兩個或更多這些單元串,考察他們之間的相似度,從巨大的數據庫資料中為某一個族譜圖尋找同已知的序列群所匹配的新的序列。
近半個世紀前,人們第一次對蛋白質進行了排序,這個實驗的影響至今仍意義深遠。當時對蛋白質的測序規模都很小——比如胰島素只含有大約50個氨基酸——但是不同種類間的差異卻是顯而易見的。
我個人的興趣始于40年前這些簡單分子中的一個,那時我還在瑞典做博士后研究。血纖維蛋白肽是短的序列,相對容易純化,而且具有不同種間差異很顯著的優點。所以我們所觀察到的血纖維蛋白肽序列和它的化石記錄有很強的對應性。因此根據現存的基因序列,我們很容易就能推算出它的進化過程。
但是,生物技術的發展注定與計算機的發展密不可分。1965年,羅卜特·蘭德勒建立了第一個真正意義上的基因序列數據庫,即蛋白質序列和結構圖譜。1967年,研究人員又用數據庫描繪了一些動物和真菌的基因圖。如果讓古典生物學家來畫這些動物和真菌的分支順序的話,那結果和計算機提供的幾乎一樣,盡管計算機完全不懂比較解剖學、古生物學、胚胎學,以及這些生物體其他的非分子特征。而1970年,計算機的一次卓越創新使之可以完成氨基酸測序的組合。
當時基因測序數據的分析、破譯沿著兩個方面發展。第一種是,生物學家很自然就對不同生物體之間的聯系感興趣。他們的設想是,基因樹的所有分支基因都會產生突變,但只有很少的突變能存活下來。另一種則比較集中在所謂的橫向同源蛋白質,它們是同一生物體中由同一基因復制而產生的多個蛋白質。
兩種類型的比較顯示,新蛋白質來源于老蛋白質,就像進化論所預言的那樣。在所有生物體中,基因組中DNA片段的復制經常發生——主要是隨機分裂和重組的后果,這些復制的片段大多數注定要消失,因為任何蛋白質的基因突變產物都是多余的。偶爾有些時候,一個稍微有些改變的基因產物卻被證明具有適應環境的競爭力,于是一種新的蛋白質產生了。通常它的功能和老的很相似,但偶爾也會發生巨大的變異。
到了1978年,DNA測序開始廣泛應用。很快,新的基因數據如潮水般地淹沒了現有的蛋白質序列數據庫。另一種倉庫——Genbank庫誕生了(Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心建立和維護的)。
業余愛好者很少有能力和專業人士競爭。因此我建立了自己的數據庫,主要采用已經被破譯了的DNA序列,我稱它為新地圖。這個數據庫只有一臺非常原始的電腦和一些由一名大學生編的很簡單的程序,我們開始把新序列和以前公布的所有序列進行匹配,并由此發現了很多意想不到的關聯。到人類基因組計劃在20世紀80年代末啟動時,數據有限已不再是限制基因技術發展的一個因素,相反,對海量基因信息的管理突然之間倒成了瓶頸。
許多科學家對人類基因組計劃提出質疑。他們指出:人類基因組包含的氨基酸序列是現有基因數據庫的好幾百倍。那么如何識別這些基因?對那些以前從未發現的序列又如何去匹配?
但基因組的每個基因并不完全是一個全新的結構,所有的蛋白質都被測序也不可能——否則,不同序列的數量將遠遠超出宇宙中原子的數量。僅有很小一部分的蛋白質會被測序,通過對最開始的一小部分基因進行復制、繁殖和修正。所以,大多數的基因和基因之間是相關的。
我以前相信,生物信息技術能使我們通過序列檢查識別所有的基因。但是當第一批微生物基因組測序完成以后,大約還有一半的基因沒有被識別出來——在前100個基因組的測序完成的時候,包括人類基因組在內,未被識別的基因比例一直是這么多。甚至像大腸桿菌這樣已被研究很透徹的生物體,仍然有許多基因的功能從未被發現。
盡管如此,破譯基因組的好處是巨大的。能迅速用于治病的商業前景也許被夸大了。但其內在的價值卻是不可估量:我們將有能力知道我們是誰,從哪里來,我們人類的基因和當今世界上其他生物的基因有何相同之處。