第一份黃種人基因圖譜的繪制完成,為從更大的尺度上來了解和應對疾病提供了新的可能性或者說契機
坐落在深圳市北山道邊的深圳華大基因研究院,是深圳高新技術夢想的承載者之一。在這棟“北山工業區綜合樓”里,10月10日,該研究院和生物信息系統國家工程研究中心、中國科學院北京基因組研究所的科學家一起,完成了第一份黃種人基因圖譜的繪制工作。
“這不僅是全球第一個中國人的基因組圖譜,也是世界上超過20億人口的黃種人的第一份基因組圖譜?!鄙钲谌A大基因研究院副院長王俊博士在新聞發布會上強調。在此之前,已有兩個白種人的基因圖譜問世。
這一進展,對于主要分布在亞洲地區的黃種人整個群體來說,影響深遠。
“同樣的基因,對于不同的環境和人群,都有可能產生不同的作用;因此,對西方人的研究并不一定就適合中國人,這正是繪制出中國人自己的基因組圖譜的意義所在。”這一項目的總負責人、中國科學院基因組信息學中心暨北京華大基因研究中心主任楊煥明教授解釋說。

四個“字母”的革命
早在上世紀50年代,科學家就發現,人體細胞中雙螺旋形狀的DNA(脫氧核糖核酸),包括了幾乎所有的遺傳信息。這些遺傳信息,具體體現在DNA大分子的一個個特殊的片段上,我們將這些攜帶遺傳信息的片段稱為基因(gene);所有這些基因,就構成了人體的基因組(genome)。
從化學構成來看,每個基因,就是一段核苷酸序列;因為堿基的不同,這些核苷酸又可以分為腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四種。通常一個基因上,有幾千個甚至上萬個核苷酸。這樣,一個人的基因組,即一個人的所有遺傳信息,就是由大約30億個這樣的“字母”構成的序列。
1985年,諾貝爾獎獲得者雷納托杜爾貝科(Renato Dulbecco)在美國《科學》雜志上第一次提出了“人類基因組計劃”(Human Genomic Project,簡稱HGP),呼吁進行人類全基因組測序(genome sequence),即給這30億個“字母”排排隊,希望能夠由此揭開生命的奧秘。
1990年10月,美國政府決定出資30億美元,正式啟動“人類基因組計劃”。原本預期在2005年完成的人體全部基因序列工作,在2003年就提前完成。
其中,1999年7月在國際人類基因組組織注冊后,北京華大基因研究中心也承接了該項目中的人類3號染色體短臂上一個約3000萬個核苷酸序列的測序任務,約占人類整個基因組的1%。
當時基因測序所使用的技術,是英國桑格研究所創立人弗雷德里克桑格(Frederick Sanger)發明的雙脫氧終止法。即根據核苷酸在某一固定的點開始生長,在某一個特定的堿基處終止,不同的核苷酸長成不同的長度,在凝膠上電泳進行檢測,從而獲得DNA序列。1980年,他因此獲得諾貝爾化學獎。
這一技術雖然幫助人類開始了“基因革命”,但無論是在速度、成本還是準確度上,都存在相當的缺陷。正因如此,從上世紀90年代末開始,科學家開始不斷開發新一代的自動測序技術,以提高測序效率。
在過去短短數年中,基因測序領域的技術革新無疑是驚人的。
2007年5月,“454生命科學公司”與貝勒(Baylor)醫學院合作,完成了對DNA雙螺旋結構發明人之一詹姆斯沃森(James Watson)的基因組測序。只用了兩個月的時間,花費不到100萬美元;速度比原來提高了上百倍,成本下降了上百倍。
就以此次深圳華大基因研究院所使用的五臺美國solexa公司出品的自動測序儀為例,從開始準備到完成第一個黃種人的基因組測序,也只用了三個月的時間;不僅如此,測序的準確度,也提高了5到10倍。
“包括藥品、機器折舊和人工在內的成本,大約為四五百萬元人民幣?!鄙钲谌A大基因研究院副院長李松崗教授對《財經》記者表示。
華盛頓大學基因組學系教授、美國科學院院士梅納德奧爾森(Maynard Olson)在接受《財經》記者采訪時指出,隨著儀器的進步,已經正式開啟了對個人進行基因組測序的空間:雖然現在成本對于普通人而言依然很高,但對于許多研究機構來說,已經可以接受了。
迄今為止,全球完成個人全基因組測序的人只有三個,都是在2007年完成的。除了最新的這個不知名的中國人和上面提到的詹姆斯沃森,還有一個則是塞雷拉基因組學公司(Celera Genomics,紐約交易所代碼:CRA)的總裁克萊格文特(Craig Venter)。
從1到100
在奧爾森教授看來,單獨一個人的數據,科學上的研究意義相當有限。但他對《財經》記者指出,中國人完成黃種人的基因圖譜繪制,表明“中國已經成為基因組學這一國際科學界最活躍的領域中的一個主要參與者”。
測序的過程,包括了采血、提取DNA、將DNA打碎加接頭固定制成文庫、上機器測序以及后續的數據分析等。
在實驗室中,李松崗教授小心翼翼地拿出一片已經完成測序的樣品給《財經》記者看。透明的玻璃片上,有八條道黑色的條紋。
“每條道是測序的最小單位,每條道上可以測量幾百萬個小序列?!崩钏蓫徴f。每個序列在道上是一個點,顯微鏡上的照相機用四種不同顏色的濾光片沿著道照相。
理論上講,每條道上有三四百萬個點,一次運行大概有1到1.5G的數據,而一個人是3G的數據,用兩到三片就可以完成測定了。但實際上,在實驗中要測很多片才能保證獲得精確的基因組序列。
根據目前的人種學研究,人類分為四種,包括白種人、黑種人、黃種人和澳大利亞土著人。從生物學上看,白種人和黃種人比較接近,同黑種人差異較大。到目前為止,科學家發現,具備編碼功能的基因,僅占人類基因組的不到10%;任何兩個人之間基因上的差異,都不到0.01%。但也正是這0.01%看上去有些微不足道的差異,卻帶來了不同人種間身高、體型、膚色等各方面的差異。
因此,盡管黃種人在生物學上與白種人比較接近,在國際上已經有了白人基因圖譜之后,通過繪制黃種人的基因組圖譜,來尋找哪怕是最細微之處的差別,仍十分重要。
然而,選擇什么樣的個體作為黃種人的代表,來進行基因組測序,這是個問題。
在李松崗看來,第一個人的選擇其實并不難。雖然他不愿意透露其具體身份,但有幾個先決條件是肯定的,即這個人起碼在血統上是中國人,幾代內都沒有混血,而且沒有明顯的疾病,大致是個正常人。
困難的是如何選擇隨后的99個人,以獲得一個合理的小樣本,來反映不同人種間的差異性。
通常認為,只有獲得上百人的基因組數據之后,才可能歸納總結得到不同人種間帶有共性的差異。因為這100人的選擇,必須要考慮到整個黃種人族群的特點,包括各個民族之間的差異等;而且,從現有的人類學知識來看,有時不同民族之間的生物學差異,甚至還不如地域上的差異大。
中南大學生物技術學院一位不愿透露姓名的負責人對《財經》記者表示,以中國人的生物學特征為例,明顯地以長江為界分為南北兩派;這種遺傳上的差異,應該是漫長的歷史中天然阻隔產生的聚集效應反映在進化上的結果。
除了南北差異,中國還有不少少數民族形成隔離人群,他們和其他人群的交互很少,往往也會形成自身的遺傳特異性。
因此,在各種復雜的因素中間,如何根據一定的比例分配樣本量,選擇最能代表黃種人的99個人,還需要進一步的精心設計。
另外一個問題是,根據目前的普遍認識,疾病的發生,往往不僅取決于遺傳,也取決于環境;根據膚色或者說人種,來對基因組進行全面研究,到底能在多大程度上幫助人類對抗疾???
在奧爾森看來,利用膚色來區分遺傳特異性,將極大地增進人類對疾病的了解,從而提高應對疾病的能力。
不同人種之間在疾病上的差別,不僅表現在疾病的易感性上——比如中國人鼻咽癌患病率就相對較高,其中以廣東等地為最,即使移民到美國也一樣——同時,也表現在對藥物的反應上。例如,從總體上看,黃種人兩種主要的藥物代謝酶CYP2D6和CYP2C19的活性就低于白種人,因此使用某些心血管藥物的時候,所用的劑量就應該略微低一些。
因此,一旦了解各個人種在遺傳上的特異性,雖然還無法回避環境的影響,仍可以幫助人類更有針對性地采取預防疾病,甚至治療疾病。
實際上,深圳華大基因研究院的“炎黃100計劃”,也是與英國桑格基因組研究院合作進行的全球千人個體基因組多態性研究的一部分。
進行這一項研究的目的,就是以新一代測序設備和高性能計算機技術為支撐,通過對白、黃、黑三大人種進行大樣本的全基因組測序和序列比較,從而全面地探索人類基因組在不同人群中的多態性分布和變化規律。
解碼第一步
根據華大基因研究院的設想,也許就在十年之內,僅僅花費1000美元左右,每個人就可以得到自己的基因圖譜;從而發現自己容易得什么病,應該采取什么針對性的治療手段,以延長自己的壽命,并且提高生命質量。
但奧爾森教授提醒說,從技術上說,十年內測序技術提高到普通人都可以接受的程度,是有可能的;不過,即使得到了基因序列,也僅僅是“萬里長征”的第一步。要真正讀懂這本“天書”,要走的路還很長很長。
要讀懂基因圖譜,不僅需要先進的儀器,更需要在經驗、技能和分析能力上都兼備的研究人員。這樣的人在全世界范圍內也屈指可數。
“我們甚至現在都不知道,讀懂它到底會有多么難?!彼麑Α敦斀洝酚浾哐a充說。
哈佛醫學院基因組研究中心主任喬治丘奇(George M. Church)在接受《財經》記者采訪時也強調,要真正了解人類遺傳物質的多樣性,不僅需要得到許多人的基因序列,可能還需要了解上百萬人的遺傳背景數據。只有這樣,個性化的醫療或許才有可能。
在基因序列內的堿基序列的改變,往往會使得以其為藍本進行“翻譯”的蛋白質序列發生改變,從而影響了蛋白質的功能。
這種改變,被認為是導致生物性狀改變的直接原因。所以,找到這些改變的地點并全部進行標記,將是比排列全基因組更繁重的工作。
或許,短期之內,對于普通人而言,針對某種特定疾病進行檢測的 “單核苷酸多態性”(SNP)檢測,也許更加現實可行一些。
在幾千、上萬個核苷酸構成的基因上,只要出現一個核苷酸的變化,其表現形式就大不一樣。科學上,將這種變化稱為“單核苷酸多態性”。它是人類可遺傳的變異中最常見的一種,占所有已知多態性的90%以上。平均每500至1000個堿基對中就有一個SNP,估計其總數可達300萬個。
深圳微芯生物科技有限公司總裁魯先平對《財經》記者指出,通過SNP分析,不僅可以進行疾病易感基因定位,也可揭示人群中不同個體對不同藥物的敏感性差異,甚至可以用于罪犯身份的鑒別、親子鑒定以及器官移植中供體和受體間的配對選擇等方面。
然而,在上海翼和應用生物技術有限公司技術負責人陸炯看來,雖然現在有很多方法可以測定人對不同疾病和不同藥物的反應,但全面了解人類基因組的狀況仍是十分必要的。更何況,目前SNP測定的應用還局限在已知位點的疾病上,對不知道在哪里的疾病只能寄希望于全部測序。
“從長遠來說,充分了解基因組序列肯定會給人類提供更多的幫助;收集的信息越多,能發現的問題也就越多?!彼麑Α敦斀洝酚浾弑硎尽?/p>
因此,從這種意義上講,完成黃種人的全基因組測序,其意義不僅在于可以幫助人們預測是否會得心臟病、糖尿?。浑m然深圳華大基因研究院王俊博士已經透露,在得到100個人基因圖譜后,將初步選擇高血壓、高血糖、血脂異常、骨質疏松四種高發多基因復雜疾病,通過疾病和正常個體的比較,識別出疾病表型強關聯性遺傳多態性位點組合,以用于這些疾病的預測,并為大規模檢查黃種人特異性疾病做準備。
更重要的是,它為我們打開了一本寫著人體“遺傳密碼”的大書,哪怕現在還僅僅是扉頁。