曹玲
“在生命經濟時代,擁有更多的基因資源,對這些基因資源進行認知和利用,在這樣一個新時代中就擁有了自己的優勢。”
在深圳華大基因總部的會議室里,投影儀在白板上映出一張海底世界的照片,一簇簇不同顏色、不同形態的珊瑚在海水中搖晃,其間并沒有魚兒以及其他動物。華大基因生物多樣性基因組研究專家張國捷問大家:“你們猜猜圖里大概有多少個物種?是千是萬還是百萬級別?”
不同背景、不同學科的人給出了不同的答案。張國捷說:“如果我們把這一塊區域所有生物加起來的話,有上百萬的物種在這里生存。”
“生物不是一個單獨存在的個體,任何個體都要和其他個體以及物種結合在一起,共同組成大的生物系統,這個系統經常會受到氣候、環境的影響,改變整個地球物種分布的格局。生物多樣性要理解自然界中生物是什么樣的組成,它是一個很古老的學科。”張國捷說。他是華大基因生物多樣性基因組學研究帶頭人,也是丹麥哥本哈根大學副教授。定義上來說,生物多樣性是指在一定時間和一定地區所有生物(動物、植物、微生物)物種及其遺傳變異和生態系統的復雜性總稱。它主要包括遺傳多樣性、物種多樣性、生態系統多樣性三個層次。
如果把歷史追溯到文藝復興時期,研究生物多樣性的人當時被稱作博物學家、自然歷史學家或者自然科學家,他們的工作是采集、收集各種有趣、珍奇的標本。最初這樣做更多出于獵奇,之后逐漸形成了系統的調查,出現了很多耳熟能詳的名字,比如林奈、洪堡、梭羅、拉馬克、達爾文等等。
地球上的生命讓人眼花繚亂。放眼炙熱沙漠,冰凍雪山以及馬里亞納海溝,生命無處不在。細菌、蚊子、鯨、蘑菇、暴龍的共同之處在于它們都由DNA組成,DNA掌握著造就地球上每一個生命的密碼。在人類基因組計劃完成之時,人類終于讀到生命之書,開始學習上帝創造生命所使用的語言。繼而,人類著手揭開其他物種的基因密碼。在過去若干年里,華大基因測序的對象包括:大熊貓、水稻、桑蠶、大豆、牦牛、藏羚羊、蘭花、黃瓜、家雞、人類腸道微生物、高智商人群,還有在格陵蘭發現的一個4000年以前的古人等成千上萬個不同的物種。
華大基因的目標似乎是窮盡世間萬物,掌握所有生物的基因。在深圳東南部大鵬新區下沙片區禾塘仔的一座白色階梯狀建筑里,華大基因正準備朝這一目標奮進。這里將會儲存各種生物樣本,進而進行測序,建立一個數字化的生物王國,這是深圳國家基因庫之所在。國家基因庫于2011年由國家發改委等部委批復,依托華大基因組建、運營,存儲管理我國特有遺傳資源、生物信息和基因數據,于今年9月22日正式開庫。
“基因庫是真正的國庫,比銀行的金庫還要寶貴。在農業經濟時代擁有更多的耕地,就意味著你擁有了優勢;在工業經濟時代擁有更多的能源,你也具有了相應的優勢;在生命經濟時代,擁有更多的基因資源,對這些基因資源進行認知和利用,你在這樣一個新時代中就擁有了自己的優勢。”國家基因庫主任、華大農業集團董事長兼總裁梅永紅說。
大鵬新區位于深圳東南部,東西臨海,南北環山,遙望香港新界,是深圳的“黃金海岸”。這里山地多平地少,森林覆蓋率超過76%,整個大鵬半島被稱為深圳最后的“桃花源”。
國家基因庫從外形上看成臺階形,這樣的造型是有來歷的。2002年4月5日,《科學》雜志以14頁的篇幅發表了華大基因《水稻(秈稻)基因組的工作框架序列圖》,封面是秀美的云南紅河哈尼梯田,國家基因庫建筑的外形基本就是參照龐大的哈尼梯田設計的。據華大基因研究院院長、國家基因庫執行主任徐訊介紹,基因庫倚靠山體的自然坡度進行建設,每一層都相當于是第一層,有山體結構的支撐,穩固性非常好,可以擺放一些較重的設備。
從國家基因庫6樓的露臺望去,對面是茂密的青山,遠處能看見海。基因庫選址大鵬還有一個考慮,因為山后面是LNG(液化天然氣)碼頭,液化天然氣運輸到此的時候是液態,要變成氣態輸送至千家萬戶,這個過程需要汽化,汽化會產生大量的冷能。如果冷能直接釋放到海里將導致海洋溫度改變,引起生態系統的變化。“如果把冷能直接輸送到國家基因庫用于冷卻樣品,每年能節約三分之二的電費。”徐迅說。
此外,深圳正在全力推進“東進戰略”,將在深圳東部沿海大鵬半島規劃建設國際生物谷,并將其打造成為國際領先的生物科技創新中心,國家基因庫是大鵬新區的重要產業基礎設施。
據徐迅介紹,國家基因庫一期的目標存儲規模是3000萬份樣本,二期目標準備動工,打算在對面山里打一個隧道用于儲存樣本,把儲存能力提高到3億。“山區地形推平蓋樓成本太高,而且山洞保藏樣品的能量耗散低。”他們前期做了很多調研,認為這種方式是最有價值的。比如挪威的末日種子庫建設在挪威永凍土的山洞里,基本不需要外來的能量就能保持低溫0~4攝氏度,利于保存種子。
在國家基因庫里,你看不到琳瑯滿目的動植物標本,基因庫里保存的樣本是組織、血液、尿液等。動植物標本、石蠟切片等在常溫下保存;唾液、脫落細胞需保持于4攝氏度環境中;干血片、種子、DNA(中短期保存)需在-20攝氏度環境保存;微生物、血漿/清、蛋白、DNA、RNA等保存溫度要達到-80攝氏度。保存溫度最苛刻的是細胞和組織,需要-200攝氏度的液氮或氣相液氮環境。
在這里,能看到的絕大部分是專業儀器和密封倉庫,比如基因庫3樓擺放著華大基因自主研發的150臺BGISEQ-500基因測序儀,以及一臺造價2000萬美元的Revolocity超級測序儀。這些價值數億元的設備,未來將每天產生大量的數據,通過4樓的數據中心以及與基因庫合作的云平臺,面向全球的科研機構、企業。這一切都將以一種肉眼看不到的方式,靜悄悄地進行。
一個巨大的數據庫將會生成。深圳國家基因庫是繼美國國家生物技術信息中心(NCBI)、歐洲生物信息研究所(EBI)、日本DNA數據庫(DDBJ)之后世界上第四個國家級基因庫,其他三個數據庫的主要功能是保存數據,而深圳國家數據庫不僅會源源不斷地產生數據,而且更加注重對于數據的研發和利用。“我們希望打造中國乃至世界最大的生物信息數據中心,像是生命健康數據領域的谷歌。”徐迅說。
國家基因庫已實現對基因信息數據總量達60PB的訪問支持,在9月22日正式營業當天,將有5PB的數據正式對外發布,提供數據檢索和查詢功能。數字化中心一年會有2PB左右的產量,這意味著一人一天看一部電影大概要看1萬年。“我們的目標要做成10PB的年產量,以最高通量來算,一年要產生100萬人的數據。”
第一批入庫樣本基本以疾病和物種多樣性為主。徐迅介紹了三個和疾病相關的重要數據庫。第一是罕見病數據庫,華大基因已經測了將近3000個罕見病家庭,新發現了400種罕見病基因。“很多藥物最早都是針對罕見病基因開始的,而基因和基因之間通過網絡和通路相互作用,后來發現針對罕見病基因的藥物能治療的疾病越來越多。”他相信,基因庫的數據庫公開之后,訪問最多的會是研究藥物和疾病的研究機構。
第二個是癌癥數據庫。癌癥是基因病,細胞的基因突變促使癌癥產生。“我們一直以來都是國際癌癥組織聯盟的成員,現在國際癌癥組織所有的數據信息也存在于即將開業的基因庫里,開業之后我們會提供全球的癌癥數據,癌癥數據庫里存儲了近上萬份的不同類型和系統的癌癥數據,這對未來疾病的診斷和治療也有很大的意義。”他預計,癌癥數據庫會是未來訪問最頻繁的一個數據庫。
第三是大規模人群隊列的數據庫。“因為不同民族、不同區域的人群基因背景不一樣,這意味著疾病發病的情況也不相同,用藥情況會有差別,所以這種區域性的隊列數據不管是對技術科研還是應用來講都有很大意義。”
科學家通過測序可以了解到疾病與特定基因的關系,最為人熟知的例子是美國影星安吉麗娜·朱莉。她有癌癥家族遺傳史,她的母親、外婆和姨媽都因癌癥去世。朱莉通過基因檢測知道自己有87%的可能性患上乳腺癌,50%的可能性患卵巢癌,從而選擇提前預防,切除了自己的乳腺和卵巢。
梅永紅說:“目前我們國家提倡精準醫學,精準醫學恰恰建立在對人和與人相關的外源性生物物種認知的基礎上,我們要通過基因測序來了解遺傳規律、醫學范式,這時能否擁有更多的基因資源、能否掌握更多的遺傳規律就非常關鍵,未來精準醫學的發展和競爭在某種程度上取決于我們具有的基因資源,以及認知基因資源的能力。”
國家基因庫的主要功能是“三庫兩平臺”,三庫即生物信息數據庫、生物樣本資源庫、生物活體庫,兩平臺即數字化平臺、合成與基因編輯平臺,這是國家基因庫作為一個國際級平臺應當具備的功能。梅永紅說:“我國國家基因庫的建設雖晚于發達國家,但它相當于國外多個樣本庫和基因庫的集合,既有保存動植物、微生物和人類組織細胞等樣本的‘濕庫,也有匯集人類各種生物信息的‘干庫,還引入了‘活庫,即活體生物庫,是全球最大的綜合性基因庫。”
至于為什么把這樣一個規模龐大的國家基因庫交給華大基因進行建設,梅永紅說他曾經思考過這個問題。“我們國家有那么多的科研機構,那么多大學,那么多做得好的國有企業,為什么要把這樣一個國家級的平臺建設交給華大?”在他看來有幾個原因:第一,華大是全球最大的基因測序公司,建國家基因庫并不僅僅是收集和保存基因資源,更要得到應用,需要有數字化的過程,華大在解讀基因遺傳密碼方面是全球領先的。第二,華大從1999年創立以來,通過參與人類基因組計劃到今天,已經成為全球擁有基因數據量最大的機構,產出的人類基因組數據一度占到全球的47%,而且產出超過70%的全球農業基因組數據,華大所擁有的這些數據對國家基因庫特別是數據庫來說,是非常重要的資源。第三,華大基因作為一個民辦官助的新型研究機構,在利用這個資源方面可能比我們體制內的機構具有更好的條件。
對于研究生物多樣性的張國捷來說,深圳國家基因庫還有自己的特殊之處。“全世界的基因組研究機構中,只有華大提出將生物多樣性研究作為重要方向,所以可以說這是世界上唯一一個以生物多樣性研究為最主要研究目的的大型基因組研究中心。”通過方向性的戰略規劃,他們已經和全世界200多個博物館、動物園、動物保護區建立了長期穩定的合作關系。
“我們要研究生物,研究基因組學,其中一個最核心的問題就是生命之樹什么樣。這不光能解釋人類從哪里來,還要回答生命從哪里來,究竟是如何產生這個多姿多彩的世界。過去科學家用肉眼去觀察化石、標本,如今我們用一種更新的技術——基因組學去揭示物種之間更深刻的聯系,了解物種如何適應環境,解答基礎的生物學問題。”張國捷說。他穿著一件黑色的短袖T恤,前面的圖案是達爾文的進化樹,后面印著《物種起源》最后一句話的英文原文。
“我們沒辦法一下子把全世界的物種都數字化,但我們可以根據我們的目的,針對所要回答的科學問題,側重性地選取一些物種進行研究。”他說。
2014年,他和國際鳥類基因組聯盟的研究人員通過基因組研究揭示了鳥類的秘密。當年12月,美國《科學》及其他雜志以專刊的形式,公布了迄今為止最可靠、最全面的鳥類“生命之樹”。張國捷等人從分子生物學角度揭示了“鳥是如何成為鳥的”。為回答這些問題,他領導的國際鳥類基因組聯盟對48個鳥類物種進行基因組測序、組裝和全基因組比較分析,這些鳥類物種包括烏鴉、鴨、隼、鸚鵡、企鵝、朱鹮、啄木鳥和鷹等,囊括了現代鳥類的主要分支。
結果表明,鳥類是6500萬年前白堊紀物種大滅絕事件中的幸存者,那次事件滅絕了地球上的恐龍,只有部分鳥類的祖先存活了下來。而基于基因組數據的新研究表明,恐龍滅絕后1000萬年至1500萬年間,鳥類經歷了一次“超級物種大爆發”,后來逐漸演化出了1萬多種被稱為新鳥綱的鳥類,95%的現存鳥類來自這一新鳥綱鳥類。
研究還發現,與其他脊椎動物相比,鳥類的基因組要小很多,大約只有哺乳類平均大小的30%~40%,而且相比哺乳動物,鳥類基因組也更加穩定,基因組重排現象要少得多。同時研究人員還發現,鳥類的祖先從爬行動物中分化出來后丟失了成百上千的基因,比如牙齒相關基因的丟失解釋了為何現存所有鳥類都沒有牙齒,卵巢發育相關基因的丟失解釋了為何鳥類只有單一功能的卵巢。“這是非常有趣的發現。人們通常認為,生物演化出新特征依靠的是產生新的遺傳物質,而不是基因的丟失。”張國捷說。
目前,他們和世界眾多博物館合作,計劃把全世界所有的鳥類,以及過去400年內滅絕的鳥類進行數字化。這個項目推行得比較順利,保存在美國自然歷史博物館和各種博物館的鳥類已經達到8000多種,如果進一步降低測序成本很快可以實現他們的目標。
測序可以回答很多問題。“比如,不同鳥類之間有什么關系?為什么很多鳥在不停地遷徙?為什么有些鳥可以飛,有些不能?為什么有些鳥類一感染禽流感馬上就死亡,有些鳥類卻可以抵御禽流感?鳥類祖先進化到現在有1.5億多年的歷史,如此長的歷史過程中,地球發生的歷史事件如何影響到鳥類的分布和分化?氣候變化對鳥類的分布格局有什么影響?”
正如同人類剛剛擁有幾臺計算機時,無法想象數字技術能夠引發怎樣的社會、經濟和科學領域的變革一樣,當人們確定最初幾個基因組時,也沒有想象到未來會發生什么樣的變化,要如何期待、如何迎接這樣的變化。如今,隨著測序技術的發展,這個前景越來越清晰,基因測序將和每一個人發生關系,基因庫將成為真正意義上的“國庫”。