龔達平
(中國農業科學院煙草研究所,青島 266101)
基因組學的研究可分為兩方面:以基因組測序為目標的結構基因組學和以功能鑒定為目標的功能基因組。結構基因組學是在基因組學研究的早期階段,著重進行基因作圖、序列分析以研究基因組成、定位的科學。染色體不能直接用來測序,必須將基因組分解成容易操作的較小的結構,即進行基因組作圖,獲得基因組圖譜。根據作圖使用的標志和手段,基因組圖譜可分為遺傳圖譜(genetic map)、物理圖譜(physical map)、轉錄圖譜(transcription map)及序列圖譜(sequence map)[1]。
遺傳圖譜又稱連鎖圖譜(linkage map),它是以連鎖的遺傳標記間的重組頻率確定遺傳學距離(一般用厘摩 cM 表示,即減數分裂事件中 1%的重組率)的基因組圖。早期使用的多態性標志有RFLP(限制性酶切片段長度多態性)、RAPD(隨機引物擴增多態性 DNA)、AFLP(擴增片段長度多態性);20世紀80年代后期,開始應用MS(微衛星)標記繪制圖譜。MS的出現不但提高了遺傳圖的精度,同時也成為物理圖譜上的標記,從而促進了遺傳圖譜與物理圖譜的整合;近年來,第三代的多態性標記SNP(單核苷酸多態性)標記得到大量使用。Dib等在5264個AC/TG型微衛星的基礎上繪制了人類的完整遺傳圖譜[2],平均密度是每0.6 Mb一個標記。遺傳圖譜的建立為基因識別和疾病相關基因的定位創造了條件。
遺傳圖譜的分辨率和精確度都非常有限,對于大多數真核生物來說,在進行大規模DNA測序前,需要用其它作圖方法來補充遺傳圖譜。物理圖譜是DNA序列上可以識別的標記位置和相互之間的距離(以堿基對的數目為衡量單位)的信息。這些標記包括限制性內切核酸酶的酶切位點、基因等。物理作圖方法很多,主要為以下三類:限制性酶作圖,熒光原位雜交(FISH)和序列標記位點(STS)。限制性圖譜是指DNA鏈的限制性酶切片段的排列順序,即酶切片段在DNA鏈上的定位,用于對如kb數量級的小區域做精細結構制圖。最早的物理圖譜是細胞遺傳學圖譜,通過原位雜交將基因定位在染色體各區帶上。細胞遺傳學圖用于較大片段的區域制圖;熒光原位雜交圖譜使用熒光標記的DNA探針,來探測DNA序列在染色體上位置的物理圖譜。但限制酶作圖和FISH均不能滿足快速簡單繪制大基因組物理圖譜的要求。最有效的物理作圖技術是STS作圖,其優點在于適合大規模測序并容易在染色體上定位。STS是具有位點專一性、染色體定位明確、而且可用PCR擴增的單拷貝序列。HGP在1998年完成了包含52 000個STS位標、覆蓋人類基因組大部分區域的YAC或BAC為載體構建的連續克隆系[3]。
轉錄圖譜即基因圖譜,是識別基因組所包含的蛋白質編碼序列在基因組中的位置以及基因表達模式等信息的圖譜。轉錄圖譜是以表達序列標簽(EST)為標志繪制的分子遺傳圖譜。通過從cDNA文庫中隨機挑選克隆進行測序所獲得的部分cDNA的5′或3′端序列稱為表達序列標簽,一般長為300~500 bp。EST在基因的鑒定、基因圖譜的構建以及基因表達水平分析等方面起著重要的作用。目前公共數據庫NCBI中人類的EST數量超過830萬條。EST數據的不足之處在于其不能獲得基因的完整信息,同時低豐度表達和那些在特殊環境條件脅迫下誘導表達的基因很難獲得。構建全長文庫以及利用新一代高通量的測序技術開展轉錄組測序可以提高對基因的認識。此外,必須開展全基因組測序,以獲得基因結構的完整信息,如基因在染色體上的排列順序、基因間的間隔結構、啟動子的結構以及內含子的分布等。
基因組計劃的最終目標是為了獲得生物的全基因組序列,通過測序來得到基因組的序列圖譜?;蚪M測序的基本策略主要有兩種:逐步克隆法和全基因組鳥槍法。前者是對連續克隆系中排定的BAC克隆逐個進行亞克隆測序并進行組裝。后者是在獲得一定的遺傳及物理圖譜信息的基礎上,繞過BAC克隆逐個排序的過程,將基因組DNA分解成2 kb左右的小片段進行隨機測序,輔以一定數量的10 kb的克隆和BAC克隆的末端測序,利用超級計算機進行序列組裝。這兩種方法各有利弊。逐步克隆法需要構建大片段基因組文庫和精細的物理圖譜,成本高,時間長,但組裝相對容易。全基因組鳥槍法的優點在于測序速度快,并且不需要遺傳圖譜或物理圖譜,可以在較短時間內完成對一個基因組的測序。但由于是隨機測序,需要對基因組進行高冗余測序。同時,拼接過程中對計算機技術和新算法的要求比較高。隨著計算機和測序技術的快速發展,特別是新一代測序儀的出現,大大降低了測序時間和成本[4-6]。全基因組鳥槍法已經應用在很多物種基因組測序中,如人類(美國Celera公司)、果蠅、水稻、家蠶、熊貓等。IHGSC和Celera Genomics公司分別于2001年宣布了人類基因組草圖,2003年4月人類基因組精細圖問世,2004年10月人類基因組完成圖公布[7-9]。
基因組測序完成之后,基因組研究的重心由結構向功能轉移。功能基因組學代表基因分析的新階段,在結構基因組學提供的信息基礎上系統地研究基因的功能,包括基因功能發現、基因表達分析及突變檢測等。對生物學的研究也從對單一基因或蛋白質的研究轉向多基因或蛋白質作用網絡的系統研究[10]。
[1]布朗T A.基因組2[M].袁建剛,等譯.北京:科學出版社,2002:192-218.
[2]Dib C,Fauré S,Fizames C,et al.A comprehensive genetic map of the human genome based on 5264 microsatellites[J].Nature,1996,380:152-154.
[3]Schuler G D,Boguski M S,Stewart E A,et al.A gene map of the human genome[J].Science,1996,274:540-546.
[4]Shendure J,Ji H.Next-generation DNA sequencing[J].Nat Biotechnol,2008,26:1135-1145.
[5]Branton D,Deamer D W,Marziali A,et al.The potential and challenges of nanopore sequencing[J].Nat Biotechnol,2009,26:1146-1153.
[6]Rusk N.Cheap third-generation sequencing[J].Nat Methods,2009,6:244-245.
[7]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature,2001,409:860-945.
[8]Venter J C,Adams M D,Myers E W,et al.The sequence of the human genome[J].Science,2001,291:1304-1351.
[9]International Human Genome Sequencing Consortium.Finishing the euchromatic sequence of the human genome[J].Nature,2004,431:931-945.
[10]Morot-Gaudry J –F,Lea P,Briat J –F.植物功能基因組學[M].王元英,時焦,等譯.北京:中國農業科學技術出版社,2009:17-23.