摘要:隨著高通量測序技術的不斷發展和測序成本不斷降低,高通量測序近幾年在現代農業研究領域中得到了充分應用,為新品種選育和品質改良帶來了新的科研方法和解決方案,加快了新品種的育種進程。高通量測序技術的主要應用方向包括對農作物和栽培品種進行全基因組從頭測序和深度重測序、遺傳差異分析、分子標記開發、遺傳連鎖分析、表觀遺傳分析和轉錄組分析等。本文系統闡述了近幾年高通量測序技術在農業研究中的應用進展,展示高通量測序在現代農業研究領域的廣泛應用前景。
關鍵詞:高通量測序;農業生物技術;全基因組測序;重測序
中圖分類號:Q503文獻標識號:A文章編號:1001-4942(2013)01-0137-04
雙螺旋結構的發現、遺傳密碼的破解、第一個完整基因組圖譜的繪制完成[1]讓科學家越來越認識到測序在生物學研究中的重要作用。作為最重要的分子生物學分析方法之一,DNA測序不僅為遺傳信息的揭示和基因表達調控等基礎生物學研究提供重要數據,而且在基因診斷和基因治療等應用研究中也發揮著重要的作用。
1977年Sanger等發表了利用末端終止反應的DNA測序方法,使得大規模、自動化的DNA測序成為可能,并成功地測定了包括人類基因組、水稻基因組等在內的若干生物的基因組序列[2]。隨著科學的發展,傳統的Sanger測序技術由于成本過高、通量較低、耗時耗力等缺點,較大地限制了DNA測序的應用。自2005年以來,以羅氏公司的454技術、Illumina公司的Solexa技術和ABI公司的SOLID技術為標志的高通量技術相繼誕生。高通量測序技術堪稱測序技術發展歷程的一個里程碑,該技術使得獲得核苷酸序列數據的單堿基測序費用相對于Sanger測序急劇下降,可以對數百萬個DNA分子同時測序,這使得對同一物種的轉錄組和基因組進行細致全貌的分析成為可能,隨之也給基因組學研究帶來了更多的新方法和新方案。目前,高通量測序技術已廣泛應用于動植物全基因組測序、基因組重測序、轉錄組測序、小RNAs測序和表觀基因組測序等方面。本文對高通量測序技術在農業研究中的一些具體應用進行了綜述。
1全基因組重測序
全基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序,并在此基礎上對個體或群體進行差異性分析。全基因組重測序的個體,通過序列比對,可以找到大量的單核苷酸多態性位點(SNP)、插入缺失位點(InDel,Insertion/Deletion)、結構變異位點(SV,Structure Variation),通過生物信息學手段,分析不同個體基因組間的結構差異,同時完成注釋。隨著測序成本的降低及可擁有參考基因組序列物種的增多,基因組重測序已經成為動植物育種研究中迅速有效的方法之一,在全基因組水平上進行掃描并檢測與重要性狀相關的位點,對育種研究具有重大的科研與產業價值。
11利用重測序進行進化分析及SNP篩選
Lai 等(2010)[3]對6個玉米(Zea mays)骨干自交系進行了全基因組重測序,共發現1 273 124個單核苷酸多態性位點(SNPs), 得到30 178個1~6 bp的插入缺失位點(InDels),新發現的這些SNPs和InDels提供了1個高密度的全基因組標記信息,同時也鑒定出數百個基因獲得與丟失變異(Presence/Absence Variations, PAVs)。Jiao等(2012)[4]利用高通量測序技術對來自不同區域以及不同年代的278份玉米自交系基因組進行了系統分析,闡述了現代玉米育種過程中發生的基因組遺傳變化規律,平均每個品系得到了2倍的數據,獲得了13萬億個堿基對和27 818 705個單核苷酸多態性位點的信息量。Huang等(2010)[5]利用高通量測序技術結合自主研發的基因型分析方法,對517份水稻地方品種資源進行了約1倍深度的測序,獲得了270 Gb數據,構建了高密度的水稻單體型圖譜(HapMap),鑒定了大約360萬個SNP位點。并利用373個秈稻品種對水稻株型、產量、籽粒品質和生理特征等14個農藝性狀進行全基因組關聯分析研究,通過連鎖分析鑒定的位點可解釋約36%的表型變異。Zheng等(2011)[6]對3個高粱(Sorghum bicolor)品系進行了全基因組重測序, 每株測序深度為12倍, 以已測的美國籽實高粱基因組序列為參考進行信息分析,發掘出1 057 018個SNPs、 99 948個1~10 bp長的InDels、 16 487個PAVs 和17 111 個拷貝數變異。同時, 在甜高粱和籽實高粱序列中鑒定出近1 500個序列結構差異基因,這些基因參與糖與淀粉代謝、木質素和香豆素合成、核酸代謝、脅迫應答和DNA 修復等生物學過程。
12利用重測序技術鑒定突變體突變基因
正向遺傳突變與適應性進化是創造出帶有希望性狀的新變異有機體的有力工具和途徑,高通量技術的出現,使突變體在親本株系擁有參考基因組的情況下,可以快速準確地獲得這個突變體的基因組信息,快速完成對突變位點的定位和鑒定。
Ashelford 等(2011)[7]對一個擬南芥突變體ebi-1的回交系進行基因組重測序, 隨后又通過對突變體的表達數據進行調查使得候選SNPs數目得以有效縮小,最終成功鑒定出1個在AtNFXL-2基因中引起ebi-1突變表型的SNPs 位點。該研究證實利用回交系材料可以降低遺傳背景噪音, 對其進行測序分析可有效減少候選SNPs 數目,利用二代測序技術直接對突變體和野生型測序成為鑒定突變體突變位點的直接有效的策略。主要的農藝性狀是由多基因控制的,單個基因僅引起較小的表型效應,故而對其鑒定和克隆非常困難。Abe等(2012)[8]利用基因組重測序技術分析一個日本骨干水稻栽培品種Hitomebore的7個突變體,鑒定出來包含了淡綠色葉片及半矮生突變表型相關突變位點的唯一基因組區域,該突變位點平均初定位區域為21 Mb。結果顯示,這種基于對一個分離群體中呈現有用表型植株的DNA混合后而進行的全基因組測序可以加速水稻及其他作物的遺傳改良。
2全基因組de novo測序
全基因組de novo測序也稱為從頭測序,是直接對某個物種進行基因組全測序,然后利用生物信息學方法對序列進行拼接和組裝,得到完整的物種基因組序列。基因組測序對研究物種的基因組和功能基因信息、闡明物種的進化及其生長發育具有重要的意義。植物基因組通常較大且結構復雜,利用Sanger測序來測定全基因組序列花費巨大且費時費力,大大地限制了基因組信息在農業中的應用效率,而高通量測序以成本低、通量高、快速等特點使物種全基因組測序成為可能。Huang等(2009)[9]完成的黃瓜(Cucumis sativusL)全基因組測序是世界上第一個完成全基因組測序的蔬菜作物,該工作的完成對黃瓜及其他近緣物種的遺傳改良、基礎生物學研究等具有重要的意義。 研究人員利用高通量測序技術結合Sanger方法對黃瓜進行了約72倍深度的測序,經過拼接與組裝后獲得了2435 Mb的序列,大概覆蓋了黃瓜基因組728%的區域。熊貓(Ailuropoda melanoleuca)是第一次完全采用高通量測序技術完成基因組全測序的大型物種。蘋果(Malus domestica Borkh)、金小蜂(Nasonia vitripennis, N giraulti和 N Longicornis)等多個物種的全基因組測序都是采用了新一代的測序技術。隨著新一代測序技術的飛速發展,基因組測序所需的成本較傳統技術大大降低,時間周期也大大縮短,大規模地物種全基因組de novo測序漸入佳境, 基因組學研究也迎來新的發展契機和革命性突破。
3轉錄組測序研究
轉錄組是指特定組織或細胞在某一功能狀態下轉錄出來的所有RNA的總和,包括mRNA和非編碼RNA。轉錄組測序是指通過新一代高通量測序技術對cDNA測序,利用統計相關reads數計算出不同mRNA的表達量,發現轉錄水平的SNP、新的mRNA等,該技術可以從表達水平、等位基因特異性表達、RNA編輯、含有重要信息的融合基因轉錄子、差異剪接等方面展開相關研究。Zhang等(2010)[10]用8種不同水稻(Oryza sativa L)樣品的不同組織于不同時期混合建庫,通過轉錄組技術分析了栽培稻的第1張轉錄組圖譜,結果在水稻8種組織樣品中檢測到大約27 000個基因的表達和38 000個轉錄單元,證實了約9 000個基因發生可變剪接,同時鑒定出了234個由反式剪接產生的轉錄融合基因,表明融合基因比預期的更為普遍。Wu等(2010)[11]利用采集的接種霜霉病后4~8 d葡萄葉片混合樣,通過Solexa技術測序獲得了15 249個候選差異表達基因。這些研究結果表明,基于高通量測序的de novo轉錄組分析可在非模式動植物物種, 特別是在基因組大且復雜的物種中,可有效地用于新基因的發現和新分子標記的開發。
4外顯子組測序
外顯子組是指全部外顯子區域的集合,該區域包含合成蛋白質所需的重要信息,涵蓋了與個體表型相關的絕大部分功能性變異,能夠直接發現與蛋白質功能變異相關的遺傳突變。外顯子組序列捕獲及第二代測序是一種新型的基因組分析技術,可以將感興趣的基因組區域定制成特異性的探針。相比于全基因組重測序, 外顯子組和目標區域測序更加經濟高效。 目前, 在醫學基因組學研究領域,外顯子組和目標區域測序技術已經應用到尋找人類各種疾病相關的致病基因和易感基因的研究中;而在動植物研究中,已有的報道主要集中在小鼠(Mus musculu)[12]中, 在大豆(Glycine max)[13,14]、牛(Bos taurus)[15]、果蠅(Drosophila melanogaster)[16]等物種中也有部分報道。
5小分子RNA測序
小分子RNA是一類長約20~30個核苷酸的非編碼RNA分子,其介導的轉錄后基因調控是植物中的一種新型基因調控機制。它在植物生長發育和適應外界各種環境脅迫的過程中起著非常重要的作用。植物中小分子RNA數量巨大、種類繁多,而高通量測序技術的出現大大加快了它們的發現過程。Wei等(2009)[17]對飛蝗進行了小RNAs測序。通過與miRBase數據庫比對鑒定出50個保守的miRNA家族, 并在沒有飛蝗參考基因組序列的情況下, 通過生物信息分析技術發現了185個飛蝗特有的miRNAs家族。Moxon等利用454-FLX 法分析了番茄葉片和果實中的小分子RNA表達情況,結果表明:番茄miR390 和miR1917在果實中的表達量遠高于在葉片中,而且miR1917的靶基因LeCTR1在番茄成熟過程中應答乙烯時表達量顯著下調,因此認為這2個miRNA 可能參與了番茄果實的發育過程。
新一代測序技術的誕生對分子生物學的深入研究發揮了巨大的促進作用,以新一代測序技術為基礎的轉錄組測序和全基因組測序相比,成本很低,數據量大,且不易受遺傳背景限制,可構建豐富的表達基因數據庫,為進一步研究提供重要基礎和依據。除文中所闡述的幾方面的測序外,還有表觀基因組測序、降解組測序等多樣的測序類型,本文中所羅列的試驗實例,僅僅是高通量測序在農業研究中的部分案例。現在高通量測序已被廣泛應用于以轉錄組測序等為代表的功能基因組學研究中。隨高通量測序技術而出現的數字基因表達譜(DGE)測序、小RNAs 測序、降解組測序、DNA甲基化測序、染色質免疫共沉DNA 測序等新方法為科學家們進行分子生物學相關研究提供了更多的選擇。總而言之, 高通量測序技術給基因組學研究帶來了一個高效的新平臺和巨大的發展機遇。
盡管高通量測序技術有諸多的優勢,但其局限性也不容忽視。海量測序數據的產生及分析給研究者提出了巨大的挑戰,如何充分挖掘隱藏在原始數據中的生物學意義及如何對數據進行分類、存檔成為一個亟待解決的課題。高通量測序技術不適合小規模測序,傳統的Sanger測序法無疑還是最佳的選擇,將與高通量測序技術長期并存,在短期內還不會被淘汰。另外,高通量測序技術只是研究的開端,現在我們所能解釋的生物學現象和機制還很有限,即使獲得了基因組信息,如何去解釋和應用它,仍是一個長遠的問題。參考文獻:
[1]Sanger F,Air G M,Barrell B C,et al Nucleotide sequence of bacterior phage phiX174 DNA[J] Nature,1977,265 (5596):687-695
[2]Sanger F,Nicklen S,Coulson A RDNA sequencing with chain-termination inhibitors[J]Proc Natl Acad Sci,1977,74(12):5463-5467.
[3]Lai J,Li R,Xu X,et al Genome-wide patterns of genetic variation among elite maize inbred lines[J]Nat Genet,2010,42:1027-1030
[4]Jiao Y,Zhao H,Ren L,et al Genome-wide genetic change during modern breeding of maize[J] Nat Genet,2012,44:812-817
[5]Huang X,Wei X,Sang T,et alGenome-wide association studies of 14 agronomic traits in rice landraces[J]Nat Genet,2010,42:961-967
[6]Zheng L Y,Guo X S,He B,et alGenome-wide patterns of genetic variation in sweet and grain sorghum(Sorghum bicolor)[J] Genome Biol,2011,12:R114
[7]Ashelford K,Eriksson M E,Allen C M,et al Full genome re-sequencing reveals a novel circadian clock mutation in Arabidopsis[J]Genome Biol,2011,12(3):1186-1198
[8]Abe A,Kosugi S,Yoshida K,et alGenome sequencing reveals agronomically important loci in rice using MuMap[J] Nat Bio,2012,30:174-178
[9]Huang S W,Li R,Zhang Z,et alThe genome of the cucumber, Cucumis sativus L[J] Nat Genet,2009,41(12):1275-1281.
[10]Zhang G J,Guo G W,Hu X D,et al Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome[J]Genome Research,2010,20(5):646-654
[11]Wu J,Zhang Y L,Zhang H Q,et al Whole genome wide expression profiles of Vitis amurensis grape responding to downy midew by using Solexa sequencing technology[J] BMC Plant Biology,2010,10:234
[12]Fairfield H, Gilbert G J, Barter M, et al Mutation discovery in mice by whole exome sequencing[J]Genome Biol,2011,12(9):R86
[13]Haun W J, Hyten D L, Xu W W, et al The composition and origins of genomic variation among individuals of the soybean reference cultivar Williams 82[J] Plant Physiol,2011,155:645-655
[14]Bolon Y T, Haun W J, Xu W W, et al Phenotypic and genomic analyses of a fast neutron mutant population resource in soybean[J] Plant Physiology,2011,156: 240-253
[15]Cosart T, Beja-Pereira A, Chen S, et al Exome-wide DNA capture and next generation sequencing in domestic and wild species[J] BMC Genomics,2011,12:347
[16]Wang H, Chattopadhyay A, Li Z, et al Rapid identification of heterozygous mutations in Drosophila melanogaster using genomic capture sequencing[J] Genome Res,2011,20:981-988
[17]Wei Y Y, Chen S, Yang P C, et al Characterization and comparative profiling of the small RNA transcriptomes in two phases of locust[J]Genome Biol,2009,10(R6):1-18
[18]Moxon S J R, Szittya G, Schwach F,et alDeep sequencing of tomato short RNAs identifies microRNAs targeting genes involved in fruit ripening[J]Genome Research,2008,18(10):1602-1609