曹 征,何春玲,童伴玲,曾祥有
(茂名市農作物技術推廣站,廣東 茂名 525000)
種質創新(Germplasm enhancement),又稱作前育種(Pre-breeding),是指將育種中不易利用的種質資源變成好利用的材料,將不適應的外來種質變成本地能利用的育種材料的一系列相關科研活動。種質創新不僅能夠創造新的育種材料,而且還可以拓寬育種遺傳基礎,是種質資源利用與育種的重要環節[1],具有持續周期長、人力物力財力消耗量大等特點,這使注重短期目標的育種人員望而卻步,也導致種質創新具有很強的公益性[2]。
1986 年基因組學被提出后,基因組學發展日新月異,而測序技術的發展和延伸,更是促進了生物學科“大數據”發展[3],對作物種質資源創新的研究思路、方法與技術路線產生了深刻的影響,使種質資源研究邁入了一個新的歷史發展階段。
DNA測序技術在過去的40多年發展十分迅速,從第1代測序技術到第2代、第3代乃至第4代[4],測序片段的讀長也經歷了由長到短,再由短到長的變化。技術的不斷更新改進主要集中在運行時長、讀取時間、花費、讀長、錯誤率、輸出數據運行等方面[5],而每一次測序技術的變革,都對基因組、疾病醫療、作物育種等領域產生了巨大促進作用。
第1代測序技術又叫Sanger測序技術,是由桑格(Sanger)和考爾森(Coulson)開創的鏈終止法。在1977年桑格測定了第1個全長5 375個堿基的噬菌體X174的基因組序列后[6],人類開始步入基因組學時代。研究者以此技術為基礎,在2001年完成首個人類基因組圖譜,其主要技術包括DNA的片段化、體內或體外的擴增、循環測序或聚合克隆構建、電泳檢測或循環測序[7]。
Sanger DNA測序技術經過30多年的不斷發展與完善,現在可以對長達1 000 bp的DNA片段進行測序,結果直觀可視,也可對個性化的位點進行檢測,同樣也可以任意選擇單項測序,并且對每個堿基的讀取準確率高達99.999%[8]。然而,由于成本非常高,通量低且耗費時間長,嚴重影響了其在動植物基因組測序中的大規模應用。
經過不斷改進與研發,以Roche公司的454技術、Illumina公司的Solexa、Hiseq技術和ABI公司的Solid技術為標志的第2代測序技術誕生。與第1代相比,第2代測序技術具有成本低、通量高、速度快、序列讀長短[8-10]的特點,基本原理是邊合成邊測序,主要測序過程包括文庫的構建、錨定橋接、預擴增、單堿基延伸測序、數據分析[7]。這3個技術平臺各有優點,454技術的測序片段比較長,高質量的讀長能達到400 bp,但其成本在第2代測序技術中最高,測序通量最低,現在已經停止運行;Solexa測序性價比最高,不僅機器的售價比其他2種低,而且運行成本也低,在數據量相同的情況下,成本只有454測序的1/10;Solid測序的準確度為目前第2代測序技術中準確度最高,但其數據讀長在第2代測序技術中最短,不利于進行基因組和轉錄本的拼接,利用較少。
目前,第2代測序技術使用最廣泛的是Illumina公司的測序平臺。至今,Illumina公司已經推出較多測序儀,例如Genome Analyzer、MiSeq、HiSeq 2000/2500/3000/4000/X10等,使得這個平臺的測序長度達50~300 bp,且產出數據通量和質量都非常高,是目前應用最廣泛的第2代測序技術。基于這個平臺,產生了大量物種的各種組學數據,主要包括基因組重測序、轉錄組、小RNA測序、DNA甲基化測序、染色質免疫共沉淀測序、三維基因組等。
第3代測序技術也叫從頭測序技術,核心是實時單分子測序,基本原理是DNA聚合酶與模板結合,4色熒光標記4種堿基,在堿基配對階段,不同堿基的加入會發出不同光,根據光的波長與峰值可判斷進入的堿基類型[7]。MANRAO等[11]利用附帶phi29的孔蛋白MspA,較好地控制了DNA通過的速度,使第3代測序實現了一次技術突破。HELISCOPE測序是第1個熒光單分子測序技術[12],目前,第3代測序技術主要有PacBio RSII和PacBio Sequel 2種儀器。RSII平均讀長10~15 kb,且數據質量高,但數據產出較低,平均每個月大約產生110 Gb。對于Sequel測序儀,PacBio公司聲稱其測序通量能增加7倍,但其測序讀長還不能達到RSII的水平,目前還沒有被廣泛應用。
第3代測序技術讀長遠超第2代測序技術,因此在對基因組進行De novo測序,全長轉錄本測序優勢明顯,但其單堿基錯誤率比較高(15%左右)。研究者可以通過提高測序覆蓋度,同時輔助第2代測序技術,對其進行糾正來提高堿基的準確性。
目前,利用第3代測序技術組裝的植物基因組有復活草與水稻等[13-14]。而玉米、高粱和棉花方面利用第3代測序技術,已經分析了各自的全長轉錄組,發現新基因,優化之前基因注釋的結果和鑒定可變剪接事件[15-17]。
納米孔測序技術又稱第4代測序技術,是最近幾年興起的新一代測序技術。目前,市場上廣泛接受的是Oxford Nanopore Technologies(ONT)公司的MinION納米孔測序儀,其特點是單分子測序,測序讀長較長(超過150 kb)、測序速度快、測序數據實時監控、機器方便攜帶等[18]。測序原理:將雙分子DNA連接頭部轉接器、發卡轉接器和尾部轉接器;當測序開始,頭部轉接器帶著測序分子進入由酶控制的納米孔,其后是模板序列(即待測序的DNA分子)通過納米孔,發卡轉接器保證DNA雙鏈測序;互補的序列(待測序分子的互補鏈)通過納米孔;尾部轉接器通過納米孔[18]。其在堿基修飾的檢測、實時測序監控、測得更長的read、結構變異的檢測、RNA表達分析等方面較其他NGS測序平臺具有更大優勢。
測序技術的發展,使種質創新的研究也進入了基因組學的全新時代。目前,高效的分子或基因組水平的選擇方法包括分子標記輔助選擇(Marker-assisted selection,MAS)、分子標記輪回選擇(Marker-assisted recurrent selection,MARS)與基因組選擇(Genomic selection,GS)[19]。農作物育種從馴化、選擇到應用,經歷了不同的發展階段,絕大部分作物的育種史是在孟德爾遺傳規律發現后[20]。在之前,農作物育種主要靠從野生種質資源篩選優良性狀來開展選擇與馴化工作。
隨著基因組測序技術的發展,大量的作物基因組被測序,極大地促進了以基因組為指導的全基因組育種的發展。現除了主要的糧食作物水稻、玉米、小麥等外,許多非主要農作物(油料、蔬菜作物與果類等)基因組也相繼被測序(表1),比如榴蓮完整基因組序列的發表,研究人員用第3代PacBio RSII測序儀平均讀長6.2 kb,發現了1個稱為MGLs(甲硫氨酸γ-裂解酶)的基因家族可以調節揮發性硫化合物的產生,與榴蓮獨特的氣味有關,這些發現有助于理解榴蓮產生獨特氣味的分子基礎及代謝過程,為榴蓮品種的種質創新和遺傳改良提供了參考[21]。
目前,基于大量已經測序完成的作物基因組數據,基因組學的理論和方法已被廣泛運用種質資源創新研究的多個層面,使種質資源創新發生了變革。在基于基因組學的作物育種研究過程中,產生了大量數據,例如,各種野生種質資源的基因型數據和表型數據等,這有利于深入挖掘野生種質資源,促進全基因組育種,推動種質資源創新。
作物馴化和地理起源影響作物遺傳結構、遺傳多樣性水平及馴化相關性狀形成。目前,大多數作物馴化史和起源地等問題還不清楚。近年來測序技術的發展,基于基因組重測序分析的比較基因組學研究,促進了在全基因組范圍內了解作物的馴化歷史,通過選擇谷作圖(Selection sweep mapping),可以確定受選擇的基因組區段和基因[22]。
HUANG等[23]對收集的446份野生水稻材料進行了低覆蓋度的重測序,揭示了栽培水稻秈稻和粳稻的起源及其馴化歷程。HUFFORD等[24]對35份玉米改良種、23份地方品種和17份野生種進行基因組重測序分析,揭示了玉米馴化過程中野生性狀的漸滲現象,鑒定了大量受選擇位點,表明可能是這些位點導致玉米重要形態改變。MUOZAMATRIAíN等[25]對8份栽培大麥和6份野生大麥進行重測序,通過比較基因組分析,發現野生材料中基因拷貝數變異水平比馴化種高。CAO等[26]對84份桃種質的重測序分析,確定了從西藏光核桃、山桃、甘肅桃到普通桃的分子進化路線。LIN 等[27]對360份野生與栽培番茄重測序,發現番茄的馴化與改良主要集中于兩類QTL(Quantitative trait locus,數量性狀位點),導致現代番茄比祖先中大100倍。WANG等[28]通過對20份非洲栽培水稻(Oryzaglaberrima)及94份野生近緣種(Oryzabarthii)的重測序,在分子水平上揭示了非洲栽培水稻獨立起源于尼日爾河流域。ZHOU等[29]對302份野生與栽培大豆材料重測序,通過全基因組的關聯分析,發現了一些新的與含油量、株高和表皮毛形成有關的位點。WANG等[30]通過對352份棉花的野生種和馴化種的重測序數據分析,鑒定了93個馴化清除區域,并且通過關聯分析,發現了19個與纖維品質相關的位點,闡述了對纖維選擇的亞組間不對等馴化。VARSHNEY等[31]對從45個國家收集的429份鷹嘴豆進行的基因組測序表明,地中海可能是鷹嘴豆起源主要中心區域。鷹嘴豆從地中海/新月肥沃到中亞的遷徙路線可能與東非(埃塞俄比亞)和南亞(印度)到中亞的遷徙路線平行。關聯分析還發現了262個標記和13個性狀相關候選基因。

表1 已經發表的主要作物的基因組
學者們通過對作物種質資源進行重測序分析,利用基因組學的方法,揭示了作物的地理起源與馴化歷程,鑒定了大量控制優良性狀的位點。對這些資源進行分析鑒定,不僅有助于揭示人工選擇作用下生物遺傳變異規律及物種的形成機制,可以獲得優良變異,加深對特定生物性狀的起源,變異及進化的認識,為進一步開發新的種質資源提供理論基礎和指導,從而推動作物種質資源的創新,更好地為作物品種的改良服務[22]。
種質資源是基因的載體,挖掘優異基因資源是種質資源創新的重要組成部分。隨著植物基因組學的發展,對種質資源進行全基因組分析,發掘新基因,可以推動種質資源創新,加速作物育種與遺傳改良。目前,在種質資源創新發掘新基因研究上主要用的是連鎖分析和關聯分析。
2.2.1連鎖分析 連鎖分析是基于作物家系研究的一種方法,主要是以2個遺傳背景變化差異大的材料為雙親,構建人工群體,發掘新基因。分子標記主要有RFLP(Restriction fragment length polymorphism,限制性片段長度多態性)、RAPD(Random amplified polymorphic DNA,隨機擴增多態性)、AFLP( Amplification fragment length polymorphism,擴增片段長度多態性)、SSR(Simple sequence repeats,簡單重復序列)、SNP(Single nucleotide polymorphisms,單核苷酸多態性)和InDel(Insertion/Deletion,插入缺失序列)等。
隨著測序技術的發展以及測序成本的降低,基于SNP標記構建高密度分子圖譜將會成為今后的主流。SNP標記在構建圖譜中,具有標記密度高、QTL定位精度高和區間小等優點。目前主要有2種策略:一種是首先對雙親進行深度重測序,比較分析后在高質量SNP中選擇均勻分布在基因組上標記構建SNP芯片,最后用芯片對群體進行基因分型,其預測QTL的效率非常高[32];另一種是直接對群體中所有個體進行測序構建SNP變異圖譜。例如,HUANG等[33]對150份水稻重組近交系進行低倍測序與基因分型發現,數據采集比常規的方法快20倍,主效QTL定位到了100 Kb的區間;LIU等[34]利用GBS(Genotyping by sequencing)技術對大麥的重組近交系進行測序分析,精細定位到了3個QTL,并找到相關的候選基因。
2.2.2關聯分析 關聯分析是直接利用種質資源來說明基因型與表型的關系,是研究種質資源變異、發掘新的優異等位基因的最佳方法之一,包括全基因組水平關聯分析、局部水平關聯分析和候選基因關聯分析3種方式。
CHEN等[35]對529份水稻種質資源進行重測序,鑒定了640萬左右的SNP,通過全基因組關聯分析發現了36個與控制代謝物水平相關的候選基因。LIU等[36]利用芯片數據對205份小麥種質進行關聯分析發現,5D染色體上2個基因的6個SNP與土傳小麥花葉病毒的抗性相關。LI等[37]通過對368份玉米自交系進行全基因組關聯分析,鑒定了74個控制籽粒油分積累和脂肪酸代謝的重要位點,同時結合QTL作圖分析、連鎖分析和共表達分析進行驗證。HUANG等[38]利用芯片數據對503份棉花種質的16個性狀進行全基因組關聯分析,鑒定了324個SNPs和160個候選QTL區間與上述16個性狀顯著關聯,并確定了1個與衣分相關的候選基因。WILSON等[39]用基因測序法對6個淀粉合成相關基因ae1、bt2、sh1、sh2、su1和wx1進行基因型分型,利用102份玉米自交系的關聯分析群體,通過關聯分析發現bt2、sh1和sh2與籽粒組分性狀顯著相關,ae1和sh2與淀粉糊化特性相關,ae1和sh1與直鏈淀粉含量顯著相關。RODRIGUEZ等[40]在368份番茄種質資源中,分析了SUN、OVATE、FASCIATED(FAS)和LOCULENUMBER(LC) 4個控制果實形狀基因的等位基因分布,發現其等位基因分布與番茄果實形狀分類顯著相關,并闡述了選擇在亞群分化的重要性。XIE等[41]對150份玉米自交系進行關聯分析,發現了7個SNP位點,這些位點與株高變化率和鮮質量改變率密切相關,還發現了8個與玉米耐鹽性有關的候選基因,對于玉米耐鹽性分子育種有重要意義。WU等[42]對213份小麥種質資源進行關聯分析,鑒定了6個與赤霉病密切相關的位點、3個與脫氧雪腐鐮刀菌烯醇積累相關的位點。
2.2.3連鎖分析與關聯分析相結合 由于連鎖分析與關聯分析各有優缺點,但將其相結合,可以互相彌補,并進行相互驗證,可以快速定位目標性狀的候選基因[43]。這也是一種基于種質資源挖掘新基因的重要的方法。
YU 等[44]和MCMULLEN等[45]指出構建巢式關聯分析群體是將二者結合起來的最佳方法之一,即用1個共同親本與有廣泛遺傳多樣性的其他一系列親本雜交創建重組近交系群體。例如,康奈爾大學研究者將B73分別與玉米的25個自交系雜交,構建了1個約有5 000個RIL的巢式關聯分析群體,捕獲了136 000個重組事件,后續研究者利用該群體,剖析了如葉部結構和小斑病抗性等重要農藝性狀[46-47]。黃瓜苦味基因的發掘也是基于連鎖分析與關聯分析相結合。QI等[48]對115份黃瓜的核心種質進行重測序,通過群體基因組學分析,發現在馴化過程中,由于人類對Bt的人工選擇導致栽培黃瓜苦味消失。SHANG等[49]利用關聯分析檢測Bi基因在115份黃瓜種質中的遺傳變異,發現含有Bi的基因組區段有1個效應非常顯著的SNP,其能使編碼葫蘆素生物合成第1種酶的基因產物的第393位氨基酸由半胱氨酸變成酪氨酸,從而使黃瓜苦味消失。之前,QI等[48]已經將Bt基因定位在第5染色體上包含67個候選基因的442 kb區間,其中就有包含苦味基因Bl及其2個同源基因成簇的存在于1個8.5 kb的區間。根據表達分析揭示其中的1個Csa5G157230作為Bt的候選基因,再通過局部關聯分析發現有11個強烈的信號存在于Csa5G157230的調控區域,尤其1個位于起始密碼子上游1 601 bp的1個SNP(SNP-1601)與1個大的F2群體的Bt共分離。SHANG等[49]認為對該候選基因調控區域的選擇導致栽培品種中該基因下調,使苦味降低。在大豆中,LI等[50]用構建的巢式關聯群體鑒定了139個與開花期相關的QTLs,有126個注釋的候選基因包括9個生物過程,預示著這種性狀是復雜的,包含多個生物過程而不是單純由一些主效基因控制。
長期的馴化與改良,導致現在的很多優良作物品種都遇到遺傳基礎變窄的瓶頸,迫切需要當今育種者從外源導入或引入新的優異基因。野生種和地方種的遺傳多樣性遠高于現在的栽培種。ABLE等[51]指出,針對野生種和地方種的種質創新已是研究的熱點。基因組學的發展使種質創新研究由過去的以表型選擇為主轉變為現在的以分子標記和全基因組選擇等為主,這促使外源優異基因的鑒定與利用快速發展,加快了種質資源創新。
基因漸滲是在種質創新中利用野生近緣種最重要的途徑,而基因組學的運用對種質創新起到了重要的推動作用。MUNNS 等[52]報道將二倍體野生栽培一粒小麥(Triticummonococcum)的耐鹽堿基因TmHKT1;5-A導入四倍體硬粒小麥中,可以增強其抗鹽堿能力,在鹽堿土地上生長較對照增產25%。四川農業大學在二者雜交的F2代發現1株特殊的非整倍體材料(即部分可育三倍體植株 MT-71),用其作母本,可以用來打破二者的遠緣雜交障礙[53-54]。WANG等[55]構建了黃褐棉與陸地棉的遺傳圖譜,并在漸滲群體中鑒定了14個穩定的QTL,其中有4個增加了棉花纖維的長度。進一步利用陸地棉與黃褐棉的21個BC3F2和12個與之相對應的BC3F2:3和BC3F2:4家系,鑒定了65個與纖維品質相關的QTL[56]。WANG等[57]利用水稻野生種Chaling與93-11構建了含有285個家系的導入系群體,鑒定了10個QTLs,并發現了1個抗鹽的家系QL136,結合RNA測序發現了4個候選基因與鹽抗性相關,為水稻的抗鹽育種提供了新的種質資源。而在大豆中,YANG等[58]為了解析1年生野生大豆種子大小與形狀,構建SojaCSSLP4導入系群體,其包含195個家系[58]。通過4個環境下的評價,分別有11、13、7、15、14個QTLs(片段)在種子的長度、寬度、圓度、周長、截面積等性狀被預測。對番茄來說,揮發性物質是風味的主要決定因素,而風味又一直是番茄育種的主要目標。RAMBLA等[59]利用Solanumlycopersicum和1個紅果番茄野生種Solanumpimpinellifolium為親本構建了1個重組自交系群體(鑒定了102個風味QTLs)和導入系(鑒定了85個風味QTLs),其中在重組自交系群體中鑒定的幾乎50%的QTLs在導入系群體中也鑒定到了,這些QTLs為番茄的風味育種提供了重要的線索。
通過這種基因漸滲的方法,將現代品種與地方種、老品種、野生種雜交,基于基因組資源,對雜交后代進行連續的選擇回交,消除連鎖累贅,培育攜帶目標基因或區段的導入系,再通過系間互交,從而實現重要基因和優良背景的高效組裝,提高群體遺傳多樣性,又使目標性狀定向改良,促進種質創新,培育有實用價值的品種[22]。
隨著高通量重測序技術的普及,各種植物全基因組測序的完成,為作物種質資源創新研究帶來跨越式發展[60]。中國種質資源的深度發掘還相對薄弱[61],因此,要充分利用基因組學的理論方法,對還未建立核心種質的作物,盡快建立核心種質資源庫,利用核心種質構建導入系、重組自交系、近等基因系等群體;利用高通量測序技術,在全基因組水平上對中國作物種質資源基因型分析鑒定;結合連鎖分析與關聯分析等方法,在對其表型精確鑒定的基礎上,挖掘更多適應未來育種需求的優異基因與種質資源。未來再將基因組學與轉錄組學、蛋白組學、代謝組學、表型組學、表觀組學等多組學結合,用系統生物學的研究方法來探究種質創新,挖掘優異基因,深入分析其遺傳分子機制,利用種質創新打破作物育種瓶頸,推動作物遺傳改良,加速培育新品種,進而推重中國農業的發展。