任源 王佐惠 吳江 林彥萍
摘? ?要:全基因組選擇(Genomic Selection,GS)是估計全基因組上所有標記或單倍型的效應,從而得到基因組估計育種值(Genomic estimated breeding value,GEBV)。與傳統的標記輔助選擇(Marker-assisted selection,MAS)的最大區別在于,全基因組選擇不僅僅是一組顯著的分子標記,而且還是聯合分析群體中的所有標記,再與參考群體的表型數據建立BLUP模型進行個體育種值的預測,隨后進行人工選擇。GS的育種技術已在植物中實現。近年來許多研究表明,GS在玉米育種中已顯示出切實可見的遺傳增益。相比于傳統育種,這大大加快了玉米育種的周期,提高了選擇的效率,降低了育種的成本。對GS的影響因素及其在玉米育種中的應用現狀進行了全面的綜述,期待為玉米育種提供實用指南。
關鍵詞:全基因組選擇;玉米育種;分子標記
文章編號: 1005-2690(2019)13-0035-03? ? ? ?中圖分類號: Q789? ? ? ?文獻標志碼: B
從20世紀80年代開始,分子標記系統的開發使植物育種者和分子生物學家獲得多態性標記的數量大大增加。單核苷酸多態性(Single nucleotide polymorphisms,SNPs)已經在數量性狀基因座(Quantitative trait locus,QTL)中廣泛使用。目前已有多項研究結果表明,超過10000個不同標記系統的QTL應用于12種植物中,旨在改善具有重要經濟價值的數量性狀。最初,通過應用MAS將分子標記整合到傳統的表型選擇(Phenotypic selection,PS)中。對于簡單的性狀,MAS只選擇具有主要作用的QTL相關標記的個體,不使用與性狀無顯著相關的標記的個體。由于QTL與環境相互作用,難以在多種環境中或不同的遺傳背景下找到相同的QTL,通過使用QTL相關標記檢測來改善多基因控制的復雜數量性狀是不可行的,因此,新的MAS技術-基因組選擇(GS)應運而生。
Meuwissen等首次提出了GS育種策略,GS育種分為兩步。第一步主要是利用訓練群體的基因分型結果和表型建立最佳線性無偏預測(Best linear unbiased prediction,BLUP)模型,得到訓練的育種值(Breeding value,BV)。第二組是育種群體的基因型數據,但群體中的個體均沒有表型,基于BLUP模型和與訓練群體中的表型相關的基因組的等位基因同一性來預測育種群體的各種性狀的表現,從而得到GEBV,GEBV來源于預測群體中每個個體的基因組中發生的有用基因組的組合,并且提供了每個個體具有優良表型的估計值,即高育種值。可以根據GEBV選擇新的育種親本。
GS與傳統的MAS相比有以下優點:①GS不需要QTL定位。GS不同于連鎖和關聯作圖的策略,它不是映射單個基因效應,而是基于大量分子標記對有效育種值進行估計,理想地覆蓋全基因組。②GS更精確,特別是對于早期選擇。基因分型使用高密度分子標記,可以估計所有的QTL效應,并解釋性狀的遺傳方差形成,而MAS在性狀選擇中僅使用幾個標記,因此,GS比MAS具有更高的準確率。③GS可以縮短生長周期,加速遺傳進程,降低生產成本,GS的遺傳進程超過表型選擇的4%~25%,GS的成本低于傳統育種26%~56%。④GS的低敏感性狀選擇效率高于MAS。⑤GS的標準是育種值,每個個體的所有等位基因遺傳效應的總和,它是通過其雜交后代的平均表現來判斷的,而不是自身的表現,所以GS更準確。
玉米對全球糧食安全至關重要,隨著玉米基因組測序的完成和SNPs檢測成本變得越來越低,玉米中數以萬計的高密度SNP陣列的統計模型能夠準確地重新進行標記并與性狀關聯,結合生物信息學的成熟理論方法,再加上近年來玉米GS研究越來越多,GS在未來將成為玉米育種的關鍵技術。下面介紹GS在玉米育種中的應用進展,并提出了今后中國玉米育種的研究方向。
1? ?影響GS的因素
影響GS預測準確性的因素主要包括用于估計GEBVs的標記數、性狀遺傳力、參考群體大小、統計模型、分子標記的數量和類型、連鎖不平衡、有效群體大小、參考和預測群體的關系和群體結構。
1.1? ?GS的訓練群體
在GS預測準確性時將訓練群體分為兩部分:參考群體和預測群體,包含表型信息、分子標記數、親緣關系。在動物育種中,探討GS只是在群體連鎖不平衡背景下,這里的群體可以指牛、豬或雞等。如果預測群體由參考群體的后代組成,在進行GS時可以降低高標記密度的要求,在這種情況下,可以在預測群體上使用參考群體均勻間隔的低密度標記,并且可以通過共分離來推斷全部標記數量。因為植物經常產生同胞關系(如F1通過自交產生的F2群體就是這種同胞群體),在這樣的同胞群體中也存在QTL檢測,MAS和GS。Bernardo將來自適應×外來雜交玉米的分離后代群體F2,BC1和BC2作為模擬實驗中的訓練群體進行了比較,結果表明GS應該從F2而不是回交群體開始,即使有利等位基因的數量是在適應親本中比在外來親本中大得多。與自然群體相比,F2群體的遺傳基礎更為簡單,因為F2群體來自2個近交系,因此,親本群體規模可能小于自然群體。模擬研究表明,在適應×外來雜交中GS的群體大小NC0=144通常就足夠了。低密度標記適用于F2群體,但F2群體存在缺點:親本群體需要在每個雜交內進行不同模型的訓練;BLUP模型僅適用于來自2個親本的后代選擇,必須通過F3測交的表型值來選擇F2群體的后代,后代選擇可能只有在F3之后才能使用BLUP模型[1]。
將F2作為訓練群體通常對玉米等異花授粉植物有效。趙玉生基于6個分離種群的試驗數據,采用半對位交配設計了788個來自優良玉米育種計劃的雜交后代。在Vannesa等人的研究中,預測了255種不同玉米雜交種的標記效應,用于預測種群雜交后代的產量、開花期、開花吐絲間隔和來自5個種群中30個F2衍生系的測交后代。Wegenast等人提出將GS應用于植物育種,不僅可以在特定的雙親雜交內和不同的優良品系中,而且也可以在雜交內和雜交之間。自花授粉植物通常采用小麥或甜菜等自然群體,Würschum等人使用924個甜菜系作為訓練群體,結果表明,來自育種項目的集中表型和基因分型不同的品系的訓練群體,確實可以建立GS的穩健評估模型。Daetwyler等人證實了GEBVs對206個六倍體小麥地方品種的抗銹性預測的準確性[2]。
1.2? ?GS的預測模型
GS模型的建立主要是利用分子標記的豐富性來模擬許多微效遺傳區域。等位基因效應的估計方法包括很多,主要是最小二乘回歸、嶺回歸BLUP(RR-BLUP)、主成分分析和貝葉斯(Bayes)回歸等。最小二乘法本質上是通過全基因組關聯研究(GWAS)選擇與性狀相關的染色體片段或標記,然后估計片段的作用。RR-BLUP方法將片段效應視為隨機的效應,通過線性混合模型估計標記效應,片段效應的總和是個體的育種值。Bayes方法結合了標記效應方差的先驗分布和數據收集。經常使用的Bayes方法就是Bayes A和Bayes B,二者之間的主要區別是Bayes A允許不同標記的方差不同,而Bayes B允許一些標記的方差為0。此外,機器學習方法也可用于預測標記效果,包括支持向量機器(Support vector machine,SVM),啟動和運行森林(Booting and random forest,RF)。Ogutu等人將這些方法與GS進行了比較,結果表明:在GS中,預測值和真實育種值之間的相關性為0.547,對于SVM為0.497,對于RF為0.483,表明這些預測模型的方法優于SVM和RF[3]。
1.3? ?影響GS的其他因素
在GS方法中,預測準確性受群體大小(N),性狀平均遺傳(h2)和標記數(NM)的影響。模擬研究表明群體結構對GS的預測準確性也至關重要。
預測的準確性隨著標記密度的增加而增加。一定長度基因組的遺傳數量也直接影響遺傳標記的總信息。如果SSR(Simple Sequence Repeat)標記密度從0.25 Ne morgan-1(Ne,有效群體大小)增加到2 Ne morgan-1,預測準確度將從0.63提高到0.83。如果SNP標記密度從1 Ne morgan-1增加到8 Ne morgan-1,預測準確度將從0.69提高到0.86。盡管每個Morgan的2個Ne SSR標記或每個Morgan的8個Ne SNP標記達到最高測試密度,其準確度也沒有達到穩定水平。同時,標記數越多越容易得到連鎖不平衡(LD)標記。Combs等人發現,在雙親群體中,全基因組預測(rmp)沒有從增加標記物濃度(每12.5cm一個標記物)中獲得一致的增益。Zhao等人發現,當標記數量從100~800時,800個SNP的準確度幾乎達到穩定水平。原因是當預測準確度達到穩定水平時,基因組標記充分飽和。準確預測基因型所需的標記數量取決于標記與QTL之間的連鎖不平衡程度(LD)以及種質資源。
不同的標記類型具有不同的多態信息含量(Polymorphism information content,PIC)。比較SSR和SNP標記,發現對于相似的精確度,SNP標記需要的密度是SSR的2~3倍。
模擬研究表明,種群大小對于GS的預測準確性至關重要。Combs等人的結果表明,隨著群體大小N增加,預測精度rmp增加。在雙親玉米群體中,最高標記數NM(1213個標記)和性狀平均遺傳h2=0.30,籽粒產量的預測準確度rmp=0.19(N=48),rmp=0.26(N=96),當rmp=0.33,N=192。趙玉生觀察到,隨著群體大小的增加,預測的籽粒產量準確性也會增加,坡度沒有顯著下降。Bernardo的研究也表明,較大的群體將獲得較高的預測精度,但是F2的群體大小NC0=144通常是足夠的。
訓練群體的結構也是影響多親本群體基因選擇預測準確性的重要因素。訓練群體結構集合的方法包括隨機抽樣、單向抽樣(選擇具有最高基因型值的個體)、雙向抽樣(選擇最高或最低基因型值的個體)。雙向抽樣比隨機抽樣更有效。趙玉生觀察到單向抽樣群體中基因組育種值的準確性大幅下降,雙向抽樣是植物育種計劃中GS的有效方法。
對于同一群體中的相同性狀,對于群體大小(N)和性狀遺傳(h2)的不同組合預測準確度(rmp)將保持不變。對于h2的減少可以通過N的不成比例增加來補償(反之亦然),rmp得以保持不變。另一方面,最初低h2的性狀可以用較大的N評估,或者通過使用額外的測試資源增加性狀子集的h2。然而,即使當N、h2和NM(標記數)恒定時,不同性狀的預測準確度也不同。性狀的預測準確性低于N、h2和NM恒定的其他性狀。模擬結果表明,rmp對于產量性狀是最低的,即使h2與其他性狀一樣時,株高和倒伏的預測是最準確的,其次是開花時間。在設計訓練群體時,不同性狀可預測性的實證和經驗是十分關鍵的。
2? ?玉米育種中的GS
2.1? ?玉米中GS的起源
與其他作物相比,GS在玉米中應用最為廣泛。各國科學家分別利用玉米自交系、測交群體和雜交群體,對個體的玉米產量、籽粒含水量、代謝物含量等進行了基因組預測。玉米雜交預測BLUP模型的標記效應或親本系數是玉米GS關鍵技術。首先用于預測玉米雜交育種中的單交。基于測試的雜種數據和其親本的標記信息建立BLUP模型,通過BLUP模型預測未測試的雜種的表型和親本的標記數據。
Bernardo等致力于玉米BLUP模型的雜交預測近10年,通過RFLP標記發現理論與實際觀察的相關系數為0.668~0.800。BLUP適用于雜種優勢預測,因為該性狀具有中等遺傳力。分子標記效應的預測準確性高于系統發育關系。隨著分子標記的發展,出現了新的分子標記物,簡單的序列重復序列(SSR)和單核苷酸多態性(SNP)等被廣泛使用。Gowda等發現,玉米SSR標記對開花時間和株高的預測準確度均在0.8以上。Massman等人的研究表明,利用SSR標記,籽粒產量預測準確度為0.8,根伐數比為0.87,但親本系數對籽粒產量的預測效果僅為0.50~0.66,根伐數比為0.31~0.45,表明分子標記更適合于雜種表型預測。
科學家們發現BLUP不僅適用于雜交性狀預測,而且還適用于玉米群體的個體繁殖育種值估計,因此,BLUP可用于選擇和繁殖自交系中F2群體的個體選擇,雜種優勢預測為玉米GS擇奠定了基礎。
2.2? ?GS在玉米中的應用
近年來關于玉米GS的研究逐漸增多,Bernardo的實驗室對GS在玉米育種中的應用進行了大量的模擬和實驗,德國的Piepho和巴西的Fritscheneto也試圖在玉米育種中使用GS進行研究。GS在玉米育種包括兩個方面,雜交種的性能預測和自交系的改良。在利用GS進行自交系的改良時,兩個自交系的雙親群體的BLUP模型對雙親的后代都是有效的。玉米的GS主要涉及兩個步驟:首先,對分離的玉米群體進行基因分型并評估F3家族的測試雜交優勢,基于基因型和表型數據,根據感興趣的性狀計算與大量標記相關的育種值。不使用標記顯著性檢驗,通過最佳線性無偏預測(BLUP)將標記效應擬合為線性模型中的隨機效應。其次,兩代或三代的GS是基于一年四季或者溫室中進行的所有標記,預測的性狀值為所有標記中單個植物標記值的總和,隨后基于這些全基因組預測進行選擇。根據這些步驟,Combs將半矮稈種質基因導入美國玉米帶自交系中,發現從第1~5周期過程,GS改善了第1周期中的表型。
此外,Bernardo的結果還表明,GS改善適應性×外來雜交從F2開始的7~8個周期。Mcclosky等人證明漸近自交對GS有顯著增益,F8的自交比F2增加了72%。然而大部分的增益都是通過F5代(F8增益的95%)來實現的,F8和DH的表現相似,與這先前的研究一致。在Bernardo的研究中,訓練群體是來自2個親本的特定群體,因此BLUP模型適合于2個自交系的發育。玉米中GS的其他研究是關于多親本群體作為訓練群體。趙玉生的研究是基于半-雙列交配設計的6個分離群體的實驗數據,對于玉米來說每年可以繁殖3代,每個單位時間的選擇性較高,因此,GS對玉米育種計劃有很大幫助。這些研究結果可能作為進一步培育6個群體之間的優良玉米品系的基因組預測模型。在Windhausen等人的研究中,將255個玉米雜交種中估計的標記效應用于預測來自5個群體中每個群體的30個F2衍生系的測交雜交后代的產量,開花時間和吐絲間隔,討論了玉米雜交育種中基因組預測的注意事項:①明確定義應采用基因組預測的育種方案(群體之間或群體內的預測);②在進行交叉驗證之前對群體結構進行詳細分析;③驗證群體與訓練群體應具有密切的遺傳關系。
3? ?小結
玉米作為糧食、飼料、能源應用等多元功能于一體的作物,在全球有著廣泛的種植,但隨著世界人口的增加,玉米的需求也呈現急劇的增長。傳統育種技術顯然不能滿足玉米需求量的增加,GS由于其顯著的優勢將成為玉米育種的核心技術,但是,目前玉米的GS育種還處于發展階段,仍需要在很多方面努力。未來的工作應該集中在兩個方面:首先,應該致力于為產量和品質等各種近交系建立一個通用的預測模型。其次,植物病害以及非生物脅迫耐受性也嚴重降低玉米產量,建立抗病耐脅迫的預測模型將為玉米產量和品質性狀改善提供理論和技術支持。
參考文獻:
[ 1 ] Bernardo R.Molecular markers and selection for complex traits in plants: learning from the last 20 years[J].Crop Sci,2008(48):1649–1664.
[ 2 ] Tanksley S D,Young N D,Paterson A H.RFLP Mapping in Plant Breeding: New Tools for an Old Science[J].Biotechnology,1989,7(3):257-264.
[ 3 ] Tanksley S D.Molecular markers in plant breeding[J].Plant Molecular Biology Reporter,1983,1(1):3-8.
(收稿日期:2019-09-21)