焦宇馨 張宇翔 楊文艷 經思宇 尹玉琳 劉暢 王欣 徐辰武 徐揚
摘要: 多性狀聯合全基因組選擇能夠有效利用性狀間的遺傳相關和環境相關,有望提高表型預測的準確性。本研究提出了結合輔助性狀的全基因組選擇策略,以來源廣泛的342份玉米自交系為試驗材料,對其進行基因分型測序(GBS)并分析其農藝性狀,對每個目標性狀均基于輔助性狀及其組合進行預測,利用五倍交叉驗證法評價其預測力。結果表明,利用與目標性狀相關性較高的輔助性狀可較大程度地提升預測力,尤其是對于低遺傳力性狀;隨著輔助性狀個數的增加,預測力也隨之增加。進一步比較了5種統計模型結合輔助性狀的全基因組選擇的表型預測力,總體而言,再生核希爾伯特空間(RKHS)模型和貝葉斯B(BayesB)模型的預測效果較優,而極端梯度提升(XGBOOST)模型的預測效果較差。本研究結合輔助性狀有效提高了玉米全基因組選擇的預測準確性,為玉米的全基因組選擇育種提供新的思路和參考。
關鍵詞: 玉米;全基因組選擇;輔助性狀;預測力
中圖分類號: S513;Q943 文獻標識碼: A 文章編號: 1000-4440(2023)02-0313-08
Predictability of maize genome-wide selection combined with auxiliary traits
JIAO Yu-xin1,2, ZHANG Yu-xiang 1,2, YANG Wen-yan1,2, JING Si-yu1,2, YIN Yu-lin 1,2, LIU Chang1,2,WANG Xin1, XU Chen-wu1,2, XU Yang1,2
(1.Jiangsu Key Laboratory of Crop Genomics and Molecular Breeding/Key Laboratory of Plant Functional Genomics of the Ministry of Education/ Jiangsu Key Laboratory of Crop Genetics and Physiology, Agricultural College of Yangzhou University, Yangzhou 225009, China;2.Jiangsu Co-innovation Center for Modern Production Technology of Grain Crops, Yangzhou University, Yangzhou 225009, China)
Abstract: Multi-trait genomic selection can use genetic and environmental correlations between traits, which holds great promise to improve the prediction accuracy. This study proposed a genomic prediction strategy using auxiliary traits. A total of 342 maize inbred lines from a diversity panel were used as test materials. Genotyping by sequencing (GBS) was performed and six agronomic traits were measured in the field. Each target trait was predicted based on auxiliary traits and their combinations. The predictability was evaluated using five-fold cross-validation. The results showed that the use of auxiliary traits highly correlated with target traits greatly improved predictability and low-heritability traits could benefit more from auxiliary traits. As the number of auxiliary traits increased, the predictability also increased. We also compared the prediction performance of five different models combined with auxiliary traits. Overall, reproducing kernel Hilbert space (RKHS) model and BayesB model performed well, while extreme gradient boosting (XGBOOST) model performed worst. This study improves the accuracy of genomic prediction and provides new ideas and references for genomic selection breeding of maize.
Key words: maize;genomic selection;auxiliary traits;predictability
玉米是中國最重要的糧食作物之一,為保障國家糧食安全作出重要貢獻。“十二五”以來,中國培育了一批優良的玉米品種,其豐產性和穩產性得到了明顯提升[1]。然而與一些發達國家相比,中國玉米平均單產偏低,生產成本高,競爭力不強。中國玉米育種仍以常規技術為主,存在預見性差、周期長、效率低等突出問題[2]。隨著高通量測序技術的不斷發展,全基因組選擇育種技術已成為玉米精準育種的重要手段和發展方向。
全基因組選擇(GS)是根據訓練群體基因型與表型間的關聯構建統計模型,從而對未知表型的候選群體進行表型預測和選擇[3]。GS在獲取樣本基因型時就可對其育種值進行評估,能夠大幅提升選擇準確性和育種效率,縮短育種周期,實現從經驗育種至精準育種的飛躍[4]。一些發達國家玉米商業化育種起步相對較早,全球種業企業如科迪華公司等已運用GS技術提高玉米品種選育效率??频先A公司和先正達公司利用全基因組選擇技術分別培育的抗旱玉米品種AQUAmax和Artesian已進入市場。國際玉米小麥改良中心在全球玉米育種計劃中納入全基因組選擇[5]。GS技術雖然為玉米育種提供了新的契機,但是對受環境影響較大的數量性狀來說,其預測準確性仍較低[6-7]。GS方法的改進一直是GS研究的重要課題,也是對品種進行精準選擇的關鍵。
目前GS通常針對單個性狀進行預測和選擇,而忽視了多個關聯性狀間的遺傳基礎[8]。多性狀聯合GS不僅能夠獲取性狀間的遺傳相關,還能獲取性狀間的環境相關,有望提升表型預測的準確性,尤其是一些低遺傳力的性狀[9-10]。在育種研究中,可能會面臨一些性狀難以測量或觀測成本高昂的問題,可以考慮結合較易測量的性狀去輔助預測較難鑒定的性狀。本研究擬以來源廣泛的342份玉米自交系為試驗材料,對其進行基因分型測序(GBS)并分析產量相關性狀,開展結合輔助性狀的全基因組選擇研究,利用交叉驗證評估結合不同輔助性狀的全基因組選擇預測的效果,進一步比較5種不同統計模型對預測準確性的影響,以期為提高玉米全基因組選擇的準確性提供技術支撐。
1 材料與方法
1.1 供試材料與試驗設計
試驗材料為342份來自熱帶、亞熱帶和溫帶的玉米自交系。試驗材料于2015年、2016年和2017年在海南省江蘇南繁中心種植。田間試驗采用隨機區組設計,2次重復,每份材料重復種植2行,行長3.00 m,行距0.50 m,株距為0.25 m。
1.2 基因型分型與表型鑒定
在玉米成熟期,每份材料隨機選取6株測量株高(PH),并選取6個長勢一致的果穗,測定穗行數(ERN)、行粒數(KNR)、穗長(EL)、穗粗(ED)、穗粒質量(KW)。利用R語言lme4軟件包,計算3個環境(2015年、2016年、2017年)下表型數據的最佳線性無偏估計值用于后續分析。性狀廣義遺傳力的計算公式為:H2=σ2g/(σ2g+σ2ε/l),式中,σ2g為遺傳方差;σ2ε為殘差方差;l為環境個數,方差由R語言lme4軟件包估計。對全部自交系進行基因分型測序(GBS),根據質控標準最小等位基因頻率(MAF)>0.05及缺失率<10%,過濾后獲得108 193個單核苷酸多態性(SNP)標記用于后續分析。
1.3 結合輔助性狀的全基因組選擇預測模型
本研究所使用的基因組最佳線性無偏預測(Genomic best linear unbiased prediction,GBLUP)模型如下:
其中,m為全部標記數目;Zk為n個個體在第k個標記的基因型向量;K為親緣關系矩陣;φ2為多基因方差,方差組分可由限制性極大似然法估計。
進行輔助性狀的全基因組選擇預測時,所有輔助性狀的表型值均需要進行標準化和中心化,輔助性狀為某一單一性狀或不同性狀的組合。
1.4 模型比較
本研究進一步比較了5種統計模型進行輔助性狀全基因組選擇預測的效果,5種統計模型包括基因組最佳線性無偏預測(Genomic best linear unbiased prediction,GBLUP)模型、再生核希爾伯特空間(Reproducing kernel Hilbert space,RKHS)模型、最小絕對收縮與選擇算子(Least absolute shrinkage and selection operator,LASSO)模型、貝葉斯B(BayesB)模型、極端梯度提升(Extreme gradient boosting, XGBOOST)模型,所有計算運用R語言包predhy實現。其中XGBOOST模型的學習率設置為0.07,迭代次數設置為1 000;RKHS模型采用多核模型,迭代次數設置為1 500,老化(BurnIn)設置為500,其余參數均采用默認值。
1.5 預測力評估
本研究基于五倍交叉驗證法評估預測力,即將樣本隨機劃分為5等份,將4份作為訓練集,1份用作驗證集。預測力采用預測值與實際觀測值的決定系數表示。為了避免隨機干擾,重復交叉驗證過程20次,以預測力的平均值作為評價預測準確性的指標。
2 結果與分析
2.1 農藝性狀的描述性統計及相關分析
對玉米自交系的6個農藝性狀[穗行數(ERN)、行粒數(KNR)、穗粗(ED)、穗長(EL)、株高(PH)、穗粒質量(KW)]進行描述性統計分析,結果(表1)表明,所有農藝性狀在自交系間均有豐富變異,變異系數都高于0.10,其中KW的變異系數最高,為0.30,ED的變異系數最低,為0.11。遺傳力分析結果表明,6個農藝性狀的遺傳力變化范圍為0.33~0.66,其中KNR的遺傳力最低,ERN的遺傳力最高。對6個農藝性狀進行相關分析,表2顯示,除ERN與EL、ED與KNR之間不存在顯著相關外,其余性狀間均存在顯著正相關,其中KW與KNR的相關系數最高,達到0.650。
2.2 結合輔助性狀的全基因組選擇預測力
為了研究結合輔助性狀的玉米全基因組選擇的預測效果,本研究基于GBLUP模型,對每個目標性狀采用輔助性狀及其組合的全基因選擇的預測,利用五倍交叉驗證法評價預測力,并與目標性狀自身全基因組選擇的預測效果進行比較。結果(圖1、圖2)表明,大部分輔助性狀及其組合均可提高目標性狀的預測力。預測ERN時,單一輔助性狀中,以ED為輔助性狀時預測力最高,為0.560,以PH為輔助性狀時預測力最低,僅為0.367;多性狀輔助預測時,以ED、EL和KNR聯合輔助時的預測力最高,為0.590。預測KNR時,單一輔助性狀中,以KW為輔助性狀時預測力最高,為0.477,以ED為輔助性狀預測力最低,僅為0.105;多性狀輔助預測時,以ERN、ED、EL、PH、KW聯合輔助時的預測力最高,為0.683。預測ED時,單一輔助性狀中,以KW為輔助性狀時預測力最高,為0.591,以EL為輔助性狀時預測力最低,為0.377;多性狀輔助預測時,以ERN、KNR、EL和KW聯合輔助時的預測力最高,為0.779。預測EL時,單一輔助性狀中,以KNR為輔助性狀時預測力最高,為0.581,以ED為輔助性狀時預測力最低,為0.280;多性狀輔助預測時,以ERN、KNR、ED、PH、KW聯合輔助時的預測力最高,為0.639。預測PH時,單一輔助性狀中,以KW為輔助性狀時預測力最高,為0.449,以ERN為輔助性狀時預測力最低,為0.394;多性狀輔助預測時,以KNR、EL和KW聯合輔助時的預測力最高,為0.452。預測KW時,單一輔助性狀中,以KNR為輔助性狀時預測力最高,為0.625,以PH為輔助性狀時預測力最低,為0.366;多性狀輔助預測時,以KNR、ED、EL和PH聯合輔助時的預測力最高,為0.848。對于ERN、KNR、ED、EL、PH和KW,與未結合輔助性狀的目標性狀本身預測力相比,采取最佳輔助性狀組合預測時,預測力分別提高了0.212、0.577、0.373、0.345、0.060和0.526。從結果中可以發現,基于那些與目標性狀相關性較高的輔助性狀,可在較大程度上提高預測力。例如,KW與KNR的相關系數最高,基于單一輔助性狀預測KW時,以KNR為輔助性狀的預測力最高,而預測KNR時,以KW為輔助性狀的預測力最高;ED與KNR不存在顯著相關,基于單一輔助性狀預測ED時,以KNR為輔助性狀的預測力低于ED自身預測力,預測KNR時,以ED為輔助性狀的預測力也低于KNR自身預測力。
2.3 輔助性狀數目對全基因組選擇預測力的影響
為了了解輔助性狀數目對目標性狀全基因組選擇預測力的影響,本研究評估了采用1至5個輔助性狀全基因組選擇的預測力,結果(圖3)表明,對于所有目標性狀,隨著輔助性狀數目的增加,預測力提高。對于ERN、KNR、ED、EL、PH和KW,相比目標性狀自身全基因組選擇預測力,采用1個輔助性狀時,平均預測力分別提高了12.95%、139.36%、13.74%、32.82%、6.76%和52.53%;采用2個輔助性狀時,平均預測力分別提高了27.29%、271.27%、35.54%、66.64%、9.98%和93.39%;采用3個輔助性狀時,平均預測力分別提高了39.22%、387.38%、56.93%、93.96%、11.80%和124.53%;采用4個輔助性狀時,平均預測力分別提高了47.51%、480.42%、75.60%、111.30%、12.48%和147.44%;采用5個輔助性狀時,平均預測力分別提高了53.03%、546.76%、91.12%、117.56%、12.63%和163.67%。
2.4 不同GS模型對全基因組選擇預測力的影響
上述研究結果表明,采用GBLUP模型結合輔助性狀全基因組選擇時,對目標性狀預測力有較大幅度提升,為了探究合適的預測模型,本研究進一步比較了GBLUP、BayesB、LASSO、RKHS和XGBOOST這5種GS模型對于結合全部輔助性狀全基因組選擇對目標性狀的預測力。結果(圖4)表明,預測ERN時,BayesB、GBLUP、RKHS模型預測效果最優,預測力分別為0.604、0.596和0.594,LASSO、XGBOOST模型預測效果較差,預測力分別為0.510和0.497;預測KNR時,RKHS模型預測效果最優,預測力為0.714,XGBOOST模型預測效果較差,預測力為0.534;預測ED時,BayesB、RKHS模型預測效果最優,預測力分別為0.795和0.789,XGBOOST模型預測效果最差,預測力為0.617;預測EL時,RKHS、BayesB、GBLUP模型預測效果最優,預測力分別為0.648、0.646和0.637,XGBOOST模型預測效果最差,預測力為0.513;預測PH時,RKHS、BayesB、GBLUP模型預測效果最優,預測力分別為0.472、0.464和0.453,LASSO模型預測效果最差,預測力為0.367;預測KW時,RKHS模型預測效果最優,預測力為0.845,XGBOOST模型預測效果最差,預測力為0.756。總體而言,RKHS模型和BayesB模型的預測效果較優,XGBOOST模型的預測效果較差。
3 討論
本研究開展了結合輔助性狀的玉米GS預測力研究,有效提升了全基因組選擇的準確性,主要原因是該策略能夠利用性狀間的相關性,因此預測效果與性狀間的相關性存在一定的關聯。利用與目標性狀相關性較高的輔助性狀可以最大程度地提高全基因組選擇預測力,利用與目標性狀不相關的輔助性狀可能反而會降低全基因組選擇對目標性狀的預測力。在作物育種研究中,一些性狀較難獲取,如產量、抗逆、根系性狀等,如果采用同一群體的其他相關性狀進行輔助預測,能夠有效降低育種成本,具有重要的實際應用價值。在利用輔助性狀全基因組選擇時,低遺傳力性狀預測力的提升相比于高遺傳力性狀更為明顯,穗行數、穗粗和株高的遺傳力均大于0.5,采用全部輔助性狀全基因組選擇預測時,它們的預測力提升幅度均小于100%,而行粒數、穗長和穗粒質量的遺傳力均小于0.5,采用全部輔助性狀全基因組選擇預測時,它們的預測力提升幅度均大于100%。這可能是因為低遺傳力性狀更易被環境因素影響,而結合輔助性狀全基因組選擇時,有效借助了性狀間的相關環境信息。
本研究分析了不同輔助性狀數目和統計模型對預測力的影響。有研究結果表明,在多性狀聯合分析中,輔助性狀數目達到一定數量后,繼續增加的輔助性狀對單個特定性狀預測力提升的貢獻較低,并且隨著輔助性狀數目的增加,運算復雜度會大大增加[11]。在本研究中,盡管個別單一輔助性狀也能較大程度提升預測力,但總體而言隨著輔助性狀數目的增加,預測準確性也隨之增加,采用更多輔助性狀能夠更大幅度提升對目標性狀預測的準確性。本研究的優勢在于將輔助性狀視為固定效應,因而增加輔助性狀幾乎不影響模型運算效率。在全基因組選擇中,通過獲取更多的相關表型信息輔助預測目標性狀,有望進一步提高預測力。統計模型是影響GS準確性的關鍵因素[12],本研究比較了GBLUP、BayesB、LASSO、RKHS和XGBOOST這5種GS模型結合輔助性狀全基因組選擇的預測效果,整體而言,RKHS模型和BayesB模型的預測效果較優,而XGBOOST模型的預測效果較差。BayesB模型能夠對大部分位點的效應進行壓縮,因此更適于捕獲顯著位點效應[13-14]。有研究結果表明,BayesB模型對基因的數量較為敏感,當性狀由少數效應較大的基因控制時,預測力較高,當性狀由許多微效基因控制時,預測力有所降低[15]。RKHS模型的主要優勢是擅于捕獲一些非加性效應[16]。XGBOOST是經典的機器學習算法,其預測力較低的原因可能是計算復雜度較高且調參數難度較大,易造成過擬合。
4 結論
本研究提出了結合輔助性狀的玉米GS育種新策略,以來源廣泛的342份玉米自交系為試驗材料,對其進行GBS并鑒定6個農藝性狀,對每個目標性狀均基于輔助性狀及其組合進行預測,利用五倍交叉驗證法評價預測力。結果表明,利用與目標性狀相關性較高的輔助性狀可較大程度地提高預測力;低遺傳力性狀的預測力提升相比高遺傳力性狀更為明顯;隨著輔助性狀個數的增加,目標性狀的預測準確性也隨之增加。本研究進一步比較了5種GS模型結合輔助性狀的全基因組選擇的預測力,總體而言,RKHS模型和BayesB模型預測效果較優,而XGBOOST模型預測效果較差。本研究有效提升了玉米表型預測的準確性,尤其對于一些低遺傳力性狀,研究結果能為玉米的GS育種提供重要支撐。
參考文獻:
[1] 王振華,劉文國,高世斌,等. 玉米種業的昨天、今天和明天[J]. 中國畜牧業, 2021(19): 26-32.
[2] 黎 裕,徐辰武,秦 峰,等. 玉米生物育種:現狀與展望[J]. 中國基礎科學, 2022, 24(4): 18-28.
[3] MEUWISSEN T H, HAYES B J, GODDARD M E. Prediction of total genetic value using genome-wide dense marker maps[J]. Genetics, 2001, 157(4): 1819-1829.
[4] XU Y, LIU X, FU J, et al. Enhancing genetic gain through genomic selection: from livestock to plants[J]. Plant Communications, 2020, 1(1). DOI:10.1016/j.xplc.2019.100005.
[5] ZHANG X, P?REZ-RODR?GUEZ P, BURGUE?O J, et al. Rapid cycling genomic selection in a multiparental tropical maize population[J]. G3, 2017, 7(7): 2315-2326.
[6] MILLET E J, KRUIJER W, COUPEL-LEDRU A, et al. Genomic prediction of maize yield across European environmental conditions[J]. Nat Genet, 2019, 51: 952-956.
[7] ALLIER A, TEYSSEDRE S, LEHERMEIER C, et al. Genomic prediction with a maize collaborative panel: identification of genetic resources to enrich elite breeding programs[J]. Theoretical and Applied Genetics, 2020, 133(1): 201-215.
[8] SCUTARI M, HOWELL P, BALDING D J, et al. Multiple quantitative trait analysis using bayesian networks[J]. Genetics, 2014, 198(1): 129-137.
[9] HENDERSON C, QUAAS R. Multiple trait evaluation using relatives records[J]. Journal of Animal Science, 1976, 43(6): 1188-1197.
[10]HAYASHI T, IWATA H. A Bayesian method and its variational approximation for prediction of genomic breeding values in multiple traits[J]. BMC Bioinformatics, 2013, 14. DOI: 10.1186/1471-2105-14-34.
[11]SCHULTHESS A W, WANG Y, MIEDANER T, et al. Multiple-trait- and selection indices-genomic predictions for grain yield and protein content in rye for feeding purposes[J]. Theoretical and Applied Genetics, 2016, 129(2): 273-287.
[12]CROSSA J, PEREZ-RODRIGUEZ P, CUEVAS J, et al. Genomic selection in plant breeding: methods, models, and perspectives[J]. Trends Plant Science, 2017, 22(11): 961-975.
[13]GONZ?LEZ-RECIO O, FORNI S. Genome-wide prediction of discrete traits using Bayesian regressions and machine learning[J]. Genetics Selection Evolution, 2011, 43(1). DOI: 10.1186/1297-9686-43-7.
[14]P?REZ P, CAMPOS G D L. Genome-wide regression and prediction with the BGLR statistical package[J]. Genetics, 2014, 198(2): 483-495.
[15]WANG X, YANG Z F, XU C W. A comparison of genomic selection methods for breeding value prediction[J]. Science Bulletin, 2015, 60(10): 925-935.
[16]DE LOS CAMPOS G, GIANOLA D, ROSA G J, et al. Semi-parametric genomic-enabled prediction of genetic values using reproducing kernel Hilbert spaces methods[J]. Genetics Research, 2010, 92(4): 295-308.
(責任編輯:王 妮)