孫東張 勤,李 姣,張桂香,劉丑生,鄭偉杰
(1.中國農(nóng)業(yè)大學動物科技學院,北京 100193;2.山東農(nóng)業(yè)大學動物科技學院,泰安 271018;3.全國畜牧總站,北京 100125)
在以人工授精為主導技術的奶牛育種體系中,一頭種公牛每年可承擔一萬頭以上母牛的配種,種公牛對奶牛生產(chǎn)水平的貢獻率在75%以上,因此種公牛培育是奶牛育種的核心工作。常規(guī)后裔測定的世代間隔為5~6年,盡管準確性高,但育種進程緩慢且成本高?;蚪M選擇(genomic selection,GS)是最新一代的育種技術[1-2],可以實現(xiàn)不依賴表型信息對個體進行早期準確選擇,從而大幅度縮短世代間隔,加快群體遺傳進展[3]。因此,GS技術最早在奶牛育種得到廣泛應用。2001年,Meuwissen等[4]首次提出基因組選擇的概念,其基本思想是利用覆蓋個體基因組的大量分子標記信息評估個體種用價值并選擇遺傳優(yōu)良個體。2006年,Schaeffer[5]基于加拿大荷斯坦奶牛群體,測算出實施基因組選擇可以節(jié)省約92% 的育種成本。2007年,首款商業(yè)化奶牛50K SNP芯片(Illumina)研發(fā)成功[6-7]。2009年1月,美國荷斯坦協(xié)會率先官方發(fā)布荷斯坦青年公牛的基因組預測傳遞力(genomic predicted transmitting ability,GPTA)并將之應用于早期選擇[8],標志著奶牛育種進入基因組選擇時代。之后,世界各國陸續(xù)在奶牛育種中應用該技術[9-11]。2012年,我國正式啟動荷斯坦青年公?;蚪M遺傳評估工作[12-14]。
在畜禽基因組中存在大量的SNP位點,利用這些高密度的分子標記,可以直接或間接地捕獲影響育種目標性狀的所有基因信息[15-19]。基于此,GS的基本方法是:1)構建一定規(guī)模的參考群體(或稱訓練群體),參考群中個體需要有基因型信息和可靠性較高的表型信息;2)利用基因芯片對待測群個體進行基因型測定;3)建立基因組育種值估計模型或 SNP 效應估計模型;4)統(tǒng)計參考群和待測群信息,估計待測群個體的基因組直接育種值(direct genomic value,DGV);5)在奶牛育種中,進一步加權整合系譜指數(shù)(pedigree index, PI)和DGV信息計算基因組育種值(genomic estimated breeding value, GEBV)[15-16];6)依據(jù)各國制定的選育目標,計算個體綜合選擇指數(shù),以此作為選擇依據(jù)來指導奶牛育種工作[3]。如圖1所示,其中,3個關鍵技術環(huán)節(jié)為:對基因組標記的高通量準確測定方法、足夠大的高質(zhì)量參考群體及高效可靠的GEBV估計方法[4]。

圖1 奶?;蚪M選擇的基本過程示意圖Fig.1 Schematic diagram of the basic process of genomic selection for dairy cattle
基因組選擇的優(yōu)勢主要體現(xiàn)在:1)利用高密度標記可以捕獲基因組的全部或大部分遺傳變異,可以獲得較高的選擇準確性,尤其對低遺傳力性狀的選擇具有重要意義[8,20-26];2)可以不依賴表型信息對個體進行早期準確選擇。在奶牛育種中,這意味著對種公牛的選擇可以不經(jīng)過5~6年的后裔測定周期,從而大幅縮短世代間隔,加快遺傳進展,并大幅降低育種成本;3)對于表型難以測定的性狀(如抗病性狀、肉質(zhì)性狀、飼料利用率等),相比傳統(tǒng)的選擇方法,基因組選擇更為高效準確[27]。
自2009年始,基因組選擇就陸續(xù)在各奶業(yè)發(fā)達國家的奶牛育種中大規(guī)模應用,現(xiàn)已廣泛應用于青年公牛早期選擇,近幾年也開始用于后備母牛的選擇。各國既有各自的基因組評估體系及綜合選擇指數(shù),同時國際間也聯(lián)合構建參考群體(表1),用于快速持續(xù)擴大參考群體規(guī)模(國際公牛組織, https:∥interbull.org)。

表1 主要奶業(yè)國家的基因組選擇體系主要信息
美國的奶牛基因組遺傳評估工作由奶牛育種委員會(Council on Dairy Cattle Breeding, CDCB)組織執(zhí)行。2009年1月,美國官方發(fā)布了荷斯坦青年公牛的基因組遺傳評估結(jié)果,成為最早開展奶?;蚪M選擇的國家,其基因組選擇技術體系相對成熟,同時也是應用最為成熟、遺傳進展最快的國家[28]。近幾年,GS技術在美國商業(yè)化牧場的母牛群體中應用也越來越多。截至2023年5月,CDCB數(shù)據(jù)庫已經(jīng)擁有600萬頭荷斯坦母牛的基因組芯片數(shù)據(jù),為胚胎供體選擇、種子母牛篩選及犢牛淘汰、選種選配、遺傳缺陷基因篩查和錯誤系譜矯正提供了重要依據(jù)。CDCB每月進行1次遺傳評估并提供給育種公司和牧場,荷斯坦公牛使用80K高密度SNP芯片數(shù)據(jù),產(chǎn)奶性狀的評估準確性已達到80%,繁殖、健康和長壽性狀的準確性為59%~77%;而母牛通常采用10K等低密度芯片,以降低大群體的檢測成本。
美國和加拿大合作,構建了聯(lián)合荷斯坦奶?;蚪M選擇參考群體,以提高基因組評估準確性[29]。目前,該參考群規(guī)模已達到4.2萬頭荷斯坦驗證種公牛和40多萬頭母牛。其中,包括意大利和英國等國家的少部分公牛和母牛(國際公牛組織,2022)。超大規(guī)模的基因組參考群使得美國奶?;蚪M選擇應用效果顯著,其基因組選擇準確性遠高于傳統(tǒng)評估準確性(表2),顯著加快了奶牛群體遺傳進展(圖2)。當前,美國荷斯坦奶牛的主要選育性狀有13個,包括乳蛋白量、乳脂量、飼喂效率、體型評分、乳房綜合指數(shù)、肢蹄綜合指數(shù)、生產(chǎn)壽命、健康性狀指數(shù)、奶牛生存力、體細胞評分、繁殖力指數(shù)、女兒產(chǎn)犢易產(chǎn)性(難產(chǎn)率)和女兒產(chǎn)犢死胎預期傳遞力。近年來,隨著育種理念的進步及市場需求的變化,美國綜合性能指數(shù)(total performance index, TPI)在奶牛健康與繁殖性狀上權重有逐步加重的趨勢。其它乳用品種也應用基因組選擇技術,包括娟姍牛、更賽牛、愛而夏牛、乳用短角牛等,但參考群體規(guī)模仍然很小。

數(shù)據(jù)來自CDCB,2023年5月Data from CDCB, May 2023圖2 美國荷斯坦奶牛產(chǎn)奶量性狀的遺傳進展Fig.2 Genetic progress for milk yield trait in Holstein cattle in the United States
歐洲的奶業(yè)發(fā)達國家眾多,奶牛養(yǎng)殖育種歷史久遠。2010年,由于受到各自參考群體規(guī)模小的限制,包括德國、法國、丹麥、瑞典、荷蘭、芬蘭和比利時在內(nèi)的7個歐洲國家組建了基因組選擇聯(lián)合參考群體(EuroGenomics)[30-31],成功克服了單一國家參考群體規(guī)模有限(尤其是優(yōu)秀驗證公牛的后裔測定成績積累)的難題,目前參考群規(guī)模達到4萬多頭驗證公牛和幾十萬頭母牛?;诖?北歐7國各自開展本國奶?;蚪M育種,分別由荷蘭奶牛育種公司(CRV)、VIT德國奶牛數(shù)據(jù)中心、法國GenEval公司及北歐(丹麥、瑞典、芬蘭)遺傳評估中心負責。英國、意大利、波蘭等國家未參與歐洲聯(lián)合基因組選擇體系。歐洲7國的 EuroGenomics 合作項目使得各國的參考群規(guī)模得到極大提高,其 GEBV 可靠性提升了約10%,極大地提升了歐洲在奶牛育種方面的競爭優(yōu)勢。此外,歐洲各國根據(jù)實際國情制定了不同的選育目標,但基本均包含產(chǎn)奶性狀(乳蛋白率、乳脂率)、健康性狀(體細胞評分)、體型性狀(肢蹄評分、乳房評分)、繁殖力性狀(繁殖力、產(chǎn)犢難易)和長壽性狀。目前,基因組選擇技術已廣泛應用于各國青年公牛、后備母牛的早期選種及選種選配。
新西蘭和澳大利亞是澳洲主要的奶牛養(yǎng)殖國,分別于2008年、2011年開始基因組遺傳評估[10],分別由新西蘭家畜遺傳改良公司(Livestock Improvement Corporation,LIC)及澳大利亞合作研究中心(Cooperative Research Centers Program,CRC)和初級產(chǎn)業(yè)部(Department of Primary Industries)負責,每年官方公布2次基因組評估結(jié)果。與主要歐美奶業(yè)發(fā)達國家相比,新西蘭和澳大利亞參考群體規(guī)模較小,僅包含2 626頭荷斯坦公牛、1 639頭娟珊公牛和642凱威公牛,其主要選育性狀有乳脂率、乳蛋白率、產(chǎn)奶量、體細胞評分、體重、繁殖力和產(chǎn)犢難易性狀。
2008年,受農(nóng)業(yè)農(nóng)村部和中國奶業(yè)協(xié)會委托,中國農(nóng)業(yè)大學奶牛育種團隊在張沅教授、張勤教授帶領下,啟動我國奶?;蚪M選擇研究[32],于2012年1月成功構建了中國荷斯坦?;蚪M選擇分子育種技術平臺并被農(nóng)業(yè)農(nóng)村部指定為我國荷斯坦青年公牛遺傳評估的唯一方法[12-16,33-36]。該平臺主要包括:構建了我國唯一的奶牛基因組選擇參考群;研發(fā)了TA-BLUP等基因組育種值預測方法[37];提出了基因組性能指數(shù)(genomic China performance index,GCPI)。2012年5月,經(jīng)農(nóng)業(yè)農(nóng)村部組織部署,我國全面啟動荷斯坦青年公?;蚪M遺傳評估工作,截至目前已累計評估4 509頭。2016年,“中國荷斯坦牛基因組選擇分子育種技術體系的建立與應用”項目獲國家科技進步二等獎(完成人:張勤,張沅,孫東曉,張勝利,丁向東,劉林,李錫智,劉劍鋒,劉海良,姜力;完成單位:中國農(nóng)業(yè)大學,北京奶牛中心,北京首農(nóng)畜牧發(fā)展有限公司,上海奶牛育種中心有限公司,全國畜牧總站)。
大規(guī)模、高質(zhì)量的參考群體是基因組遺傳評估的重要基礎[38-40]。自2008年開始,我國奶?;蚪M選擇參考群體持續(xù)擴大,荷斯坦母牛經(jīng)過嚴格篩選,均具備規(guī)范的系譜及生產(chǎn)性能測定(dairy herd improvement, DHI)與體型數(shù)據(jù),包括產(chǎn)奶(305天產(chǎn)奶量、乳蛋白量、乳蛋白率、乳脂量和乳脂率)、健康(體細胞數(shù):用于評估乳房炎)、體型(體型總分、泌乳系統(tǒng)和肢蹄評分等)共計35個性狀;其中,少部分母牛具有繁殖性狀表型數(shù)據(jù)(首次產(chǎn)犢月齡等);此外,參考群還包括234頭驗證種公牛,其個體估計育種值(estimated breeding value, EBV)可靠性不低于80%。參考群所有個體均具有全基因組SNP芯片的基因型數(shù)據(jù)(50K、80K或150K)。截至目前,參考群規(guī)模已達1.79萬頭,為我國荷斯坦青年公?;蚪M遺傳評估提供了重要的數(shù)據(jù)支撐。
中國奶牛性能指數(shù)是評價種牛綜合遺傳性能的選擇指數(shù)。2012年,中國農(nóng)業(yè)大學奶牛育種團隊、中國奶業(yè)協(xié)會育種委員會、全國畜牧總站聯(lián)合制定了中國奶?;蚪M性能指數(shù)[12],GCPI計算公式見圖3。

圖3 中國奶?;蚪M性能指數(shù)(2012—2019年)[12]Fig.3 Genomic China Performance Index (2012—2019)[12]
其中,GEBV為合并基因組育種值;Milk為產(chǎn)奶量;Fatpct為乳脂率;Propct為乳蛋白率;Type為體型總分;MS為泌乳系統(tǒng);F&L為肢蹄;SCS為體細胞評分。
2020年,荷斯坦青年公?;蚪M評估開始采用新版GCPI指數(shù)(圖4),生產(chǎn)性狀由產(chǎn)奶量、乳蛋白率、乳脂率合并為乳蛋白量、乳脂量,為與國際接軌,將“量“與”率”辯證地統(tǒng)一,更強調(diào)乳質(zhì)量的改進;校正系數(shù)由20改為4,常數(shù)由200改為1 800,保證了指數(shù)值的穩(wěn)定性。各類性狀的加權值分別為:生產(chǎn)性狀60%、體型性狀30%、健康性狀10%。在重視產(chǎn)奶性狀改進的同時,加強對生產(chǎn)效益具有重要影響的體型性狀的選育[12]。

圖4 新版中國奶牛基因組性能指數(shù)(2020-)[41]Fig.4 Updated version of the Genomic China Performance Index (2020-)[41]
利用基因組選擇參考群體,對經(jīng)過基因組檢測的青年公牛利用SNP芯片的遺傳標記基因型數(shù)據(jù)信息和GBLUP方法進行基因組育種值估計。計算模型與傳統(tǒng)的動物模型BLUP(best linear unbiased prediction)模型類似,但是用基因組相關矩陣(G陣)替代個體親緣關系矩陣(A陣),利用DMU軟件,采用GBLUP方法估計公牛的各性狀基因組直接育種值(direct genomic value, DGV),并與其系譜指數(shù)進行標準化后加權合并,計算得到中國奶牛基因組選擇性能指數(shù)(GCPI)。我國荷斯坦青年公牛的基因組評估結(jié)果,作為《中國乳用種公牛遺傳評估概要》的主要內(nèi)容,由農(nóng)業(yè)農(nóng)村部于每年4月、8月、12月發(fā)布,目前各性狀的基因組育種值評估準確性為0.70~0.79[41]。
通過基因組選擇技術的應用,選擇優(yōu)秀青年公牛并在全國推廣使用其優(yōu)質(zhì)凍精,一是提高了選擇準確性;二是縮短了世代間隔,加快了我國奶牛群體的遺傳進展。本文作者基于中國奶牛數(shù)據(jù)中心(https:∥www.holstein.org.cn)收集的全國各地區(qū)中國荷斯坦牛系譜和表型數(shù)據(jù),分析了母牛群體的遺傳進展,結(jié)果顯示:自2012年實施基因組選擇以來,主要產(chǎn)奶性狀遺傳進展顯著提高(圖5)。
基于本文作者2021年12月完成的基因組遺傳評估數(shù)據(jù)分析了荷斯坦公牛的遺傳進展(圖6)?;蚪M性能指數(shù)(GCPI)及產(chǎn)奶性狀(產(chǎn)奶量、乳蛋白率、乳蛋白量、乳脂率和乳脂量)均獲得了較顯著的遺傳進展;體型性狀的遺傳進展較小,肢蹄和體細胞評分性狀的遺傳進展不明顯,可能因為體型性狀易受鑒定員等環(huán)境因素影響,而體細胞評分性狀可能因為遺傳力低且育種值變異系數(shù)小等因素的影響[42]。

圖6 荷斯坦公牛的GCPI及9個育種目標性狀的遺傳進展Fig.6 Genetic progress of GCPI and nine breeding target traits in Holstein bulls
隨著基因組選擇技術的應用,可以利用基因組評估公牛女兒的表型值數(shù)據(jù)驗證基因組選擇的效果。作者利用1 686頭公牛的女兒表型數(shù)據(jù),來自全國27個省(市、自治區(qū))、2 018個牛場416 086頭女兒的生產(chǎn)性能測定(dairy herd improvement, DHI)及56 902頭女兒的體型鑒定數(shù)據(jù),統(tǒng)計分析了公?;蚪M育種值(GEBV)與表型之間的趨勢[43]。結(jié)果表明:公牛女兒產(chǎn)奶量、乳蛋白率、乳脂率與肢蹄評分的表型值與公牛GEBV分組趨勢一致,且產(chǎn)奶性狀GEBV組間的女兒性狀表型值大部分達到極顯著差異(P<0.01),說明我國荷斯坦公牛的基因組選擇效果較好(圖7、圖8)。

圖7 公牛GEBV與其女兒表型值的相關性(女兒按其表型值的大小分為5組)[43]Fig.7 Correlation of GEBV of bulls and phenotypic values of their daughters (daughters were divided into 5 groups according to the size of their phenotypic values)[43]
基因組選擇技術的普及應用,給動物育種,尤其是奶牛育種帶來了革命性的變化,其應用將愈發(fā)廣泛和深入。隨著育種理念和技術的不斷進步發(fā)展,GS在動物育種應用過程中也面臨著一些重大挑戰(zhàn):1)基因組選擇方法的創(chuàng)新及改進。目前,基因組選擇方法主要分為兩類:一類是基于最佳線性無偏預測理論的GBLUP[44],該模型需要求解混合線性方程來估計個體加性遺傳效應方差組分[45];另一類是貝葉斯方法[46-48],根據(jù)標記假設的不同,分為BayesA[4]、BayesB[4]、BayesC[47]、BayesR[49]、BayesLasso[50-51]等。近年來,機器學習方法也逐漸應用在基因組選擇領域,與傳統(tǒng)方法相比,它是一種非參數(shù)方法,無需提前設定假設,而是通過學習輸入數(shù)據(jù)來構建表型與基因型數(shù)據(jù)之間的特定關系。目前常用的機器學習模型有支持向量機(SVM)[52-53]、核嶺回歸(Kernel Ridge Regression, KRR)[54-55]、隨機森林(Random Forest, RF)[56-57]、深度學習(Deep Learing, DL)[58]。目前,尚無一種方法表現(xiàn)出全面的優(yōu)越性。GBLUP在計算時效性上有明顯優(yōu)勢,Bayes方法得益于對標記效應的合理假設,其預測準確性相比GBLUP有一定幅度提高,但大量參數(shù)的估計也增加了計算時長和資源的消耗。機器學習算法通過構建非線性模型可以捕獲標記之間的相關性和相互作用,尤其是對于受到非加性效應影響的復雜性狀,機器學習往往可以獲得更為準確的預測結(jié)果[59],因此值得進一步開發(fā)利用。同時,隨著生物技術和組學技術,如功能基因組學技術、基因組測序技術、胚胎基因型測定技術、基因編輯技術、干細胞技術等的發(fā)展,高效整合利用多組學先驗信息的基因組選擇方法也有待進一步開發(fā)[60-63];2)如何將難以測定的新性狀納入到選擇指數(shù)中,包括飼料轉(zhuǎn)化率、甲烷排放等性狀[64-65]。在奶牛育種中,飼料通常占奶牛生產(chǎn)總直接成本的一半。針對當前綠色、可持續(xù)的時代發(fā)展主題,低飼料轉(zhuǎn)化率、低溫室氣體排放將是未來奶牛育種選擇的主要目標之一。但是此類性狀測定難度大、成本高、效率低。開發(fā)高效表型智能測定設備、拓寬測定思路將是奶牛育種需要持續(xù)進行的工作。例如,通過視頻和圖像技術測定采食行為預測飼料轉(zhuǎn)化率、紅外光譜技術測定牛奶中CH4含量來間接測定個體甲烷排放等[65]。
我國于2012年開始在全國范圍內(nèi)啟動荷斯坦公?;蚪M遺傳評估工作,由于驗證公牛數(shù)量僅有273頭,因此建立了“母牛為主+公牛”模式的基因組參考群。截至2023 年5月,我國奶牛基因組選擇參考群規(guī)模已達 1.79萬頭,主要性狀的基因組育種值估計準確性達70%。與歐美國家相比,我國的奶?;蚪M選擇存在參考群規(guī)模仍然較小、參測青年公牛數(shù)量較少、評估軟件嚴重依賴國外進口、評估準確性不高的問題,建議:1)規(guī)范奶牛生產(chǎn)性能測定流程,完善表型測定數(shù)據(jù)、系譜數(shù)據(jù)、基因型數(shù)據(jù)質(zhì)量的第三方核查制度,堅持進行持續(xù)的后裔測定,保證數(shù)據(jù)的完整性及準確性;2)持續(xù)擴大參考群體規(guī)模,積極尋求安全可靠的國際合作育種項目機會;3)推進 GS技術在青年公牛、核心群母牛、種子母牛家系和商業(yè)牧場的應用力度;4)持續(xù)開發(fā)并優(yōu)化核心自主可控的、準確高效的基因組評估軟件,打破國外的軟件技術壁壘。