











摘 要:基因組選擇的廣泛應(yīng)用大大加快了畜禽的遺傳進(jìn)展。隨著畜禽芯片的商業(yè)化和測(cè)序成本的不斷降低,可獲得的畜禽基因組信息越來越豐富。基因型標(biāo)記數(shù)量遠(yuǎn)遠(yuǎn)超過具有表型數(shù)據(jù)的樣本個(gè)數(shù),基因組信息之間的關(guān)系更加復(fù)雜等問題也隨之出現(xiàn),使得最佳線性無偏預(yù)測(cè)(best linear unbiased prediction,BLUP)和Bayes等傳統(tǒng)評(píng)估模型的使用受到極大限制。機(jī)器學(xué)習(xí)算法不依賴于預(yù)定的方程模型,可以更好地處理非線性關(guān)系,為以上問題提供了解決方案,因此逐步被應(yīng)用于基因組選擇中。本文綜述了基因組選擇的發(fā)展,闡述了幾種常用于基因組選擇中的機(jī)器學(xué)習(xí)算法的原理,并對(duì)機(jī)器學(xué)習(xí)在畜禽基因組選擇中的應(yīng)用現(xiàn)狀和實(shí)現(xiàn)方式進(jìn)行了總結(jié),最后對(duì)機(jī)器學(xué)習(xí)在畜禽育種中面臨的問題進(jìn)行了探討并對(duì)其發(fā)展進(jìn)行了展望。
關(guān)鍵詞:基因組選擇;畜禽;機(jī)器學(xué)習(xí);算法;模型
中圖分類號(hào):S813.1
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):0366-6964(2024)07-2775-11
收稿日期:2023-10-10
基金項(xiàng)目:國(guó)家生豬產(chǎn)業(yè)技術(shù)體系(CARS-35)
作者簡(jiǎn)介:王進(jìn)部(2001-),男,河南濮陽人,碩士,主要從事動(dòng)物遺傳育種研究,E-mail:w18439393365@163.com
*通信作者:王立剛,主要從事動(dòng)物遺傳育種研究,E-mail:wangligang01@caas.cn
Progress in the Application of Machine Learning in Livestock and Poultry
Genomic Selection
WANGJinbu,LIJia,RENDeming,WANGLixian,WANGLigang*
(Institute of Animal Science,Chinese Academy of Agricultural Sciences,Beijing100193,China)
Abstract:The extensive application of genomic selection has significantly accelerated genetic advancements in livestock and poultry.With the commercialization of livestock and poultry chips and the continuous reduction of sequencing costs,the available genomic information for livestock and poultry has become increasingly abundant.Many challenges have arisen in genomic selection,such as the number of genotypic markers far exceeds the number of samples with phenotype data,and the relationships between genomic information have become more complex.These problems greatly restrict the use of traditional evaluation models such as best linear unbiased prediction(BLUP)and Bayes.Machine learning algorithms,which do not rely on predetermined equation models,have demonstrated superior capability in handling nonlinear relationships.Machine learning methods can offer solutions to the aforementioned challenges,thus they are gradually being applied in genomic selection.This paper reviewed the developmental of genomic selection,elucidated the principles of several commonly used machine learning algorithms.Furthermore,the current status and implementation methods of machine learning in livestock and poultry genomic selection were summerized.Finally,the challenges faced by machine learning in livestock and poultry breeding,and offered insights into the future development of the use of machine learning in genomic selectionas well as its development prospects were discussed.
Key words:genomic selection; livestock and poultry; machine learning; algorithm; model
*Corresponding author:WANG Ligang,E-mail:wangligang01@caas.cn
基因組選擇(genomic selection,GS)是使用覆蓋全基因組的高密度SNP(single nucleotide polymorphism)標(biāo)記對(duì)育種值估計(jì)的一種方法,其假定基因組高密度SNP標(biāo)記中至少有一個(gè)標(biāo)記與所有控制性狀的數(shù)量性狀基因座(quantitative trait locus,QTL)處于連鎖不平衡狀態(tài)[1]。自2001年由Meuwissen等[2]提出后,GS迅速成為生物種業(yè)領(lǐng)域的“寵兒”,尤其對(duì)動(dòng)物育種來說是一場(chǎng)巨大的變革。目前,基因組選擇已廣泛應(yīng)用于畜禽育種中,最早并且最為成功地應(yīng)用在奶牛選育中,顯著加快了奶牛育種的遺傳進(jìn)展[3]。相較之下,豬的基因組選擇工作稍晚幾年,但性能水平也得到極大提升[4-5],其它動(dòng)物如肉牛[6]、家禽[7]、羊[8]和水產(chǎn)動(dòng)物[9]的基因組選擇工作也都穩(wěn)步推進(jìn)中。
統(tǒng)計(jì)模型和計(jì)算方法是基因組選擇的核心,也是影響其進(jìn)展和效率的主要因素[10]。基于最佳線性無偏預(yù)測(cè)(best linear unbiased prediction,BLUP)或Bayes理論的傳統(tǒng)模型一直都是計(jì)算估計(jì)育種值的主流方法,隨著其不斷改進(jìn)與完善,衍生出一系列的方法彌補(bǔ)或解決了絕大多數(shù)缺陷與問題。盡管使用傳統(tǒng)模型進(jìn)行基因組選擇在育種領(lǐng)域取得了顯著進(jìn)展,但其存在一些不足之處。如傳統(tǒng)方法捕捉基因型和表型之間復(fù)雜非線性關(guān)系能力較弱,對(duì)高維基因組數(shù)據(jù)的處理有很大局限。另外,BLUP或Bayes方法受限于對(duì)特定分布假設(shè)的敏感性,需要數(shù)據(jù)符合一定的假設(shè)前提條件,這些不足限制了其在全面理解基因型與表型關(guān)系方面的表現(xiàn)。為了克服這些挑戰(zhàn),并更有效地利用基因組信息,機(jī)器學(xué)習(xí)(machine learning,ML)等新方法開始越來越受關(guān)注。
機(jī)器學(xué)習(xí)是關(guān)于計(jì)算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計(jì)模型并應(yīng)用模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析的一門學(xué)科[11]。機(jī)器學(xué)習(xí)在處理高維數(shù)據(jù)和復(fù)雜關(guān)系方面具有獨(dú)特的優(yōu)勢(shì),能夠靈活適應(yīng)不同數(shù)據(jù)類型和模型復(fù)雜度。目前,機(jī)器學(xué)習(xí)已經(jīng)成功應(yīng)用于金融[12]、醫(yī)學(xué)[13]、生物[14]和工業(yè)[15]等領(lǐng)域。與傳統(tǒng)方法相比,機(jī)器學(xué)習(xí)方法可以允許大于樣本大小的變量數(shù)量[16],能夠更全面地捕捉基因型和表型之間的潛在關(guān)系,并且對(duì)預(yù)測(cè)變量施加很少或不進(jìn)行特定分布假設(shè)[17],使其更具靈活性和適應(yīng)性。這使得機(jī)器學(xué)習(xí)在基因組選擇領(lǐng)域的應(yīng)用表現(xiàn)出巨大的潛力,為育種研究帶來了新的可能性。
1 基因組選擇方法的發(fā)展
育種值估計(jì)是動(dòng)物遺傳育種的核心內(nèi)容之一[18]。在全基因選擇概念提出后,研究人員提出了許多計(jì)算基因組估計(jì)育種值(genomic estimated breeding value,GEBV)的方法。傳統(tǒng)計(jì)算基因組育種值的方法一般分為兩類:第一類是基于遺傳關(guān)系矩陣的基因組選擇方法,通過系譜構(gòu)建個(gè)體間相關(guān)矩陣,然后利用線性混合模型來估計(jì)基因組育種值,這種方法稱為直接法。這類方法主要包括各類BLUP方法,如GBLUP(genomic best linear unbiased prediction)[19]、SSGBLUP(single-step genomic best linear unbiased prediction[20]等。第二類通過估計(jì)等位基因的效應(yīng)值,再對(duì)不同個(gè)體基因效應(yīng)加和來間接獲得GEBV,稱為間接法。這類方法主要有RRBLUP(ridge regression best linear unbiased prediction)和各類Bayes方法[21](BayesA、BayesB[2]、BayesCπ[22]、Bayes LASSO(Bayes least absolute shrinkage and selection operator)[23]和BayesR[24]等)。
對(duì)于覆蓋全基因組的標(biāo)記信息,基因型標(biāo)記個(gè)數(shù)會(huì)遠(yuǎn)遠(yuǎn)大于具有表型數(shù)據(jù)的樣本個(gè)數(shù)(通常稱為“大變量,小樣本(大p小n)”問題)。另外高維度或高度相關(guān)的SNP數(shù)據(jù)結(jié)構(gòu),性狀與基因、基因與基因間的關(guān)系使得模型參數(shù)的數(shù)量進(jìn)一步加劇等問題相繼出現(xiàn)[25]。為解決以上這些問題,一系列機(jī)器學(xué)習(xí)方法開始應(yīng)用于基因組選擇中,如隨機(jī)森林(random forest,RF)、提升(Boosting)、支持向量機(jī)(support vector machine,SVM)和神經(jīng)網(wǎng)絡(luò)(neural network,NN)等。
2 機(jī)器學(xué)習(xí)在基因組選擇中常用的算法
機(jī)器學(xué)習(xí)基本可分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí),有時(shí)還包括半監(jiān)督學(xué)習(xí)、主動(dòng)學(xué)習(xí)。監(jiān)督學(xué)習(xí)是指從標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)模型的機(jī)器學(xué)習(xí)問題,本質(zhì)是學(xué)習(xí)輸入到輸出的映射的統(tǒng)計(jì)規(guī)律。一般包括SVM、核嶺回歸(kernel ridge regression,KRR)、RF以及Boosting等算法。無監(jiān)督學(xué)習(xí)是指從無標(biāo)注數(shù)據(jù)(自然得到的數(shù)據(jù))中預(yù)測(cè)模型的機(jī)器學(xué)習(xí)問題。本質(zhì)是學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律或潛在結(jié)構(gòu)。主要包括聚類分析、降維[11]。強(qiáng)化學(xué)習(xí)用于描述和解決智能體在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。即強(qiáng)化學(xué)習(xí)是一種學(xué)習(xí)如何從狀態(tài)映射到行為以使得獲取的獎(jiǎng)勵(lì)最大化的學(xué)習(xí)機(jī)制。在基因組選擇中使用的機(jī)器學(xué)習(xí)類型大多為監(jiān)督學(xué)習(xí)算法,一些研究人員也嘗試將無監(jiān)督學(xué)習(xí)算法運(yùn)用到基因組選擇中。常用在基因組選擇中的機(jī)器學(xué)習(xí)算法如下。
2.1 支持向量機(jī)回歸算法
支持向量機(jī)由Cortes和Vapnik[26]于1995年提出,是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面,可以將問題化為一個(gè)求解凸二次規(guī)劃的問題。隨著ε-不敏感損失函數(shù)的實(shí)現(xiàn)[27],SVM擴(kuò)展到解決回歸問題,這被稱為支持向量回歸(support vector machine regression,SVR)或ε-SVR,其也被作為一種標(biāo)準(zhǔn)支持向量機(jī)回歸算法用于基因組選擇中。SVR將輸入的數(shù)據(jù)從原始空間映射到更高維的特征空間,通常使用線性或非線性核函數(shù)實(shí)現(xiàn),在特征空間中,問題變成了擬合數(shù)據(jù)的最優(yōu)線性平面的構(gòu)造。SVR的模型公式可以表示為:
f(x)=β0+h(x)Tβ
其中,f(x)是預(yù)測(cè)值向量,h(x)T是核函數(shù),β是權(quán)重向量,β0是偏差。通過最小化正則化的損失函數(shù),SVR可以形式化為:
minβ0,β12‖β‖2+C∑ni=1Vε(f(xi)-yi)
其中,C是正則化常數(shù),y是觀測(cè)值向量,Vε是ε-不敏感損失。
Vε(r)=0,if|r|lt;ε
|r|-ε,otherwise
其中,r=f(xi)-yi。通過一系列優(yōu)化過程,SVR最終可以表示為:
f(x)=∑mi=1a i-αik(x,xi)+β0
其中,k(xi,xj)=? (xi)T?(xj)為核函數(shù),αi和ai是拉格朗日乘子,在SVR中常用的核函數(shù)見表1。
2.2 集成學(xué)習(xí)算法
集成學(xué)習(xí)(ensemble learning)屬于監(jiān)督學(xué)習(xí),是通過構(gòu)建并結(jié)合多個(gè)基礎(chǔ)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),有時(shí)也被稱為多分類器系統(tǒng)。常用的集成策略主要包括:Bagging、Boosting和Stacking[28]。
2.2.1 Bagging
Bagging指在一個(gè)數(shù)據(jù)集D中,通過隨機(jī)且有放回的采樣獲得m個(gè)數(shù)據(jù)子集,并將其作為新的訓(xùn)練集,分別訓(xùn)練得到m個(gè)基礎(chǔ)學(xué)習(xí)器,最后通過投票或平均的方式處理分類和回歸問題。Bagging集成策略能夠顯著減少預(yù)測(cè)方差。此外,Bagging集成策略允許并行化,因?yàn)槊總€(gè)模型都是獨(dú)立訓(xùn)練的(圖1)。基于這種思想,最具代表性的算法就是隨機(jī)森林。隨機(jī)森林首次由Breiman[29]提出,它是多個(gè)決策樹的集合,它在數(shù)據(jù)集的各種子樣本上估計(jì)和擬合許多決策樹,然后使用它們的平均值來提高預(yù)測(cè)準(zhǔn)確性和控制過擬合。由于是對(duì)樣本隨機(jī)采樣和特征隨機(jī)采樣,保證了每棵樹具有自己的“個(gè)性”,整個(gè)森林呈現(xiàn)出多樣性,這樣再求它們的平均,結(jié)果更穩(wěn)定和有效[30]。
隨機(jī)森林回歸[17,31-35]可以用下式表示:
y=1M∑Mm=1tm(ψm(y:X))
其中y是隨機(jī)森林回歸的預(yù)測(cè)值,預(yù)測(cè)變量tm(ψm(y:X))是個(gè)體回歸樹,在第m次迭代時(shí)使用數(shù)據(jù)ψm(y:X)的自舉樣本,M是隨機(jī)森林中決策樹的數(shù)量。
2.2.2 Boosting
Boosting指通過迭代的方法不斷訓(xùn)練多個(gè)弱學(xué)習(xí)器,并在訓(xùn)練過程中不斷根據(jù)預(yù)測(cè)結(jié)果改變訓(xùn)練集個(gè)體的權(quán)重,并將獲得的一系列學(xué)習(xí)器根據(jù)一定的權(quán)重進(jìn)行整合而得到一個(gè)強(qiáng)學(xué)習(xí)器。Boosting能有效減少偏差,Boosting算法屬于串行處理,訓(xùn)練模型依賴于之前的模型(圖2)。AdaBoost[17,28]是根據(jù)這種思想產(chǎn)生的經(jīng)典Boosting集成算法之一,其主要思想如下:1)初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布:假設(shè)有N個(gè)樣本,每個(gè)樣本賦予相同權(quán)值1/N;2)訓(xùn)練弱分類器:本輪訓(xùn)練中,提高錯(cuò)分樣本的權(quán)值,相反分類正確的樣本降低權(quán)值,然后權(quán)值更新后的全部樣本被用于訓(xùn)練下一個(gè)分類器,使得下一個(gè)分類器更加關(guān)注權(quán)值大的難分樣本,多次迭代,訓(xùn)練多個(gè)弱分類器;3)加權(quán)組合弱分類器:加大分類誤差率小的弱分類器權(quán)重,使其在最終表決中起較大作用,而降低分類誤差率大的弱分類器的權(quán)重,使其在最終表決匯總起較小作用。
另外梯度提升(gradient boosting,GB)、極端梯度提升(extreme gradient boosting,XGB/XGBoost)、隨機(jī)梯度提升算法[34]也因?yàn)槠洫?dú)特的優(yōu)勢(shì)常用在基因組選擇中。
2.2.3 Stacking
Stacking是一種分層模型集成框架。以兩層為例,第一層由多個(gè)基學(xué)習(xí)器組成,其輸入為原始訓(xùn)練集,第二層的模型則是以第一層基學(xué)習(xí)器的輸出作為訓(xùn)練集進(jìn)行再訓(xùn)練,從而得到完整的Stacking模型(圖3)。它和Boosting、Bagging的區(qū)別是集成的基學(xué)習(xí)器是異質(zhì)的,其目的是學(xué)習(xí)到每個(gè)基學(xué)習(xí)器的優(yōu)點(diǎn),然后更好地去做分類或者回歸任務(wù)。
2.3 深度學(xué)習(xí)算法
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的分支,主要關(guān)注使用深層神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)復(fù)雜的特征和模式。深度學(xué)習(xí)模型通常包括多個(gè)層次,允許它們從數(shù)據(jù)中提取多層次的抽象特征。神經(jīng)網(wǎng)絡(luò)(neural network,NN)是深度學(xué)習(xí)算法的核心,其名稱和結(jié)構(gòu)均受到人腦的啟發(fā),可模仿生物神經(jīng)元相互傳遞信號(hào)的方式。神經(jīng)網(wǎng)絡(luò)由節(jié)點(diǎn)層組成,包含一個(gè)輸入層、一個(gè)或多個(gè)隱藏層和一個(gè)輸出層。每個(gè)節(jié)點(diǎn)也稱為一個(gè)神經(jīng)元,它們連接到另一個(gè)節(jié)點(diǎn),具有相關(guān)的權(quán)重和閾值[36]。應(yīng)用于基因組育種中的深度學(xué)習(xí)算法常見有多層感知器(multi-layer perceptron,MLP)與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),兩者均屬于前饋神經(jīng)網(wǎng)絡(luò)。
2.3.1 多層感知器
MLP由三種類型的層組成,即輸入層、隱藏層和輸出層[33,37-38],信息從輸入層流向輸出層。圖4展示了一個(gè)三層MLP的圖,其中包含4個(gè)輸入層單元、5個(gè)隱藏層單元和1個(gè)輸出層單元。。單個(gè)隱藏層MLP可以表示為以下形式:
y=σXW1+bW2
其中y是預(yù)測(cè)值的向量,W1和W2分別表示通過隱藏層將維度n×p的輸入矩陣X連接到維度n×1的y輸出層的權(quán)重矩陣。W1和W2的尺寸取決于隱藏層中的單元數(shù)量。因此,對(duì)于具有k個(gè)單元的隱藏層,W1的尺寸為p×k,W2的尺寸為k×1。σ是激活函數(shù),b是與W1和W2相關(guān)的偏置矩陣。激活函數(shù)常見有線性、Sigmoid、Tanh和ReLU等函數(shù),對(duì)于回歸問題,損失函數(shù)通常選擇為:
(y,?)=12n∑ni=1yi-?22
其中‖·‖22是歐幾里得平方范數(shù)。在實(shí)現(xiàn)MLP之前,需要定義一些超參數(shù),包括層數(shù)、每層單元數(shù)、每層激活函數(shù)等。
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)與隱藏層僅由全連接層組成的MLP不同,在CNN中,隱藏層由卷積層、池化層和全連接層組成[33,37,39](圖5)。卷積層功能是對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,卷積是一種數(shù)學(xué)運(yùn)算,它在輸入數(shù)據(jù)上滑動(dòng)一個(gè)小的窗口(通常稱為卷積核或?yàn)V波器),并在每個(gè)位置執(zhí)行一次乘加運(yùn)算。通過多次卷積操作,可以提取輸入數(shù)據(jù)的多級(jí)特征,最終得到有用的特征圖。池化層是對(duì)數(shù)據(jù)進(jìn)行降采樣,縮小數(shù)據(jù)規(guī)模,收集關(guān)鍵數(shù)據(jù),同時(shí)提高計(jì)算速度。池化操作的作用是減小特征圖的空間尺寸,降低計(jì)算復(fù)雜度,并且使網(wǎng)絡(luò)對(duì)于位置的變化更加魯棒。常見的池化操作是最大池化和平均池化。在經(jīng)過一系列的卷積層和池化層后,通常會(huì)有一個(gè)或多個(gè)全連接層。全連接層將前面層的特征整合起來,用于進(jìn)行分類、回歸等任務(wù)。
3 機(jī)器學(xué)習(xí)在畜禽基因組選擇中的應(yīng)用
自機(jī)器學(xué)習(xí)進(jìn)入畜禽育種領(lǐng)域后,研究人員將一系列機(jī)器學(xué)習(xí)算法應(yīng)用于基因組選擇,并不斷改進(jìn)現(xiàn)有算法或開發(fā)新算法,以期獲得更好的計(jì)算方法和更高的準(zhǔn)確性。
3.1 機(jī)器學(xué)習(xí)在牛基因組選擇上的應(yīng)用
2011年,Long等[40]使用了兩種支持向量回歸(SVR)模型,即ε-SVR和最小二乘支持向量回歸(least squares-SVR,LS-SVR)模型對(duì)奶牛產(chǎn)奶量性狀進(jìn)行預(yù)測(cè),并與Bayes LASSO進(jìn)行了比較。結(jié)果表明,使用徑向基核的LS-SVR的性能最好,SVM的預(yù)測(cè)相關(guān)性與Bayes LASSO相當(dāng),但預(yù)測(cè)均方誤差略大于Bayes LASSO。2018年,Li等[41]使用來自2093頭婆羅門牛的38082個(gè)SNP標(biāo)記和活體重表型,檢驗(yàn)了三種機(jī)器學(xué)習(xí)方法(RF、GB和XGBoost)在識(shí)別特征重要性排名前列的SNP的能力;并使用SNP的子集構(gòu)建基因組關(guān)系矩陣用于估計(jì)基因組育種價(jià)值。結(jié)果發(fā)現(xiàn),RF和GB是識(shí)別影響生長(zhǎng)性狀候選基因有直接聯(lián)系的SNPs子集的有效方法。在三種方法中,RF和GB在預(yù)測(cè)準(zhǔn)確性方面始終優(yōu)于XGBoost。2020年,Abdollahi-Arpanahi等[33]使用真實(shí)和模擬數(shù)據(jù)集比較了兩種深度學(xué)習(xí)方法(MLP、CNN)、兩種集成學(xué)習(xí)方法(RF、GB)和兩種傳統(tǒng)方法(GBLUP、BayesB)在公牛受胎率上的預(yù)測(cè)準(zhǔn)確性,結(jié)果表明在真實(shí)數(shù)據(jù)集中,GB獲得最佳預(yù)測(cè)相關(guān)性,在模擬加入顯性和上位效應(yīng)顯示出相同的結(jié)果,但在僅考慮加性效應(yīng)時(shí),傳統(tǒng)方法優(yōu)于其他方法。2021年,Srivastava等[32]評(píng)估了RF、XGB、SVM三種機(jī)器學(xué)習(xí)方法在韓牛四個(gè)胴體性狀中的預(yù)測(cè)能力,并與GBLUP進(jìn)行比較。結(jié)果發(fā)現(xiàn),XGB在胴體重和大理石花紋評(píng)分性狀中展現(xiàn)出最好的預(yù)測(cè)性,但根據(jù)預(yù)測(cè)的MSE,并沒有發(fā)現(xiàn)機(jī)器學(xué)習(xí)方法優(yōu)于GBLUP。Liang等[42]于2021年發(fā)表了應(yīng)用SVR、KRR和RF的集成學(xué)習(xí)算法Adaboost.RT來預(yù)測(cè)中國(guó)西門塔爾肉牛的三種經(jīng)濟(jì)性狀(胴體重、活重和眼肌面積)的基因組育種值。結(jié)果表明,機(jī)器學(xué)習(xí)方法優(yōu)于GBLUP,其中,Adaboost.RT的可靠性與KRR相當(dāng),穩(wěn)定性更高。Liang等[43]又通過集成3種基礎(chǔ)學(xué)習(xí)器(SVR、KRR)和彈性網(wǎng)絡(luò)(Elastic net,EN)構(gòu)建了一個(gè)堆疊集成學(xué)習(xí)框架(Stacking ensemble learning framework,SELF),在相同西門塔爾牛數(shù)據(jù)集中比較各算法的預(yù)測(cè)準(zhǔn)確性。結(jié)果表明,在所有性狀中,SELF的預(yù)測(cè)準(zhǔn)確性均優(yōu)于GBLUP。2022年,Liang等[44]在西門塔爾牛基因組選擇中整合基因組和轉(zhuǎn)錄組數(shù)據(jù),利用余弦核分別將其映射為G矩陣和T矩陣,并與最佳線性無偏預(yù)測(cè)相結(jié)合。結(jié)果表明,在GS中包含轉(zhuǎn)錄組數(shù)據(jù)有可能提高準(zhǔn)確性。總體而言,機(jī)器學(xué)習(xí)在牛基因組選擇上的應(yīng)用與進(jìn)展領(lǐng)先于其他畜種,應(yīng)用機(jī)器學(xué)習(xí)整合畜禽多組學(xué)數(shù)據(jù)將是基因組選擇的熱點(diǎn)。常用于基因組選擇的機(jī)器學(xué)習(xí)算法可以大致總結(jié)為SVR、KRR、集成學(xué)習(xí)和深度學(xué)習(xí)四大類。機(jī)器學(xué)習(xí)方法相較于傳統(tǒng)模型展現(xiàn)出顯著的優(yōu)勢(shì),但是仍沒有統(tǒng)一的算法或者策略出現(xiàn)在基因組選擇工作中。因此,對(duì)比不同算法的性能和穩(wěn)定性,以及在不同數(shù)據(jù)集和條件下的泛化能力,仍然是這一領(lǐng)域需要深入研究的方向。
3.2 機(jī)器學(xué)習(xí)在豬基因組選擇上的應(yīng)用
現(xiàn)階段機(jī)器學(xué)習(xí)在豬基因組選擇的研究與應(yīng)用中,重點(diǎn)關(guān)注于生長(zhǎng)繁殖性狀和抗病性狀的分析。2011年,Gonzlez-Recio和Forni[31]展示了貝葉斯回歸的兩個(gè)閾值版本(BayesA和Bayes LASSO)和兩種ML算法(Boosting和RF)在分析離散性狀時(shí)的性能表現(xiàn)。結(jié)果表明,對(duì)于純種豬,RF在正確分類抗性和陰囊疝易發(fā)性方面優(yōu)于其他方法,對(duì)雜交豬來說,Boosting和BayesA方法更準(zhǔn)確。2018年,Waldmann[38]將dropout技術(shù)應(yīng)用于神經(jīng)網(wǎng)絡(luò)并產(chǎn)生近似貝葉斯神經(jīng)網(wǎng)絡(luò)(approximate bayesian neural network,ABNN)模型,在模擬數(shù)據(jù)和真實(shí)豬數(shù)據(jù)上與GBLUP和Bayes LASSO方法相比。結(jié)果顯示,ABNN具有較低的預(yù)測(cè)誤差,并且簡(jiǎn)單的淺層網(wǎng)絡(luò)優(yōu)于更深和更復(fù)雜的結(jié)構(gòu),同時(shí)ABNN中的權(quán)重分量還可以提供有關(guān)SNP重要性的信息。2020年,Zhao等[45]在已發(fā)表的豬數(shù)據(jù)中對(duì)比評(píng)價(jià)SVM模型最優(yōu)的核函數(shù)與超參數(shù),并與GBLUP和BayesR模型在預(yù)測(cè)準(zhǔn)確性、時(shí)間和使用內(nèi)存方面進(jìn)行比較。結(jié)果表明,SVM模型的預(yù)測(cè)結(jié)果與GBLUP和BayesR非常相似,但在某些性狀中優(yōu)于其他兩個(gè)模型。Waldmann等[37]將CNN與L1范數(shù)正則化、貝葉斯優(yōu)化相結(jié)合,并將其命名為CNNGWP(convolutional neural network for genome-wide prediction)。結(jié)果顯示CNNGWP相對(duì)于GBLUP、Bayes LASSO兩種傳統(tǒng)方法在預(yù)測(cè)誤差上有顯著改善。2022年,Wang等[17]對(duì)大白豬的兩個(gè)繁殖性狀(總產(chǎn)仔數(shù)和產(chǎn)活仔數(shù))分別應(yīng)用SVR、KRR、RF、Adaboost.R2四種機(jī)器學(xué)習(xí)方法進(jìn)行基因組預(yù)測(cè),并在預(yù)測(cè)性能上與GBLUP、SSGBLUP以及BayesHE方法比較。結(jié)果表明,ML方法優(yōu)于3種傳統(tǒng)方法,基因組預(yù)測(cè)準(zhǔn)確性高并產(chǎn)生較低的MSE。在ML方法中,Adaboost.R2-KRR在研究中始終表現(xiàn)良好。2023年,Xiang等[46]使用RF、SVM、XGBoost和CNN在兩個(gè)豬數(shù)據(jù)集中進(jìn)行基因組數(shù)據(jù)特征選擇以及基因組預(yù)測(cè)。結(jié)果表明,SVM算法的效果最好,使用XGBoost進(jìn)行特征選擇后結(jié)合SVM算法得到了最穩(wěn)定和最準(zhǔn)確的結(jié)果。陳健梅[47]通過使用傳統(tǒng)GS方法(BLUP和Bayes)以及ML方法(SVR和CNN)對(duì)大白豬群體的3個(gè)繁殖性狀進(jìn)行了基因組選擇準(zhǔn)確性的評(píng)估。結(jié)果顯示,ML方法在基因組選擇準(zhǔn)確性上更具有優(yōu)勢(shì),尤其是SVR的高斯核方法。與在牛基因組選擇上的應(yīng)用一樣,機(jī)器學(xué)習(xí)算法在預(yù)測(cè)豬的經(jīng)濟(jì)性狀方面也顯示出一定的成功,但對(duì)于不同性狀的最佳算法仍需根據(jù)具體情境進(jìn)行評(píng)估。
3.3 機(jī)器學(xué)習(xí)在雞基因組選擇上的應(yīng)用
目前,機(jī)器學(xué)習(xí)在雞基因組選擇中的應(yīng)用較少,主要應(yīng)用于抗病和生產(chǎn)性狀中。2007年,Long等[48]提出了一種機(jī)器學(xué)習(xí)兩步特征選擇的方法,通過選擇與后代死亡率相關(guān)的SNP,使用預(yù)測(cè)殘差平方和作為評(píng)價(jià)指標(biāo),針對(duì)肉雞早期死亡率進(jìn)行分類。結(jié)果表明,該方法選擇使用的SNP顯著提高了分類準(zhǔn)確性。2022年,丁紀(jì)強(qiáng)等[49]以白羽肉雞品系的產(chǎn)蛋性狀為研究對(duì)象,分析了機(jī)器學(xué)習(xí)算法KAML(Kinship adjusted multiple loci best linear unbaised prediction)、BLUP(PBLUP、GBLU和SSGBLUP)和Bayes(BayesA、BayesB和BayesCπ)方法對(duì)產(chǎn)蛋數(shù)和蛋重性狀的預(yù)測(cè)準(zhǔn)確性。結(jié)果顯示,Bayes方法獲得最高的育種值估計(jì)準(zhǔn)確性。2023年,Li等[50]在肉雞性狀中選取胸寬、龍骨長(zhǎng)、胸肌厚度和活重4個(gè)特征研究對(duì)胸肌重量的影響,使用MLR(Multiple linear regression)、RR(Ridge regression)、LASSO、EN、SVM、RF和XGBoost等8種方法,建立模型并預(yù)測(cè)探索胸肌重量與4個(gè)特征之間的最佳回歸關(guān)系。得出的結(jié)論是,當(dāng)4個(gè)特征都用作輸入時(shí),EN模型實(shí)現(xiàn)了最佳預(yù)測(cè)能力,并且略優(yōu)于其他模型。
4 機(jī)器學(xué)習(xí)在基因組選擇中的實(shí)現(xiàn)方式
目前,研究人員在基因組選擇上實(shí)現(xiàn)機(jī)器學(xué)習(xí)相關(guān)算法的方式基本可以分為以下3類。
第一類是Python軟件中的相關(guān)庫,如Scikit-learn[51]、Keras[52]、XGBoost[53]和LightGBM[54]等。Scikit-learn可以實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、分類、回歸、降維、模型選擇等常用的機(jī)器學(xué)習(xí)算法。在基因組選擇中常見的支持向量機(jī)回歸、隨機(jī)森林、核嶺回歸等算法均可在其中實(shí)現(xiàn)。Keras是最優(yōu)秀的深度學(xué)習(xí)框架之一,因其高度模塊化,可擴(kuò)展性等優(yōu)點(diǎn),可允許簡(jiǎn)單快速的原型設(shè)計(jì),同時(shí)支持卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),以及兩者的組合,可在CPU和GPU上無縫運(yùn)行。XGBoost和LightGBM是當(dāng)前主流的集成算法,都是基于決策樹的工具,在預(yù)測(cè)模型中增強(qiáng)了學(xué)習(xí)能力和預(yù)測(cè)能力。
第二類是R軟件中的相關(guān)包。在R軟件中,e1071、randomForest和xgboost等包可分別實(shí)現(xiàn)其代表的機(jī)器學(xué)習(xí)算法。除了經(jīng)典的機(jī)器學(xué)習(xí)包,許多研究人員針對(duì)基因組選擇開發(fā)了許多軟件包,如Yin等[55]提出了一種基于機(jī)器學(xué)習(xí)策略的GS算法,開發(fā)了KAML軟件包,其整合了交叉驗(yàn)證、多元回歸、網(wǎng)格搜索和二分法迭代等算法,其通過模型選擇過程可以自動(dòng)切換5種不同模型,能夠覆蓋各類不同復(fù)雜程度遺傳構(gòu)建的性狀。整個(gè)機(jī)器學(xué)習(xí)過程可實(shí)現(xiàn)高效并行運(yùn)算,能夠在高預(yù)測(cè)準(zhǔn)確性的同時(shí)保持較高的計(jì)算效率。BWGS[56]是一個(gè)集成R庫,可以輕松計(jì)算基因組育種值以用于GS,其包含了缺失值填充、基因型過濾和樣本降維、交叉驗(yàn)證和計(jì)算GEBV等功能。于廣寧[57]基于BGLR、pls、glmnet、randomForest、xgboost包開發(fā)了一個(gè)GS集成軟件包predhy(Genomic Prediction of Hybrid Performance),其主要通過交叉驗(yàn)證過程選擇最合適的方法和模型,然后來預(yù)測(cè)未組配雜交種的表型,進(jìn)而篩選出優(yōu)良的雜交組合,為GS分析提供了參考。
第三類是成熟的軟件或GUI(Graphics User Interface)/Web工具。早期用于GS的軟件大多是商業(yè)軟件,需要付費(fèi)使用,基本都是通過混合線性模型來評(píng)估遺傳參數(shù),建立的大多是BLUP類模型。但隨著以上兩類免費(fèi)開源軟件的R包或Python庫逐漸豐富,當(dāng)機(jī)器學(xué)習(xí)算法加入到基因組選擇中,開發(fā)軟件或工具變得簡(jiǎn)單便捷,所以近幾年大部分GS分析工具大都是由這兩種語言開發(fā)。如Zeng等[58]開發(fā)了G2PDeep,它通過交互式Web界面創(chuàng)建深度學(xué)習(xí)模型,可以使用后端插入的高性能計(jì)算資源訓(xùn)練模型。Wang等[59]基于深度學(xué)習(xí)開發(fā)了DNNGP工具,它可以處理復(fù)雜的輸入,例如基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)數(shù)據(jù),在與GBLUP、LightGBM、SVR、DLGWAS、DeepGS比較中表現(xiàn)最好,且對(duì)于模型超參數(shù)可以基于本地機(jī)器配置輕松批量調(diào)整。目前基于機(jī)器學(xué)習(xí)的基因組選擇軟件或工具還比較少,因此對(duì)于普及機(jī)器學(xué)習(xí)算法,令普通用戶可以使用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)基因組選擇仍有一定的門檻或還有很長(zhǎng)一段路需要走。
5 機(jī)器學(xué)習(xí)在畜禽基因組選擇中的問題與展望
目前大量研究已經(jīng)表明機(jī)器學(xué)習(xí)方法在畜禽育種中是一種良好的競(jìng)爭(zhēng)方法,在處理更大的數(shù)據(jù)和更多的參數(shù)中有獨(dú)特的優(yōu)勢(shì),尤其在有非加性基因效應(yīng)作用下,機(jī)器學(xué)習(xí)方法比傳統(tǒng)方法展現(xiàn)出更好的性能。但僅在加性效應(yīng)作用下,機(jī)器學(xué)習(xí)沒有展現(xiàn)出突出的優(yōu)勢(shì),另外機(jī)器學(xué)習(xí)的預(yù)測(cè)性能仍然受到遺傳力、QTL數(shù)量等影響,導(dǎo)致機(jī)器學(xué)習(xí)在一些方面表現(xiàn)與傳統(tǒng)方法相似甚至略差。ML算法也存在一些局限性,例如,算法缺乏遺傳意義上的可解釋性,從而提供了“黑箱”行為[60]。而且,對(duì)于機(jī)器學(xué)習(xí)算法選擇合適的參數(shù)極其重要,但其往往在參數(shù)尋優(yōu)或調(diào)整參數(shù)過程中會(huì)大大增加計(jì)算的要求和時(shí)間,導(dǎo)致在計(jì)算速度上也并沒有顯著優(yōu)勢(shì)[61]。其次,畜禽基因組選擇傳統(tǒng)模型的理論或?qū)嵺`已趨于成熟,如各種理論改進(jìn)模型或加入生物學(xué)先驗(yàn)信息模型等都已大有經(jīng)驗(yàn)可談[62]。但機(jī)器學(xué)習(xí)算法在畜禽基因組選擇等方面的嘗試還較少[44],甚至大多經(jīng)驗(yàn)還需要參考晚于進(jìn)行基因組選擇的植作物方面。最后,當(dāng)傳統(tǒng)參數(shù)模型處理海量畜禽測(cè)序數(shù)據(jù)越來越受限制時(shí),研究人員使用各類降維算法(特征選擇、特征提取等)來面對(duì)這個(gè)問題[41],但目前仍沒有明確的手段或策略來更好的提高基因組選擇的準(zhǔn)確性。綜上,目前沒有一種機(jī)器學(xué)習(xí)算法或策略可以在不同性狀和群體上展現(xiàn)出穩(wěn)健的預(yù)測(cè)表現(xiàn),更多問題可能還要視具體情況而定。
應(yīng)用機(jī)器學(xué)習(xí)方法加快畜禽基因組選擇的發(fā)展依然面臨許多待完成的工作。首先,新的算法或模型有待探索以提升機(jī)器學(xué)習(xí)在基因組選擇中的性能,更適用于畜禽基因組選擇的機(jī)器學(xué)習(xí)軟件有待開發(fā)以降低普通用戶學(xué)習(xí)機(jī)器學(xué)習(xí)的門檻。其次,隨著多組學(xué)的發(fā)展和功能注釋信息的積累和完善,如何利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法更好、更優(yōu)地整合生物學(xué)先驗(yàn)信息成為人們必須要思考的問題。最后,隨著測(cè)序技術(shù)的不斷成熟和成本的不斷降低,數(shù)據(jù)量將級(jí)數(shù)增長(zhǎng),因此在做好模型或算法準(zhǔn)確率與效率的同時(shí),使其簡(jiǎn)潔化和便捷化也將成為新的研究趨勢(shì)。相信隨著機(jī)器學(xué)習(xí)算法的發(fā)展,畜禽育種準(zhǔn)確性及便捷性將進(jìn)一步提升,畜禽育種也將走上更科學(xué)智能的道路。
參考文獻(xiàn)(References):
[1]GODDARD ME,HAYES BJ.Genomic selection[J].J Anim Breed Genet,2007,124(6):323-330.
[2]MEUWISSEN TH E,HAYES BJ,GODDARD ME.Prediction of total genetic value using genome-wide dense marker maps[J].Genetics,2001,157(4):1819-1829.
[3]孫東曉,張勝利,張 勤,等.我國(guó)奶牛基因組選擇技術(shù)應(yīng)用進(jìn)展[J].畜牧獸醫(yī)學(xué)報(bào),2023,54(10):4028-4039.
SUN DX,ZHANG SL,ZHANG Q,et al.Application progress on genomic selection technology for dairy cattle in China[J].Acta Veterinaria et Zootechnica Sinica,2023,54(10):4028-4039.(in Chinese)
[4]邢文凱,劉 建,劉 燊,等.豬基因組選擇育種研究進(jìn)展[J].中國(guó)畜牧雜志,2021,57(7):31-37.
XING WK,LIU J,LIU S,et al.Research progress on the genomic selection breeding in swine[J].Chinese Journal of Animal Science,2021,57(7):31-37.(in Chinese)
[5]張瑞鋒,黃 珍,謝水華,等.豬全基因組選擇技術(shù)發(fā)展現(xiàn)狀和應(yīng)用前景[J].中國(guó)畜牧雜志,2023,59(10):21-29.
ZHANG RF,HUANG Z,XIE SH,et al.The development status and application prospect of genomic selection for pigs[J].Chinese Journal of Animal Science,2023,59(10):21-29.(in Chinese)
[6]成海建,姜富貴,張清峰,等.全基因組選擇技術(shù)在肉牛育種中的應(yīng)用[J].中國(guó)牛業(yè)科學(xué),2018,44(6):68-72.
CHENG HJ,JIANG FG,ZHANG QF,et al.Application of genomic selection in beef cattle[J].China Cattle Science,2018,44(6):68-72.(in Chinese)
[7]吳桂琴,閆奕源,李花妮,等.基因組選擇技術(shù)在家禽育種中的應(yīng)用[J].中國(guó)家禽,2018,40(9):1-5.
WU GQ,YAN YY,LI HN,et al.Application of genomic selection in poultry breeding[J].China Poultry,2018,40(9):1-5.(in Chinese)
[8]張統(tǒng)雨,魏 霞,張 勤,等.基因組選擇在羊育種中的應(yīng)用研究進(jìn)展[J].畜牧獸醫(yī)學(xué)報(bào),2018,49(12):2535-2542.
ZHANG TY,WEI X,ZHANG Q,et al.Progress on application of genomic selection in sheep and goat breeding[J].Acta Veterinaria et Zootechnica Sinica,2018,49(12):2535-2542.(in Chinese)
[9]宋海亮,胡紅霞.基因組選擇及其在水產(chǎn)動(dòng)物育種中的研究進(jìn)展[J].農(nóng)業(yè)生物技術(shù)學(xué)報(bào),2022,30(2):379-392.
SONG HL,HU HX.Genomic selection and its research progress in breeding of aquaculture species[J].Journal of Agricultural Biotechnology,2022,30(2):379-392.(in Chinese)
[10]李棉燕,王立賢,趙福平.機(jī)器學(xué)習(xí)在動(dòng)物基因組選擇中的研究進(jìn)展[J].中國(guó)農(nóng)業(yè)科學(xué),2023,56(18):3682-3692.
LI MY,WANG LX,ZHAO FP.Research progress on machine learning for genomic selection in animals[J].Scientia Agricultura Sinica,2023,56(18):3682-3692.(in Chinese)
[11]李 航.統(tǒng)計(jì)學(xué)習(xí)方法[M].2版.北京:清華大學(xué)出版社,2019.
LI H.Statistical learning methods[M].2nd ed.Beijing:Tsinghua University Press,2019.(in Chinese)
[12]HANSEN KB,BORCH C.The absorption and multiplication of uncertainty in machine-learning-driven finance[J].Br JSociol,2021,72(4):1015-1029.
[13]HANDELMAN GS,KOK HK,CHANDRA RV,et al.eDoctor:machine learning and the future of medicine[J].J Intern Med,2018,284(6):603-619.
[14]WEISKITTEL TM,CORREIA C,YU GT,et al.The trifecta of single-cell,systems-biology,and machine-learning approaches[J].Genes(Basel),2021,12(7):1098.
[15]BOWLER AL,POUND MP,WATSON NJ.A review of ultrasonic sensing and machine learning methods to monitor industrial processes[J].Ultrasonics,2022,124:106776.
[16]AN BX,LIANG M,CHANG TP,et al.KCRR:a nonlinear machine learning with amodified genomic similarity matrix improved the genomic prediction efficiency[J].Brief Bioinform,2021,22(6):bbab132.
[17]WANG X,SHI SL,WANG GJ,et al.Using machine learning to improve the accuracy of genomic prediction of reproduction traits in pigs[J].J Anim Sci Biotechnol,2022,13(1):60.
[18]張 哲,張 勤,丁向東.畜禽基因組選擇研究進(jìn)展[J].科學(xué)通報(bào),2011,56(26):2212-2222.
ZHANG Z,ZHANG Q,DING XD.Advances in genomic selection in domestic animals[J].Chin Sci Bull,2011,56(25):2655-2663.
[19]VANRADEN PM.Efficient methods to compute genomic predictions[J].J Dairy Sci,2008,91(11):4414-4423.
[20]LEGARRA A,AGUILAR I,MISZTAL I.A relationship matrix including full pedigree and genomic information[J].J Dairy Sci,2009,92(9):4656-4663.
[21]王重龍,丁向東,劉劍鋒,等.基因組育種值估計(jì)的貝葉斯方法[J].遺傳,2014,36(2):111-118.
WANG CL,DING XD,LIU JF,et al.Bayesian methods for genomic breeding value estimation[J].Hereditas(Beijing),2014,36(2):111-118.(in Chinese)
[22]HABIER D,F(xiàn)ERNANDO RL,KIZILKAYA K,et al.Extension of the Bayesian alphabet for genomic selection[J].BMC Bioinformatics,2011,12:186.
[23]YI NJ,XU SZ.Bayesian LASSO for quantitative trait loci mapping[J].Genetics,2008,179(2):1045-1055.
[24]MOSER G,LEE SH,HAYES BJ,et al.Simultaneous discovery,estimation and prediction analysis of complex traits using aBayesian mixture model[J].PLoS Genet,2015,11(4):e1004969.
[25]GONZáLEZ-RECIO O,ROSA GJ M,GIANOLA D.Machine learning methods and predictive ability metrics for genome-wide prediction of complex traits[J].Livest Sci,2014,166:217-231.
[26]CORTES C,VAPNIK V.Support-vector networks[J].Mach Learn,1995,20(3):273-297.
[27]VAPNIK VN.Methods of function estimation[M]//VAPNIK VN.The Nature of Statistical Learning Theory.2nd ed.New York:Springer,2000:181-224.
[28]梁 忙.基于機(jī)器學(xué)習(xí)算法的全基因組選擇研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2021.
LIANG M.The algorithms research for genomic selection study based on machine learning[D].Beijing:Chinese Academy of Agricultural Sciences,2021.(in Chinese)
[29]BREIMAN L.Random forests[J].Mach Learn,2001,45(1):5-32.
[30]CHEN X,ISHWARAN H.Random forests for genomic data analysis[J].Genomics,2012,99(6):323-329.
[31]GONZáLEZ-RECIO O,F(xiàn)ORNI S.Genome-wide prediction of discrete traits using Bayesian regressions and machine learning[J].Genet Sel Evol,2011,43(1):7.
[32]SRIVASTAVA S,LOPEZ BI,KUMAR H,et al.Prediction of Hanwoo cattle phenotypes from genotypes using machine learning methods[J].Animals(Basel),2021,11(7):2066.
[33]ABDOLLAHI-ARPANAHI R,GIANOLA D,PE?AGARICANO F.Deep learning versus parametric and ensemble methods for genomic prediction of complex phenotypes[J].Genet Sel Evol,2020,52(1):12.
[34]OGUTU JO,PIEPHO HP,SCHULZ-STREECK T.A comparison of random forests,boosting and support vector machines for genomic selection[J].BMC Proc,2011,5Suppl3(Suppl3):S11.
[35]WALDMANN P.Genome-wide prediction using Bayesian additive regression trees[J].Genet Sel Evol,2016,48(1):42.
[36]RUMELHART DE,HINTON GE,WILLIAMS RJ.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.
[37]WALDMANN P,PFEIFFER C,MéSZáROS G.Sparse convolutional neural networks for genome-wide prediction[J].Front Genet,2020,11:25.
[38]WALDMANN P.Approximate Bayesian neural networks in genomic prediction[J].Genet Sel Evol,2018,50(1):70.
[39]PéREZ-ENCISO M,ZINGARETTI LM.A guide on deep learning for complex trait genomic prediction[J].Genes(Basel),2019,10(7):553.
[40]LONG NY,GIANOLA D,ROSA GJ M,et al.Application of support vector regression to genome-assisted prediction of quantitative traits[J].Theor Appl Genet,2011,123(7):1065-1074.
[41]LI B,ZHANG NX,WANG YG,et al.Genomic prediction of breeding values using asubset of SNPs identified by three machine learning methods[J].Front Genet,2018,9:237.
[42]LIANG M,MIAO J,WANG XQ,et al.Application of ensemble learning to genomic selection in Chinese Simmental beef cattle[J].J Anim Breed Genet,2021,138(3):291-299.
[43]LIANG M,CHANG TP,AN BX,et al.A stacking ensemble learning framework for genomic prediction[J].Front Genet,2021,12:600040.
[44]LIANG M,AN BX,CHANG TP,et al.Incorporating kernelized multi-omics data improves the accuracy of genomic prediction[J].J Anim Sci Biotechnol,2022,13(1):103.
[45]ZHAO W,LAI XS,LIU DY,et al.Applications of support vector machine in genomic prediction in pig and maize populations[J].Front Genet,2020,11:598318.
[46]XIANG T,LI T,LI JL,et al.Using machine learning to realize genetic site screening and genomic prediction of productive traits in pigs[J].FASEB J,2023,37(6):e22961.
[47]陳健梅.大白豬繁殖性狀的全基因組關(guān)聯(lián)分析和基因組選擇研究[D].鄭州:河南農(nóng)業(yè)大學(xué),2023.
CHEN JM.Genome-wide association study and genomic selection for reproductive traits in large white pigs[D].Zhengzhou:Henan Agricultural University,2023.(in Chinese)
[48]LONG N,GIANOLA D,ROSA GJ M,et al.Machine learning classification procedure for selecting SNPs in genomic selection:application to early mortality in broilers[J].J Anim Breed Genet,2007,124(6):377-389.
[49]丁紀(jì)強(qiáng),李慶賀,張高猛,等.比較機(jī)器學(xué)習(xí)等算法對(duì)肉雞產(chǎn)蛋性狀育種值估計(jì)的準(zhǔn)確性[J].畜牧獸醫(yī)學(xué)報(bào),2022,53(5):1364-1372.
DING JQ,LI QH,ZHANG GM,et al.Comparing the accuracy of estimated breeding value by several algorithms on laying traits in broilers[J].Acta Veterinaria et Zootechnica Sinica,2022,53(5):1364-1372.(in Chinese)
[50]LI ZD,ZHENG JM,AN BX,et al.Several models combined with ultrasound techniques to predict breast muscle weight in broilers[J].Poult Sci,2023,102(10):102911.
[51]PEDREGOSA F,VAROQUAUX G,GRAMFORT A,et al.Scikit-learn:machine learning in python[J].J Mach Learn Res,2011,12:2825-2830.
[52]CHOLLET F.Keras[Z].GitHub,2015.
[53]CHEN TQ,GUESTRIN C.XGBoost:a scalable tree boosting system[C]//Proceedings of the22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco,California,USA:Association for Computing Machinery,2016:785-794.
[54]KE GL,MENG Q,F(xiàn)INLEY T,et al.LightGBM:a highly efficient gradient boosting decision tree[C]//Proceedings of the31st International Conference on Neural Information Processing Systems.Long Beach,California,USA:Curran Associates Inc.,2017:3149-3157.
[55]YIN LL,ZHANG HH,ZHOU X,et al.KAML:improving genomic prediction accuracy of complex traits using machine learning determined parameters[J].Genome Biol,2020,21(1):146.
[56]CHARMET G,TRAN LG,AUZANNEAU J,et al.BWGS:a Rpackage for genomic selection and its application to awheat breeding programme[J].PLoS One,2020,15(4):e0222733.
[57]于廣寧.全基因組預(yù)測(cè)軟件包predhy的研發(fā)及其應(yīng)用[D].揚(yáng)州:揚(yáng)州大學(xué),2023.
YU GN.Development and application of genomic prediction software package predhy[D].Yangzhou:Yangzhou University,2023.(in Chinese)
[58]ZENG S,MAO ZT,REN YJ,et al.G2PDeep:a web-based deep-learning framework for quantitative phenotype prediction and discovery of genomic markers[J].Nucleic Acids Res,2021,49(W1):W228-W236.
[59]WANG KL,ABID MA,RASHEED A,et al.DNNGP,a deep neural network-based method for genomic prediction using multi-omics data in plants[J].Mol Plant,2023,16(1):279-293.
[60]ALVES AA C,ESPIGOLAN R,BRESOLIN T,et al.Genome-enabled prediction of reproductive traits in Nellore cattle using parametric models and machine learning methods[J].Anim Genet,2021,52(1):32-46.
[61]LIANG M,AN BX,LI KA N,et al.Improving genomic prediction with machine learning incorporating TPE for hyperparameters optimization[J].Biology(Basel),2022,11(11):1647.
[62]袁澤湖,葛 玲,李發(fā)弟,等.整合生物學(xué)先驗(yàn)信息的全基因組選擇方法及其在家畜育種中的應(yīng)用進(jìn)展[J].畜牧獸醫(yī)學(xué)報(bào),2021,52(12):3323-3334.
YUAN ZH,GE L,LI FD,et al.The Method of genomic selection by integrating biological prior information and its application in livestock breeding[J].Acta Veterinaria et Zootechnica Sinica,2021,52(12):3323-3334.(in Chinese)
(編輯 郭云雁)