999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工智能算法的小麥全基因組選擇育種技術(shù)研究

2022-10-14 02:44:38張樹馨范鈞瑋許雪凌杜夢涵狄玉潔劉廣臣
智慧農(nóng)業(yè)導刊 2022年19期
關(guān)鍵詞:效應模型

張樹馨,范鈞瑋,許雪凌,杜夢涵,狄玉潔,劉廣臣*

(1.魯東大學 數(shù)學與統(tǒng)計科學學院,山東 煙臺 264000;2.魯東大學 信息與電氣工程學院,山東 煙臺 264000)

小麥是我國重要的糧食作物之一,是我國人民主要食用的細糧。為了國家農(nóng)業(yè)生產(chǎn)發(fā)展,在中國現(xiàn)階段面臨人口多,耕地少的問題下,挑選出影響小麥性狀的關(guān)鍵基因序列,提高小麥產(chǎn)量,有著重要的實際意義。

小麥育種關(guān)鍵在于選擇,傳統(tǒng)育種是以親本以及雜交后代的表型為基礎(chǔ),同時結(jié)合育種材料來對優(yōu)良品種進行選擇[1]。但是通過表型選擇耗費的周期較長,而且表型受到環(huán)境與基因的共同影響,無法準確反映其遺傳特征,選擇過程存在不穩(wěn)定性。

隨著育種技術(shù)的發(fā)展及大數(shù)據(jù)時代的到來,人們對育種的研究不斷深入,研究重點也從表型層面轉(zhuǎn)入到分子層面。全基因組選擇(Genomic Selection,GS)是Meuwissen[2]提出的一種選擇育種方法[2],是指利用覆蓋整個基因組的遺傳標記信息來對未知表型的個體育種值進行的估計,其作為一種高效育種方法,通過早期選擇縮短世代間隔,提高育種值估計準確性,加快遺傳進展,逐漸替代了傳統(tǒng)育種方式。

現(xiàn)階段用于GS 的研究方法主要有BLUP 法,Bayes法,機器學習等。BLUP 系列模型方面,Henderson 提出基于系譜矩陣(A 矩陣)的BLUP(Best Linear Unbiased Prediction)模型,其通過對育種值進行估計,明顯提升了遺傳進展。VanRaden 提出的基于全基因組標記的GBLUP(Genomic Best Linear Unbiased Prediction)模型[3],在大部分情況下,準確性優(yōu)于傳統(tǒng)BLUP 方法[4]。Zhang[5]提出TABLUP 模型,加入權(quán)重進行計算,從而減少了無效標記所帶來的影響,增加有效標記的重要性。Edwards 等[6]提出GFBLUP(Genomic feature BLUP)模型,將GBLUP 中隨機效應增加到2 個,使模型更加靈活。Bayes 系列模型方面,Meuwissen 等[7]提出BayesA 和BayesB 模型,二者標記均服從先驗分布。Park 等[8]提出Bayesian LASSO 模型,Bayesian LASSO 準確性高,但迭代次數(shù)多,耗時較長[9]。Verbyla 提出BayesC 模型,在BayesB 模型上對其中的pi進行改進。Habier 等[10]在BayesC 基礎(chǔ)上對pi 進一步優(yōu)化,提出BayesCpi,BayesDpi 模型,具有更強的靈敏性。

機器學習(Machine Learning)模型方面,目前支持GS 的機器學習方法主要有隨機森林(Random Forest,RF)模型[11],支持向量機(Support Vector Machine,SVM)模型[12]等。與傳統(tǒng)的全基因組選擇方法相比,機器學習算法能夠提高計算效率,提供較高的預測精度。對于“大p 小n”問題,機器學習也可通過優(yōu)化算法來解決,整個過程計算效率較高;同時在選取模型時運用交叉驗證,充分利用樣本信息,提高預測的準確性。

1 數(shù)據(jù)來源和預處理

1.1 數(shù)據(jù)來源

本研究所用的小麥基因組數(shù)據(jù)來源于文獻[13](http://www.isbreeding.net/wheatGS/),所研究的小麥群體一共包含166 份材料。研究了6 個相關(guān)性狀,分別是籽粒產(chǎn)量(Grain Yield,GY)、抽穗天數(shù)(Heading Date,HD)、株高(Plant Height,PH)、穗長(Spike Length,SL)、千粒重(Thousand Kerner Weight,TKW)和每平方穗數(shù)(Spike Number,SN)。通過提取每一個品系的單株DNA進行基因型鑒定,一共獲得81 587 個SNP 標記[13]。

1.2 數(shù)據(jù)預處理

對上述小麥數(shù)據(jù)集的基因型數(shù)據(jù)進行編碼,對每一個位點的基因做如下處理:若存在缺失且缺失數(shù)量大于總樣本數(shù)的10%,則將該列刪除;若存在缺失但缺失數(shù)量小于總樣本數(shù)的10%,則以該列眾數(shù)對缺失基因型信息的位點進行替換。

2 全基因組選擇模型

2.1 傳統(tǒng)育種模型原理簡介

(1)GBLUP 模型。GBLUP 是一種線性混合模型,通過群體標記信息構(gòu)建的親緣關(guān)系矩陣,以及估計方差組分,對個體育種值直接進行預測,又稱為直接法。GBLUP的先驗假設(shè)適合由多微效基因控制的性狀,對于由少數(shù)大效應標記控制的性狀,預測準確性較差。

(2)BayesA 模型。BayesA 的標記效應估計模型如下

式中:y 是表型值;μ 是總體均值;X 是標記效應的設(shè)計矩陣;gi是第i 個標記的效應;gi~N(),其中效應方差服從卡方分布;m 是總標記的數(shù)量;e 表示殘差向量。

2.2 機器學習模型原理

(1)RBF-SVR 模型,SVR(Support Vector Regression)支持向量回歸,是支持向量機(SVM)的重要應用分支。使用SVR 作回歸分析,要找出一個最佳的條狀區(qū)域,再對區(qū)域外的點進行回歸。與SVM 一樣,需要利用核函數(shù)將低維空間映射到高維空間,這里選擇高斯徑向基函數(shù)(RBF)。

(2)XGBoost 模型,XGBoost(eXtreme Graident Boosting)極致梯度提升,是基于GBDT 的一種算法。XGBoost 進行許多優(yōu)化,比如:利用二階泰勒公式展開,優(yōu)化損失函數(shù),提高計算精確度;利用正則項簡化模型,避免過擬合;采用Blocks 存儲結(jié)構(gòu),可以并行計算等。

(3)LightGBM 模型,LightGBM(Light Gradient Boosting Machine)是一個實現(xiàn)GBDT 算法的框架,可以快速處理海量數(shù)據(jù)。LightGBM 方法采用histogram 算法,占用內(nèi)存低,數(shù)據(jù)分割的復雜度更低;采用leaf-wise 生長策略,循環(huán)迭代,同時引入了一個閾值進行限制,防止過擬合。

(4)Linear-SVR 模型,Linear-SVR 可以有效捕捉樣本的局部變化趨勢,從而提高模型的預測精度。其選取每個測試樣本的K 個相鄰的樣本,對這K 個樣本使用SVR進行回歸建模,利用所建立的模型對其進行預測,每個測試樣本均執(zhí)行上述步驟,直到所有樣本預測完成。

(5)Ridge 模型,嶺回歸是一種用于回歸的線性模型,該模型可以寫為

式中:y 是表型值;X 是固定效應的設(shè)計矩陣;β 是標記固定效應的向量;Z 是隨機效應設(shè)計的矩陣;μ 是隨機效應的向量;ε 是隨機殘差。

2.3 模型訓練和調(diào)參

在基于人工智能算法的小麥全基因組選擇育種模型的訓練過程中,為了提高模型預測的準確性和時效性,筆者通過隨機搜索對配置的參數(shù)進行調(diào)整,在此過程中,關(guān)注的主要參數(shù)以及對應6 個性狀采用的參數(shù)最優(yōu)值見表1。

表1 全基因組選擇模型參數(shù)表

3 模型結(jié)果

本研究評估了Linear-SVR,RBF-SVR,Ridge,Light-GBM,XGBoost,GBLUP,BayesA 7 個模型對小麥基因組預測準確性比較。研究隨機抽取90%的樣本作為測試集,10%的樣本作為驗證集,同時考慮到計算的準確性及效率,采用十輪十折交叉驗證。對于5 個機器學習模型及2 個傳統(tǒng)育種模型對小麥6 個性狀的預測精度見表2。

表2 多性狀的預測表現(xiàn)

從表2 中可看出,6 個性狀的最佳模型分別為Ridge,GBLUP,Ridge,GBLUP,Ridge,Linear-SVR。其中TKW 的Ridge 模型預測準確性最高,達到0.693。除去SN 以外,所有性狀的最高預測準確性均達到0.6 以上。

4 結(jié)束語

為積極響應國家號召保障糧食安全,提高小麥產(chǎn)量,進一步提升育種技術(shù),本文通過冬小麥的6 個不同性狀對5 種機器學習模型與2 種傳統(tǒng)模型進行了對比。考慮到不同方法之的間比較,GBLUP 的預測準確性最高,其次為Ridge。考慮到每個性狀的前3 個精度,Ridge 的表現(xiàn)優(yōu)于GBLUP,有著更強的穩(wěn)定性;其次傳統(tǒng)育種模型與機器學習模型在不同的性狀上,所呈現(xiàn)出的優(yōu)勢并不相同,故現(xiàn)階段對于小麥不同性狀而言并沒有較為固定的單一模型,不同模型對不同性狀的預測表現(xiàn)具有一定程度差異。

猜你喜歡
效應模型
一半模型
鈾對大型溞的急性毒性效應
懶馬效應
場景效應
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
應變效應及其應用
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
偶像效應
主站蜘蛛池模板: 91在线国内在线播放老师| 欧美亚洲国产视频| 色综合久久无码网| 91精品啪在线观看国产91九色| 久热精品免费| 国产精品大白天新婚身材| 一级全免费视频播放| 无遮挡一级毛片呦女视频| 成人一级黄色毛片| 六月婷婷精品视频在线观看| 国产噜噜在线视频观看| 亚洲系列无码专区偷窥无码| 人与鲁专区| 日韩精品一区二区三区中文无码 | 国产你懂得| 亚洲熟女中文字幕男人总站| 色综合成人| 日韩精品无码免费一区二区三区 | 91精品专区| 好吊妞欧美视频免费| 国产剧情无码视频在线观看| 中文字幕无码中文字幕有码在线| aa级毛片毛片免费观看久| 一级不卡毛片| 黄色三级毛片网站| 中国一级特黄视频| 自拍偷拍欧美日韩| 亚洲精品视频在线观看视频| 一边摸一边做爽的视频17国产| 亚洲嫩模喷白浆| 青青青伊人色综合久久| 国产91无码福利在线| 精品国产成人a在线观看| 青青青草国产| 日韩一区二区在线电影| www.亚洲国产| 香蕉精品在线| 国产在线98福利播放视频免费| 国产亚洲欧美在线视频| 国产成人麻豆精品| 91人人妻人人做人人爽男同| 成人午夜视频免费看欧美| 波多野结衣第一页| 亚洲精品无码AⅤ片青青在线观看| 国产99视频在线| 欧美激情福利| 97亚洲色综久久精品| 国产精品刺激对白在线| 一级成人a做片免费| 72种姿势欧美久久久大黄蕉| 欧美日韩国产在线人| 亚洲区第一页| 亚洲三级影院| AV无码国产在线看岛国岛| 久久精品人妻中文系列| 一本一道波多野结衣av黑人在线| 亚洲无码高清一区二区| 一级毛片在线播放免费观看| 色偷偷综合网| 日韩欧美在线观看| 成人久久18免费网站| 久久综合AV免费观看| 国产永久在线视频| 免费人欧美成又黄又爽的视频| 国产精品自在在线午夜| 91精品最新国内在线播放| 精品99在线观看| 欧美国产在线看| 国产麻豆另类AV| 无码视频国产精品一区二区| 又黄又湿又爽的视频| 青青久视频| 又粗又硬又大又爽免费视频播放| 91精品专区| 亚洲无码精彩视频在线观看 | 99精品一区二区免费视频| 91在线视频福利| 亚洲资源站av无码网址| 国产一级毛片高清完整视频版| 国产人人干| 成人精品午夜福利在线播放| 国产午夜精品鲁丝片|