999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習方法的母豬高低產分類模型研究

2021-06-08 03:41:50李喜陽李信頡趙志超李長春1劉向東1
關鍵詞:分類特征模型

李喜陽,李信頡,趙志超,李長春1,,劉向東1,

1.華中農業大學動物科學技術學院/農業動物遺傳育種與繁殖教育部重點實驗室,武漢 430070; 2.農業農村部生豬健康養殖重點實驗室/廣西揚翔股份有限公司,貴港 537100

母豬的產仔數性狀是豬場生產成績和母豬繁殖力的重要評定指標,據統計許多國家商業母豬群體的年淘汰率在20%~50%,其中產仔數性狀差是母豬淘汰的主要原因之一[1]。母豬的高繁殖力直接決定了規模豬場的經濟效益。因此,早在1980年,為選育出高繁殖力的母豬群體,歐洲畜產協會統一了母豬產仔數性狀的記錄方法并將其標準化,最早選育母豬的指標包括總產仔數(total number born,TNB)、產活仔數(number born alive,NBA)和健仔數(number healthy piglets,NHP)等[2]。此外,Nielsen等[3]和Su等[4]研究發現5日齡活仔數(number 5 day,N5D)與仔豬成活率之間存在中等遺傳相關,對該指標的遺傳改良將有利于提高仔豬成活率。因此,構建以上產仔數性狀的分類模型,將有利于挖掘影響母豬生產水平的相關因素。

機器學習顧名思義就是讓計算機學習,專門研究計算機怎樣模擬或實現人類的學習行為,其不僅包含統計學知識,還是多學科知識交互應用的代表,例如其包含有大量的算法理論、概率論以及逼近理論等[5]。隨著畜牧業的快速發展,所要處理和分析的數據量愈發龐大、數據結構愈發復雜,使得機器學習方法在畜牧領域得到了廣泛應用。Bakoev等[6]以豬的生長和肉質特征為指標,利用9種不同的機器學習分類算法來評估豬的四肢狀態。Messad等[7]利用梯度提升方法鑒定到的重要特征可作為豬飼料效率的可靠預測因子。Shahinfar等[8-9]利用綿羊的生產管理數據,通過不同機器學習方法構建了綿羊早期胴體性狀和綿羊羊毛質量的預測模型,取得了不錯的預測效果。Tusell等[10]基于豬的表型數據和基因組數據利用支持向量機預測豬的飼料效率和生長速度。李信頡等[11]使用幾種不同的機器學習方法對母豬的產仔數性狀進行預測。然而,之前的研究更多是對動物表型或經濟性狀的回歸分析,涉及分類的研究較少。

因此,為探究影響母豬生產性能的相關因素(特征),篩選最佳的建模方法,本研究收集整理了包含以上產仔數性狀的母豬群體數據集,針對不同產仔數指標制定母豬高低產的分類標準,利用4種不同的機器學習算法(邏輯回歸、決策樹、隨機森林和支持向量機)構建母豬高低產的分類模型,并進行決策樹視圖分析,以期為實現高產母豬的早期選育提供參考。

1 材料與方法

1.1 數據的預處理

本研究收集整理了廣西某豬場2016-2018年3個母豬群體的生產數據(以A、B、C數據集表示)。A數據集包含出生場地、分娩欄位、品種、第1胎初生窩重、第2胎初生窩重和第3胎的產仔數性狀,B數據集包含出生場地、分娩欄位、品種、第1胎初生窩重、第2胎初生窩重、第3胎初生窩重和第4胎的產仔數性狀,C數據集包含出生場地、分娩欄位、品種、第1胎初生窩重、第2胎初生窩重、第3胎初生窩重、第4胎初生窩重和第5胎的產仔數性狀。正態性檢驗表明各胎次產仔數性狀均近似符合正態分布。使用SPSS 19.0和Excel 2019對數據集進行預處理,剔除缺失值,并使用R軟件對不同數據集的母豬產仔數性狀進行描述性統計(表1)。

表1 不同數據集產仔數性狀的描述性統計Table 1 Descriptive statistics of litter size traits in different data set

1.2 母豬高低產分類標準的制定

結合近年來我國核心母豬的生產水平[12]制定母豬高低產的分類標準。如表2所示,以A數據集為例,總產仔數大于等于18頭、產活仔數大于等于17頭、健仔數大于等于16頭、5日齡產仔數大于等于15頭的母豬為高產母豬,其余為低產母豬,以此類推,最后將產活仔數和5日齡仔豬數歸納為一個綜合指標對所有數據集中的母豬進行再分類,形成最高產母豬。

表2 高低產母豬的分類標準Table 2 Classification standard for high and low production sows

1.3 篩選構建分類模型的重要特征

使用R軟件中的Boruta包對A、B、C 3個數據集中所包含的變量進行特征篩選[13],特征篩選結果如圖1~3所示:除C數據集中的產活仔數模型中的第1胎初生窩重外(圖3),3個數據集中所包含的其他變量對母豬產仔數性狀分類模型的構建均重要,其中出生場地的重要程度均最高。

1.4 機器學習方法

1)邏輯回歸(logistic regression,LOG)。邏輯回歸是一種應用非常廣泛的機器學習分類算法,它將數據擬合到一個logit函數中,從而完成對事件發生概率的預測。相比傳統回歸方法,邏輯回歸彌補了線性回歸無法處理分類問題的缺陷,其判別性能主要基于Sigmoid函數來實現,函數表達式如下:

通過Sigmoid函數計算特征得出相應的概率值,大于某一概率閾值的劃分為一類,小于某一概率閾值的劃分為另一類,以此來判斷樣本類別[5]。

2)決策樹(decision tree,DT)。決策樹作為最基礎、最常見的有監督學習模型,常被用于分類問題和回歸問題,它是一種以樹結構形式表達的預測分析模型,其獨特的樹型分類圖中從根節點到葉節點每一處都代表了一種特征。決策樹算法的重要理論基礎是“基尼指數”和“信息熵”,其為量化信息的分析工具。熵代表元素的隨機性程度,在數學上,它可以借助于變量的概率來計算:H=-∑p(x)log(x),其中x表示離散隨機變量,p(x)表示變量x發生的概率[14],概率越大,熵值越小,反之熵值越大。基尼系數和熵值的定義類似,基尼系數越大,熵值也越大,說明元素的隨機化程度越高。

shadowMin:陰影屬性的最小值; shadowMean:陰影屬性的均值; shadowMax:陰影屬性的最大值; 陰影屬性的最小、平均和最大值為數據集中的閾值,高于閾值水平的特征為重要特征,紅色、黃色和綠色方框代表拒絕、暫定和確認的特征; bw1:第1胎初生窩重; bw2:第2胎初生窩重; fh:分娩欄位; bre:品種; bh:出生場地; TNB:總產仔數; NBA:產活仔數; NHP:健仔數; N5D:5日齡活仔數; HY:最高產母豬。下圖同。shadowMin:Minimum value of the shadow attribute; shadowMean:Average value of the shadow attribute; shadowMax:Maximum value of the shadow attribute;the minimum,average and maximum Z values of the shadow attributes are thresholds in the data set. Features above the threshold level are important features. Red,yellow and green boxes represent rejected tentative and confirmed features; bw1:Birth weight of first litter; bw2:Birth weight of second litter; fh:Farrow herd;bre:Breed; bh:Birth herd;TNB:Total number born;NBA:Number born alive;NHP:Number healthy piglets;N5D:Number 5 day;HY:Highest yield.The same as below.

bw3:第三胎初生窩重;bw3:Birth weight of third litter.圖2 分類模型的特征篩選圖(B數據集)Fig.2 Feature screening diagram of classification model(B data set)

bw3:第三胎初生窩重 Birth weight of third litter; bw4:第四胎初生窩重 Birth weight of fourth litter.圖3 分類模型的特征篩選圖(C數據集)Fig.3 Feature screening diagram of classification model(C data set)

3)隨機森林(random forest,RF)。隨機森林是包含多棵決策樹分類器的集合學習算法,在處理決策問題時,會根據集合思想構建多個分類決策樹,同時進行決策,最后“遵循少數服從多數的原則”來確定最終結果,充分避免了單一決策樹所產生的決策偶然性,提高了分類的可信度及準確率。

1.5 分類模型性能的評估

分類模型的評估是在已知特征和類別的訓練集上構建,再利用從已知的原始數據集中拆分出一部分作為測試集對模型的分類性能進行評估,常使用混淆矩陣來計算其評估指標。本研究首先依據分類標準對A、B、C 3個數據集的產仔數性狀進行二元處理,然后對數據集隨機拆分,其中70% 的數據集作為訓練集來訓練模型,30%的數據集作為測試集來評估模型的性能。使用準確率指標對模型進行評價,準確率是指預測正確的結果占總樣本的百分比,是分類問題中最簡單最直觀的評價指標。本研究對分類準確率最高的模型比較其ROC曲線的AUC值(ROC曲線下方的面積大小)來評估模型的性能,AUC值越高則其分類模型的性能越好。

1.6 決策樹視圖分析

決策樹算法具有可視化的分析效果,使用R軟件中的rpart包對經過二元處理后的A、B、C 3個數據集進行視圖分析,找出重要的葉節點,從而分析影響母豬最高產的相關因素。

1.7 數據處理

本研究使用Microsoft Excel 2019和R 3.5.3軟件進行數據處理,其中用到的R包有Boruta(特征選擇)、rpart(決策樹)、randomForest(隨機森林)、e1071(支持向量機)及glm( )函數。

2 結果與分析

2.1 基于重要特征構建母豬高低產的最佳分類模型

按照不同的分類標準將母豬產仔數性狀進行二元處理,基于篩選出的重要特征,利用4種不同的機器學習方法構建母豬高低產分類模型,比較最佳的分類模型。如表3所示,在A數據集中所有分類標準下,機器學習方法構建分類模型的分類準確率均在71%~74%;在B數據集中所有分類標準下,機器學習方法構建分類模型的分類準確率均在73%~77%;在C數據集的所有分類標準下,機器學習方法分類模型的分類準確率均在76%~84%。

表3 不同分類模型的準確率比較Table 3 Comparison of accuracy of different classification models %

以分類準確率為評價指標,篩選出分類準確率最高的模型,對于最高分類準確率相同的模型,通過比較其ROC曲線的AUC值來確定最佳的分類模型(表4)。在不同數據集和不同分類標準下,最佳的分類模型也不同。結果如表5所示,在不同數據集的不同產仔數性狀的最佳模型中,SVM(出現6次)、DT(出現4次)、LOG(出現4次)出現的次數較多,而RF只出現1次。

表4 不同數據集中最高準確性模型的AUC值比較Table 4 Comparison of AUC values of the highest accuracy models in different data sets

表5 不同分類標準的最佳建模方法Table 5 The best modeling method of differentclassification standards

2.2 決策樹視圖分析

對A、B、C 3個數據集中的最高產母豬進行決策樹視圖分析,結果如圖4所示。對于A數據集,核心母豬的品種為大白,在1號場生產,第1胎初生窩重大于等于17 kg時其第3胎的產仔數性狀較好,結合表3可知,利用決策樹模型可推測母豬第3胎有73%的概率產活仔數在17頭以上,5日齡產仔數在15頭以上(圖4A);對于B數據集,核心母豬在1號場生產,品種為大白,第1胎初生窩重小于23 kg,第3胎初生窩重大于等于22 kg時其第4胎產仔數性狀較好,結合表3可知,利用決策樹模型可推測母豬第4胎有77%的概率產活仔數在17頭及以上,5日齡產仔數在15頭以上(圖4B);對于C數據集,核心母豬在1號場生產,第1胎初生窩重大于等于21 kg或第2胎初生窩重大于等于23 kg、第3胎初生窩重大于等于23 kg、第4胎初生窩重大于等于20 kg時其第5胎的產仔數性狀較好,結合表3可知,利用決策樹模型可推測母豬第5胎有82%的概率產活仔數在17頭以上,5日齡產仔數在16頭以上(圖4C)。

A:A數據集; B:B數據集; C:C數據集; bre:品種(L:長白豬,Y:大白豬); bh:出生場地; bw1:第1胎初生窩重; bw2:第2胎初生窩重; bw3:第3胎初生窩重; bw4:第4胎初生窩重; H:最高產母豬; L:低產母豬。A:A data set; B:B data set; C:C data set; bre:Breed (L:Landrace,Y:Yorkshire); bh:Born herd; bw1:Birth weight of first litter; bw2:Birth weight of second litter; bw3:Birth weight of third litter; bw4:Birth weight of fourth litter; H:Highest yield;L:Lowest yield.

3 討 論

本研究使用R軟件中的Boruta包篩選的重要特征包括出生場地、分娩欄位、品種和不同胎次的初生窩重,如表3所示,基于這些特征構建的母豬總產仔數、產活仔數、健仔數和5日齡仔豬數的分類模型的準確率均在71%以上,最高可達到84%,表明利用機器學習方法構建的母豬高低產分類預測模型具有一定的可靠性。李信頡等[11]比較了3種不同的機器學習方法預測生產母豬產仔數性狀的性能,發現SVM的預測性能要顯著優于KNN和DT,這與本研究結果類似。Kirchner等[16]以母豬總產仔數、產活仔數、健仔數等為預測變量,利用決策樹(DT)算法對母豬繁殖力的高低進行預測,其分類準確率在85%以上,其預測準確性與本研究較為接近。Bakoev等[6]基于豬生長和肉質特征使用多種不同的機器學習方法對豬的四肢狀態進行分類預測,發現隨機森林和K近鄰擁有更好的預測性能,這與本研究的結果有出入,可能是本研究所用到的數據結構和特征不同所致。

決策樹是近年來被廣泛應用的一種數據挖掘方法,最早被用來挖掘人類社會經濟數據中具有價值的數理模型[17]。決策樹視圖分析方法在畜牧業中的應用研究也較多,如Monteils等[18]利用決策樹視圖分析出了小母牛在生長期間有利于胴體品質的最佳飼養途徑,從而更好地指導生產,提高母牛的飼養效率。本研究首次嘗試使用決策樹視圖來分析影響母豬最高產的相關因素,結果發現在A、B數據集的最高產母豬的決策樹視圖中均顯示品種是母豬高低產劃分的重要葉節點,其中最高產母豬多為大白母豬。這與劉慶偉等[19]研究發現大白豬的產仔數性狀要顯著高于長白和杜洛克(P<0.05)、郭建鳳等[20]研究表明大約克豬和長白豬的繁殖性能要顯著高于皮特蘭和杜洛克(P<0.05)的分析結果相吻合。

此外,在不同分類標準下的最優分類模型中,SVM出現的頻次最高且均表現出較高的預測準確性,DT和LOG次之,RF出現的頻次最低(只有1次)。Fernandez-delgado等[21]通過在121個UCI數據集上進行179種分類算法的分類性能比較,發現RF的預測性能更好,這與本研究結果有出入。有研究表明隨機森林自身不能很好地處理非平衡數據且對于連續性變量處理還需要進行離散化[22-23],而本研究的A、B、C數據集中存在的不同胎次的初生窩重特征恰為連續性變量,這可能是造成此差異的原因。雖然SVM模型在不同分類標準及特征下均有較高的分類準確率,但部分SVM分類模型的AUC值要低于其他的分類模型,且對不同的產仔數性狀其最優的機器學習算法也不盡相同。事實上沒有哪種單一的分類方法是“最優的”,每種分類算法都有其特定的應用環境,要根據數據結構特點來選擇合適的模型[24]。

本研究對已有的生產母豬數據集進行特征篩選,嘗試運用4種不同的機器學習方法構建母豬高低產分類模型來對下一胎次的高低產進行預測,其預測準確率在71%以上,最高可達84%,并利用決策樹視圖探究了影響母豬高產的相關因素。然而,本研究也存在一定的局限性,如樣本量較小、分類模型的預測準確性不高、模型的泛化能力還有待驗證、所收集數據包含的變量較少等。在后續的研究中我們將進一步擴充用于構建模型的數據樣本量,收集整理更多的變量,例如母豬的發情間隔、公豬的精液品質、母豬的體況和環境數據等,嘗試用更科學的算法來構建模型以提高模型分類準確率,使得機器學習方法能夠更好地應用于養豬生產,實現高繁殖力母豬的早期選育。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 免费看的一级毛片| 亚洲最大看欧美片网站地址| 老司国产精品视频| 亚洲三级成人| 久久精品无码国产一区二区三区| 久久久久无码精品| 免费xxxxx在线观看网站| 亚洲综合激情另类专区| 91亚洲视频下载| 动漫精品中文字幕无码| 日韩高清无码免费| 40岁成熟女人牲交片免费| 国产自在线播放| 免费国产小视频在线观看| 精品伊人久久久香线蕉| 在线观看欧美精品二区| 欧美一级片在线| 亚洲一区国色天香| 日韩美一区二区| 国产a v无码专区亚洲av| 欧美日本一区二区三区免费| 亚洲色大成网站www国产| 青青青视频91在线 | av午夜福利一片免费看| 无码日韩人妻精品久久蜜桃| 国产在线观看91精品| 精品国产一二三区| 三上悠亚精品二区在线观看| 中文字幕在线看视频一区二区三区| 99re在线免费视频| www.youjizz.com久久| 国产97视频在线| 久久这里只有精品66| 日韩一区二区三免费高清| 国产精品极品美女自在线网站| 色婷婷色丁香| 呦视频在线一区二区三区| 福利姬国产精品一区在线| 亚洲IV视频免费在线光看| 国产午夜在线观看视频| 婷婷六月在线| 伊人色婷婷| 国产激爽大片高清在线观看| 日韩在线播放欧美字幕| 最近最新中文字幕在线第一页| 农村乱人伦一区二区| 欧美一级色视频| 欧美在线三级| 91亚洲影院| AV在线天堂进入| 青青草一区| 麻豆精品国产自产在线| 久久情精品国产品免费| 国模在线视频一区二区三区| 中文字幕色在线| 欧美乱妇高清无乱码免费| 精品一区二区无码av| 日本色综合网| 欧美日韩中文字幕在线| 日本免费a视频| 免费AV在线播放观看18禁强制| 久久99热66这里只有精品一| 日韩在线永久免费播放| 日本成人一区| 波多野结衣一区二区三区四区视频| 本亚洲精品网站| 米奇精品一区二区三区| 国产精品999在线| jijzzizz老师出水喷水喷出| 日本午夜精品一本在线观看| 性喷潮久久久久久久久| 亚洲无码37.| 成人中文字幕在线| 在线欧美日韩国产| 92精品国产自产在线观看| 亚洲视频欧美不卡| 99久久精品免费看国产电影| 国产凹凸视频在线观看| 国产成人久视频免费| 99久久精品免费看国产电影| 亚洲综合婷婷激情| 午夜毛片免费看|