999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機森林算法在小麥育種輔助評價中的應用①

2018-01-08 03:12:40鄒永潘王儒敬
計算機系統應用 2017年12期
關鍵詞:分類評價

鄒永潘,王儒敬,李 偉

1(中國科學院 合肥物質科學研究院 合肥智能機械研究所,合肥 230031)

2(中國科學技術大學,合肥 230026)

隨機森林算法在小麥育種輔助評價中的應用①

鄒永潘1,2,王儒敬1,李 偉1

1(中國科學院 合肥物質科學研究院 合肥智能機械研究所,合肥 230031)

2(中國科學技術大學,合肥 230026)

為了提高育種領域選種的準確率同時縮短品種培育年限,利用改進的隨機森林算法根據小麥育種歷史數據構建評價模型. 在訓練分類器之前,利用改進的SMOTE算法來改善訓練樣本集中的非平衡現象; 在基分類器訓練完成后,測試單個分類器的性能并剔除性能較差的基分類器,實現隨機森林中基分類器的篩選. 實驗結果表明,文中提出的算法在小麥種質評價方面取得了不錯的效果,可以輔助育種工作者進行品種選育.

小麥育種評價; 非平衡數據集; 隨機森林; 改進的 SMOTE 方法

建國以來,我國在小麥育種領域取得了卓越的成就,選育出了數以千計的優良品種. 在先后經歷了20世紀50-60年代以提高抗病穩產為主的育種階段和70-80年代以矮化與高產為主的育種階段之后,從上世紀90年代開始,我國小麥育種已進入了高產品種和優質品種并進的階段[1]. 小麥育種是一個需要涉及多要素、受多方面因素綜合影響的過程,育種過程中各要素之間的相互關系以及各要素對育種結果的影響難以精確衡量,因此科學有效的種質評價方法對于尋找優質品種顯得至關重要.

傳統的作物育種評價方法多是基于育種專家多年的育種經驗對一個品種做出主觀評價,再通過來年種植下一茬作物來進行驗證. 這種方法延長了品種的選育時間,在多性狀綜合評價時由于人為因素干預過多,往往導致評價的結果不甚理想. 部分育種工作者引入了層次分析法、模糊綜合評價、灰色關聯評價等方法來對品種進行綜合評價,這些方法在評價效果上各有優勢,有效提升了作物育種評價技術的數據化、信息化程度[2,3]. 但這些方法往往需要育種專家人為設置指標的權重來顯性描述相關的專家經驗,進而來指導育種評價的相關工作,無法解釋育種經驗的合理性,且模塊化應用這些評價方法時難以實現. 劉忠強[4]將決策樹算法應用到作物育種結果評價當中,利用歷史的育種數據記錄,建立對應的評價模型,該模型綜合考慮了各個育種性狀和育種目標之間的關系,同時體現了育種專家的歷史選育經驗,可以輔助育種工作者進行育種評價. 但是,基于決策樹的評價方法需要進行大量的數據預處理工作,且容易出現過擬合[5,6]. 隨機森林算法(RF)[7]通過重采樣技術構建多個弱分類器來對結果進行預測,最終的評判結果取決于多個分類器的投票結果. RF具有較強的容錯能力且能很好的避免出現過擬合,作為機器學習領域主流算法之一,已經得到了十分廣泛的應用[8-10].

小麥選種決策過程是從大量的已培育品種中選擇出綜合性能較好的品種,可看做是一個非平衡數據集分類問題. 如果直接對原始數據進行建模,難以得到理想的模型[11],可以通過改造訓練數據來提升訓練數據的不平衡率,主要實現方式包括隨機過采樣和隨機欠采樣. 隨機過采樣可能會導致最終的分類器過分的擬合訓練數據,而隨機的欠采樣則可能導致分類器在訓練過程中失去一些多數類的信息,從而使得分類結果對多數類不利. 針對過采樣出現的問題,Chawla等人于2002年提出了SMOTE算法[12],該方法假設少數類樣本的附近仍然是少數類,為每個少數類樣本確定其K個相鄰的樣本,然后在該樣本與其近鄰樣本連線上構造“人造樣本”. 該方法解決了隨機過采樣中的過擬合問題,但是在選取近鄰樣本時,難以確定K的大小,具有一定的盲目性,此外改造后的數據集容易出現分布邊緣化問題[13].

本文將一種改進的隨機森林算法應用到小麥育種的種質評價階段. 針對歷史評價數據的不平衡現象,在預處理階段使用改進的SMOTE算法對訓練數據進行改造,使得訓練數據中的正負類分布達到平衡; 在隨機森林的決策階段,利用OOB數據計算每個基分類器的分類性能,并剔除較差的分類器,進一步提升分類器的綜合性能. 實驗結果表明,該評價方法能夠取得較準確的評價效果,可以輔助育種工作者進行優質品種的選擇.

1 相關算法介紹

1.1 隨機森林分類算法

隨機森林算法是由Breiman于2001年提出的一種機器學習算法[7],實質上是由多個決策樹構成的組合分類器,其分類結果是由各個子分類器的結果共同決定,通常是通過投票將決策票數最多的類別作為樣本的最終所屬類別. 隨機森林的構建過程: 首先,通過Bagging(Bootstrap aggreating)方法產生多個有差異的訓練樣本子集; 然后,利用隨機子空間劃分(Random subspace method)方法選擇部分屬性采用CART算法無剪枝地構建多棵分類決策樹.

自主抽樣法是從含有n個樣本的初始訓練集中有放回的隨機抽取n個樣本形成新的訓練樣本子集的過程,此處新的訓練樣本集大小和初始樣本集相等. 因為初始訓練樣本集中的每個樣本未被抽中的概率為(1?1/n)n,當n趨向于無窮大時有:

由上式,初始訓練樣本中大約36.8%的樣本不會出現在新訓練樣本集中. 初始樣本集中未被抽取到的樣本集合稱為袋外數據 (Out of bag,簡稱 OOB). 通過自助抽樣法保證了子分類器之間訓練樣本的差異.

隨機子空間的劃分策略: 從擁有M個屬性的數據集中隨機抽取m個屬性(m?M)作為候選屬性. 在隨機森林中,m的建議取值為sqrt(M)、1/2sqrt(M)或2sqrt(M)[7].

對于數據集D,其純度可以用基尼值來衡量:

pk表示在數據集D中第k類樣本占有的比例.Gini(D)反映了從數據集D中隨機抽取兩個樣本類別不一致的概率,值越小,表明數據集的純度越高.

在生成決策樹的過程中,根據屬性的基尼指數進行結點的分類,屬性a的基尼指數定義為:

在構建CART決策樹時,選擇屬性集合A中那個使得劃分后基尼指數最小的屬性作為最優劃分屬性,即:

1.2 SMOTE算法

SMOTE 算法 (Synthetic minority over-sampling technique)其本質上是隨機向上抽樣算法的改進.SMOTE算法假設與少數類樣本較近的樣本也屬于少數類,通過在樣本和其近鄰樣本連線上構造新的樣本來提升訓練數據的平衡率. 構造樣本的過程根據公式(5)來完成:

其中,Xi(i=1,2,…,n)為少數類樣本;Yij(y=1,2,…,K)表示與Xi的K個近鄰樣本中的第j個;Pij為Xi與第j個近鄰樣本合成的新樣本;rand(0,1)表示一個0到1的隨機數. 假設數據集中少數類樣本的個數為N+,多數類樣本的個數為N-,采樣率為N.

SMOTE算法的實現步驟如下:

Step 1. 計算并挑選出每個少數類樣本的K近鄰樣本;

Step 2. 將每個少數類樣本與其近鄰樣本隨機地進行組合,利用公式(5)產生新樣本;

Step 3. 判斷是否達到目標采樣率,若沒有則轉Step2,否則將所有產生的新的樣本加入訓練數據集中,程序結束.

2 隨機森林算法在小麥種質評價的應用

2.1 小麥種質評價流程

本文嘗試將隨機森林分類算法應用在小麥育種領域,輔助育種工作者選擇優質品種. 利用歷史育種數據來訓練分類模型,并根據該模型實現對新培育材料的分類預測,具體的步驟包括數據預處理、建立模型、新品種評價,流程如圖1所示.

圖1 小麥種質評價流程

2.2 數據預處理

針對小麥育種記錄數據,本文進行的數據預處理包括規范化、異常值檢測、缺失值填充、數據合成.

(1) 規范化

由于訓練數據集可能是來自不同的育種機構,對于同一個性狀的記錄可能會出現不同的描述形式,因此需要首先對記錄數據進行規范化. 主要包括計量單位的統一和表示形式的統一. 例如,對于性狀千粒重,以克計量; 對于抗病性,針對反應型以1、2、3…表示等.

(2) 異常值檢測

在實驗過程中的異常檢測主要是利用現有的育種記錄經驗來判斷記錄中是否存在不科學的記錄結果,由于育種數據來源于嚴謹的科研機構,異常記錄較少,故直接刪除含有異常值的記錄.

(3) 缺失值填充

對于存在缺失的記錄,本文使用與給定元組屬于同一類別的所有樣本的均值進行填充.

(4) 數據合成

由于小麥育種數據集中的非平衡問題,利用改進的SMOTE算法合成新的少數類樣本,改善訓練樣本集中得類別分布狀況.

2.3 改進的SMOTE算法(ISMOTE)

SMOTE算法假設少數類樣本的周圍仍然是少數類,并且在選擇k近鄰時存在一些盲目性. 事實上,大多數情況下的樣本分布并不滿足上述假設,這會導致經過SMOTE合成的樣本集會出現樣本重疊現象. 為了能夠解決訓練數據集中的非平衡問題,同時使新合成的樣本集能更加真實的反映初始數據集的分布,本文提出了一種改進的SMOTE算法. ISMOTE算法思路如下: 首先,利用k-均值聚類算法對少數類樣本進行聚類,得到k個聚類中心以及對應的簇; 然后,利用每個樣本和其對應的聚類中心合成新的樣本. 具體實現流程如下:

Step 1. 對少數類樣本利用聚類算法求得k個聚類中心X_centerj(j=1,2,…,k),將少數類樣本集分成k簇樣本Sub_Xj(j=1,2,…,k);

Step 2. 任意抽取Xi,根據 Step 1 可得到對應的聚類中心,利用如下公式合成新樣本:

式(6)中,Pij表示少數類樣本Xi與它對應的聚類中心合成的新樣本.

Step 3. 判斷是否達到目標采樣率,若沒有則轉Step 2,否則將所有產生的新的樣本加入訓練數據集中,程序結束.

經過ISMOTE算法處理之后,整個預處理過程結束,將使用新的樣本集來訓練分類模型.

2.4 改進的隨機森林算法(IRF)

在隨機森林分類中,最終的分類結果是由基分類器投票類別數最多的類,沒有考慮每個基分類器的分類性能. 隨機的抽取樣本和屬性可能會導致某些基分類器的分類性能不理想甚至很差,因此本文在利用RF進行分類決策之前先使用OOB數據對基分類器性能進行測試,剔除性能相對較差的基分類器達到提升組合分類器性能的目的. IRF的具體構造流程如圖2所示.

圖2 改進的隨機森林構造流程圖

3 實驗

文中實驗所用的原始數據來自于中國種業商務網的1112條小麥育種記錄數據,其中正類樣本數為115(假設好的品種為正類). 屬性包括成熟期、株高、千粒重、畝穗數、硬度、容重、沉淀值等24個小麥育種過程中的常見性狀,這些性狀在不同程度上反映了小麥品種的產量、抗病性和籽粒品質.

3.1 實驗數據預處理

本文在預處理中的規范化主要包括計量單位的統一和量化方式的統一. 計量單位的統一針對的性狀有:株高(cm)、千粒重(g)、畝產(Kg)和容重(g)等. 量化方式的統一主要是針對枚舉型數據,根據性狀的實際意義使用數值來進行量化表示. 例如,銹病的反應型包括{免疫,高抗,中抗,中感,高感},可以使用{1,2,3,4,5}來進行量化表示. 實驗中關于異常值檢測和缺失值處理參照文中2.2節中的方法進行處理.

3.2 參數設置

3.3 算法性能評估指標

由于小麥育種中更多的關注優質品種,故在實驗中只考量正類(少數類)有關的指標. 算法的性能評估是通過準確率P(Precision)、召回率R(Recall)、以及綜合考慮指標F1來衡量.

上式中,TP表示正確分類的正例數目,FN表示錯分為負例的正例數目,FP為錯分為正例的負例數目.

3.4 實驗及結果分析

利用Java語言在eclipse平臺通過改進weka的庫函數分別實現了RF、SMOTE+RF、ISMOTE+RF和ISMOTE+IRF. 實驗采用十折交叉驗證的方式對樣本集進行分析,并基于準確率、召回率和F1值來對分類結果進行評估. 表1為利用四種方法進行實驗的結果.

表1 四種方法實驗結果對比

從表1可以看出,由于小麥育種數據集存在非平衡問題,直接使用RF算法進行處理得到的分類模型準確率很差,也驗證了隨機森林算法在處理非平衡數據集分類問題上的局限性. 利用SMOTE+RF和ISMOTE+RF實驗之后的結果在各項指標上均有不小的提升,在一定程度上緩解了數據非平衡帶來的影響. 但是后者相對前者的分類效果更好,說明利用ISMOTE算法對少數類進行改造后的數據集比經SMOTE算法改造后的數據集更符合訓練數據的原始分布情況. 在利用IRF算法考慮基分類器單獨性能后,算法的各項性能指標均得到了小幅的提高,證明了在隨機森林中考慮基分類器的性能、剔除不好的基分類器有助于提高隨機森林的整體分類效果.

4 結語

本文嘗試將隨機森林分類算法應用于小麥種質評價中,利用歷史的選育評價數據訓練分類器,得到的組合分類器中可將每一個基分類器看做一個“專家”,對新培育材料的最終評價結果由多個“專家”共同決定.實驗結果表明,該評價方法能夠取得較好的評價效果,可以輔助育種工作者進行優質品種的選擇. 然而本文的評價方法依然存在著不足,主要體現在兩個方面: 首先,算法中的參數有待進一步優化,從而提升算法的性能; 其次,訓練數據集的樣本數量不夠、屬性集過小.為了建立穩定的、具有代表性的分類評價模型,需要進一步優化參數,同時增加訓練樣本數據以及考慮包括基因型和表現型在內的更多的品種性狀.

1 李振聲. 我國小麥育種的回顧與展望. 中國農業科技導報,2010,12(2): 1–4.

2柏流芳,呂黃珍,朱大洲,等. 農作物育種中的綜合評判方法. 農業工程,2013,3(3): 112–119.

3Smith AB,Lim P,Cullis BR. The design and analysis of multi-phase plant breeding experiments. The Journal of Agricultural Science,2006,144(5): 393–409. [doi: 10.1017/S0021859606006319]

4劉忠強. 作物育種輔助決策關鍵技術研究與應用[博士學位論文]. 北京: 中國農業大學,2016: 27–34.

5Kubal C,Haase D,Meyer V,et al. Integrated urban flood risk assessment—adapting a multicriteria approach to a city.Natural Hazards and Earth System Sciences,2009,9(6):1881–1895. [doi: 10.5194/nhess-9-1881-2009]

6Liu XP,Li X,Liu L,et al. An innovative method to classify remote-sensing images using ant colony optimization. IEEE Trans. on Geoscience and Remote Sensing,2008,46(12):4198–4208. [doi: 10.1109/TGRS.2008.2001754]

7Breiman L. Random forests. Machine Learning,2001,45(1):5–32. [doi: 10.1023/A:1010933404324]

8賴成光,陳曉宏,趙仕威,等. 基于隨機森林的洪災風險評價模型及其應用. 水利學報,2015,46(1): 58–66.

9雷震. 隨機森林及其在遙感影像處理中應用研究[博士學位論文]. 上海: 上海交通大學,2012.

10馬玥,姜琦剛,孟治國,等. 基于隨機森林算法的農耕區土地利用分類研究. 農業機械學報,2016,47(1): 297–303.[doi: 10.6041/j.issn.1000-1298.2016.01.040]

11職為梅,郭華平,范明,等. 非平衡數據集分類方法探討. 計算機科學,2012,39(6A): 304–308.

12Chawla NV,Bowyer KW,Hall LO,et al. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research,2002,16: 321–357.

13曹正鳳. 隨機森林算法優化研究[博士學位論文]. 北京: 首都經濟貿易大學,2014.

Application of the Random Forest Algorithm in Wheat Breeding Evaluation

ZOU Yong-Pan1,2,WANG Ru-Jing1,LI Wei1

1(Institute of Intelligent Machines,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China)
2(University of Science and Technology of China,Hefei 230026,China)

In order to improve the accuracy of seed selection and shorten the cultivation period of cultivars,the improved random forest algorithm is used to construct the evaluation model of the history data of wheat breeding. Before training the classifiers,the improved SMOTE algorithm is used to improve the non-balance of the training samples. After the training of the base classifiers,we test every classifier’s performance and delete bad classifiers to realize the screening of the base classifier in random forest. The experimental results show that the proposed algorithm has achieved good results in wheat germplasm evaluation,which can help to breed varieties.

wheat breeding evaluation; imbalanced datasets; random forest; improved SMOTE

鄒永潘,王儒敬,李偉.隨機森林算法在小麥育種輔助評價中的應用.計算機系統應用,2017,26(12):181–185. http://www.c-sa.org.cn/1003-3254/6162.html

中國科學院戰略性先導科技專項(XDA08040110)

2017-03-20; 修改時間: 2017-05-09; 采用時間: 2017-05-11

猜你喜歡
分類評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
中藥治療室性早搏系統評價再評價
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
給塑料分分類吧
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
主站蜘蛛池模板: 国产成人精品一区二区三在线观看| 亚洲天堂啪啪| 中文字幕在线一区二区在线| 久久久久久尹人网香蕉 | 色噜噜狠狠色综合网图区| 69综合网| 2021无码专区人妻系列日韩| 欧美高清三区| 国产三级毛片| 99久久国产自偷自偷免费一区| 欧美视频在线观看第一页| 伊人久久久久久久| 丰满人妻中出白浆| 91视频国产高清| 亚欧美国产综合| 成人午夜免费观看| 成年人视频一区二区| 黑人巨大精品欧美一区二区区| 久热re国产手机在线观看| 国产成人一区免费观看| 亚洲中文精品久久久久久不卡| 东京热av无码电影一区二区| 久热re国产手机在线观看| 亚洲人成人伊人成综合网无码| 国产精品无码制服丝袜| 国产中文一区二区苍井空| 强奷白丝美女在线观看| 国产91精品最新在线播放| 日本高清有码人妻| 亚洲AV无码乱码在线观看裸奔| 在线视频亚洲欧美| 久青草网站| 99久久国产综合精品女同| 日韩激情成人| 91视频精品| 在线视频亚洲色图| 成·人免费午夜无码视频在线观看| 久久久久免费精品国产| www欧美在线观看| 久草视频一区| 亚洲综合第一页| 亚洲一区国色天香| 亚洲人在线| 日韩午夜福利在线观看| 久草视频精品| 亚洲久悠悠色悠在线播放| 久久99热66这里只有精品一| 亚洲天天更新| 亚洲婷婷六月| 九色综合伊人久久富二代| 国产成人亚洲欧美激情| 国产xx在线观看| 97国产精品视频自在拍| 日本伊人色综合网| 亚洲成人播放| 亚洲欧美自拍中文| 精品91自产拍在线| 色综合天天综合中文网| a毛片免费在线观看| 99国产在线视频| 中文无码精品A∨在线观看不卡 | 国产无人区一区二区三区| 国产黄色免费看| 亚洲精品色AV无码看| 色成人综合| 伊人久综合| 91精品啪在线观看国产| 国产精品人成在线播放| 亚洲福利视频一区二区| 亚洲精品大秀视频| 亚洲婷婷丁香| 蜜芽国产尤物av尤物在线看| 欧美国产成人在线| 精品国产中文一级毛片在线看| 亚洲视频免费播放| 手机精品福利在线观看| 无码专区在线观看| 午夜三级在线| 韩日无码在线不卡| 九色国产在线| 亚洲水蜜桃久久综合网站| 欧美特黄一免在线观看|