999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LightGBM和處方數據的番茄病害診斷方法

2022-11-08 02:20:40丁俊琦趙聃桐張領先
農業機械學報 2022年9期
關鍵詞:特征模型

徐 暢 丁俊琦 趙聃桐 喬 巖 張領先

(1.中國農業大學信息與電氣工程學院, 北京 100083; 2.北京市植物保護站, 北京 100029)

0 引言

作物處方數據包含作物信息、環境信息、病害信息及其診斷知識,同時基于宿主、病原體和環境的傳統流行病學和植物病理學知識為處方數據分析提供了新的研究視角。如何有效挖掘作物處方數據多源信息間的內在關系以及輔助精準診斷是一個亟待解決的問題。

基于處方數據挖掘的作物病害診斷問題可轉化為計算機領域的多分類解決方法。機器學習模型在分類方面具有計算時間短、精度高、可移植性強的優點[1]。而現實中數據量的不斷增加和數據的多元化,尤其是作物處方數據的復雜性和專業性,使傳統的分類算法不能很好地滿足現有數據的處理以及實際問題的解決需求。集成學習模型在分類問題上顯示出了極大的優勢[2],利用基礎算法的多樣性可以提高集成模型的分類準確率、泛化能力和魯棒性[3]。傳統的Boosting[4]算法(如GBDT和XGBoost)需要對每一個特征掃描所有的樣本點來選擇最佳的切分點,因此在效率和可擴展性上不能再滿足相應的需求。為了解決在大樣本、高維度數據環境下算法耗時長的問題,LightGBM[5]使用了如下兩種解決方法:梯度單邊采樣(Gradient-based one-side sampling,GOSS),對樣本進行采樣來計算梯度,而不是使用所有的樣本點計算梯度;互斥特征捆綁(Exclusive feature bundling,EFB)方法將某些特征捆綁在一起降低特征的維度,并非對所有的特征進行掃描,從而使得尋找最佳切分點的消耗減少。因此可以在大幅降低樣本處理時間復雜度的基礎上,保證LightGBM的精度穩定或提升[6]。目前,LightGBM模型已成功應用于不同領域[7-9]。

番茄是一種病害高發的作物[10],有效防治病害是番茄種植中的重要工作[11]。對此,本文以番茄病毒病、番茄晚疫病、番茄灰霉病3種常見病害為研究對象,構建基于LightGBM的番茄病害智能診斷模型,探索一種針對處方多維大數據特點的番茄病害診斷方法。

1 診斷模型建立

基于LightGBM和處方數據的番茄病害診斷流程如圖1所示。主要步驟如下:①獲取番茄病害處方原始數據。②選取實驗數據。③對數據進行統計分析,了解不同區域、不同生長期番茄病害發展情況。④對數據進行預處理(編碼等)。⑤利用RFECV和GDBT結合的方法進行特征選擇。⑥將優選后的特征作為診斷模型的輸入,比較8種常見分類模型,以最優模型作為番茄病害診斷模型。⑦輸出最終診斷結果并計算準確率。

圖1 基于LightGBM和處方數據的番茄病害診斷流程Fig.1 Flowchart of tomato disease diagnosis based on LightGBM and prescription data

1.1 作物病害處方數據集構建

本研究數據來源于北京市植物保護站提供的處方數據庫。北京市在全國首次引入國際應用生物科學中心的植物智慧解決方案和植物診所先進理念,先后建立植物診所115家,服務范圍覆蓋京郊161個鄉鎮,覆蓋率達到88.95%。以植物醫生開具處方的形式為生產者提供病害智慧診斷和防控技術咨詢。植物診所依托病害動態防控解決方案庫和標準化處方形成機制,植物醫生現場面對面為農戶開具病害診斷防控處方。基于雙向信息流的原則,開出包括問診農戶、植物診所、作物和癥狀、診斷結果和防控建議的標準化處方。同時遵循有害生物綜合治理(Integrated pest management,IPM)原則,包括預防在內,以物理防控、生物防控為主的綠色、綜合防控配套措施。植物醫生開具的所有處方經過“植物醫生填寫錄入—區級數據管理員初步協調驗證—市級數據管理員二次協調驗證”的三級數據驗證程序,合格率達 90%以上,并導入處方數據庫,處方開具流程如圖2所示。目前已經形成了127種病害綠色防控技術體系及20余萬條處方數據知識庫。

圖2 處方開具流程Fig.2 Prescribing process

本研究以番茄病毒病、晚疫病、灰霉病3種病害作為研究對象,選取2019年3月25日—2020年11月19日番茄多種病害處方數據作為作物病害處方信息的數據源。每條處方數據包含所屬區、時間、發育階段、受害部位、發生面積、發生比重、主要癥狀、問診記錄、田間癥狀分布、診斷結果、開具農藥名稱、開具農藥數量等共計7 344條處方數據,每種病害統計結果如表1所示。

表1 實驗數據統計結果Tab.1 Experimental data statistical results

1.2 實驗數據預處理

本研究數據預處理流程包括對源數據文件整理、轉換,數據清洗(刪除重復值、缺失值處理、一致化處理和異常值處理),數據統計,最后對輸出數據進行編碼(標簽編碼和One-hot編碼),如圖3所示。

圖3 處方數據預處理流程圖Fig.3 Prescription data pre-processing flowchart

1.2.1文本數據標簽編碼

根據對處方數據的分析,將所屬區域屬性對應的順義、海淀、延慶、密云、懷柔、平谷、通州、朝陽、昌平、豐臺、大興、房山12個區標注為R1~R12,將發育階段屬性對應的苗期、生長期、開花期、結果期、成熟期、收獲期6個階段標注為標簽S1~S6,將發生比重屬性對應的輕度發生、中度發生、重度發生3個比重標注為標簽P1~P3。

1.2.2文本數據One-hot編碼

One-hot編碼是將類別變量轉換為機器學習算法易于處理的數據,有利于進行損失函數或準確率計算。由于生產者對于受害部位、主要癥狀和田間癥狀分布的描述展示為多項選擇,因此對以上3個屬性的多選值進行One-hot編碼,將受害部位的根、莖基部、莖、嫩葉/樹枝、葉片、花、果實/谷粒、整株植物、嫩芽10個選項值和萎蔫、矮化、落葉、花葉、水皰狀、腐爛等27個選項值以及局部分布、分散分布、線條分布、田地邊緣、均勻分布等9個選項值進行編碼。

1.3 特征選擇方法

在作物病害處方數據集中,大量無關、冗余或噪聲特征的存在不僅會帶來維數升高的問題,還會直接影響分類器性能[12]。特征選擇通過刪除無關的冗余數據,為提高學習準確性提供了一個有效的解決方法,可以有效減少計算時間[13]。常用的特征選擇方法可以分為過濾式(Filter)、封裝式(Wrapper)和嵌入式(Embedded)[14]。而Wrapper方式的優勢在于將特征選擇問題轉化為特征子集搜索問題,采用學習器分類性能作為特征子集的評價標準[15]。GDBT是一種迭代的決策樹算法,通過多輪迭代降低偏差,達到提高分類精度的目的[16]。結合子算法的優勢,混合方法通常比傳統方法更穩健,因此可以作為本研究處方數據的特征選擇方法。

選取Wrapper方式的遞歸特征消除(RFE)與交叉驗證結合(RFECV)的方法對作物病害處方數據特征進行提取。 此時的交叉驗證(CV)為不同列(特征)的組合求均值,用于求得最優的特征數量。RFECV算法對具體作物病害處方數據特征提取分為2個階段:①RFE階段:將編碼后的原始處方數據作為模型的輸入變量,通過不斷訓練GDBT模型,根據feature_importances_屬性對特征進行重要性評級,每次訓練完成后刪除最不重要的一個或多個特征,然后對篩選出的特征集合再次進行訓練,直到遍歷完整個特征集,最終篩選出重要的特征變量個數為d。②CV階段:對于數量為d的特征集合,其所有子集的個數為2d-1,將所有由不同特征數量構成的子集依次輸入GDBT分類器,根據最高分類準確率輸出的特征子集即為最優特征子集。RFECV算法流程圖如圖4所示。

圖4 RFECV算法流程圖Fig.4 Flowchart of RFECV

1.4 基于LightGBM和處方數據的番茄病害診斷模型

1.4.1LightGBM算法

集成學習方法是指將多個學習模型組合,以獲得更好的處理效果,使組合后的模型具有更強的泛化能力。LightGBM是基于Boosting的集成量級高效梯度提升樹,具有高效、低內存、高準確率的優點,同時支持并行化學習,可以處理大規模數據。LightGBM相比于其他的Boosting集成方法,增加了梯度單邊采樣(GOSS)和互斥特征綁定(EFB)算法。

GOSS算法的主要思想是:從減少樣本角度,排除大部分小梯度的樣本,僅用剩下的樣本計算信息增益。由于梯度大的樣本點會貢獻更多的信息增益,為了保持信息增益評估的精度,GOSS保留所有的梯度較大的實例,在梯度小的實例上使用隨機采樣。

EFB算法的主要思想是:從減少特征角度,將互斥特征綁定在一起,保證信息完整性的同時提升計算效率。對于如何合并互斥特征的問題,LightGBM的解決辦法是利用直方圖(Histogram)算法,將連續的特征離散化為k個離散特征,同時構造一個寬度為k的直方圖用于統計信息(含有k個bin)。利用直方圖算法無需遍歷所有數據,只需要遍歷k個bin即可找到最佳分裂點。

1.4.2基于貝葉斯優化算法的模型參數優化

貝葉斯優化算法[17](Bayesian optimization algorithm,BOA)是用于求解表達式未知的函數極值問題的方法,在參數組合尋優問題上被廣泛應用。此方法可以利用之前已搜索的信息確定下一個搜索點,提高結果的質量以及搜索的速度,因此比網格搜索和隨機搜索更為有效,具有迭代次數少、參數粒度小等優點。貝葉斯優化算法的核心由兩部分構成:①先驗函數(Prior function,PF):對目標函數進行建模,即計算每一點處的函數值均值μ(x)和方差δ(x),通常用高斯過程回歸實現。 ②采集函數(Acquisition function,AC):通過采集函數確定下一個采樣點[18],采樣點的選擇要綜合考慮利用和探索,以保證最大限度地找到全局最優解。采集函數主要包括期望改善(Expected improvement,EI)、概率改善(Probability of improvement,PI)、置信區間上界(Upper confidence bound,UCB)等方法,本實驗選取UCB函數作為采集函數,其數學表達式為

UCB(x)=μ(x)+εδ(x)

(1)

式中ε——權重

其中,參數ε用于平衡采樣點的選擇,有助于找到全局最優值。貝葉斯優化算法具體流程為:

選擇n0個采樣點,計算f(x)在采樣點處的值

n=n0

whilen≤Ndo

根據當前采樣數據D={(xi,f(x)),i=1,2,…,n}更新p(f(x)|D)的均值和方差

根據p(f(x)|D)均值和方差計算采集函數u(x)

計算下一個采樣點處的函數值:yn=f(xn+1)

n=n+1

end while

return:argmax(f(x1),f(x2),…,f(xN))以及對應的y

算法首先初始化n0個候選解,通常在整個可行域內均勻地選取一些點。然后開始循環,每次增加一個點,直至找到N個候選解。每次尋找下一個點時,用已經找到的n個候選解建立高斯回歸模型,得到任意點處的函數值的后驗概率。然后根據后驗概率構造采集函數,尋找函數的極大值點作為下一個搜索點。接下來計算在下一個搜索點處的函數值。算法最后返回N個候選解的極大值作為最優解。

1.4.3基于LightGBM的番茄病害診斷模型

利用貝葉斯優化算法對LightGBM進行參數尋優時,以LightGBM的不同超參數組合作為自變量x,以5折交叉驗證評估得到的準確率(Accuracy)作為貝葉斯框架的輸出y。基于貝葉斯優化的LightGBM的番茄病害診斷模型具體步驟如圖5所示。

圖5 基于LightGBM的番茄病害診斷模型原理圖Fig.5 Principle of tomato disease diagnosis model based on LightGBM

1.5 評價指標

對于二分類問題,常見的評價指標是精確率、召回率、F1值和準確率[19]。

F1值可以同時兼顧分類模型的精確率和召回率,是分類問題常見的評價指標,F1值越高,表示分類器的綜合性能越好。在本研究中對于番茄的某一種病害的診斷是二分類問題,對于番茄多種病害的診斷是多分類問題。對于多分類問題,其評價指標可擴展為宏平均和加權平均。宏平均是所有類別的評價指標(精確率、召回率和F1值)的算術平均值,但是此評價方法忽略了樣本之間可能存在不平衡問題,因此加權平均在計算各個評價指標時先乘以該類在總樣本中的占比再進一步求和。

2 實驗結果與分析

2.1 特征選擇結果分析與討論

圖6為通過RFECV結合GDBT得到的特征選擇個數與模型交叉驗證準確率的關系,本研究將原始數據的50個特征變量輸入GDBT模型,前期交叉驗證準確率基本一直保持上升趨勢,說明特征越多,模型的準確率越高,模型準確率隨著特征的增加先增加后趨于平穩,經實驗得到選擇的最佳特征個數為32個,包括所屬區域、發育階段、發生面積、發生比重、受害部位(整株植物、果實/谷粒、根等5個特征)、主要癥狀(叢枝、干枯、葉斑等19個特征)、田間分布癥狀(僅個別植株、分散分布等4個特征),作為番茄病害診斷模型的輸入。

圖6 基于RFECV和GDBT的特征選擇結果Fig.6 Feature selection results based on RFECV and GDBT

2.2 模型結果與分析

2.2.1基于LightGBM的番茄病害診斷模型參數優化

通過構建LightGBM模型對3種番茄病害進行診斷,并同時基于KNN、決策樹、SVM、GDBT、隨機森林、AdaBoost和XGBoost進行建模以對比分析不同模型的分類性能,進一步驗證本文提出的基于LightGBM的模型診斷能力。利用貝葉斯優化方法對本研究建立的LightGBM模型的10個重要參數進行優化,經過5折交叉驗證獲得最優超參數,其他參數均為默認值。待優化參數、選擇范圍及最終結果如表2所示。訓練集和測試集的比例設置為7∶3。

表2 參數優化結果Tab.2 Parameter optimization results

2.2.2基于LightGBM的番茄病害診斷模型結果分析

根據表3可知,基于LightGBM的番茄病害診斷模型在番茄病毒病、番茄晚疫病和番茄灰霉病3個類別數據上均達到較好的分類效果。其中,在番茄病毒病上的分類效果最佳,精確率和召回率分別達到97.27%和94.68%,同時綜合評價指標F1值可達到95.95%。相比于番茄病毒病、番茄晚疫病和番茄灰霉病的分類效果稍顯遜色,其原因在于兩種病害均是實際田間環境中常見而難以區分的病害。兩者在發病初期在果實上以灰白色霉層出現,發病后期在葉片上以深棕色斑點出現。特別是番茄晚疫病,此病害蔓延迅猛,短期內可造成毀滅性傷害,因此利用基于LightGBM的病害診斷模型的優勢,對番茄病害及時防治具有重要現實意義。

表3 基于LightGBM的番茄病害診斷模型實驗結果Tab.3 Experimental results of tomato disease diagnosis model based on LightGBM %

2.2.3對比實驗結果分析

基于LightGBM的番茄病害診斷模型結果較優。根據表4中準確率、宏平均和加權平均 3個評價指標的結果可知,LightGBM模型整體的分類性能較好。與表4的常用機器學習方法相比較,無論是單一的機器學習模型(KNN、DT和SVM),還是基于bagging集成框架的RF算法和基于Boosting集成框架的其它算法(AdaBoost、GDBT和XGBoost),LightGBM模型的表現最佳,準確率平均高于其它模型3.65個百分點。圖7為LightGBM與其他7種機器學習方法的比較。

圖7 各算法在3種病害上的F1值和模型準確率Fig.7 F1-score of each algorithm on three kinds of diseases and model accuracy

表4 特征選擇前算法實驗結果對比Tab.4 Comparison of algorithm experimental results before feature selection %

2.2.4特征選擇結果分析

特征選擇后的LightGBM模型在保證模型準確率的基礎上降低了前期數據收集難度。本研究利用RFECV和GDBT結合的特征選擇方法,進一步減輕前期數據采集的困難,提高模型運行效率。由圖8可以看出,本文提出的特征選擇算法的可靠性和穩定性。由圖8可知,所有機器學習模型均可在一定程度上減少運行時間,實驗結果表明特征選擇前后每個模型運行時間平均降低20.37%,LightGBM模型的效果最為顯著,時間消耗減少了47.73%,模型準確率提升至89.34%。

圖8 特征選擇前后算法時間對比Fig.8 Comparison of algorithm time before and after feature selection

2.2.5LightGBM診斷模型泛化能力測試結果分析

基于LightGBM的番茄病害診斷模型具有一定實用性且泛化能力強。為驗證本研究提出模型的泛化能力和實用性,數據集增加番茄葉霉病和番茄早疫病2種番茄病害種類,數據量分別為390條和947條。由表5可以看出,本研究提出的多分類模型在番茄病害四分類和五分類的實驗效果都較佳,其中番茄病毒病、晚疫病、灰霉病和葉霉病4種病害分類的準確率達到88.37%。

表5 四分類和五分類的實驗結果Tab.5 Experimental results of four-class classification and five-class classification

3 Android客戶端構建與應用

3.1 設計目標

為研究和掌握作物多種病害發生的規律和特點,根據處方大數據分析總結的經驗,及時準確為生產者和決策者提供病害預警提示、對癥防治、科學用藥和輔助決策,結合LightGBM模型,設計適用于普通農戶行為習慣、簡明方便的“植物健康”APP界面模式。

3.2 結構與功能

針對植物醫生-農戶診斷服務流程,基于Android系統應用程序開發技術[20],選用Android Studio平臺,采用Android MVC設計模式,此模型具有耦合性低的特點,使得View(視圖)層和Model(模型)層可以很好地分離,達到解耦的目的,減少模塊代碼間的相互影響,利于開發人員維護。同時使用輕量級SQLite數據庫,實現無服務器、零配置、事務性的SQL數據庫引擎,可以按應用程序需求進行靜態或動態連接。

根據設計目標,本系統設計了2個主要功能模塊,分別是用戶功能模塊和管理員功能模塊(圖9)。

圖9 植物病害診斷系統結構與功能圖Fig.9 Functional and structure diagram of plant disease diagnosis system

3.2.1用戶功能模塊

用戶功能模塊主要包括注冊與登錄、信息管理(植物健康記錄和植物病歷管理)、信息查詢(植物醫生查詢和植物醫院查詢)、診斷功能(極速診斷和專家診斷),圖10分別是“植物健康”APP的首頁、極速診斷農戶填寫信息界面和極速診斷結果界面。農戶可登錄APP首頁選擇診斷方式,本研究主要應用于極速診斷,對于缺乏病害知識和經驗的農戶,通過簡單填寫病害相關信息,可以及時獲得基于LightGBM和處方數據的病害診斷模型提供準確的診斷結果。對于處方數據庫中不存在的特殊疾病特征,此APP還提供在線專家解答,農戶與專家的問答結果和處方過程中產生的數據也將作為快速診斷新的處方數據庫。

圖10 “植物健康”APP手機端系統相關功能界面Fig.10 Related function interfaces of “Plant Health” APP mobile terminal system

3.2.2管理員功能模塊

管理員功能模塊包括數據管理(處方數據管理和處方數據更新)和用戶管理(角色管理和權限管理)等基本功能。

4 結論

(1)以RFECV和GDBT結合的方法對番茄病害的關鍵特征進行選擇,最終原始的50個特征簡化為32個特征,作為番茄病害診斷模型的輸入。實驗結果表明特征選擇前后每個模型運行時間平均降低20.37%,其中基于貝葉斯優化的LightGBM模型在保證準確率的基礎上運行時間降低了47.73%。

(2)相比于KNN、DT、SVM、RF、GDBT、AdaBoost、XGBoost 7種常見機器學習方法,構建的基于LightGBM的番茄病害診斷模型分類性能最佳,平均高于其它模型3.65個百分點,綜合準確率達到89.34%,對于番茄病毒病診斷效果最佳,精確率和召回率分別達到97.27%和94.80%,同時F1值可達到96.02%。最后通過番茄葉霉病和番茄早疫病2種番茄病害驗證了該模型的實用性和泛化能力。本研究提出的模型可以滿足農戶對于番茄病害診斷的實際需求。

(3)結合基于LightGBM的番茄病害診斷模型,本研究構建了“植物健康”APP手機端系統,可視化展現了作物病害處方數據挖掘及診斷的實際應用場景,為實現基于處方數據的高效番茄病害診斷提供了新方法。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 一本久道久久综合多人| 久久综合AV免费观看| 欧美国产日产一区二区| 国产成人综合亚洲网址| 内射人妻无套中出无码| 国产精品久久久久久久伊一| 97精品久久久大香线焦| 欧美啪啪精品| 99er精品视频| 香蕉视频在线观看www| 日韩高清在线观看不卡一区二区| 亚洲伊人天堂| 免费看久久精品99| 99热亚洲精品6码| 2021国产在线视频| 幺女国产一级毛片| 国产成本人片免费a∨短片| 国产三级a| 国产精品视频导航| 亚洲天堂网视频| 毛片免费在线| 国产成人成人一区二区| 亚洲天堂精品在线| 国产精品手机视频一区二区| 日韩毛片免费视频| 久草中文网| 国产迷奸在线看| 免费视频在线2021入口| 18禁色诱爆乳网站| 国产高颜值露脸在线观看| igao国产精品| 国产麻豆精品久久一二三| 欧美有码在线| 国产产在线精品亚洲aavv| 亚洲午夜综合网| 性视频久久| 九色在线视频导航91| 国产精品毛片一区视频播| 亚洲精品第1页| 国产在线一区视频| 麻豆国产精品视频| 国产一区二区丝袜高跟鞋| 亚洲成a人在线播放www| 国产精品自在自线免费观看| 久久综合亚洲鲁鲁九月天| av色爱 天堂网| 亚洲欧美精品一中文字幕| 国产美女免费网站| 四虎在线高清无码| 亚洲一级毛片| AV老司机AV天堂| 国产中文在线亚洲精品官网| 性欧美在线| 久久精品嫩草研究院| 日韩精品高清自在线| jizz在线观看| 亚洲精品第一页不卡| 国产视频大全| 国产成人喷潮在线观看| 97se亚洲综合在线天天| 在线精品亚洲国产| 最新日本中文字幕| 666精品国产精品亚洲| 白浆视频在线观看| 九九精品在线观看| 国产女人爽到高潮的免费视频| 国产精品视频3p| 亚洲国产精品日韩专区AV| 在线观看亚洲天堂| 欧美精品三级在线| 亚洲国产精品一区二区第一页免 | 亚洲无码精品在线播放| 香蕉视频在线精品| a毛片在线| 四虎永久免费在线| 国产精品欧美亚洲韩国日本不卡| 沈阳少妇高潮在线| 97精品久久久大香线焦| 91久久精品国产| 怡春院欧美一区二区三区免费| 中文无码影院| 毛片在线看网站|