基于卷積神經網絡的農作物病蟲害檢測研究進展

2024-12-31 00:00:00蔡國慶吳建軍祝玉華甄彤李智慧連一萌

山東農業科學 2024年11期

關鍵詞：農作物病蟲害檢測；卷積神經網絡；深度學習；計算機視覺

中圖分類號：S431.9 文獻標識號：A 文章編號：1001-4942（2024）11-0170-11

病蟲害是造成農作物產量和質量降低的主要原因之一，嚴重威脅著全球農業發展和糧食安全，及時監測識別并采取有效防治措施是降低農作物病蟲害危害的關鍵。植物病蟲害有許多可觀察到的癥狀，目前大多數病蟲害檢測方法是基于此進行的。其中，傳統的檢測方法一般是檢測人員目視檢查，不僅受檢測人員知識儲備的限制，而且存在誤判和效率低等不足，在規模化農業生產中的應用效果較差。隨著機器視覺和機器學習技術的發展，利用計算機視覺進行圖像識別和物體分類不斷取得突破，農作物病蟲害檢測成為該領域的一個重要研究方向，并且目前已有將其初步應用于草莓生產的報道，這對于農業生產的規模化、智能化發展具有重要意義。

機器學習（ML）是基于計算機視覺檢測農作物病蟲害的關鍵，能夠通過一系列算法經監督學習或非監督學習從圖像數據中提取特征，實現病蟲害的識別。支持向量機（SVM）是傳統機器學習常用的算法之一，應用比較廣泛。例如：Sharif等提出一種多支持向量機（M-SVM）模型，用于柑橘病害分類檢測的準確率達到97%：Ebrahi-mi等將SVM算法應用于移動機器人，用來檢測溫室草莓病蟲害。但傳統機器學習過度依賴人工特征提取，無法從原始圖像中自動學習和提取特征，且難以提取背景復雜圖像的特征信息。深度學習（DL）是一種基于人工神經網絡（ANN）的機器學習，能夠通過建立模擬人腦的神經網絡，自動從文本、聲音和圖像數據中學習并提取低級特征、中間特征和高級語義特征等多層次特征信息，具有良好的自主學習能力和特征表達能力。卷積神經網絡（CNN）是深度學習的代表算法之一，在圖像處理和分類領域展現出突出的能力，迅速成為目前最流行的圖像識別分類器，被越來越多地用于農業病蟲害檢測研究，并取得良好效果，如Turkoglu等將6個微調后的CNN模型集成后用于植物病蟲害檢測，識別準確率達到97.56%。本文即介紹了CNN技術的要點，綜述了CNN在識別農作物病蟲害方向的研究進展，并提出目前研究面臨的問題以及今后的研究方向。

1基于卷積神經網絡的農作物病蟲害檢測技術要點

卷積神經網絡是一種深度神經網絡，主要結構組成有卷積層、池化層、非線性激活層和全連接層，具有卷積層中使用共享權值、預處理量少、特征提取過程比較簡單等優點。其運行流程如圖1所示，即將預處理后的圖像輸入到網絡中，經由幾個交替排列的卷積層和池化層處理，然后由全連接層進行分類，最后輸出分類結果。

1.1卷積神經網絡的結構

1.1.1卷積層卷積層是卷積神經網絡的核心模塊，通過多個卷積層的卷積運算可以提取出輸入圖像的不同特征，其中，底層卷積一般提取共同特征，例如紋理、線條、邊緣等，卷積核可以提取圖像的邊緣信息，而上層卷積則提取更為抽象的特征。

灰度圖在計算機中是以數字矩陣的形式存儲的，每個灰度點用0～255的像素值表示。卷積層的運算本質上就是卷積核與輸入的數字矩陣的部分區域做點積運算，如圖2所示，即卷積核從數字矩陣的左上角開始，按照從左到右、從上到下的順序依次運算，最后得到結果。

1.1.2池化層池化層一般在卷積層之后，通過降低輸入圖像的維度縮減模型大小，以達到減輕計算壓力、防止過擬合、提高魯棒性的目的，并實現輸入圖像的尺度不變性、平移不變性和旋轉不變性。

平均池化與最大池化是使用最廣泛且最經典的池化方法，如圖3所示，平均池化取窗口內所有值的均值作為輸出，最大池化取窗口內的最大值作為輸出。另外還有隨機池化、混合池化、多尺度池化等多種池化方法。

1.1，3非線性激活層非線性激活層的作用是利用合適的非線性激活函數對卷積層的輸出結果進行非線性映射，以顯著提高神經網絡的性能。常見的激活函數有sigmoid函數、Tanh函數、ReLu函數、Leaky ReLu函數等。

1.1.4全連接層全連接層位于卷積神經網絡的末端，是卷積神經網絡的分類器。特征圖經過卷積層的特征提取與池化層的降維操作后轉換為一維的特征向量，由全連接層對特征向量進行整合和分類，最終輸出圖像的類別信息。

1.2數據集構建

豐富的數據集是檢測工作的基礎，然而目前還沒有一個大型、統一、全面的植物病蟲害數據集。因此，數據集創建成為影響模型訓練效果的關鍵因素。目前研究中使用的植物病蟲害數據集一般是通過自采集和網絡收集兩種方法創建。自采集是研究人員通過地面攝像機拍攝、無人機航拍及利用高光譜成像儀、近紅外光譜儀等獲取植物病蟲害圖片：網絡收集是通過網絡公共數據集如PlantVillage或其他渠道收集植物病蟲害圖片。

1.3圖像預處理

若將拍攝的植物病蟲害圖像直接用作模型的輸入，受噪聲、不良背景、低照度等因素的影響，不能獲得準確的結果。因此，圖像在輸入卷積神經網絡之前必須進行預處理，這有助于加快訓練進程并提高分類精度。常見預處理技術有灰度化、調整圖像尺寸、歸一化、標注、去噪、數據增強等（表1）。

1.4選擇或設計網絡架構

卷積神經網絡的架構在圖像識別任務中起著至關重要的作用，使用合適的網絡架構可以增強層間擬合效果，減少網絡中的冗余計算，使網絡的性能更加優越。目前大多數研究是選用成熟的網絡架構，例如AlexNet、GoogLeNet、VG-GNet、ResNet等；也有研究人員基于實際問題自己設計網絡架構，例如Wen等設計了一種基于增強超分辨率生成對抗網絡（ESRGAN）的農作物病害分類網絡，利用ESRGAN從低分辨率圖像中恢復農作物圖像，然后應用遷移學習來改善模型性能，實驗結果表明其可以顯著提高作物病害分類的準確性。每種網絡架構都有其獨特的優勢與特點，適用于特定的數據集和實驗條件，在使用時需根據實際情況選用合適的網絡架構。表2中列出了一些經典的圖像分類架構。

1.5優化算法

為了讓模型達到準確的預測判斷效果，需要通過訓練數據集對其進行訓練，然后根據訓練結果與真實數據之間的誤差調整模型參數，以將誤差減小到可接受的程度。量化誤差的數學表達式稱為損失函數，模型訓練的本質就是找到合適的模型參數使損失函數最小化。由于實際模型具有復雜性、非線性、約束性等特點，通過遍歷參數找到最優參數組合十分困難，而優化算法可以幫助模型高效、準確地找到最優的參數組合。表3列出一些常用的優化算法及其變體。

除了單獨使用一種算法優化神經網絡模型外，同時使用多種算法進行模型訓練也是一種可行的方案，而且實驗表明應用多級優化方法往往會獲得比單級優化方法更好的模型性能。例如Zhang等研究了梯度下降優化方法的組合框架和多階段組合策略，對于MNIST上的100次訓練，組合框架比非組合框架有更好的效果。

2卷積神經網絡應用于農作物病蟲害檢測的發展歷程

2.1圖像分類階段

在早期的農業病蟲害識別任務中，首要問題是如何通過圖像分類來判斷作物是否感染病害，即這一時期的任務重點在于區分健康作物與患病作物。然而傳統的圖像處理方法精度較低，且難以處理復雜的背景和病害特征。AlexNet在2012年ImageNet競賽中的勝利，不僅讓深度學習在圖像分類領域嶄露頭角，也彰顯了CNN在圖像分類任務中的卓越性能。之后，深度卷積網絡開始廣泛應用于計算機視覺領域，而這也成為卷積神經網絡在農業病蟲害圖像識別領域應用的開端，隨后GoogLeNet、VGG、ResNet等更多更深層次的CNN架構被應用到農業病蟲害分類任務中。

訓練后的CNN模型可以自動識別不同作物的病害種類，能精確判斷作物是否感染病害。李凱雨通過結合AlexNet、VGG-16和GoogLeNet三種CNN模型，實現了小麥、花生和煙草3種農作物及其7種病害的分類任務，通過引入遷移學習及微調訓練，平均識別率達到98.92%。

2.2目標檢測階段

CNN在圖像分類上取得初步成果后，病害區域的定位和檢測成為新的需求。農作物病害表征通常是以斑點或斑塊形式出現在葉片或植株表面，精準定位的難度較高，尤其在復雜背景下。而CNN模型不僅需要判斷出作物是否感染病害，還需要精確定位病害區域。R-CNN是目標檢測領域的第一代深度學習方法，它首先生成多個候選區域，然后對每個候選區域進行特征提取和分類，但是速度較慢；Faster R-CNN將目標檢測效率大幅提高：YOLO的端到端目標檢測方法則突破了檢測速度的瓶頸，在保持高精度的同時實現了實時檢測。楊文姬等基于改進YOLOv5算法，提出一種檢測蘋果與番茄病害的高性能方案，平均檢測時間為0.033s，平均準確率較基礎模型提升1.7%。目標檢測技術的發展為精準農業提供了強大的技術支持。

2.3語義分割階段

雖然目標檢測技術可以識別病害區域，但無法精確標注出病害的邊界，而在實際農業應用中，尤其是病害斑塊形狀復雜的情況下，需要更細粒度的病害信息。因此，像素級別的病害分割需求開始浮現，這推動了可對病害區域進行精確邊界劃分的語義分割技術的發展。FCN是第一個將卷積神經網絡應用于語義分割的模型，它通過移除全連接層并使用上采樣（反卷積）恢復原圖尺寸，實現了端到端的像素級分類，奠定了語義分割的基礎。隨后出現的U-Net、DeepLab等模型也相繼被應用到農作物病害分割任務中。語義分割技術不僅可以識別病害的形狀和邊界，實現對病害斑塊的精準分割，還可以同時分割多種病害斑塊，能為作物的多重病害檢測提供更多細節信息。例如王英允等提出一種改進的U-Net網絡結構，實現了蘋果葉片病害的分類與分割，平均分類精度為90.25%，平均分割精度為85.92%。

2.4多任務學習與實際應用階段

隨著農業病蟲害識別需求的提高，研究人員已不僅僅滿足于單一任務的解決方案，而是希望通過多任務學習來實現更加綜合、智能的病害診斷系統，以滿足不同的實際需求，還希望這些模型能在移動設備或其他硬件平臺上實時運行，以便在農田中進行實時監控和決策。高軒針對傳統單分類檢測任務中存在的不足，提出一種多分類學習模型Multi-Mobilenet，實現了對番茄葉片病害的分類及其嚴重程度的評估，準確率分別為98.62%和90.29%，并基于該模型搭建出番茄病害智能診斷系統，實現了模型的實際應用。

3基于卷積神經網絡的農作物病蟲害檢測研究進展

病蟲害識別技術在深度學習快速發展的驅動下不斷取得突破，不僅識別精度顯著提升，應用功能也逐步增強以適應多樣化的農業需求。本文從模型識別能力的提升、識別任務的功能拓展、模型在實際應用中的優化以及高質量數據集的構建與共享四個方面概述了基于卷積神經網絡進行農作物病蟲害識別研究的進展。

3.1模型識別能力提升

卷積神經網絡模型的識別能力對于實現病蟲害的準確識別至關重要。通過增強特征提取、改進模型結構和結合多模態數據等手段對模型性能進行優化，能夠進一步增強模型對病蟲害的準確識別能力。Chang等為了能準確分類3種易混淆的小麥銹病——條銹病、葉銹病和莖銹病，選用DenseNet121為基礎模型，通過分析分類結果，討論潛在混淆因素，然后根據討論的因素對模型進行調整和優化，最終改進的模型在不同數據集上均實現了3種小麥銹病更高的分類準確率。Fu等提出了一個基于光譜恢復的玉米病害檢測框架，通過高光譜恢復卷積神經網絡（HSCNN+）將原始RGB圖像重建為高光譜圖像作為檢測網絡輸入，然后利用CNN進行病害檢測，實現了檢測精度的有效改善，與基于原始RGB圖像的檢測結果相比提升了6.14%的檢測精度，達到與直接使用高光譜圖像相近的檢測效果。Yang等采用高光譜成像結合稀疏自編碼器和卷積神經網絡算法，實現對玉米籽粒霉變等級的有效分類，訓練集和測試集的正確識別率分別達到99. 47%和98.94%，在檢測早期霉變玉米籽粒方面表現出良好的識別能力。Wang等利用機載高光譜影像檢測小麥全蝕病（Take-All）分布，通過PROSAIL模型模擬不同冠層葉綠素含量下的反射率數據，結合一維卷積神經網絡構建反演模型，并應用遷移學習方法識別病害程度，通過輸入機載成像光譜儀獲得的光譜反射率數據，模型能夠反推出冠層葉綠素含量，從而繪制出小麥全蝕病的分布圖。Liang等提出了一種基于深度學習和光學相干斷層掃描（OCT）技術的分類方法，使用特征塊提取細微霉菌像素等細粒度信息，采用自注意力機制融合兩通道的特征，利用包含霉變區域信息的融合特征向量進行分類，實現霉變大豆的早期檢測，平均準確率達99.5%，較傳統CNN模型提高了15個百分點。

3.2病蟲害識別任務拓展

應用場景的多樣化需求對計算機視覺模型的識別功能提出了更高的要求。如何通過技術創新增加模型的功能，以使其能夠應用到更加復雜多樣的場景中，成為進一步挖掘計算機視覺技術在農業中應用潛力的重要一環。Verma等提出了一個統一的輕量級CNN模型，通過在同一層中采用不同尺寸的卷積層來檢測各種大小的感染區域，能夠識別玉米、水稻和小麥三種作物的健康與感染類別，分類準確率分別為99.74%、82.67%和97.50%。Deng等利用團隊開發的一種微型微波檢測設備獲得霉變小麥樣品的傳輸指標，然后采用基于卷積神經網絡的多任務學習模型進行傳輸指標的自學習和模型校準，提出了一種基于微波檢測技術結合多任務學習策略的小麥霉菌程度和黃曲霉毒素B₁的定性和定量分析方法，能夠準確分析出小麥中霉菌毒素的污染水平，而且多任務學習策略的應用能有效避免模型校準中的資源浪費。Lamba等基于深度學習構建了對稻葉病害的多任務識別模型，通過GAN數據擴增、CNN與SVM的結合等技術，提升了對稻葉細菌性枯萎病、稻瘟病和稻葉黑粉病病害類型檢測和嚴重程度量化的準確性，準確率達到98.43%。Hamila等構建了基于3D-CNN的小麥赤霉病檢測和嚴重程度評估模型，通過多光譜3D點云圖像數據提升檢測和量化的精度，不僅能夠自動識別病害，還可以對穗數和感染嚴重度進行多任務估算。

3.3模型應用的探索

應用于實際生產是模型設計優化的最終目的。為了使模型能夠在田間低資源條件和復雜環境中高效、穩定運行，研究人員通過結構優化和硬件加速等手段對模型進行輕量化與資源優化改進，以實現在真實農業生產環境中的高效適應性，為田間作業的自動化與智能化提供便捷的技術方案。Bao等提出了一種基于DDMA-YOLO的無人機遙感方法，用于監測茶葉枯萎病，模型以YOLOv5為基礎，增加了多尺度RFB模塊以提升病葉特征提取的精度，引入了雙維度混合注意力（DDMA），結合通道、空間和非局部信息，以減少因葉片密集分布造成的漏檢和誤檢，性能優于傳統目標檢測方法。Yang等提出了一種基于YOLOv7的高精度實時玉米病蟲害檢測網絡Maize-YOLO，通過插入CSPResNeXt-50模塊和VoVGSCSP模塊，提高了網絡檢測的準確性和速度，同時減少模型的計算量。Lin等使用多尺度Retinex色彩恢復算法對具有光照不均的大豆種子圖像進行分割處理，然后構建CNN模型并成功部署于NVIDIA Jetson TX2平臺，實現了對大豆種子的分類，準確率為95.63%，單顆種子的平均分類時間為4.92ms。Yang等提出了全連接瓶頸變換器模塊，并將其嵌入YOLOv8n模型主干的末端，構建了FCBTYOLO目標檢測模型，將其應用于構建的包含14類水稻害蟲的GPest14數據集及多個公開數據集上均獲得90%以上的準確率，而模型大小僅為6.7MB，單張害蟲圖像的檢測時間僅需16.8 ms，適合于田間環境應用。

3.4數據集的構建與共享

高質量的數據集是農作物病蟲害智能識別技術發展的基石。涵蓋多種作物病害類型、采集自復雜環境、包含豐富標注信息的數據集，可為模型的訓練與應用提供很好的數據支持。

Joseph等構建了一個糧食作物病害數據集，涵蓋了水稻的2種細菌病害和2種真菌病害、玉米的4種真菌病害以及小麥的4種真菌病害，基于該數據集對提出的CNN模型進行訓練，在玉米、水稻和小麥上的識別準確率分別達到97%、97%和98%。Rajput等創建了一個名為“Soy-Net”的數據集，包含超過9000張高質量的健康和患病大豆葉片圖像，這些圖像是從不同角度、不同光照條件和背景下拍攝的，可以比較準確地反映真實的農田情況，用其訓練、測試和驗證大豆葉片病害分類模型，取得了較好的分類效果。趙鴻鑫等創建的棉花病害數據集，涵蓋了炭疽病、細菌性角斑病、褐斑病和枯萎病4種常見棉花病害，有3453張高分辨率的健康葉片和不同生長階段的病葉圖像，均是從復雜的田間環境中采集，為棉花病害智能識別模型及算法的研究、訓練與驗證提供了高質量的數據。

4存在的問題及應對策略

目前基于卷積神經網絡進行農作物病蟲害檢測研究涉及的作物種類非常廣泛，包括各類蔬菜、果樹和糧食作物等，完成的任務也不僅是分類、檢測、分割等基本任務，還有感染程度、成熟度判斷等復雜任務，都已經取得了一些成果，但仍存在許多問題，還無法滿足實際生產中輕便、高效、實時監測病蟲害發生的需求。本文對目前研究中存在的主要問題進行總結，并提出相應的解決措施。

4.1數據集規模小

現有研究中使用的數據集，部分用自收集的農作物病蟲害樣本構建，部分來源于網絡。目前研究人員使用較多的公開數據集主要是ImageNet和PlantVillage，其中ImageNet是對象識別領域的大型數據庫，包含2萬多個類別1400多萬個樣本數據；而PlantVillage是目前最大的葉子圖像公共數據集，包含5萬多張健康和不健康的葉子圖像。但是實際生產場景更為復雜、病蟲害類型更為多樣，這些公開數據集也無法滿足多樣化的實際需求，因此，自建數據集仍是許多研究的數據來源。然而，由于植物病蟲害種類多、發生時間分散且部分病蟲害發生率低，圖像采集成本很高，自建數據集普遍存在規模小、樣本少、標注困難等問題，易導致深度學習模型訓練不充分。因此，數據集規模小已經成為阻礙基于卷積神經網絡檢測農作物病蟲害技術發展的主要因素之一。

遷移學習可以利用一個類似的已知數據集的訓練模型為新收集的未標記樣本開發模型，在經過參數微調或修改后，可應用于局部植物病蟲害檢測，不僅能降低模型訓練成本，還能使卷積神經網絡適應小樣本數據，這為數據集規模小的問題提供了有效的解決方案。陳浪浪等在DenseNet121基礎上，提出了一種基于遷移學習的小樣本數據集的水稻葉病識別網絡，通過引入坐標注意力機制來增強特征，測試精度達到98.95%，優于ResNet50、Xception、InceptionV3、In-ceptionResNetV2及原DenseNet121模型。

此外，小樣本學習（Few-shot learning，FSL）也為小規模數據集的病蟲害識別提供了新的思路。FSL可通過少量樣本獲得良好的學習性能，從而解決神經網絡因數據量不足而難以有效訓練的問題。但FSL用于植物病害識別時存在獲取特征有限和泛化能力差的問題，為此，Chen等結合傳統的學習策略與元學習框架，提出Meta-Baseline方法，利用特定的基線方法和策略來改進模型在新任務上的表現，提高了小樣本學習模型的泛化能力。Lin等提出一種基于Meta-Baseline方法的網絡，通過融合級聯多尺度特征融合（CMSFF）和通道注意力機制（CA）獲得更豐富的特征表示，在最優配置下可獲得92.83針對多植物的任務定位精度。綜合可見，FSL也是一種可行的、有潛力的植物病害識別方法。

4.2小尺寸病變的早期檢測困難

在農作物病害發生的早期及時發現、準確識別并采取有效防治措施是降低其危害以獲得高產的關鍵。但許多植物病變早期特征不明顯、病區尺寸小，在利用卷積神經網絡模型進行特征提取時容易被忽略，而且受復雜背景的噪聲影響，誤判的概率高，影響了卷積神經網絡模型的識別和分類準確度。

高光譜傳感器可以獲得數百個窄光譜帶的光譜信息，而這些窄光譜帶對不同類型疾病引起的植物葉片細微變化高度敏感，可以用于進行相似病害的區分和早期小尺寸病變的檢測，因此，基于高光譜圖像進行植物病害檢測成為近年研究的熱點。Xie等利用高光譜成像技術，通過分析成像信息和光譜信息，采用逐次投影算法（SPA）選擇有用波長，并建立基于極限學習機（ELM）模型識別病變樣本，實現對番茄兩種葉片病害的識別與分類，準確率為97.1%。

4.3復雜環境下的病蟲害識別精度低

建立的卷積神經網絡模型在應用到實際生產中時，識別精度往往會大幅降低，這主要是因為大多數模型訓練時使用的樣本圖像通常是在受控情況下拍攝的感興趣區域的圖像，忽略了自然環境下背景噪聲的影響，而實際生產環境中背景噪聲要復雜許多，而且存在光照不同、樹枝和葉片遮擋等問題，嚴重干擾模型識別，導致很多誤判、錯判的情況；另外，不同植物病害的表征存在相似性，同一病害在不同階段可能展現出不同的特征，以及同一葉片上出現混合病害等復雜情況，都影響了模型性能和分類準確度。

注意力機制的本質是采用帶加權系數的方法分離特征，從而抑制圖像中的背景噪聲，忽略不重要的信息，快速發現感興趣的區域，實現更準確的檢測。Karthik等將注意力機制應用于CNN殘差網絡，并使用PlantVillage數據集進行實驗，對番茄葉片病害識別的總體準確率達到98%。

4.4檢測速度與便攜性有待提升

雖然相比于傳統方法，基于卷積神經網絡進行農作物病蟲害識別和分類的效果更好，但目前的模型大多計算復雜度較高，檢測速度較低，所占內存較大，不能搭載到智能手機等小型移動設備上，還無法滿足實際應用中實時性、便攜性的需求。因此，平衡計算負荷和便攜性是影響卷積神經網絡模型在實際生產中推廣應用的關鍵。

溫釗發等設計了一種輕量化網絡EssNet，基于包含蘋果和玉米11種病害的測試集，識別準確率達到95.21%，為應用輕量級模型識別田間作物病害提供了參考。Liu等將MobileNet網絡部署在手機上，對田間采集的6種葡萄病葉的平均識別準確率為87.5%，單張圖像的平均計算時間為134ms。可見，通過重構現有網絡結構或設計新的輕量化網絡結構，可實現在獲得較高檢測精度的同時保證較高的檢測速度，這為將訓練模型開發為手機APP或小程序、農戶通過手機拍照上傳作物患病部位就可快速獲得診斷結果及防治方案等信息提供了可能，從而達到幫助農戶科學防治病蟲害、收獲高產優質農產品的目的。

5研究展望

綜上所述，當前研究已充分展示了卷積神經網絡等深度學習技術在農作物病蟲害識別中的應用潛力。然而，實現模型的實際落地應用仍面臨諸多挑戰，如高光譜成像在實時檢測應用時受限于圖像處理的復雜性、注意力機制對計算資源的需求增加了部署難度等。在今后的研究中仍需在模型的輕量化和數據的高效處理算法以及高光譜成像技術的經濟實用性等方面進行深入研究，此外，通過云計算來增強移動設備的處理能力，也是提升該技術模型在農田復雜環境中的適應性和實用性的重要研究方向。期望能將理論研究成果真正落實和普及到農業生產活動中，推動農業智能化、規模化發展。