施杰 林雙雙 羅建剛 楊琳琳 張毅杰 顧麗春



摘要:針對玉米作物病蟲害目標檢測中由于圖像背景復雜、無關因素干擾較多而導致的對病蟲害目標檢測效果不理想等問題,采用深度學習技術,提出一種基于YOLO v5s改進模型的玉米作物病蟲害檢測方法。該方法通過引入無參SimAM注意力機制對YOLO v5s模型進行改進,利用該機制能更全面地評估模型特征權重,以增強玉米病蟲害的特征,削弱復雜背景和無關信息的干擾,從而提高模型的檢測性能。同時,將模型的損失函數由CIOU替換為EIOU,可使病蟲害預測框更加接近真實框,以提升模型檢測的準確率。通過自建的玉米病蟲害數據集對模型進行試驗對比,結果表明,YOLO v5s(EIOU+SimAM)改進模型的精確率為94.6%,召回率為83.4%,平均精度均值為90.1%。經比較發現,改進模型比原始模型在上述3個指標方面分別提升了5.4、0.5、1.9百分點,說明YOLO v5s(EIOU+SimAM)模型對玉米病蟲害檢測具有較強的魯棒性和泛化性。
關鍵詞:玉米作物病蟲害;YOLO v5s改進模型;注意力機制;EIOU;目標檢測
中圖分類號:S126;TP391.41? 文獻標志碼:A
文章編號:1002-1302(2023)24-0175-09
玉米是我國主要的糧食作物,其種植面積和產量長期穩居三大谷物之首。近年來,玉米飼用消費和工業消費均持續增長,玉米產業的健康穩定發展對國家糧食安全意義重大[1]。研究發現,玉米生長期間的病蟲害問題是影響其產量、質量的主要因素。因此,對玉米常見病蟲害進行早期診斷與防治是獲得玉米豐產的重要措施[2-3]。
農作物在種植期間的傳統管理模式主要依靠人工來觀測病蟲害,存在主觀性強、工作量大等問題。隨著人工智能和大數據技術的不斷發展,利用基于深度學習的機器視覺技術對圖像形狀、顏色及紋理等特征信息進行提取,能夠有效解決農作物種植期間病蟲害檢測準確率低、效率低等問題,也是農作物種植管理智能化的重要研究方向[4-7]。目前,國內外研究者在將深度學習和機器視覺技術應用于農作物管理方面開展了大量研究。Woebbecke等通過圖像數字化對葉片形態特征進行識別與檢測,實現了對單子葉植物與雙子葉植物的分類,其準確率達到60%~80%[8]。El-Faki等研究了一種基于顏色特征的雜草識別方法,具有不易受拍攝距離、遮擋等因素影響的優點,試驗結果表明,該方法對小麥、雜草的識別率分別達到了54.9%、62.2%[9]。毛文華等研究了玉米葉苗期植株、株心具有的不同特征,提出了一種利用玉米株心顏色特征識別田間雜草的方法,結果顯示,玉米植株、雜草的正確識別率平均分別為88%、84%[10]。孟慶寬等提出一種基于輕量卷積神經網絡結合特征信息融合機制的改進單步多框檢測器模型,通過構建輕量化前置基礎網絡替代SSD模型中的VGG16網絡以提高圖像特征提取速度,將深層語義信息與淺層語義信息進行融合以提高對小尺寸作物與雜草的檢測準確率,最終結果顯示,平均精度均值為88.27%,同時檢測速度與參數量有較大改善[11]。徐會杰等提出了YOLO v3-Corn的玉米葉片病蟲害檢測模型,該模型使用Darkknet-53作為特征提取網絡,并用聚類算法選取先驗框分別匹配到檢測層中進行目標識別,模型檢測的精度、召回率分別為93.31%、93.08%[12]。胡文澤等研究了玉米幼苗的檢測問題,對Cascade R-CNN模型進行了改進,使用殘差網絡和特征金字塔作為特征提取器,使玉米幼苗檢測的平均精度達到91.76%[13]。
綜上所述,目前的研究普遍存在模型對關鍵特征信息關注度不夠的問題,容易導致預測結果不準確;此外,還存在未充分考慮目標真實框與預測框之間關系等問題。因此,本研究提出一種基于YOLO v5s改進模型的玉米作物病蟲害檢測模型,該模型在YOLO v5s模型基礎上,通過在backbone區域引入無參SimAM注意力機制,利用該機制全面評估特征權重,以減弱復雜背景與無關信息的干擾,增強玉米病蟲害的特征信息,從而提高模型的檢測性能;同時,采用EIOU損失函數對模型預測框與真實框之間的距離進行評估,以提升檢驗框檢測的準確性;最后,通過在自建數據集上進行試驗,以驗證改進模型的有效性。
1 材料與方法
1.1 數據采集
本研究目標檢測對象為玉米病蟲害圖像。研究發現,黏蟲、灰飛虱、銹病和斑病是玉米生長過程中最常見的病蟲害,也是影響玉米產量和質量的主要因素之一,其病蟲害樣本見圖1[14-16]。
數據集的質量會直接影響模型訓練后的魯棒性、泛化性,為了減小數據集對模型的影響,本研究自建了玉米病蟲害數據集。數據集的數據來源如下:在云南農業大學玉米種植試驗田內采集的圖像、在云南省昭通市昭陽區玉米種植田內采集的圖像和源自網絡的玉米病蟲害圖像。圖像的采集時間在2022年7—9月,為滿足數據集多樣性的要求,分別在晴天、陰天和雨天,以正面、側面、仰視等不同拍攝角度進行數據圖像的采集,包含密集、稀疏、重疊、遮擋、順光、逆光等不同背景噪聲的圖像。圖2為采集的部分圖像樣本。
1.2 數據集的制作
首先,對采集的圖像數據進行旋轉、平移、變亮、變暗、高斯噪聲、椒鹽噪聲等數據增強操作,以實現數據集的擴展和多樣化,從而提高模型訓練的魯棒性與泛化性。然后,采用labelImg工具對經數據增強后的1 985張圖像進行手動特征標注,分別將玉米黏蟲、玉米灰飛虱、玉米銹病、玉米斑病標注為N、H、X、B 4個類別,并將其類別信息和位置信息保存為XML格式文件,進而再轉換為YOLO v5s所需要的txt格式文件。最后,劃分訓練集、驗證集和測試集,以供模型訓練和測試時使用。標注時需特別注意的是,由于數據量較大,為了避免人工標注時因疲倦而造成誤差,每標注0.5 h需休息5 min;為了避免由不同人標注而產生的細小差別,所有標注均為1人完成,再由1人檢查以保證數據集標簽的準確性。表1為玉米病蟲害圖像數據集的詳細信息。
1.3 YOLO v5s的改進
1.3.1 YOLO v5s模型 YOLO系列算法采用回歸思想,憑借檢測精度高、推理速度快等優勢,能夠快速完成目標檢測任務,在很多領域都取得了較為滿意的結果,已經成為主流算法之一[17-19]。隨著技術的發展,YOLO v5s一直被各領域的學者完善與優化,并展現出不錯的性能。YOLO v5s算法由輸入端、主干網絡、頸部網絡以及預測頭構成[20]。
(1)輸入端。輸入端具有Mosaic數據增強、自適應錨框計算和自適應圖片縮放功能。數據增強沿用了YOLO v4的Mosaic數據增強方法,通過隨機縮放、裁減增加了大量小目標,從而加強了網絡對小目標的提取能力,增強了網絡的魯棒性,加快了網絡的訓練速度[21]。自適應錨框計算會在每次訓練時自適應地計算不同訓練集中的最佳錨框值。自適應圖片縮放功能采用自適應添加最少黑邊的方法,有效改善了縮放填充引起信息冗余進而導致網絡推理速度慢。
(2)主干網絡。主干網絡由CBS、CSP1_X、SPPF等模塊構成。CBS模塊由卷積操作、批量歸一化和激活函數組成。CSP1_X模塊將輸入分為2個分支,其中1個分支在卷積操作后進行Resunit操作,另1個分支在卷積操作后進行Concat操作,從而增強了特征融合能力,讓模型學習到更多圖片特征。
(3)頸部網絡。這是采用加強特征提取網絡特征金字塔并結合路徑聚合的結構,通過上采樣、下采樣得到2個特征并進行融合,使不同尺寸特征圖都能包含檢測目標語義、特征信息,從而保證對不同尺寸圖片的準確預測,提升了網絡特征的提取能力,增強了模型對小目標的敏感度[22-23]。YOLO v5s 中的卷積操作采用CSP2_X模塊,有效地提升了網絡的特征融合能力。
(4)預測頭。YOLO v5s以CIOU_Loss作為損失函數,數值越小表明預測結果越好,從而改善模型的預測效果。網絡采用加權非極大值抑制對多個目標進行篩選,保留最優目標框,提高目標識別的準確性[24]。
1.3.2 SimAM注意力機制 由于背景中存在雜草、土地,加上玉米種植密集導致的光線遮擋等問題,使得對玉米病蟲害的目標檢測更為復雜。為了降低復雜背景對病蟲害目標檢測的干擾,研究者將采集的圖像進行去背景等處理,但效率較低。鑒于病蟲害特征信息在圖像中的占比較小,模型需減少對無關特征信息的關注度,而不用均衡對圖像中所有信息的關注度。因此,在YOLO v5s中引入了注意力機制(attention mechanism,AM)。注意力機制是機器學習中的一種數據處理方法,已被廣泛運用于計算機視覺領域。注意力機制本質上與人類視覺系統極為相似,其對輸入圖像中標注的特征進行學習,讓網絡學習到圖像中需要關注的部分,并更新權重分布,使模型作出更準確的判斷。SimAM注意力機制有自身的獨特優勢,它與通道注意力、空域注意力不同,無需引入額外參數就能為特征圖推導出3D注意力權值。
在SimAM中,具有更多信息的神經元與其相鄰神經元相比通常表現出不同的放電模式,并會對相鄰神經元產生空間抑制現象,在處理相關任務時其被賦予更高權重[25]。在玉米病蟲害檢測任務中,SimAM能夠更加全面地評估特征權重,以增強玉米病蟲害的特征,減弱復雜背景與無關信息干擾,從而增強模型的魯棒性和泛化能力,提升檢測性能。
SimAM通過能量函數[公式(1)~公式(4)]對每個神經元進行評估,神經元與其相鄰神經元之間依據能量高低進行區分,能量越低表明與其相鄰神經元的區分度越高,也就越重要。
式中:M為能量函數數量;E為每個通道上的能量函數;t為輸入特征的目標神經元;X為輸入的特征,t∈X;λ為超參數;μ為X中每個通道上的均值;σ2為X中每個通道上的方差;X~為增強后的特征。
1.3.3 損失函數的改進 在模型訓練中損失函數發揮了重要作用,它能夠評估模型預測框與真實框之間的距離,距離越接近表明損失函數值越小。針對不同檢測問題,選擇適合的損失函數可以使模型在訓練時收斂更快、定位更精確、效果更好。
在現有的損失函數中,交并比(intersection over union,IOU)是大多數目標檢測算法選擇作為預測框與真實框之間的距離的衡量標準[26]。從數學上看,IOU等于2個矩形框的交并比,也就是檢測圖像中目標真實框與模型預測框重疊區域的面積與兩框整體所占區域的面積之比,IOU損失函數計算公式如下:
式中:B為目標真實框所占面積;Bi為模型預測框所占面積,LIOU∈(0,1)。
當真實框與預測框重疊區域的面積越大時,LIOU越小,預測出的物體區域就越準確。但是,當真實框與預測框沒有完全重疊或完全不重疊時,IOU便無法反映二者的重合度和距離,使得模型無法進行訓練,這時便可用CIOU損失函數來評估模型預測框與真實框之間的距離。CIOU包括兩框之間的中心點距離、縱橫比和重疊面積信息,使目標邊框回歸更加穩定。CIOU損失函數的計算公式如下:
式中:h為預測框的高;w為預測框的寬;hgt為真實框的高;wgt為真實框的寬;b為預測框中心點;bgt為目標框中心點;ρ2為兩框中心點之間的歐式距離;c同時包含兩框最小閉包矩形框的對角線距離。
雖然CIOU損失函數彌補了IOU損失函數的不足,但還是忽略了邊界框的尺寸與其置信度之間存在的真實差異。針對這一問題,Zhang等提出了有效交并比損失函數(efficient intersection over union,EIOU)[27]。EIOU的懲罰項是將縱橫比的影響因子拆開,以計算目標框和錨框的長、寬,它包括IOU損失、中心點距離損失和寬高損失3個部分,其中寬高損失直接使目標盒與錨盒的寬度與高度之差最小。EIOU-Loss公式如下:
式中:ch為覆蓋預測框和真實框的最小外接框的高;cw為覆蓋預測框和真實框的最小外接框的寬。
在邊框回歸損失中,EIOU損失函數解決了其他損失函數中存在的問題,表現出良好的性能,所以本研究將采用EIOU Loss損失函數對模型進行改進。
2 結果與分析
2.1 試驗環境
本試驗是基于深度學習框架Pytorch進行的模型構建與改進,在64位Windows 10系統上進行模型訓練與測試。試驗平臺參數:CPU為AMD RYZEN R7 6800H 3.20 GHz,內存為16 G,GPU為NCIDIA GE Force RTX 3060,顯存為6 G。試驗環境:Python 3.8,Pytorch 1.10.1。為了提高網絡訓練速度,用GPU進行加速,軟件版本為CUDA 11.3、CUDNN 8.2.1。
2.2 評價指標
在玉米病蟲害檢測模型的試驗中,本研究采用精確率(precision,P)、召回率(recall,R)和平均精度均值(mean average precisoin,mAP)等作為性能評價指標,具體計算公式如下:
式中:TP為檢測正確的樣本數量;FP為檢測錯誤的樣本數量;FN為檢測遺漏的樣本數量;K為檢測類別數;AP為P-R曲線圍成的面積;P為檢測正確的樣本占所有檢測樣本數量的比例;R為檢測正確的樣本占所有檢測樣本中正確樣本數量的比例;mAP為所有類別AP的平均值。
2.3 試驗對比與分析
2.3.1 試驗對比 為驗證本研究提出的YOLO v5s改進模型的優越性,在相同試驗環境下使用同一數據集,與具有Alpha IOU、SIOU、EIOU損失函數的YOLO v5s(Alpha IOU)、YOLO v5s(SIOU)模型,以及分別加入CA、SE、CBAM注意力機制的YOLO v5s(CA)、YOLO v5s(SE)、YOLO v5s(CBAM)模型進行對比試驗。
(1)不同損失函數改進的YOLO v5s測試結果對比。YOLO v5s原始模型使用的損失函數是CIOU,從表2可以看出,在模型中分別加入Alpha IOU、SIOU和EIOU損失函數后,相比原始模型,R雖然有所下降,但是P都有明顯提升,分別提高了3.5、3.4、6.9百分點,尤其以EIOU損失函數的提升最為顯著。P提升說明EIOU損失函數在計算預測框與真實框之間的距離關系方面更加準確。
(2)不同注意力機制改進的YOLO v5s測試結果對比。 由表3可以看出, 無論在YOLOv5s原始
模型中加入何種注意力機制模塊,與原模型相比在性能上都有明顯提升。例如,添加CA注意力機制后的P比原始模型提高了3.5百分點,添加SE注意力機制后的R比原始模型提高了1.9百分點,添加CBAM注意力機制后的R、mAP分別比原始模型提高了0.7、2.4百分點,添加SimAM注意力機制后的R比原網絡提高了1.3百分點。R的提高說明,添加注意力機制能讓模型更好地評估不同特征的權重占比,使目標檢測結果更加準確。
(3)損失函數與注意力機制同時改進的YOLO v5s測試結果對比。在上述試驗中,分別對YOLO v5s中的損失函數、注意力機制開展了改進對比試驗。下面將進一步探究同時改進注意力機制和損失函數對模型性能的影響。從表2可以看出,EIOU損失函數的效果最優,因此將EIOU固定為模型的損失函數,只需將其分別與CA、SE、CBAM和SimAM注意力機制進行組合對比即可。由表3、表4可知,改進的YOLO v5s分別比原始模型的P提高了4.3、5.0、2.5、5.4百分點;CA、SE注意力機制的R分別降低0.4、2.7百分點,CBAM和SimAM注意力機制提高1.0、0.5百分點;CA、CBAM和SimAM注意力機制的mAP分別提升了0.4、 1.1、1.9百分點,SE 注意力機制降低0.9百分點。尤其是YOLO v5s(EIOU+SimAM)模型的P、R和mAP總體優于其他改進模型,由此證明本研究提出的改進模型能對玉米作物病蟲害進行有效檢測。
2.3.2 改進模型的性能試驗 為了進一步驗證YOLO v5s(EIOU+SimAM)模型的性能,將其與YOLO v5s原始模型進行性能對比。訓練集在YOLO v5s(EIOU+SimAM)上經過200輪迭代后, P為92.2%,R為94.0%,mAP為95.2%。從圖3可以看出,改進模型的性能均比原始模型有顯著提升。
采用測試集中的196張玉米作物病蟲害圖像對YOLO v5s(EIOU+SimAM)、YOLO v5s原始模型進行測試。從表5可以看出,總體上改進模型的P、R、mAP相比原始模型分別提高了5.4、0.5、1.9百分點。在對黏蟲、銹病和斑病的圖像檢測時發現,改進模型的P分別較原始模型提高了4.6、12.1、3.8百分點。在對黏蟲、灰飛虱的圖像進行檢測時發現,與原始模型相比,改進模型的R分別提高了7.6、3.1百分點。在對黏蟲、灰飛虱和銹病的圖像進行檢測時發現,與原始模型相比,改進模型的mAP分別提升了為4.7、2.4、1.9百分點。試驗結果表明,邊界回歸損失函數的改進使得模型能更準確地定位和識別黏蟲、銹病和斑病圖像,P也得到明顯提高。在模型中添加了注意力機制模塊后,能夠抑制背景干擾,提高特征提取能力,R得到提高。將二者結合同時對模型進行改進,能讓模型的P、R、mAP都有顯著提升。由此可見,YOLO v5s(EIOU+SimAM)模型能夠更有效地對玉米作物病蟲害進行檢測。
通過上述試驗對比與分析,可以驗證本研究中改進的YOLO v5s(EIOU+SimAM)模型對玉米病蟲害的檢測效果最佳。為了更清楚地說明每個改進點對檢測效果的提升效果,從測試集中隨機選取玉米作物病蟲害圖片(圖4)進行討論。
在圖4-a為YOLO v5s原始模型檢測結果,圖中出現8處錯檢、3處漏檢;圖4-b為修改損失函數時模型檢測結果,圖中出現3處錯檢、5處漏檢;圖4-c為添加注意力機制時檢測結果,圖中出現3處錯檢、0處漏檢;圖4-d為兩者同時改進時模型檢測結果,圖中出現0處錯檢、1處漏檢。雖然YOLO v5s(EIOU+SimAM)模型改進方法有1處漏檢,但是相比于其他模型改進方法,在定位、識別效果和置信度值方面都有顯著提升。
3 結論
本研究基于損失函數、注意力機制改進 YOLO v5s 模型的玉米病蟲害檢測方法,并通過試驗對比進行模型驗證,主要結論如下:(1)通過對模型的損失函數和注意力機制2個方面的改進,提出了YOLO v5s(EIOU+SimAM)的改進模型。與原始模型相比,其在特征提取、預測框回歸精度等方面效果有顯著提升,具有較高的準確率和良好的魯棒性。(2)在不同環境下采集了玉米病蟲害圖片,通過數據增強方法對圖片進行擴充,建立了玉米病蟲害數據集,并將該數據集用于改進模型的試驗驗證。(3)本研究建立的數據集僅包含4類常見的玉米作物病蟲害,后續還需要進一步擴充數據集以增加模型的泛化能力。同時還需研究網絡的輕量化問題,以便將其移植到嵌入式平臺。
參考文獻:
[1]代瑞熙,徐偉平. 中國玉米增產潛力預測[J]. 農業展望,2022,18(3):41-49.
[2]安艷麗. 玉米常見病害的識別與防治[J]. 農業與技術,2017,37(18):44.
[3]王文明. 玉米常見病蟲害防治措施探討[J]. 農業開發與裝備,2017(12):149,151.
[4]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[5]Liu W,Anguelov D,Erhan D,et al. SSD:single shot multibox detector[C]//European Conference on Computer Vision 2016. Cham:Springer International Publishing,2016:21-37.
[6]陳桂珍,龔聲蓉. 計算機視覺及模式識別技術在農業生產領域的應用[J]. 江蘇農業科學,2015,43(8):409-413.
[7]周 維,牛永真,王亞煒,等. 基于改進的YOLO v4-GhostNet水稻病蟲害識別方法[J]. 江蘇農業學報,2022,38(3):685-695.
[8]Woebbecke D M,Meyer G E,Von Bargen K,et al. Color indices for weed identification under various soil,residue,and lighting conditions[J]. Transactions of the ASAE,1995,38(1):259-269.
[9]El-Faki M S,Zhang N,Peterson D E. Weed detection using color machine vision[J]. Transactions of the ASAE,2000,43(6):1969-1978.
[10]毛文華,王 輝,趙 博,等. 基于株心顏色的玉米田間雜草識別方法[J]. 農業工程學報,2009,25(增刊2):161-164.
[11]孟慶寬,張 漫,楊曉霞,等. 基于輕量卷積結合特征信息融合的玉米幼苗與雜草識別[J]. 農業機械學報,2020,51(12):238-245,303.
[12]徐會杰,黃儀龍,劉 曼. 基于改進YOLO v3模型的玉米葉片病蟲害檢測與識別研究[J]. 南京農業大學學報,2022,45(6):1276-1285.
[13]胡文澤,王寶聚,耿麗杰,等. 基于Cascade R-CNN的玉米幼苗檢測[J]. 農機化研究,2023,45(5):26-31.
[14]陳玉沖,龍夢玲,郭 輝,等. 灰飛虱研究的文獻計量分析[J]. 江蘇科技信息,2021,38(15):22-25,53.
[15]楊春媛. 玉米常見病害的發病癥狀及防治措施[J]. 鄉村科技,2017(24):63-64.
[16]路興濤,吳翠霞,張 勇,等. 玉米灰飛虱與粗縮病的發生規律及綜合防治策略[J]. 安徽農業科學,2013,41(19):8168-8169.
[17]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vagas:IEEE,2016:779-788.
[18]Zhai N. Detection using YOLO v5n and YOLO v5s with small balls[C]//International Conference on Computer Graphics,Artificial Intelligence,and Data Processing. SPIE,2022,12168:428-432.
[19]Bochkovskiy A,Wang C Y,Liao H Y M. YOLO v4:optimal speed and accuracy of object detection[J]. arXiv,2020,2004:10934.
[20]郭 磊,王邱龍,薛 偉,等. 基于改進YOLO v5的小目標檢測算法[J]. 電子科技大學學報,2022,51(2):251-258.
[21]范曉飛,王林柏,劉景艷,等. 基于改進YOLO v4的玉米種子外觀品質檢測方法[J]. 農業機械學報,2022,53(7):226-233.
[22]王鵬飛,黃漢明,王夢琪. 改進YOLO v5的復雜道路目標檢測算法[J]. 計算機工程與應用,2022,58(17):81-92.
[23]孫豐剛,王云露,蘭 鵬,等. 基于改進YOLO v5s和遷移學習的蘋果果實病害識別方法[J]. 農業工程學報,2022,38(11):171-179.
[24]李惠惠,范軍芳,陳啟麗.改進YOLO v5的遙感圖像目標檢測[J]. 彈箭與制導學報,2022,42(4):17-23.
[25]彭紅星,何慧君,高宗梅,等. 基于改進ShuffleNetV2模型的荔枝病蟲害識別方法[J]. 農業機械學報,2022,53(12):290-300.
[26]Yu J H,Jiang Y N,Wang Z Y,et al. Unitbox:an advanced object detection network[C]//Proceedings of the 24th ACM International Conference on Multimedia. New York:ACM,2016:516-520.
[27]Zhang Y F,Ren W,Zhang Z,et al. Focal and efficient IoU loss for accurate bounding box regression[J]. Neurocomputing,2022,506:146-157.