項新建 鄭雨 曹光客 李旭 尤欽寅 姚佳娜



摘要:水稻葉病防治在提高水稻產量中具有重要作用,針對水稻葉病人工檢查速度慢、主觀性高的問題,提出一種基于改進Yolov5s的水稻葉病目標檢測方法。采用K-means聚類算法得到先驗框尺寸,增強檢測模型對水稻葉病的適應性;將輕量級空間注意力與通道注意力融合,對高層語義特征信息增強,增強模型對病害信息的感知度;并結合特征金字塔網絡,融合多尺度感受野獲取目標上下文信息,有效地增強模型對目標周圍特征的提取,提高目標檢測的準確度。試驗結果表明:改進后的Yolov5s算法平均檢測精度(IOU=0.5)提高4.3%,F1值提高5.3%,幀率FPS為58.7 f/s。有效提升Yolov5s算法對水稻葉病的檢測精度,達到實時檢測的需求。
關鍵詞:水稻葉病檢測;K-means聚類;注意力機制;多尺度感受野
中圖分類號:S435.11: TP391.41? 文獻標識碼:A? 文章編號:2095-5553 (2024) 03-0212-07
Detection method of rice leaf disease based on improved Yolov5s
Xiang Xinjian1, Zheng Yu1, Cao Guangke1, 2, Li Xu3, You Qinyin1, Yao Jiana1
(1. School of Automation and Electrical Engineering, Zhejiang University of Science and Technology, Hangzhou,310023, China; 2. Hangzhou Shenhao Technology Co., Ltd., Hangzhou, 310023, China;3. Hangzhou Shengguan Technology Co., Ltd., Hangzhou, 310023, China)
Abstract:
Rice leaf disease prevention plays an important role in improving rice yield. Aiming at the problems of slow manual inspection speed and high subjectivity of rice leaf disease, a target detection method of rice leaf disease based on improved Yolov5s is proposed. The K-means clustering algorithm is used to obtain the prior frame size, which enhances the adaptability of the detection model to rice leaf disease. The lightweight spatial attention and channel attention are fused to enhance the high-level semantic feature information and the models awareness of disease information. Finally, the feature pyramid network is combined with the multi-scale receptive field to obtain target context information, which effectively enhances the models extraction of features around the target and improves the accuracy of target detection. The experimental results show that the average detection accuracy (IOU=0.5) of the improved Yolov5s algorithm is increased by 4.3%, the F1 value is increased by 5.3%, and the FPS is 58.7 f/s. The proposed method effectively improves the detection accuracy of the Yolov5s algorithm for rice leaf disease and meets the demand of real-time detection.
Keywords:rice leaf disease detection; K-means clustering; attention mechanism; multi-scale receptive field
0 引言
水稻病害及時準確識別對農作物增產增收具有重要意義[1]。當前對水稻病害的檢測主要通過人工實地觀測,不僅速度慢,且病害不同發展階段紋理信息存在差距,檢測者的主觀意識對檢測結果具有決定性作用。若沒有經驗的農民對葉片病害種類判斷錯誤,后續進行的防治措施將缺乏意義[2, 3]。
利用高光譜技術的光譜反射原理[4]能夠有效地對病害組織進行檢測,但野外環境復雜以及此方法檢測成本較高,高光譜技術仍停留于實驗室研究階段。隨著人工智能和計算機視覺領域的快速發展,采用機器學習和深度學習的方法對農業病害進行檢測得到了深入研究,Liu等[5]使用基于支持向量機的方法,實現小麥蚜蟲自動識別和計數,但準確率只有75.8%;魏麗冉等[6]使用基于核函數支持向量機檢測方法對植物葉片的4種病害進行檢測,最高準確率為89.5%。鮑文霞等[7]使用深度分割網絡對小麥圖像進行分割后使用多路卷積神經網絡對小麥赤霉病進行檢測,達到了98%以上的準確率。Sun等[8]提出輕量級CNN模型MEAN-SSD對5種蘋果葉病進行檢測,mAP達到了83.12%。以上方法都存在模型檢測精度較低或模型過于復雜導致無法對葉面病害進行準確快速檢測。
注意力機制能夠從大量信息中選擇性的關注對當前目標更重要的信息,SENet、GCNet等在相關神經網絡中都取得了可觀的效果。曾偉輝等[9]在膠囊網絡中引入注意力機制,驗證了其在農業病蟲害檢測的有效性。但相關注意力模塊都不可避免的導致模型加深和計算量增大[10]。當前注意力機制中普遍使用平均池化或最大池化的方式,將輸入特征編碼為同一全局特征,導致網絡忽略其局部特征[11]。
水稻葉病害目標寬高比與Yolov5s所使用的COCO數據集中目標并不相似,大規模種植的水稻自然環境復雜,同時存在葉片遮擋晃動,導致病害葉片的目標檢測難度上升。針對上述問題,為在實時檢測過程中提高水稻葉病的檢測精度,引入輕量級Yolov5s[12, 13]作為水稻葉病的檢測模型,使用K-means聚類算法對數據集進行分析聚類,得到更為適配的anchors尺寸,引入輕量級空間與通道注意力進行融合,并通過空洞卷積實現多尺度感受野融合,獲取目標周圍環境信息,提高水稻葉病目標檢測精度。
1 改進Yolov5s的水稻葉病檢測方法
1.1 目標檢測算法
基于深度學習的目標檢測算法主要分為一階段和二階段,其中一階段目標檢測算法主要有Yolov3、Yolov4、Yolov5、SSD和RetinaNet等[1416],直接對目標的位置和類別進行預測,速度較快。二階段算法指主要有Faster R-CNN[17]以及Mask R-CNN[18],其精度高,但檢測速度慢。近年來,隨著目標檢測領域的廣泛研究,Yolo系列算法在實時性和準確性方面取得了顯著的提升。與傳統的兩階段方法相比,Yolo算法的一階段直接對目標的位置和種類進行預測,省去了候選框生成和回歸的復雜過程,從而大幅提升了處理速度。
由于水稻葉病檢測對實時性的要求,選擇了輕量級網絡Yolov5s作為檢測模型。采用K-means算法聚類數據集,得到優化的anchors尺寸。在網絡的低層引入上下文信息融合模塊(Context Information Fusion Module, CIFM),結合FPN結構,在Yolov5s頸部與低層信息融合;在高層語義特征SPPF層后引入輕量級語義信息增強模塊(Semantic Information Enhancement Module,SIEM),將空間注意力機制與通道注意力融合,對高級語義特征的關鍵信息進行增強,搭建網絡結構如圖1所示。
1.2 K-means聚類anchors算法
K-means算法作為一種經典而有效的聚類方法,K-means算法作為一種經典而有效的聚類方法,通過計算樣本集中每個樣本點與其所屬簇的中心點之間的距離,將相似的樣本劃分為同一類別(簇)。在應用K-means算法時需要關注兩個關鍵問題:(1)樣本與樣本之間的距離如何表示,需要根據應用場景設計,常見的距離度量方法包括歐式距離等;(2)將樣本分為幾類,即聚類的簇數。
通過實地調研以及對數據集分析,水稻葉病害根據感染程度不同,病害部分在葉片上的寬高比與COCO數據集圖像存在較大差別,原anchors尺寸并不適用于葉面病害的檢測。為此K-means聚類算法對標注好的數據集進行聚類,得到改進后的anchors尺寸,增強模型檢測能力。
傳統K-means聚類算法使用誤差平方和(Sum of Square Error, SSE)計算每個樣本與每個簇中心的距離。在目標檢測領域,樣本為圖像中的目標物體,因此采用式(1)計算樣本之間的距離。
d=1-IOU(bboxes,anchors)(1)
式中:d——樣本之間距離;bboxes——真實框;anchors——先驗框。
本文簇的個數設置為9,即預測9種尺寸的anchors。每個簇采取不重復采樣。之后經過遺傳算法(Genetic Algorithm,GA)對K-means聚類得到的anchors進行變異(GA優化在Yolov5中已實現),最終得到訓練網絡使用的anchors為[47, 29]、[43, 91]、[93, 51]、[89, 132]、[149, 89]、[166, 209]、[108, 458]、[310, 204]、[432, 471],對聚類得到的anchors,計算得到的適應度為74.83%,召回率100%,聚類結果如圖2所示。
1.3 語義信息增強模塊(SIEM)
注意力機制能夠在基本不影響網絡運行速度的情況下,從大量信息中選擇性的關注對當前檢測任務更關鍵的信息。水稻田具有較為復雜的背景,水稻葉感染程度的不同也會呈現不同特征,引入注意力機制使模型更多地關注目標信息,抑制復雜背景對檢測的干擾。在Yolov5的特征提取網絡中,高層特征含有豐富的語義信息,底層特征具有更細節的輪廓信息。高層語義信息與低層輪廓信息的融合對提高模型的檢測精度至關重要,因此,本文在特征提取網絡的SPPF層后引入本文設計的語義信息增強模塊,通過改進的空間注意力機制與輕量級ECANet模塊融合,對高級語義關鍵信息進行增強,并在Yolov5的FPN結構中通過上采樣,與淺層信息進行融合,使增強后的語義信息引導特征融合。
1.3.1 空間注意力
如圖3所示,與已有的空間注意力不同,對于特征提取網絡輸出特征F,分別通過并行連接的三個1×1卷積,得到WM,WB,WA,其維度為[B×C×H×W],其中B為圖片序列,C為通道數,H、W分別表示圖片的高和寬,再reshape為[C×HW]形式,將WB的轉置矩陣與WM相乘,得到空間注意力圖WS[HW×HW],高寬的相乘讓圖像每個像素點之間都產生了一定的聯系,即兩個不同空間位置的向量相關性,通過矩陣變換為[C×H×W],并使用激活函數Softmax激活得到權重系數WS。
WS=σ(WBT×WM)(2)
式中:σ——Softmax激活函數。
將權重系數WS輸入特征F[C×H×W]相乘得到空間注意力輸出特征FC。根據式(3)運算結果,對輸入特征賦予權重系數,關鍵特征得以增強。
FC=WS×(3)
1.3.2 通道注意力(ECANet)
大多數通道注意力趨向于引入復雜結構來增強模型性能,不利于目標的快速檢測,因此引入通道注意力模塊ECANet,ECANet是對SENet的一種改進,在引入極少運算量的同時,能夠提高模型精度,對提升輕量化模型的檢測精度具有重要意義。ECANet采用了一種無需降維的局部跨通道交互策略和自適應選擇一維卷積內核大小的方法,實現性能的提升,如圖4所示,圖4中GAP表示全局平均池化。
輸入特征在不降維的情況下進行逐通道全局平均池化再傳入卷積核大小為k的一維卷積層進行特征提取,實現通道之間的信息交互,如式(4)所示。
w=δ[fConv(1×1)Dk(y)](4)
式中:fConv(1×1)——一維卷積操作;δ——激活函數Sigmoid;y——聚合特征;k——卷積核大小,表示本地跨通道交互范圍,即有k個近臨通道參與一個通道的特征預測;Dk(y)——全局平均池化操作。
ECA將自適應確定交互范圍(即卷積核大小k)與通道維度C(卷積核數量)之間的關系設置如式(5)所示。
C=(k)=2(γ×k-b)(5)
式中:γ、b——常數,本文設置γ=2,b=1。因此給定通道維數C時,即可確定卷積核大小k的值。
k=φ(C)=log2Cγ+bγodd(6)
式中:|x|odd——當前與x最接近的奇數。
1.3.3 注意力融合模塊
如圖5所示,將空間注意力和通道注意力采用并行連接的方式,將得到的結果進行相加并通過Sigmoid激活得到FSH,將原始輸入特征信息通過殘差結構與相加融合后的權重相乘,得到輸出結果FY,即
FY=δ(FSH+FCS)×F(7)
根據式(7)可以看出,通過全局特征增強殘差模塊后的輸出FY為原輸入特征信號F經過加權的結果。
1.4 上下文信息融合模塊
增大網絡的感受野增大網絡訓練過程中卷積核相對于原圖的視野范圍,對于輸入特征F,通過空洞卷積層,得到的感受野大小為
RFl+1=RFl+(fl+1-1)×∏li-1Si(8)
式中:RFl+1——計算的目標感受野大小;RFl——上一層特征圖對應的感受野大小;i、l——第i、l層;fl+1——當前卷積核大小;Si——對應卷積層的步長。
空洞率的增加一定程度上增加了感受野,能夠獲取目標周圍環境信息,但較大的感受野對小目標的檢測性能較差。深度可分離卷積將普通卷積分解為深度卷積與逐點卷積,相較于普通卷積運算,能夠減少模型計算參數,Mobilenet模型是深度可分離卷積的經典應用。
為使網絡能夠對復雜環境下的不同尺寸大小的水稻病害目標都能準確檢測,借鑒語義分割任務中常見的ASPP結構,為避免模型加深導致檢測速度大幅下降,結合深度可分離卷積,提出上下文信息融合模塊。輸入特征F首先經過卷積核大小為3×3的深度可分離卷積層(其中深度卷積核為3×3,點卷積核為1×1),并將輸出輸入到后續空洞率分別為1,3,5,卷積核大小為3×3深度可分離空洞卷積層,對特征進行提取,多個感受野能得到更為豐富的上下文信息,增強特征層對目標周圍環境的預測能力;同時將原輸入特征F經過殘差結構中的1×1卷積,保留原輸入信號,最后將四個并行分支的輸出在拼接后,通過1×1的卷積實現不同感受野的特征融合,如圖6所示。
由于多個感受野的堆疊會帶來大量的計算,引入深度可分離卷積能有效降低模型參數,避免模型檢測速率的大幅下降。通過融合函數對多尺度感受野獲取到的上下文信息進行融合,能有效提高模型檢測精度。由于高層特征已具有相對原圖較大的感受野范圍,為簡化模型,結合FPN結構,僅在兩個底層特征層后引入CIFM。
2 試驗分析
2.1 數據集和訓練平臺
訓練數據集為Sethy等發布的Rice Leaf Disease Image Samples(RLDIS),共5 932張病害圖片,數據集中提供4類水稻葉片病害:白葉枯病(Bacterialblight)1 584張、稻瘟病(Blast)1 440張、褐斑病(Brownspot)1 308張、東格魯病(Tungro)1 600張。采用人工標注方式對數據集圖像進行標注,保存為PASCAL-VOC格式。訓練服務器環境為Pytorch 1.7.0-GPU,GPU為NVIDIA GeForce RTX2080Ti×3。
2.2 訓練分析
2.2.1 模型訓練
基于遷移學習的思想,采用Yolov5s預訓練模型訓練,在第一個epoch已經可以取得很好的效果,因此采用不凍結訓練方式。bachsize設置為32,初始學習率設置為0.01,輸入圖片resize為640像素×640像素,訓練100個epoch。訓練得到的mAP(IOU=0.5)和Loss曲線如圖7所示。由于網絡加深,訓練開始時收斂速度相比于原Yolov5s下降,但最終檢測精度高于原Yolov5s算法。
2.2.2 評價指標
采用在COCO評價指標中目標檢測平均精度(Mean Average Precision,mAP,%)(IOU=0.5)作為模型檢測精度的評價指標,與準確率(Precision,P,%)、召回率(Recall,R,%)的計算公式如式(9)~式(12)所示。
P=TPTP+FP×100%(9)
R=TPTP+FN×100%(10)
AP=∫10P(R)dR(11)
mAP=1M∑Mi=1AP(i)×100%(12)
式中:TP——正確劃為正樣本的數量;FP——錯誤劃為正樣本的數量;FN——錯誤劃為負樣本的數量;M——分類的類別數。
F1是用于衡量二分類(或多任務二分類)模型精確度的指標,如式(13)所示。
F1=2×P×RP+R(13)
2.2.3 模型對比
將本文算法與SSD-300,Yolov3-SPP,Yolov4,RetinaNet以及Faster R-CNN網絡進行對比,結果如表1所示,FPS是在配置為:GPU:Nvidia RTX2070;CPU:IntelCoreTMi79750H 2.6 GHz測試結果,APB、APD、APH、APDG分別為白葉枯病、稻瘟病、褐病斑、東格魯病的AP值。F1B、F1D、F1H、F1DG分別為白葉枯病、稻瘟病、褐病斑、東格魯病的F1值。
根據對比試驗結果可知,本文方法對比Faster R-CNN算法雖精度有所降低,但Faster R-CNN對水稻葉病檢測的FPS僅為3.0 f/s。圖8為各算法檢測效果圖,SSD-300、Yolov4、RetinaNet都存在對感染程度低的特征存在漏檢現象(圖中橢圓圈出)。本文方法檢測精度較Faster R-CNN低,但FPS達到了58.7 f/s,檢測速度遠高于Faster R-CNN。雖存在一個漏檢目標,但其他評價參數優于其他算法模型,并滿足實時檢測的需求。
2.3 消融試驗
表2為對本文所設計的模塊設計不同的消融試驗,相對于未改進的Yolov5s,采用K-means聚類anchors、增加CIFM、增加SIEM時,mAP(IOU=0.5)分別提高了1.6%、0.8%、1.9%,F1值分別提高1.0%、2.7%、2.2%,證明了各模塊的有效性,改進后的算法相對于原算法mAP(IOU=0.5)提高了4.3%,F1值提高了5.3%,檢測速度雖稍有下降,但檢測精度得到了有效的提升,驗證了本文方法的有效性。
3 結論
為在水稻葉病實時檢測過程中提高檢測精度,提出一種改進Yolov5s目標檢測模型的方法,以解決當前水稻葉病實時檢測精度較低的問題。
1) ?采用K-means聚類算法優化得到改進的先驗證框尺寸;對Yolov5s網絡結構優化,引入輕量級的空間注意力與通道注意力,并將其融合,使模型更好地關注于關鍵信息;結合深度可分離卷積在減少計算量的情況下,將底層特征通過多尺度的感受野加以聚合,提高模型對目標周圍信息的感知。實現Yolov5s算法在引入較少計算量的前提下,有效提高水稻葉病的檢測精度。
2) ?對比試驗表明,改進后的Yolov5s算法相對于原Yolov5s算法,mAP提高4.3%,F1值提高5.3%,FPS為58.7f/s,遠高于SSD-300,Yolov3-SPP,Yolov4,RetinaNet以及Faster R-CNN目標檢測網絡。在提高檢測精度的同時,滿足實時檢測的需求。
3) ?設計消融試驗對各模塊的有效性進行驗證,結果表明:采用K-means聚類、增加CIFM、增加SIEM時,mAP分別提高了1.6%、0.8%、1.9%,F1值分別提高1.0%、2.7%、2.2%,證明了本文方法的有效性。
參 考 文 獻
[1]Bao W, Qiu X, Liang D, et al. Recognition insect images at the order level based on elliptic metric learning [J]. Applied Engineering in Agriculture, 2021, 37(1): 163-170.
[2]謝錫水. 水稻病蟲害防治中的突出問題及其對策淺析[J]. 中國農業信息, 2017(19): 54-56.
[3]Lim S, Kim S, Park S, et al. Development of application for forest insect classification using CNN [C]. 2018 15th International Conference on Control, Automation, Robotics and Vision (ICARCV). IEEE, 2018: 1128-1131.
[4]Zhao J, Fang Y, Chu G, et al. Identification of leaf-scale wheat powdery mildew (Blumeria graminis f. sp. Tritici) combining hyperspectral imaging and an SVM classifier [J]. Plants, 2020, 9(8): 936.
[5]Liu T, Chen W, Wu W, et al. Detection of aphids in wheat fields using a computer vision technique [J]. Biosystems Engineering, 2016, 141: 82-93.
[6]魏麗冉, 岳峻, 李振波, 等. 基于核函數支持向量機的植物葉部病害多分類檢測方法[J]. 農業機械學報, 2017, 48(S1): 166-171.Wei Liran, Yue Jun, Li Zhenbo, et al. Multi-classification detection method of plant leaf disease based on kernel function SVM [J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1): 166-171.
[7]鮑文霞, 孫慶, 胡根生, 等. 基于多路卷積神經網絡的大田小麥赤霉病圖像識別[J]. 農業工程學報, 2020, 36(11): 174-181.Bao Wenxia, Sun Qing, Hu Gensheng, et al.Image recognition of field wheat scab based on multi-way convolutional neural network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(11): 174-181.
[8]Sun H, Xu H, Liu B, et al. MEAN-SSD: A novel real-time detector for apple leaf diseases using improved light-weight convolutional neural networks [J]. Computers and Electronics in Agriculture, 2021, 189: 106379.
[9]曾偉輝, 唐欣, 胡根生, 等. 基于卷積塊注意力膠囊網絡的小樣本水稻害蟲識別[J]. 中國農業大學學報, 2022, 27(3): 63-74.Zeng Weihui, Tang Xin, Hu Gensheng, et al. Small-sample rice pest identification based on convolutional block attention capsule network [J]. Journal of China Agricultural University, 2022, 27(3): 63-74.
[10]任歡, 王旭光. 注意力機制綜述[J]. 計算機應用, 2021, 41(S1): 1-6.Ren Huan, Wang Xuguang. Areview of attention mechanism [J]. Journal of Computer Applications, 2021, 41(S1): 1-6.
[11]陳瑩, 龔蘇明. 改進通道注意力機制下的人體行為識別網絡[J]. 電子與信息學報, 2021, 43(12): 3538-3545.Chen Ying, Gong Suming. Human action recognition network based on improved channel attention mechanism [J]. Journal of Electronics & Information Technology, 2021, 43(12): 3538-3545.
[12]Xu Z, Huang X, Huang Y, et al. A real-time zanthoxylum target detection method for an intelligent picking robot under a complex background, based on an improved YOLOv5s architecture [J]. Sensors, 2022, 22(2): 682.
[13]王文亮, 李延祥, 張一帆, 等. MPANet-YOLOv5:多路徑聚合網絡復雜海域目標檢測[J]. 湖南大學學報(自然科學版), 2022, 49(10): 69-76.Wang Wenliang, Li Yanxiang, Zhang Yifan, et al. MPANet-YOLOv5: Multi-path aggregation network for complex sea object detection [J]. Journal of Hunan University (Natural Sciences), 2022, 49(10): 69-76.
[14]顧寶興, 劉欽, 田光兆, 等. 基于改進YOLOv3的果樹樹干識別和定位[J]. 農業工程學報, 2022, 38(6): 122-129.Gu Baoxing, Liu Qin, Tian Guangzhao, et al. Recognizing and locating the trunk of a fruit tree using improved YOLOv3 [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(6): 122-129.
[15]Yang R, Li W, Shang X, et al. KPE-YOLOv5: An improved small target detection algorithm based on YOLOv5 [J]. Electronics, 2023, 12(4): 817.
[16]Zheng Z, Qi H Y, Zhuang L, et al. Automated rail surface crack analytics using deep data-driven models and transfer learning [J]. Sustainable Cities and Society, 2021, 70: 102898.
[17]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 28.
[18]Zhang K, Zhou H, Bian H, et al. Certified defense against patch attacks via mask-guided randomized smoothing [J]. Science China Information Sciences, 2022, 65(7): 170306.
基金項目:浙江省重點研發計劃項目(2018C01085);杭州市農業與社會發展科研項目(20200401A05);浙江省大學生科技創新活動計劃暨新苗人才計劃項目(2020R415032)
第一作者:項新建,男,1964年生,浙江永康人,碩士,教授;研究方向為人工智能、機器人。E-mail: 188002@zust.edu.cn
通訊作者:曹光客,男,1981年生,浙江杭州人,工程師;研究方向為機器人。E-mail: cgk@shenhaoinfo.com