










摘要:針對傳統水稻病害識別方法主要依賴人工,效率低下且存在人工主觀誤差的問題,提出一種基于改進FCOS模型的水稻葉片病害檢測模型。首先收集950張3種不同病害的水稻葉片圖像,構建Pascal Voc格式的水稻葉片病害數據集。為增強模型的泛化能力,對劃分為訓練集的圖像進行數據增強,訓練集圖像由760張擴增到6 080張。然后構建檢測模型,改進FCOS模型在原模型的基礎上,在特征融合網絡引入CBAM注意力模塊;損失函數中,回歸損失函數采用CIoU損失函數,分類損失函數和中心度損失函數與原FCOS模型保持一致。改進的FCOS模型在水稻葉片病害數據上的平均精度均值達77.7%,相比原FCOS模型提升了2.3百分點,改進的模型在不明顯提升檢測時間的情況下,提升了模型的精度。通過試驗與模型YOLOF、Faster R-CNN、VarifocalNet、NAS-FCOS、TOOD進行對比,結果表明本研究模型取得了最高的檢測精度,且在檢測精度和檢測速度上取得了最高的權衡。結果表明,本研究提出的模型能夠比較精準地識別水稻白葉枯病、胡麻葉斑病和葉瘟病,可以為水稻葉片病害的檢測提供參考。
關鍵詞:改進FCOS模型;水稻葉片病害圖像;Pascal Voc格式;CBAM注意力模塊;CIOU損失函數
中圖分類號:S126;TP391.41 文獻標志碼:A
文章編號:1002-1302(2024)12-0232-07
水稻作為我國重要的糧食作物之一,有著悠久的種植歷史。我國水稻的種植面積和產量均居世界前列[1]。然而水稻在各個生長周期易受到各種病蟲侵害,從而嚴重損害水稻的產量和品質。因此,及時準確識別水稻病蟲害并根據識別結果采取對應的防治措施,對于保證水稻的健康生長是十分重要且必要的。
傳統的植物病害識別方法主要依賴于人工進行,該方法效率低且依賴于人的主觀意識[2]。伴隨著深度學習技術的發展,以Faster R-CNN為代表的雙階段檢測模型、以YOLO系列為代表的一階段檢測模型已應用到植物圖像檢測領域[3-5]。朱紅春等使用Faster R-CNN對茶葉嫩芽進行檢測,與傳統的茶葉嫩芽識別算法的對比試驗表明,該模型在檢測精度和速度上具備優勢[6]。王云露等對Faster R-CNN進行改進,其使用ResNest網絡作為骨干特征提取網絡,特征融合網絡使用特征金字塔網絡(FPN),并采用級聯機制優化樣本選擇機制,改進后模型的平均精度均值(mean average precision,簡稱mAP)達到86.2%,比改進前提升了8.7%,驗證了模型在蘋果葉片小目標病斑和復雜背景下病斑的檢測有效性[7]。涂淑琴等將Faster R-CNN應用于百香果檢測,并實現了無遮擋、遮擋、重疊和背景4種情形下的自動檢測[8]。董浪等使用Faster R-CNN 識別梨樹花芽,其采用ResNet 101作為骨干特征提取網絡,并在模型中融入了特征金字塔網絡,模型的平均精度均值達到91.27%,每幅圖像的檢測時間為0.395 s,說明模型在自然光照環境下梨樹花芽檢測具有有效性和實時性[9]。魏冉等將特征金字塔網絡和注意力機制SKNet引入Faster R-CNN,改進后的模型對櫻桃的平均精度均值達98.24%[10]。徐會杰等在YOLO v3模型的基礎上提出了YOLO v3-Corn模型,新模型在玉米葉片病蟲害數據上的平均精度均值達到了93.31%,比YOLO v3模型提高了4.03%[11]。王根等從損失函數、骨干特征提取網絡、anchor生成等多個方面對YOLO v3模型提出了改進,并將改進后的模型應用于茶草位置檢測,對茶樹和雜草的檢測精確率分別達到82.56%、85.34%[12]。沈志豪等在 YOLOX-s 模型的基礎上,重新設計了特征提取網絡的深度,引入了注意力機制和SPPF模塊,改進后的模型用于田間麥穗檢測及計數,在實拍的麥田圖像中,改進模型的計數準確率達到97.93%[13]。楊堃等提出基于視覺加強注意力改進的YOLO v5-VE模型,在制作的植物病蟲數據集上的檢測平均準確率達到73.49%[14]。駱潤玫等提出YOLO v5-C,并將該模型應用到復雜背景下的廣佛手病蟲害識別上,平均精度均值達到了93.06%,比基礎網絡YOLO v5s提高2.45%[15]。
FCOS(fully convolutional one-stage object detectio)模型作為經典的Anchor-free模型,在植物圖像識別檢測、行人檢測等各個領域均有所應用[16]。龍燕等在原FCOS基礎上,從骨干網絡、損失函數等方面進行改進,改進模型應用于自然環境下蘋果果實檢測,其平均精度均值達到96.3%[17]。黃河清等提出了基于模型剪枝的多維度特征Slim-FOCS算法,對柑橘檢測平均精度均值達到96.01%[18]。劉丹等使用FCOS算法進行行人檢測,其使用輕量化網絡MobileNet v2替換ResNet 50網絡,并增加C2層進行特征融合,提高了檢測精度和速度[19]。劉競升等在FCOS模型的基礎上,通過增加特征增強網絡構建了二階段無錨框檢測算法,通過在艦船數據集與其他主流艦船檢測算法對比,驗證了所提模型的有效性[20]。
本研究首先收集白葉枯?。╮ice bacterial leaf blight)、胡麻葉斑?。╮ice brown spot)、葉瘟病(rice leaf blast)等水稻葉片病害圖像構建數據集,然后再在FCOS模型的基礎上,為了更充分地提取特征,在特征融合網絡中引入CBAM(convolutional block attention module)注意力機制[21]。而對于模型損失函數,分類損失函數與原FCOS網絡一致,采用Focal Loss損失函數,而回歸損失函數則采用CIOU(Complete-IoU)損失函數,從而實現水稻葉片病害的精準檢測[22-23]。
1 構建水稻葉片病害檢測模型
1.1 構建FCOS檢測模型
Faster R-CNN、RetinaNet等屬于基于錨框(anchor-based)檢測模型,其需要單獨為每個數據集設置Anchor,而且通常Anchor的設置會極大地影響模型的結果,這明顯限制了Anchor-based模型的應用。本研究使用的FCOS模型作為無錨框(Anchor-free)檢測模型,不需要為每個數據集單獨適配Anchor。
FCOS模型的整體結構框圖如圖1所示。模型主要包括骨干特征提取網絡Backbone、特征融合網絡Neck、頭部檢測網絡Head等3個部分。骨干特征提取網絡特取水稻葉片圖像的特征,這里采用的是ResNet50模型,ResNet網絡解決了卷積神經網絡面臨的網絡退化問題,其主要結構是殘差塊[24]。Neck連接特征提取網絡和Head,對從特征提取網絡輸入的單尺度或多尺度特征進行分治和融合,這里采用特征金字塔網絡(feature pyramid networks,簡稱FPN)[25],并在其中引入了CBAM注意力機制。Head包括分類分支、回歸分支、中心度(Center-ness)分支,分類和回歸在該部分網絡進行。
具體工作過程:首先輸入水稻葉片圖像,經由骨干特征提取網絡ResNet50提取特征,得到(C1,C2,C3,C4,C5)層特征圖,其對應的步長為(2,4,8,16,32),層數越高,特征信息越豐富。將(C3,C4,C5)層特征輸入到FPN網絡中進行特征分治和特征融合,獲得(P3,P4,P5)層特征圖,對P5層特征進行卷積操作得到(P6,P7)層特征圖。(P3,P4,P5,P6,P7)對應的步長為(8,16,32,64,128)。最后在Head層對特征金字塔(P3,P4,P5,P6,P7)的每一層特征圖進行分類和回歸,預測水稻葉片的種類和位置信息。在Head的Center-ness分支表征當前位置與所預測物體中心點之間的距離,該距離衡量該位置是否是物體中心的置信度,便于后續非極大值抑制(non-maximum suppression,簡稱NMS)篩選保留高質量的候選框。
1.2 特征融合網絡
本模型的特征融合網絡以特征金字塔網絡為主體,在其中加入CBAM模塊。FPN利用了ConvNet的金字塔特征層次結構,構建具有高層次語義的特征金字塔[25]。對于ResNet50網絡,將conv3、conv4、conv5這些殘差塊的輸出表示為(C3,C4,C5),其對應的步長為(8,16,32),對應的通道尺寸(channel dimensions)為(512,1 024,2 048)。(C3,C4,C5)均經過11卷積層以減少通道尺寸,經過11卷積層之后,通道尺寸均降為256,為了便于描述,將經過11卷積層的(C3,C4,C5)記為(D3,D4,D5)。(D4,D5)上采樣后與(D3,D4)進行逐元素相加,并在合并的特征圖上經由33的卷積以生成特征圖(P3,P4),特征P5直接由D5經由3×3的卷積得到,這樣生成了特征圖(P3,P4,P5)。特征圖P5經過步長為2的3×3卷積獲得特征圖P6,同理獲得特征圖P7。這樣就生成了一組特征圖(P3,P4,P5,P6,P7),其對應的步長為(8,16,32,64,128),其輸出通道數均為256。
為更好地進行特征提取和特征分治,在FPN上加入CBAM注意力模塊。CBAM模塊處于1×1卷積塊之后,上采樣之前,加入了CBAM模塊的特征融合網絡模型如圖2所示。在本模型中,累計加入了3個CBAM模塊。
注意力機制類似人的注意力,選擇性地關注重要的或感興趣的特征,減少甚至忽視不相關或不感興趣的特征。當模型的計算能力有限時,注意力機制將算力分配到相關重要特征上,從而更好地學習特征,減少了資源浪費。通道注意力模塊和空間注意力模塊是CBAM模塊的重要組成部分,這2個模塊讓網絡知道哪些信息需要強調,哪些信息需要抑制。CBAM論文通過試驗驗證,先通過通道注意力模塊再通過空間注意力模塊可以取得最佳性能[21]。CBAM結構如圖3所示。
通道注意力模塊的結構如圖4所示。其輸入特征圖F的維度是H×W×C,分別經過最大池化和平均池化操作得到相應的特征圖FCmax和FCavg,其維度均為1×1×C。FCmax和FCavg經由包含一個隱層的多層感知器MLP里,將經過MLP的注意力圖進行像素級相加,最后由sigmoid函數激活。通道注意力模塊的計算過程見公式(1):
式中:W1和W0是多層感知器MLP的權重參數;σ是sigmoid激活函數;MaxPool是最大池化操作;AvgPool是平均池化操作。
空間注意力模塊的結構如圖5所示。將輸入的特征圖F′分別進行最大池化和平均池化操作,得到H×W×1的特征圖Fsmax和Fsavg,然后將2個特征圖拼接,得到H×W×2的特征圖,再經由卷積操作將通道維度降到1,最后經由sigmoid函數激活??臻g注意力機制的計算過程可以由如下公式表達為:
式中:IoU是真實檢測框與預測檢測框面積的交并比;d是真實檢測框的中心點與預測檢測框的中心點之間的距離;c是覆蓋2個檢測框的最小封閉長方形框的對角線長度;wgt、hgt是真實檢測框的寬和高;w、h是預測測檢框的寬和高。
2 結果與討論
為驗證模型在水稻葉片病害圖像數據上的有效性,在服務器平臺上進行試驗驗證。服務器的配置如下:Ubuntu 20.04操作系統,PyThon 3.7,PyTorch 1.10,CUDA 11.3,CUDNN 8.2,所用顯卡為RTX 3090(顯存25.4 GB)。所有模型均在mmdetection 3.0框架下進行訓練和測試。本試驗模型的結果均在Featurize平臺(https://featurize.cn/)上運行得出,運行時間為2023年5月至7月上旬。
2.1 數據收集和數據集制作
數據來源于Kaggle網站。從Kaggle網站收集水稻白葉枯病、胡麻葉斑病、葉瘟病圖像數據,并人工篩除模糊不清的圖像,最終得到圖像950張,部分圖像如圖6所示。使用Labelme軟件對水稻葉片病害位置進行標注,最終得到Pascal Voc格式的數據集。按照約8 ∶2的比例劃分訓練集和測試集,并對訓練集數據進行數據增強,使用的數據增強方式包括圖像翻轉(水平、垂直)、圖像旋轉(90°、180°、270°)、圖像明暗度調節,從而將訓練集圖像數量增強至原先的8倍,擴增后的訓練集包含6 080張圖像。數據集劃分結果如表1所示。
2.2 參數設置和評價指標
使用隨機梯度下降算法(stochastic gradient descent,簡稱SGD)更新模型參數,學習率設為0.01,動量設為0.9,epoch設置為12,batch size設為16,學習率采用Warm up策略,在第8個和第11個epoch之后,學習率降為原先的0.1倍。模型的訓練損失隨迭代次數的變化曲線如圖7所示,橫坐標為迭代次數,縱坐標為損失。隨著迭代次數的增加,模型的損失函數整體趨勢是隨之降低,在 4 000 次迭代后,損失函數基本無變化,說明了模型訓練的有效性。
本研究使用平均精度均值(mAP)和平均幀率(frame per second,簡稱FPS)分別衡量模型的精度和速度。平均精度均值是各水稻葉片病害檢測精度的均值,其值越高,說明模型訓練的結果越精確。平均幀率是指在當前軟硬件條件下,模型每秒可以處理的圖像數量,單位是圖像數量/s,簡記做img/s。平均幀率值越高,說明模型在單位時間內處理的圖像數量越多,模型的速度越快。平均幀率的測量需要在相同軟硬件條件和相同維度的輸入圖像下進行。在本研究中,在全數據集上測試平均幀率,全數據集是指由增強后的訓練集和測試集構成的數據集,包含了6 270張圖像。
2.3 試驗結果
為驗證模型的有效性,本研究將所提模型與YOLOF、Faster R-CNN、VarifocalNet、NAS-FCOS、TOOD、FCOS等模型進行對比[3,16,26-29],結果見表2。YOLOF的平均幀率指標最高,達到 61.8 img/s,說明該模型在當前軟硬件條件下每秒可以處理61.8張圖像,模型推理速度遠高于其他模型,但其平均精度均值指標最低,分別低于Faster R-CNN、VarifocalNet、NAS-FCOS、TOOD、FCOS、改進FCOS模型4.5、5.5、6.7、8.5、6.7、9.0百分點。Faster R-CNN 模型的平均精度均值達到73.2%,低于改進FCOS模型4.5百分點,其平均幀率達到31.9 img/s,低于改進FCOS模型5.0 img/s。VarifocalNet模型的平均精度均值和平均幀率分別達到了74.2%和32.7 img/s,均低于改進FCOS模型。NAS-FCOS模型的平均精度均值達到75.4%,低于改進FCOS模型2.3百分點,其平均幀率僅為26.7 img/s,明顯低于改進FCOS模型。TOOD模型的平均精度均值達到77.2%,僅比改進FCOS模型低0.5百分點,但其平均幀率明顯低于改進FCOS模型,每秒比改進FCOS模型少處理8.6張圖片。原FCOS模型的平均精度均值達到75.4%,低于改進FCOS模型2.3百分點。經分析認為,改進FOCS模型在精度和速度上取得了最高的權衡,且其在不明顯降低速度的前提下,提升了模型的識別效果。
為進一步驗證CBAM模塊和CIOU模塊對FOCS模型的作用,將CBAM模塊和CIOU模塊分別組合進行對比試驗,試驗結果如表3所示。不添加CBAM和CIOU模塊的模型是原FCOS模型,同時添加CBAM模塊和CIOU模塊的模型是改進FCOS模型。CBAM模塊的加入增加了1.7百分點的檢測精度,CIOU模塊的加入增加了1.2百分點的檢測精度,同時加入CBAM和CIOU模塊增加了2.3百分點的檢測精度,相對于單獨增加CBAM模塊和CIOU模塊分別提升了0.6百分點和1.1百分點的檢測精度,說明了所提模型的有效性。
3 討論與結論
首先收集水稻白葉枯病、胡麻葉斑病、葉瘟病這3種水稻葉片病害圖像從而構建相應的數據集,數據集為Pascal voc格式;然后搭建FCOS模型進行水稻葉片病害檢測。在FCOS模型的特征提取模塊引入CBAM模塊以增強特征提取能力;損失函數中回歸損失函數采用CIOU損失函數,分類損失和目標中心度損失與原FCOS模型保持一致。試驗結果表明,所提模型的平均精度達到77.7%,在不明顯提高計算時間的前提下,提升了模型精度。但在實際應用中,僅對3種水稻病害進行檢測遠遠不足,將進一步收集更多種類的水稻病害圖像數據,擴大模型檢測病害種類范圍。
參考文獻:
[1]溫 鑫. 基于卷積神經網絡的水稻葉片病害識別[D]. 哈爾濱:東北農業大學,2021.
[2]張永玲. 基于Android的水稻病蟲害圖像識別與診斷系統的研究[D]. 杭州:浙江理工大學,2018.
[3]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[4]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA. IEEE,2016:779-788.
[5]Redmon J,Farhadi A. YOLO9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu,HI,USA. IEEE,2017:6517-6525.
[6]朱紅春,李 旭,孟 煬,等. 基于Faster R-CNN網絡的茶葉嫩芽檢測[J]. 農業機械學報,2022,53(5):217-224.
[7]王云露,吳杰芳,蘭 鵬,等. 基于改進Faster R-CNN的蘋果葉部病害識別方法[J]. 林業工程學報,2022,7(1):153-159.
[8]涂淑琴,黃 健,林躍庭,等. 基于改進Faster R-CNN的百香果自動檢測[J]. 實驗室研究與探索,2021,40(11):32-37.
[9]董 浪,許建峰,靳江周,等. 基于改進Faster R-CNN的梨樹花芽識別方法[J]. 河北農業大學學報,2021,44(6):116-121.
[10]魏 冉,裴悅琨,姜艷超,等. 基于改進Faster R-CNN模型的櫻桃缺陷檢測[J]. 食品與機械,2021,37(10):98-105,201.
[11]徐會杰,黃儀龍,劉 曼. 基于改進YOLO v3模型的玉米葉片病蟲害檢測與識別研究[J]. 南京農業大學學報,2022,45(6):1276-1285.
[12]王 根,江曉明,黃 峰,等. 基于改進YOLO v3網絡模型的茶草位置檢測算法[J]. 中國農機化學報,2023,44(3):199-207.
[13]沈志豪,劉金江,張建洋. 基于改進YOLOX-s的田間麥穗檢測及計數[J]. 江蘇農業科學,2023,51(12):164-171.
[14]楊 堃,范習健,薄維昊,等. 基于視覺加強注意力模型的植物病蟲害檢測[J]. 南京林業大學學報(自然科學版),2023,47(3):11-18.
[15]駱潤玫,殷惠莉,劉偉康,等. 基于YOLO v5-C的廣佛手病蟲害識別[J]. 華南農業大學學報,2023,44(1):151-160.
[16]Tian Z,Shen C H,Chen H,et al. FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul,Korea (South). IEEE,2019:9626-9635.
[17]龍 燕,李南南,高 研,等. 基于改進FCOS網絡的自然環境下蘋果檢測[J]. 農業工程學報,2021,37(12):307-313.
[18]黃河清,胡嘉沛,李 震,等. 基于模型剪枝改進FCOS的實時柑橘檢測研究[J]. 河南農業大學學報,2021,55(3):453-459.
[19]劉 丹,汪慧蘭,曾浩文,等. 改進FCOS的行人檢測算法[J]. 計算機工程與設計,2022,43(11):3264-3270.
[20]劉競升,伍 星,王洪剛,等. 改進FCOS的二階段SAR艦船檢測算法[J]. 計算機工程與應用,2021,57(24):144-151.
[21]Woo S,Park J,Lee J Y,et al. CBAM:convolutional block attention module[C]//European Conference on Computer Vision.Cham:Springer,2018:3-19.
[22]Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):318-327.
[23]Zheng Z H,Wang P,Liu W,et al. Distance-IoU loss:faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000.
[24]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA.IEEE,2016:770-778.
[25]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:936-944.
[26]Chen Q,Wang Y M,Yang T,et al. You only look one-level feature[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville,TN,USA.IEEE,2021:13034-13043.
[27]Zhang H Y,Wang Y,Dayoub F,et al. VarifocalNet:an IoU-aware dense object detector[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville,TN,USA.IEEE,2021:8510-8519.
[28]Wang N,Gao Y,Chen H,et al. NAS-FCOS:fast neural architecture search for object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle,WA,USA.IEEE,2020:11940-11948.
[29]Feng C J,Zhong Y J,Gao Y,et al. TOOD:task-aligned one-stage object detection[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).Montreal,QC,Canada.IEEE,2021:3490-3499.
收稿日期:2023-07-24
基金項目:河南省科技攻關項目(編號:222102210300);河南省高等學校青年骨干教師培養計劃(編號:2021GGJS176);信陽農林學院青年教師科研基金項目(編號:QN2021057)。
作者簡介:丁士寧(1993—),男,河南信陽人,碩士,助教,研究方向為模式識別與人工智能。E-mail:1728252083@qq.com。