梁 勇 邱榮洲 李志鵬 陳世雄 張 鐘 趙 健
(1.福建省農業科學院數字農業研究所, 福州 350003; 2.福建省農業科學院植物保護研究所, 福州 350013)
水稻害蟲的準確預測對保證水稻高產、減少經濟損失具有十分重要的作用[1]。傳統的水稻害蟲測報工作主要由人工完成,害蟲識別與計數效率低。隨著計算機視覺技術的發展,機器學習和深度學習被應用到農業害蟲的自動識別領域中。
傳統機器學習主要基于計算機視覺進行害蟲紋理、顏色、形狀等特征提取,使用支持向量機(Support vector machine,SVM)[2-3]、K最近鄰(K-nearest neighbor,KNN)[4]和AdaBoost算法(Adaptive boosting,AdaBoost)[5]等算法檢測目標害蟲。EBRAHIMI等[6]應用SVM算法識別溫室草莓薊馬,識別結果的平均錯誤率小于2.25%。VAKILIAN等[7]提出了一種基于人工神經網絡的甜菜夜蛾識別方法,識別結果的平均準確率為90%。YAO等[8]研發了一款水稻害蟲手持拍攝設備,并利用AdaBoost等算法對稻田飛虱進行識別與自動計數,識別檢測率為85.2%。上述基于機器學習的農業害蟲檢測技術需要經過復雜的蟲害圖像特征設計,然而野外環境中,水稻害蟲拍攝的背景復雜多變,拍攝受光線影響大,人工方式難以將水稻害蟲顏色和形狀特征從相似的水稻葉片和其它非目標昆蟲等復雜背景中選取出來,因此利用機器學習方法難以滿足水稻害蟲全自動監測的需求。
深度學習可以自動逐層提取特征,有自己的特征生成器,識別速度和精確率優于機器學習,對復雜背景下的目標檢測有很大的優勢[9]。LIU等[10]應用8層卷積神經網絡(Convolutional neural network,CNN),實現了對水稻12種害蟲的準確分類。TAN等[11]比較了深度學習和機器學習算法對Plant Village數據集中番茄葉片病害的識別效果,結果表明,深度學習算法識別的精確率、召回率、F1值等指標都優于機器學習算法。KASINATHAN等[12]進行了機器學習算法和CNN算法在IP102數據集上的害蟲檢測精度對比,CNN算法的檢測精度高于機器學習算法。目前常用的深度學習目標檢測網絡有Faster RCNN算法(Faster region with convolutional neural network)[13]、單步多框檢測器(Single shot multibox detector,SSD)[14]和YOLO算法(You only look once)[15]等。孫鈺等[16]使用改進的Faster RCNN算法能自動化地統計誘捕器中的紅脂大小蠹數量。余小東等[17]提出了一種基于殘差網絡(ResNet 50)的改進算法,實現農作物病蟲害等級分類,準確率為91.51%。YOLO算法是基于回歸的目標檢測方法,能夠同時分類和檢測一幅圖像。上述研究的病蟲害訓練數據集圖像主要是從室內或者野外田間拍攝獲得,室內圖像是將害蟲放在室內試驗條件下拍攝。室內收集的病蟲害圖像可以有效消除外界光線的影響,簡化圖像處理,但與真實自然光下采集的圖像有很大的不同[18]。野外田間圖像包括使用手機、相機等拍攝設備對野外植物葉片上的害蟲進行拍攝,或者使用田間安裝的蟲情監測設備自動獲取害蟲圖像[19-20]。
由于自然環境下采集的病蟲害圖像背景多樣,且采集設備不同,已有模型主要是在特定的采集背景和拍攝設備下訓練出來的,對不同采集背景、不同采集設備圖像的識別效果有待研究。因此,本研究從監測設備、三角形誘捕器、蟲情測報燈3種不同采集背景中拍攝稻縱卷葉螟和二化螟成蟲圖像,提出一種基于YOLO v5算法的野外稻縱卷葉螟和二化螟成蟲識別方法,構建3種不同采集背景的水稻稻縱卷葉螟和二化螟成蟲圖像數據集,將不同采集背景、不同設備的訓練模型對野外三角形誘捕器和監測設備蟲害圖像的檢測性能進行對比,建立最優的識別與計數模型,并對比稻縱卷葉螟圖像不同訓練數據量的模型識別結果,實現對稻縱卷葉螟和二化螟成蟲圖像的自動識別與計數。
本研究應用自主研制的水稻害蟲監測設備、三角形誘捕器、佳多蟲情測報燈采集稻縱卷葉螟和二化螟,分別使用圖像傳感器、Sony RX100型數碼相機、小米M5手機等多種設備拍攝圖像。水稻害蟲誘集與拍攝裝置包括太陽能供電組件、誘捕罩、拍攝單元、害蟲清理單元、集蟲容器等部件,系統結構如圖1所示。監測設備放置地點為福建省三明市洋溪鎮(26°17′58″N,117°44′10″E)和三明市尤溪縣(26°9′56″N,118°2′53″E),圖像采集時間為2020年4—10月。

圖1 水稻害蟲誘集與拍攝裝置示意圖Fig.1 Schematic of trap and camera device for rice pest1.太陽能板 2.鏡頭蓋 3.收集容器 4.控制箱 5、6.透氣孔 7.誘捕罩 8.立柱 9.托板
利用不同拍攝設備獲取2種水稻害蟲,表1為不同設備獲取的害蟲圖像數量。監測設備采用性信息素引誘,昆蟲性信息素為北京中捷四方有限公司生產。害蟲原始圖像由嵌入監測設備里的圖像傳感器采集,由4G無線網絡自動上傳到服務器。原始圖像分辨率為1 800像素×1 350像素,為提高上傳效率,將其壓縮為900像素×675像素,圖像傳感器四周附有LED補光燈。每天12:00采集1次,每次采集后,害蟲清理單元清理掉前次拍攝后的害蟲,保證每幅圖的蟲數為清理前24 h的蟲數總量。三角形誘捕器所用粘板和性信息素為北京中捷四方有限公司生產,每隔3 d更換一次粘板,更換時對粘板上的害蟲進行拍攝,1個月更換一次誘芯。室內采集的水稻害蟲為福建省莆田市仙游縣、福州市閩侯縣兩地蟲情測報燈所誘捕,以白色底板作為輔助背景拍攝。圖2為不同拍攝設備獲取的水稻害蟲圖像。室內白板背景下拍攝的圖像背景單一,光照均勻,拍攝背景為三角形誘捕器時,背景中含有水稻葉片和其它非目標昆蟲,監測設備拍攝的圖像分為稻縱卷葉螟和二化螟成蟲圖像。

表1 不同采樣場景獲取圖像的數量Tab.1 Number of images captured in different sampling scenes 幅

圖2 不同設備采集到的昆蟲圖像Fig.2 Collected insect images by different devices
水稻害蟲監測設備通過置于誘捕罩內部的誘芯吸引害蟲,害蟲靠近誘芯時,發現不是真正的雌蛾后垂直向上飛到誘捕罩頂部,從而將害蟲誘捕進收集容器內。經過特定時長后攝像頭對拍攝面板進行拍攝,且攝像頭的鏡頭朝向拍攝面板的中心位置,整個拍攝面板均可以被拍攝下來,識別控制終端接收攝像頭拍攝的害蟲圖像信息,收到圖像信息后發送到云端,與云端內部存儲的害蟲信息進行匹配,從而分析害蟲的種類及數量,具體流程圖如圖3所示。
神經網絡模型結構采用YOLO v5算法中的YOLO v5s,其結構見圖4。模型訓練采用的操作系統為Ubuntu 18.04,訓練和測試框架為Pytorch,服務器平臺配置為:Intel Xeon CPU E5-2665 0 @ 2.40 GHz處理器,32 GB運行內存,11 GB GeForce RTX2080Ti 顯卡,使用CUDA 10.2版本并行計算框架配合CUDNN 8.2版本的深度神經網絡應用程序編程接口(API)。輸入圖像尺寸調整為640像素×640像素,批量大小設置為64,訓練步數為500,學習率為0.01,動量設為0.937,采用隨機梯度下降(SGD)優化,權重衰減為0.000 5。

圖4 YOLO v5s算法結構Fig.4 Structure of YOLO v5s algorithm
本研究自建水稻害蟲數據集,為保證樣本多樣性,設置了監測設備、三角形誘捕器、蟲情測報燈3種誘捕拍攝方式,并經農業專家標注確認。由于深度神經網絡模型的訓練需要大量的圖像來提取有效的特征,為了提高水稻目標害蟲檢測模型的泛化能力和魯棒性,同時避免模型過擬合,對訓練集進行了數據增強。采用左右翻轉、增加圖像對比度、上下翻轉的方式對訓練集進行擴充,不同處理方式得到的圖像如圖5所示。將采集的原始圖像長邊使用固定值800像素,另一邊根據原始圖像尺寸進行壓縮,再進行邊界框標注。本文使用樣本標注軟件TF Label Tool,標注稻縱卷葉螟、二化螟目標邊界框。標注包括邊界框坐標和類別兩類信息,以txt文本格式進行存儲。

圖5 水稻害蟲圖像數據增強效果Fig.5 Data augmentation of rice pest images
根據圖像來源和圖像標注類別,將數據集分為6類,如表2所示。數據集A1+A2、B1+B2分別為監測設備、三角形誘捕器獲取的原始圖像隨機排列,分別選取原始圖像100幅到驗證集和測試集,余下擴增到800幅。數據集A3、B3分別為從室內拍攝的稻縱卷葉螟和二化螟的圖像中隨機選取1 000幅圖像。數據集A1+A2+A3為從數據集A1+A2中隨機選取500幅圖像,再從數據集A3中選取500幅圖像,隨機排列。數據集B1+B2+B3為從數據集B1+B2中隨機選取500幅圖像,再從數據集B3中隨機選取500幅圖像,隨機排列。訓練集、驗證集、測試集圖像比例為8∶1∶1。

表2 不同數據集構成Tab.2 Composition of dataset
室內白板背景下拍攝的稻縱卷葉螟的不同訓練數據量與訓練集如表3所示。首先將室內拍攝的5 828幅稻縱卷葉螟原始圖像通過圖像擴充到6 000幅,隨機排列圖像,其中圖像總量按比例1∶2∶3分為數據集A3_1000、A3_2000和A3_3000。數據集A3_4000由數據集A3_1000和A3_3000組成,數據集A3_5000由數據集A3_2000和A3_3000組成,數據集A3_6000由數據集A3_1000和A3_5000組成。訓練集、驗證集、測試集圖像比例為8∶1∶1。

表3 室內白板背景下拍攝的稻縱卷葉螟數據集分布Tab.3 Dataset distribution of C. medinalis photographed by indoor whiteboard
為了進一步驗證模型的有效性,需要在各種實際條件下檢測算法的效率,本研究以不同采樣場景、不同設備采集圖像構建的多源數據集和稻縱卷葉螟訓練數據量為控制變量。為了評價本研究提出的水稻害蟲檢測模型的有效性,選擇精確率(Precision,P)、召回率(Recall,R)、F1值(F1 score)和平均精度(Average precision,AP)作為評價指標。
為了進一步測試模型對水稻害蟲的識別能力,對誘捕器和監測設備采集的害蟲圖像進行目標檢測。通過訓練集構建了6個識別模型,其中3個稻縱卷葉螟模型,3個二化螟模型,分別為基于室內白板背景圖像集的YOLO v5s_A3和YOLO v5s_B3、基于誘捕器和監測設備圖像集的YOLO v5s_A1+A2和YOLO v5s_B1+B2,基于室內白板背景、誘捕器和監測設備圖像集的YOLO v5s_A1+A2+A3和YOLO v5s_B1+B2+B3。分別對測試數據集A1+A2和B1+B2進行檢測驗證,精確率、召回率、F1值如表4所示,檢測結果見圖6。在實際測試中,YOLO v5s_A3模型對野外監測設備和三角形誘捕器下采集的害蟲圖像的識別精確率較低,會將其它昆蟲識別為稻縱卷葉螟成蟲。YOLO v5s_B3模型的召回率較低,二化螟成蟲的漏檢較多。YOLO v5s_A1+A2+A3模型的F1值比YOLO v5s_A1+A2模型略高,達到94.87%,召回率為98.30%。針對二化螟構建的3個模型,YOLO v5s_B1+B2模型的F1值較高,達到95.87%,召回率為98.48%。

表4 不同模型識別結果對比Tab.4 Comparison of identification results by different models

圖6 不同模型的檢測結果Fig.6 Detection results for different models
為了驗證不同訓練樣本量對水稻稻縱卷葉螟模型檢測性能的影響,通過訓練集構建了6個識別模型,分別為YOLO v5s_A3_1000、YOLO v5s_A3_2000、YOLO v5s_A3_3000、YOLO v5s_A3_4000、YOLO v5s_A3_5000和YOLO v5s_A3_6000,分別對測試數據集A3_1000進行檢測驗證,不同訓練集樣本量訓練出的模型精確率、召回率、F1值如表5所示。模型的檢測性能隨著訓練集樣本量的增加而提高。當訓練圖像樣本量少于3 200幅時,F1值會隨著訓練集樣本量的增加先增高后降低。當訓練圖像樣本量超過3 200幅時,F1值會隨著訓練樣本量的增加而增加。YOLO v5s_A3_6000模型的F1值為98.92%,精確率為98.40%,召回率為99.46%,在6個訓練模型中最高。

表5 不同訓練樣本量的水稻害蟲檢測性能Tab.5 Detection performance of rice pest with different training sample sizes
分別取測試數據集A1+A2和B1+B2對模型進行檢測驗證,不同模型稻縱卷葉螟和二化螟的精確率-召回率曲線如圖7所示。YOLO v5s_A3、YOLO v5s_A1+A2、YOLO v5s_A1+A2+A3模型的平均精度分別為87.13%、99.97%、99.83%(表4),結果表明模型YOLO v5s_A1+A2的平均精度均高于模型YOLO v5s_A3和YOLO v5s_A1+A2+A3。YOLO v5s_B3、YOLO v5s_B1+B2、YOLO v5s_B1+B2+B3模型的平均精度分別為93.52%、99.74%、99.94%(表4),YOLO v5s_B1+B2和YOLO v5s_B1+B2+B3模型的平均精度相近,YOLO v5s_B1+B2和YOLO v5s_B1+B2+B3相比YOLO v5s_B3模型有更高的精確率。

圖7 不同模型的稻縱卷葉螟和二化螟的精確率-召回率曲線Fig.7 Precision-recall curves of C. medinalis and C. suppressalis in different models
本研究從水稻害蟲監測應用出發,利用YOLO v5s網絡模型對監測設備、三角形誘捕器、蟲情測報燈3個不同采樣場景、設備構建的稻縱卷葉螟和二化螟圖像集進行訓練,采集稻縱卷葉螟和二化螟成蟲原始圖像8 307幅,有效豐富了實際不同場景中的應用,其中稻縱卷葉螟訓練樣本量1 598幅,共6 042只,二化螟訓練樣本量1 496幅,共4 616只。用誘捕器和監測設備圖像集A1+A2和B1+B2分別作為測試集,模型YOLO v5s_A1+A2+A3的精確率和召回率分別達到91.67%和98.30%,F1值達到94.87%,YOLO v5s_B1+B2精確率和召回率分別達到93.39%和98.48%,F1值達到95.87%。本研究與姚青等[21]基于雙線性注意力網絡的農業燈誘害蟲細粒度圖像識別結果比較,訓練集的稻縱卷葉螟和二化螟樣本量更大,背景干擾少,模型測試結果表明,YOLO v5s網絡模型能夠達到較高的識別精確率,可用于稻縱卷葉螟和二化螟成蟲的田間種群智能監測。
不同采集背景、不同采集設備獲得的圖像訓練出來的模型對田間害蟲監測的實際效果還有待進一步研究。深度學習需要大量的計算,在不損失精度的情況下,可以結合不同的網絡模型對測試集圖像進行測試。本研究中模型YOLO v5s_A3和YOLO v5s_B3對野外監測設備和三角形誘捕器采集的害蟲圖像的識別精確率較低,YOLO v5s_A3和YOLO v5s_B3模型的F1值分別低于模型YOLO v5s_A1+A2和YOLO v5s_B1+B2。這一結果與訓練背景有關,室內白板背景下拍攝的水稻圖像背景單一,干擾少,害蟲特征清晰,監測設備和三角形誘捕器的背景多樣,復雜性更高,含有其它非目標昆蟲,且受野外光線影響。王衛民等[22]的模型識別效果與背景的復雜性有關,在白色背景圖像上精確率高,而對背景為圓形網格的圖像識別效果最差。翟肇裕等[23]指出用不具有代表性的原始數據集進行數據增強時,不能滿足訓練樣本的高質量。邱榮洲等[24]研究發現在田間草地貪夜蛾識別計數中,識別率受采樣背景的影響,去除圖像背景會降低識別的查全率。因此室內白板背景下拍攝的水稻害蟲圖像訓練出來的模型并不能有效滿足實際田間復雜背景下水稻害蟲的識別。不同采樣場景、不同設備采集的水稻害蟲圖像可以提高模型對水稻害蟲識別的準確性。YOLO v5s_A1+A2+A3融合了監測設備、三角形誘捕器、蟲情測報燈3個不同采集背景,模型識別效果較好,這說明訓練過程中,模型會提取訓練圖像中的背景特征加以訓練,提高訓練圖像背景的多樣性,可以使模型對環境特征的改變進行區分。這與周愛明等[25]的研究結果相一致,多樣本加入訓練可使分類模型更加魯棒和高效。因此數據集的變化越多,訓練模型的泛化效果越好。基于室內白板背景、誘捕器和監測設備二化螟圖像訓練的模型YOLO v5s_B1+B2+B3在經室內白板背景下拍攝的二化螟圖像訓練后,識別結果的F1值比YOLO v5s_B1+B2低,這一結果與YOLO v5s_A1+A2+A3模型訓練的結果相反,造成這一結果有可能跟訓練集的組成有關,在各組訓練集圖像總量一致的情況下,增加室內白板背景下拍攝的數據集B3圖像時,數據集B1+B2的圖像量也按比例減少。
深度學習需要不同條件下采集的實際圖像,所有圖像都需要正確的標記,這通常是一個費時費力和容易出錯的過程[26]。LECUN等[27]推薦了包含50 000個訓練示例的數據集,與ImageNet數據集中1 400多萬個樣本數據相比,利用深度學習進行病蟲害檢測面臨的最關鍵問題是農業病蟲害圖像數據庫樣本小。本研究發現,訓練數據量會影響水稻稻縱卷葉螟的檢測,隨著訓練樣本量的提高,模型對稻縱卷葉螟的檢測性能也隨之提高,當訓練圖像樣本量少于3 200時,模型的檢測性能會下降,而當訓練集樣本量超過3 200時,F1值隨著訓練集樣本量的增加而增加,當訓練集樣本量為4 800幅時,YOLO v5s_A3_6000模型的F1值為98.92%,達到最高。研究結果與TIAN等[28]報道的當訓練圖像量超過3 000時,訓練集對模型的性能沒有進一步顯著影響的結果存在差異。
(1)根據水稻稻縱卷葉螟和二化螟成蟲的生物習性,采用自主研發的水稻害蟲誘集與拍攝裝置,自動獲取稻縱卷葉螟和二化螟成蟲圖像,并構建了3種不同采集背景下的稻縱卷葉螟和二化螟成蟲圖像數據集。
(2)通過對比所選模型對野外采集與實驗室采集背景下水稻害蟲的識別效果,模型YOLO v5s_A3和YOLO v5s_B3的F1值低于模型YOLO v5s_A1+A2和YOLO v5s_B1+B2,表明室內白板背景下水稻害蟲圖像訓練的模型對監測設備和誘捕器上的稻縱卷葉螟和二化螟成蟲識別率降低,室內環境拍攝的水稻害蟲圖像并不能有效滿足實際田間害蟲識別要求。
(3)用誘捕器和監測設備采集的稻縱卷葉螟和二化螟成蟲圖像進行測試,模型對稻縱卷葉螟成蟲識別的精確率和召回率分別達到91.67%和98.30%,F1值達到94.87%,對二化螟成蟲識別的精確率和召回率分別達到93.39%和98.48%,F1值達到95.87%,結果表明本研究的目標檢測算法YOLO v5可以對監測設備和誘捕器上的稻縱卷葉螟和二化螟成蟲進行自動識別。
(4)對比稻縱卷葉螟成蟲不同訓練集樣本量的識別效果,隨著訓練集樣本量的提高,模型對稻縱卷葉螟成蟲的檢測性能先增大后降低,當訓練圖像樣本量為4 800幅時,訓練模型的F1值為98.92%,達到最高,在病蟲害采集有限的數據樣本下,可以選擇合適的數據量來進行訓練,從而得到最優的訓練模型。