王忠培 董偉 朱靜波 謝成軍



摘要:準確、快速地識別水稻病害并及時采取防治措施,是減少水稻產量損失和提高水稻質量的有效途徑之一。以生產上常見的6種水稻病害為研究對象,提出一種簡單的三維注意力機制水稻識別模型。不同于通道注意力或空間注意力方法將研究對象特征分開考慮而導致研究對象本身固有的三維特性丟失的現象,本研究借鑒人類觀察物體時將觀察主體作為三維整體考慮的特點,提出算法。不同于SimAM算法將輸入圖像中的激活像素人為設置+1作為正樣本、不激活像素設置-1作為負樣本的假定,本研究不對輸入圖像的每個像素作人為硬性閾值的設定,而是保留其本身輸入特征大??;這種設定不會破壞研究對象本身的固有屬性,更符合研究主題自身的特性。研究結果表明,在自建水稻病害識別數據集達到的最高準確率為98.6%,比SimAM算法提高0.84百分點;相比經典網絡模型ResNet50、MobileNetV2、EfficientNet_B0、DenseNet分別提高1.71、1.93、1.93、0.84百分點;相比通道注意力機制模型 SENe、ECA模型分別提高1.20、1.28百分點,表明本模型能夠為自然環境下水稻病害的智能識別提供技術支持。
關鍵詞:水稻病害;識別;三維注意力;注意力機制
中圖分類號:TP391.41文獻標志碼:A
文章編號:1002-1302(2023)20-0186-07
水稻是我國第二大糧食作物,種植面積約占我國耕地面積的1/4,水稻產量關系到國計民生。水稻病蟲害對水稻產量產生重要影響。據農業技術推廣中心的預報,2023年預計水稻病蟲害發生 7 733.3萬次/hm2,同比增加25.1%;其中,“三蟲兩病”(稻飛虱、稻縱卷葉螟、二化螟、紋枯病、稻瘟?。┌l生6 720萬次/hm2,同比增加29.0%[1]。因此,準確識別病蟲害并及時進行防治,有助于減少水稻產量的損失。
近年來,卷積神經網絡(convolutional neural networks,CNN)技術由于其性能的優越性,已經在計算機視覺領域獲得大量的應用,在農業領域也得到學者的關注并取得良好的效果。趙立新等使用遷移學習方法,實現棉花病蟲害的智能識別[2]。樊湘鵬等將遷移學習的方法應用到葡萄葉片病害識別[3]。劉斌等將深度可分離卷積和通道混洗ALS模塊引入輕量化模型ShuffleNetV2,提出輕量化識別模型ALS-Net,模型大小只有 1.64 MB,但識別精度達到99.43%,可實現移動端蘋果葉病害的實時識別[4]。張善文等將可變形卷積神經網絡引入VGG-16模型,解決識別對象大小、形態、姿態變化等問題[5]。Espejo-Garcia等使用遷移學習的方法,基于EfficientNetB4模型在自建數據集上進行微調,可以實現作物營養缺乏癥狀的診斷[6]。營養缺乏癥可以實現作物早期診斷,避免重大性農業損失。Peng等為解決稻田雜草和水稻的相似性問題,提出基于RetinaNet的WeedDet模型,該模型的mAP值為94.1%,比基準模型RetinaNet提高5.5%的準確率[7]。由以上研究可知,深度學習技術在農業方面的應用主要包括遷移學習方法、卷積神經網絡技術及深度可分離卷積、可變形卷積神經網絡等技術。
隨著研究的深入,一些學者針對卷積神經網絡提出通道注意力機制。Hu等首先提出的SENet網絡模型取得2017年ILSVRC(imagenet large scale visual recognition challenge)競賽圖像分類子任務中的第1名,并且top-5的錯誤率相對于2016年的第1名提升了大約25%,證明通道注意力機制具備有效性[8]。Zhao等使用遷移學習結合注意力機制提出DTL-SE-ResNet50模型,該模型主要將SENet方法引入ResNet50模型[9]。Zhao等將改進的塊注意力模塊(convolutional block attention module,CBAM)引入網絡,實現對玉米、土豆、西紅柿病害葉片的分類識別,3種作物的整體識別準確率達到99.55%[10]。趙輝等將高效通道注意力機制(efficient channel attention,ECA)引入DenseNet-121網絡結構,并應用到田間雜草識別任務,改進后模型的平均識別準確率提高了2.09百分點,為智能除草機器人的開發奠定了技術基礎[11-12]。孫俊等將輕量型坐標注意力機制引入MobileNet-V2模型,并將分組卷積引入模型,實現田間農作物葉片病害的識別[13]。甘雨等將坐標注意力機制(coordinate attention,CA)引入EfficientNet網絡結構,提出了一種改進的輕量化作物害蟲識別模型 CA-EfficientNet[14-15]。宋懷波等將擠壓激發塊(Squeeze-and-Excitation block)和非局部塊(Non-Local block)這2種注意力方法引入YOLO v4網絡模型,提出一種改進的YOLO v4-SENL模型,在蘋果幼果的檢測任務中可以達到96.9%的平均檢測精度[16-17]。
以上研究表明,現階段注意力機制在農業方面主要使用通道注意力的應用方法,部分使用通道注意力結合空間注意力機制方法,鮮有應用三維注意力機制。本研究提出一種簡單的三維注意力實現方法,不改變輸入圖像特征的固有屬性,通過對輸入圖像的三維整體乘以激活函數獲得三維圖像每個像素的激活值,將獲得的激活值乘以輸入圖像以獲得輸入圖像的三維注意力。同時探討不同激活函數對算法性能的影響,結果表明Sigmoid激活函數可以獲得最好的性能,最終選取Sigmoid函數作為本研究激活函數。
1 數據集
本研究以常見6種對水稻產量影響較大的病害作為研究主體,分別是水稻胡麻斑病、水稻白葉枯病、水稻細菌性條紋病、稻曲病、稻瘟病。為了真實反應自然場景,所有病害圖像均使用佳能單反相機在田間直接拍攝。
6種主要水稻病害的部分示例如圖1所示。6種病害的樣本量如表1所示,共計 6 938 幅病害圖像。由表1可知,這些病害樣本量分布具有不平衡性,比如稻瘟病的樣本量是水稻紋枯病的近4倍。
2 簡單三維注意力機制
2.1 三維注意力機制
當前注意力機制實現主要有2種方法:通道注意力、空間注意力。通道注意力只能激活通道相關特征,空間注意力只能激活物體二維空間特征,而人在觀察物體時是按照物體固有的三維特性作為觀察目標,因此三維注意力機制更符合人類觀察物體的特點。Yang等提出一種被稱為SimAM的三維注意力機制實現方式[18]。SimAM模型基于神經學理論,將神經學的空間抑制性轉化為二分類問題,實現三維注意力機制[19]。該模型是一種無參模型,且二分類的優化可以求出一個簡單的閉式解,可以實現快速計算以及可解釋性。
Webb等的研究結果證明,被激活的神經元通常會抑制周圍的神經元,這種特性被稱為空間抑制性[19]??臻g抑制性說明被激活的神經元應該被賦予較高的權重,而在它周圍的神經元被賦予較低的權重。為了實現該特性,需要將激活神經元和非激活神經元進行區分,一種簡單的方法是將其轉換為簡單的分類任務。因此,定義如下損失函數:
(1)
式中:et表示能量方程;y表示標簽;yt表示目標的真實標簽;yo表示除了目標之外的標簽。 t^=wtt+bt中,t表示目標神經元;wt表示權重;bt表示偏置。x^i=wtxi+bt中,xi表示輸入特征的第i個神經元,輸入特征表示為X∈RC×H×W,其中,X表示經過卷積神經網絡提取的特征,C、H、W分別表示輸入特征的信道數、高度、寬度,R表示實數集合。M=H×W,表示神經元的總數目,這里表示輸入圖像的像素總數,i表示(H×W-1)個值的總和。
為了簡單起見,將激活神經元設置為+1,其周圍的神經元設置為-1,即yt設置為+1,yo設置為-1。同時為提高泛化能力,添加正則項,可得到最終的損失函數:
(2)
公式(2)是一個凸函數,因此有簡單的閉式解:
其中,μt表示除了激活神經元之外的其他神經元的平均值,σt表示除了激活神經元之外的其他神經元的方差值。
最終可以求得公式(2)的最小值為:
(3)
公式(3)既是公式(2)的最小值,其中,μ^=1/M∑M/i=1xi,σ^2=1/M∑M/i=1(xi-μ^)2。e*t表示求得的最小能量值,值越小表明神經元t與周圍神經元的區別越大;當輸入的是圖像時,表示激活的像素值和周圍的像素值之間的區別越大。所以,每個神經元的重要性可以通過1/e*得到,該值表示了每個像素的權重大小,然后經過Sigmoid函數作一次非線性化處理再乘以輸入圖像,就能得到圖像每個像素的激活值大小,最終實現圖像的三維注意力機制。
(4)
式中:X表示輸入的圖像或者特征值 X~表示經過Sigmoid激活以后的值,E表示對e*分別在空間維度和信道維度進行計算后的值。
2.2 簡單三維注意力機制
2.2.1 網絡整體結構
本研究提出的簡單三維注意力機制模型是以ResNet50模型為基礎,整體的網絡結構如圖 2-A所示。
輸入圖像首先經過1個卷積層,該卷積層的卷積核大小設置為(7×7),padding大小設置為3,stride設置為2,然后經過16個被稱為BottleNeck的單元。其中第1個BottleNeck的層數是3層,輸出大小設置為256;第2個BottleNeck的層數是4層,輸出大小設置為512;第3個BottleNeck的層數是6層,輸出大小設置為1 024;第4個BottleNeck的層數是3層,輸出大小設置為2 048。最后輸入1個全連接層,最終得出每個類別的概率值。
2.2.2 BottleNeck結構
BottleNeck的結構設置如圖 2-B所示。分別由(1×1)卷積、(3×3)卷積、簡單三維注意力機制、(1×1)卷積相連接,并使用殘差的方式和初始輸入連接。
2.2.3 簡單三維注意力機制
Yang等提出的SimAM算法對輸入圖像的三維結構實現整體操作,同時借助神經學理論,將每一個像素轉換為二分類問題。受到SimAM算法的啟發,本研究提出一種簡單的三維注意力機制實現方法。SimAM算法為了實現每個像素的激活值,需要設置正負樣本并通過二分類算法求解,例如將正樣本設置為+1,負樣本設置為-1。本研究認為這種假定是一種硬性閾值設置的方式,不符合每個像素的真實值大小。本研究不對每個像素的標簽做硬性假定,而是保留每個像素的實際值,經過一個激活函數就可以得到每個像素的權重大小,將得到的激活值乘以輸入圖像,如公式(5)所示。
(5)
公式(5)是對輸入圖像的整體操作,是一種三維注意力機制實現方式,保留了原始輸入圖像特征的固有屬性大小,沒有作人為預設假定,更能真實反映輸入圖像本身的固有屬性。
3 試驗設置
3.1 試驗環境
本研究使用Pytorch軟件進行仿真。電腦配置為:CPU,Intel i7-9700@3.00 GHz;GPU,英偉達GeForce RTX2060,顯存大小為6 GB。
3.2 試驗參數設置
將數據集劃分為訓練集、驗證集,各占80%、20%;并將批處理大小設置為16,一共迭代訓練100次。本研究使用SGD優化器,優化器學習率設置為0.001,動量因子(momentum)設置為0.9,權重衰減系數(weight_decay)設置為0.005。
3.3 數據預處理方法
為了保證訓練的穩定性,需要對圖像做歸一化處理,即對圖像的R、G、B這3個通道分別減去均值并除以標準差。均值和標準差的值分別設置為(0.485、0.456、0.406)和(0.229、0.224、0.225),以上均值和標準差由ImageNet數據集中所有圖像計算所得。
因為模型訓練要求輸入的圖像尺寸一致,先將圖像的短片大小調整為256像素,再從圖像中心選取(224×224)像素作為訓練圖像的輸入尺寸。
4 試驗結果與分析
為了公平性,對比分析的所有算法都以ResNet50作為基礎網絡進行仿真試驗。
4.1 本研究算法與SimAM模型對比試驗
因為SimAM算法是三維注意力機制模型,而本研究算法是另一種三維注意力機制模型,所以需要對這2種模型進行對比分析。2組試驗所有參數設置一致,經過100次迭代后,在驗證集上的識別準確率曲線如圖3所示。
由圖3可知,經過50次訓練后,本研究所提算法的準確率就開始優于SimAM,而且隨著訓練的進行,這種趨勢一直保持,證明了本研究算法的優越性和穩定性。
2種算法的最高準確率以及對應出現的輪次如表2所示。本研究模型比SimAM模型的最高準確率提高0.84百分點。證明雖然本研究算法簡單,但因沒有破壞三維物體固有的屬性特點,反而優于較為復雜的SimAM算法。
4.2 不同激活函數對比試驗
為了驗證本研究算法的性能表現,嘗試使用不同的激活函數進行對比試驗?,F階段已提出的激活函數包括:ReLU、ReLU6、PReLU、LeakyReLU、RReLU、ELU、SELU、CELU、GELU、SiLU、Mish、Softplus、Sigmoid、Tanh等。通過查看以上激活函數的圖形,可以將其分為三大類:將ReLU、ReLU6、PReLU、LeakyReLU、RReLU統一稱為ReLU系列;ELU、SELU、CELU、GELU、SiLU、Mish稱為ELU系列;而將Softplus、Sigmoid、Tanh劃分為其他系列,因為這3種激活函數既有相似特性又有不同特點,比如Softplus、Sigmoid在0軸時,其對應的激活值不等于0,Sigmoid、Tanh將激活值限定在一個區間內,Sigmoid將激活值限定在[0,1]區間,Tanh將激活值限定在[-1,1]區間。本研究從以上激活函數類別中選取有各自特點的函數進行仿真驗證,經過100輪訓練后,識別率結果如圖4所示。
由圖4可知,使用Sigmoid激活函數取得了最好的結果,而且一直保持優于其他激活函數。使用Tanh激活函數取得了第3位的效果。相反,ReLU系列以及ELU系列的效果是最差的,說明以上2個系列的激活函數不適應于本研究模型。
為了做進一步分析,對不同激活函數在驗證集上的最高識別準確率以及對應的輪次進行比較(表3),結果表明,Sigmoid激活函數最適用于本研究算法。
4.3 不同網絡模型性能對比試驗
為了驗證本研究算法的性能優勢,與三維注意力機制SimAM模型和通道注意力機制模型SENet、ECA模型[12]做對比;并同時與經典網絡模型ResNet模型[20]、MobileNetV2模型[21]、DenseNet模型[22]、EfficientNet模型[23]做對比試驗。為保證對比的公平性,所有試驗參數設置一致。各模型經過100次訓練后,識別準確率如圖5所示。
試驗結果表明,本研究提出的模型性能是最好的,而表現最差的是EfficientNet_b0模型。同時,本研究模型優于2個通道注意力機制模型SENet、ECA模型,證明了三維注意力機制模型優于單純的通道注意力機制方法。
為了進一步分析各模型的準確率,分別統計了各模型的最高準確率以及對應的輪次。
從表4可以看出,8種模型的最高準確率都在96%以上,本研究提出的模型取得了98.60%的最高準確率,比ResNet50、MobileNetV2、EfficientNet_b0、DenseNet模型分別提高1.71、1.93、1.93、0.84百分點,比通道注意力機制模型SENet、ECA模型分別提高1.20、1.28百分點。本研究的模型優于一些經典網絡模型和通道注意力機制模型,證明三維注意力機制具有優越性。
4.4 水稻病害識別結果定性分析
混淆矩陣常用來對模型性能做可視化分析,展示每類水稻病害的識別準確率情況。圖6為6種常見水稻病害的分類混淆矩陣。
圖6中,橫坐標編號代表每種水稻病害的ID:10000表示水稻胡麻斑病;10017表示水稻白葉枯?。?10018表示水稻紋枯??; 10021表示水稻細菌性條斑病;10046表示稻曲?。?0047表示稻瘟病。對角線上的數字表示預測正確的個數,非對角線上的數字表示預測為其他類別的數目。比如,水稻細菌性條斑病在測試集上一共有298幅圖像,被正確預測的有293幅,5幅水稻細菌性條斑病被預測為其他病害,其中有2幅被預測為水稻胡麻斑病,剩余的3幅分別被預測為水稻白葉枯病、水稻紋枯病、稻瘟病。
4.5 水稻病害識別結果定量分析
為了對每種水稻病害做定量分析,本研究選用以下評價指標:精度、召回率、特異度、F1得分、平均準確率。
精度P(Precision)公式定義為:
(6)
精度表示正樣本的數量有多少被正確預測。公式(6)中:TP(true positive)稱為真正類,表示樣本的真實值為正且預測值也為正的數量;FP(false positive)稱為假正類,表示樣本的真實值為負卻被預測為正樣本的數量。
特異度S(Specificity)公式為:
(7)
特異度表示真實標簽是負樣本同時也被預測為負樣本的數量與真實負樣本標簽的數量比例。公式(7)中TN(true negative)稱為真負類,表示樣本的真實標簽為負且預測值也為負類的數量。
召回率R(Recall)公式為:
(8)
召回率也稱之為查全率,表示預測正確的正樣本占所有真實正樣本標簽的比例,值越大表示模型的預測能力越好。公式(8)中FN(false negative)稱為假負類,表示樣本的真實標簽是正類卻被預測為負類。
F1得分的公式為:
(9)
精度和召回率是一對矛盾的指標,當精度高時召回率往往偏低,而精度低時召回率往往偏高。F1得分綜合考慮了精度和召回率,其核心思想是提高精度和召回率的同時,也希望兩者之間的差異盡可能小。
準確率Acc(Accuracy)的公式為:
(10)
表示預測正確的樣本數占總樣本數的比例。但是當正、負樣本不均衡時,該指標有一定的缺陷。
根據以上定義,分別計算出每種水稻病害的精度、召回率、特異度、F1得分、平均準確率,結果如表5所示。
表5結果表明,精度最低的是水稻白葉枯病(96.9%),召回率最低的是水稻紋枯?。?8.1%),特異度各病害差別不大,F1得分最低的是水稻紋枯?。?6.7%),其次是水稻白葉枯病(96.9%)。該模型對水稻白葉枯病和水稻紋枯病的識別效果不太好。
5 結論
為了快速準確地識別水稻病害,本研究針對6種常見水稻病害提出一種簡單的三維注意力機制識別模型。首先自建水稻病害數據集,然后針對通道注意力機制以及空間注意力機制的不足,提出三維注意力機制識別模型。不同于SimAM方法將輸入圖像的每個像素按照硬性閾值來劃分正負樣本的做法,本研究不對每個像素做人為劃分而是保留圖像本身的固有屬性,這種方法更符合圖像本身的特性。通過對比分析,本研究算法的最高準確率可以達到98.6%,相對于SimAM算法提高了0.84百分點。同時,相對于通道注意力模型SENet、ECA模型,本研究算法分別提高1.20、1.28百分點,證明三維注意力機制具備相對優越性,表明本研究模型可以有效解決大田復雜環境下水稻病害的識別問題。
參考文獻:
[1]劉 杰,曾 娟,楊清坡,等. 2023年全國農作物重大病蟲害發生趨勢預報[J]. 中國植保導刊,2023,43(1):32-35.
[2]趙立新,侯發東,呂正超,等. 基于遷移學習的棉花葉部病蟲害圖像識別[J]. 農業工程學報,2020,36(7):184-191.
[3]樊湘鵬,許 燕,周建平,等. 基于遷移學習和改進CNN的葡萄葉部病害檢測系統[J]. 農業工程學報,2021,37(6):151-159.
[4]劉 斌,賈潤昌,朱先語,等. 面向移動端的蘋果葉部病蟲害輕量級識別模型[J]. 農業工程學報,2022,38(6):130-139.
[5]張善文,許新華,齊國紅,等. 基于可形變VGG-16模型的田間作物害蟲檢測方法[J]. 農業工程學報,2021,37(18):188-194.
[6]Espejo-Garcia B,Malounas I,Mylonas N,et al. Using EfficientNet and transfer learning for image-based diagnosis of nutrient deficiencies[J]. Computers and Electronics in Agriculture,2022,196:106868.
[7]Peng H X,Li Z H,Zhou Z Y,et al. Weed detection in paddy field using an improved RetinaNet network[J]. Computers and Electronics in Agriculture,2022,199:107179.
[8]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7132-7141.
[9]Zhao X ,Li K Y,Li Y X,et al. Identification method of vegetable diseases based on transfer learning and attention mechanism[J]. Computers and Electronics in Agriculture,2022,193:106703.
[10]Zhao Y,Sun C D,Xu X,et al. RIC-Net:a plant disease classification model based on the fusion of Inception and residual structure and embedded attention mechanism[J]. Computers and Electronics in Agriculture,2022,193:106644.
[11]趙 輝,曹宇航,岳有軍,等. 基于改進DenseNet的田間雜草識別[J]. 農業工程學報,2021,37(18):136-142.
[12]Wang Q L,Wu B G,Zhu P F,et al. ECA-net:efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020.Seattle,WA,USA.IEEE,2020:11531-11539.
[13]孫 俊,朱偉棟,羅元秋,等. 基于改進MobileNet-V2的田間農作物葉片病害識別[J]. 農業工程學報,2021,37(22):161-169.
[14]甘 雨,郭慶文,王春桃,等. 基于改進EfficientNet模型的作物害蟲識別[J]. 農業工程學報,2022,38(1):203-211.
[15]Hou[KG*2]Q[KG*2]B,Zhou[KG*2]D[KG*2]Q,Feng[KG*2]J[KG*2]S.[KG*2]Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 20-25,2021.Nashville,TN,USA.IEEE,2021:13713-13722.
[16]宋懷波,江 梅,王云飛,等. 融合卷積神經網絡與視覺注意機制的蘋果幼果高效檢測方法[J]. 農業工程學報,2021,37(9):297-303.
[17]Wang X L,Girshick R,Gupta A,et al. Non-local neural networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018.Salt Lake City,UT,USA.IEEE,2018:7794-7803.
[18]Yang L,Zhang R Y,Li L,et al. Simam:a simple,parameter-free attention module for convolutional neural networks[C]//International conference on machine learning. PMLR,2021:11863-11874.
[19]Webb B S,Dhruv N T,Solomon S G,et al. Early and late mechanisms of surround suppression in striate cortex of macaque[J]. The Journal of Neuroscience,2005,25(50):11666-11675.
[20]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016.Las Vegas,NV,USA.IEEE,2016:770-778.
[21]Sandler M,Howard A,Zhu M L,et al. MobileNetV2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018.Salt Lake City,UT.IEEE,2018:4510-4520.
[22]Huang G,Liu Z A,van Der Maaten L,et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017.Honolulu,HI.IEEE,2017:4700-4708.
[23]Tan M,Le Q. Efficientnet:rethinking model scaling for convolutional neural networks[C]//International conference on machine learning. PMLR,2019:6105-6114.
收稿日期:2023-01-31
基金項目:國家自然科學基金(編號:32171888)。
作者簡介:王忠培(1981—),男,安徽金寨人,博士,助理研究員,研究方向為智能農業技術。E-mail:wangzhongpei@aaas.org.cn。
通信作者:董 偉,碩士,副研究員,研究方向為植物保護信息化技術。E-mail:dongwei@ aaas.org.cn。