石放 王瑩 王新法 馬玉琨



摘要:為克服傳統網絡模型結構固化、對馬鈴薯病害識別率低的問題,以PlantVillage數據集中的五類馬鈴薯病害為研究對象,對圖像進行隨機放大縮小、水平翻轉、垂直翻轉等操作進行數據增強。使用一種基于網絡設計空間思想設計出具有高度靈活性的RegNet網絡模型,利用PoLy損失函數對RegNet進行改進,并加入注意力機制,對數據增強后的馬鈴薯病害圖片進行預測,再與傳統網絡模型AlexNet和GoogLeNet進行對比。試驗結果表明:改進后的RegNetX在馬鈴薯識別方面具有良好的性能,最高準確率可達99.8%,模型準確率超過AlexNet與GoogLeNet,可為馬鈴薯病害識別作參考。
關鍵詞:馬鈴薯;農作物病害;RegNet網絡;圖像識別;網絡設計空間
中圖分類號:S435.32; TP391.4
文獻標識碼:A
文章編號:2095-5553 (2024) 06-0229-06
收稿日期:2022年7月2日
修回日期:2022年9月16日
*基金項目:河南省科技攻關項目(212102110234,222102320080);河南省高等學校重點科研項目(22A210013);河南省博士后科研啟動項目(202102090);河南省新鄉市重大科技專項(21ZD003)
第一作者:石放,男,1997年生,河南周口人,碩士;研究方向為農業信息化。E-mail: 281139088@qq.com
通訊作者:馬玉琨,女,1983年生,河南新鄉人,博士,副教授;研究方向為信號處理與識別。E-mail: yukuner@126.com
Research on potato disease identification based on RegNet network
Shi Fang, Wang Ying, Wang Xinfa, Ma Yukun
(Henan Institute of Science and Technology, Xinxiang, 453003, China)
Abstract: In order to overcome the problems of solidified structure of traditional network model and low recognition rate of potato diseases, five types of potato diseases in PlantVillage dataset are taken as the research object, and the images are randomly zoomed in and out, horizontally flipped, vertically flipped and so on for data enhancement. Then a RegNet network model with a high degree of flexibility is designed using a network-based design space idea, and the PoLy loss function is used to improve RegNet and the attention mechanism is added to predict the potato disease images after data enhancement, and the traditional network models are compared with AlexNet and GoogLeNet. The experimental results show that the improved RegNetX has good performance in potato recognition, the highest accuracy can reach 99.8%, and the model accuracy is higher than AlexNet and GoogLeNet, which can be used as a reference for potato disease recognition.
Keywords: potato; crop diseases; RegNet network; image recognition; network design space
0 引言
馬鈴薯的生產對我國居民的日常生活和國際蔬菜貿易有著重大的影響。然而在馬鈴薯的種植過程中,難免受到環境、氣候、土壤和病害的影響,其中病害是影響馬鈴薯減產的重要問題。傳統的馬鈴薯病害防治需要大量的植保人員根據他們已有的知識儲備和相關種植經驗,人為地去判斷馬鈴薯是否發生了病害,這種識別的方法效率低、準確率難以保證,具有一定的滯后性。
為解決農作物病害識別的問題,國內外學者進行了相關研究。徐巖等[1]為解決馬鈴薯病害導致的減產問題,提出了一種基于注意力和殘差思想的深度卷積神經網絡模型RANet,取得了93.86%的平均識別率。蒲秀夫等[2]使用二值化卷積神經網絡模型對PlantVillage數據集共54 306張圖片進行識別,試驗表明二值化模型的計算速度遠遠高于原模型且準確率可以達到96.8%。趙建敏等[3]為實現馬鈴薯葉片病害識別,設計了一種基于壓縮感知理論的馬鈴薯病害圖像分類方法,經對比測試,采用字典學習的圖像分類方法對馬鈴薯三種葉片病害平均識別率可達95.33%。姜敏等[4]采用截取感興趣區域、圖片尺寸歸一化等預處理方式與SSD MobileNet v1等深度學習模型結合對水稻病害進行識別,平均準確率達到了75%。黨滿意等[5]基于機器視覺技術對馬鈴薯葉部晚疫病進行檢測,提出顏色紋理形狀特征結合的識別方法,試驗結果顯示對患病中期與后期的識別率分別為90%和92.5%。于洪濤等[6]使用Retinex算法結合VGG-F網絡模型對蘋果病害進行識別,結果相較于原始的VGG模型,準確率提高了5%。牛沖等[7]基于圖像灰度直方圖特征的草莓病害識別算法對草莓蛇眼病進行識別,結果表明,SVM分類器的分類效果優于其他分類器,準確率達到90%以上。王林柏等[8]針對自然環境下馬鈴薯葉片病害識別率低和晚疫病斑定位難的問題,提出一種改進型的CenterNet-SPP模型,對馬鈴薯葉片病害進行識別,試驗結果表明訓練后的模型在驗證集下的mAP可達90.03%,準確率為94.93%,召回率為90.34%,F1值為92.58%。
然而傳統的機器學習方法與普通的卷積神經網絡模型[9-12]具有識別率低、網絡結構固化等局限性,基于此問題,本文使用數據增強技術對數據進行擴充以增加網絡的魯棒性,采用更具靈活性的RegNet模型對5類馬鈴薯病害圖片進行識別,并針對識別率低的問題引入注意力機制[13-18]和PolyLoss[19]以提高識別準確率,最后與AlexNet和GooLeNet的準確率和訓練時長進行對比分析,能為馬鈴薯病害識別作為參考。
1 RegNet網絡模型
1.1 RegNet設計原理
RegNet[20]是2020年由何凱明團隊在《Designing Network Design Spaces》提出的。傳統神經網絡的設計一般都是基于神經結構搜索(Neural Architecture Search)思想,其特點為在特定的設計空間內通過搜索算法從而尋找出最佳的參數組合,具有一定的局限性,而RegNet的設計者不再只局限于單一網絡的設計,而是通過研究網絡設計空間,來探索出相對不被定義的網絡模型簇。
RegNet的設計者采用誤差評估的方法對設計空間的質量進行評價,其表達式如式(1)所示。
F(e)=1n∑ni=11[ei 式中:n——設計空間在ImageNet上訓練的模型個數; e——訓練誤差; F(e)——誤差小于e的模型比例。 RegNet的設計者提出了初始設計空間(AnyNet)這一概念,AnyNet由三層結構組成,這種結構猶如植物的生長結構一樣,分別是莖部、身體和頭部。其結構如圖1(a)所示。其中莖部和頭部在結構中固定不變。莖部為一個3×3大小,步長為2,卷積核個數為32的普通卷積層。頭部由一個全局平均池化層和全連接層組成,用于預測分類。而身體內部則是由4個階段構成,這些階段的分辨率r逐步降低,如圖1(b)所示,每一個階段內又由若干個模塊組成,默認第一個塊使用的步長為2,如圖1(c)所示,但模塊的參數不受限制,可以是任意可能的組合。圖1中w表示網絡深度,r表示分辨率,n表示輸出類別的個數。 AnyNet中的block結構主分支由一個1×1的卷積核,一個3×3的組卷積,最后再接一個1×1的卷積組成,當步長為1時,捷徑分支不作處理,如圖2(a)所示,當步長為2時,僅通過一個1×1的卷積,如圖2(b)所示。 其中w為網絡深度,r為分辨率,g為組卷積中每個組的組寬,b為瓶頸比。這種模塊結構被定義為“X模塊”,通過X模塊的各種組合可以使網絡靈活地應用于各種場景,RegNetX網絡就是基于此來設計的,本文使用RegNetX網絡模型進行馬鈴薯病害識別試驗。 1.2 RegNet網絡改進 為解決識別率低的問題,本文在RegNetX網絡中引入了注意力機制,同時使用PolyLoss損失函數替換了傳統的交叉熵損失函數。 1.2.1 SE模塊 SE全稱Squeeze-and-Excitation,是一種注重通道的注意力機制,主要由Squeeze和Excitation兩部分組成,結構如圖3所示,其中W為特征圖的寬,H為特征圖的高,C為通道數,輸入特征圖大小為W×H×C。 SE模塊的壓縮操作實際是一個全局平均池化操作,通過壓縮操作使特征圖變為1×1×C向量。其流程如圖4(a)所示。SE模塊的激勵操作由兩個全連接層和兩個激活函數組成,第一個全連接層有C×SERatio個神經元,輸入為1×1×C,輸出1×1×C×SERadio,后接一個ReLu激活函數。第二個全連接層有C個神經元,輸入為1×1×C×SERadio,輸出為1×1×C,后接一個Sigmoid激活函數。其流程如圖4(b)所示。 最后執行scale操作,在得到1×1×C向量后,對原來的特征圖進行scale操作,即通道權重相乘,原有特征向量為W×H×C,將SE模塊計算出來的各通道權重值分別和原特征圖對應通道的二維矩陣相乘,得出的結果輸出。 1.2.2 PolyLoss損失函數 PolyLoss來自交叉熵損失函數的泰勒展開式,如式(2)所示。 LCE=-log(Pt)=∑∞j=11/j(1-Pt)j =(1-Pt)+1/2(1-Pt)2…(2) 式中:Pt——目標類標簽的預測概率; (1-Pt)j——每個多項式基,在使用泰勒公式展開交叉熵后,可知其多項式系數為1/j,但這些系數過于固定,并不是所有模型和任務的最優條件。 PolyLoss在此基礎上添加了一個可調整項ε1·(1-Pt),從而形成一個更為靈活的框架,通過調整ε1的值來更好地提升模型效果,其表達式如式(3)所示。 LPoly-1=(1+ε1)(1-Pt)+1/2(1-Pt)2+… =-log(Pt)+ε1(1-Pt)(3) PolyLoss可以根據不同模型調整適用參數這一特點相對于傳統的交叉熵損失函數更為靈活與精準,本文使用PolyLoss代替交叉熵損失函數。 2 數據來源和數據增強 本文采取PlantVillage數據集中的馬鈴薯細菌斑、早疫病、晚疫病、葉霉菌、七星葉斑病五種常見病害作為研究對象,原始數據馬鈴薯細菌斑圖片數量為2 127張、馬鈴薯早疫病圖片數量為1 000張、馬鈴薯晚疫病圖片數量為1 909張、馬鈴薯葉霉菌圖片數量為952張、馬鈴薯七星葉斑病圖片數量為1 771張,總數量為7 759張。由于原始數據量較少,又通過網絡爬蟲爬取部分數據,篩選可用數據,對每一類病害圖片進行標注,并分別放入Tomato_Bacterial_spot、Tomato_Early_blight、Tomato_Late_blight、Tomato_Leaf_Mold、Tomato_Septoria_leaf_spot文件夾中,按8∶2的比例劃分訓練集和測試集。部分爬取結果如圖5所示,整合后部分數據集如圖6所示,圖6中第三行為爬取圖片。 本試驗對原始數據集進行了數據增強,數據增強是一種重要的深度學習方法之一,是基于已有的訓練樣本數據來生成更多的訓練數據,其目的就是為了使擴增的訓練數據盡可能接近真實分布的數據,從而提高檢測精度。此外,數據增強能夠迫使模型學習到更多魯棒性的特征,從而有效提高模型的泛化能力。本文采用的數據增強操作包括隨機放大縮小、水平翻轉、垂直翻轉、隨機度數旋轉、明暗度調整、平移、添加噪聲、模糊等,圖7為進行過數據增強后的效果圖。 經數據增強后,馬鈴薯細菌斑圖片數量為4 650張、馬鈴薯早疫病圖片數量為2 996張、馬鈴薯晚疫病圖片數量為4 165張、馬鈴薯葉霉菌圖片數量為3 478張、馬鈴薯七星葉斑病圖片數量為4 279張,總數量為19 568張。 3 試驗和結果分析 3.1 環境配置 本文試驗采用個人計算機,具體參數配置見表1。 3.2 試驗參數 本文使用Pytorch框架搭建RegNetX200MF網絡,并采用遷移學習加快模型收斂速度,遷移學習是將在某一領域或任務中學到的知識或模式應用到不同但相關的領域或問題上,在訓練過程中,模型提升的速率更快,訓練結束后得到的收斂性更好,本文把在ImageNet中學習到的知識遷移到試驗當中。并與AlexNet和GoogLeNet訓練的結果進行對比。 RegNetX200MF設置學習率為0.001,batch size(一次訓練選取的樣本數量)設為16,epoch設為15,優化器選擇SGD。AlexNet與GoogLeNet設置學習率為0.000 1,batch size設為32,epoch設為100,優化器選擇Adam。 3.3 不同模型的結果分析 不同模型的準確率和損失值對比如圖8、圖9所示。由圖8和圖9對比可以明顯看到,RegNetX200MF在第11個epoch時開始收斂,而AlexNet和GoogLeNet直至100個epoch才收斂,收斂速度遠遠不如RegNetX200MF。 三種網絡模型的測試準確率、損失值及訓練耗時如表2所示。 由表2對比可知,AlexNet和GooLeNet的準確率分別為98.9%和99.1%,RegNetX200MF的準確率最高可達99.8%,分別高于AlexNet 0.9個百分點和GooLeNet 0.7個百分點,說明RegNetX200MF在準確率上要由于AlexNet和GooLeNet。但在模型收斂后,RegNetX200MF的損失值在0.105上下輕微浮動,GooLeNet的損失值約為0.06,AlexNet的損失值最少,約在0.053左右,說明RegNetX200MF在損失值上還有改進的空間。在訓練耗時上,RegNetX200MF用了5.3 h,低于GooLeNet的9.3 h,高于AlexNet的2.2 h,說明RegNetX200MF在網絡結構上還有優化的空間。 3.4 不同病害的結果分析 本文使用精準率Precision、召回率Recall作為不同病害識別性能評價指標。 Precision=TNFP+TN(4) Recall=TPTP+FN(5) 式中:TP——真實值為正且預測也為正的樣本數量,記為真陽性; TN——真實值為負且預測也為負的樣本數量,記為真陰性; FP——真實值為負但預測為正的樣本數量,記為假陽性; FN——真實值為正但預測為負的樣本數量,記為假陰性。 使用RegNetX200MF模型對馬鈴薯細菌斑、早疫病、晚疫病、葉霉菌、七星葉斑病五類病蟲害進行測試,按數據集8∶2的比例隨機劃分測試集,約3 900多張圖片,評價結果如表3所示。 由表3可以看出,RegNetX200MF網絡對馬鈴薯五類病害的識別的精準率平均值為98.74%,召回率的平均值為98.6%,模型表現與各類指標呈正比,且五類病害指標都比較均勻,平均值都在95%以上,說明模型表現較好,各類病害測試的混淆矩陣如圖10所示,隨機抽取圖片對五類病害單張圖片進行測試,部分結果如圖11所示。 4 結論 1) 針對傳統模型識別馬鈴薯病害準確率不高的問題,本文使用經過Poly損失函數和注意力機制改進的RegNetX200MF網絡對五類馬鈴薯病害進行識別試驗,并與傳統網絡模型AlexNet和GooLeNet進行對比分析。 2) 所采用的RegNetX200MF在馬鈴薯識別方面具有良好的性能,準確率最高可達99.8%,超過傳統的AlexNet和GooLeNet,適合作用于馬鈴薯病害識別。 3) 綜上所述,經過Poly損失函數和注意力機制改進的RegNetX200MF網絡在馬鈴薯病害識別方面表現良好,可為農作物病害識別提供參考,對農業信息化的發展具有推動意義。 參 考 文 獻 [1]徐巖, 李曉振, 吳作宏, 等. 基于殘差注意力網絡的馬鈴薯葉部病害識別[J]. 山東科技大學學報(自然科學版), 2021, 40(2): 76-83. Xu Yan, Li Xiaozhen, Wu Zuohong, et al. Potato leaf disease recognition via residual attention network [J]. Journal of Shandong University of Science and Technology (Natural Science), 2021, 40(2): 76-83. [2]蒲秀夫, 寧芊, 雷印杰, 等. 基于二值化卷積神經網絡的農業病蟲害識別[J]. 中國農機化學報, 2020, 41(2): 177-182. Pu Xiufu, Ning Qian, Lei Yinjie, et al. Identification of agricultural plant diseases based on binarized convolutional neural network [J]. Journal of Chinese Agricultural Mechanization, 2020, 41(2): 177-182. [3]趙建敏, 蘆建文. 基于字典學習的馬鈴薯葉片病害圖像識別算法[J]. 河南農業科學, 2018, 47(4): 154-160. Zhao Jianmin, Lu Jianwen. Identification algorithm of potato diseases on leaves using dictionary learning theory [J]. Journal of Henan Agricultural Sciences, 2018, 47(4): 154-160. [4]姜敏, 沈一鳴, 張敬堯, 等. 基于深度學習的水稻病蟲害診斷方法研究[J]. 洛陽理工學院學報(自然科學版), 2019, 29(4): 78-83. Jiang Min, Shen Yiming, Zhang Jingyao, et al. Research on rice diseases and pests diagnosis based on deep learning [J]. Journal of Luoyang Institute of Science and Technology (Natural Science Edition), 2019, 29(4): 78-83. [5]黨滿意, 孟慶魁, 谷芳, 等. 基于機器視覺的馬鈴薯晚疫病快速識別[J]. 農業工程學報, 2020, 36(2): 193-200. Dang Manyi, Meng Qingkui, Gu Fang, et al. Rapid recognition of potato late blight based on machine vision [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(2): 193-200. [6]于洪濤, 袁明新, 王琪, 等. 基于VGG-F動態學習模型的蘋果病蟲害識別[J]. 科學技術與工程, 2019, 19(32): 249-253. Yu Hongtao, Yuan Mingxin, Wang Qi, et al. Recognition of apple pests and diseases based on VGG-F dynamic leaming model [J]. Science Technology and Engineering, 2019, 19(32): 249-253. [7]牛沖, 牛昱光, 李寒, 等. 基于圖像灰度直方圖特征的草莓病蟲害識別[J]. 江蘇農業科學, 2017, 45(4): 169-172. Niu Chong, Niu Yuguang, Li Han, et al. Strawberry disease recognition based on image gray histogram feature [J]. Jiangsu Agricultural Science, 2017, 45(4): 169-172. [8]王林柏, 張博, 姚竟發, 等. 基于卷積神經網絡馬鈴薯葉片病害識別和病斑檢測[J]. 中國農機化學報, 2021, 42(11): 122-129. Wang Linbai, Zhang Bo, Yao Jingfa, et al. Potato leaf disease recognition and potato leaf disease spot detection based on Convolutional Neural Network [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(11): 122-129. [9]趙晉陵, 詹媛媛, 王娟, 等. 基于SE-UNet的冬小麥種植區域提取方法[J]. 農業機械學報, 2022, 53(9): 189-196. Zhao Jinling, Zhan Yuanyuan, Wang Juan, et al. SE-UNet-Based extraction of winter wheat planting areas [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(9): 189-196. [10]張為, 李璞. 基于注意力機制的人臉表情識別網絡[J]. 天津大學學報(自然科學與工程技術版), 2022, 55(7): 706-713. Zhang Wei, Li Pu. Facial expression recognition network based on attention mechanism [J]. Journal of Tianjin University (Science and Technology), 2022, 55(7): 706-713. [11]黃海松, 陳星燃, 韓正功, 等. 基于多尺度注意力機制和知識蒸餾的茶葉嫩芽分級方法[J]. 農業機械學報, 2022, 53(9): 399-407, 458. Huang Haisong, Chen Xingran, Han Zhenggong, et al. Tea buds grading method based on multi-scale attention mechanism and knowledge distillation [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(9): 399-407, 458. [12]殷獻博, 鄧小玲, 蘭玉彬, 等. 基于改進YOLOX-Nano算法的柑橘梢期長勢智能識別[J]. 華南農業大學學報, 2023, 44(1): 142-150. Yin Xianbo, Deng Xiaoling, Lan Yubin, et al. Intelligent recognition of citrus shoot growth based on improved YOLOX-Nano algorithm [J]. Journal of South China Agricultural University, 2023, 44(1): 142-150. [13]于雪瑩, 高繼勇, 王首程, 等. 基于生成對抗網絡和混合注意力機制殘差網絡的蘋果病害識別[J]. 中國農機化學報, 2022, 43(6): 166-174. Yu Xueying, Gao Jiyong, Wang Shoucheng, et al. Apple disease recognition based on Wasserstein generative adversarial networks and hybrid attention mechanism residual network [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(6): 166-174. [14]高榮華, 白強, 王榮, 等. 改進注意力機制的多叉樹網絡多作物早期病害識別方法[J]. 計算機科學, 2022, 49(S1): 363-369. Gao Ronghua, Bai Qiang, Wang Rong, et al. Multi-tree network multi-crop early disease recognition method based on improved attention mechanism [J]. Computer Science, 2022, 49(S1): 363-369 [15]楊玥, 馮濤, 梁虹, 等. 融合交叉注意力機制的圖像任意風格遷移[J]. 計算機科學, 2022, 49(S1): 345-352, 396. Yang Yue, Feng Tao, Liang Hong,et al. Image arbitrary style transfer via criss-cross attention [J]. Computer Science, 2022, 49(S1): 345-352, 396. [16]高雨亮, 徐向英, 章永龍, 等. 融合分組注意力機制的水稻病蟲害圖像識別算法[J]. 揚州大學學報(自然科學版), 2021, 24(6): 53-57. Gao Yuliang, Xu Xiangying, Zhang Yonglong, et al. Image recognition algorithm of rice diseases and insect pests based on shuffle attention mechanism [J]. Journal of Yangzhou University (Natural Science Edition), 2021, 24(6): 53-57. [17]毛騰躍, 宋陽, 鄭祿. 基于多尺度與混合注意力機制的蘋果目標檢測[J]. 中南民族大學學報(自然科學版), 2022, 41(2): 235-242. Mao Tengyue, Song Yang, Zheng Lu. Apple target detection based on multi-scale and hybrid attention mechanism [J].Journal of South-Central Minzu University (Natural Science Edition), 2022, 41(2): 235-242. [18]駱潤玫, 殷惠莉, 劉偉康, 等. 基于YOLOv5-C的廣佛手病蟲害識別[J]. 華南農業大學學報, 2023, 44(1): 151-160. Luo Runmei, Yin Huili, Liu Weikang, et al. Identification of bergamot pests and diseases in complex background using YOLOv5-C algorithm [J]. Journal of South China Agricultural University, 2023, 44(1): 151-160. [19]Leng Z, Tan M, Liu C, et al. PolyLoss: A polynomial expansion perspective of classification loss functions [C]. International Conference on Learning Representations (ICLR), 2022. [20]Radosavovic I, Kosaraju R P, Girshick R, et al. Designing network design spaces [C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.