










摘要:
針對谷子田環境復雜、雜草種類眾多、雜草分布密集的特點導致識別精度低的問題,提出一種基于YOLOv8的改進模型。通過加入CloFormer結構來減少YOLOv8算法計算量并提高識別精度,使用Global和Local的注意力與c2f模塊進行融合,使用AttnConv共享權重來整合局部信息,部署上下文感知權重來增強局部特征;為進一步提高識別精度,另外添加Gam注意力機制,與當前較先進的注意力機制進行對比試驗,并與YOLO各系列模型進行對比試驗。結果表明,YOLOv8-CG模型檢測的平均精度均值為92.6%,比YOLOv5模型高4%。同時分析壟的種植密度不同對模型識別產生的影響,種植較為稀疏的10號壟比種植密集的2號壟精度高6.6%。
關鍵詞:雜草檢測;谷子;YOLOv8;注意力機制;輕量級模型
中圖分類號:S451
文獻標識碼:A
文章編號:2095-5553 (2025) 01-0185-06
Research on weed detection in millet field based on improved YOLOv8 algorithm
Wang Xinmiao, Zhang Zheng, Dong Xiaowei, Wang Linfeng, Li Ruixiang
(School of Engineering, Heilongjiang Bayi Agricultural University, Daqing, 163000, China)
Abstract:
An improved model based on YOLOv8 was proposed to solve the problem of low recognition accuracy due to the complex environment, numerous weed species and dense weed distribution in millet field. By adding CloFormer structure, the model reduced the computational load of YOLOv8 algorithm and improved the recognition accuracy. This structure mainly used Global and Local attention to integrate with c2f module, used AttnConv shared weights to integrate local information, and deployed context-aware weights to enhance local features. In order to further improve the recognition accuracy, Gam attention mechanism was added, and comparison experiments were conducted with the current more advanced attention mechanism and the YOLO series. According to the experiments, the average detection accuracy of YOLOv8-CG model was 92.6%, 4% higher than that of YOLOv5 model. At the same time, the effect of different planting density on model recognition was analyzed. The experiment showed that the precision of row 10 with sparse planting was 6.6% higher than that of row 2 with dense planting.
Keywords:
weed detection; millet; YOLOv8; attention mechanism; lightweight model
0"引言
雜草是影響甚至危害谷子生長的植物,雜草會吸收土壤水分和養分,阻擋作物陽光,影響作物的透光透風性,從而減少作物產量[1]。我國谷子的種植面積占世界谷子播種面積的90%以上,占全國糧食作物播種面積的5%,占北方糧食作物播種面積的10%~15%[2]。而谷子田中雜草種類眾多,如果不能及時去除,造成苗荒、草荒,會導致產量減產甚至導致絕收[3]。我國現階段最普遍的除草方式是人工除草和化學除草[4],但隨著社會的發展、綠色農業的發展以及勞動力成本的上升,人工除草的勞動力成本支出逐年變大,而化學除草對土地的破壞也隨著農藥的過度使用變大,不僅加大了農戶的支出成本,也破壞了作物賴以生長的環境,所以準確識別雜草并進行精確除草變得尤為重要。
近年來,隨著深度學習的不斷發展,視覺識別及技術也不斷提高,而深度學習中常用的識別方法有R-CNN[5]、Faster R-CNN[6]、SSD[7]和YOLO[8]系列等。劉莫塵等[9]提出一種融合帶色彩恢復的多尺度視網膜增強算法的改進YOLOv4-tiny模型,該模型準確率在96.6%,檢測幀耗時為131ms。王宇博等[10]提出一種改進的YOLOv5算法實現農田雜草檢測,該方法通過改進數據增強方式,提高模型泛化性;通過添加注意力機制,增強主干網絡的特征提取能力;通過改進框回歸損失函數,提升預測框的準確率。該方法的平均精度均值為90.6%。張偉康等[11]提出的通過識別蔬菜間接檢測雜草的方式降低雜草檢測復雜度,進而提高檢測精度和魯棒性。在YOLOv5目標檢測算法主干特征提取網絡中引入卷積塊注意力模塊(CBAM)提高網絡對蔬菜目標的關注度,加入Transformer模塊增強模型對全局信息的捕捉能力。Chen等[12]對芝麻雜草的識別中,引入了YOLO-sesame模型,該模型通過引入注意力機制、局部重要性池化和自適應空間特征融合結構,成功提高芝麻雜草識別的效率和準確性。目前對谷子田雜草進行識別處理的文獻較少,而且識別精度較低。
本文通過在YOLOv8中加入CloFormer[13]結構,用C2f_CloAtt代替C2f,與YOLO系列的模型進行對比試驗,驗證CloFormer結構是否能有效減少計算量并提高識別精度。通過加入注意力機制Gam[14]、BAM[15]、CBAM[16]、SE[17]、EMA[18]、CA[19],進行對比試驗,以期找到最優注意力機制來提高模型對雜草的識別精度。
1"數據采集與預處理
1.1"數據采集
數據采集于2023年5月12日,采集地點于大慶市讓胡路區黑龍江八一農墾大學試驗田,試驗田長約250m,寬約200m,選取谷子田最右側的10個壟收集谷子雜草圖片,給壟編號從左至右為1~10,編號從低到高作物播種逐漸稀疏。從每個壟拍攝30張包含各種雜草的圖片,總共拍攝300張圖片為試驗提供數據集。
1.2"數據預處理
通過數據采集的300張圖片發現谷子田主要雜草為狗尾巴草,馬唐,藜類,薊類,牛筋草,苘麻,水棘針等以及試驗田邊上種植了豆類作物,所以會有豆類幼苗,為擴大數據集,使用旋轉、鏡像、亮度變換擴大數據集至1 200張圖片,再使用LabelImg工具對雜草進行標注,為提高識別的準確率,把雜草標定細分,把闊葉類雜草標注為雜草1,禾本科類雜草標注為雜草2,特殊形狀雜草水棘針標注為雜草3,小型雜草標注為雜草4,而特殊形狀的苘麻標注為雜草5,雜草的識別數據集均為Pascal VOC格式。并且按照8∶1∶1把數據集分為訓練集、驗證集以及測試集。訓練集為960張圖片,驗證集為120張圖片,測試集為120張圖片。
2"改進YOLOv8算法
2.1"YOLOv8-CG網絡模型
YOLOv8-CG模型全稱為YOLOv8-CloFormer-Gam模型,其網絡結構整體可分為4個部分,分別為Input、Backbone、Neck和Head[20],網絡模型如圖1所示。Input用于在模型中輸入圖像,Backbone網絡用于提取圖像特征,Neck層主要用于將不同尺度的特征圖進行融合,Head層的主要作用是將特征圖轉換為目標框的位置和類別信息。提高精度的方法主要是通過加入CloFormer模塊,使用C2f_ColAtt替代YOLOv8主干網絡(backbone)中的C2f結構,加入Gam注意力機制。輸入的圖像會通過C2f_ColAtt減少計算量并且增強局部特征,并且增加識別精度,接著經過Gam注意力機制模塊進一步提高識別精度。
2.2"CloFormer模塊
為解決谷子田雜草種類復雜從而導致的識別精度低的問題,加入CloFormer模塊,發現CloFormer模塊能對YOLOv8模型有較為顯著的提升,該模塊采用C2f_CloAtt模塊取代YOLOv8中的C2f模塊,CloFormer模塊是由4個Clo block和ConvFFN串聯構成,圖2為CloFormer模塊結構圖,Clo block模塊在CloFormer中由Global和Local組成,主要通過Global減少計算量以及Local對共享權重的局部特征聚合,增強局部特征,Q、V、K分別為Query(查詢)、Value(值)、Key(鍵),Clo block模塊首先對K和V進行池化(Pool),然后對Q、K、V進行注意力過程,提取低頻全局信息。
Xglobal=Attention[Qg,Pool(Kg),Pool(Vg)]
(1)
然而,引入的Global模塊雖然降低了模型的計算量(FLOPs),但是它在提取低頻信息時也就造成對高頻信息處理能力的不足,所以在Local模塊中加入Attnconv來解決這個問題,Attnconv首先通過進行線性變換,得到與標準注意力相同的Q、K和V。
Q,K,V=FC(Xin)
(2)
式中:
Xin——Attnconv的輸入。
FC模塊(Fully Connected Layer)為全連接層,在進行線性變換后,首先對V進行共享權重的局部特征聚合,然后基于處理后的V和Q、K進行上下文感知的局部增強。使用卷積層(DWconv)來對特征向量V進行局部特征信息聚合,而且卷積層的權重是全局共享的,然后結合Q和K生產上下文感知權重,計算Q和K的哈達瑪積(Hadamard product),哈達瑪積用⊙表示,并且對其結果進行處理變換,得到上下文感知權重,總體流程由式(3)~式(8)表示。
Vs=DWconv(V)
(3)
Qt=DWconv(Q)
(4)
Kt=DWconv(K)
(5)
Xlocal=Attn⊙Vs
(6)
Attn=tanhAttntd
(7)
Attnt=FC[Swish(FC(Qt⊙Kt))]
(8)
并且將局部分支(Local)的輸出Xt和全局分支(Global)的輸出Xout在通道維度上進行串聯,如式(9)、式(10)表示。
Xt=Concat(Xlocal,Xglobal)
(9)
Xout=FC(Xt)
(10)
2.3"Gam模塊
由于雜草與作物形態、顏色較為相近,YOLOv8-CloFormer運行結果為89.7%,為進一步提高雜草在谷子田中的顯著性,提升識別準確率,在YOLOv8主干特征提取網絡中引入Gam注意力機制,Gam注意力機制采用了CBAM注意力機制的順序通道—空間注意力機制,并重新設計子模塊,Gam包含空間注意力和通道注意力,Gam模塊首先在通道注意力中對輸入的圖像維度(C×W×H)進行重新排列,并且使用雙層的多層感知器(MPL)放大通道的空間依賴性,再進行一次反向排列,最后通過一次sigmoid函數輸出,在空間注意力中引入了兩個卷積層進行空間信息融合,從而提高圖像特征,結構如圖3所示,并用式(11)、式(12)進行表述,其中給定輸入特征映射F1∈RC×H×W。
F2=Mc(F1)F1
(11)
F3=Ms(F2)F2
(12)
3"試驗結果與分析
在顯卡為NVIDIA Geforce RTX 3070 Ti,CPU為i7-12700H,操作系統為Windows11,在CUDA版本為11.8,cuDNN版文為8.6,Pytorch版本為2.0.1下實現模型的搭建及試驗。
評價指標:準確率P,表明模型正確識別作物的比例;召回率R,表明識別圖像中作物的完全程度;平均精度均值mAP,表明所有雜草的平均識別精度。
3.1"谷子田雜草識別結果分析
為驗證改進模型對谷子田雜草識別的性能,采用在谷子田中采集的相同雜草訓練集,分別對YOLOv5模型、YOLOv7模型、YOLOv8模型、YOLOv8-C模型以及YOLOv8-CG模型進行訓練,各個模型的評價指標如表1所示。YOLOv8模型的準確率和平均精度都明顯高于YOLOv5模型和YOLOv7模型,只有在召回率中低于YOLOv5模型和YOLOv7模型。綜上所述,選擇YOLOv8模型進行優化,以此得到最優解的模型。
在模型檢測精度方面,YOLOv8-CG模型的準確率為86.3%,召回率為88.1%,平均精度(mAP@0.5和mAP@0.5∶0.9)分別為92.6%和75.8%,平均精度分別高于YOLOv5模型、YOLOv7模型、YOLOv8模型以及YOLOv8-C模型4、7.6個百分點,3.7、2.4個百分點,3.4、1.6個百分點,2.9、1個百分點。改進模型比一般的YOLO系列的識別模型對谷子田雜草的識別精度有較大的提升,準確率和召回率也都有所提高,以此證明CloFormer模塊以及Gam注意力機制對谷子田雜草是識別精度是有提升作用的。
3.2"不同注意力機制的對比試驗
為進一步提高識別精度,在YOLOv8-CloFormer引入Gam注意力機制,并且與當前較為先進的注意力機制進行對比試驗,結果如表2所示。
由表2可知,在YOLOv8-CloFormer的基礎上分別加入CBAM、CA、EMA、SE、Gam五種注意力機制進行對比,加入Gam注意力機制的模型的mAP@0.5要比CA注意力機制高2.6%,mAP@0.5∶0.9要高3.5%,比EMA模型的mAP@0.5要高1%,mAP@0.5∶0.9要高2.6%,比CBAM模型的mAP@0.5要高0.7%,mAP@0.5∶0.9要高1.5%,雖然在與SE注意力機制作對比時,加入Gam注意力機制的模型的mAP@0.5要比加入SE注意力機制的模型低0.2%,但是mAP@0.5∶0.9要高3.1%,準確率要高1.2%,召回率高3.2%,所以加入Gam的模型依舊是較優于加入SE的模型,根據對比試驗,Gam注意力機制對本試驗的提升是最大的。圖4為各個注意力機制模型與YOLOv8模型的對比圖。
為驗證不同注意力機制對每種雜草的識別能力,計算每種雜草在不同的注意力機制模型下的識別精度AP,結果如表3所示。
由表3可以看出,由于雜草2是禾本科雜草比如狗尾巴草等,而谷子也是屬于禾本科,兩者形態、顏色較為相近,作物對雜草2的識別干擾較大,而且禾本科雜草也是谷子田中數量最多的雜草種類,所以雜草2的識別難度相對于其他雜草的難度較大,導致各注意力機制對雜草2的精度普遍較低,而Gam模型在雜草2的識別精度上要比CBAM模型提高7.6%,比CA模型提高5.5%,比EMA模型提高8.4%,比SE模型提高4.3%,試驗發現Gam注意力機制在對不同種類的雜草的識別上對模型都有較好地提升。
3.3"作物密度對識別精度的影響
把試驗田的10個田壟從左至右進行1~10編號,編號越大,作物種植的密度越稀疏,對每個壟拍攝的30張照片進行識別,識別雜草的總數以及正確識別和錯誤識別的雜草數量,從而計算出識別準確率,判斷不同種植密度對于識別性能的影響。
在表4中,雜草總數為每個田壟拍攝到的所有雜草數量,正確識別為30張圖片中正確識別到雜草的數量,未識別為沒有被識別到的雜草數量,重復識別為同一個雜草被多次識別的數量。由表4可知,其中準確率最高的10號壟比準確率最低的2號壟高6.6%,而且可以看出編號越高的壟準確率相對更高,說明作物種植越密集,對識別的干擾越嚴重。
4"結論
提出一種基于改進YOLOv8的識別算法對谷子田中的雜草進行識別,使用C2f_CloAtt模塊替代YOLOv8主干網絡中的C2f模塊以及加入Gam注意力機制,并在Nvidia GeForce RTX 3070Ti環境下訓練,并且與YOLOv系列模型和現階段先進注意力機制進行對比。
1)
對于谷子田雜草,改進后模型的平均精度mAP@0.5和mAP@0.5∶0.9分別為92.6%和75.8%,比YOLOv5模型分別提高4%和7.6%,試驗表明,該模型能有效地提高識別精度以及減少計算量。
2) "通過引入注意力機制來提高主干網絡的特征提取能力,并且將注意力機制進行對比試驗,試驗表明,添加Gam注意力機制的模型的識別平均精度均高于其他注意力機制模型,在對不同雜草的處理能力也優于其他的注意力機制。
3) "分析在不同種植密度下對YOLOv8-CG模型識別精度的變化規律,稀疏的10號壟要比密集的2號壟準確率高6.6%。
參"考"文"獻
[1]
付豪, 趙學觀, 翟長遠, 等. 基于深度學習的雜草識別方法研究進展[J]. 中國農機化學報, 2023, 44(5): 198-207.
Fu Hao, Zhao Xueguan, Zhai Changyuan, et al. Research progress on weed recognition method based on deep learning technology [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(5): 198-207.
[2]
莊占興, 孫文國, 范金勇, 等. 西草凈對谷子田一年生雜草活性及其安全性測定[J]. 農藥, 2017, 56(7): 531-534.
Zhuang Zhanxing, Sun Wenguo, Fan Jinyong, et al. Weed control effect of simetryn and its safety to millet in glasshouses [J]. Agrochemicals, 2017, 56(7): 531-534.
[3]
趙玉信, 楊惠敏. 作物格局、土壤耕作和水肥管理對農田雜草發生的影響及其調控機制[J]. 草業學報, 2015, 24(8): 199-210.
Zhao Yuxin, Yang Huimin. Effects of crop pattern, tillage practice and water and fertilizer management on weeds and their control mechanisms [J]. Acta Prataculturae Sinica, 2015, 24(8): 199-210.
[4]
姜延軍, 岳德成, 李青梅, 等. 全膜雙壟溝播玉米田選用除草地膜的適宜田間雜草密度研究[J]. 植物保護, 2018, 44(1): 110-115.
Jiang Yanjun, Yue Decheng, Li Qingmei, et al. Effects of covering weeding film on the suitable weed density in double-ridge maize fields with whole plastic-film mulching [J]. Plant Protection, 2018, 44(1): 110-115.
[5]
Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[6]
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137-1149.
[7]
Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector [C]. European Conference on Computer Vision, 2016: 21-37.
[8]
Redmon J, Farhadi A. YOLOv3: An incremental improvement [J]. arXiv:1804.02767, 2018.
[9]
劉莫塵, 高甜甜, 馬宗旭, 等. 基于MSRCR-YOLOv4-tiny的田間玉米雜草檢測模型[J]. 農業機械學報, 2022, 53(2): 246-255, 335.
Liu Mochen, Gao Tiantian, Ma Zongxu, et al. Target detection model of corn weeds in field environment based on MSRCR algorithm and YOLOv4-tiny [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(2): 246-255, 335.
[10]
王宇博, 馬廷淮, 陳光明. 基于改進YOLOv5算法的農田雜草檢測[J]. 中國農機化學報, 2023, 44(4): 167-173.
Wang Yubo, Ma Tinghuai, Chen Guangming. Weeds detection in farmland based on a modified YOLOv5 algorithm [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(4): 167-173.
[11]
張偉康, 孫浩, 陳鑫凱, 等. 基于改進YOLOv5的智能除草機器人蔬菜苗田雜草檢測研究[J]. 圖學學報, 2023, 44(2): 346-356.
Zhang Weikang, Sun Hao, Chen Xinkai, et al. Research on weed detection in vegetable seedling fields based on the improved YOLOv5 intelligent weeding robot [J]. Journal of Graphics, 2023, 44(2): 346-356.
[12]
Chen Jiqing, Wang Huabin, Zhang Hongdu, et al. Weed detection in sesame fields using a YOLO model with an enhanced attention mechanism and feature fusion [J]. Computers and Electronics in Agriculture, 2022, 202.
[13]
Fan Qihang, Huang Huaibo, Guan Jiyang, et al. Rethinking local perception in lightweight vision transformer [J]. arXiv:2303.17803, 2023.
[14]
Liu Yichao, Shao Zongru, Nico Hoffmann. Global attention mechanism: Retain information to enhance channel-spatial interactions [J]. arXiv:2112.05561, 2021.
[15]
Park J, Woo S, Lee J Y, et al. BAM: Bottleneck attention module [J]. arXiv:1807.06514, 2018.
[16]
Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module [C]. Proceedings of the European Conference on Computer Vision, 2018: 3-19.
[17]
Jie Hu, Li Shen, Samuel Albanie, et al. Squeeze and excitation networks [J]. arXiv:1709.01507,2019.
[18]
Ouyang Daliang, He Su, Zhang Guozhong, et al. Efficient multi-scale attention module with cross-spatial learning [J]. arXiv: 2305.13563, 2023.
[19]
Li Yehao, Yao Ting, Pan Yingwei, et al. Contextual transformer networks for visual recognition [J]. arXiv: 2107.12292, 2021.
[20]
楊斷利, 王永勝, 陳輝, 等. 基于改進YOLO v6-tiny的蛋雞啄羽行為識別與個體分類[J]. 農業機械學報, 2023, 54(5): 268-277.
Yang Duanli, Wang Yongsheng, Chen Hui, et al. Feather pecking abnormal behavior identification and individual classification method of laying hens based on improved YOLO v6-tiny [J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(5): 268-277.