鄧向武 梁松 齊龍 余淑婷



摘要:稻田雜草位置獲取是靶向噴施除草劑和機械智能除草的基礎,為實現自然光照環境和水田復雜背景下稻田苗期雜草的信息獲取。以稻田惡性雜草野慈姑為研究對象,提出一種基于全卷積神經網絡的稻田苗期雜草語義分割方法,利用DeepLabV3+對秧苗和雜草進行語義分割進而獲取的雜草位置信息。首先人工田間采集稻田苗期雜草野慈姑的RGB圖像,通過圖像標注工具LabelMe人工標注圖像中秧苗、雜草和背景的各個像素點,70%數據集用于DeepLabV3+網絡模型參數的訓練,30%數據集用于測試DeepLabV3+性能。然后與FCN和U-Net兩種語義分割方法進行比較,所提出的DeepLabV3+語義分割方法準確率、均正比、頻權交并比和F值等性能指標都最優,試驗得出:DeepLabV3+模型像素準確率最高達到92.2%,高于U-Net和FCN方法的準確率92.1%和84.7%。所提出的方法能對稻田苗期雜草、秧苗和背景像素進行準確分割,滿足智能除草和除草劑靶向噴施的實際應用需求。
關鍵詞:稻田雜草;野慈姑;語義分割;DeepLabV3+
中圖分類號:S511
文獻標識碼:A
文章編號:2095-5553 (2023) 04-0174-07
Abstract: Paddy weed position acquisition is the basis of targeting spraying herbicide and mechanical intelligence weeding. In order to acquire information acquisition of weeds in seedling stage under natural light environment and complex paddy field background, in this paper, a new semantic segmentation method for weeds at seedling stage was proposed based on the full convolutional neural network and DeepLabV3+ was used for semantic segmentation of seedlings and weeds to obtain the weed location information by sagittaria trifolia as the research object. Firstly, the weeds RGB image of sagittaria trifolia in the paddy field were captured, and each pixel of the seedlings, weeds and background in the images were manually labeled by the image labeling tool LabelMe. 70% data set was used for the parameter training of the DeepLabV3+ network model, and 30% data set was used to test the performance of DeepLabV3+. By comparing with FCN and U-Net semantic segmentation methods, the proposed DeepLabV3+ semantic segmentation method had the best performance indicators, such as accuracy, proportional ratio, frequency weight intersection ratio and F value, and the experiment results showed that the pixel accuracy of DeepLabV3+ model was up to 92.2%. The accuracy rates of U-Net and FCN methods were 92.1% and 84.7% respectively. The method proposed in this paper could accurately segment weeds, seedlings and background pixels at seedling stage of paddy field, and also meet the practical application requirements of intelligent weeding and targeted herbicide spraying.
Keywords:? paddy weed; sagittaria trifolia; semantic segmentation; DeepLabV3+
0 引言
水稻秧苗封行前雜草與秧苗在有限的生長空間內競爭光、水、肥等生長元素,并為病蟲害傳播提供中間載體,如不對雜草進行及時的田間管理,會導致水稻產量下降,據統計每年因雜草導致的水稻產量損失率約在15%以上[1]。隨著精準農業和智慧農業的快速發展,根據雜草位置進行精準噴施已經成為可能[2]。因此,各類作物的雜草位置檢測成為研究熱點[3-4]。目前雜草位置智能檢測分為基于雜草目標框的檢測和基于像素的語義分割。近年來隨著卷積神經網絡(Convolutional Neural Networks,CNN)在圖像目標檢測領域的研究深入,并取得了很好的效果。基于R-CNN目標檢測算法首先被提出。Fast R-CNN[5]在R-CNN的基礎上做出了一些改進,解決了R-CNN需要對同一張圖片重復進行多次卷積計算的問題,提高了速度和準確率。為避免Fast R-CNN中selective search[6]方法定位所需大量時間消耗,Faster R-CNN[7]提出了建議區域提取網絡(RPN)網絡,在生成候選框時比之前生成更少的候選框,但是生成的質量更高,不僅加快了速度,同時也提高了精度。除以上基于分類的目標檢測方法,國內外學者還從回歸的角度對目標檢測方法進行了探索。樊湘鵬等[8]針對棉花幼苗和雜草提出了基于優化Faster R-CNN識別與定位方法,平均識別精度達到94.21%。Redmon等[9]提出了一種被稱為POLO的檢測方法,其基本思路是直接在卷積特征圖上對多個區域的類別和邊界框進行回歸,實現對輸入圖像端到端的訓練和測試。Liu等[10]也采用基于回歸的設計思路,提出了一種被稱為SSD(Single Shot MultiBox Detector)的檢測方法。該方法通過在基礎網絡VGGNet上添加多個卷積層,并從多個卷積特征圖上對多個區域的類別和邊界框進行回歸,較好地平衡了目標檢測的精度和效率。
由于稻田行株距小,稻株行列間的雜草很容易與稻苗之間遮擋;同時由于雜草形態各異且自身非剛體容易形變等問題,同時雜草很難有清晰的邊界信息,這對基于目標框的目標檢測造成很大挑戰。所以基于矩形框圖像塊特征學習的目標檢測方法,不適用于稻田苗期雜草的目標檢測。Long等[11]提出了全卷積網絡(Fully Convolutional Networks,FCN)的語義分割算法,將傳統的圖像塊特征轉變為像素點特征學習[12-13]。該方法也在農業方面得到應用,如王璨等[14]基于雙注意力語義分割網絡對玉米田間苗期雜草進行識別與分割。
由于稻田雜草種類多且大部分雜草隨著生長階段的變化其形態也會發生很大變化,而由于雜草萌發的不一致導致稻田苗期會存在不同生長期的雜草形態。針對形狀發散且形態隨生長階段變化的雜草,不適用基于矩形框的目標檢測方法。Huang等[15]基于無人機采集稻田雜草圖像,并基于FCN對雜草區域進行語義分割,取得了很好的效果,將卷積神經網絡與條件隨機場結合進行語義分割,獲得了更好的性能。劉慶飛等[16]基于U-Net對甜菜田間雜草開展語義分割的方法,U-Net方法逐像素平均準確率為92.06%。由于DeepLabV3+[17]模型在Pascal VOC 2012通用圖像數據集測試中表現優異,其在水田圖像語義分割[18]、小麥病害識別[19]、淡水魚體語義分割[20]和水產養殖水體信息獲取[21]等方面得到大量的應用。
本文針對稻田秧苗封行前行列間生長形態不一致的雜草區域,提出DeepLabV3+的稻田苗期雜草語義分割方法,為智能除草和除草劑靶向噴施等應用提供技術支持。
1 材料與方法
1.1 稻田苗期雜草圖像數據集
本文以早稻秧苗移栽后20 d后稻田內處于幼苗生長期的惡性雜草野慈姑為研究對象,在廣東江門農科所農業實驗基地稻田自然環境下采集圖像,圖像中雜草野慈姑由于種子萌發時間的區別,同一塊區域雜草野慈姑形態差異大,葉齡長的顯現劍形,葉齡短的顯現扇形。將采集得到的圖像進行行列分割成1 024像素×912像素,共得到華南稻區常規惡性雜草野慈姑圖像224張圖像,如圖1所示。
1.2 圖像標注
首先自然條件下水稻秧苗及苗期雜草的RGB圖像,標注圖像水稻秧苗、雜草和背景對應的像素類別,生成對應標簽圖像,連同水稻秧苗及苗期雜草的RGB圖像及其對應的標簽圖像分成訓練樣本和測試樣本。本文通過手工像素標注實現數據GroundTruth的構建,如圖2所示。
1.3 稻田苗期雜草野慈姑圖像語義分割流程
基于DeepLabV3+的稻田苗期雜草野慈姑語義分割方法研究流程如圖3所示。
1) 首先獲取自然水田環境稻田苗期雜草野慈姑的RGB樣本圖像。
2) 對雜草野慈姑圖像進行人工標注形成對應的GroundTruth標簽樣本圖像;隨機選取70%的雜草野慈姑RGB樣本圖像及其對應的GroundTruth標簽樣本圖像作為訓練樣本,其余30%的樣本圖像為測試樣本。
3) 構建基于DeepLabV3+網絡的稻田苗期雜草野慈姑圖像語義分割模型。
4) 數據增強。數據增強可通過在訓練期間隨機變換原始數據來提高網絡準確度。數據增強通過對雜草野慈姑圖像和像素標簽數據應用相同的隨機變換,可為草野慈姑訓練數據添加更多變化,而不必增加帶標簽的訓練樣本的數量。Matlab中使用數據存儲transform應用在支持函數augmentImageAndLabel中定義的所需數據增強,使用隨機左/右翻轉和隨機X/Y平移+/-10個像素來進行數據增強。
5) 通過雜草野慈姑RGB樣本圖像和人工標注形成對應的標簽樣本圖像對模型進行訓練;利用水稻秧苗和雜草野慈姑圖像語義分割模型待分割水稻秧苗和雜草野慈姑的RGB圖像的像素進行分類,輸出水稻秧苗和雜草野慈姑分割圖像,實現水稻秧苗及苗期雜草圖像的語義分割;然后基于測試集對DeepLabV3+語義分割模型進行測試。
1.4 語義分割模型及評價指標
1.4.1 基于DeepLabV3+的語義分割模型
DeepLabV3+是由DeeeplabV1和DeeeplabV2發展而來,DeeeplabV2在DeeeplabV1基礎上增加了空洞卷積和空間金字塔池化相結合的ASPP(Atrous Spatial Pyramid Pooling,ASPP)結構。DeepLabV3+相比于DeeeplabV1和DeeeplabV2減少了全連接條件隨機場的使用,級聯多個空洞卷積模塊并改進了ASPP。
本文采用DeepLabV3+語義分割模型對田間自然場景下的秧苗和雜草野慈姑進行語義分割,語義分割模型DeepLabV3+能夠從樣本中學習并提取淺層特征和深層特征經常融合進而得到魯棒性強的特征,實現水稻秧苗和雜草野慈姑圖像的語義分割。DeepLabV3+網絡結構如圖4所示。DeepLabV3+網絡是由編碼和解碼兩部分組成,期中編碼部分比解碼部分相對復雜。編碼部分包括特征提取網絡ResNet-18[22]用于提取特征,其通過引入殘差結構解決模型訓練中梯度消失的難題。DeepLabV3+編碼部分還包括ASPP,其用于進一步優化深度卷積特征。ASPP應用不同采用率(如圖4中的rate 6、rate 12、rate 18)的空洞卷積多尺度信息提取ResNet-18輸出的特征圖,不同膨脹率卷積核結構如圖5所示。
2 試驗結果與分析
2.1 試驗方法
以稻田惡性雜草野慈姑圖像作為研究對象,構建稻田苗期雜草圖像語義分割數據集,然后,基于DeepLabV3+模型進行稻田苗期雜草圖像語義分割訓練及精度評估。最后,采用3種不同的深度殘差網絡(Residual Network,ResNet)作為特征提取模塊,分析ResNet-18、ResNet-50和ResNet-101對DeepLabV3+網絡模型性能的影響,最后根據準確率、均正比、頻權交并比和F值等性能指標與FCN和U-Net 語義分割方法進行比較。
2.2 試驗軟件及參數配置
本文模型訓練和測試硬件環境:Intel@Core(TM) i7-8700K CPU@3.70GHz×6處理器,16G內存,NVIDIA GeForce GTX 1080Ti顯卡加速圖像處理。軟件環境:操作系統為Windows 10,開發軟件為Matlab 2021a。
在DeepLabV3+網絡訓練過程中,使用隨機梯度下降算法作為參數優化器,設置學習率為0.001,L2Regularization, 0.005,動量為0.9,每批次設置為1,最大迭代次數設置為30。學習率采用分段調度,學習率每10輪降低0.3。這允許網絡以更高的初始學習率快速學習,而一旦學習率下降,能夠求得接近局部最優的解。
通過設置ValidationData參數,在每輪都對照驗證數據對網絡進行測試。ValidationPatience設置為4,以在驗證準確度收斂時提前停止訓練。這可以防止網絡對訓練數據集進行過擬合。
2.3 DeepLabV3+網絡模型測試結果
2.3.1 DeepLabV3+網絡的3種特征提取模塊比較
普通CNN隨著網絡層數加深進而產生梯度消失和梯度爆炸等現象,最終導致網絡訓練效果差。為解決CNN網絡模型網絡深度增加導致的上述問題,ResNet引入BasicBlock和Bottleneck旁路連接結構,如圖7所示。梯度可以通過旁路跨越CNN中的網絡層數進行反向傳播。
ResNet-18、ResNet-50和ResNet-101網絡結構如表1所示,ResNet-18采用BasicBlock旁路結構,ResNet-50和ResNet-101采用Bottleneck旁路結構。由于ResNet-50和ResNet-101網絡層數較深,采用BottleNeck結構不僅在參數上更加節約,同時還能保持特征提取性能。
采用3種不同的ResNet特征提取模塊對稻田苗期雜草DeepLabV3+語義分割模型進行性能比較。表1給出了采用ResNet-18、ResNet-50和ResNet-101共3種不同特征提取模塊在DeepLabV3+模型上的性能。
試驗結果如表2和表3所示,圖8為采用3種不同特征提取模塊的DeepLabV3+語義模型輸出結果。
如表2所示,雖然采用ResNet-101雖然總的準確率最高,達到94.7%;但從表3和圖8(d)可以看出,采用ResNet-101的DeepLabV3+模型針對雜草野慈姑的準確率僅為77.2%。
如表3所示,采用ResNet-50的DeepLabV3+模型針對雜草野慈姑和稻苗的準確率都好于ResNet-18,但總準確率還是低于ResNet-18(表3)。試驗結果表明針對本文小樣本雜草數據集,采用ResNet-18的DeepLabV3+模型方法綜合性能最優。
2.3.2 3種不同語義分割模型比較
為了便于與其他全卷積語義分割網絡對比,在相同環境下實現了SegNet、FCN和U-Net語義分割網絡,并使用相同的訓練集和測試集對模型進行訓練和測試。
圖9為DeepLabV3+語義模型輸出結果,結果表明DeepLabV3+方法能預測復雜條件下,不同生長期的雜草野慈姑不同形態像素位置信息,其形態邊緣清晰。
表4中給出了SegNet、FCN和U-Net方法以及本文DeepLabV3+方法在測試數據上的各項評估指標。針對測試集試驗結果表明,使用本文提出的DeepLabV3+方法對雜草、水稻秧苗和背景的逐像素分類平均準確率、均正比和F值都高于FCN和U-Net的方法。
表5中結果表明采用本文DeepLabV3+針對雜草野慈姑、背景和稻苗的逐像素分類準確率都超過了90%,分別為93.6%、92.1%和90.5%,尤其對稻苗像素識別能力高于U-Net和FCN。U-Net方法對背景像素類別的分割能力達到97.7%,高于DeepLabV3+和FCN,而針對稻苗和雜草野慈姑像素的識別準確率較低。FCN方法對雜草野慈姑像素類別的分割能力達到92.9%,高于DeepLabV3+和U-Net。試驗結果出現表明本文所提出的DeepLabV3+模型能夠對自然條件下水稻秧苗及苗期雜草野慈姑中的各像素能進行有效語義分割。
3 結論
1) 本文提出了一種DeepLabV3+的稻田苗期雜草語義分割方法,該語義分割模型能對稻田苗期雜草野慈姑、秧苗和背景像素進行準確分割,為稻田智能除草和除草劑靶向噴施等應用提供技術支持。
2) 通過與FCN和U-Net兩種語義分割方法進行比較,本文所提出的DeepLabV3+語義分割方法準確率、均正比、頻權交并比和F值等性能指標都最佳。試驗得出DeepLabV3+模型像素平均準確率最高達到92.2%,高于U-Net和FCN方法的平均準確率為92.1%和84.7%。
3) 本文所提出的基于DeepLabV3+全卷積神經網絡的水稻秧苗和雜草野慈姑逐像素分類方法,能對稻田圖像中的水稻秧苗、雜草野慈姑和背景實施有效逐像素分類,能對同一幅圖像中不同生長形態的雜草野慈姑進行有效語義分割,滿足智能除草和除草劑靶向噴施的實際應用需求。
參 考 文 獻
[1] 于改蓮. 稻田除草劑的正確施用方法[J]. 農藥, 2001, 12(40): 43-45.
Yu Gailian. Correct application method of herbicide in the paddy field [J]. Agrochemicals, 2001, 12(40): 43-45.
[2] 劉成良, 林洪振, 李彥明, 等. 農業裝備智能控制技術研究現狀與發展趨勢分析[J]. 農業機械學報, 2020, 51(1): 1-18.
Liu Chengliang, Lin Hongzhen, Li Yanming, et al. Analysis on status and development trend of intelligent control technology for agricultural equipment [J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(1): 1-18.
[3] 范德耀, 姚青, 楊保軍, 等. 田間雜草識別與除草技術智能化研究進展[J]. 中國農業科學, 2010, 43(9): 1823-1833.
Fan Deyao, Yao Qing, Yang Baojun, et al. Progress in research on intelligentization of field weed recognition and weed control technology [J]. Scientia Agricultura Sinica, 2010, 43(9): 1823-1833.
[4] 李春明, 逯杉婷, 遠松靈, 等. 基于Faster R-CNN的除草機器人雜草識別算法[J]. 中國農機化學報, 2019, 40(12): 171-176.
Li Chunming, Lu Shanting, Yuan Songling, et al. Weed identification algorithm of weeding robot based on Faster R-CNN [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(12): 171-176.
[5] 張小青, 樊江川, 郭新宇, 等. 基于Faster R-CNN的大田玉米雄穗識別及抽穗期判定研究[J]. 安徽農業大學學報, 2021, 48(5): 849-856.
Zhang Xiaoqing, Fan Jiangchuan, Guo Xinyu, et al. Research on male ear detection and tasseling stage identification of field maize based on faster R-CNN [J]. Journal of Anhui Agricultural University, 2021, 48(5): 849-856
[6] Uijlings J R R, Sande K E A, Gevers T, et al. Selective search for object recognition [J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[7] 董浪, 許建峰, 靳江周, 等. 基于改進Faster R-CNN的梨樹花芽識別方法[J]. 河北農業大學學報. 2021, 44(6): 116-121.
Dong Lang, Xu Jianfeng, Jin Jiangzhou, et al. Flower bud recognition of pear tree based on improved faster R-CNN [J]. Journal of Heibei Agricultural University, 2021, 44(6): 116-121.
[8] 樊湘鵬, 周建平, 許燕, 等. 基于優化Faster R-CNN的棉花苗期雜草識別與定位[J]. 農業機械學報, 2021, 52(5): 26-34.
Fan Xiangpeng, Zhou Jiangping, Xu Yan, et al. Identification and localization of weeds based on optimized Faster R-CNN in cotton seedling stage [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(5): 26-34.
[9] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 779-788.
[10] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector [C]. Proceedings of European Conference on Computer Vision. Springer International Publishing, 2016: 21-37.
[11] Long J, Shelhamer E, Trevor Darrell. Fully convolutional networks for semantic segmentation [C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[12] Dai J, He K, Sun J. Instance-aware semantic segmenta-tion via multi-task network cascades [C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3150-3158.
[13] Noh H, Hong S, Han B. Learning deconvolution network for semantic segmentation [C]. IEEE International Conference on Computer Vision. IEEE Computer Society, 2015: 1520-1528.
[14] 王璨, 武新慧, 張燕青, 等. 基于雙注意力語義分割網絡的田間苗期玉米識別與分割[J]. 農業工程學報, 2021, 37(9): 211-221.
Wang Can, Wu Xinhui, Zhang Yanqing, et al. Recognition and segmentation of maize seedlings in field based on dual attention semantic segmentation network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(9): 211-221.
[15] Huang, H, Deng, J, Lan, Y, et al. Accurateweed mapping and prescription map generation based on fully convolutional networks using UAV imagery [J]. Sensors, 2018, 18(10): 3299.
[16] 劉慶飛, 張宏立, 王艷玲. 基于深度可分離卷積的實時農業圖像逐像素分類研究[J]. 中國農業科學, 2018, 51(19): 3673-3682.
Liu Qingfei, Zhang Hongli, Wang Yanlin. Real-time pixel-wise classification of agricultural images based on depth-wise separable convolution [J]. Scientia Agricultura Sinica, 2018, 51(19): 3673-3682.
[17] Chen L C, Papandreou G, Kokkinos L. Deeplab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[18] 鄧泓, 楊瀅婷, 劉兆朋, 等. 基于深度學習的無人機水田圖像語義分割方法[J]. 中國農機化學報, 2021, 42(10): 165-172.
Deng Hong, Yang Yingting, Liu Zhaopeng, et al. Semantic segmentation of paddy image by UAV based on deep learning [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(10): 165-172.
[19] 戴雨舒, 仲曉春, 孫成明, 等. 基于圖像處理和DeepLabv3+模型的小麥赤霉病識別[J]. 中國農機化學報, 2021, 42(9): 209-215.
Dai Yushu, Zhong Xiaochun, Sun Chengming, et al. Identification of fusarium head blight in wheat-based on image processing and DeepLabv3+ model [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(9): 209-215.
[20] 王紅君, 季曉宇, 趙輝, 等. SENet優化的DeepLabv3+淡水魚體語義分割[J]. 中國農機化學報, 2021, 42(3): 158-163.
Wang Hongjun, Ji Xiaoyu, Zhao Hui, et al. SENet optimized DeepLabv3+ freshwater fish body semantic segmentation [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(3): 158-163.
[21] 茍杰松, 蔣怡, 李宗南, 等. 基于DeepLabv3+模型的成都平原水產養殖水體信息提取[J]. 中國農機化學報, 2021, 42(3): 105-112.
Gou Jiesong, Jiang Yi, Li Zongnan, et al. Aquaculture water body information extraction in the Chengdu plain based on DeepLabv3+ model [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(3): 105-112.
[22] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition [C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CPVR), Las Vegas: IEEE, 2016.