





摘要:為實現茶嫩芽快速識別與采摘點定位,研究一種輕量級深度學習網絡實現茶嫩芽分割與采摘點定位。采用MobileNetV2主干網絡與空洞卷積相結合,較好地平衡茶嫩芽圖像分割速度與精度的矛盾,實現較高分割精度的同時,滿足茶嫩芽快速識別的要求,并設計外輪廓掃描與面積閾值過濾相結合的采摘點定位方法。試驗表明:所提出的茶嫩芽分割算法在單芽尖及一芽一葉數據集中精度優異,平均交并比mIoU分別達到91.65%和91.36%;在保持高精度的同時,模型復雜度低,參數量僅5.81 M、計算量僅39.78 GFOLPs;在單芽尖、一芽一葉及一芽兩葉數據集中各隨機抽取200張圖片進行采摘點定位驗證,定位準確率分別達到90.38%、95.26%和96.60%。
關鍵詞:茶嫩芽;深度學習;語義分割;空洞卷積;感受野;采摘點定位
中圖分類號:S571.1; TP391
文獻標識碼:A
文章編號:2095-5553 (2024) 05-0246-07
收稿日期:2022年9月5日" 修回日期:2022年11月7日*基金項目:江蘇省重點研發計劃重點項目(BE2021016—3)
第一作者:王化佳,男,1998年生,江蘇連云港人,碩士研究生;研究方向為機器視覺、深度學習。E-mail: 2284311326@qq.com
通訊作者:顧寄南,男,1964年生,江蘇鎮江人,博士,教授,博導;研究方向為人工智能、智能制造、智能機器人等。E-mail: gujinan@tsinghua.org.cn
Research on tea bud segmentation and picking point location based on deep learning
Wang Huajia, Gu Jinan, Wang Mengni, Xia Zilin
(College of Mechanical Engineering, Jiangsu University, Zhenjiang, 212013, China)
Abstract:
In order to realize the rapid recognition of tea buds and the location of picking points, a lightweight deep learning network is studied to realize the segmentation of tea buds and the location of picking points. The combination of MobileNetV2 backbone network and dilated convolution can better balance the contradiction between the speed and accuracy of tea bud image segmentation, and meet the requirements of fast recognition of tea buds while achieving high segmentation accuracy. A picking point location method combining outer contour scanning and area threshold filtering is designed. The experiments show that the tea bud segmentation algorithm proposed in this paper has excellent accuracy in single bud tip and one bud one leaf-dataset, and mIoU reaches 91.65% and 91.36% respectively. While maintaining high accuracy, the model complexity of this algorithm is the lowest, with only 5.81 M parameters and 39.78 GFLOPs calculations. In the single bud tip, one bud and one-leaf, and one-bud and two-leave data sets," 200 pictures were randomly selected to verify" the location of picking point, and the positioning accuracy reached 90.38%, 95.26% and 96.60% respectively.
Keywords:
tea bud; deep learning; semantic segmentation; dilated convolution; receptive field; picking point positioning
0 引言
我國是農業大國,是茶的故鄉。茶葉作為一種自然饋贈的綠色飲品,深受廣大消費者喜愛。2022年全國干毛茶總產量3181kt,總產值3 180.68億元[1],隨著茶葉產量的逐年增加,人口老齡化加重,用工難成為制約茶葉發展的重要因素。機械收割技術的發展以及市場的需求一定程度上催生了不同種類的采茶機器,但現階段使用的采茶機只適用于大宗茶的采摘,不能夠對優質茶葉進行有選擇性的采摘。因此,茶嫩芽的智能識別和檢測,是實現優質茶機械化、自動化采摘的前提與關鍵,也為其他農作物的智能化采摘提供指導價值。
由于茶嫩芽在顏色、形狀及紋理上略微區別于其他茶葉,許多學者嘗試利用這些特征將嫩芽目標和背景區分開來,實現識別效果,例如方坤禮等[2]基于改進JSEG技術將茶芽從背景中分割出來。陳妙婷[3]提出一種PSO-SVM算法,提高傳統圖像處理方法對茶葉分割的效果。龍樟等[4]基于閾值分割與形態學去噪方法實現茶嫩芽的識別。雖然這些方法從圖像上能夠識別出茶芽,但均包含誤分割區域,魯棒性差,無法直接用于茶園中進行識別與采摘。
近年來,深度學習在農業領域產生了重大的影響,越來越多的學者利用深度學習去解決茶葉采摘的難題。其中,Xu等[5]結合利用YOLOv3的快速檢測能力和DenseNet201的高精度分類能力,實現了嫩芽的準確檢測。許高建等[6]基于Faster R-CNN深度網絡對茶葉嫩芽圖像進行識別。但以上方法均未解決茶葉采摘點定位問題,僅停留在嫩芽的識別階段。Yang等[7]對YOLOv3進行改進并應用于嫩芽檢測,采用骨架提取與最小外接矩形的最低交點作為采摘點,該方法過于復雜,其本質上采用骨架最低點作為采摘點。Chen等[8]首先利用Faster R-CNN檢測圖像中的嫩芽區域,再利用全卷積網絡FCN對嫩芽區域中的茶芽莖部進行分割,從而實現采摘點的定位,但該方法需要兩個神經網絡對茶芽進行識別與采摘點的定位,網絡規模大,運行速度慢,采茶機無法真正提高采摘效率的目的。
現有的茶嫩芽識別方法大多圍繞目標檢測與傳統圖像處理的方法,但依然包含以下不足:首先,嫩芽識別大多依靠深度學習進行目標檢測,但目標框無法實現采摘點的定位。其次,當前針對嫩芽識別及采摘點定位分為兩個獨立任務,并沒有結合成一個整體。最后,現有研究成果網絡模型參數量大,識別速度慢,未能實現效率與精度的有效平衡。
針對以上問題,本文提出一種基于深度學習的茶嫩芽分割與采摘點定位方法。利用輕量化語義分割方法快速得到茶嫩芽識別結果,其中包含了嫩芽的輪廓、類別及位置信息。利用圖像處理方法,提取分割出來的嫩芽輪廓。綜合利用嫩芽分割區域面積和輪廓信息進行采摘點定位。
1 茶嫩芽分割和采摘點定位方法
1.1 茶嫩芽分割網絡
茶嫩芽與茶葉背景無論在顏色、紋理及形狀上都高度相似,容易出現誤分割或者漏分割現象,茶嫩芽分割的精度高低會直接影響到后續采摘點的定位。快速識別茶嫩芽與定位采摘點是提高采茶效率的關鍵,如不能提高嫩芽的識別效率,茶葉的智能化采摘依舊僅停留在試驗階段。因此,本文針對嫩芽識別與采摘點定位提出一種語義分割算法。為了提高分割精度、保持較高的分割速度,解決語義分割算法中計算量大、參數多、分割精度不足等問題,本文采用了輕量化主干特征提取網絡MobileNetV2[9],引入GELU激活函數以及空洞卷積。本文的網絡整體結構如圖1所示。
1.1.1 主干網絡
MobileNetV2網絡是一種輕量化卷積神經網絡,主要由1個Conv2d卷積與7個bottleneck模塊組合而成。bottleneck模塊由兩個1×1的普通卷積以及3×3的深度可分離卷積組成,具體前向傳播流程首先是特征輸入到1×1普通卷積實現通道的擴張;再經過3×3的深度可分離卷積實現圖像中每個特征的提取;最后經過1×1的卷積實現通道的壓縮,總體呈瓶頸結構。3×3深度可分離卷積原理如圖2所示,主要由逐通道卷積和逐點卷積組成,它使用的計算量比普通卷積少8~9倍,精度只下降了小部分,這樣能夠大大降低整體網絡模型的計算量,提高運行速度。
大多數語義分割是將圖片輸入到主干網絡中,經過多次下采樣來增加感受野,但這樣會導致其空間結構不再可識別,類似于茶嫩芽的小目標信息無法重建。為此需要減少下采樣的次數,保留空間結構信息,同時增加感受野,為此,在主干網絡MobileNetV2中引入空洞卷積,其原理如圖3所示。圖3(a)空洞率為1,即普通卷積,每層特征圖的感受野大小與卷積核大小相同,均為3×3。圖3(b)空洞率為2,即在原來3×3卷積核之間插入兩行兩列間隙,每層特征圖的感受野大小為5×5,此時,在未擴大卷積核大小的情況下,特征圖感受野得到提高。
本文參考文獻[10],將bottleneck4~bottleneck7的步距設置為1,bottleneck4~bottleneck5的深度可分離卷積的空洞率設置為2,bottleneck6~bottleneck7的深度可分離卷積的空洞率設置為4,其具體網絡結構見表1,其中n為模塊堆疊次數,s為步長,r為空洞率。
1.1.2 ASPP特征融合結構
ASPP(Atrous Spatial Pyramid Pooling)在DeepLabv2[11]中首先提出,在之后DeepLab系列中得到不斷改進,ASPP利用主干特征提取網絡生成的特征圖作為輸入,用不同空洞率的卷積及平均池化對輸入進行并行采樣,然后將得到的結果進行拼接實現特征融合,實現不同感受野特征信息的相互交流,顯著提高模型性能。
如圖4所示,從左往右共有五個并行分支,其前向傳播流程分別為:第一個分支將64×64×320經過1×1卷積生成64×64×256特征圖。
由于主干網絡只經過三次下采樣,為了得到更大的感受野,將第二、三、四分支中的空洞率設置為12、24、36,經過空洞卷積后均生成64×64×256特征圖。第五個分支首先將64×64×320特征圖進行全局平均池化生成1×1×320特征圖,然后經過1×1卷積將通道數改為256,最后經過雙線性插值上采樣生成64×64×256特征圖。經過五個并行分支生成5個相同大小的特征圖,將其按通道維度進行拼接,最終生成64×64×1 280特征圖。
1.1.3 解碼器部分
解碼器部分參考DeepLabV3+[12],主要實現將特征圖上采樣到原圖大小,實現分割效果。如圖1中解碼器所示,其具體前向傳播流程為:將ASPP輸出進行通道壓縮與2倍上采樣,同時將bottleneck2生成的特征圖進行通道數調整,并與2倍上采樣后的特征圖進行按通道拼接,然后經過3×3卷積與1×1卷積將通道數調整為分類類別數,最后經過4倍上采樣得到分割圖。
2.2 茶嫩芽分割結果及分析
本試驗設備配有CPU為E5-2678 V3,擁有16 G內存,并配有Nvidia 3090顯卡,擁有24 G顯存。
利用所構建的三種數據集對模型進行訓練并與其他算法進行對比分析。訓練圖片大小調整為512像素×512像素,所有算法均訓練700個Epoch得到最優解,采用Adam(Adaptive momentum)優化器,momentum參數設置為0.9,采用動態學習率下降策略,加快收斂速度。
為了驗證所提出算法在茶嫩芽分割上的先進性,將其與全卷積語義分割性能最優的FCN-8s[13]、應用池化金字塔的PSPNet[14]和DeepLab系列中性能最優的DeepLabV3+語義分割算法進行對比,結果見表3。
表3中,DY、YY及LY分別表示單芽尖、一芽一葉及一芽兩葉。針對茶嫩芽分割,所提出的語義分割算法在單芽尖及一芽一葉小目標上分割性能最優,mIoU分別達到了91.65%和91.36%,在一芽兩葉大目標上分割性能略低,但本算法無論在參數量還是計算量上均為最低,適用于真實場景下茶嫩芽的快速分割。茶嫩芽分割結果示例如圖9所示。
2.3 采摘點定位方法驗證
利用茶嫩芽分割后的圖片結果,進行輪廓掃描及其面積閾值過濾,得到茶嫩芽的外輪廓信息。將外輪廓中每一個像素坐標按y軸方向從大到小進行排序,找出嫩芽外輪廓底邊并求坐標均值得出采摘點。將采摘點定位圖和原圖進行混合,驗證采摘點定位是否正確。定位結果如圖10所示,其中,黑色線條為茶嫩芽的外輪廓,黑色實心圓形為采摘點位置,本文提出的方法最終能夠實現采摘點的確定,為后續機械手采摘提供具體位置。
為了驗證本文采摘點定位算法的準確性,從單芽尖、一芽一葉及一芽兩葉數據集中各自隨機抽取200張圖片,試驗統計結果如表4所示。
試驗結果表明,本文提出的茶嫩芽采摘點定位效果優異,單芽尖采摘點定位準確率為90.38%,一芽一葉采摘點定位準確率為95.26%,一芽兩葉采摘點定位準確率高達96.60%,達到了預期要求。
2.4 試驗結果分析
為了驗證本文分割算法的優越性及采摘點定位的準確性,應用當前主流的語義分割算法與本文采摘點算法結合進行可視化對比,對比效果如圖11所示。針對茶嫩芽分割,FCN-8s、PSPNet及DeepLabV3+語義分割網絡均出現誤分割、漏分割現象,相對于這三種分割算法,本文算法尤其在小目標嫩芽分割性能優越,其分割結果作為采摘點定位的依據,準確率高。
3 結論
本文提出一種基于深度學習的茶嫩芽分割及采摘點定位方法。以期彌補傳統算法精度低和深度學習算法模型復雜度高的不足,有利于茶嫩芽智能化識別及自動化采摘。
1)" 利用輕量級主干網絡MobileNetV2實現茶嫩芽的特征提取,在主干中引入空洞卷積減少下采樣次數從而保留更多空間信息,減少分割精度損失;在ASPP模塊中設定與主干網相適應的空洞率實現特征融合。
2)" 對分割結果進行外輪廓掃描獲取茶芽輪廓信息,利用閾值法過濾掉面積較小誤分割輪廓,利用輪廓底部區域對應位置坐標點的均值作為采摘點,實現茶嫩芽的采摘定位。
3)" 構建單芽尖、一芽一葉和一芽兩葉三種數據集,在不同網絡模型中進行訓練和測試對比。試驗結果表明,較其他語義分割網絡而言,本文提出的語義分割算法在單芽尖及一芽一葉數據集中表現最優,采摘點定位方法的準確率均在90%以上。
參 考 文 獻
[1] 梅宇, 張朔. 2022年中國茶葉生產與內銷形勢分析[J]. 中國茶葉, 2023, 45(4): 25-30.
Mei Yu, Zhang Shuo. Analysis of China’s tea production and domestic sales in 2022[J]. China Tea, 2023, 45(4): 25-30.
[2] 方坤禮, 廖建平, 劉曉輝. 基于改進JSEG技術的茶葉圖像嫩芽分割與識別研究[J]. 食品工業, 2017, 38(4): 134-138.
Fang Kunli, Liao Jianping, Liu Xiaohui. Research on tea leaf of image segmentation and recognition using improved JSEG algorithm [J]. The Food Industry, 2017, 38(4): 134-138.
[3] 陳妙婷. 基于計算機視覺的名優茶嫩芽識別與定位[D]. 青島: 青島科技大學, 2019.
Chen Miaoting. Recognition and location of high-quality tea buds based on computer vision [D]. Qingdao: Qingdao University of Science amp; Technology, 2019.
[4] 龍樟, 姜倩, 王健, 等. 茶葉嫩芽視覺識別與采摘點定位方法研究[J]. 傳感器與微系統, 2022, 41(2): 39-41, 45.
Long Zhang, Jiang Qian, Wang Jian, et al. Research on method of tea flushes vision recognition and picking point localization [J]. Transducer and Microsystem Technologies, 2022, 41(2): 39-41, 45.
[5] Xu W, Zhao L, Li J, et al. Detection and classification of tea buds based on deep learning [J]. Computers and Electronics in Agriculture, 2022, 192: 106547.
[6] 許高建, 張蘊, 賴小燚. 基于Faster R-CNN深度網絡的茶葉嫩芽圖像識別方法[J]. 光電子·激光, 2020, 31(11): 1131-1139.
Xu Gaojian, Zhang Yun, Lai Xiaoyi. Recognition approaches of tea bud image based on faster R-CNN depth network [J]. Journal of Optoelectronics·Laser, 2020, 31(11): 1131-1139.
[7] Yang H, Chen L, Chen M, et al. Tender tea shoots recognition and positioning for picking robot using improved YOLO-v3 model [J]. IEEE Access, 2019, 7: 180998-181011.
[8] Chen Y T, Chen S F. Localizing plucking points of tea leaves using deep convolutional neural networks [J]. Computers and Electronics in Agriculture, 2020, 171: 105298.
[9] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks [C]. International Conference on Computer Vision and Pattern Recognition, IEEE, 2018: 4510-4520.
[10] Yu F, Koltun V, Funkhouser T. Dilated residual networks [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 472-480.
[11] Chen L C, Papandreou G, Kokkinos I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[12] Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]. Proceedings of the European Conference on Computer Vision, 2018: 801-818.
[13]
Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [C]. International Conference on Computer Vision and Pattern Recognition, IEEE, 2015: 3431-3440.
[14] Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network [C]. International Conference on Computer Vision and Pattern Recognition, IEEE, 2017: 2881-2890.