洪孔林 吳明暉 高博 馮業(yè)寧
![]()
收稿日期:2023-09-24 ????????????修訂日期:2023-11-13
基金項(xiàng)目:上海市自然科學(xué)基金(21ZR1425900)
作者簡介:洪孔林,男,碩士研究生,主要從事圖像處理與目標(biāo)檢測方面的研究。*通信作者:wuminghui@sues.edu.cn
摘要:實(shí)現(xiàn)自然生長環(huán)境的茶葉嫩芽分級識別是名優(yōu)茶智能化采摘的基礎(chǔ),針對光照、遮擋、密集等復(fù)雜環(huán)境造成的茶葉嫩芽識別精度較低、魯棒性較差等問題,提出了一種基于YOLOv7-tiny的改進(jìn)模型。首先在YOLOv7-tiny模型的小目標(biāo)檢測層添加卷積注意力模塊,提高模型對小目標(biāo)特征的關(guān)注能力,減少復(fù)雜環(huán)境對茶葉嫩芽識別的干擾;調(diào)整空間金字塔池化結(jié)構(gòu),降低模型運(yùn)算成本,提高檢測速度;使用交并比(Intersection over Union,IoU)和歸一化Wasserstein距離(Normalized gaussian wasserstein distance,NWD)結(jié)合的損失函數(shù),改善IoU機(jī)制對位置偏差敏感的問題,進(jìn)一步提高模型對小目標(biāo)檢測的魯棒性。結(jié)果表明,該模型的檢測準(zhǔn)確率為91.15%,召回率為88.54%,均值平均精度為92.66%,模型大小為12.4 MB,與原始模型相比,準(zhǔn)確率、召回率、均值平均精度分別提高2.83、2.00、1.47個百分點(diǎn),模型大小增加0.1 MB。與不同模型的對比試驗(yàn)表明,該模型在多個場景下的嫩芽分級檢測中漏檢和誤檢較少,置信度分?jǐn)?shù)較高。改進(jìn)后的模型可應(yīng)用于名優(yōu)茶采摘機(jī)器人的嫩芽分級識別。
關(guān)鍵詞:YOLOv7-tiny;茶葉嫩芽;分級識別;注意力機(jī)制;NWD損失函數(shù)
中圖分類號:S571.1;TP391.41? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? 文章編號:1000-369X(2024)01-062-13
A Grading Identification Method for Tea Buds Based on Improved YOLOv7-tiny
HONG Konglin, WU Minghui*, GAO Bo, FENG Yening
School of Mechanical and Automotive Engineering, Shanghai University of Engineering Science, Shanghai 201620, China
Abstract: The intelligent grading and recognition of tea buds in a natural environment are fundamental for the automation of premium tea harvesting. To address the problems of low recognition accuracy and limited robustness caused by complex environmental factors like lighting, obstruction, and dense foliage, we propose an enhanced model based on YOLOv7-tiny. Firstly, a CBAM module was added into the small object detection layer of the YOLOv7-tiny model to enhance the model's ability to focus on small object features and reduce the interference of complex environments on tea bud recognition. We adjusted the spatial pyramid pooling structure to lower computational costs and improve detection speed. Additionally, we utilized a loss function combining IoU and NWD to further enhance the model's robustness in small object detection by addressing the sensitivity of the IoU mechanism to position deviations. Experimental results demonstrate that the proposed model achieves a detection accuracy of 91.15%, a recall rate of 88.54%, and a mean average precision of 92.66%. The model's size is 12.4 MB. Compared to the original model, this represents an improvement of 2.83%, 2.00%, and 1.47% in accuracy, recall rate, and mean average precision, respectively, with a significant increase of 0.1 MB in model size. Comparative experiments with different models show that our model exhibits fewer false negatives and false positives in multiple scenarios, along with higher confidence scores. The improved model can be applied to the bud grading and recognition process of premium tea harvesting robots.
Keywords: YOLOv7-tiny, tea bud, grading identification, attention mechanisms, NWD loss
中國是世界上最大的茶葉生產(chǎn)與消費(fèi)國,其中名優(yōu)茶在內(nèi)銷市場長期保持較大貢獻(xiàn)[1]。名優(yōu)茶制作比一般大宗商品茶要求更為嚴(yán)格,根據(jù)芽葉形態(tài)不同,嫩芽的采摘級別可以分為4級:單芽、一芽一葉、一芽二葉和一芽三葉[2]。目前名優(yōu)茶采摘主要依靠人工,采摘成本在生產(chǎn)成本中占比較高。現(xiàn)有采茶機(jī)械大都采用無差別剪切統(tǒng)收技術(shù),雖然工作效率較高,但無法精確區(qū)分嫩芽與老葉,且茶葉破損率為25%~40%[3],僅適合采收要求不高的大宗茶。因此,采用機(jī)器人代替人工實(shí)現(xiàn)自動化采摘,是提高名優(yōu)茶采摘效率,降低茶葉生產(chǎn)成本的必然趨勢。國內(nèi)已有多個研究機(jī)構(gòu)開展了采茶機(jī)器人研究[4-5],而茶葉嫩芽分級識別是實(shí)現(xiàn)名優(yōu)茶智能分級采摘的基礎(chǔ)。
目前茶葉嫩芽識別方法主要包括傳統(tǒng)圖像處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等方法。傳統(tǒng)圖像處理方法主要是根據(jù)茶葉嫩芽和老葉間的顏色、紋理、形狀等特征對茶葉嫩芽進(jìn)行分割。吳雪梅等[6]利用改進(jìn)的最大方差自動取閾法計(jì)算G和G-B分量的分割閾值,實(shí)現(xiàn)了對茶葉嫩芽的分割。龍樟等[7]通過提取茶叢圖像的超綠特征,并采用大津法對圖像進(jìn)行閾值分割,然后經(jīng)過閉運(yùn)算去除噪聲,得到嫩芽分割圖像。機(jī)器學(xué)習(xí)方法主要是基于茶葉嫩芽的顏色、紋理、形狀等特征建立識別模型,實(shí)現(xiàn)對茶葉嫩芽的識別。張金炎等[8]以藍(lán)色背景下的茶葉嫩芽為研究對象,提取茶葉嫩芽的形態(tài)、紋理和HOG特征參數(shù),分別建立了支持向量機(jī)、隨機(jī)森林和K-最近鄰模型對采摘后綠茶進(jìn)行分級識別,發(fā)現(xiàn)隨機(jī)森林模型效果最好,準(zhǔn)確率為97.06%。劉自強(qiáng)等[9]通過灰度共生矩陣提取白色背景下茶葉嫩芽的顏色和形狀特征,在6種分類器中訓(xùn)練,發(fā)現(xiàn)SVMKM和隨機(jī)森林模型的識別效果最好,準(zhǔn)確率達(dá)到89.5%。上述方法雖然能夠識別茶葉嫩芽,但其檢測精度受特征提取影響較大,對于前景與背景相近情況檢測效果較差,且受光照影響較大,算法魯棒性較差。
近年來,隨著深度學(xué)習(xí)目標(biāo)檢測技術(shù)的發(fā)展,其在農(nóng)業(yè)產(chǎn)品檢測和識別領(lǐng)域的應(yīng)用越來越廣泛。王子鈺等[10]通過對比傳統(tǒng)顏色分割和基于SSD的茶葉嫩芽檢測發(fā)現(xiàn),SSD算法具有更加出色的檢測識別效果。Yang等[11]利用殘差結(jié)構(gòu)和新的卷積運(yùn)算改進(jìn)YOLOv3模型對茶葉嫩芽進(jìn)行識別,平均檢測精度達(dá)到90%,但其研究對象僅限單芽,并且背景相對簡單。方夢瑞等[12]通過添加淺層特征層、引入注意力機(jī)制和雙向特征金字塔結(jié)構(gòu)對YOLOv4-tiny模型進(jìn)行改進(jìn),改進(jìn)后的模型對整株嫩芽識別的召回率提高了23.14個百分點(diǎn)。呂丹瑜等[13]使用原始YOLOv5模型對白色背景下茶葉嫩芽進(jìn)行分級識別,發(fā)現(xiàn)YOLOv5模型具有較高的識別精度。尹川等[14]以YOLOv5s為基準(zhǔn)模型,通過引入膨脹卷積網(wǎng)絡(luò)、改進(jìn)特征融合網(wǎng)絡(luò)和SimOTA算法對基準(zhǔn)模型進(jìn)行改進(jìn),實(shí)現(xiàn)對采摘后茶葉嫩芽的品質(zhì)分級,有效提升不同品質(zhì)茶葉的識別能力。基于深度學(xué)習(xí)的茶葉嫩芽檢測在實(shí)時性和準(zhǔn)確性上優(yōu)于傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)方法,能夠自動提取嫩芽多維特征,算法具有較高的準(zhǔn)確性和魯棒性。
綜上所述,名優(yōu)茶根據(jù)品質(zhì)不同,采摘決策不同,需對4類不同等級茶葉嫩芽進(jìn)行識別。目前,自然環(huán)境下的茶葉嫩芽識別研究對象多為單芽或整株嫩芽,采摘后仍需對茶葉嫩芽品質(zhì)進(jìn)行分級;部分研究雖已實(shí)現(xiàn)對采摘后名優(yōu)茶的品質(zhì)分級,但先采摘再分級的方式過于繁瑣。針對上述問題,本研究提出了一種基于改進(jìn)YOLOv7-tiny的茶葉嫩芽分級識別方法。首先,在小目標(biāo)檢測層加入卷積注意力模塊(Convolutional block attention module,CBAM),以保留小尺度目標(biāo)信息,提高對小目標(biāo)的檢測效果。同時,將原本并行的空間金字塔池化結(jié)構(gòu)(Spatial pyramid pooling,SPP)改為串行傳遞,在保證嫩芽特征提取的同時,降低一定的運(yùn)算成本,提高運(yùn)算速度。最后,采用NWDIoU損失函數(shù)替換CIoU損失函數(shù)來提高模型對小目標(biāo)檢測的魯棒性,以期實(shí)現(xiàn)自然環(huán)境下,茶葉嫩芽的快速分級定位,為自然環(huán)境下名優(yōu)茶智能化分級采摘提供一定的技術(shù)支持。
1 試驗(yàn)數(shù)據(jù)
1.1 圖像采集
本研究所用數(shù)據(jù)集拍攝于上海市滬楓茶葉種植基地,使用Iphone 13采集自然條件下的龍井43和大紅袍茶葉嫩芽圖像,圖像分辨率為3 024像素×3 024像素,以.jpg格式保存。數(shù)據(jù)集拍攝于2022年9月上旬和2023年4月上旬,拍攝時間為8:00—18:00,拍攝角度為30°~60°,拍攝距離為10~50 cm。為提高模型泛化能力,避免過擬合,共采集原始數(shù)據(jù)2 000張,包括不同光照、不同遮擋程度、不同季節(jié)和單張圖中目標(biāo)多少等數(shù)據(jù)。如圖1所示,太陽的位置變化以及拍攝角度不同會導(dǎo)致茶葉嫩芽亮度不同,茶葉嫩芽與老葉難以區(qū)分且存在相互遮擋的情況。
1.2 茶葉嫩芽數(shù)據(jù)集制作
本文按照單芽(1)、一芽一葉(1-1)、一芽二葉(1-2)、一芽三葉(1-3)對樣本進(jìn)行分類,茶葉嫩芽分級標(biāo)準(zhǔn)如圖2所示,利用Labelimg標(biāo)注軟件對茶葉嫩芽數(shù)據(jù)集進(jìn)行人工標(biāo)注,以便獲得圖像中目標(biāo)嫩芽的類別和位置信息。標(biāo)注完的信息以.txt文件形式保存。將數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集(1 600幅)、驗(yàn)證集(200幅)和測試集(200幅)進(jìn)行模型訓(xùn)練和測試。
2 研究方法
2.1 YOLOv7目標(biāo)檢測模型
YOLOv7目標(biāo)檢測算法由Wang等[15]于2022年7月提出,在速度與精度之間取得了較好的平衡,是目前較為優(yōu)秀的單階段目標(biāo)檢測算法,其中YOLOv7-tiny模型的參數(shù)量和計(jì)算量較小,且能保持較高的精度,適合部署在邊緣移動端GPU設(shè)備,因此本研究選擇YOLOv7-tiny作為基礎(chǔ)模型。
2.2 改進(jìn)的YOLOv7-tiny模型
本研究中YOLOv7-tiny網(wǎng)絡(luò)由輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)和檢測頭(Head)3個部分組成,如圖3所示。輸入端使用Mosaic數(shù)據(jù)增強(qiáng)方法,將4張圖片隨機(jī)進(jìn)行縮放、剪裁、拼接,以此豐富數(shù)據(jù)集,降低模型過擬合風(fēng)險(xiǎn);主干網(wǎng)絡(luò)又被稱為特征提取層,由大量CBS模塊、MP模塊和ELAN
模塊組成,CBS模塊是由Conv層、BN層和SiLU激活函數(shù)組成標(biāo)準(zhǔn)卷積塊。MP模塊有兩個分支,其作用為下采樣,第一個分支由最大池化層和CBS模塊組成,第二個分支由兩個CBS模塊組成,兩個分支經(jīng)特征合并連接。ELAN模塊有兩個分支組成,通過大量的卷積操作學(xué)習(xí)更多特征,增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力。檢測頭主要是融合主干網(wǎng)絡(luò)輸出的特征生成目標(biāo)最小邊界框并預(yù)測目標(biāo)類別,主要由快速空間金字塔池化結(jié)構(gòu)(Spatial pyramid pooling-fast,SPPF)、大量CBS模塊、ELAN模塊和上采樣模塊組成,分別輸出3個大小為20×20、40×40、80×80像素的特征圖,其中輸出特征圖為80×80像素的檢測層感受野較小,適合檢測小目標(biāo),為小目標(biāo)檢測層。同理,輸出特征圖為40×40像素的檢測層為中目標(biāo)檢測層,輸出特征圖為20×20像素的為大目標(biāo)檢測層。最后利用特征圖對不同尺寸的目標(biāo)進(jìn)行預(yù)測。
2.2.1 空間金字塔池化結(jié)構(gòu)
SPP最早由He等[16]提出,目的是為了解決卷積神經(jīng)網(wǎng)絡(luò)輸入圖像大小必須固定的問題,有效避免了對輸入圖片進(jìn)行裁剪、拉伸等操作導(dǎo)致的圖像失真問題。YOLOv3借鑒了SPP的思想,通過SPP模塊實(shí)現(xiàn)局部特征與全局特征融合,有效提高了模型的感受野,豐富了特征圖的表達(dá)能力,較好地解決了多目標(biāo)、遮擋較多時,茶葉嫩芽遠(yuǎn)近不同、大小不同的問題,提高了模型對待測圖像中不同大小目標(biāo)的檢測能力[17]。YOLOv5在SPP模塊的基礎(chǔ)上將原本并行的最大池化(MaxPool)改為串行,構(gòu)成了新的SPPF結(jié)構(gòu),能夠在保證效果不變的情況下提高了模型速度。本研究借鑒SPPF[18]模塊的思想,將原SPP采用的并行不同尺度的最大池化改為串行相同尺度的最大池化(圖4),使每個最大池化的輸出得到充分利用,保證模型在保持原有效果的情況下提升檢測效率。
2.2.2 卷積注意力機(jī)制模塊
注意力機(jī)制是一種模仿人類視覺和認(rèn)知系統(tǒng)的數(shù)據(jù)處理方法,其本質(zhì)上是對網(wǎng)絡(luò)自主學(xué)習(xí)得出的權(quán)重系數(shù)進(jìn)行加權(quán)再輸出,給予目標(biāo)區(qū)域更大的權(quán)重。通過引入注意力機(jī)制,模型能夠自主學(xué)習(xí)并選擇性地重點(diǎn)關(guān)注目標(biāo)區(qū)域,抑制無關(guān)的背景區(qū)域。目前主流注意力機(jī)制主要分為通道注意力機(jī)制、空間注意力機(jī)制、混合注意力機(jī)制和自注意力機(jī)制。通道注意力機(jī)制通過網(wǎng)絡(luò)學(xué)習(xí)獲取每個通道的重要程度,再為各通道賦予不同的權(quán)重系數(shù),使模型更關(guān)注重要的通道信息,但對復(fù)雜環(huán)境下的茶葉嫩芽檢測效果不佳。空間注意力機(jī)制通過對每個位置生成權(quán)重掩膜并加權(quán)輸出,增強(qiáng)目標(biāo)區(qū)域同時弱化背景區(qū)域,當(dāng)目標(biāo)區(qū)域受到遮擋時會對空間注意力機(jī)制產(chǎn)生不良影響,不適宜在茶園復(fù)雜環(huán)境下使用。自注意力機(jī)制需要
對輸入特征進(jìn)行一系列的復(fù)雜運(yùn)算,可以減少模型對外部信息的依賴,但對設(shè)備算力要求較高,不適宜在茶葉嫩芽模型所需的移動端部署。混合注意力機(jī)制是通過將空間注意力機(jī)制和通道注意力機(jī)制串聯(lián)或并聯(lián)形成的一種更加綜合的特征注意力機(jī)制,對設(shè)備算力要求明顯低于自注意力機(jī)制,適合復(fù)雜環(huán)境下的茶葉嫩芽識別,因此本研究在YOLOv7-tiny網(wǎng)絡(luò)增加CBAM[19]卷積注意力機(jī)制。
CBAM模塊由通道注意力模塊(CAM)和空間注意力模塊(SAM)串聯(lián)而成,引入兩個分析維度,實(shí)現(xiàn)從通道到空間的注意力結(jié)構(gòu),如圖5所示。對于輸入特征圖F,CAM模塊首先對輸入特征圖進(jìn)行空間維度上的全局最大池化和全局平均池化,然后輸入到多層感知機(jī)(Shared MLP)中進(jìn)行計(jì)算,并對輸出的兩個特征向量進(jìn)行逐元相加,最后通過Sigmoid激活函數(shù)得到通道注意力特征FC。SAM模塊的輸入特征圖F'由F和FC逐元素相乘得到。SAM模塊首先對F'在通道維度上進(jìn)行全局最大池化和全局平均池化,并按照通道拼接,然后進(jìn)行7×7的卷積操作,最后通過Sigmoid激活函數(shù)得到通道注意力特征FS。FS與F'進(jìn)行逐元素相乘后最終得到CBAM模塊的輸出特征圖Fcbam。
2.2.3 損失函數(shù)
YOLOv7-tiny算法中,預(yù)測框回歸損失使用交并比(Intersection over Union,IoU)進(jìn)行衡量,以檢測算法的準(zhǔn)確性。通過將預(yù)測框與真實(shí)框的交集除以它們的并集面積計(jì)算IoU,當(dāng)該數(shù)值大于設(shè)定閾值時可認(rèn)為正確預(yù)測了目標(biāo),但是基于IoU的衡量指標(biāo)對小尺度目標(biāo)位置偏差極為敏感,對于本研究中單芽的檢測十分不利(圖6)。
歸一化Wasserstein距離(Normalized gaussian wasserstein distance,NWD)[20]是一種基于Wasserstein距離的評價(jià)指標(biāo),Wasserstein距離本質(zhì)是衡量一種概率分布變換到另一種概率分布的最小代價(jià)。該方法首先將邊界框框建模為二維高斯分布,通過計(jì)算兩個高斯分布之間的Wasserstein距離來衡量它們的相似度。Wasserstein距離的計(jì)算公式為:
········································(1)
式中,Na代表預(yù)測框A的二維高斯分布Na(μ,∑),服從,,(cxa, cya)代表預(yù)測框A的中心點(diǎn)坐標(biāo),wa和ha分別代表邊界框A的寬度和高度。
由于w2 2(Na,Nb)是一個距離,因此需要對其進(jìn)行歸一化處理,將其變?yōu)?到1之間的數(shù)值,最終得到NWD:
········································(2)
式中,C是與數(shù)據(jù)集有關(guān)的常數(shù),由模型訓(xùn)練得到。由于NWD(Na,Nb)表示預(yù)測框A和真實(shí)框B之間的歸一化Wasserstein距離,因此損失函數(shù)可設(shè)為:
·········(3)
NWD對目標(biāo)尺度不敏感,更適合測量小目標(biāo)之間的相似度,而茶園中小目標(biāo)單芽和較大目標(biāo)一芽三葉同時存在,兩者大小差距大,且直接使用NWD替換IoU會顯著降低模型的收斂速度,因此本研究在對YOLOv7-tiny損失函數(shù)的改進(jìn)中結(jié)合實(shí)際使用場景分析,將IoU和NWD結(jié)合,按照一定比例進(jìn)行加權(quán)得到最終的損失函數(shù),以彌補(bǔ)IoU損失對小目標(biāo)檢測的缺點(diǎn),損失函數(shù)計(jì)算公式為:
·······································(4)
式中,α為權(quán)重系數(shù),本研究α取0.5,通過調(diào)整權(quán)重系數(shù)可以得到不同損失函數(shù)計(jì)算方式,適應(yīng)不同的任務(wù)需求。
2.3 網(wǎng)絡(luò)模型的訓(xùn)練
2.3.1 試驗(yàn)環(huán)境與超參數(shù)設(shè)置
本研究所用操作系統(tǒng)為Ubantu 20.04,處理器為Intel? Xeon? Platinum 8358P CPU @ 2.60 GHz,GPU型號為RTX A5000,顯存24 G,內(nèi)存32 G,試驗(yàn)環(huán)境為Python 3.8、Pytorch 2.0.0、Cuda 11.8。
試驗(yàn)訓(xùn)練參數(shù):輸入圖片分辨率為640×
640像素,Batchsize大小為16,迭代次數(shù)Epoch為300,使用隨機(jī)梯度下降(Stochastic gradient descent,SGD)優(yōu)化器進(jìn)行優(yōu)化并設(shè)置初始學(xué)習(xí)率為0.01,訓(xùn)練未使用預(yù)訓(xùn)練權(quán)重。
2.3.2 評價(jià)指標(biāo)
為有效評估模型性能,使用模型識別目標(biāo)的準(zhǔn)確率(Precision,P)、召回率(Recall,R)、平均精度(Average precision,AP)、平均精度均值(Mean average precision,mAP)、F1分?jǐn)?shù)(F1 score)、檢測速度(Frames per second,F(xiàn)PS)、模型大小等指標(biāo)對模型進(jìn)行評價(jià)。
················(5)
················(6)
···················(7)
式中,NTP為實(shí)際正類預(yù)測為正類的數(shù)量,NFP為實(shí)際負(fù)類預(yù)測為正類的數(shù)量,NFN為實(shí)
際正類預(yù)測為負(fù)類的數(shù)量。
3 結(jié)果與分析
3.1 CBAM模塊應(yīng)用不同位置效果分析
為分析CBAM模塊添加至不同位置的性能表現(xiàn),分別將CBAM模塊添加至YOLOv7-tiny檢測頭的大、中、小3個檢測層,分別記為YOLOv7-tiny-L、YOLOv7-tiny-M、YOLOv7-tiny-S,在多層添加多個CBAM模塊改進(jìn)名稱以此類推,如圖3所示,圖中CBAM所處位置為CBAM模塊添加的具體位置。8種模型的性能指標(biāo)如表1所示。
由表1可知,與原始YOLOv7-tiny模型相比,除YOLOv7-tiny-ML和YOLOv7-tiny-SML模型的召回率有所下降外,其余模型檢測性能均有提升,其中只將CBAM模塊添加至小目標(biāo)檢測層的YOLOv7-tiny-S模型性能提升最明顯,精確率、召回率和mAP分別提高1.42、1.92、1.15個百分點(diǎn),且模型大小僅增加0.01 MB。這是由于在多層添加多個CBAM模塊引入了更多噪聲,難以從數(shù)據(jù)中準(zhǔn)確地學(xué)習(xí)目標(biāo)關(guān)鍵特征,而單一CBAM模塊更容易捕捉到目標(biāo)關(guān)鍵特征。小目標(biāo)檢測層主要提取的是主干網(wǎng)絡(luò)的淺層特征,此時特征圖尺寸較大、局部信息比較豐富,單個像素的感受野比較小,可以捕捉更多的小目標(biāo)信息,所以只添加CBAM模塊到小目標(biāo)檢測層可以更好地提取小目標(biāo)嫩芽的關(guān)鍵特征。
3.2 不同損失函數(shù)應(yīng)用于YOLOv7-tiny的性能比較
為分析不同損失函數(shù)的性能,將YOLOv7-tiny中的原始損失函數(shù)CIoU分別替換為DIoU[21]、GIoU[22]、Alpha IoU[22]、MPDIoU[23]和NWDIoU,上述6種損失函數(shù)的性能表現(xiàn)如表2所示,訓(xùn)練模型時的損失曲線如圖7所示。由損失曲線圖可以看出,6種損失函數(shù)收斂速度接近,Alpha IoU損失值最高,NWDIoU損失值最低,其余4種損失函數(shù)的損失值接近。
對6種損失函數(shù)性能進(jìn)行分析發(fā)現(xiàn),使用CIoU、Alpha IoU、DIoU的模型各項(xiàng)性能參數(shù)均低于使用NWDIoU的模型;與GIoU相比,
使用NWDIoU的模型的召回率和mAP分別提高1.45和0.67個百分點(diǎn),準(zhǔn)確率下降0.09個百分點(diǎn);與MPDIoU相比,使用NWDIoU的模型的召回率和mAP分別提高3.16和0.80個百分點(diǎn),準(zhǔn)確率下降1.76個百分點(diǎn)。雖然使用NWDIoU的模型準(zhǔn)確率低于使用GIoU和MPDIoU的模型,但相較原始損失函數(shù)仍提高1.31個百分點(diǎn),同時其召回率和mAP明顯高于使用GIoU和MPDIoU的模型。以上結(jié)果表明,使用NWDIoU損失函數(shù)進(jìn)行模型訓(xùn)練的綜合優(yōu)勢明顯,檢測效果最好。
3.3 消融實(shí)驗(yàn)
為驗(yàn)證本研究所提出的改進(jìn)算法的有效性,通過消融實(shí)驗(yàn)分析改進(jìn)后模型的性能,其
中將CBAM模塊添加至小目標(biāo)檢測層記為YOLOv7-tiny-C,使用優(yōu)化后的SPPF記為YOLOv7-tiny-S,更換NWDIoU損失函數(shù)記為YOLOv7-tiny-N,組合改進(jìn)名稱以此類推。由表3數(shù)據(jù)可知,本研究在進(jìn)行的單個改進(jìn)上各項(xiàng)試驗(yàn)指標(biāo)較原有算法均有提升。在2個組合的改進(jìn)中,各項(xiàng)指標(biāo)較原有算法稍有提升,較單個改進(jìn)則有小幅度的上升或下降,2處改進(jìn)疊加效果一般。3處改進(jìn)的疊加效果較好,各項(xiàng)指標(biāo)均高于其他7種模型,YOLOv7-tiny-
CNS模型的準(zhǔn)確率、召回率、mAP和F1分?jǐn)?shù)較原模型分別提高2.83、2.00、1.47、2.40個百分點(diǎn)。
3.4 檢測效果分析
為更直接對比改進(jìn)前后算法的檢測效果,利用改進(jìn)前后的模型對茶葉嫩芽驗(yàn)證集進(jìn)行測試,檢測效果如圖8所示。所使用樣本包含少目標(biāo)、多目標(biāo)、目標(biāo)遮擋、背景復(fù)雜、光照不均等情況,由于光照影響、相互遮擋,原YOLOv7-tiny模型對于較小目標(biāo)和遮擋目標(biāo)存在一定情況的漏檢和誤檢,改進(jìn)的YOLOv7-tiny模型的漏檢和誤檢情況有明顯改善,且置信度有明顯提升。
3.5 不同目標(biāo)檢測模型性能對比
為評價(jià)改進(jìn)的YOLOv7-tiny網(wǎng)絡(luò)模型對茶葉嫩芽的檢測效果,使用SSD[25]、Faster R-CNN[26]、YOLOv5s[27]、YOLOv7-tiny及改進(jìn)后的YOLOv7-tiny網(wǎng)絡(luò)模型對茶葉嫩芽數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。5種模型對各等級茶葉嫩芽的識別平均精度如表4所示,模型的性能指標(biāo)如表5所示。
由表4可知,與其他4種模型相比,改進(jìn)后的YOLOv7-tiny對各等級茶葉嫩芽的平均精度最高,改進(jìn)后的單芽、一芽一葉、一芽二葉、一芽三葉的識別平均精度分別為86.96%、92.47%、96.34%、94.88%;與原YOLOv7-tiny相比,單芽、一芽一葉、一芽二葉、一芽三葉的識別平均精度分別提高2.44、1.88、0.98、0.60個百分點(diǎn),單芽的平均精度提升最明顯。由表5可知,改進(jìn)后的YOLOv7-tiny與其他4種模型相比,準(zhǔn)確率、召回率、平均精度均值最高,與YOLOv7-tiny相比,準(zhǔn)確率、召回率、平均精度均值分別提高2.83、2.00、1.47百分點(diǎn)。對YOLOv7-tiny模型的改進(jìn),提高
了模型對嫩芽特征的提取能力,尤其是對單芽特征的提取能力,同時減小了預(yù)測框位置偏差對單芽檢測的影響,但也增加了模型的復(fù)雜度和計(jì)算量,導(dǎo)致模型大小增加0.1 MB,檢測速度慢18.4幀·s-1,但仍優(yōu)于SSD、Faster R-CNN、YOLOv5s。以上結(jié)果表明,改進(jìn)的YOLOv7-tiny綜合表現(xiàn)最好,可以實(shí)現(xiàn)自然環(huán)境下的茶葉嫩芽快速識別分級。
4 結(jié)論
為實(shí)現(xiàn)自然環(huán)境下茶葉嫩芽目標(biāo)的快速識別分級,本研究改進(jìn)YOLOv7-tiny模型,通過改進(jìn)金字塔池化結(jié)構(gòu)、在小目標(biāo)檢測層添加CBAM模塊、修改損失函數(shù)提升茶葉嫩芽識別分級的準(zhǔn)確性,并與其他典型算法模型進(jìn)行對比,主要結(jié)論如下:
(1)在本研究數(shù)據(jù)集上,改進(jìn)后的YOLOv7-tiny模型其F1分?jǐn)?shù)為89.82%,mAP為92.26%。與原始YOLOv7-tiny模型相比,準(zhǔn)確率提高2.83個百分點(diǎn),召回率提高2.00個百分點(diǎn),mAP提高1.47個百分點(diǎn),F(xiàn)1分?jǐn)?shù)
提高2.40個百分點(diǎn)。同時,在驗(yàn)證集測試中,無論是目標(biāo)遮擋還是多目標(biāo)等復(fù)雜情況,改進(jìn)的YOLOv7-tiny均具有一定的優(yōu)勢。
(2)與常用目標(biāo)檢測模型SSD、Faster R-CNN和YOLOv5s相比,改進(jìn)后的模型各項(xiàng)指標(biāo)均有提升,mAP分別提高12.16、11.15、4.55個百分點(diǎn)。結(jié)果表明,針對茶葉嫩芽目標(biāo)較小、相互遮擋、光照不均等復(fù)雜情況時,改進(jìn)后的YOLOv7-tiny具有較高的魯棒性。
(3)改進(jìn)后的YOLOv7-tiny模型復(fù)雜度提高,檢測速度為120.5幀·s-1,較原始YOLOv7-tiny稍有下降,但仍優(yōu)于SSD、Faster R-CNN和YOLOv5s,可以滿足實(shí)時檢測的要求。
本研究提出的方法可以有效改善模型在茶園復(fù)雜環(huán)境下的茶葉嫩芽的檢測效果,能夠完成實(shí)際采摘場景下茶葉嫩芽的分級識別工作,尤其是對單芽的識別效果提升明顯,具有較高的檢測精度和良好的魯棒性,可以為其他作物在真實(shí)采摘場景下的識別提供借鑒。
參考文獻(xiàn)
[1]梅宇, 梁曉. 2021年中國茶葉生產(chǎn)與內(nèi)銷形勢分析[J]. 中國茶葉, 2022, 44(4): 17-22.
Mei Y,Liang X. Analysis of China's tea production and domestic sales in 2021 [J]. China Tea, 2022, 44(4): 17-22.
[2]代云中, 蔣天宸, 楊威, 等. 基于YOLOv5算法的名優(yōu)茶采摘機(jī)器人[J]. 南方農(nóng)機(jī), 2023, 54(12): 24-27.
Dai Y Z, Jiang T C, Yang W, et al. A premium tea picking robot based on the YOLOv5 algorithm [J]. China Southern Agricultural Machinery, 2023, 54(12): 24-27.
[3]黃海濤, 毛宇驍, 李紅莉, 等. 茶鮮葉機(jī)械化采收裝備與技術(shù)研究進(jìn)展[J]. 中國茶葉, 2023, 45(8): 18-23, 31.
Huang H T, Mao X Y, Li H L, et al. Research progress on mechanized harvesting equipment and technology for fresh tea leaves [J]. Chinese Tea, 2023, 45(8): 18-23, 31.
[4]吳敏, 郇曉龍, 陳建能, 等. 融合2D激光雷達(dá)與航向姿態(tài)參考系統(tǒng)的采茶機(jī)仿形方法研究與試驗(yàn)[J]. 茶葉科學(xué), 2023, 43(1): 135-145.
Wu M, Huan X L, Chen J N, et al. Research and experiment on profiling method of tea picker based on fusion of 2D-LiDAR and attitude and heading reference system [J]. Journal of Tea Science, 2023, 43(1): 135-145.
[5]王先偉, 吳明暉, 周俊, 等. 名優(yōu)茶采摘機(jī)器人機(jī)械手結(jié)構(gòu)參數(shù)優(yōu)化與仿真[J]. 中國農(nóng)機(jī)化學(xué)報(bào), 2018, 39(7): 84-89.
Wang X W, Wu M H, Zhou J, et al. Optimization and simulation of structural parameters of manipulators for high-quality tea picking robots [J]. Journal of Chinese Agricultural Mechanization, 2018, 39(7): 84-89.
[6]吳雪梅, 張富貴, 呂敬堂. 基于圖像顏色信息的茶葉嫩葉識別方法研究[J]. 茶葉科學(xué), 2013, 33(6): 584-589.
Wu X M, Zhang F G, Lü J T. Research on the recognition method of tea leaves based on image color information [J]. Journal of Tea Science, 2013, 33(6): 584-589.
[7]龍樟, 姜倩, 王健, 等. 茶葉嫩芽視覺識別與采摘點(diǎn)定位方法研究[J]. 傳感器與微系統(tǒng), 2022, 41(2): 39-41, 45.
Long Z, Jiang Q, Wang J, et al. Research on method of tea flushes vision recognition and picking point localization [J]. Transducer and Microsystem Technologies, 2022, 41(2): 39-41, 45.
[8]張金炎, 曹成茂, 李文寶, 等. 基于多特征融合的茶葉鮮葉等級識別的方法研究[J]. 安徽農(nóng)業(yè)大學(xué)學(xué)報(bào), 2021, 48(3): 480-487.
Zhang J Y, Cao C M, Li W B, et al. Study on the method of recognition of fresh leaf grade of tea based on multi-feature fusion [J]. Journal of Anhui Agricultural University, 2021, 48(3): 480-487.
[9]劉自強(qiáng), 周鐵軍, 傅冬和, 等. 基于顏色和形狀的鮮茶葉圖像特征提取及在茶樹品種識別中的應(yīng)用[J]. 江蘇農(nóng)業(yè)科學(xué), 2021, 49(12): 168-172.
Liu Z Q, Zhou T J, Fu D H, et al. Application of image feature extraction based on color and shape in tea tree variety identification [J]. Jiangsu Agricultural Sciences, 2021, 49(12): 168-172.
[10]王子鈺, 趙怡巍, 劉振宇. 基于SSD算法的茶葉嫩芽檢測研究[J]. 微處理機(jī), 2020, 41(4): 42-48.
Wang Z Y, Zhao Y W, Liu Z Y. Research on tea buds detection based on SSD algorithm [J]. Microprocessors, 2020, 41(4): 42-48.
[11]Yang H L, Chen L, Chen M T, et al. Tender tea shoots recognition and positioning for picking robot using improved YOLO-v3 model [J]. IEEE Access, 2019: 180998-181011.
[12]方夢瑞, 呂軍, 阮建云, 等. 基于改進(jìn)YOLOv4-tiny的茶葉嫩芽檢測模型[J]. 茶葉科學(xué), 2022, 42(4): 549-560.
Fang M R, Lü J, Ruan J Y, et al. Tea buds detection model using improved YOLOv4-tiny [J]. Journal of Tea Science, 2022, 42(4): 549-560.
[13]呂丹瑜, 金子晶, 陸璐, 等. 基于圖像處理技術(shù)的茶樹新梢識別和葉面積計(jì)算的探索研究[J]. 茶葉科學(xué), 2023, 43(5): 691-702.
Lü D Y, Jin Z J, Lu L, et al. Exploratory study on the image processing technology-based tea shoot identification and leaf area calculation [J]. Journal of Tea Science, 2023, 43(5): 691-702.
[14]尹川, 蘇議輝, 潘勉, 等. 基于改進(jìn)YOLOv5s的名優(yōu)綠茶品質(zhì)檢測[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(8): 179-187.
Yin C, Su Y H, Pan M, et al. Detection of the quality of famous green tea based on improved YOLOv5s [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(8): 179-187.