呂 佳,李帥軍,曾夢瑤,董保森
基于半監(jiān)督SPM-YOLOv5的套袋柑橘檢測算法
呂 佳,李帥軍,曾夢瑤,董保森
(1. 重慶師范大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 401331;2. 重慶市數(shù)字農(nóng)業(yè)服務(wù)工程技術(shù)研究中心,重慶 401331)
為解決柑橘經(jīng)過套袋后其形狀從圓形變?yōu)闂l狀導(dǎo)致當(dāng)前目標(biāo)檢測算法對(duì)套袋柑橘檢測難度增大,同時(shí)目標(biāo)檢測算法性能依賴于有標(biāo)記樣本數(shù)量的問題。該研究設(shè)計(jì)了一種基于教師學(xué)生模型的SPM(Strip Pooling Module)-YOLOv5算法,在YOLOv5的骨干網(wǎng)絡(luò)中加入條帶注意力模塊使模型更加關(guān)注條狀的套袋柑橘與樹枝,同時(shí)教師學(xué)生模型為半監(jiān)督方法,使目標(biāo)檢測算法可利用無標(biāo)記樣本提升模型的性能,降低對(duì)有標(biāo)記樣本的依賴。試驗(yàn)結(jié)果表明,該算法在套袋柑橘與樹枝檢測的平均精度均值分別為77.4%與53.6%,相比YOLOv5分別提升了7.5個(gè)百分點(diǎn)與7.6個(gè)百分點(diǎn),套袋柑橘檢測的精度與召回率達(dá)到94.0%與76.2%。因此,基于教師學(xué)生模型的SPM-YOLOv5算法精度高、速度快,能有效用于套袋柑橘檢測。
機(jī)器視覺;圖像識(shí)別;目標(biāo)檢測;套袋柑橘;YOLOv5;條帶注意力;教師學(xué)生模型
中國的柑橘種植歷史已有五百余年,柑橘種植可以帶來巨大的經(jīng)濟(jì)效益[1]。柑橘是川渝地區(qū)重要的經(jīng)濟(jì)水果作物[2],該地區(qū)適合晚熟柑橘的生長,果農(nóng)通常會(huì)對(duì)晚熟柑橘進(jìn)行套袋,在防止其低溫掉落的同時(shí)還能減少農(nóng)藥與病蟲帶來的危害[3]。隨著中國人口老齡化的日益加劇且農(nóng)村地區(qū)勞動(dòng)力的嚴(yán)重流失[4],由于成熟的柑橘不能及時(shí)采摘,導(dǎo)致成熟柑橘掉落與腐爛,對(duì)果農(nóng)收益造成極大損失。而使用自動(dòng)采摘機(jī)器人替代人工采摘,能提高作業(yè)效率、降低勞動(dòng)力強(qiáng)度[5]。
目標(biāo)檢測算法是自動(dòng)采摘機(jī)器人的重要組成部分,其檢測方法可粗略地歸納為兩類:一是Two Stage檢測方法,二是One Stage檢測方法。Two Stage檢測方法的第一階段先通過算法在圖片中生成候選框,第二階段再對(duì)候選框做進(jìn)一步的分類與回歸,從而得到高精度的檢測結(jié)果[6],如Yu等[7]提出一種優(yōu)化的Fast-RCNN的算法,通過訓(xùn)練可旋轉(zhuǎn)的樣本,預(yù)測目標(biāo)的旋轉(zhuǎn)邊界框,使得模型對(duì)于隱藏的果實(shí)具有更好的魯棒性,但果實(shí)檢測的精度相對(duì)較低。田博凱[8]將邊界加權(quán)損失函數(shù)引入到Mask-RCNN網(wǎng)絡(luò)中,利用雙目視覺原理獲取果實(shí)中心點(diǎn)坐標(biāo),提升果實(shí)定位和分類的準(zhǔn)確率,但對(duì)于重疊果實(shí)并不能有效檢測。岳有軍等[9]提出一種改進(jìn)的Cascade-RCNN,通過將Cascade-RCNN網(wǎng)絡(luò)中的非極大值抑制算法替換為Soft-NMS算法,并設(shè)置更適合果實(shí)形狀的錨框,從而增強(qiáng)了網(wǎng)絡(luò)對(duì)重疊果實(shí)的識(shí)別能力。雖然Two Stage檢測方法能夠準(zhǔn)確地找到需要檢測的目標(biāo),但無法滿足自動(dòng)采摘需要的實(shí)時(shí)性要求[10]。One Stage檢測方法的核心思想則是通過一個(gè)網(wǎng)絡(luò)直接得到需要檢測物體的位置、類別、目標(biāo)物置信度,因此該類方法能更快識(shí)別出目標(biāo)物[11]。One Stage檢測方法中,YOLO系列算法[12]被廣泛應(yīng)用于水果檢測中,如Tian等[13]使用改進(jìn)的YOLOv3來檢測不同生長時(shí)期的果實(shí),該方法使用DenseNet[14]來優(yōu)化低分辨率的特征層,從而能夠?qū)崿F(xiàn)對(duì)果實(shí)的快速檢測,但其檢測的精度較低。Shi等[15]提出將歸因方法推廣到了YOLOv3的檢測網(wǎng)絡(luò)中,從而識(shí)別與目標(biāo)相關(guān)的卷積核,通過微調(diào)的方式實(shí)現(xiàn)更為精準(zhǔn)的果實(shí)檢測。隨著精度更高的YOLOv4[16-20]被提出,Wu等[21]為了提升對(duì)果實(shí)的檢測速度,采用通道剪枝算法簡化了Darknet53[22]的結(jié)構(gòu),但是對(duì)小物體的檢測精度較低。為了提高對(duì)小物體檢測精度,F(xiàn)an等[23]提出了使用非極大值抑制方法來去除冗余預(yù)測框。Qi等[24]提出了一種基于壓縮與激勵(lì)(Squeeze and Excitation,SE)模塊改進(jìn)的YOLOv5檢測方法,來進(jìn)一步提升檢測的精度,該方法使用全局注意力模塊(Global Attention Module,GAM)在識(shí)別對(duì)象局部特征的同時(shí)還能過濾出識(shí)別對(duì)象的關(guān)鍵特征,既保證了檢測速度實(shí)現(xiàn)實(shí)時(shí)檢測又提高了識(shí)別的精度。但上述方法并不適合于晚熟柑橘的目標(biāo)檢測,主要存在3個(gè)問題:
1)晚熟柑橘經(jīng)過套袋后會(huì)導(dǎo)致柑橘的形狀從圓形變成條狀,且套袋柑橘紋理細(xì)節(jié)相比未套袋柑橘急劇降低;
2)自動(dòng)采摘機(jī)器人通過剪切距離柑橘最近的樹枝來實(shí)現(xiàn)采摘,但樹枝通常為條狀,若使用全局注意力模塊會(huì)導(dǎo)致樹枝特征的丟失和無關(guān)環(huán)境特征的引入;
3)目前柑橘檢測方法大多是以監(jiān)督學(xué)習(xí)方式訓(xùn)練網(wǎng)絡(luò),模型性能依賴于有標(biāo)記樣本及其數(shù)量[25],但有標(biāo)記樣本的標(biāo)記過程十分耗時(shí)耗力。
本文設(shè)計(jì)了一種基于教師學(xué)生模型的SPM-YOLOv5框架,在YOLOv5的骨干網(wǎng)絡(luò)中使用條帶池化模塊(Strip Pooling Module,SPM)[26]來使模型更加關(guān)注條狀的套袋柑橘與樹枝,解決了上述問題1與問題2;教師學(xué)生模型為半監(jiān)督方法,可用少量有標(biāo)記樣本與大量無標(biāo)記樣本來提升目標(biāo)檢測算法的性能,從而解決上述問題3中模型性能依賴于有標(biāo)記樣本及其數(shù)量的問題。
套袋柑橘圖片數(shù)據(jù)采集于重慶市璧山區(qū)派登特農(nóng)業(yè)科技示范園,其緯度、經(jīng)度與高度分別為29.753°、106.221°與353.0 m,使用iPhone X攝像頭進(jìn)行采集,拍攝鏡頭分辨率為4 032像素×3 024像素,同時(shí)為了增強(qiáng)網(wǎng)絡(luò)的泛化性,對(duì)拍攝樣本分別在遠(yuǎn)景、近景進(jìn)行采集。自動(dòng)采摘機(jī)器人的工作環(huán)境為白天,因此分別在9:00、12:00和16:00 3個(gè)不同的時(shí)間段對(duì)數(shù)據(jù)進(jìn)行采集。先采集了不同果實(shí)數(shù)量、遮擋程度的套袋柑橘,且涵蓋順光、逆光和側(cè)光等光照情況,再對(duì)拍攝過程中的視頻進(jìn)行抽幀來擴(kuò)充圖片數(shù)量,最后為了有效地對(duì)圖片進(jìn)行標(biāo)記,剔除了模糊、過度曝光與重復(fù)的難標(biāo)記圖片,獲取套袋柑橘有效圖片1 000張。
拍攝過程中大部分為多果圖片,需要增加數(shù)據(jù)集中單果圖片的數(shù)量,故將部分多果圖片裁剪拆分為多張單果圖片;另使用縮放、不同角度、左右翻轉(zhuǎn)、上下翻轉(zhuǎn)、透視、錯(cuò)切、平移、飽和度的方法來增強(qiáng)數(shù)據(jù)集的多樣性,使算法能夠?qū)μ状涕俚臉渲M(jìn)行準(zhǔn)確識(shí)別,其中隨機(jī)調(diào)整圖片的飽和度使得模型在不同天氣情況下都能夠有效識(shí)別套袋柑橘,增強(qiáng)后的圖片為2 000張,圖片增強(qiáng)效果如圖 1所示。

a. 飽和度b. 角度c. 左右翻轉(zhuǎn)d. 上下翻轉(zhuǎn) a. Saturationb. Anglec. Flip left and rightd. Flip top to bottom e. 透視f. 縮放g. 錯(cuò)切h. 平移 e. Perspectivef. Scalingg. Shearh. Translate
本文采用半監(jiān)督訓(xùn)練方法,并不需要對(duì)全部圖片進(jìn)行人工標(biāo)記,僅需標(biāo)記其中的部分樣本既可,其中標(biāo)記的套袋柑橘圖片為500張,無標(biāo)記圖片1 500張。在標(biāo)注時(shí)將套袋柑橘的最小外接矩陣框作為套袋柑橘的真實(shí)框,肉眼可見的套袋柑橘所屬樹枝的最小外接矩陣框作為樹枝的真實(shí)框。標(biāo)注軟件為MAKE SENSE,該軟件能夠?qū)崿F(xiàn)在線標(biāo)注,并為圖片中標(biāo)注的套袋柑橘和其所屬最近樹枝的區(qū)域生成相應(yīng)的XML文件。
本文提出了兩種套袋柑橘檢測算法,首先提出了基于SPM-YOLOv5的套袋柑橘檢測算法,在YOLOv5基礎(chǔ)上引入SPM模塊來增強(qiáng)對(duì)條狀套袋柑橘與樹枝的檢測能力。在此基礎(chǔ)上,提出基于SPM-YOLOv5改進(jìn)的套袋柑橘檢測算法,使用教師學(xué)生模型來降低基于SPM-YOLOv5的套袋柑橘檢測算法對(duì)有標(biāo)記樣本的依賴,利用無標(biāo)記樣本來提升算法的魯棒性。
2020年,Wang等[16]發(fā)布了YOLOv4,該目標(biāo)檢測模型提高了對(duì)小目標(biāo)的檢測速度。2021年該團(tuán)隊(duì)提出YOLOv5,該模型引入了多尺度思想,模型能夠同時(shí)檢測不同尺寸的目標(biāo),其精度與實(shí)時(shí)性都得到了提升,因此YOLOv5更適用于農(nóng)業(yè)自動(dòng)采摘的實(shí)時(shí)性需求。
在套袋柑橘的真實(shí)環(huán)境中,由于套袋導(dǎo)致原本圓形的檢測目標(biāo)變?yōu)闂l狀,而需要剪切的樹枝大多也為條狀,在此背景下,YOLOv5[24]中的平均池化會(huì)導(dǎo)致檢測目標(biāo)特征的丟失和無關(guān)環(huán)境特征的引入。
本文設(shè)計(jì)了一種SPM-YOLOv5算法來解決平均池化關(guān)注大量無關(guān)區(qū)域的問題,該算法通過把SPM融入到Y(jié)OLOv5的骨干網(wǎng)絡(luò)中,以有效地?cái)U(kuò)大骨干網(wǎng)絡(luò)的感受野。SPM由水平池化與垂直池化組成,它們專注于沿水平或垂直空間維度編碼遠(yuǎn)程上下文。對(duì)于特征圖中的每個(gè)空間位置的合并,SPM會(huì)對(duì)特征圖的全局水平和垂直信息進(jìn)行編碼,使用這些編碼來平衡其自身的權(quán)重以進(jìn)行特征修飾。
SPM首先通過在原特征圖分辨率1/32處進(jìn)行卷積、歸一化和激活操作得到×的特征,其中與分別表示特征圖水平方向與垂直方向的特征個(gè)數(shù),其次再通過垂直條帶進(jìn)行提取垂直特征V,再通過水平條帶提取其水平特征H,其中垂直方向池化空間為1×、水平方向池化空間為×1,將垂直特征與水平特征進(jìn)行融合后,最后將融合特征與原特征相乘得到加權(quán)特征。


不同于全局池化只關(guān)注于一片區(qū)域,條帶池化通過水平方向與垂直方向的池化操作,使得該方法更容易長期注意離散分布的特征。同時(shí),無論是水平還是垂直方向均采用條狀核進(jìn)行特征提取,因此條帶池化更能專注于捕獲局部細(xì)節(jié)。這些特性使得條帶池化與正方形核的傳統(tǒng)空間池化不同,如圖2所示。

注:圖中與分別表示特征圖垂直與水平方向的特征個(gè)數(shù),每個(gè)小正方形塊代表一個(gè)像素點(diǎn),其顏色越深表示權(quán)重越大。
Note:andin the figure respectively represent the number of features in the vertical and horizontal directions of the feature map. The darker the color of each pixel, the greater the weight.
圖2 條帶注意力模塊流程圖
Fig.2 Strip attention mechanism flow chart
輕量級(jí)的SPM能夠簡單插入到Y(jié)OLOv5網(wǎng)絡(luò)中,從而能有效地提高對(duì)條狀物體的檢測。對(duì)于在自動(dòng)采摘過程中還存在未套袋的柑橘,在原特征圖分辨率1/16處采用平均池化的方式提取圓形未套袋柑橘特征,如圖3所示,檢測模型主要分為4個(gè)模塊:Input、Backbone模塊、Neck模塊和Output。Input負(fù)責(zé)把待檢測的套袋柑橘圖片輸入到網(wǎng)絡(luò)模型中;Backbone模塊負(fù)責(zé)提取圖片特征,其中CBL(Convolution,Batch normalization,Leaky relu)用來提取特征;CSP(Cross Stage Partial)用于提高網(wǎng)絡(luò)的學(xué)習(xí)能力;SPP(Spatial Pyramid Pooling)包括了不同尺度的最大池化層,用于增加感受野;其中本文改進(jìn)的CBL_GAM與CBL_SPM,分別引入了平均池化與條帶池化;Neck模塊采用FPN(Feature Pyramid Networks)+PAN(Pixel Aggregation Network)結(jié)構(gòu),該結(jié)構(gòu)能進(jìn)一步提高模型特征提取能力,Output把提取的特征經(jīng)過非極大抑制得到圖片中檢測目標(biāo)的置信度與坐標(biāo),圖中其他模塊詳細(xì)內(nèi)容見參考文獻(xiàn)[24]。
套袋柑橘的圖片在進(jìn)行標(biāo)記過程中,存在大量重疊、遮擋、光照不足等因素,導(dǎo)致人工標(biāo)記過程十分困難,且由于套袋柑橘圖片中常會(huì)出現(xiàn)多顆果樹,每顆果樹上同時(shí)也有幾十個(gè)果實(shí),導(dǎo)致人工標(biāo)記過程耗時(shí)且易標(biāo)記錯(cuò)誤。
為了減少SPM-YOLOv5對(duì)有標(biāo)記樣本的依賴,故本文利用一致性正則化思想,提出了基于教師學(xué)生模型的SPM-YOLOv5算法。一致性正則化的本質(zhì)是相同的輸入具有相同的輸出,給輸入加入一定擾動(dòng),輸出分布保持不變,因此使用帶有擾動(dòng)的樣本對(duì)和一致性正則訓(xùn)練模型能夠提高模型的魯棒性[27]。教師學(xué)生模型為半監(jiān)督方法,可利用無標(biāo)記樣本來計(jì)算一致性損失,訓(xùn)練過程中通過降低一致性損失,增強(qiáng)其模型的魯棒性,如圖4所示。
基于教師學(xué)生模型的SPM-YOLOv5中教師模型與學(xué)生的網(wǎng)絡(luò)結(jié)構(gòu)均為SPM-YOLOv5,算法主要由兩個(gè)階段構(gòu)成。
第一階段為Burn-In,為了教師模型能夠產(chǎn)生有效偽標(biāo)簽,需要對(duì)教師模型有良好的初始化,故在Burn-In階段用有標(biāo)記樣本對(duì)教師模型進(jìn)行初始化訓(xùn)練。
第二階段為教師學(xué)生互學(xué)習(xí),該階段分為兩個(gè)步驟:
1)學(xué)生模型訓(xùn)練
此步驟主要是利用有標(biāo)記樣本與無標(biāo)記樣本共同更新學(xué)生模型,有標(biāo)記樣本通過學(xué)生模型得到預(yù)測值,并與真實(shí)標(biāo)簽計(jì)算分類損失;無標(biāo)記樣本則是先通過教師模型得到偽標(biāo)簽,學(xué)生模型通過使用教師生成的偽標(biāo)簽進(jìn)行優(yōu)化,計(jì)算學(xué)生模型預(yù)測值與教師模型的偽標(biāo)簽的差距做為一致性損失。因此學(xué)生模型的總損失由監(jiān)督的分類損失與半監(jiān)督一致性損失構(gòu)成,學(xué)生模型的參數(shù)更新如式(4)所示

注:Conv為卷積操作;BN為標(biāo)準(zhǔn)化;Leakey relu為激活函數(shù); CBL(Conv–BN–Leakey relu)為卷積、標(biāo)準(zhǔn)化、激活函數(shù)組合模塊; CBL_GAM(Conv–BN–Leakey relu combined with global attention module)為平均池化改進(jìn)的CBL模型; CBL_SPM(Conv–BN–Leakey relu combined with strip pooling module)為條帶池化改進(jìn)的CBL模型。
Note: Conv is a convolution operation; BN is standardization; LeaKey relu is activation function; CBL(Conv–BN–Leakey relu) is a combination module of convolution, standardization and activation functions; CBL_GAM(Conv–BN–Leakey relu combined with global attention module) is a CBL model improved by average pooling; CBL_SPM(Conv–BN–Leakey relu combined with strip pooling module) is an improved CBL model for strip pooling.
圖3 SPM-YOLOv5算法
Fig.3 SPM-YOLOv5 algorithm

注:EMA為指數(shù)移動(dòng)平均值。
2)教師模型更新
此步驟主要是學(xué)生模型參數(shù)通過EMA(Exponential Moving Average,EMA)來逐步更新教師模型參數(shù),教師模型參數(shù)的更新可以看作是學(xué)生模型在每次迭代更新參數(shù)后對(duì)教師模型進(jìn)行的微調(diào),從而實(shí)現(xiàn)教師模型能在每個(gè)epoch中的每個(gè)step進(jìn)行模型參數(shù)的更新,教師模型的參數(shù)更新如式(5)所示

試驗(yàn)環(huán)境為:CPU型號(hào)為Intel Core i5-10600KF主頻4.10 GHz,顯卡型號(hào)為RTX3080-10 GB,內(nèi)存為32 GB,Windows 10專業(yè)版,64位操作系統(tǒng),Pycharm2020,Python=3.6,torch=1.7.0。
為了對(duì)真實(shí)采摘環(huán)境中的套袋柑橘與其所屬的最近樹枝進(jìn)行檢測識(shí)別,采集過程中包含了不同的光照、遮擋、重疊情況的圖片,從而來驗(yàn)證本文算法在真實(shí)采摘環(huán)境中的有效性。
YOLOv5為監(jiān)督學(xué)習(xí)模型,因此利用500張有標(biāo)記樣本進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,而基于教師學(xué)生模型的YOLOv5與基于教師學(xué)生模型的SPM-YOLOv5均為半監(jiān)督學(xué)習(xí)模型,在Burn-In階段利用500張有標(biāo)記樣本來初始化教師模型參數(shù),然后在教師學(xué)生互相學(xué)習(xí)階段利用500張有標(biāo)記樣本與1 500張無標(biāo)記樣本共同訓(xùn)練學(xué)生模型。套袋柑橘數(shù)據(jù)集由500張有標(biāo)記樣本與1 500張無標(biāo)記樣本組成,將有標(biāo)記樣本劃分訓(xùn)練集70%、驗(yàn)證集10%、測試集20%。
監(jiān)督模型的訓(xùn)練參數(shù)設(shè)置:Batch Size=32,Epoch=400;動(dòng)量因子=0.95,衰減系數(shù)=0.005,初始學(xué)習(xí)率=0.001,使用余弦退火算法。

判斷運(yùn)行的速度時(shí)采用FPS(Frames Per Second)作為評(píng)價(jià)指標(biāo)。分類性能指標(biāo)為精度(Precision)、召回率(Recall Rate)、平均精度均值(mean Average Precision,mAP)。
不同算法在套袋柑橘上的試驗(yàn)結(jié)果如表1所示。雖然在整體的平均精度值與精度上,F(xiàn)aster-RCNN[28]相比YOLOv5高0.4個(gè)百分點(diǎn)與0.7個(gè)百分點(diǎn),但在召回率上Faster-RCNN不及YOLOv5,特別是檢測速度Faster-RCNN僅為YOLOv5的57%,因此Faster-RCNN并不能滿足套袋柑橘檢測的實(shí)時(shí)性。

表1 4種模型在套袋柑橘數(shù)據(jù)集上的試驗(yàn)結(jié)果
為驗(yàn)證教師學(xué)生模型的有效性,將基于教師學(xué)生模型的SPM-YOLOv5中SPM模塊去掉,使用基于教師學(xué)生模型的YOLOv5作為對(duì)比模型,表1中看出基于教師學(xué)生模型的YOLOv5在整體的平均精度均值上相比原始YOLOv5提升了1.8個(gè)百分點(diǎn)。主要是因?yàn)樵谠黾訜o標(biāo)記樣本訓(xùn)練網(wǎng)絡(luò)后,網(wǎng)絡(luò)通過不斷降低教師學(xué)生模型的一致性損失,使得模型的魯棒性增加,尤其使得網(wǎng)絡(luò)是對(duì)于樹枝檢測的平均精度均值提升了7.2個(gè)百分點(diǎn),但是對(duì)于套袋柑橘檢測的平均精度均值降低了3.8個(gè)百分點(diǎn),這主要是由于訓(xùn)練過程中存在大量無標(biāo)記樣本導(dǎo)致模型對(duì)套袋柑橘過擬合。
基于教師學(xué)生模型的SPM-YOLOv5算法在添加了SPM模塊之后,使得算法更易獲取條狀的套袋柑橘與樹枝的空間位置,從而有效地?cái)U(kuò)大骨干網(wǎng)絡(luò)的感受野,改進(jìn)后的模塊相對(duì)基于教師學(xué)生模型的YOLOv5的平均精度均值提升了5.8個(gè)百分點(diǎn),且緩解了對(duì)套袋柑橘的過擬合。套袋柑橘檢測的平均精度均值與召回率分別提升了11.3個(gè)百分點(diǎn)與10個(gè)百分點(diǎn),同時(shí)在整體的精度、召回率與平均精度均值上均有不同程度提升,相比原始的YOLOv5分別提升了5.6個(gè)百分點(diǎn)、3.8個(gè)百分點(diǎn)與7.6個(gè)百分點(diǎn),套袋柑橘與樹枝檢測的平均精度均值分別為77.4%與53.6%,相比YOLOv5分別提升了7.5個(gè)百分點(diǎn)與7.6個(gè)百分點(diǎn)。在套袋柑橘檢測的精度上,本文提出的基于教師學(xué)生模型的SPM-YOLOv5算法能達(dá)到94%,但在樹枝檢測的精度上,由于樹枝被大量套袋柑橘所遮擋導(dǎo)致本文算法對(duì)其檢測的精度只能達(dá)到76%。
通過果園實(shí)時(shí)拍攝的視頻來檢驗(yàn)?zāi)P偷臋z測速度,可以看出半監(jiān)督模型并不會(huì)影響模型的檢測速度,而添加了條帶注意力模塊之后的半監(jiān)督模型的檢測速度雖然降低了1幀/s,但是目標(biāo)檢測的整體的平均精度均值、精度、召回率均有較大提升。
基于教師學(xué)生模型的SPM-YOLOv5算法為半監(jiān)督模型,為了找到訓(xùn)練網(wǎng)絡(luò)最合適的無標(biāo)記樣本數(shù)量,本試驗(yàn)將研究無標(biāo)記樣本數(shù)量對(duì)算法性能造成的影響,試驗(yàn)設(shè)置了5種數(shù)量的無標(biāo)記樣本來訓(xùn)練網(wǎng)絡(luò)。
不同數(shù)量的無標(biāo)記樣本訓(xùn)練的網(wǎng)絡(luò)在套袋柑橘上的試驗(yàn)結(jié)果如表2所示。隨著無標(biāo)記樣本的數(shù)量的增加,整體平均精度均值、精度、召回率均有提升,但是當(dāng)無標(biāo)記樣本的數(shù)量擴(kuò)充到1 800張時(shí),平均精度均值與召回率比1 500張無標(biāo)記樣本訓(xùn)練的網(wǎng)絡(luò)均有下降,這主要是無標(biāo)記樣本過多導(dǎo)致產(chǎn)生了對(duì)套袋柑橘與樹枝的過擬合。在無標(biāo)記樣本數(shù)量為100與500時(shí),其模型的性能提升并不明顯,當(dāng)無標(biāo)記樣本為1 500張,基于教師學(xué)生模型的SPM-YOLOv5算法的性能最佳,再增加無標(biāo)記樣本數(shù)量并不能繼續(xù)提升其模型的性能,反而會(huì)增加模型的訓(xùn)練時(shí)間。
果園中,通常會(huì)發(fā)生樹枝和葉子的部分遮擋,以及柑橘之間的重疊情況。柑橘被套袋之后導(dǎo)致其面積增大,進(jìn)一步加劇了柑橘之間的重疊問題,同時(shí)也造成了套袋對(duì)最近樹枝的遮擋。
本試驗(yàn)所使用數(shù)據(jù)集均為真實(shí)場景中的套袋柑橘,枝葉遮擋及果實(shí)重疊情況都相對(duì)更加嚴(yán)重。為分析套袋柑橘在嚴(yán)重遮擋和重疊情況下的檢測性能,選取40張嚴(yán)重遮擋圖片進(jìn)行試驗(yàn),其試驗(yàn)結(jié)果如表3所示。可以看出3種算法的檢測性能均相比正常遮擋情況有所下降,但本文算法通過使用條帶池化使模型更加關(guān)注被遮擋的條狀套袋柑橘與樹枝,并使用無標(biāo)記樣本使算法的總體精度達(dá)到82.6%,使得本文算法比其他算法對(duì)嚴(yán)重遮擋圖片具有更好的檢測性能。

表2 5種數(shù)量的樣本訓(xùn)練的教師學(xué)生模型+SPM-YOLOv5的試驗(yàn)結(jié)果

表3 嚴(yán)重遮擋情況下的試驗(yàn)結(jié)果
從復(fù)雜遮擋場景中隨機(jī)選取了3張圖片,在3種算法上的檢測結(jié)果如圖5所示。對(duì)于圖片1中套袋柑橘檢測結(jié)果,基于教師學(xué)生模型的SPM-YOLOv5檢測出的遮擋嚴(yán)重的編號(hào)1,而另外兩種算法不能檢測出該套袋柑橘,因此相比另外兩種算法能夠有效檢測遮擋比較嚴(yán)重的套袋柑橘,同時(shí)原始的YOLOv5存在對(duì)樹枝重復(fù)檢測情況,且存在對(duì)無物體背景錯(cuò)誤檢測情況,如YOLOv5檢測結(jié)果中編號(hào)4。圖片2中重疊的套袋柑橘的檢測結(jié)果,看出本文算法相對(duì)原始的YOLOv5能夠檢測到更多重疊套袋柑橘,特別是藏在枝干背后的套袋柑橘的檢測性能有很大的提升,如教師學(xué)生模型的SPM-YOLOv5檢測結(jié)果中編號(hào)8。在圖片3中,可以看出本文提出的算法對(duì)圖片邊緣物體的檢測能力更強(qiáng),如教師學(xué)生模型的SPM-YOLOv5檢測結(jié)果中編號(hào)15與編號(hào)11,而原始的YOLOv5存在對(duì)一個(gè)物體出現(xiàn)多個(gè)檢測框的現(xiàn)象,如YOLOv5檢測結(jié)果中編號(hào)1與編號(hào)12。因此說明本文算法能夠更好地應(yīng)對(duì)復(fù)雜的套袋柑橘采摘環(huán)境,更適合于部署在自動(dòng)采摘機(jī)器人的目標(biāo)檢測系統(tǒng)中。

注:檢測框中citrus與branch表示類別名,類別名前數(shù)字表示編號(hào),類別名后數(shù)字表示檢測置信度。
在真實(shí)的采摘環(huán)境中,相機(jī)會(huì)捕捉到不含柑橘的圖片。本文通過對(duì)視頻進(jìn)行抽幀,獲取了50張無柑橘的圖片,以測試檢測模型在真實(shí)環(huán)境中的性能。其中,10張圖片只包含天空,10張圖片只包含周圍房屋,20張圖片只包含沒有蘋果的樹,10張圖片包含這3種物體的混合背景。通過使用基于教師學(xué)生模型的SPM-YOLOv5的套袋柑橘算法進(jìn)行檢測,其檢測結(jié)果顯示,在這50張圖片中均未檢測到套袋柑橘。
本文在真實(shí)采摘環(huán)境中進(jìn)行拍攝套袋柑橘,利用基于教師學(xué)生模型的SPM-YOLOv5算法對(duì)套袋柑橘進(jìn)行識(shí)別,主要結(jié)論如下:
1)提出使用基于教師學(xué)生模型的YOLOv5算法來降低對(duì)有標(biāo)記樣本的依賴,使用無標(biāo)記樣本來增強(qiáng)模型的魯棒性,通過上述試驗(yàn)可以看出對(duì)于整體的精度與平均精度均值分別提升了5.8個(gè)百分點(diǎn)與1.8個(gè)百分點(diǎn),但由于存在套袋柑橘過擬合的問題,因此導(dǎo)致其召回率降低了0.9個(gè)百分點(diǎn)。對(duì)比其他算法,該算法在保證整體精度提升的情況下檢測速度保持不變。
2)提出了一種基于教師學(xué)生模型的SPM-YOLOv5算法,為了從全部信息中以最快的速度定位條狀的套袋柑橘與樹枝,該算法通過引入SPM來解決平均池化會(huì)關(guān)注大量無關(guān)區(qū)域的問題。通過試驗(yàn)證明相比YOLOv5在精度、召回率與平均精度均值上分別提升了5.6個(gè)百分點(diǎn)、3.8個(gè)百分點(diǎn)與7.6個(gè)百分點(diǎn),同時(shí)解決了基于教師學(xué)生模型的YOLOv5中存在的過擬合套袋柑橘情況,相比基于教師學(xué)生模型的YOLOv5在套袋柑橘檢測的召回率上提升了10個(gè)百分點(diǎn)。
3)通過試驗(yàn)證明了基于教師學(xué)生模型的SPM-YOLOv5算法在無標(biāo)記樣本1 500張和有標(biāo)記樣本500張時(shí),訓(xùn)練的模型檢測效果最好。
[1] 李向陽,孫東升,劉合光. 基于三元邊際分析的中國柑橘出口增長研究[J]. 中國農(nóng)業(yè)資源與區(qū)劃,2021,42(9):110-118.
Li Xiangyang, Sun Dongsheng, Liu Heguang. Research on China citrus export growth based on ternary marginal analysis[J]. Agricultural Resources and Regionalization in China, 2021, 42(9): 110-118. (in Chinese with English abstract)
[2] 何悅,漆雁斌. 農(nóng)戶綠色生產(chǎn)行為形成機(jī)理的實(shí)證研究:基于川渝地區(qū)860戶柑橘種植戶施肥行為的調(diào)查[J]. 長江流域資源與環(huán)境,2021,30(2):493-506.
He Yue, Qi Yanbin. An empirical study on the formation mechanism of farmers' green production behavior: Based on the investigation of fertilization behavior of 860 citrus growers in Sichuan and Chongqing[J]. Resources and Environment in the Yangtze River Basin, 2021, 30(2): 493-506. (in Chinese with English abstract)
[3] 吳黎明. 晚熟臍橙果實(shí)采前枯水的生理和分子機(jī)制及其調(diào)控技術(shù)研究[D]. 武漢:華中農(nóng)業(yè)大學(xué),2020.
Wu Liming. Physiological and Molecular Mechanism of Pre-harvest Granulation Late-ripening Navel Orange and Its Regulation Techniques[D]. Wuhan: Huazhong Agricultural University, 2020. (in Chinese with English abstract)
[4] 李向榮,朱少英. 勞動(dòng)力流失對(duì)農(nóng)村供給側(cè)改革的影響及對(duì)策[J]. 人民論壇,2018(7):82-83.
Li Xiangrong, Zhu Shaoying. The influence of labor loss on rural supply side reform and countermeasures[J]. People's Forum, 2018(7): 82-83. (in Chinese with English abstract)
[5] 喬艷軍. 基于深度學(xué)習(xí)的采摘機(jī)器人水果識(shí)別定位與采后自動(dòng)分級(jí)技術(shù)研究[D]. 天津:天津理工大學(xué),2022.
Qiao Yanjun. Research on Fruit Recognition and Location and Post Harvest Automatic Grading Technology of Picking Robot Based on Deep Learning[D]. Tianjin: Tianjin University of Technology, 2022. (in Chinese with English abstract)
[6] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Las vegas, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[7] Yu Y, Zhang K, Zhang D, et al. Optimized faster R-cnn for fruit detection of strawberry harvesting robot[C]. Boston, 2019 ASABE Annual International Meeting. American Society of Agricultural and Biological Engineers, 2019: 118-129.
[8] 田博凱. 基于深度學(xué)習(xí)的復(fù)雜環(huán)境下蘋果檢測分類與定位技術(shù)研究[D]. 天津:天津理工大學(xué),2020.
Tian Bokai. Research on Apple Detection Classification and Location Technology in Complex Environment Based on Deep Learning[D]. Tianjin: Tianjin University of Technology, 2020. (in Chinese with English abstract)
[9] 岳有軍,孫碧玉,王紅君,等. 基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的番茄果實(shí)目標(biāo)檢測[J]. 科學(xué)技術(shù)與工程,2021,21(6):2387-2391.
Yue Youjun, Sun Biyu, Wang Hongjun, et al. Object detection of tomato fruit based on cascade RCNN[J]. Science Technology and Engineering, 2021, 21(6):2387-2391. (in Chinese with English abstract)
[10] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Boston, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[11] Liu W, Aangelov D, Erhan D, et al. Single shot multibox detector[C]. Amsterdam, European Conference on Computer Vision, 2016: 21-37.
[12] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]. Las Vegas, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.
[13] Tian Y N, Yang G D, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157: 417-426.
[14] Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]. Honolulu, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4700-4708.
[15] Shi R, Li T, Yamaguchi Y. An attribution-based pruning method for real-time mango detection with YOLO network[J]. Computers and Electronics in Agriculture, 2020, 12(3): 118-132.
[16] Wang C Y, Bochkovskiy A, Liao H Y M. Scaled-yolov4: Scaling cross stage partial network[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13029-13038.
[17] 李天華,孫萌,丁小明,等. 基于YOLOv4+HSV的成熟期番茄識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(21):183-190.
Li Tianhua, Sun Meng, Ding Xiaoming, et al. Tomato recognition method at the ripening stage based on YOLOv4 and HSV[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 183-190. (in Chinese with English abstract)
[18] 毛國君,翁偉棟,朱晉德,等. 基于改進(jìn)YOLOv4網(wǎng)絡(luò)的淺海生物檢測模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(12):152-158.
Mao Guojun, Weng Weidong, Zhu Jinde, et al. Model for marine organism detection in shallow sea using the improved YOLOv4 network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(12): 152-158. (in Chinese with English abstract)
[19] 楊蜀秦,劉楊啟航,王振,等. 基于融合坐標(biāo)信息的改進(jìn) YOLOv4 模型識(shí)別奶牛面部[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(15):129-135.
Yang Shuqin, Liu Yangqihang, Wang Zhen, et al. Improved YOLOv4 model for face recognition of diary cow by fusing coordinate information[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(15): 129-135. (in Chinese with English abstract)
[20] 趙德安,吳任迪,劉曉洋,等. 基于 YOLO 深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機(jī)器人采摘蘋果定位[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(3):164-173.
Zhao Dean, Wu Rendi, Liu Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract)
[21] Wu D, Lv S, Jiang M, et al. Using channel pruning-based YOLOv4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments[J]. Computers and Electronics in Agriculture, 2020, 178: 105-125.
[22] Redmon J, Farhadi A. Yolov3: An incremental improvement[EB/OL]. (2018-04-08)[2022-07-05] https://arxiv.org/abs/1804.02767.
[23] Fan S, Liang X, Huang W, et al. Real-time defects detection for apple sorting using NIR cameras with pruning-based YOLOV4 network[J]. Computers and Electronics in Agriculture, 2022, 193(12): 171-195.
[24] Qi J, Liu X, Liu K, et al. An improved YOLOv5 model based on visual attention mechanism: Application to recognition of tomato virus disease[J]. Computers and Electronics in Agriculture, 2022, 194(7): 178-201.
[25] Jeong J, Lee S, Kim J, et al. Consistency-based semi-supervised learning for object detection[J]. Advances in Neural Information Processing Systems, 2019, 32(2): 54-69.
[26] Hou Q, Zhang L, Cheng M M, et al. Strip pooling: Rethinking spatial pooling for scene parsing[C]. Seattle, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 4003-4012.
[27] Tarvainen A, Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[J]. Advances in Neural Information Processing Systems, 2017, 12(30): 119-131.
[28] Chen J, Zhang D, Nanehkaran Y A, et al. Detection of rice plant diseases based on deep transfer learning[J]. Journal of the Science of Food and Agriculture, 2020, 100(7): 3246–3256.
Detecting bagged citrus using a semi-supervised SPM-YOLOv5
Lyu Jia, Li Shuaijun, Zeng Mengyao, Dong Baosen
(1.,401331; 2.,401331,)
Bagged citrus has triggered a dramatic decrease in the texture details, due to the shape evolution from round to stripping during processing. A great challenge has also been posed in citrus object detection, depending mainly on the number of labeled samples. In this study, an accurate and rapid detection method was proposed for the bagged citrus based on the Teacher-student model with a Strip Pooling Module (SPM)-YOLOv5 algorithm. The images of bagged citrus were collected in the Paidengte Agricultural Science and Technology Demonstration Park, Bishan District, Chongqing of China. The data set of bagged citrus was generated by the image cleaning, enhancement, and labelling tags. Firstly, the stripe attention module was added to the backbone network of YOLOv5. Much attention of the model was drawn to the striped bagged citrus and branches, in order to reduce the average pooling focus on a large number of unrelated areas. Besides, the SPM was integrated into the backbone network of YOLOv5. Among them, the horizontal and vertical pooling were focused on the encoding remote context along the horizontal or vertical spatial dimensions. The SPM was also used to solve the overlapping of each spatial position in the feature map. Specifically, the global horizontal and vertical information was encoded to balance the own weight for the feature modification, in order to effectively expand the receptive field of the backbone network. As such, the SPM was different from the global pooling that only focused on one area. The striped pooling was utilized to easily realize the characteristics of discrete distribution in the horizontal and vertical pooling for a long time. The stripe kernel was used for the feature extraction in the horizontal and vertical directions, in order to capture more local details in the stripe pooling. In doing so, the strip pooling was different from the traditional space pooling that depended on the square core. At the same time, the Teacher-student model was semi-supervised to calculate the consistency loss for the unlabeled samples. Two stages were mainly composed of the model. The first stage was Burn-In. The effective pseudo tags were generated for the teacher model to be well initialized. Therefore, the teacher model was then initialized with the labeled samples. The second stage was mutual learning between the teachers and students. The model was trained using the labeled and unlabeled samples. The robustness of the model was enhanced to reduce the consistency loss in the training process. The target detection was performed on the unlabeled samples, in order to improve the performance of the model and reduce the dependence on labeled samples. The experimental results demonstrated that the average precision of SPM-YOLOv5 for the bagged citrus and branch detection was 77.4% and 53.6%, respectively, which was 7.5 and 7.6 percentage points higher than that of YOLOv5. The precision and recall rate of bagged citrus detection reached 94.0% and 76.2%, respectively. More importantly, the precision of SPM-YOLOv5 based on the Teacher-student model reached 82.6% under the condition of occlusion and overlapping. Meanwhile, the best detection was achieved in 1 500 unlabeled and 500 labeled samples. Therefore, the SPM-YOLOv5 based on the Teacher-student model can be expected to detect bagged citrus with higher accuracy and faster speed than before.
machine vision; image recognition; object detection; bagged citrus; YOLOv5; strip attention; teacher-student model
10.11975/j.issn.1002-6819.2022.18.022
TP391.4
A
1002-6819(2022)-18-0204-08
呂佳,李帥軍,曾夢瑤,等. 基于半監(jiān)督SPM-YOLOv5的套袋柑橘檢測算法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(18):204-211.doi:10.11975/j.issn.1002-6819.2022.18.022 http://www.tcsae.org
Lyu Jia, Li Shuaijun, Zeng Mengyao, et al. Detecting bagged citrus using a semi-supervised SPM-YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(18): 204-211. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.18.022 http://www.tcsae.org
2022-07-05
2022-08-26
重慶市高校創(chuàng)新研究群體項(xiàng)目(CXQT20015)
呂佳,博士,教授,研究方向?yàn)橛?jì)算機(jī)視覺與機(jī)器學(xué)習(xí)、數(shù)字農(nóng)業(yè)工程。Email:1209868866@qq.com