中圖分類號(hào):TP391.4;S662.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-5553(2025)10-0146-08
Abstract:The peach orchard scene is complex.To asist agricultural robots in beter perceiving theenvironmentof peach orchardsandquicklyandaccuratelyidentifying peachesand pathways withinthem,andaiming atthe practical problems such as singletask,low detection accuracyand slow reasoning sped ofthecurrent model,an eficient multi-task learing network named MTL—YOLO is proposedby improving YOLOv5n.The network simultaneously accomplishes the tasks of objectdetectionandsemanticsegmentation.Firstly,anaditionaldetectionheadfordrivableareasegmentationisadded to YOLOv5n to detect peaches and pathways within the orchards.Secondly,a lightweight ShufeNet V2 is employed as the backbone network of MTL—YOLO,which reduces the computational complexitywhileensuring detection acuracy. Furthermore,the RepNCSPELAN4 module isembedded inthe Neck partof the model,replacing the original C3 module, toenhance feature extraction capabilitiesand further reduce computational complexity.Finally,an adaptive loss weight adjustment method suitable formulti-task models is proposed toavoid thecumbersome processofmanuallyoptimizing loss weights forthetwo tasksand strengthenthecorrelation between themduring training.Experimentalresults showthatthe improved MTL—YOLO achieves an object detection accuracy of 84.7% ,an increase from the original algorithm's 82.1% .Moreover,the semantic segmentation accuracy isincreased by 0.3% and by 2.5% ,compared to mainstream
Mask R—CNN and YOLACT algorithms,respectively. The real-time detection speed of the model reaches 110f/s Keywords:target detection;semantic segmentation;multi-task learning;lightweight;adaptive lossfunction
0 引言
我國(guó)是桃子產(chǎn)量最多的國(guó)家。我國(guó)桃子種植面積約為 900khm2 ,產(chǎn)量約 16000kt[1] 。當(dāng)前桃子的種植、培育和采摘方式仍以人工為主,由工人根據(jù)經(jīng)驗(yàn)知識(shí)對(duì)桃子進(jìn)行農(nóng)作,生產(chǎn)效率極低,人力成本高昂。
隨著科技的發(fā)展,一系列農(nóng)業(yè)機(jī)械生產(chǎn)設(shè)備用以輔助人們進(jìn)行農(nóng)作,一定程度上提高生產(chǎn)效率,降低人力成本,初步實(shí)現(xiàn)農(nóng)業(yè)生產(chǎn)自動(dòng)化。農(nóng)業(yè)生產(chǎn)自動(dòng)化要求農(nóng)業(yè)生產(chǎn)設(shè)備更加智能,需要農(nóng)業(yè)設(shè)備對(duì)其所處的果園環(huán)境進(jìn)行視覺感知,識(shí)別果園中的作物和可行駛道路。近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,其在目標(biāo)檢測(cè)和語(yǔ)義分割上表現(xiàn)出良好的效果,研究人員使用卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)果園作物和道路。
在果園作物目標(biāo)檢測(cè)方面,Zhao等2提出FCOS—LSC水果檢測(cè)模型,在FCOS的基礎(chǔ)上融入LSC注意力模塊,使用ResNet5O[3進(jìn)行特征提取,采用特征金字塔網(wǎng)絡(luò)4(FPN)充分融合低層細(xì)節(jié)信息和高層語(yǔ)義信息,并在生成多尺度特征圖的3個(gè)維度中添加注意力機(jī)制,其檢測(cè)青蘋果和青柿子的平均精度分別為 63.0%.75.2% ,可以滿足智能農(nóng)業(yè)設(shè)備對(duì)綠色水果識(shí)別準(zhǔn)確高效的要求;Kateb等5基于YOLO系列,提出一種FruitDet模型,主干使用輕量級(jí)DenseNet[6]架構(gòu),頸部使用特征金字塔網(wǎng)絡(luò)(FPN)和空間金字塔[7](SPP),頭部使用改進(jìn)的SAM注意力模塊,該模型在5個(gè)數(shù)據(jù)集的測(cè)試中取得較好的性能。
在果園道路語(yǔ)義分割方面,肖柯等8使用MaskR—CNN9模型提取果園道路分割的結(jié)果和樹干邊界框的坐標(biāo),通過改進(jìn)RANSAC算法提取樹行線,最后通過計(jì)算樹干邊界框坐標(biāo)點(diǎn)到前排行線的距離,篩選后排樹干坐標(biāo)點(diǎn),采用最小二乘法擬合生成后排樹行線,結(jié)果表明,在不同光照、雜草、天氣環(huán)境下的6種果園場(chǎng)景中,模型的平均分割精度和邊界框檢測(cè)精度都為 97% ;商高高等1基于U型網(wǎng)絡(luò)11,在編碼層引入殘差模塊增強(qiáng)不同層次的語(yǔ)義信息,解碼層采用上采樣并通過跳躍連接融合編碼層的語(yǔ)義信息,減少模型參數(shù)量,結(jié)果表明,深度殘差U型網(wǎng)絡(luò)識(shí)別準(zhǔn)確率最高,平均交并比為 83.3% ,適用于果園環(huán)境識(shí)別。
綜上,深度學(xué)習(xí)為農(nóng)業(yè)機(jī)器人作業(yè)提供視覺支持。然而,基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型通常較大,檢測(cè)速度不盡如人意,對(duì)果園遮擋、密集等復(fù)雜多變場(chǎng)景中的作物檢測(cè)精度仍有待提高,并且當(dāng)前多數(shù)模型需分別訓(xùn)練推理目標(biāo)檢測(cè)和語(yǔ)義分割這兩大計(jì)算機(jī)視覺任務(wù),即在農(nóng)業(yè)機(jī)器人上部署多個(gè)模型以處理不同任務(wù),導(dǎo)致計(jì)算資源大量浪費(fèi),實(shí)時(shí)性極低,不能滿足農(nóng)業(yè)機(jī)器人的實(shí)際作業(yè)需求。基于以上問題,本文提出一種MTL—YOLO的高效多任務(wù)網(wǎng)絡(luò)模型,以YOLOv5n為基礎(chǔ),添加語(yǔ)義分割任務(wù)頭;將主干網(wǎng)絡(luò)替換為輕量級(jí)網(wǎng)絡(luò)ShuffleNetV2;將頸部的C3模塊替換為RepNCSPELAN4模塊;最后引入自適應(yīng)損失函數(shù),并通過多項(xiàng)對(duì)比試驗(yàn)驗(yàn)證模型的有效性。
1材料與方法
1.1 數(shù)據(jù)及制作
采用的桃園環(huán)境數(shù)據(jù)集為自然條件下桃子果實(shí)和桃園道路的原始圖像,共計(jì)1590張。該數(shù)據(jù)集分為A、B兩部分,A部分為自然環(huán)境下的桃子圖像,分為未成熟期和成熟期,尺寸為1024像素 ×768 像素,共計(jì)930張(有葉片遮擋、枝干遮擋和果實(shí)重疊遮擋的桃子)。B部分為自然環(huán)境下的桃園道路圖像,分為弱光照和強(qiáng)光照,尺寸為1920像素 ×1080 像素,共計(jì)660張。圖1為所采集的真實(shí)桃園桃子圖像示例,圖2為桃園道路圖像示例。
圖1不同成熟期的桃子

圖2不同光照強(qiáng)度下的桃園道路
Fig.2Peach orchard roadsunderdifferentlight intensities

使用Labelme工具分別對(duì)采集到的桃子圖像和桃園道路圖像進(jìn)行標(biāo)注。針對(duì)桃子檢測(cè)標(biāo)注,設(shè)定桃子標(biāo)簽為peach,按照PASCALVOC格式生成標(biāo)注文件,再通過腳本轉(zhuǎn)換成YOLO可讀取的txt標(biāo)簽格式。針對(duì)道路分割標(biāo)注,根據(jù)道路輪廓依次標(biāo)注關(guān)鍵點(diǎn)并生成對(duì)應(yīng)的json文件,通過腳本把json文件轉(zhuǎn)換成二分類語(yǔ)義分割標(biāo)簽。
豐富的數(shù)據(jù)集有利于提高模型的泛化能力,考慮到桃園復(fù)雜的自然環(huán)境,通過旋轉(zhuǎn)、模糊、調(diào)整亮度和對(duì)比度等方法對(duì)原始圖像進(jìn)行數(shù)據(jù)增強(qiáng),最終得到5565張圖片,其中桃子檢測(cè)的數(shù)據(jù)集有2920張,道路分割的數(shù)據(jù)集有2080張。按照7:2:1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,桃子檢測(cè)的訓(xùn)練集有2271張,驗(yàn)證集有649張;道路分割的訓(xùn)練集有1618張,驗(yàn)證集有462張;共同的測(cè)試集有565張。
1.2基于改進(jìn)YOLOv5n的桃園環(huán)境檢測(cè)模型構(gòu)建
YOLOv5[12是YOLO系列中極具代表性的一個(gè)版本,相比于YOLO系列其他版本,YOLOv5的穩(wěn)定性高,實(shí)用性強(qiáng),具有良好的泛化性,普遍應(yīng)用于工業(yè)界以處理實(shí)際問題。YOLOv5模型結(jié)構(gòu)較為簡(jiǎn)潔,分為主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和輸出端(Head)3個(gè)部分。其中主干網(wǎng)絡(luò)使用CSPDarkNet53結(jié)構(gòu)作為特征提取網(wǎng)絡(luò),初步對(duì)輸人的特征圖進(jìn)行特征提取;頸部網(wǎng)絡(luò)使用特征金字塔網(wǎng)絡(luò)(FPN)和路徑聚合網(wǎng)絡(luò)[13](PAN)進(jìn)一步提取特征圖中目標(biāo)的細(xì)節(jié)特征;頭部網(wǎng)絡(luò)將得到的3張不同尺度的特征圖,經(jīng)過卷積操作最終輸出目標(biāo)檢測(cè)結(jié)果。
針對(duì)桃子生長(zhǎng)密集、重疊遮擋,果園道路非結(jié)構(gòu)化,模型需滿足實(shí)時(shí)性及多任務(wù)處理等實(shí)際問題,以YOLOv5n為基礎(chǔ)模型,通過對(duì)主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)、頭部和損失函數(shù)進(jìn)行改進(jìn)以滿足農(nóng)業(yè)機(jī)器人檢測(cè)桃園環(huán)境的作業(yè)需求。輸人的圖片通過主干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)進(jìn)行圖片特征提取,頸部額外設(shè)計(jì)一個(gè)分支進(jìn)行語(yǔ)義分割任務(wù),模型最終同時(shí)輸出目標(biāo)檢測(cè)和語(yǔ)義分割的結(jié)果即桃子的位置和邊界、桃園道路的像素區(qū)域。MTL一YOLO網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

1.2.1ShuffleNetV2輕量級(jí)主干網(wǎng)絡(luò)
目標(biāo)檢測(cè)任務(wù)為識(shí)別單類別桃子,語(yǔ)義分割任務(wù)為簡(jiǎn)單的二分類,即道路與背景。因此YOLOv5n原主干網(wǎng)絡(luò)中的C3模塊雖然檢測(cè)精度高,但對(duì)于少類別目標(biāo)的檢測(cè)過于冗余,嚴(yán)重影響模型整體的輕量化。故使用ShuffleNet V2[14] 輕量級(jí)主干網(wǎng)絡(luò)替代原模型的主干網(wǎng)絡(luò)。
目前主流的輕量級(jí)主干網(wǎng)絡(luò)例如MobileNet[15]EfficientNet[16]、Xception[17等都是通過分組卷積、深度可分離卷積等操作減少浮點(diǎn)運(yùn)算量,但ShuffleNetV2提出一個(gè)關(guān)鍵點(diǎn),即在實(shí)際應(yīng)用中,不能只從浮點(diǎn)運(yùn)算量的大小反映輕量級(jí)網(wǎng)絡(luò)的快慢,還應(yīng)該考慮實(shí)際的運(yùn)行速度。特別是在嵌入式設(shè)備中,內(nèi)存訪問成本和平臺(tái)特點(diǎn)都影響著模型的推理速度。因此,ShuffleNetV2通過控制不同的環(huán)境直接測(cè)試模型在不同硬件設(shè)備上的運(yùn)行速度,不是簡(jiǎn)單通過浮點(diǎn)運(yùn)算量來(lái)判斷。
ShuffleNetV2引人通道分離操作(ChannelSplit),把通道數(shù)分為2個(gè)分支,一個(gè)分支進(jìn)行普通卷積和深度卷積操作保持輸人輸出相等,另一個(gè)分支等同映射,直接進(jìn)行Concat,最后將2個(gè)分支輸出的特征圖進(jìn)行合并,加強(qiáng)不同通道的信息融合,結(jié)構(gòu)如圖4(a)所示。此外,ShuffleNetV2還引入空間下采樣模塊,直接將特征圖輸入到2個(gè)不同的分支,每個(gè)分支分別進(jìn)行下采樣,最后合并2個(gè)通道,結(jié)構(gòu)如圖4(b)所示。使用ShuffleNetV2網(wǎng)絡(luò)替換原模型的主干網(wǎng)絡(luò)后,模型的推理速度大大提高,但是檢測(cè)的準(zhǔn)確率略有下降,后續(xù)通過對(duì)頸部和損失函數(shù)進(jìn)行改進(jìn),提高模型整體的檢測(cè)精度。

1.2.2RepNCSPELAN4 特征提取一融合網(wǎng)絡(luò)
RepNCSPELAN4模塊是YOLOv98中提出的廣義高效的層聚合網(wǎng)絡(luò)(GELAN),采用CSPNet的分割重組,并在每一部分引入ELAN的層級(jí)卷積處理方式,把CSPNet的anyBlock模塊的堆疊方式和ELAN的層級(jí)卷積結(jié)構(gòu)融合在一起,并參考Re-parameter19]方法。該網(wǎng)絡(luò)將輸入的特征圖通過轉(zhuǎn)換層分為a、b兩個(gè)分支,a分支通過堆疊的卷積層,每一層的輸出都與下一層的輸入通過anyBlock模塊堆疊,再將每一層堆疊的結(jié)果分別輸入轉(zhuǎn)換層;b分支等同映射,直接和a分支轉(zhuǎn)換層輸出的結(jié)果相結(jié)合。RepNCSPELAN4網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5RepNCSPELAN4模塊Fig.5Basic structure of RepNCSPELAN4

在引入ShuffleNetV2輕量級(jí)主干網(wǎng)絡(luò)后,將RepNCSPELAN4模塊融人模型的Neck中,替換原模型Neck中冗余的C3模塊,模型整體精度上升,計(jì)算量進(jìn)一步下降。
1.2.3 道路分割任務(wù)頭
針對(duì)桃園道路分割任務(wù),參考FPN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)一個(gè)包含卷積層、上采樣層和YOLOv5中C3模塊的分割任務(wù)頭。將輸入的原始圖像經(jīng)過主干網(wǎng)絡(luò)的特征提取和Neck中第1次經(jīng)過層聚合網(wǎng)絡(luò)處理后Concat的結(jié)果,通過一個(gè)256通道的卷積層調(diào)整特征圖的通道,緊接著采用最近鄰上采樣方法將特征圖尺寸放大2倍,再使用C3模塊增強(qiáng)特征提取能力。上述操作后,再次通過一個(gè)128通道的卷積層,上采樣,C3模塊處理特征圖,逐步恢復(fù)特征圖的細(xì)節(jié)和空間分辨率。最后,通過一個(gè)64通道、卷積核大小為2、步長(zhǎng)為3的卷積層完成道路分割頭的構(gòu)建,用于道路分割任務(wù)的輸出。道路分割網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

分割任務(wù)為簡(jiǎn)單的二分類,在經(jīng)過3次上采樣處理后,仍輸出較高的精度,無(wú)需進(jìn)行冗余的操作,故該道路分割任務(wù)頭結(jié)構(gòu)較為簡(jiǎn)潔,在保證檢測(cè)精度的同時(shí)保證模型輕量化水平。
1.2.4 自適應(yīng)損失函數(shù)
模型的總損失包括目標(biāo)檢測(cè)任務(wù)的損失 Ldet 和語(yǔ)義分割任務(wù)的損失 Lseg ,其中目標(biāo)檢測(cè)任務(wù)的損失包含位置損失 Lbox 、類別損失 Lcls 以及置信度損失 Lobj ,計(jì)算如式(1)所示。語(yǔ)義分割任務(wù)中檢測(cè)的道路類別占整體圖像的比例不低,故使用二分類交叉熵?fù)p失函數(shù)計(jì)算語(yǔ)義分割任務(wù)的損失,如式(2)所示。
Ldet=Lbox+Lcls+Lobj

式中: xi -樣本被預(yù)測(cè)為正類的概率;yi 1 -樣本的標(biāo)簽;n 樣本總數(shù)。
計(jì)算多目標(biāo)損失的常規(guī)方法是對(duì)每個(gè)任務(wù)的損失進(jìn)行加權(quán)線性和,分別為每個(gè)任務(wù)設(shè)置權(quán)重,如式(3)所示。每個(gè)任務(wù)的權(quán)重需要手動(dòng)設(shè)置,模型對(duì)各任務(wù)權(quán)重參數(shù)值極為敏感,不同的權(quán)值會(huì)得到不同的訓(xùn)練結(jié)果,因此,權(quán)重超參數(shù)的調(diào)整消耗極高的時(shí)間成本。此外,由于各任務(wù)的權(quán)值在訓(xùn)練前已完成設(shè)定,在整個(gè)訓(xùn)練過程中都是固定不變的,減少多任務(wù)學(xué)習(xí)訓(xùn)練的相關(guān)性。

式中:Loss 總損失值;
λi 1 一不同任務(wù)的損失權(quán)重參數(shù);
Li 1 一不同任務(wù)的損失值。
綜上,基于Liu等[20]提出的動(dòng)態(tài)權(quán)重算法DWA,結(jié)合MultiNet+ + 中的幾何損失計(jì)算方式,提出一種適用于多任務(wù)模型的自適應(yīng)損失權(quán)重調(diào)整方法,在節(jié)省時(shí)間成本的同時(shí)提高兩類任務(wù)的訓(xùn)練精度。
式(4)為總損失的計(jì)算,使用geometricloss,將模型中目標(biāo)檢測(cè)和語(yǔ)義分割兩個(gè)任務(wù)的損失使用幾何方式組合,一定程度上解決不同任務(wù)間損失收斂速度不同的問題。 λ1 和 λ2 分別表示目標(biāo)檢測(cè)和語(yǔ)義分割的損失權(quán)重;式(5)為兩類任務(wù)損失權(quán)重的計(jì)算, Wi(t-1) 乘以 K 的 Softmax 算子確保
模型在每輪訓(xùn)練后都會(huì)根據(jù)總損失相對(duì)下降率為兩類任務(wù)重新設(shè)定損失權(quán)重;式(6)為總損失相對(duì)下降率的計(jì)算, Loss(t) 表示經(jīng)過多輪訓(xùn)練后每個(gè)時(shí)期的平均損失。當(dāng)訓(xùn)練開始時(shí),將 Wi(t) 設(shè)為1,在第3輪訓(xùn)練即 t=3 時(shí),開始自適應(yīng)權(quán)重調(diào)整。

式中: K? ——模型子任務(wù)的個(gè)數(shù);
Wi(t-1) ——當(dāng)前一輪的訓(xùn)練與上一輪訓(xùn)練的總損失相對(duì)下降率;
Wj(t-1) ——當(dāng)前一輪的訓(xùn)練與上一輪訓(xùn)練的某一子任務(wù)的損失相對(duì)下降率。

該自適應(yīng)損失權(quán)重調(diào)整方法的引入,避免每次訓(xùn)練都手動(dòng)優(yōu)化兩類任務(wù)損失權(quán)重的復(fù)雜過程,并加強(qiáng)兩類任務(wù)訓(xùn)練的相關(guān)性,與單任務(wù)訓(xùn)練相比,該損失函數(shù)大大提高各任務(wù)的檢測(cè)精度。
2 試驗(yàn)結(jié)果及分析
2.1 圖像采集與預(yù)處理
試驗(yàn)硬件配置為IntelCore(TM)i9—11900K
3.50GHz ,內(nèi)存為32GB,顯卡為RTXA4000,顯存16GB 。虛擬環(huán)境:PyTorch1.7.0,Python3.8,Cuda11.0。訓(xùn)練時(shí),迭代次數(shù)設(shè)置為500輪,每批量樣本數(shù)為32,進(jìn)程數(shù)為8,模型輸入的圖片尺寸為416像素 x 416像素,動(dòng)量系數(shù)為0.937,起始學(xué)習(xí)率為0.01。
2.2 評(píng)價(jià)指標(biāo)
針對(duì)多任務(wù)模型的對(duì)比試驗(yàn),將平均精度均值(mAP@0.5) 、語(yǔ)義分割平均精度(mIoU)模型參數(shù)量(Params)浮點(diǎn)運(yùn)算量 (FLOPs) 和推理速度(FPS)作為模型的評(píng)價(jià)指標(biāo)。
2.3 試驗(yàn)對(duì)比分析
首先,進(jìn)行消融實(shí)驗(yàn)以分析改進(jìn)的4個(gè)模塊對(duì)模型的性能影響。其次,將所提出的MTL一YOLO多任務(wù)算法與當(dāng)前具有代表性的目標(biāo)檢測(cè)算法和語(yǔ)義分割算法分別進(jìn)行對(duì)比以評(píng)估模型的綜合性能。
2.3.1 消融實(shí)驗(yàn)
以YOLOv5n為基礎(chǔ)模型,將原主干網(wǎng)絡(luò)替換為ShuffleNetV2輕量型主干網(wǎng)絡(luò);在頸部引人RepNCSPELAN4模塊進(jìn)一步加強(qiáng)特征提取能力;引人自適應(yīng)損失函數(shù)使兩類任務(wù)相互捕捉特征信息;添加語(yǔ)義分割任務(wù)頭。為驗(yàn)證上述4點(diǎn)改進(jìn)策略對(duì)模型整體性能的影響,進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示。
表1改進(jìn)模型消融實(shí)驗(yàn)結(jié)果對(duì)比 Tab.1 Improved comparisonof model ablation test results

注:SNet表示使用ShufleNet V2主干網(wǎng)絡(luò);Rep4表示使用RepNCSPELAN4模塊;Loss表示使用自適應(yīng)損失函數(shù);Seghead 表示添加語(yǔ)義分割任務(wù)頭; \"√- 表示使用此改進(jìn)策略。
分析表1數(shù)據(jù)可知,添加語(yǔ)義分割任務(wù)頭后的模型雖然實(shí)現(xiàn)同時(shí)檢測(cè)桃子和分割道路兩類任務(wù),但是目標(biāo)檢測(cè)精度下降,推理速度最低,無(wú)法滿足農(nóng)業(yè)機(jī)器人實(shí)時(shí)作業(yè)的需求;在添加語(yǔ)義分割任務(wù)頭的基礎(chǔ)上使用ShuffleNetV2主干網(wǎng)絡(luò)后目標(biāo)檢測(cè)和語(yǔ)義分割的精度均下降,但是推理速度明顯提高,滿足實(shí)時(shí)性;使用RepNCSPELAN4模塊替換原YOLOv5n模型中的C3模塊后,一定程度上降低模型的浮點(diǎn)運(yùn)算量,并且保證兩類任務(wù)的精度;自適應(yīng)損失權(quán)重調(diào)整方法的引入同時(shí)提高兩類任務(wù)的精度,但實(shí)時(shí)性低;將3個(gè)模塊兩兩組合進(jìn)行試驗(yàn),檢測(cè)的精度和推理速度在一定范圍內(nèi)成反比,二者無(wú)法兼顧;對(duì)主干網(wǎng)絡(luò)、頸部、頭部和損失函數(shù)改進(jìn)后的模型的綜合性能最高,雖然與YOLOv5n相比,推理速度稍有下降,但是彌補(bǔ)原模型不能同時(shí)進(jìn)行語(yǔ)義分割任務(wù)的短板,并且目標(biāo)檢測(cè)的精度也得到提升。消融實(shí)驗(yàn)證明,提出的4點(diǎn)改進(jìn)方案對(duì)YOLOv5n性能提升有積極的意義。
2.3.2 目標(biāo)檢測(cè)和語(yǔ)義分割綜合對(duì)比分析
將MTL—YOLO模型與當(dāng)前主流的目標(biāo)檢測(cè)和語(yǔ)義分割模型進(jìn)行對(duì)比試驗(yàn)以評(píng)估綜合性能。其中,目標(biāo)檢測(cè)算法選取FastR—CNN、YOLOv5n、YOLOv5s和YOLOv9s,語(yǔ)義分割算法選取MaskR一CNN和YOLACT[21]
由表2可知,MTL—YOLO模型在目標(biāo)檢測(cè)任務(wù)中的精度 mAP@0.5 為 84.7% ,推理速度為 110f/sc 與雙階段目標(biāo)檢測(cè)模型FastR—CNN相比,MTL—YOLO的 mAP@0.5 僅相差 0.2% ,但是推理速度為FastR—CNN的9.2倍;與單階段目標(biāo)檢測(cè)模型YOLO系列相比,MTL—YOLO的 mAP@0.5 最高,實(shí)時(shí)推理速度處于中等水平,比YOLOv5n低 23f/s 。
雖然MTL—YOLO的 mAP@0.5 和FPS兩個(gè)指標(biāo)不是最高的,但能同時(shí)進(jìn)行兩類任務(wù)的訓(xùn)練與推理,在精度和實(shí)時(shí)性之間取得較好的平衡,與逐一執(zhí)行目標(biāo)檢測(cè)和語(yǔ)義分割任務(wù)相比,MTL一YOLO節(jié)省大量的時(shí)間成本和硬件資源占用。
表2目標(biāo)檢測(cè)模型性能對(duì)比 Tab.2 Performance comparison of object detection models

由表3可知,在語(yǔ)義分割任務(wù)中MTL—YOLO的 mAP@0.5 和實(shí)時(shí)推理速度都最高;YOLACT的性能一般;MaskR一CNN雖然精度較高,但模型過于冗余,推理速度最低。由于果園道路檢測(cè)是二分類語(yǔ)義分割,任務(wù)相對(duì)簡(jiǎn)單,因此,MaskR一CNN的性能沒有得到充分的發(fā)揮。
表3語(yǔ)義分割模型性能對(duì)比 Tab.3 Performance comparison of semantic segmentation models

2.4 檢測(cè)結(jié)果可視化
設(shè)計(jì)YOLOv5n、FastR—CNN、YOLACT、MaskR一CNN和MTL一YOLO的模型推理對(duì)比試驗(yàn),檢測(cè)效果如圖7所示。
圖7各模型檢測(cè)效果 Fig.7Detection effect of different models

由圖7示例1和示例2可知,在目標(biāo)檢測(cè)任務(wù)中,F(xiàn)astR一CNN的檢測(cè)效果最好,沒有誤檢、漏檢的情況,置信度較高;圖7示例3中FastR—CNN和MTL—YOLO均漏檢2個(gè)遮擋的小目標(biāo);YOLOv5n的檢測(cè)效果最差,對(duì)小目標(biāo)的漏檢較多。由圖7示例3可知,在語(yǔ)義分割任務(wù)中,MTL一YOLO的檢測(cè)效果最好,其次是MaskR一CNN,YOLACT的檢測(cè)效果最差,此外,MTL—YOLO還檢測(cè)到3個(gè)桃子目標(biāo),同時(shí)進(jìn)行目標(biāo)檢測(cè)和語(yǔ)義分割兩類任務(wù)。由圖7示例4可知,對(duì)于在目標(biāo)檢測(cè)任務(wù)中原始圖片沒有結(jié)果的桃子,YOLOv5n存在誤檢的情況,在語(yǔ)義分割任務(wù)中,MTL一YOLO的分割效果最好。綜上,MTL一YOLO的性能最好。
3 結(jié)論
為降低人力成本,輔助桃園場(chǎng)景下農(nóng)業(yè)機(jī)器人的農(nóng)業(yè)生產(chǎn)操作,構(gòu)建桃園環(huán)境數(shù)據(jù)集,并基于改進(jìn)的YOLOv5n實(shí)現(xiàn)對(duì)桃子和桃園道路的識(shí)別。設(shè)置消融實(shí)驗(yàn)和目標(biāo)檢測(cè)、語(yǔ)義分割綜合對(duì)比試驗(yàn)。
1)首先在YOLOv5n的基礎(chǔ)上添加語(yǔ)義分割任務(wù)頭,采用3次上采樣、卷積操作實(shí)現(xiàn)對(duì)桃園道路的檢測(cè),模型浮點(diǎn)運(yùn)算量增加 40% ,目標(biāo)檢測(cè)平均精度均值 mAP@0.5 下降 3.1% ,語(yǔ)義分割平均精度mIoU為 91.5% 。雖然改進(jìn)后的模型能夠同時(shí)進(jìn)行目標(biāo)檢測(cè)和語(yǔ)義分割兩類任務(wù),但模型的精度和推理速度都有待提高。
2)在添加語(yǔ)義分割任務(wù)頭的基礎(chǔ)上,將原主干網(wǎng)絡(luò)替換為ShuffleNetV2,模型的浮點(diǎn)運(yùn)算量減少42% ,雖然該模型滿足實(shí)時(shí)檢測(cè)的要求,但目標(biāo)檢測(cè)和語(yǔ)義分割的精度均明顯下降。
3)針對(duì)準(zhǔn)確率降低的問題,將原模型頸部中冗余的C3模塊替換為RepNCSPELAN4模塊,采用PANet多尺度融合加強(qiáng)小目標(biāo)的細(xì)節(jié)特征,進(jìn)一步降低模型的計(jì)算量,一定程度上彌補(bǔ)缺失的精度。
4)引入自適應(yīng)損失函數(shù),每輪訓(xùn)練后都自動(dòng)調(diào)整兩類任務(wù)的權(quán)重參數(shù),提高目標(biāo)檢測(cè)和語(yǔ)義分割兩類任務(wù)的相關(guān)性,實(shí)現(xiàn)跨任務(wù)特征交互,融合任務(wù)之間互補(bǔ)信息,目標(biāo)檢測(cè)平均精度均值 mAP@0.5 較原模型YOLOv5n提高 2.6% ,語(yǔ)義分割平均精度mIoU與MaskR—CNN、YOLACT相比分別提高 0.3%.2.5% 。
參考文獻(xiàn)
[1]王延書,李淑厚,胡長(zhǎng)軍,等.臨沂市桃產(chǎn)業(yè)現(xiàn)狀、存在 問題及發(fā)展建議[J].落葉果樹,2022,54(1):37-39.
[2]ZhaoR,GuanY,LuY,etal.FCOS-LSC:A novel model for green fruit detection in a complex orchard environment[J].Plant Phenomics,2023,5:0069.
[3]He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[C].Proceedings oftheIEEE Conference on Computer Vision and Pattern Recognition, 2016:936-944.
[4]Lin T,Dollar P,Girshick R,et al.Feature pyramid networks for object detection [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:2117—2125.
[5]KatebFA,MonowarMM,HamidMA,et al.FruitDet: Attentive feature aggregation for real-time fruit detection in orchards[J]. Agronomy,2021,11(12): 2440.
[6]Huang G,Liu Z,Laurens V D M,et al.Densely connected convolutional networks [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:2261—2269.
[7]He K, Zhang X,Ren S,et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE Transactions on Pattern Analysis amp;. Machine Intelligence,2014,37(9):346-361.
[8]肖珂,夏偉光,梁聰哲.復(fù)雜背景下果園視覺導(dǎo)航路徑提 取算法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(6):197—204,252. Xiao Ke,Xia Weiguang,Liang Congzhe.Visual navigation path extraction algorithm in orchard under complex background [J]. Transactions of the Chinese Society for AgriculturalMachinery,2023,54(6):197—204,252.
[9]He K,Gkioxari G,Dollár P,et al. Mask R—CNN[C]. Proceedings of the IEEE International Conference on Computer Vision,2017:2980-2988.
[10]商高高,朱鵬,劉剛.基于深度殘差U型網(wǎng)絡(luò)的果園環(huán) 境識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(5): 235-242.
[11]RonnebergerO,F(xiàn)ischerP, BroxT.U—Net: Convolutional networks for biomedical image segmentation [C]. Medical Image Computingand Computer-Assisted Intervention,2015:234—241.
[12]Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-timeobjectdetection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779—788.
[13] Liu S,Qi L,Qin H,et al. Path aggregation network for instance segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018:8759-8768.
[14]Ma N,Zhang X,Zheng H,et al. ShuffleNet V2: PracticalguidelinesforefficientCNNarchitecture design [C]. Proceedings of the European Conference on Computer Vision,2018:122-138.
[15]Howard A G,Zhu M,Chen B,et al.MobileNets: Efficient convolutional neural networks for mobile vision applications[J]. arXivpreprint arXiv:17O4.04861, 2017.
[16]Tan M,LeQV.EfficientNet:Rethinking model scaling for convolutional neural networks [J].arXiv preprint arXiv:1905.11946,2019.
[17]Chollet F. Xception:Deep learning with depthwise separable convolutions [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017:1800—1807.
[18]WangCY,YehIH,Mark Liao HY M.YOLOv9: Learning what you want to learn using programmable"gradient information[C]. European Conferenceon Computer Vision Springer. Cham,2O24:1-21.
[19]Hu M,F(xiàn)eng J,Hua J,et al. Online convolutional re-parameterization [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022:558-567.
[20]Liu S,Johns E,Davison A J. End-to-end multi-task learningwithattention[C].Proceedingsofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:1871—1880.
[21]Bolya D,Zhou C,Xiao F,et al.YOLACT:Real-time instancesegmentation[C].Proceedingsofthe IEEE/CVF International Conference on Computer Vision, 2019:9156-9165.