張萬(wàn)枝 曾 祥 劉樹(shù)峰 穆桂脂 張弘毅 郭壯壯
(1.山東農(nóng)業(yè)大學(xué)機(jī)械與電子工程學(xué)院,泰安 271018; 2.山東省農(nóng)業(yè)裝備智能化工程實(shí)驗(yàn)室,泰安 271018)
我國(guó)年均馬鈴薯種植面積為6.0×106hm2以上,總產(chǎn)量位居世界第一,是第一生產(chǎn)大國(guó),但并不是生產(chǎn)強(qiáng)國(guó)[1-3]。我國(guó)與美國(guó)、荷蘭等發(fā)達(dá)國(guó)家相比,馬鈴薯種植機(jī)械化水平偏低。國(guó)內(nèi)傳統(tǒng)的切塊作業(yè)方式仍然處于人工切塊,存在耗時(shí)耗力、效率低下和出苗率難以保證等問(wèn)題,為提高種植機(jī)械化水平,智能切塊取代人工切塊將顯得尤為重要,而馬鈴薯種薯芽眼檢測(cè)是實(shí)現(xiàn)智能切塊的前提。
為實(shí)現(xiàn)馬鈴薯種薯芽眼檢測(cè),國(guó)內(nèi)部分學(xué)者通過(guò)傳統(tǒng)視覺(jué)技術(shù)進(jìn)行了相關(guān)研究。田海韜等[4]在彩色和灰度空間中分割出芽眼,再將二者結(jié)合進(jìn)行數(shù)學(xué)形態(tài)學(xué)處理得到芽眼標(biāo)記結(jié)果。李玉華等[5]基于色飽和度三維幾何特征進(jìn)行馬鈴薯芽眼檢測(cè)。呂釗欽等[6]基于Gabor特征進(jìn)行馬鈴薯圖像濾波處理,剔除馬鈴薯邊界連通區(qū)域進(jìn)行芽眼區(qū)域提取,完成芽眼的檢測(cè)。張金敏等[7]提出使用局部二值模式(LBP)提取特征結(jié)合支持向量機(jī)(SVM)進(jìn)行分類,完成對(duì)馬鈴薯芽眼檢測(cè)。YANG等[8]在多光譜圖像中結(jié)合監(jiān)督多閾值分割模型和Canny邊緣檢測(cè)器,完成馬鈴薯芽眼檢測(cè)。以上傳統(tǒng)視覺(jué)檢測(cè)是基于顏色、紋理、形狀和其他手動(dòng)標(biāo)注的特征進(jìn)行訓(xùn)練,雖然訓(xùn)練模型簡(jiǎn)單,但模型的泛化性和普適性較差,不利于在不同環(huán)境的實(shí)際應(yīng)用。
近年來(lái)隨著深度學(xué)習(xí)快速發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)在農(nóng)業(yè)工程領(lǐng)域也得到了廣泛的應(yīng)用[9-12]。該技術(shù)主要分為基于候選框的雙階段目標(biāo)檢測(cè)算法和更快檢測(cè)速度的單階段目標(biāo)檢測(cè)算法。雙階段目標(biāo)算法最具有代表的是R-CNN系列,其中包括R-CNN、Fast R-CNN、Faster R-CNN和R-FCN[13-16]。XI等[17]提出基于改進(jìn)Faster R-CNN雙階段的馬鈴薯芽眼檢測(cè)算法,對(duì)發(fā)芽馬鈴薯芽眼檢測(cè)精度可達(dá)96.32%。楊森等[18]利用遷移學(xué)習(xí)和復(fù)合特征字典方法對(duì)Faster R-CNN訓(xùn)練,檢測(cè)馬鈴薯病害葉片的斑塊區(qū)域。雙階段目標(biāo)檢測(cè)算法先生成一系列樣本候選框,再根據(jù)生成的候選框區(qū)域進(jìn)行目標(biāo)分類和回歸,檢測(cè)精度較優(yōu),但這也帶來(lái)檢測(cè)時(shí)間長(zhǎng)的弊端,不適用于農(nóng)業(yè)工程實(shí)時(shí)檢測(cè)。單階段目標(biāo)檢測(cè)算法與雙階段檢測(cè)算法相比,候選框和檢測(cè)同時(shí)進(jìn)行,且兼顧檢測(cè)速度和精度。此類最具有代表的是YOLO系列算法[19-22]。陳志偉等[23]采用YOLO v3單階段目標(biāo)檢測(cè)算法對(duì)馬鈴薯種薯芽眼檢測(cè),并使用圖像數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)思想的方法。王相友等[24]針對(duì)馬鈴薯中土塊石塊檢測(cè)問(wèn)題對(duì)YOLO v4模型進(jìn)行通道剪枝達(dá)到輕量化的目的。史方青等[25]使用YOLO v3網(wǎng)絡(luò)模型將多個(gè)遮擋、機(jī)械損傷、蟲眼的芽眼及雜質(zhì)的樣本加入數(shù)據(jù)集中,實(shí)現(xiàn)對(duì)種薯芽眼的檢測(cè)。
目前基于深度學(xué)習(xí)的芽眼目標(biāo)檢測(cè)雖然取得了一定進(jìn)展,但針對(duì)馬鈴薯種薯芽眼特征一般僅使用YOLO系列原始模型,未區(qū)別于一般檢測(cè)物體特征展開(kāi)研究。由于馬鈴薯種薯芽眼隨機(jī)分布在表面,與整體背景較為相似,不易進(jìn)行檢測(cè),同時(shí)種薯芽眼位于表面凹陷處,對(duì)于凹陷區(qū)域較淺的芽眼經(jīng)過(guò)多次下采樣后會(huì)造成特征信息丟失,在特征融合處效果較差。YOLO系列原始模型并未針對(duì)以上種薯芽眼特征存在的問(wèn)題進(jìn)行具體分析,為實(shí)現(xiàn)種薯芽眼精準(zhǔn)高效檢測(cè),本文提出一種基于改進(jìn)YOLO v5s的馬鈴薯種薯芽眼檢測(cè)方法。馬鈴薯種薯芽眼與馬鈴薯整體背景較為相似,為抑制除芽眼外的馬鈴薯背景,使用CBAM卷積注意力機(jī)制去除冗余特征,增強(qiáng)有用信息,使其對(duì)芽眼特征信息更加關(guān)注;馬鈴薯種薯芽眼特征融合效果差,使用加權(quán)雙向特征金字塔網(wǎng)絡(luò)BiFPN,引入骨干原始特征信息,同時(shí)為不同尺度特征圖賦予不同權(quán)重,使得馬鈴薯種薯芽眼多尺度特征融合更加合理;引入解耦頭,將檢測(cè)頭中分類問(wèn)題和回歸任務(wù)分開(kāi)計(jì)算,加快模型的收斂速度,以進(jìn)一步提升馬鈴薯芽眼檢測(cè)性能。
YOLO v5網(wǎng)絡(luò)根據(jù)模型深度倍數(shù)(Depth_Multiple)和層通道倍數(shù)(Width_Multiple)分為n、s、m、l和x 5種版本,同時(shí)模型的復(fù)雜度也依次增加,在犧牲檢測(cè)速度的情況下提高檢測(cè)精度。考慮到農(nóng)業(yè)工程應(yīng)用以實(shí)時(shí)檢測(cè)為主,本文選擇基于改進(jìn)的YOLO v5s進(jìn)行馬鈴薯芽眼檢測(cè)。YOLO v5s網(wǎng)絡(luò)模型分為4部分:輸入端(Input)、骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)、預(yù)測(cè)端(Prediction Head)。輸入端通過(guò)Mosaic數(shù)據(jù)增加、自適應(yīng)錨框計(jì)算和自適應(yīng)圖像縮放,以此來(lái)達(dá)到豐富背景信息,計(jì)算最佳錨點(diǎn)框以及原圖縮放到統(tǒng)一標(biāo)準(zhǔn)尺寸的目的。骨干網(wǎng)絡(luò)由CBS、Bottleneck CSP和SPPF組成,在最新的版本中使用6×6的Conv卷積模塊替換了Focus切片操作,使用串行的SPPF替換了并行的SPP,減少計(jì)算量,在相同的精度條件下提高檢測(cè)速度。頸部網(wǎng)絡(luò)采用FPN+PAN結(jié)構(gòu),FPN傳遞高層的語(yǔ)義特征到低層特征中,增強(qiáng)語(yǔ)義信息利于分類,添加自底向上的PAN彌補(bǔ)并加強(qiáng)了位置信息。預(yù)測(cè)端將頸部網(wǎng)絡(luò)輸出的3個(gè)特征圖作為網(wǎng)絡(luò)的輸出,維度分別為80×80、40×40和20×20,分別用于檢測(cè)小目標(biāo)、中目標(biāo)和大目標(biāo)。
本文首先針對(duì)馬鈴薯種薯芽眼與背景相似的問(wèn)題,在檢測(cè)頭前端引入CBAM注意力機(jī)制,實(shí)現(xiàn)抑制背景的干擾,更加突出種薯芽眼的特征。其次將FPN+PAN特征融合更換為更加有效的多尺度特征融合方法BiFPN,解決特征信息融合尺度不一致問(wèn)題。最后把傳統(tǒng)耦合頭替換為解耦頭,使得模型收斂速度更快,提升模型整體性能。改進(jìn)后的YOLO v5s芽眼檢測(cè)整體網(wǎng)絡(luò)架構(gòu)如圖1所示。

圖1 改進(jìn)后YOLO v5s整體網(wǎng)絡(luò)架構(gòu)
為了從復(fù)雜的特征信息中獲取芽眼關(guān)鍵特征信息,并考慮到芽眼與馬鈴薯整體較為相似的特性,本文引入了卷積注意力機(jī)制(Convolutional block attention module,CBAM)[26]進(jìn)行強(qiáng)化芽眼目標(biāo)信息,抑制背景信息。CBAM結(jié)合了特征通道和特征空間2個(gè)維度的注意力機(jī)制,分別負(fù)責(zé)尋找重要信息和確定重要信息位置,兩者結(jié)合對(duì)特征信息進(jìn)行權(quán)重分配,將有限的計(jì)算資源分配給重要的目標(biāo),其模塊結(jié)構(gòu)如圖2所示,圖中H為輸入圖像高度,W為輸入圖像寬度,C為特征通道數(shù)。

圖2 CBAM注意力模塊結(jié)構(gòu)
輸入特征圖F首先經(jīng)過(guò)通道注意力模塊,分別進(jìn)行2個(gè)并行的全局最大池化(Global max pooling,GMP)和全局平均池化(Global average pooling,GAP),得到2個(gè)C×1×1的特征圖,然后將其分別送入共享的2層全連接層MLP中,激活函數(shù)為ReLU,得到卷積輸出的2個(gè)一維矢量進(jìn)行element-wise的加和操作,最后使用Sigmoid激活,計(jì)算式為

(1)
式中MC——通道注意力模塊特征圖
σ——Sigmoid激活函數(shù)
Favg——平均池化特征圖
Fmax——最大池化特征圖
Wi——輸入的共享權(quán)重
經(jīng)通道注意力模塊處理后的特征圖與輸入特征圖F相乘,得到特征圖F′作為空間注意力模塊的輸入,首先通過(guò)基于通道注意力模塊的池化處理,得到2個(gè)1×H×W的特征圖再進(jìn)行相加,然后將經(jīng)過(guò)7×7 Conv卷積以及Sigmoid激活函數(shù)生成的特征圖MS與特征圖F′相乘,計(jì)算式為
(2)
為了提升經(jīng)下采樣得到不同種薯芽眼特征圖的融合能力,本文將YOLO v5的Neck網(wǎng)絡(luò)中的FPN+PAN特征融合更換為加權(quán)雙向特征金字塔網(wǎng)絡(luò)(Bidirectional feature pyramid network,BiFPN),BiFPN的主要貢獻(xiàn)為:高效的雙向跨尺度連接和帶權(quán)重的特征融合機(jī)制。
PANet雖然提供自底向上的特征融合層,加強(qiáng)了位置信息,但輸入是經(jīng)FPN結(jié)構(gòu)處理的特征信息,缺乏骨干網(wǎng)絡(luò)提取到的特征中的原始特征信息。為解決該問(wèn)題,BiFPN在同一層中的原始輸入節(jié)點(diǎn)和輸出節(jié)點(diǎn)之間添加了一條額外的特征融合邊,旨在不增加太多成本的情況下融合更多的原始特征,同時(shí)刪除了只有一條輸入邊且沒(méi)有特征融合的節(jié)點(diǎn),從而簡(jiǎn)化特征融合網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。

圖3 不同特征金字塔結(jié)構(gòu)
傳統(tǒng)的特征融合只是簡(jiǎn)單地將不同的特征圖相加,并未考慮到不同分辨率的特征圖對(duì)融合輸入時(shí)貢獻(xiàn)度也有所不同,因此簡(jiǎn)單地對(duì)其相加并不是最佳操作。為了解決這一問(wèn)題,BiFPN引入快速歸一化特征融合機(jī)制,對(duì)不同尺度的芽眼特征賦予不同的權(quán)重,其計(jì)算式為
(3)
其中,wi表示輸入特征Ii對(duì)應(yīng)一個(gè)可學(xué)習(xí)的權(quán)重,為了保證wi≥0,在每個(gè)wi前采用ReLU激活函數(shù),并將初始學(xué)習(xí)率ε設(shè)置為0.001以此來(lái)避免數(shù)值不穩(wěn)定。P4層的2個(gè)特征融合過(guò)程計(jì)算式為
(4)
(5)



Resize——上采樣或下采樣操作
Conv()——卷積
為了解決種薯芽眼分類問(wèn)題和回歸任務(wù)的沖突,加快模型的收斂速度,提高模型的整體性能,本文將YOLO v5中Head耦合頭替換為Decoupled Head解耦頭結(jié)構(gòu)。SONG等[27]提出目標(biāo)檢測(cè)算法的分類問(wèn)題和回歸任務(wù)是互斥的關(guān)系,即分類和回歸的關(guān)注點(diǎn)不同,分類更加關(guān)注目標(biāo)的紋理內(nèi)容,回歸更加關(guān)注目標(biāo)的邊緣信息。原始YOLO v5的檢測(cè)頭為耦合頭,將分類問(wèn)題和回歸任務(wù)合并在一起計(jì)算,分類和回歸分支共享參數(shù)。但這會(huì)存在一個(gè)問(wèn)題,若網(wǎng)絡(luò)模型過(guò)分關(guān)注分類的信息,則更加明顯的馬鈴薯種薯芽眼特征響應(yīng)值會(huì)很高,只框選出芽眼明顯部分,對(duì)定位造成很大影響,導(dǎo)致芽眼檢測(cè)位置不準(zhǔn)確,同時(shí)也會(huì)引起訓(xùn)練過(guò)程中收斂速度較慢的問(wèn)題。為解決該問(wèn)題,引入Decoupled Head解耦頭結(jié)構(gòu)可以將分類問(wèn)題和回歸任務(wù)分開(kāi)計(jì)算,使二者關(guān)注目標(biāo)更加明確,加快收斂速度。
YOLOX在檢測(cè)頭上使用Anchor-free的解耦頭對(duì)分類和回歸分支解耦計(jì)算,同時(shí)新增2個(gè)額外的3×3 CBS卷積模塊,雖提升了檢測(cè)精度,但在一定程度上增加了模型復(fù)雜度。為此本文在YOLOX基礎(chǔ)上進(jìn)行了精簡(jiǎn)設(shè)計(jì),如圖4所示,刪除了1×1Conv 降維卷積,采用檢測(cè)頭的維度由主干和頸部的寬度系數(shù)共同縮放,并刪除了2個(gè)分支中額外一個(gè)3×3 CBS卷積模塊。刪除這2部分的目的是因?yàn)檫^(guò)多卷積層會(huì)造成計(jì)算量增加以及部分信息丟失,同時(shí)為每個(gè)CBS模塊添加殘差邊,旨在降低網(wǎng)絡(luò)優(yōu)化難度,并在不增加成本的情況下提高檢測(cè)頭性能。

圖4 改進(jìn)后的Decoupled Head
數(shù)據(jù)集采集地點(diǎn)為山東省滕州市其祥馬鈴薯種植合作社,樣本種薯品種為“荷蘭15號(hào)”和“中薯3號(hào)”。種薯采集樣本的品質(zhì)會(huì)對(duì)芽眼的檢測(cè)造成重要影響,因此選擇無(wú)病害、干腐、病斑、蟲眼等儲(chǔ)存狀況良好的馬鈴薯種薯作為采集樣本。采集后的數(shù)據(jù)集經(jīng)人工剔除冗余、像素質(zhì)量差的圖像,共931幅種薯圖像。為避免數(shù)據(jù)集樣本過(guò)少影響其模型訓(xùn)練效果和泛化性能,本文采用翻轉(zhuǎn)、旋轉(zhuǎn)、改變亮度和添加噪聲的方式進(jìn)行數(shù)據(jù)擴(kuò)充,經(jīng)過(guò)擴(kuò)充及處理后的數(shù)據(jù)集總共3 936幅圖像,部分樣本圖像如圖5所示。利用LabelImg軟件對(duì)馬鈴薯種薯圖像中芽眼進(jìn)行標(biāo)注,標(biāo)注后的數(shù)據(jù)集按9∶1的比例劃分為訓(xùn)練集(3 542幅)和驗(yàn)證集(394幅)。
試驗(yàn)過(guò)程在Win 11操作系統(tǒng)下進(jìn)行,處理器型號(hào)為12th Gen Intel(R) Core(TM) i7-12700K 3.60 GHz,顯卡型號(hào)為Nvidia GeForce RTX 3080Ti。深度學(xué)習(xí)框架為Pytorch,編程平臺(tái)為PyCharm,軟件環(huán)境為CUDA 11.6和CuDNN 8.0.5版本,所用編程語(yǔ)言為Python 3.8。
為提高算法性能,減少過(guò)擬合,訓(xùn)練采用的批量大小(batch size)為16,初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量設(shè)置為0.937,訓(xùn)練總輪數(shù)設(shè)置為200,后續(xù)不同算法對(duì)比試驗(yàn)中也將保持統(tǒng)一變量。
為了通過(guò)檢測(cè)結(jié)果來(lái)評(píng)價(jià)改進(jìn)后YOLO v5s模型的性能,選用準(zhǔn)確率(Precision,P)、召回率(Recall,R)、平均精度均值(Mean average precision,mAP)和幀率(Frames per second,FPS)作為評(píng)價(jià)指標(biāo)。
YOLO v5s、YOLO v5m、YOLO v5l和YOLO v5x的4個(gè)版本在速度和精度之間提供了不同的權(quán)衡,以適應(yīng)不同的計(jì)算能力和實(shí)時(shí)性的需求,為了選擇合適的版本作為基線模型,進(jìn)行了不同版本的YOLO v5對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表1所示。

表1 YOLO v5不同版本性能比較
可以看出,YOLO v5各版本模型的平均精度均值相差并不大的情況下,在參數(shù)量(Parames)和浮點(diǎn)運(yùn)算數(shù)(GFLOPs)方面,其他3個(gè)版本模型比YOLO v5s模型增加3~13倍,同時(shí)也引起FPS降低和權(quán)重文件增大,綜合性能不如YOLO v5s模型。分析其模型復(fù)雜度增加但平均精度均值并未有明顯提升的原因可能是芽眼目標(biāo)較為單一,當(dāng)使用m、l和x版本模型時(shí),由于網(wǎng)絡(luò)所含殘差結(jié)構(gòu)的個(gè)數(shù)和卷積核的個(gè)數(shù)不斷增加,對(duì)芽眼特征提取操作次數(shù)也越多,造成芽眼特征信息丟失,使得檢測(cè)精度并未有大幅度提升。
綜上所述,本研究所使用的馬鈴薯種薯芽眼數(shù)據(jù)集相對(duì)較小,目標(biāo)樣本較單調(diào),因此使用較淺層的網(wǎng)絡(luò)即可充分提取特征,同時(shí)考慮后續(xù)在實(shí)際應(yīng)用中需要對(duì)模型進(jìn)行邊緣端部署等原因,選用復(fù)雜度較低且具有較高檢測(cè)精度的YOLO v5s模型作為基線模型進(jìn)行改進(jìn)。
為了評(píng)價(jià)改進(jìn)后的解耦頭與YOLOX解耦頭在YOLO v5s模型中的性能優(yōu)劣,分別單獨(dú)加入YOLO v5s模型中進(jìn)行試驗(yàn),結(jié)果如表2所示。可以看出,改進(jìn)后解耦頭的參數(shù)量相較于YOLOX解耦頭參數(shù)量(Parames)有所下降,并且浮點(diǎn)運(yùn)算數(shù)(GFLOPs)減少約50%,說(shuō)明刪除1×1 Conv降維卷積和一個(gè)3×3 CBS卷積模塊后可降低計(jì)算量的有效性;同時(shí)改進(jìn)解耦頭在計(jì)算量下降的情況下,為每個(gè)CBS模塊添加殘差邊使得平均精度均值仍然有0.4個(gè)百分點(diǎn)的提升,這進(jìn)一步說(shuō)明本文解耦頭有著更優(yōu)的性能。

表2 不同解耦頭性能比較
改進(jìn)前后平均精度均值曲線如圖6所示。由圖6 可以看出,使用改進(jìn)后的解耦頭代替原模型耦合頭能達(dá)到收斂速度更快、性能更好的效果。

圖6 改進(jìn)前后mAP曲線對(duì)比
為實(shí)現(xiàn)馬鈴薯種薯芽眼精準(zhǔn)高效檢測(cè),本文基于原始YOLO v5s模型,提出更有效的網(wǎng)絡(luò)模型:加入卷積注意力模塊CBAM,引入BiFPN特征融合結(jié)構(gòu),更換解耦頭,并分別進(jìn)行4組消融試驗(yàn)驗(yàn)證,試驗(yàn)結(jié)果如表3所示。

表3 消融試驗(yàn)結(jié)果
從表3中可知,加入CBAM注意力機(jī)制后,檢測(cè)模型的mAP提高2.4個(gè)百分點(diǎn),表明加入CBAM后模型能夠更加準(zhǔn)確地檢測(cè)種薯芽眼信息;引入BiFPN特征融合結(jié)構(gòu),能夠融合更多主干網(wǎng)絡(luò)提取的原始特征并且讓特征融合更加合理,mAP較原始模型提高1.6個(gè)百分點(diǎn);將YOLO v5s原始模型的耦合頭替換為改進(jìn)后的解耦頭,mAP提高2.4個(gè)百分點(diǎn),表明替換解耦頭能夠解決種薯芽眼特征在分類問(wèn)題和回歸任務(wù)的沖突,這不僅使得模型加快收斂速度,而且還提高了整體檢測(cè)性能。本文提出的改進(jìn)模型,準(zhǔn)確率達(dá)到93.3%,較原始模型增長(zhǎng)0.9個(gè)百分點(diǎn),同時(shí)召回率增加1.7個(gè)百分點(diǎn),mAP提升3.2個(gè)百分點(diǎn)。以上數(shù)據(jù)說(shuō)明了與YOLO v5s相比,本文模型有更強(qiáng)的特征提取能力和多尺度融合性能,在馬鈴薯種薯芽眼檢測(cè)上有更好的表現(xiàn)。
為了更加直觀地展示本文模型與YOLO v5s原始模型對(duì)馬鈴薯種薯芽眼特征的關(guān)注程度不同,文中使用Grad-CAM[28]中類激活熱力圖分別對(duì)2個(gè)模型輸出層進(jìn)行可視化分析,即通過(guò)類激活熱力圖中某一區(qū)域的亮度來(lái)表示該區(qū)域在預(yù)測(cè)輸出過(guò)程所占的權(quán)重,顏色鮮亮區(qū)域面積越大,表示預(yù)測(cè)輸出關(guān)注度越高,反之亦然。2個(gè)模型的類激活熱力圖如圖7所示,可以看出本文模型對(duì)馬鈴薯種薯芽眼的特征預(yù)測(cè)輸出權(quán)重分配更高,對(duì)于不顯眼的馬鈴薯種薯芽眼也能得到更多關(guān)注,避免造成漏檢;而且本文模型相較于原始模型在同一處的馬鈴薯種薯芽眼檢測(cè)置信度更高,具有更好的魯棒性。通過(guò)類激活熱力圖可以看出本文模型更適合馬鈴薯種薯芽眼特征檢測(cè)。

圖7 類激活熱力圖
為了驗(yàn)證本文所提出模型的有效性,將本文改進(jìn)后的YOLO v5s模型與其他主流檢測(cè)模型進(jìn)行對(duì)比試驗(yàn),所有模型均在同一數(shù)據(jù)集和同一訓(xùn)練設(shè)備下采用控制變量原則進(jìn)行試驗(yàn),結(jié)果如表4所示。

表4 改進(jìn)模型與其他檢測(cè)模型對(duì)比
由表4可以看出,與YOLO其他系列原始模型相比,YOLO v5s原始模型綜合性能要優(yōu)于其他系列模型,證明了本文選擇YOLO v5s作為基線模型的可行性。在針對(duì)馬鈴薯種薯芽眼檢測(cè),改進(jìn)YOLO v5s模型準(zhǔn)確率最優(yōu),與Faster R-CNN、YOLO v3、YOLO v6、YOLOX和YOLO v7等模型相比,mAP分別提高8.4、3.1、9.0、12.9、4.4個(gè)百分點(diǎn),并且在模型內(nèi)存占用量和幀率上也具有較大優(yōu)勢(shì)。召回率對(duì)比中,改進(jìn)YOLO v5s模型略低于YOLO v3模型,主要是因?yàn)闇?zhǔn)確率和召回率存在一定的此消彼長(zhǎng)關(guān)系,當(dāng)模型降低了對(duì)芽眼檢測(cè)要求,芽眼漏檢數(shù)量將會(huì)減少,代表著預(yù)測(cè)出了更多的種薯芽眼,但這也會(huì)增加芽眼檢測(cè)錯(cuò)誤數(shù)量。由于本文模型加入高效解耦頭,導(dǎo)致模型內(nèi)存占用量與原始模型相比由13.6 MB 增加到25.8 MB、檢測(cè)幀率由35.7 f/s降至32.4 f/s,但由于在種薯芽眼檢測(cè)中更加注重準(zhǔn)確率的提升,且?guī)实穆晕⑾陆挡⒉挥绊憣?shí)際應(yīng)用,因此本文模型在兼顧準(zhǔn)確率和召回率情況下,仍能保證最高平均精度均值和較高的幀率,綜合性能最優(yōu)。
為了評(píng)估本文所提出改進(jìn)YOLO v5s模型在實(shí)際種薯自動(dòng)切塊芽眼檢測(cè)的性能,在自制的馬鈴薯種薯自動(dòng)切塊裝置進(jìn)行試驗(yàn),如圖8所示。將種薯放置在CCD相機(jī)下,經(jīng)相機(jī)采集到種薯圖像后,傳輸給計(jì)算機(jī)中改進(jìn)的YOLO v5s模型進(jìn)行芽眼檢測(cè),便于下一步根據(jù)檢測(cè)到的種薯芽眼位置,通過(guò)切刀決策方法控制切刀運(yùn)動(dòng)實(shí)現(xiàn)種薯切塊。從種薯表面檢測(cè)出芽眼是自動(dòng)切塊的重要前提,同時(shí)考慮到種薯圖像受拍攝設(shè)備及環(huán)境影響,且實(shí)際應(yīng)用中希望檢測(cè)得到更多的種薯芽眼,相較于準(zhǔn)確率,召回率能更好地反映本文模型的性能。因此在試驗(yàn)結(jié)果中主要對(duì)召回率進(jìn)行計(jì)算,并將置信度閾值設(shè)置為0.35。

圖8 馬鈴薯種薯自動(dòng)切塊裝置
試驗(yàn)結(jié)果如表5所示。可以看出,3種不同品種的種薯進(jìn)行實(shí)際檢測(cè)應(yīng)用中,改進(jìn)YOLO v5s模型漏檢數(shù)明顯下降,不同種薯品種的平均召回率達(dá)到91.5%,相較于原始模型提高17.5個(gè)百分點(diǎn),說(shuō)明了本文模型在實(shí)際種薯自動(dòng)切塊芽眼檢測(cè)中擁有更強(qiáng)的多尺度性能以及對(duì)芽眼具有更多的關(guān)注度,能夠降低漏檢率,從而保證后續(xù)切刀根據(jù)芽眼位置做出姿態(tài)調(diào)整的精準(zhǔn)性,避免切傷芽眼造成種薯浪費(fèi)。

表5 馬鈴薯種薯芽眼檢測(cè)結(jié)果統(tǒng)計(jì)
圖9分別為荷蘭15號(hào)、尤金885和中薯3號(hào)3種品種種薯的漏檢與誤檢情況。可以看出,YOLO v5s原始模型存在不同程度的漏檢現(xiàn)象(圖中橢圓形所示),即使較為明顯的芽眼特征也未被檢測(cè)出,其原因是因?yàn)榉N薯芽眼特征在種薯表面不明顯,在通過(guò)主干網(wǎng)絡(luò)下采樣以及FPN結(jié)構(gòu)上采樣過(guò)程后會(huì)造成特征信息丟失,導(dǎo)致在檢測(cè)頭處因特征信息不足引起漏檢。而本文所提出的改進(jìn)YOLO v5s模型能夠有效避免該問(wèn)題,并且能夠檢測(cè)到種薯邊緣部分較小區(qū)域芽眼,漏檢率較低。同時(shí)不同品種檢測(cè)過(guò)程中YOLO v5s原始模型也存在主要以下3種誤檢情況:圖9a原始模型將種薯表面的破損表皮誤檢為芽眼;圖9b原始模型將種薯表面的裂痕誤檢為芽眼;圖9c原始模型將種薯表面存在的泥土誤檢為芽眼。使用改進(jìn)后的YOLO v5s模型進(jìn)行檢測(cè)可有效改善上述誤檢情況,降低誤檢率。

圖9 實(shí)際應(yīng)用檢測(cè)結(jié)果對(duì)比
通過(guò)將本文所提模型應(yīng)用到實(shí)際種薯自動(dòng)切塊裝置中,與原始模型相比能夠檢測(cè)到更多芽眼,并且能夠有效避免誤檢情況的發(fā)生,這說(shuō)明位于檢測(cè)頭前端的CBAM注意力機(jī)制增加了對(duì)芽眼特征的權(quán)重分配,能夠從相似背景下檢測(cè)出芽眼;BiFPN中增添額外的特征融合邊,引入了更多下采樣過(guò)程中的原始特征信息,豐富了芽眼特征信息,同時(shí)帶權(quán)重的特征融合機(jī)制也為芽眼特征分配到更多的權(quán)重,避免了特征信息的丟失;改進(jìn)的解耦頭能夠解決分類和回歸的沖突,分別更好地關(guān)注了芽眼目標(biāo)的紋理內(nèi)容和邊緣信息。綜上可知,本文提出的改進(jìn)YOLO v5s模型能夠更好地應(yīng)用于實(shí)際種薯自動(dòng)切塊芽眼檢測(cè)。
(1)為實(shí)現(xiàn)種薯芽眼精準(zhǔn)高效檢測(cè),本文提出一種基于改進(jìn)YOLO v5s的馬鈴薯種薯芽眼檢測(cè)方法。首先通過(guò)加入CBAM注意力機(jī)制,加強(qiáng)對(duì)馬鈴薯種薯芽眼圖像的特征學(xué)習(xí)和特征提取,同時(shí)弱化與芽眼相似的馬鈴薯種薯表面背景對(duì)檢測(cè)結(jié)果的影響;其次引入加權(quán)雙向特征金字塔BiFPN增加經(jīng)骨干網(wǎng)絡(luò)提取的種薯芽眼原始信息,為不同尺度特征圖賦予不同權(quán)重,使得多尺度特征融合更加合理;最后替換為改進(jìn)的高效解耦頭Decoupled Head區(qū)分回歸和分類,加快模型收斂速度,進(jìn)一步提升馬鈴薯種薯芽眼檢測(cè)性能。
(2)試驗(yàn)結(jié)果表明,改進(jìn)YOLO v5s模型準(zhǔn)確率、召回率和平均精度均值分別為93.3%、93.4%和95.2%;相比原始YOLO v5s模型,平均精度均值提高3.2個(gè)百分點(diǎn),準(zhǔn)確率和召回率分別提高0.9、1.7個(gè)百分點(diǎn);不同模型對(duì)比分析表明,改進(jìn)YOLO v5s模型與Faster R-CNN、YOLO v3、YOLO v6、YOLOX和YOLO v7等模型相比有著較大優(yōu)勢(shì),平均精度均值分別提高8.4、3.1、9.0、12.9、4.4個(gè)百分點(diǎn)。
(3)在種薯自動(dòng)切塊芽眼檢測(cè)試驗(yàn)中,改進(jìn)YOLO v5s模型平均召回率為91.5%,相比原始YOLO v5s模型提高17.5個(gè)百分點(diǎn),本文提出的改進(jìn)YOLO v5s模型能夠更好地應(yīng)用于實(shí)際種薯自動(dòng)切塊芽眼檢測(cè)。