用于復雜環境下果蔬檢測的改進YOLOv5算法研究*

2023-02-04 11:51:48汪穎王峰李瑋王艷艷王應彪羅鑫

中國農機化學報 2023年1期

汪穎，王峰，李瑋，王艷艷，王應彪，羅鑫

(西南林業大學機械與交通學院，昆明市，650224)

0 引言

我國作為世界農業生產大國之一，果蔬種植規模龐大，其采摘過程成為農業生產過程中重要環節。然而傳統采摘主要以人工采摘為主，采摘難度大，工作時間長，同時卻工作效率低下，致使投入生產的成本增加[1]。目前，隨著技術的不斷發展，農業機械自動化已成為主流趨勢，自動采摘機械人的出現可以有效緩解勞動力緊缺的問題，具有重要的實際意義和廣泛的應用前景[2]。

識別檢測果蔬的精度成為準確進行自動采摘的關鍵前提。然而自然條件下的果蔬的復雜環境限制了果蔬的檢測精度，例如樹葉的遮擋，目標果蔬之間的重疊遮擋，光照環境等都會影響果蔬的檢測識別。

目前國內外對果蔬檢測識別的研究也已獲得了一系列進展。車金慶等[3]將分割方法與注意力機制相結合實現黃色、綠色蘋果圖像的分割；Lu等[4]提出一種使用紋理和強度分布來檢測樹木圖像中的綠色水果檢測方法，但是識別準確率受光照影響較大；Wajid等[5]運用處理歸納決策的分析方法，用于檢測柑橘的成熟度并進行果實分類，但識別檢測精度不高。以上這些方法主要通過顏色紋理等特征來識別，多受環境影響，魯棒性較差，無法更準確高效地檢測識別目標。

相比于傳統目標檢測方法，深度學習在目標檢測方向的應用展現了較大優勢，卷積神經網絡更廣泛地應用于目標檢測。現階段與深度學習相關的目標檢測方法主要包括兩類，一類是兩階段目標檢測算法，對待選區域依次進行提取劃分，代表算法有R-CNN[6]，Fast R-CNN[7]，Faster R-CNN[8]等；另一類是單階段檢測算法，用單一卷積網絡直接輸出預測框和物體名稱，代表算法主要有SSD[9]、YOLO[10]。何進榮等[11]提出了多卷積神經網絡融合DXNet模型，提取出更加底層的紋理特征，顯著提高蘋果外部品質分級精度。彭紅星等[12]改進結合SSD與深度殘差模型，對4種水果進行檢測，改進后的模型對遮擋面積小的水果檢測精度較高。薛月菊等[13]采用YOLOv2算法識別芒果，對精度和檢測速度有所提升，但無法滿足大視場環境下的檢測。

針對以上問題本方法選用YOLOv5網絡結構作為基準[14]，YOLOv5相比于傳統目標檢測算法，識別精度高，檢測速度快，具有很強的實時性。本文提出嵌入卷積注意力機制以提高網絡特征的提取能力，并且引入完全交并比非極大抑制算法和加權雙向特征金字塔網絡，在不同光照下和大視場遮擋重疊的環境下進行識別試驗，以驗證網絡的實際檢測效果。

1 YOLOv5算法

YOLOv5(You Only Look Once)是一種單階段目標檢測算法。YOLOv5網絡結構如圖1所示，由四部分構成：輸入端、主干網絡、Neck和預測端。

圖1 YOLOv5網絡結構

輸入端主要包括Mosaic數據增強、圖片自動縮放和錨框自動計算。Mosaic數據增強將變換后的圖片進行重新排布拼接，豐富數據集內容，提升模型的訓練速度和網絡的精度；圖片自動縮放對原始圖片自動填入最少的黑色邊框，降低計算量；錨框自動計算對原始輸入框的長寬進行預測，自動將其與真實框進行對比，不斷迭代更新，調整差距以此得到不同數據集所輸出的最佳錨框值。

主干網絡主要包括CSPDarknet53和Focus模塊。CSPDarknet53提取特征圖片，包括采用1×1，5×5，9×9，13×13的最大池化方式的SSP(空間金字塔池化)操作，輸出長度相同的特征向量以此接收更多特征；Focus模塊對圖片進行切片互補操作，集合深度和高度信息擴充通道數，實現下采樣以達到增加局部感受野的作用。

Neck中采用FPN+PAN的結構，將自上向下傳遞的FPN層與自下向上傳遞的PAN層結合，傳遞多尺度標準的概念與位置信息，進一步融合上采樣的結果和特征圖，實現不同特征的融合。

預測端采用GIOU-Loss損失函數，反饋目標的定位，根據不同尺度下生成的預測框采用非極大抑制[15](Non-maximum suppression，NMS)操作。

2 CCB-YOLOv5網絡

為了解決原始Yolov5網絡對于不同光照下的遮擋目標和密集目標檢測存在的不足之處，本文提出一種CCB-YOLOv5(CBAM and CIOU-NMS and BiFPN-YOLOv5)網絡，在主干網絡的CBL卷積模塊中嵌入卷積注意力機制CBAM，提高目標特征的提取能力，原始Yolov5采用非極大抑制算法進行迭代—遍歷—消除過程，刪除重復的檢測框，只保留當前最大置信度的檢測框。非極大抑制直接刪除相鄰的同類別目標，對于密集目標檢測效果較差。因此引入完全交并比非極大抑制算法(CIOU-NMS)[16]，考慮了預測框和真實框的長寬比成一定比例，生成預測框并進行迭代遍歷，讓預測框不斷趨近于真實框以提高預測框的輸出精確度，加快了預測框的回歸收斂速度，降低密集目標重疊導致的漏檢率，使得預測框更接近真實框。為了緩解特征提取時的遺漏情況，將 Yolov5原始加強特征提取網絡PANet[17]結構改進為加權雙向特征金字塔網絡BiFPN[18]結構，進行自上而下的深層特征和自下而上的淺層特征融合，并跳過某些中間層，連接融合不同尺度的特征層。其網絡結構如圖2所示。

圖2 CCB-YOLOv5網絡結構

2.1 卷積注意力機制

CBAM是由獨立的一維通道注意力和二維空間注意力兩個模塊組成，同時關注通道和空間兩方面信息，聚焦于突出特征。圖3為通道注意力模塊的示意圖，首先對輸入的深度和高度方向分別取平均特征點和最大特征點，壓縮冗余空間，生成兩個不同空間上的1×1×C的特征圖，然后送入一個兩層共享的神經網絡，先壓縮再擴充，保持通道數C不變，接著對元素進行逐一生成權重值加和后送入sigmoid函數，生成特征圖。具體計算如式(1)所示。

Mc(F)=σ(MLP(AvgPool(F))+

MLP(MaxPool(F)))

(1)

式中：Mc——通道注意力特征圖；

σ——sigmoid函數；

MLP——共享神經網絡；

AvgPool——平均特征點；

MaxPool——最大特征點；

圖3 通道注意力模塊

圖4為空間注意力模塊的示意圖，空間注意力更加關注輸入圖像的具體位置信息，與通道注意力關注的特征信息互補，進一步強化通道和位置特征融合得到輸出特征圖。空間注意力模塊將前一步的輸出結果作為其輸入，首先對通道進行取平均值點和最大值點操作，實現信息的聚合，生成兩個跨通道的二維映射，然后擴展這兩個特征圖的深度，經過一個7×7的標準卷積層，降維為一個通道，再通過激活函數進行標準化生成特征圖。最后整合兩模塊的輸出矩陣得到最終的特征圖。具體計算如式(2)所示。

Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))

(2)

式中：Ms——空間注意力特征圖；

f7×7——7×7的卷積計算；

圖4 空間注意力模塊

2.2 非極大抑制

完全交并比非極大抑制算法(CIOU-NMS)中CIOU[18]不僅考慮了重疊面積、中心點距離，而且考慮了長寬比，加入權重系數α和長寬比特定參數ν，計算公式如式(3)～式(5)所示。

(3)

(4)

(5)

式中：b——預測框對角線交點；

bgt——真實框對角線交點；

ρ——兩交點之間的直線距離；

c——內含預測框和真實框的最小矩形的對角線長度；

α——權重函數，用來調節比例大小；

ν——一致性比例，用來保持長寬比相似；

通過CIOU解決了預測框完全包含真實框但真實框所處位置不同時損失值一樣的缺點。

2.3 多尺度特征融合網絡

為了避免網絡加深導致特征選擇性丟失。Backbone主干網絡提取的3種不同尺度BiFPN結構，進行多尺度特征融合。具體原理圖如圖5所示。

P3、P4、P5、P6、P7經過卷積和平均池化后生成特征圖P-in3、P-in4、P-in5、P-in6、P-in7，P-in7進行上采樣后與P-in6疊加得到P-td6，P-in6進行上采樣后與P-in5疊加得到P-td5，以此類推，P-in5、P-in4進行上采樣后疊加得到特征圖P-out3，再依次進行下采樣，獲得特征圖P-out4、P-out5、P-out6、P-out7。具體運算如式(6)、式(7)所示，以P-td4、P-out4為例，輸出的P-out3、P-out4、P-out5、P-out6、P-out7包含五個深淺語義信息的全局特征。在識別小目標時可以輕松進行多尺度特征融合，更好地表達信息，以此提高識別精度和準確率。

(6)

P-out4=conv{[ω1·P-in4+ω2·P-td4+ω2·Resize(P-out3)]/(ω1+ω2+ω3+ε)}

(7)

式中：P-in——輸入特征；

P-out——輸出特征；

P-td——融合過程的中間層；

ωi——可學習的權重，介于0～1之間；

ε——遠小于1的數。

圖5 BiFPN原理

3 試驗與分析

3.1 數據預處理

本試驗以蘋果為例，研究使用的數據集來自網絡爬取到的蘋果圖片，經過人工挑選，刪除模糊及重復圖像后，獲取共計1 023幅蘋果圖像。以蘋果個數作為分類條件，其中單個蘋果圖像361幅，2～10個蘋果圖像603幅，10個以上蘋果圖像59幅。以不同光照作為分類條件，其中順光圖像409幅，逆光圖像387幅，側光圖像227幅。

采用LabelImg軟件對最終圖片進行標注，包括類別名稱和外包矩形邊框，其信息存儲于xml類型的標注文件內。為了提高模型對樣本的適應能力對1 023幅蘋果圖像進行數據增強，擴充為原來的5倍，共計5 115 幅蘋果圖像，其中訓練集和驗證集的數量分別為4 575和540。批訓練數設為16，初始學習率設為0.001，權重衰減設為0.000 5，epoch設為100，采用隨機梯度下降法進行訓練。

3.2 試驗環境

本文試驗基于pytorch深度學習框架，試驗環境為python3.8，并行計算架構CUDA11.2，GPU加速原語庫cuDNN8.2，具體配置為Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz、內存16 GB和顯存8 GB的NVIDIA Quadro P4000。

3.3 評價指標

為了評估訓練的模型在自然環境下對蘋果的檢測效果，本文采用精確度P(Precision)、召回率R(Recall)、平均精度AP(Average Precision)和mAP(mean Average Precision)四個指標評價模型的檢測效果。首先介紹以下幾個概念：TP(True Positives)說明是蘋果正確判定為蘋果，即為真正類；TN(True Negatives) 說明是蘋果錯誤判定為不是蘋果，即為真負類；FP(False Positives) 說明不是蘋果，錯誤判定為是蘋果，即為假正類；FN(False Negatives) 說明不是蘋果正確判定為不是蘋果，即為假負類。

其中精準率P表示正確判定為蘋果占全部判定為蘋果(包括錯誤判定為蘋果)的比例。

(8)

召回率R表示蘋果正確檢測為蘋果占全部蘋果比例。

(9)

平均精度AP表示精準率P和召回率R所構成的曲線圍成的面積，即AP值。

(10)

均值平均精度mAP表示對所有分類AP取均值。

(11)

3.4 試驗結果與分析

使用改進后的CCB-YOLOv5模型進行試驗。試驗得到損失函數Loss，精準率P，召回率R，均值平均精度mAP分別與迭代次數的曲線圖，如圖6所示。

從圖6可以看出，CCB-YOLOv5算法的損失在迭代到55輪逐漸降低到0.02，最終穩定在0.019左右，相比于原始模型收斂速度更快，損失值更小。經過100次迭代，最終模型的精準率P為94.7%，召回率R為87%，均值平均精度mAP為92.5%。改進后的CCB-YOLOv5模型在P相差不大的前提下R提高了將近7%，mAP提高了將近3.5%。

卷積注意力機制更加重視被檢測目標所需關注的通道和空間，獲取更為重要的信息，提高網絡的特征提取能力；大視場下的蘋果圖比較密集，蘋果大小不一并且伴隨著遮擋情況，完全交并比非極大抑制算法加速了預測框的回歸收斂，可以有效降低由于遮擋率較高導致的漏檢，提高召回率；但是隨著卷積層的不斷加深，會造成特征的丟失，BiFPN通過不同級的深層特征和淺層特征的融合提升了網絡性能，在識別小目標蘋果時可以更好地表達信息，以此提高識別精度和準確率。

(a) 損失loss曲線

圖7展示了原始未檢測圖片，原始YOLOv5和改進后的CCB-YOLOv5模型對真實蘋果的識別結果圖，圖7(a)列為原始未檢測圖片，圖7(b)列為原始YOLOv5的識別結果圖，圖7(c)列為改進后的CCB-YOLOv5的識別結果圖，由第一行對比圖可以看出原始YOLOv5在遮擋面積較大的情況下存在漏檢的情況，改進后的CCB-YOLOv5能夠更好地檢測出遮擋面積較大的蘋果，而且能夠更好地過濾由于相互遮擋造成的不必要的信息，使預測框和檢測目標的輪廓外形更好地貼合，其中橢圓形框為原始YOLOv5漏檢蘋果；從第二到第四行對比圖可以看出改進后的模型對逆光，側光和順光等復雜光照條件下的蘋果檢測能力明顯提升，置信度提升高達0.04；由第五行對比圖可以看出雖然蘋果和樹葉顏色相近且存在大面積遮擋，但是改進后的CCB-YOLOv5在原始YOLOv5的基礎上，整體精度有所提升。改進后的CCB-YOLOv5推理檢測速度為11 ms，檢測速度較快，并且識別到的目標置信度大都在0.5以上，處于較高范圍。

(a) 原始圖像 (b) YOLOv5 (c) CCB-YOLOv5

3.5 消融試驗

對原始YOLOv5網絡進行改進提出來本試驗的方法CCB-YOLOv5，為了驗證各項改進對蘋果的檢測是否有效，設置消融試驗，通過控制變量進行對比研究。四種模型的結果對比如表1所示，其中符號“√”表示在原始YOLOv5網絡中添加相應模塊，模型1表示在YOLOv5中添加CBAM卷積注意力機制，模型2表示在YOLOv5中添加完全交并比非極大抑制CIOU-NMS，模型3表示在YOLOv5中添加加權雙向特征金字塔BiFPN，模型4表示在YOLOv5中依次添加CBAM，CIOU-NMS和BiFPN三個模塊。

由表1可見，原始YOLOv5網絡加入卷積注意力機制后能更好地提取目標特征，召回率提高了1.13%，精準率提高了2.25%，平均精度提高了2.39%；引入完全交并比非極大抑制算法后召回率提高了5.35%，平均精度提高了1.45%，精準率卻降低了2.28%，由于P和R之間有一定相關性，所以在召回率提高時精準率降低的情況是難以避免的；改進原始PANet結構為多尺度特征融合BiFPN后召回率提高了1.18%，精準率提高了1.46%，平均精度提高了1.63%；同時加入三項改進，在幀速度下降0.023FPS，區別較小的情況下，召回率提高了5.4%，精準率提高了1.3%，平均精度提高了3.5%，對于小目標和密集目標的檢測有較大提升。本文算法CCB-YOLOv5 改進的有效性得到了證實。

表1 消融試驗Tab. 1 Ablation experiments

4 結論

1) 本文針對不同光照，遮擋重疊以及大視場等復雜條件下果蔬難以識別，精度不高的問題，提出了一種用于復雜環境下果蔬檢測的改進YOLOv5算法——CCB-YOLOv5，該算法引入卷積注意力機制和完全交并比非極大抑制算法，改進原始特征提取網絡為多尺度特征融合BiFPN，提高目標特征的提取能力以及識別精度和準確率，并以蘋果為例進行試驗。

2) 通過使用評價指標對本文提出的CCB-YOLOv5模型進行分析，召回率R為87%，精準率P為94.7%，平均精度mAP為92.5%，相較于原始YOLOv5模型R提高了將近7%，mAP提高了將近3.5%，識別精度較高。其次CCB-YOLOv5算法的損失在迭代到55輪左右逐漸趨于穩定，相比于原始模型收斂速度更快，損失值更小。在真實環境下平均每幅圖在GPU下的檢測推理速度為11 ms，速度較快。本文方法對遮擋目標和小目標的檢測精度更高，對不同光照的魯棒性更好，對果蔬的識別檢測能夠達到更好的效果。

3) 通過設置消融試驗進行驗證，加入卷積注意力機制后平均精度提高了2.39%，引入完全交并比非極大抑制算法后平均精度提高了1.45%，改進多尺度特征融合BiFPN后平均精度提高了1.63%，各項改進能更好地提取目標特征進行識別，進一步驗證了各項改進的有效性。