基于改進YOLOv5s的海洋垃圾目標檢測算法＊

2023-10-23 02:58:40涂振宇李元漢

計算機時代 2023年10期

劉將，涂振宇，李元漢，李豪

(南昌工程學院信息工程學院，江西南昌 330099)

0 引言

近幾年，伴隨著機器學習和深度學習技術的不斷發展，目標檢測技術作為計算機視覺（CV）領域的主要方向，取得了巨大進步。目前，目標檢測技術在細胞檢測、面部檢測、交通檢測、行為識別等多個領域取得重大突破，它是利用數字圖像處理、深度學習等相關技術，它的主要任務是選定圖像中的目標，對選中目標同時進行定位與分類。早期的目標檢測算法一般由人工提取目標特征，所以大多數模型檢測精度較低。近些年，隨著硬件算力的不斷進步，目標檢測算法分為單階段和雙階段兩大類，而YOLO 系列算法是經典的單階段目標檢測算法。

2020 年6 月10 日，Ultralytics LLC 公司發布了最新的YOLOv5 算法，該算法相較于先前版本在檢測速度和精度上有了新突破。YOLOv5 是一個高靈活性、通用的目標檢測模型，可以利用它來進行快速部署。目前，海洋中大約存在6600 萬噸垃圾，其中大部分都在水下，對海洋生態系統構成極大的威脅。為盡快解決海洋污染問題，我國對海洋垃圾的清理格外重視，但人工清理海洋垃圾的工作既復雜又危險，因此，需要海洋垃圾清理機器人進行協助捕撈。本文將基于YOLOv5 模型進行改進，并將其運用于海洋垃圾目標檢測。針對YOLOv5 目標檢測算法中小目標漏檢及特征提取能力不足等問題，對YOLOv5 的主干網絡(Backbone)部分進行改進，并在含有11 類海洋垃圾的圖像數據集上進行多次實驗，旨為海洋垃圾清理機器人提供算法支持。

1 YOLOv5s算法概述

目前，YOLOv5 算法具有四種模型[1]。YOLOv5s是其中網絡深度和寬度最小的模型，越小的模型檢測速度越快，也越容易部署到移動設備上。

YOLOv5s結構分為Input、Backbone、Neck、Prediction 四個部分。Input 部分采用馬賽克（Mosaic）數據增強的方式，該方法每次使用四張圖片進行隨機操作，最后合為一張圖片，如圖1 所示，它可以豐富檢測目標的背景，防止網絡模型過擬合[2]；Backbone 部分主要由CBS、CSP、SPPF 等模塊組成。其中，CBS 模塊可以有效提取圖像特征，CSP 模塊能夠加快網絡推理速度，SPPF 為空間金字塔池化層，它可以增大圖像感受野和提升網絡計算速度；Neck 端包含了FPN 和PAN 兩部分[3],兩者結合提升了不同尺度特征的融合效果；Prediction 部分為網絡的預測環節，共輸出三組預測結果，其中每組包含了預測框的偏移量、置信度和目標屬于每個類別的條件概率[4]。

圖1 Mosaic數據增強后樣本圖像

2 改進YOLOv5s算法

2.1 模型結構

首先，在主干網絡的每一個CSP 模塊后都添加一個Attention-k 結構。其次，將主干網絡的SPPF 模塊替換為SPPF_RFB 模塊，改進后的模型結構如圖2 所示，其中k 為圖6 的Attention-K 結構，SPPF_RFB 模塊如圖7所示。

圖2 改進后的模型結構圖

2.2 大核注意力機制

自從完全注意力（Full-Attention）網絡出現以來，Transformer 迅速成為自然語言處理（NLP）[5]中的主流架構。目前，研究者們又提出Vision Transformer[6]，并在分類任務中優于卷積神經網絡（CNN）。基于Transformer 的視覺骨干網絡快速霸占了各種CV 任務的排行榜，包括目標檢測、語義分割等。但卷積網絡和自注意力仍然存在一些缺點[7]。卷積運算采用靜態權重，缺乏適應性而自注意力（Self-Attention）起先是為NLP 而設計。在處理CV 任務時，它具有三個缺點。①它將圖像作為一維序列，忽略了圖像本身的二維結構。②二次復雜度不易處理高分辨率圖像。③它僅實現了空間適應性，而忽略了通道維度的適應性。對于大多數視覺任務，不同的通道通常代表不同的對象，所以通道適應性對CV 任務特別重要。為了解決上述問題，本文使用了新型的大核注意力（Large Kernel Attention,LKA）機制[8]。

LKA 模塊具有卷積網絡和自注意力的特點，包括獲取局部通道信息和空間維度的適應性。LKA 模塊將大核卷積分解為三個部分：深度卷積（DW-Conv）、深度膨脹卷積（DW-D-Conv）和點卷積（1×1Conv）。如圖3所示，其中黑色網格為中心點。

圖3 大核卷積分解圖

具體來說，一個K×K 卷積被分解為一個關于膨脹率（d）的（K/d）×（K/d）深度膨脹卷積，一個（2d-1）×（2d-1）的深度卷積和一個1×1卷積。DW-Conv可以獲取圖像的局部上下文信息，DW-D-Conv 則提供深度方向的擴張卷積，使網絡具有長期依賴性，1×1卷積，可以讓網絡獲得通道維度的適應性。

LKA 模塊不僅能夠減少網絡模型參數，降低計算成本，而且能夠評估圖像中每個點的重要性，分配有限的信息處理資源給圖像重要的部分[9]。大核注意力機制結合了自注意力和卷積神經網絡的優點，考慮了局部語境信息、大感受野和動態過程。此外，它也實現了空間維度和通道維度的適應性。LKA 模塊結構如圖4所示。

圖4 LKA結構圖

LKA 模塊的計算公式見式⑴、式⑵。其中，B 為輸入特征，A為階段輸出特征。

2.3 改進大核注意力機制

經過多次實驗發現，LKA 模塊獲取全局通道信息能力較差，空間維度適應性一般。因此，本文在大核注意力模塊中引入空間注意力和通道注意力模塊，即LKA-K 模塊，如圖5 所示。具體來說，將輸入分為兩個部分。第一部分是將通道注意力和輸入進行相乘操作。第二部分將空間注意力與深度卷積、深度膨脹卷積相融合。最后，將兩部分1×1卷積的結果做相乘操作。

圖5 LKA-K結構圖

空間注意力能夠讓圖像數據在空間中進行不斷變換，并自動獲取圖像重要位置特征。空間注意力通過對模型輸入的不同位置進行加權操作，讓模型能夠更好地選擇不同位置的圖像特征，從而提高網絡的分類精度。此外，空間注意力能夠有效處理圖片數據，使模型具有更好的魯棒性。它還能夠減少冗余計算，有利于提高處理大數據時的計算效率。空間注意力能夠生成一組權重，用于理解圖像每個位置的重要程度。本文將空間注意力和深度膨脹卷積相結合，能夠有效解決大核注意力模塊在空間維度適應性不足的問題。

通道注意力通過對輸入層的所有通道進行加權處理，然后獲得加權后的圖像特征圖。這種加權方式一般使用全局平均池化來實現，即對通道特征圖進行平均池化，然后對所有權重值進行批量歸一化操作。本文將通道注意力和大核注意力相結合，目的是進一步提高大核注意力的全局通道信息能力。

由于數據集中小目標的形狀、顏色非常復雜，甚至出現一些細長的垃圾或細微的金屬等，給檢測任務帶來一定的困難。因此，本文通過改進大核注意力機制有效提高模型的小目標檢測性能。

2.4 Attention-L和Attention-K

首先，本文提出了一種基于大核注意力機制的新型模塊，即Attention-L 網絡，目的是為了分配有限的信息處理資源給圖像重要的部分，提升模型的小目標特征提取能力。雖然Attention-L 結構簡單，但是通過實驗發現，在主干網絡的每一個CSP 結構后添加一個Attention-L 結構。該模塊具有簡單的層次結構，在原始LKA 模塊前后分別加上一個1×1 卷積來保證網絡模型前后通道數相同，這樣還可以減少網絡模型的參數量，有利于加快模型訓練速度。同時，在第一個1×1卷積后添加了Gelu 激活函數，Gelu 又稱高斯誤差線性單元，它能夠有效地解決深層網絡梯度消失的問題，并且可以防止網絡模型過擬合。

之后，本文提出一種基于改進大核注意力機制的新型模塊，即Attention-K 網絡。Attention-K 模塊只是將Attention-L 模塊中LKA 結構替換為LKA-K 結構，目的是讓模型對大量圖像數據在空間中進行不斷變換，并獲取圖像重要特征，以及對所有空間信息進行縮減，然后在通道維度對圖像進行特征學習。實驗發現，該模塊能夠有效提升模型的小目標特征提取能力，Attention-K結構如圖6所示。

圖6 Attention-K結構圖

2.5 改進SPPF網絡結構

SPPF（空間金字塔池化）主要是對輸入特征圖做三個不同大小的池化操作。該模塊通過多尺度池化的方式，獲取了輸入特征圖中不同尺度的特征信息，從而提高了模型的準確性和運算效率。

但通過實驗發現，SPPF模塊獲取的圖像局部信息過多，導致全局信息少量丟失，從而影響模型的準確率。因此，本文引入新型的ResNet_RFB 模塊，該模塊運用了殘差網絡的思想，使用卷積不斷優化深層網絡，通過增加網絡深度來擴大特征圖的感受野。在此基礎上，本文也運用了BasicRFB 系列模塊。它能夠保證檢測速度的同時進一步擴大特征圖的感受野，從而加強網絡的小目標特征提取能力。

具體來說，本文在主干網絡的SPPF模塊中加入了ResNet_RFB，即SPPF_RFB，如圖7所示。ResNet_RFB模塊由BasicRFB、BasicRFB_A、兩個普通卷積和一個1×1卷積組成，如圖8所示。

圖7 SPPF_RFB結構圖

圖8 ResNet_RFB結構圖

3 實驗與分析

本次實驗數據來自J-EDI 海洋垃圾數據集。該數據集具有從現實世界環境中捕獲的各種不同類型海洋垃圾圖像，圖像中具有遮擋和生長狀態的各種物體。所有圖像都在海洋垃圾、植物和動物等對象以及遙控無人潛水器上標有邊界框和類別。本文選取4576 張作為訓練集，選取1144 張作為測試集。圖9 是訓練集中所有標簽大小的分布圖，橫縱坐標分別表示所有標簽框的寬度和高度。通過觀察發現，圖像左下角聚集了相對較多的點，說明該數據集中存在多個小目標，與本文所研究的問題和背景相契合。實驗平臺配置見表1。

表1 實驗平臺配置表

圖9 訓練集標簽的大小分布圖

完成環境配置后，在相同超參數的前提下，進行模型訓練和測試。其中，訓練epochs 設為400，batchsize 設為10，num-workers 設為2，優化器為SGD，lr 初始值設為0.01，采取mAP50:95、精確率（P）、召回率（R）等指標作為模型性能的評價指標。精確率是指檢測出的正樣本中真實正樣本的概率，召回率指在實際的正樣本中檢測出正樣本的概率，計算公式如下：

其中，TP 表示正確檢測為正樣本的目標個數，FP 表示將負樣本錯誤檢測為正樣本的目標個數，FN表示正樣本被錯誤檢測為負樣本的目標個數[10]。mAP50:95 表示IOU 閾值為0.5 到0.95 時所有目標類別的平均檢測精度,用來反映算法對不同類別目標的綜合分類能力，計算公式如下：

在式⑸中，N 表示測試集中的樣本總數，K 為數據集中類別個數，P(i)是模型預測第i 個樣本時精準率的值，R(i)表示為模型樣本數從i-1變為i時，召回率的實時變化情況。

3.1 消融實驗

本文進行消融實驗評估不同模塊在相同實驗條件下對目標檢測算法性能造成的影響。消融實驗中選擇YOLOv5s的6.0版本作為基礎模型。設輸入圖像分辨率為640×640，訓練400 次后的結果如表2、圖10所示。（用“√”表示改進，用“-”表示未改進）

表2 消融實驗

圖10 模型mAP50:95對比圖

模型①為原YOLOv5s 網絡，模型的mAP50:95 為63.6%。模型②在Backbone 部分引入了Attention-L模塊，與模型①相比，其mAP50:95提升1.2%。模型③在Backbone 部分引入了Attention-K 模塊，與模型①和模型②相比，其mAP50:95 分別提升1.9%和0.7%，說明改進大核注意力機制能夠有效提升模型的小目標特征提取能力。模型④對原網絡的SPPF 模塊進行改進，與模型①相比，其mAP50:95 提升1.3%，這說明BasicRFB 系列模塊和殘差網絡相結合能夠有效擴大特征圖的感受野。模型⑤則是將Attention-L 和SPP_RFB 進行結合，通過實驗發現，改進后模型的mAP50:95 相較于模型①和模型④分別提升3.9%和2.6%。模型⑥則是將Attention-K 和SPP_RFB 結合，通過實驗發現，改進后模型的mAP50:95相較于模型①、模型⑤，分別提升6%、2.1%,一定程度上緩解了因背景復雜類別過多而出現的小目標漏檢及特征提取能力不足等問題。

圖11 是原YOLOv5s 模型和模型⑥的小目標檢測結果對比，圖11(a)左邊第一幅圖為原YOLOv5s 模型檢測結果，可以發現，右下角的一塊plastic區域未被檢測出，而圖11(a)中的模型⑥則檢測出plastic 區域。圖11(b)中原網絡未將右邊的一塊paper 區域檢測出，而圖11(b)中的模型⑥未出現小目標漏檢情況。因此，相比原YOLOv5s模型，本文改進模型可以在保證檢測速度的同時，降低小目標的漏檢率。

圖11 模型檢測結果對比圖（左圖為原模型）

3.2 對比實驗

為了驗證改進后YOLOv5s算法的實用性，本文在使用相同訓練樣本的前提下，對目前流行的目標檢測算法與改進的YOLOv5s算法進行比較，并將所有超參數都設置為相同默認值。比較結果用mAP50:95、檢測速度和參數量進行評價。實驗結果，如表3所示。

表3 對比實驗

表3 對比實驗結果顯示：本文改進的YOLOv5s 模型相比于其他兩種流行目標檢測算法，有效地提升了一些類別的檢測精度，mAP50:95 達到69.6%；參數量也達到41.18m，更有利于移動端的部署；同時模型具有較高的檢測速度，達到了40.4fps，實現了對水下目標的實時檢測。因此可以得出，本文改進的YOLOv5s模型在參數量、檢測精度和檢測速度等方面均優于主流目標檢測算法，能更好地完成海洋垃圾檢測任務。

4 結束語

本文分析了海洋垃圾目標檢測的困難和需求，發現當前算法在應用時存在一些小目標漏檢及特征提取能力不足等問題，所以本文提出一種基于改進YOLOv5s的海洋垃圾目標檢測算法。首先，在原模型的主干網絡部分添加Attention-K 模塊來提升模型的小目標特征提取能力。其次，為了解決小目標漏檢等問題，改變了原SPPF 網絡結構，目的是讓網絡特征圖具有更大的感受野。最后，在J-EDI海洋垃圾數據集上進行了訓練和測試，實驗結果證明，本文改進的模型在小目標檢測上具有更好的特征提取能力和更高的檢測精度。本算法可以部署在海洋垃圾清理機器人中，這樣能夠避免在危險海域對垃圾進行人工捕撈，通過這種方法可以消除水污染并恢復海洋生態系統，對于保護海洋資源環境具有重大意義。