周華平 李云豪 黨安培



【摘?? 要】?? 水面漂浮垃圾不斷增多引起關注,針對水面漂浮垃圾邊緣信息模糊的問題,提出E-MP模塊,在MPConv的基礎上添加Laplacians,Sobel-dx和Sobel-dy增強小目標水面漂浮垃圾的邊緣信息。針對小目標漂浮垃圾僅占據圖像少量像素的現象,引入了Biformer注意力模塊。Biformer利用前后兩個方向的上下文信息,更好地捕捉序列中的依賴關系,同時降低背景信息對檢測目標物體帶來的一部分影響。在此基礎上引入SIoU來構建損失函數,將邊界區域作為目標區域來進行加權,可以更好地捕捉目標的邊界信息,從而提高檢測精度。在Flow-Img子數據集上進行了大量實驗,實驗結果表明,YOLOv7-edge模型比原來的模型檢測精度更高,mAP@0.5和mAP@0.5:0.95分別提高了7個百分點和5個百分點。
【關鍵詞】?? 小目標;垃圾檢測;E-MP模塊;Biformer注意力模塊;SIoU
Edge Enhanced Small Target Detection of
Floating Garbage Based on YOLOv7
Zhou Huaping, Li Yunhao*, Dang Anpei
(Anhui University of Science and Technology, Huainan 232001, China)
【Abstract】??? The increasing amount of floating garbage on the water surface has attracted people's attention. In response to the problem of blurred edge information of floating garbage on the water surface, this article proposes an E-MP module, which adds Laplacians, Sobel-dx, and Sobel-dy to enhance the edge information of small floating garbage targets on the water surface based on MPConv. In response to the phenomenon that small floating garbage targets only occupy a small number of pixels in the image, a Biformer attention module has been introduced. The Biformer utilizes contextual information from both the front and back directions to better capture dependencies in the sequence while reducing some of the impact of background information on detecting the target object. On this basis, introducing SIoU to construct a loss function and weighting the boundary region as the target region can better capture the boundary information of the target and improve detection accuracy. A large number of experiments are conducted on the Flow-Img sub dataset, which shows that the YOLOv7 edge model had higher detection accuracy than the original model, mAP@0.5 and mAP@0.5 0.95 increased by 7 % and 5 % respectively.
【Key words】???? small goals; garbage detection; E-MP module; Biformer attention module; SIoU
〔中圖分類號〕 TP183????????????? ?? ????? ???〔文獻標識碼〕? A????? ???????????? 〔文章編號〕 1674 - 3229(2024)02- 0045 - 07
[收稿日期]?? 2023-10-09
[作者簡介]?? 周華平(1979- ),女,博士,安徽理工大學計算機科學與工程學院教授,研究方向:目標檢測。
[通訊作者]?? 李云豪(1999- ),男,安徽理工大學計算機科學與工程學院研究生,研究方向:目標檢測。
0???? 引言
水面漂浮垃圾檢測是目標檢測的一種。目標檢測是在圖像或視頻中準確地識別和定位特定的目標物體[1],在許多領域中都有廣泛的應用[2],如自動駕駛、視頻監控等。目標檢測需要確定目標物體的位置,并用邊界框或像素級的分割來標記目標的準確位置。因此,目標檢測算法需要具備對目標識別和定位的能力。
目標檢測算法的發展經歷了多個階段。早期的算法在復雜場景中的性能有限,隨著深度學習的發展,Krizhevsky 等[3]使卷積神經網絡重煥光彩,開創了現代CNN的先河。其中,最具代表性的算法是基于區域的卷積神經網絡(R-CNN)系列算法,包括R-CNN、Fast R-CNN、Faster R-CNN等。這些方法通過將目標檢測問題轉化為候選區域生成和目標分類/定位兩個子問題,大大提高了目標檢測的準確性和效率。
相比于其他領域的目標檢測,小目標檢測的發展時間相對較短,仍有許多方面尚未完善。小目標的定義有很多種,MSCOCO通用數據集將分辨率小于32*32像素的目標定義為小目標。2016年Chen等 [4]將占總目標幀面積0.05%~0.58%的同類目標定義為小目標,開創了小目標檢測的先例。2018 年Han等[5]第一次提出了把R-CNN用于遙感小目標的檢測。在此文獻的影響下,很多研究人員以Faster R-CNN[6]、SSD[7]以及 YOLO等網絡模型對小目標物體進行檢測。其中Han等[8]、Zand等[9]、Yu等[10]使用旋轉預測框和旋轉檢測器來提高遙感檢測場景的精度,但對其他類型的小目標的效果并不好。在這種背景下,Zhu等[11]提出增加目標檢測層,在檢測小目標方面得到了良好的結果。但在目標較小且密集的情況下,還有漏檢和誤檢的情況,YOLO-Z的PAFPN被Bi-FPN取代,提高了小目標的檢測效果,但忽略了圖像中較大目標的問題。
為 解 決 上 述 問 題 ,本 文 提 出 一 種 YOLOv7-edge模型。通過增加邊緣信息更加準確地找到水平邊緣。引入注意力機制加強對信息的篩選,提高模型的泛化能力和解釋能力。最終通過改進損失函數,提高網絡對于目標尺寸的魯棒性。
1???? 相關工作
1.1?? YOLOv7 模型
YOLOv7[12]是一種目標檢測模型,通過將目標檢測問題轉化為一個回歸問題,直接在圖像上進行目標定位和分類,從而實現快速高效的目標檢測。YOLOv7快速且準確的檢測受到廣泛關注。模型如圖1所示。
YOLOv7是由Wang等[12]于2022年提出的,主要包括Backbone層(由卷積、E-ELAN模塊、MPConv模塊以及SPPCSPC模塊構成)、Neck層(采用了傳統的 PAFPN 結構,在不同層級上進行特征融合,從而提取多尺度的特征)和Head層(由多個卷積層和全連接層組成,用于對特征進行處理和轉換,并輸出目標的位置和類別信息)。與其他模型相比,YOLOv7的設計更加簡潔和高效,可以在處理大規模數據時保持較高的速度和精度。
1.2?? 注意力機制
注意力機制[13-14]是一種計算模型,它模擬人類的注意力過程,使得模型能夠聚焦于輸入數據中最重要的部分。注意力機制已經被廣泛應用于提高模型的性能。在注意力機制中,較高的權重意味著該部分對模型的輸出有更大的影響力。模型可以根據輸入數據的不同部分來調整其關注的重點,這使得模型能夠更好地理解輸入數據的結構和語義,提高模型的性能和泛化能力。
經過多次試驗發現,YOLOv7模型在提取水面漂浮垃圾小目標的淺層紋理和輪廓數據方面沒有取得理想的結果,容易導致信息丟失,并顯著影響小型物體的檢測。因此本文引入了一個對小目標有效的注意力機制。
1.3?? IoU 損失函數
IoU是目標檢測中常用的衡量指標,計算預測框和真實框的交并比。但是,IoU只考慮了兩個框之間的重疊程度,沒有考慮到框的位置、大小等因素。GIoU[15]引入了框的全局信息,解決了IoU的不足。在一些情況下,預測框與真實框之間的距離也是很重要的因素,因此,DIoU[16]在GIoU的基礎上引入了框的距離信息。最后,CIoU在DIoU的基礎上進一步考慮了框的長寬比例的影響。其中,CIoU公式中[α]是一個可調參數,v表示預測框和真實框的長寬比例的差異。
2???? YOLOv7 目標檢測模型的改進
2.1?? E-MP模塊
MPConv 模塊(如圖2所示)的作用是進行多尺度特征融合和信息傳遞。MPConv 模塊是一種多尺度卷積模塊,在目標檢測任務中,需要對不同尺度的特征進行融合和利用,以提高檢測性能。MPConv在特征提取過程中采用的最大池化操作,會將小目標的特征圖壓縮成較小的尺寸,從而導致小目標的細節信息丟失,難以準確地進行檢測和識別。MPConv在進行特征提取時采用固定大小的池化窗口,無法適應小目標的尺度變化,因此在小目標的檢測和識別過程中容易出現漏檢或誤檢的情況。本文在MPConv的基礎上增加了Laplacians算法來增強小目標的邊緣信息,然后再通過Sobel-dx和Sobel-dy計算圖像中每個像素點的水平梯度值來檢測圖像中的水平邊緣。本文提出的用來增強水上目標邊緣的E-MP模塊如圖3所示。
2.2?? Biformer注意力機制
Biformer[17-18]注意力機制(如圖4所示)稱為BiAttention。BiAttention在BERT自注意力機制上添加一個相互注意力機制,在文獻[19-20]的基礎上應用BRA模塊和2層擴展比為e的MLP模塊進行跨位置關系建模和逐位置嵌入,其核心思想是將Transformer模型的編碼器和解碼器結構相結合,以實現雙向的信息流動,BiformerBlock包含了兩個注意力機制:正向注意力和反向注意力。正向注意力用于從左到右處理輸入序列,而反向注意力則從右到左處理輸入序列。這樣,模型可以同時利用前后兩個方向的上下文信息,從而更好地捕捉序列中的依賴關系。
2.3?? 損失函數
本文用SIoU損失函數替換了原模型中的CIoU損失函數,考慮了角度問題。其中b表示預測框,bgt表示真實框,c表示預測框和真實框的最小閉合區域的對角線距離,[α]是平衡參數,用于衡量長寬比是否一致。添加角度成本可提高檢測精度,如圖5所示。
判斷使用 [β] 還是[α]是通過和45°的比較,角度成本的計算如式(1):
[∧=1-2×sin2(arcsinx-π4)] ????? (1)
SIoU損失函數對分割結果進行了平滑處理,可以減少分割結果的噪聲和不連續性,減少了真實框和預測框之間的距離,如式(2):
[Δ=t=x,y(1-e-γρ)]??? ???????????????????????????????? (2)
SIoU只關注兩個形狀的重疊部分,而不考慮它們的位置和大小。因此,無論形狀在圖像中的位置和大小如何變化,SIoU都可以正確地衡量它們之間的相似度。形狀成本[Ω]的定義如式(3):
[Ω=t=w,h(1-e-ωt)θ]??????????????????????????????????????? (3)
損 失 函 數 的 最 終 定 義 如 式(4):
[LSIoU=1-IIoU+Δ+Ω2]???????????? ??? ???(4)
總的來說,SIoU損失函數適用于目標檢測任務,具有尺度不變性、對稱性、可導性和相似度度量等特點。改進后的模型圖命名為YOLOv7-edge,其中深色模塊為改進部分,如圖6所示。
3???? 實驗結果與分析
3.1?? 實驗環境與參數設置
網 絡 實 驗 環 境 為 Win10、Python3.8 和PyTorch1.12.1,相關硬件配置和模型參數如表1 所示,其中訓練數據量為 300。
3.2?? 評價指標
本實驗主要由準確率、召回率、平均準確率(AP)、平 均 精 度 均 值(mAP)4個指標在相同實驗環境下的漏檢和誤檢情況來評判,計算公式如下:
[P=TTPTTP+FFP×100%]???????????????? (5)
[R=TTPTTP+FFN×100%]?????????????????????????????????? ???? (6)
[AP=01P(R)dR]???????????????????????????????? (7)
[mAP=i=1kAPik]??????????? ?????????????????(8)
準確率用[TTP]表示;錯誤率用[FFP]表示,錯誤包含誤檢和漏檢兩種情況,誤檢情況用[FFN]表示;其中P 表示準確率,R 表示召回率。P-R 曲線與坐標軸圍成的面積為 AP 值大小。一般情況下網絡模型性能的評價指標是所有類別的 AP 值的平均數mAP。
3.3?? 實驗數據集
FloW-Img 子數據集是全球第一個水面漂浮垃圾真實影像數據集,圖像數據集包含2000張圖像,其中包含5271個標記的水面漂浮垃圾。訓練集和測試集采用6:4的劃分,用1200張不經過篩選的圖像作為訓練集,其余的自動成為測試集。
由整個數據集、訓練集和測試集在一幀內的對象數量和標記對象占用面積的分布情況可以看出,不同大小的目標在訓練數據和測試數據中的分布近似匹配。小目標(面積< 32 × 32)在本文數據集中所占的比例最大,這使得檢測更具挑戰性。數據集示例如圖7所示。
3.4?? 消融實驗
本文針對以下 3 種情況對E-MP模塊的位置進行了實驗,情況1在Backbone中替換MPConv模塊,情況2在Neck中替換MPConv模塊,情況3在Backbone和Neck中替換MPConv模塊,實驗結果如表 2 所示。其中,mAP@0.5 和 mAP@0.5∶0.95 分別表示 IoU=0.5、0.5≤IoU≤0.95 時各個類別的平均 AP 值。
注意力模塊的添加對小目標檢測的信息提取也有很大的作用,不同模塊對目標檢測會產生很大的影響。為了使BiFormer提取更充足有效的信息,分別在E-ELAN模塊、SPPCSPC模塊、REP模塊中進行實驗,實驗結果如表 3 所示。
3.5?? YOLOv7 網絡模型與改進網絡模型實驗對比
對水面漂浮小目標檢測得出的 P-R 曲線對比如圖8所示。改進后的 YOLOv7-edge網絡模型在水面漂浮垃圾小目標數據集的檢測中表現了良好的性能,檢測目標的 AP 值比改進前網絡模型和ACAM-YOLO模型(對小目標檢測有利的網絡模型)提高了很多。
本文針對實際情況中水面漂浮垃圾小目標圖像、水面漂浮垃圾超小目標圖像和水面漂浮垃圾密集超小目標圖像這三種類型的圖片,對原網絡模型進行了改進。改進后的模型在檢測這些具有代表性的水面漂浮垃圾小目標方面表現出色,有效解決了水上漂浮垃圾檢測問題。對比圖如圖9至圖11所示。
3.6?? 改進YOLOv7網絡模型與其他網絡模型的對比
在相同環境、訓練參數和配置下,將經典網絡和一些對小目標檢測有益的模型與YOLOv7-edge進行比較,結果表明本方法在水面漂浮垃圾檢測方面表現出有效性。mAP@0.5和mAP@0.5:0.95指標均取得了一定的提升,如表4所示。
4???? 結論
針對水面漂浮垃圾邊緣信息模糊的問題,本文提出了一種基于YOLOv7的邊緣增強模型,首先通過本文提出的E-MP模塊,增強了小目標的邊緣信息,其次在SPPCSPC模塊中引入Biformer注意力機制加強底層信息的提取,最后通過對IoU損失函數進行優化,減少了誤檢和漏檢。實驗表明改進后的模型與原有的模型相比檢測精度有了很大的提升,對水面漂浮垃圾治理有一定的實際意義。
[參考文獻]
[1] 戚玲瓏,高建瓴. 基于改進YOLOv7的小目標檢測[J]. 計算機工程,2023,49(1):41-48.
[2] 谷永立,宗欣欣. 基于深度學習的目標檢測研究綜述[J]. 現代信息科技,2022,6(11):76-81.
[3] Girshick R,Donahue J,Darrell T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[A]. Proceedings of the IEEE conference on computer vision and pattern recognition[C]. Washington D.C.,USA:IEEE Press,2014:580-587.
[4] Chen C,Liu M Y,Tuzel O,et al. R-CNN for small object detection[A]. Proceedings of IEEE International Conference on Computer Vision[C]. Washington D.C.,USA:IEEE Press,2016:214-230.
[5] Hu G,Yang Z,Han J,et al. Aircraft detection in remote sensing images based on saliency and convolution neural network[J]. EURASIP Journal on Wireless Communications and Networking,2018(2018):1-16.
[6] 趙加坤,孫俊,韓睿,等. 基于改進的Faster Rcnn遙感圖像目標檢測[J]. 計算機應用與軟件,2022,39(5):192-196+290.
[7] 賈可心,馬正華,朱蓉,等. 注意力機制改進輕量SSD模型的海面小目標檢測[J]. 中國圖象圖形學報,2022,27(4):1161-1175.
[8] Han J,Ding J,Xue N,et al. Redet: A rotation-equivariant detector for aerial object detection[A]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition[C]. Washington D.C.,USA: IEEE Press,2021: 2786-2795.
[9] Zand M,Etemad A,Greenspan M. Oriented bounding boxes for small and freely rotated objects[J]. IEEE Transactions on Geoscience and Remote Sensing,2021,60(5): 1-15.
[10]Yu D,Xu Q,Guo H,et al. Anchor-free arbitrary-oriented object detector using box boundary-aware vectors[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15: 2535-2545.
[11] Zhu X,Lyu S,Wang X,et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[A]. Proceedings of the IEEE/CVF international conference on computer vision[C].Washington D.C.,USA: IEEE Press,2021: 2778-2788.
[12]Wang C Y,Bochkovskiy A,Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[A]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition[C]. Washington D.C.,USA: IEEE Press,2023: 7464-7475.
[13]Niu Z,Zhong G,Yu H. A review on the attention mechanism of deep learning[J]. Neurocomputing,2021,452: 48-62.
[14]Brauwers G,Frasincar F. A general survey on attention mechanisms in deep learning[J]. IEEE Transactions on Knowledge and Data Engineering,2021,35(4): 3279-3298.
[15] Zhou D,Fang J,Song X,et al. Iou loss for 2d/3d object detection[A]. 2019 international conference on 3D vision (3DV)[C]. Washington D.C.,USA: IEEE Press,2019: 85-94.
[16]Zheng Z,Wang P,Liu W,et al. Distance-IoU loss:faster and better learning for bounding box regression[J]. Artificial Intelligence,2020,34(7):12993-13000.
[17]Chu X,Tian Z,Wang Y,et al. Twins: Revisiting the design of spatial attention in vision transformers[J]. Advances in neural information processing systems,2021,34: 9355-9366.
[18]Zhu L,Wang X,Ke Z,et al. BiFormer: Vision Transformer with Bi-Level Routing Attention[A]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition[C]. Washington D.C.,USA:IEEE Press,2023:10323-10333.
[19]Dong X,Bao J,Chen D,et al. Cswin transformer: A general vision transformer backbone with cross-shaped windows[A]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition[C]. Washington D.C.,USA: IEEE Press,2022: 12124-12134.
[20]Liu Z,Lin Y,Cao Y,et al. Swin transformer: Hierarchical vision transformer using shifted windows[A]. Proceedings of the IEEE/CVF international conference on computer vision[C]. Washington D.C.,USA: IEEE Press,2021:10012-10022.