999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多分支混合注意力的小目標檢測算法

2023-11-29 12:10:28秦強強廖俊國周弋荀
計算機應用 2023年11期
關鍵詞:特征檢測模型

秦強強,廖俊國,周弋荀

基于多分支混合注意力的小目標檢測算法

秦強強,廖俊國*,周弋荀

(湖南科技大學 計算機科學與工程學院,湖南 湘潭 411201)( ? 通信作者電子郵箱jgliao@hnust.edu.cn)

針對圖像中的小目標特征信息少、占比低、易受環境影響等特點,提出一種基于多分支混合注意力的小目標檢測算法SMAM-YOLO。首先,將通道注意力(CA)和空間注意力(SA)相結合,重新組合連接結構,提出一種混合注意力模塊(MAM),增強模型對小目標特征在空間維度上的表達能力。其次,根據不同大小的感受野對目標影響的不同,基于混合注意力提出一種多分支混合注意力模塊(SMAM);根據輸入特征圖的尺度自適應調整感受野大小,同時使用混合注意力增強不同分支下對小目標特征信息的捕獲能力。最后,使用SMAM改進YOLOv5中的核心殘差模塊,提出一種基于CSPNet(Cross Stage Partial Network)和SMAM的特征提取模塊CSMAM,而且CSMAM的額外計算開銷可以忽略不計。在TinyPerson數據集上的實驗結果表明,與基線算法YOLOv5s相比,當交并比(IoU)閾值為0.5時,SMAM-YOLO算法的平均檢測精度(mAP50)提升了4.15個百分點,且檢測速度達到74 frame/s;此外,與現有的一些主流小目標檢測模型相比,SMAM-YOLO算法在mAP50上平均提升了1.46~6.84個百分點,且能滿足實時性檢測的需求。

小目標檢測;多分支網絡;混合注意力;特征融合;實時檢測

0 引言

隨著深度學習的不斷發展以及硬件成本的不斷降低,基于深度學習的目標檢測算法取得了長足的進步。與中大型目標檢測相比,小目標檢測具有目標特征信息少、數據集比例不均衡以及易受環境影響等特點,這些特點導致小目標檢測的精度不高。小目標檢測在海上救援、監控識別、無人機識別、遙感衛星、海洋生物檢測等任務中有廣泛的應用。因此,研究小目標檢測算法并提高小目標的檢測精度與效率具有重要意義。

由于不斷下采樣,基于深度學習的目標檢測在特征提取過程中過濾了相關噪聲,增強了目標的特征表達,同時也導致小目標在網絡的前向傳播中丟失信息。為此,有些學者提出了基于特征金字塔網絡(Feature Pyramid Network, FPN)[1]的多尺度特征融合網絡,如路徑聚合網絡(Path Aggregation Network, PANet)[2]、神經架構搜索網絡(Neural Architecture Search Network, NAS-Net)[3]、深度特征金字塔網絡(Deep Feature Pyramid Network, DFPN)[4]、雙向加權特征金字塔網絡(Bidirectional Feature Pyramid Network, BiFPN)[5]等。但是,在這些網絡中,不同層之間的融合方式僅僅是簡單求和,忽略了目標在場景中的相關性,對于小目標檢測的性能提升有限。擠壓-激勵網絡(Squeeze Excitation Network, SE-Net)[6]、卷積注意力模塊(Convolutional Block Attention Module, CBAM)[7]、頻域通道注意力網絡(Frequency channel attention Network, FcaNet)[8]等方法從通道和空間注意力等不同角度對小目標建模,得到了兩個維度的注意力權重矩陣,從而增強小目標特征表達,抑制其他目標及復雜環境信息;但是,這些注意力網絡設計忽略了不同卷積核對小目標檢測的影響。

針對上述問題,本文提出了一種基于多分支網絡結構與混合注意力的小目標檢測算法SMAM-YOLO。該算法使用YOLOv5s作為小目標檢測的基線算法,然后利用混合注意力機制和多分支網絡結構對基線算法進行改進優化。主要改進如下:

1)將通道注意力(Channel Attention, CA)和空間注意力(Spatial Attention, SA)相結合,重新組合連接結構,提出混合注意力模塊(Mixed Attention Module, MAM)。MAM可以獲得豐富的全局空間權重注意力矩陣,增強小目標特征信息,抑制背景等無關信息。

2)結合多分支網絡和MAM,提出一種新的多分支混合注意力模塊(Split Mixed Attention Module, SMAM)。SMAM可以根據輸入目標的尺度自適應調整感受野的大小,增強小目標的特征表達。

3)為提升小目標的特征提取能力,改進YOLOv5的核心殘差塊C3,將SMAM和C3結合,提出基于CSPNet(Cross Stage Partial Network)[9]的特征提取殘差塊CSMAM。CSMAM在特征提取時可以將更多的注意力聚焦在小目標上,增強小目標的特征信息。同時在P2層引入一個新的預測分支和小目標檢測頭,以獲得更多的淺層信息,有利于小目標的檢測。

1 相關工作

SMAM-YOLO是一種基于多分支混合注意力的小目標檢測方法,涉及以下相關知識:1)小目標檢測;2)多分支和注意力機制;3)多尺度特征融合;4)YOLO。本章對相關知識的研究工作進行簡述。

1.1 小目標檢測

1.2 多分支和注意力機制

基于深度學習的目標檢測方法大多使用卷積神經網絡,然而不同的卷積核對不同大小的目標敏感程度并不同。2017年,Szegedy等[15]提出的GoogleNet取得了巨大的成功,網絡中的Inception結構由4個具有不同卷積核的網絡塊組成。之后Xie等[16]提出的ResNeXt在ResNet的Bottleneck中引入分組卷積,在基礎結構中使用了多分支結構,并通過實驗證明了多分支結構的有效性。SE-Net通過在特征的通道層加入通道注意力機制來自適應地重新標定特征,從而增強有效目標特征、抑制背景信息。SK-Net(Selective Kernel Network)[17]使用2個不同卷積核分支網絡,通過對融合特征引入通道注意力機制、再自適應拆分對分支網絡重標定。ResNeSt[18]對SK-Net進行改進,使用個不同卷積核,同時為了共享計算,后續卷積核使用第一個空洞卷積,引入通道注意力后,拆分為個注意力重新校準不同感受野下的特征。CBAM使用通道間的均值和最大值之和重新定義通道注意力,同時引入空間注意力,使用通道和空間的串聯混合注意力重標定特征圖,實驗證明CBAM的效果比單一的注意力效果更優。受到這些方法的啟發,本文改進混合注意力結構,將多分支網絡和混合注意力結合起來,并通過實驗驗證了方法的有效性。

1.3 多尺度特征融合

目前,絕大多數目標檢測算法都使用多次下采樣后的深層特征來分類和回歸。但是,小目標的尺寸非常小,隨著網絡的不斷深入,小目標的特征很難保留下來,將顯著影響小目標的檢測;而淺層網絡的特征具有更加詳細的位置信息和小目標信息,所以,將淺層特征和深層特征進行多尺度特征融合是一種有效的解決方法。FPN通過自上而下的橫向連接網絡將深層和淺層特征融合起來;然而,FPN自上而下的連接結構導致網絡淺層擁有深層所有的語義信息,而深層沒有融合相對應的淺層信息。PANet在FPN的基礎上增加了一條額外的自下而上的連接網絡解決了這一問題。

BiFPN改進了PANet的拓撲結構,并提出了更加高效的路徑聚合網絡。本文選擇帶有PANet的YOLOv5s作為基礎網絡。

1.4 YOLO

YOLO[19]是目標檢測中單階段網絡結構的典型算法,它的檢測速度比雙階段的Faster RCNN[20]、Mask RCNN[21]等算法更快,因為YOLO算法的核心思想是將整個分類和定位當成一個回歸問題,在對圖像提取特征后直接回歸得到類別和位置,大幅降低了算法所消耗的資源和時間開銷[22]。YOLOv2[23]在之前的基礎上改進了錨框策略,使用K-means聚類生成更加貼合數據集的先驗框;YOLOv3[24]使用Darknet53結構的骨干網絡,增強了特征提取的能力與效果;YOLOv4[25]使用改進的CSPDarknet53結構,同時使用FPN的特征融合方法;YOLOv5在前述基礎上作了很多改進,根據網絡的深度和寬度提供不同復雜度的模型,包括YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x共五種大小的模型。YOLOv5整體網絡包括輸入(Input)、特征提取主干網絡(Backbone)、特征融合層(Neck)、檢測輸出(Head)四個部分。一般來說,在YOLOv5中,Backbone采用CSPDarknet53和快速空間金字塔池化(Spatial Pyramid Pooling-Fast, SPPF),Neck使用PANet。本文選擇YOLOv5s作為小目標檢測的基線模型。

2 SMAM?YOLO算法

2.1 總體架構

與背景相比,小目標的尺寸非常小,且自身信息非常缺乏,直接輸入YOLOv5會導致網絡將它當成普通目標計算,忽略了它的特殊性。首先,受文獻[7,18]工作的啟發,本文改進了單一感受野下的通道-空間注意力機制,并結合多分支網絡結構,提出多分支混合注意力模塊(SMAM)。相較于文獻[7]的方法,SMAM在增加少量計算量的情況下,能更加有效地挖掘小目標的特征信息,并根據不同尺度的特征圖動態地為小目標的貢獻分配混合注意力權重。然后,在Backbone的最后一層引入改進的特征提取模塊CSMAM,增強主干網絡的特征提取能力;同時在Neck的多尺度融合過程的上下采樣中引入SMAM和CSMAM,增強小目標的特征表達。最后,在PANet的網絡結構中增加一個P2檢測分支,用來檢測小目標。綜上所述,SMAM-YOLO算法的整體網絡結構如圖1所示,基于YOLOv5s主要作了以下改進:

1)主干網絡:在Backbone末端中引入所提出的基于CSPNet的CSMAM。

2)特征融合網絡:增加小目標檢測分支,并在特征金字塔上采樣的每一層融合后插入SMAM模塊,在下采樣的每一層插入CSMAM和SMAM模塊。

圖1 SMAM-YOLO算法的整體網絡結構

2.2 SMAM

受文獻[7]中工作的啟發,本文設計了2個卷積注意力模塊:CA模塊和SA模塊。

CA的結構如圖2所示,計算公式如式(1)所示:

其中:輸入特征圖F大小為;Sigmoid為激活函數,AdaAvgPooling為全局自適應平均池化,AdaMaxPooling為全局自適應最大池化; 為全連接網絡。首先,對特征圖F分別作全局自適應平均池化和最大池化;然后將得到的2種通道權重通過全連接層fc(Conv+ReLU+Conv);最后對全連接的2個不同的權重求和,并由Sigmoid激活得到通道注意力XCA,此時大小為。

SA的結構如圖3所示,計算公式如式(2)所示:

由于文獻[7]在通道注意力后先重標定特征空間,再串聯空間注意力后再次重標定,得到兩次注意力加權后的特征圖,但輸出是加權后的特征圖,不利于結合多分支網絡;同時串聯方式雖然簡單且效果良好,但是沒有充分考慮合理的連接方式對小目標的影響。為了在不增加額外計算量的情況下更好地結合多分支網絡結構,對CBAM網絡結構改進,提出MAM,結構如圖4所示,計算公式如式(3)所示:

其中:輸入特征圖F大小為;CA是通道注意力,輸出大小為;SA是空間注意力,輸出大小為;mul是矩陣乘法;XMAM是CA和SA的未重標定的混合注意力權重,輸出大小為。

圖4 MAM的結構

文獻[18]中的多分支注意力模塊僅使用了通道注意力對小目標進行特征提取,有一定的效果,但是缺乏對空間的思考,并不全面。因此,將MAM引入多分支網絡,提出SMAM,它的網絡結構如圖5所示。

分配好各分支的權重后,對多分支特征圖重標定,并且對應元素求和,得到多分支混合注意力加權后的特征圖out,如式(6)所示:

其中:S為分支數;i為重標定的分支;Fi是第個分支。最后輸出大小為。

2.3 特征提取模塊CSMAM

YOLOv5中特征提取的核心模塊C3,主要使用基于CSPNet結構堆疊的Bottleneck殘差塊。對C3結構進行改進,將殘差塊中的3×3卷積替換為SMAM;同時為了降低參數量,替換過后不再堆疊殘差塊,提出基于CSPNet和SMAM的特征提取模塊CSMAM,它的網絡結構如圖6所示。

圖6 CSMAM的網絡結構

3 實驗與結果分析

3.1 數據集與評估標準

3.1.1數據集概述

本文實驗的數據集是一個具有高質量標注的小目標數據集TinyPerson[26],其中的圖像場景多數為遠距離大背景航拍下的圖像,非常符合小目標檢測的需求。TinyPerson數據集包含2個類別(earth person、sea person),一共有1 610張圖片(其中訓練集794張圖片,測試集816張圖片),共包含72 651個人類目標注釋。

3.1.2評估標準

為了評估模型的有效性,本文使用平均精度 (Average Percision, AP)、平均精度均值(mean Average Precision, mAP)、每秒10億次的浮點運算次數(Giga Floating-point Operations Per Second, GFLOPs)及幀率(Frame Per Second, FPS)作為評估標準。

再以軸為召回率、軸為精確率建立二維坐標軸,同時繪制精確率-召回率(Precision-Recall, PR)曲線,PR曲線所圍面積即為AP大小,計算如式(9)所示:

mAP為多個類別的平均精度均值,其中表示類別總數,計算如式(10)所示:

GFLOPs為每秒10億次的浮點運算,一般用于衡量模型的計算復雜度。

幀率表示每秒可以檢測圖片的數量(單位:frame/s),用于衡量算法是否具有實時性,一般認為FPS大于30 frame/s即具備實時檢測效果。

AP50、mAP50表示交并比(Intersection over Union, IoU)閾值為0.5時的平均精度和平均精度均值。一般來說,IoU越高,表示預測出目標與真實目標交集越大,越貼合真實目標,此時檢測精度越大即表明模型預測能力越強。由于小目標占比像素少,如果使用較大的IoU,檢測精度將會非常低,不能較好地衡量小目標檢測算法的效果,為此,本文選擇IoU為0.5的折中方案。

3.2 實驗環境及參數設置

實驗的硬件環境為Intel Core i7-10750H CPU@2.60 GHz、16 GB內存、NVIDIA GeForce GTX 1660Ti GPU;軟件環境為Windows 11家庭中文版系統、Python3.8、PyTorch 1.8.2、CUDA 10.2。

圖7為訓練時回歸損失的變化曲線,其中BatchSize設置為4,訓練150輪,前三輪為預熱,優化器使用隨機梯度下降(Stochastic Gradient Descent, SGD),初始學習率設置為0.01,動量設置為0.937,學習率衰減使用余弦策略。從圖7可以看出,訓練的回歸損失值可以平滑下降,達到理想效果。除了必要的改進外,本文實驗中所有模型的超參數都設置為默認(不一定是最佳參數),并在此設置下進行訓練、驗證和測試。

圖7 訓練損失曲線

3.3 分辨率實驗及分析

由于YOLOv5s默認輸入大小是640×640,但是TinyPerson數據集中的目標為小目標,圖片為遠距離大背景下的航拍圖像,圖片大小都遠大于默認大小。顯然,輸入分辨率越大,對于檢測小目標越有利,但是越大的分辨率會導致越大的計算開銷,同時檢測圖像時的FPS也會更低。

為此,將YOLOv5s和本文算法在不同分辨率下進行測試,結果如表1所示。由表1可知,在TinyPerson數據集上,YOLOv5s訓練的分辨率為960×960和1 280×1 280時,mAP50相較于640×640時分別提高了9.07和15.65個百分點,且測試分辨率為1 280×1 280時FPS都為122 frame/s;SMAM-YOLO在分辨率為960×960和1 280×1 280時mAP50相較于640×640分別提高了7.66和13.91個百分點,且測試分辨率為1 280×1 280時FPS都為74 frame/s。由此可見,在同一個目標檢測網絡結構下增大模型的圖像分辨率可以提高模型的準確率;但增大分辨率也使計算量成倍增加、訓練時間成倍增長。以SMAM-YOLO為例,在本文實驗配置下,1 280×1 280分辨率輸入時訓練1輪需要26 min左右,74.4 GFLOPs;然而,640×640分辨率輸入時訓練1輪僅需要9 min左右,19.9 GFLOPs。同時生成的權重文件大小也會增加,加大模型部署難度。但是,如果同一個網絡結構的算法使用不同分辨率訓練得到的不同模型,在檢測時圖像的輸入使用同一分辨率,對于FPS并無影響,這表明訓練時可以適當增加模型輸入分辨率來提高檢測精度。此外,太大的分辨率也會導致過擬合,因此不能盲目增大分辨率。

表1 分辨率實驗結果

注:FPS1 280中1 280表示測試時圖像的分辨率為1 280×1 280。

3.4 消融實驗及分析

為了驗證本文所提出的SMAM和CSMAM的有效性,以及增加小目標檢測頭對結果的影響,對不同模塊對結果的影響進行消融實驗評估:使用YOLOv5s作為基線模型,訓練圖像輸入分辨率為1 280×1 280,測試圖像分辨率為1 280×1 280的場景下,共訓練150輪,使用預訓練權重加速訓練,實驗結果如表2所示。

1)額外檢測頭的影響。由表2可知,a模型為無改進的基線模型,b模型在基線模型上增加了P2檢測頭,由于P2檢測層擁有更多的淺層信息,對小目標檢測更加有利。實驗結果表明,相較于a模型,b模型層數由270增加到328,GFLOPs由57.27到65.39,參數量從7.02×106增加到7.17×106,但是對于小目標的mAP50增加了1.78個百分點,同時FPS仍滿足實時檢測的需求。因此,增加少量的計算量,得到更好的小目標檢測效果是值得的。

2)MAM的影響。SMAM可以自適應地結合混合注意力機制調整更適合小目標的不同感受野,以此得到對小目標充分加權并且重定向后的特征圖。c模型分別在Backbone的SPPF層前和Neck的上下采樣最后部分引入SMAM。相較于b模型,c模型的層數、GFLOPs、參數量分別增加了168、10.77個百分點、0.45×106,但mAP50提升了2.01個百分點。d模型以c模型為基礎,在Neck的下采樣輸入Head之前,將原來無注意力加權的CSPNet結構C3模塊替換成引入了SMAM的CSMAM結構。相較于c模型,d模型層數增加了91,GFLOPs減少了1.76,參數量減少了0.25×106,同時mAP50上升了0.36個百分點。這說明增加SMAM模塊和在特征提取中將C3替換成更輕量的CSMAM后,能夠使模型獲得更加豐富的小目標特征。

綜上所述,本文模型相較于基線模型YOLOv5s的mAP50提升了4.15個百分點,大幅提升了小目標的檢測精度,同時FPS達到了74 frame/s,具有一定的實時檢測效果。

3.5 對比實驗及分析

在TinyPerson數據集上,對SMAM-YOLO和近年來已有的幾種小目標檢測模型(主要包含CBAM、PP-YOLO[27]、DETR[28]、YOLOv7[29]、YOLOX[30]、YOLOv5)進行對比實驗,其中YOLOX和PP-YOLO使用S版本,YOLOv7使用tiny版本,YOLOv5s使用較新的6.2版本,實驗結果如表3所示。由表3可知,在對比的算法中,引入CBAM的YOLOv5具有最高的mAP50,達到50.61%,比SMAM-YOLO的mAP50低1.46個百分點,其他參數與CBAM相差不大,在提高檢測精度的同時,也保證了速度、參數量和模型大小的穩定。YOLOv7-tiny具有最快的檢測速度,達到131.21 frame/s,同時參數量、模型大小、GFLOPs也最小,但是比SMAM-YOLO的mAP50低6.84個百分點。由此可見,SMAM-YOLO算法將更多的注意力聚焦到小目標身上,動態地對不同尺度下特征圖中的小目標重定向,不僅提高了檢測精度,同時保證了檢測速度,具有一定的實時性,在實時檢測小目標任務上具有更大的優勢。

表2 消融實驗結果

表3 不同小目標檢測模型的對比實驗結果

3.6 模塊可視化分析

為了更直觀驗證SMAM對小目標特征的影響情況,以及對最后檢測小目標時產生的影響,使用TinyPerson測試集中具有代表性的圖片驗證。

圖8(a)是沒有添加混合注意力的YOLOv5基線模型,圖8(b)是添加了混合注意力的YOLOv5模型,分別使用Grad-CAM[31]做熱力圖可視化。從圖的左上、右上、左下,右下對比中可以看出,在不同的角度,目標數量多且小的時候,MAM可以更加有效地聚焦小目標的特征,在圖中則表現為目標邊界更加清晰,顏色與環境差異明顯,從而提高檢測效果。

圖9是添加混合注意力前后的YOLOv5的實際檢測效果,其中紅色框是模型檢測的人類標簽,黃色框為重點標出的差異。從圖9可以看出,在不同的條件下,陸地或者海上、白天或者傍晚,基線模型對于小目標存在漏檢的情況,而添加混合注意力后可以較好地檢測出小目標。

綜上所述,SMAM可以有效提升小目標的檢測效果。

圖8 添加混合注意力前后的熱力圖

圖9 添加混合注意力前后的檢測效果圖

4 結語

本文結合通道、空間注意力與多分支網絡結構,提出了多分支混合注意力模塊,通過自適應的多感受野聚焦更適合小目標的豐富尺度信息,再結合混合注意力對小目標信息重標定,使小目標特征更加突出,以此提高對小目標特征的識別能力。對本文所提出的小目標檢測算法SMAM-YOLO在TinyPerson數據集上進行實驗,實驗結果表明,SMAM-YOLO的檢測效果較為優異,不僅檢測精度高,而且檢測速度高,能滿足實時檢測需求。

本文主要使用多分支混合注意力模塊來改進YOLOv5s模型,以提升小目標檢測的效果,并沒有考慮與其他相關方法(如數據增強和自注意力機制等)相結合。因此,在后續的研究工作中,可以進一步研究如何將SMAM-YOLO與更多先進方法相結合,實現高性能的小目標檢測。

[1] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 936-944.

[2] LIU S, QI L, QIN H, et al. Path aggregation network for instance segmentation[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8759-8768.

[3] GHIASI G, LIN T Y, LE Q V. NAS-FPN: learning scalable feature pyramid architecture for object detection[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2019: 7029-7038.

[4] LIANG Z, SHAO J, ZHANG D, et al. Small object detection using deep feature pyramid networks[C]// Proceedings of the 2018 Pacific Rim Conference on Multimedia, LNCS 11166. Cham: Springer, 2018: 554-564.

[5] TAN M, PANG R, LE Q V. EfficientDet: scalable and efficient object detection[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2020: 10778-10787.

[6] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2018: 7132-7141.

[7] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.

[8] QIN Z, ZHANG P, WU F, et al. FcaNet: frequency channel attention networks[C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 763-772.

[9] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2020: 1571-1580.

[10] 李科岑,王曉強,林浩,等. 深度學習中的單階段小目標檢測方法綜述[J]. 計算機科學與探索, 2022, 16(1):41-58.(LI K C, WANG X Q, LIN H, et al. A survey of one-stage small object detection methods in deep learning[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(1): 41-58.)

[11] KISANTAL M, WOJNA Z, MURAWSKI J, et al. Augmentation for small object detection[EB/OL]. [2023-02-12].https://arxiv.org/pdf/1902.07296.pdf.

[12] GONG Y, YU X, DING Y, et al. Effective fusion factor in FPN for tiny object detection[C]// Proceedings of the 2021 IEEE Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2021: 1159-1167.

[13] JIANG N, YU X, PENG X, et al. SM+: refined scale match for tiny person detection[C]// Proceedings of the 2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2021: 1815-1819.

[14] 李文濤,彭力. 多尺度通道注意力融合網絡的小目標檢測算法[J]. 計算機科學與探索, 2021, 15(12):2390-2400.(LI W T, PENG L. Small objects detection algorithm with multi-scale channel attention fusion network[J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(12): 2390-2400.)

[15] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9.

[16] XIE S, GIRSHICK R, DOLLáR P, et al. Aggregated residual transformations for deep neural networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 5987-5995.

[17] LI X, WANG W, HU X, et al. Selective kernel networks[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2019: 510-519.

[18] ZHANG H, WU C, ZHANG Z, et al. ResNeSt: split-attention networks[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Washington, DC: IEEE Computer Society, 2022: 2735-2745.

[19] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the IEEE 2016 Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 779-788.

[20] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems — Volume 1. Cambridge: MIT Press, 2015:91-99.

[21] HE K, GKIOSARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.

[22] 曹家樂,李亞利,孫漢卿,等.基于深度學習的視覺目標檢測技術綜述[J].中國圖象圖形學報,2022,27(6):1697-1722. (CAO J L, LI Y L, SUN H Q, et al. A survey on deep learning based visual object detection[J]. Journal of Image and Graphics, 2022, 27(6): 1697-1722.)

[23] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 6517-6525.

[24] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2023-02-12].https://arxiv.org/pdf/1804.02767.pdf.

[25] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. [2023-02-12].https://arxiv.org/pdf/2004.10934.pdf.

[26] YU X, GONG Y, JIANG N, et al. Scale match for tiny person detection[C]// Proceedings of the 2020 IEEE Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2020: 1246-1254.

[27] LONG X, DENG K, WANG G, et al. PP-YOLO: an effective and efficient implementation of object detector[EB/OL]. [2023-02-12].https://arxiv.org/pdf/2007.12099.pdf.

[28] ZHU X, SU W, LU L, et al. Deformable DETR: deformable transformers for end-to-end object detection[EB/OL]. [2023-02-12].https://arxiv.org/pdf/2010.04159.pdf.

[29] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. [2023-02-12].https://arxiv.org/pdf/2207.02696.pdf.

[30] GE Z, LIU S, WANG F, et al. YOLOX: exceeding YOLO series in 2021[EB/OL]. [2023-02-12].https://arxiv.org/pdf/2107.08430.pdf.

[31] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 618-626.

Small object detection algorithm based on split mixed attention

QIN Qiangqiang, LIAO Junguo*, ZHOU Yixun

(,,411201,)

Focusing on the characteristics of small objects in images, such as less feature information, low percentage, and easy to be influenced by the environment, a small object detection algorithm based on split mixed attention was proposed, namely SMAM-YOLO. Firstly, by combining Channel Attention (CA) and Spatial Attention (SA), as well as recombining the connection structures, a Mixed Attention Module (MAM) was proposed to enhance the model’s representation of small object features in spatial dimension. Secondly, according to the different influence of receptive fields with different sizes on the object, a Split Mixed Attention Module (SMAM) was proposed to adaptively adjust the size of the receptive field according to the scale of the input feature map, and the mixed attention was used to enhance the ability to capture small object feature information in different branches. Finally, the core residual module in YOLOv5 was improved by using SMAM, and a feature extraction module CSMAM was proposed on the basis of CSPNet (Cross Stage Partial Network) and SMAM, and the additional computational overhead of CSMAM can be ignored. Experimental results on TinyPerson dataset show that compared with the baseline algorithm YOLOv5s, when the Intersection over Union (IoU) threshold is 0.5, the mean Average Precision (mAP50) of SMAM-YOLO algorithm is improved by 4.15 percentage points, and the detection speed reaches 74 frame/s. In addition, compared with some existing mainstream small object detection models, SMAM-YOLO algorithm improves the mAP50by 1.46 - 6.84 percentage points on average, and it can meet the requirements of real-time detection.

small object detection; split network; mixed attention; feature fusion; real-time detection

QIN Qiangqiang, born in 1990, M. S. candidate. His research interests include artificial intelligence, object detection.

1001-9081(2023)11-3579-08

10.11772/j.issn.1001-9081.2022111660

2022?11?09;

2023?03?03;

秦強強(1997—),男,安徽蕪湖人,碩士研究生,CCF會員,主要研究方向:人工智能、目標檢測; 廖俊國(1972—),男,湖南衡陽人,教授,博士,CCF會員,主要研究方向:網絡安全、人工智能、模式識別; 周弋荀(1998—),男,湖北黃石人,碩士研究生,CCF會員,主要研究方向:人工智能、目標檢測。

TP391; TP183

A

2023?03?03。

LIAO Junguo, born in 1972, Ph. D., professor. Her research interests include cyber security, artificial intelligence, pattern recognition.

ZHOU Yixun, born in 1998, M. S. candidate. His research interests include artificial intelligence, object detection.

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 9999在线视频| 日韩亚洲高清一区二区| 亚洲乱码视频| 1024你懂的国产精品| 国产精品美女自慰喷水| 无遮挡国产高潮视频免费观看| 精品1区2区3区| 国内精品免费| 98精品全国免费观看视频| 2020最新国产精品视频| 亚洲成人在线免费| 亚洲区一区| 国产乱论视频| 毛片在线播放a| 99re热精品视频中文字幕不卡| 日本在线免费网站| 国产精品内射视频| 99999久久久久久亚洲| 无码中文字幕精品推荐| 九色视频最新网址| 少妇精品网站| 第一区免费在线观看| 国产自在线拍| 中文字幕乱码中文乱码51精品| 久久黄色视频影| 国产精品香蕉| 亚洲国产精品成人久久综合影院| 天天综合色网| 91在线中文| 1024你懂的国产精品| 亚洲男人在线天堂| 天天激情综合| 国产拍揄自揄精品视频网站| 免费A∨中文乱码专区| 香蕉综合在线视频91| 国产白浆视频| 欧美一级在线播放| 青青草国产一区二区三区| 日韩欧美国产中文| 欧美特级AAAAAA视频免费观看| 欧美成人一区午夜福利在线| 欧美色综合网站| 欧美第九页| 四虎在线观看视频高清无码 | 亚洲欧美自拍视频| 亚洲水蜜桃久久综合网站| 麻豆精品在线播放| 国产欧美精品一区二区| 亚洲福利一区二区三区| 妇女自拍偷自拍亚洲精品| 亚洲国产一区在线观看| 亚洲人成人无码www| 国产老女人精品免费视频| 亚洲一级色| 亚洲免费黄色网| 一级全黄毛片| 亚洲欧洲自拍拍偷午夜色无码| 国产成人福利在线视老湿机| 国产一级特黄aa级特黄裸毛片| 大香网伊人久久综合网2020| 美女毛片在线| 久久这里只有精品2| 毛片视频网址| 欧亚日韩Av| 99热国产这里只有精品9九| 成人va亚洲va欧美天堂| 免费A∨中文乱码专区| 在线观看国产精美视频| vvvv98国产成人综合青青| 91精品综合| 99精品国产自在现线观看| 黄色国产在线| 国产精品天干天干在线观看| 亚洲手机在线| 日韩无码白| 丝袜高跟美脚国产1区| 91成人免费观看| 国产爽爽视频| 日本亚洲成高清一区二区三区| 国产综合无码一区二区色蜜蜜| 亚洲精品国产精品乱码不卞| 熟女日韩精品2区|