








摘" 要: 針對目前主流算法在遙感圖像目標(biāo)檢測任務(wù)中對于圖像中小目標(biāo)檢測效果較差、易產(chǎn)生漏檢誤檢的問題,提出一種改進(jìn)YOLOv5的小目標(biāo)檢測算法YOLOv5-FRM。首先在原YOLOv5骨干網(wǎng)絡(luò)的最后添加坐標(biāo)注意力機(jī)制Coordinate attention(CA)模塊替代原SPP模塊,之后提出一種改進(jìn)多尺度空間凈化模塊,實現(xiàn)了檢測頭的添加,并融合進(jìn)原YOLOv5的頸部網(wǎng)絡(luò)中。最后引入Copy-reduce-paste數(shù)據(jù)增強(qiáng)方法提高模型訓(xùn)練效果。實驗結(jié)果表明,該改進(jìn)算法有效提升了遙感圖像小目標(biāo)的檢測精度,降低了誤檢率與漏檢率。
關(guān)鍵詞: YOLOv5; 遙感圖像; 目標(biāo)檢測; 注意力機(jī)制; 空間凈化; 數(shù)據(jù)增強(qiáng)
中圖分類號:TP312" " " " " 文獻(xiàn)標(biāo)識碼:A" " " 文章編號:1006-8228(2023)12-89-07
Improved YOLOv5 for remote sensing image small target detection
Zhang Tengze, Li Xujun, Rao Liming
(School of Physics and Optoelectronics, Xiangtan University, Xiangtan, Hunan 411100, China)
Abstract: An improved YOLOv5 small target detection algorithm, YOLOv5-FRM, is proposed to address the issue of poor detection performance of mainstream algorithms in remote sensing image small target detection. Firstly, a Coordinate Attention (CA) module is added at the end of the original YOLOv5 backbone network to replace the original SPP module. Then, an improved multi-scale spatial purification module is proposed, which implements the addition of detection heads and integrates them into the neck network of the original YOLOv5. Finally, a Copy-reduce-paste data augmentation method is introduced to improve the training effectiveness of the model. The experimental results show that the improved algorithm effectively improves the detection accuracy of small targets in remote sensing images, and reduces the 1 detection rate and missed detection rate.
Key words: YOLOv5; remote sensing images; target detection; attention mechanism; spatial purification; data augmentation
0 引言
遙感技術(shù)是通過探測和測量地球表面,將地表的數(shù)據(jù)信息處理、應(yīng)用和分析的技術(shù),目前廣泛應(yīng)用于農(nóng)業(yè)、地質(zhì)、水利等多個領(lǐng)域。近年來,遙感圖像中的目標(biāo)檢測與分類成為了現(xiàn)階段此領(lǐng)域中的重要問題之一。有關(guān)的研究如AdaBoost[1]、支持向量機(jī)[2]等傳統(tǒng)機(jī)器學(xué)習(xí)算法,在遙感圖像中的小目標(biāo)檢測時表現(xiàn)不佳。因此研究人員近年來將各種基于深度學(xué)習(xí)的圖像目標(biāo)檢測算法引入到遙感圖像目標(biāo)檢測中,在精度和適用性上對比傳統(tǒng)機(jī)器學(xué)習(xí)方法均有提升。
基于深度學(xué)習(xí)的目標(biāo)檢測算法由兩階段檢測算法與單階段檢測算法組成。主流的兩階段檢測算法為R-CNN[3]及其衍生出的Fast R-CNN[4]和Faster R-CNN[5]。兩階段檢測方法由特征提取網(wǎng)絡(luò)和候選區(qū)域生成網(wǎng)絡(luò)兩個核心組成,特征提取網(wǎng)絡(luò)提取出圖像中感興趣的目標(biāo)區(qū)域,之后在候選區(qū)域生成網(wǎng)絡(luò)中,進(jìn)一步處理特征,生成可能的目標(biāo)候選區(qū)域。兩階段檢測方法精度高,但是檢測速度較慢。而單階段檢測方法不生成候選區(qū)域,而是將物體的類別與位置信息作為整體同時預(yù)測。
單階段檢測算法有Single Shotmultibox Detector(SSD)[6]、Retina-Net[7]以及You Only Look Once(YOLO)[8]系列等。相比兩階段檢測方法,單階段檢測方法簡單高效,具有較好的實時性和準(zhǔn)確性,更適合實際應(yīng)用。
由于遙感圖像分辨率高、背景復(fù)雜、密集的小目標(biāo)較多,目前流行的基于深度學(xué)習(xí)的檢測模型對于遙感圖像上的小目標(biāo)檢測大多精度不佳。因此研究人員對原有的檢測模型進(jìn)行了改進(jìn)。汪鵬等[9]人基于YOLOv3模型使用了DIOU損失函數(shù)來提高預(yù)測框的定位精度。趙文清等[10]人針對光學(xué)遙感圖像中多尺度物體檢測效果差的問題,采用了跨尺度連接操作以增強(qiáng)模型的特征提取能力。Shao等[11]人改進(jìn)了YOLOv5的特征融合網(wǎng)絡(luò),提出一種自適應(yīng)空間特征融合網(wǎng)絡(luò),以獲得更好的特征融合效果。他們在夜間遙感圖像檢測方面進(jìn)行了實驗,并取得了較好的成果。李坤亞等[12]在骨干網(wǎng)絡(luò)中引入了通道全局注意力機(jī)制,降低無關(guān)信息對模型的影響,提高了模型的魯棒性。林文龍等[13]人將可變形卷積引入到Retina-Net中,旨在提高遙感圖像檢測的準(zhǔn)確性。該方法能夠使模型自適應(yīng)地調(diào)整感受野,并針對環(huán)境背景復(fù)雜和物體較小等問題進(jìn)行處理,從而解決了遙感圖像檢測精度低的問題。周華平等[15]人針對遙感圖像中目標(biāo)尺寸小且較密集導(dǎo)致難以檢測的問題,在YOLOv5中引入了頻率通道注意力機(jī)制。提高了模型對小目標(biāo)的檢測效果。劉濤等[16]在原YOLOv5模型中添加了一個針對尺寸較小目標(biāo)的細(xì)粒度檢測層,相比于原模型提升了檢測效果。
由于遙感圖像與自然圖像相比背景信息較復(fù)雜、目標(biāo)信息較小、背景信息與目標(biāo)信息占比差距過大導(dǎo)致模型檢測效果不佳,研究人員一般基于流行檢測模型進(jìn)行改進(jìn)如引入各類注意力機(jī)制、更改損失函數(shù)、改進(jìn)檢測錨框等方法。但少有研究人員從原模型的特征融合結(jié)構(gòu)入手,此類改進(jìn)方式較少,且少有針對小目標(biāo)的注意力機(jī)制融合方法。
綜上所述,本文基于YOLOv5并根據(jù)上述總結(jié)進(jìn)行了多點改進(jìn)。針對遙感圖像小目標(biāo):首先研究模型提升初步提取關(guān)鍵特征的能力,本文引入了將位置信息嵌入到通道注意中的協(xié)調(diào)注意力機(jī)制;接下來本文重塑了原有的YOLOv5頸部網(wǎng)絡(luò)并融合了改進(jìn)多尺度特征融合模塊,添加了檢測頭;最后,為解決遙感圖像訓(xùn)練圖像目標(biāo)信息相比于背景信息占比過低的情況,本文使用了Copy-Reduce-Paste[18]數(shù)據(jù)增強(qiáng),提升了遙感圖像中的小目標(biāo)信息占比。綜上所述,本文構(gòu)造了一種改進(jìn)YOLOv5的遙感圖像小目標(biāo)檢測新算法,并對改進(jìn)算法進(jìn)行了在DOTA數(shù)據(jù)集上的評估,實驗結(jié)果顯示其檢測精度指標(biāo)mAP相比原YOLOv5提高了3.2%,且相較與各類主流遙感目標(biāo)檢測方法在精度上也有明顯提升。
1 YOLOv5 網(wǎng)絡(luò)模型結(jié)構(gòu)
YOLOv5是一種單階段目標(biāo)檢測算法,由骨干網(wǎng)絡(luò)(Backbone)、特征融合網(wǎng)絡(luò)(Neck)和預(yù)測網(wǎng)絡(luò)(Head)三部分構(gòu)成。骨干網(wǎng)絡(luò)模塊首先從原始圖像中提取特征;之后特征融合模塊進(jìn)一步對得到的特征圖進(jìn)行處理,通過特征金字塔(Feature Pyramid Networks,F(xiàn)PN)和路徑聚合[19](Path Aggregation Network,PAN)模塊融合不同層次的特征圖,最后將結(jié)果輸入到預(yù)測模塊中進(jìn)行目標(biāo)定位和分類,生成具體的檢測框坐標(biāo)和類別信息。
在YOLOv5中,圖像輸入骨干網(wǎng)絡(luò)模塊后,對輸入圖像進(jìn)行卷積操作,通過三次連續(xù)的下采樣后,會生成三張不同尺度的特征圖輸入到特征融合模塊。之后特征融合模塊將三張不同層次的特征圖,通過FPN和PAN網(wǎng)絡(luò),將它們進(jìn)行融合,以獲取更多的目標(biāo)信息。最后輸入到預(yù)測模塊對融合特征圖進(jìn)行檢測,生成檢測框的類別信息、坐標(biāo)和置信度。最終篩選和合并重疊的檢測框得到檢測結(jié)果。YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。
2 改進(jìn)YOLOv5遙感圖像小目標(biāo)檢測
YOLOv5檢測普通圖像效果較好,但遙感圖像目標(biāo)相較于普通圖像目標(biāo)尺寸較小,原始YOLOv5模型檢測遙感圖像對小目標(biāo)的檢測效果較差,因此針對遙感圖像的特點對原YOLOv5模型做三點改進(jìn):①在骨干網(wǎng)絡(luò)的最后添加了協(xié)調(diào)注意力機(jī)制Coordinate attention(CA)[20]模塊替換了原SPP模塊,加強(qiáng)了模型初步提取特征的能力。②重塑了頸部網(wǎng)絡(luò),添加了檢測頭,并融合多尺度空間凈化模塊FRM,提升了模型特征融合的能力。③使用了Copy-Paste 數(shù)據(jù)增強(qiáng)方法增加訓(xùn)練圖像中小目標(biāo)的數(shù)量。平衡了訓(xùn)練樣本中小目標(biāo)與其他目標(biāo)的信息。改進(jìn)后的YOLOv5-FRM結(jié)構(gòu)如圖2所示。
2.1 融合CA注意力模塊
注意力機(jī)制可以通過在檢測網(wǎng)絡(luò)中添加注意力模塊,減少圖像復(fù)雜信息的干擾,提高檢測網(wǎng)絡(luò)對目標(biāo)信息的感興趣程度,因此可以有效提升檢測性能。YOLOv5 作為主流單階段目標(biāo)檢測模型,主要用于自然圖像的檢測,然而,在處理遙感圖像的檢測任務(wù)時,由于其背景與目標(biāo)占比不均衡,會導(dǎo)致原模型對于小目標(biāo)區(qū)域的關(guān)注度不足,會出現(xiàn)漏檢或誤檢情況。為了解決這個問題,在YOLOv5骨干網(wǎng)絡(luò)的最后添加Coordinate attention(CA)模塊代替了原SPP模塊。CA注意力機(jī)制將位置信息嵌入到通道注意力中,使模型在復(fù)雜的背景信息下更加注重需要檢測的目標(biāo)位置和類別,這樣能夠有效提高對于遙感圖像小目標(biāo)檢測的精度。CA注意力機(jī)制模塊結(jié)構(gòu)如圖3所示。
CA注意力機(jī)制首先利用了兩個一維全局池化操作,分別將沿著垂直方向和水平方向的輸入特征聚合成兩個獨立的方向感知特征映射。這兩個嵌入了特定方向信息的特征圖分別編碼到兩個注意力圖中,每個注意力圖都捕獲了輸入特征圖沿著一個空間方向的注意力信息。因此,位置信息可以保存在生成的注意力圖中,之后生成的注意力圖通過乘法應(yīng)用到輸入特征圖上,以此提高了特征提取能力。這里將CA模塊融合進(jìn)Backbone中,替換掉了原主干網(wǎng)絡(luò)的SPP模塊,以加強(qiáng)模型目標(biāo)提取特征的能力,并將該模塊命名為CoordAtt模塊。
2.2 檢測頭添加與改進(jìn)空間凈化模塊融合
由于原始YOLOv5模型下采樣倍數(shù)較大,在較深特征圖上很難學(xué)習(xí)到遙感圖像小目標(biāo)特征信息,為此,重塑了YOLOv5的頸部網(wǎng)絡(luò),添加檢測頭并改進(jìn)多尺度空間凈化模塊FRM進(jìn)行融合來解決該問題,F(xiàn)RM通過不同層級的下采樣和上采樣結(jié)構(gòu)來平衡特征尺度,之后進(jìn)行特征拼接,拼接完成后進(jìn)行兩種尺度的空間凈化,最后將凈化特征圖分別擴(kuò)展相乘到原特征圖上,再進(jìn)行拼接融合。
圖像由骨干網(wǎng)絡(luò)模塊初步特征提取得到三個不同尺度的特征圖輸入到特征融合模塊。這三張?zhí)卣鲌D編號為C2,C3,C4,接下來對得到的特征圖C4再進(jìn)行一次下采樣操作得到特征圖C5,再進(jìn)行一次卷積之后得到F5特征圖。之后利用得到的特征圖F5進(jìn)行一次上采樣操作和C3特征圖融合得到F4特征圖,之后對F5特征圖創(chuàng)建兩個分別對應(yīng)F3,F(xiàn)4的上采樣操作,在最后加上1×1的卷積連接C3,得到F3特征圖并實現(xiàn)了第三個檢測頭的生成。同樣,最后對F5特征圖創(chuàng)建三個上采樣操作,對應(yīng)F3,F(xiàn)4,F(xiàn)5,在最后加上1×1的卷積連接C2,實現(xiàn)F2的特征圖并實現(xiàn)了第四個檢測頭的生成。總體來說,第四個檢測頭與F2特征圖是由F5,F(xiàn)4,F(xiàn)3三個特征圖融合而來,是一個層層遞進(jìn)的融合結(jié)構(gòu),此結(jié)構(gòu)對輸入的特征圖做了充分的多尺度特征融合,相比于原YOLOV5的頸部結(jié)構(gòu)特征融合更加充分。
在原始YOLOv5模型中,F(xiàn)PN有著融合不同尺度特征的功能,但不同尺度特征差異較大,直接地對它們進(jìn)行融合會產(chǎn)生一定量的沖突信息,導(dǎo)致多尺度表達(dá)能力不佳。因此,針對此問題進(jìn)行改進(jìn),以提高模型在多尺度表達(dá)上的性能表現(xiàn),在原結(jié)構(gòu)中融合了FRM來對沖突信息進(jìn)行過濾,減少沖突信息對小目標(biāo)特征信息的影響。
由F2,F(xiàn)3,F(xiàn)4,F(xiàn)5得到L1,L2,L3,L4四張?zhí)卣鲌D后,將它們輸入FRM模塊。FRM主要由通道凈化模塊和空間凈化模塊兩部分構(gòu)成,這兩個模塊可以同時在空間和通道的維度上產(chǎn)生自適應(yīng)權(quán)重,使特征學(xué)習(xí)更重要的路徑。將輸入的特征圖壓縮到空間維度中為來獲得通道注意力圖。通道凈化模塊的結(jié)構(gòu)如圖4所示。[xm]被定義為輸入的(m={1,2,3,4})FRM層。X(n,m)被定義為從[nth]到[mth]層開始調(diào)整大小的結(jié)果層。[Xmk,x,y]是被定義為[mth]的值在[kth]上的特征圖通道位于該位置(x,y)。所以,上分支的輸出為:
[Kmx,y=am?X1,mx,y+bm?X2,mx,y+cm?X3,mx,y+dm?X4,mx,y]" ⑴
式⑴中,[Kmx,y]表示[mth]的輸出向量位于該位置上的圖層(x,y)。a,b,c,d為通道自適應(yīng)權(quán)重,其大小為1×1×1。a,b,c,d的定義為:
[am,bm,cm,dm=δAPF+MP(F)]" "⑵
F是由連接操作生成的特征,AP表示平均池化,MP表示最大池化,然后將這兩個權(quán)值在空間維度上求和,在s型矩陣后生成基于兩個通道的自適應(yīng)權(quán)重。此部分輸出如下:
[φmx,y=c=14μmc,x,y?X1,mk,x,y+ρmc,x,y?X2,mk,x,y+τmc,x,y?X3,mk,x,y+ωmc,x,y?X4,mk,x,y] ⑶
其中,x和y表示特征圖的空間位置,k表示輸入特征圖的通道。[φmx,y]是在位置(x,y)處的輸出特征向量。[μmc,x,y],[ρmc,x,y],[τmc,x,y],[ωmc,x,y]表示相對于[mth]的空間注意力權(quán)重層,其中c表示它們的通道,[μ, ρ, τ, ω]可以用式⑷表示:
[μm, ρm, τm, ωm=Softmax(F)]" ⑷
其中,F(xiàn)的含義等同于式⑵,通道方向上的特征圖通過softmax層進(jìn)行歸一化,可以得到不同通道在同一位置的權(quán)重。因此,該模塊的總輸出可以表示為:
[pm=φm+Km]" " ⑸
FRM各層的特征通過自適應(yīng)權(quán)重融合在一起,并最后經(jīng)過整個網(wǎng)絡(luò)以{p1,p2,p3,p4}輸出。
2.3 使用Copy-reduce-paste數(shù)據(jù)增強(qiáng)
在遙感圖像數(shù)據(jù)集中,小目標(biāo)所占的正樣本數(shù)量較少,因此訓(xùn)練模型時會更偏向于檢測更大的目標(biāo)。原YOLOv5模型使用 Mosaic數(shù)據(jù)增強(qiáng)方法來提高模型訓(xùn)練樣本的豐富性,首先從訓(xùn)練集中隨機(jī)選取四張不同的圖像。之后將這四張圖像隨機(jī)拼接成一張新的圖像,最后選取新圖像中的一個區(qū)域作為最終的訓(xùn)練樣本,并對其進(jìn)行如縮放、旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)操作。但Mosaic數(shù)據(jù)增強(qiáng)無法解決小目標(biāo)信息在遙感圖像中所占比例較小的問題,因此在生成的新訓(xùn)練樣本圖像的小目標(biāo)信息占比仍比較小,訓(xùn)練仍無法平衡小目標(biāo)信息與其他冗余信息。
為了提升在使用Mosaic數(shù)據(jù)增強(qiáng)時遙感圖像小目標(biāo)檢測精度,進(jìn)一步引入Copy-reduce-paste數(shù)據(jù)增強(qiáng)方法。Copy-reduce-paste數(shù)據(jù)增強(qiáng)首先創(chuàng)建空白圖像,將從原始圖像復(fù)制出來的目標(biāo)復(fù)制進(jìn)去后進(jìn)行縮放、旋轉(zhuǎn)等操作,之后將處理好的目粘貼回原始圖像中,最后調(diào)整這些目標(biāo)在原始圖像中的位置和尺寸信息。使用該方法后,單張圖像中會存在更多的檢測目標(biāo),從而平衡訓(xùn)練,提高了檢測模型的泛化能力。
3 實驗
3.1 DOTA數(shù)據(jù)集與預(yù)處理
為了驗證改進(jìn)后的 YOLOv5 模型在遙感圖像目標(biāo)檢測方面的效果,我們選擇了公開的 DOTA[23]遙感圖像數(shù)據(jù)集作為驗證對象。DOTA數(shù)據(jù)集是是一個面向遙感圖像分析的大型目標(biāo)檢測和分類數(shù)據(jù)集,包含15個類別的目標(biāo),如飛機(jī)、籃球場和小型車輛等。在該數(shù)據(jù)集中,小型車輛和游泳池等小目標(biāo)數(shù)量超過了90000,且目標(biāo)占比不超過圖像的5%。數(shù)據(jù)集由2806多張高分辨率的航拍圖像構(gòu)成,平均像素尺寸大于2000×2000。首先對訓(xùn)練圖像進(jìn)行預(yù)處理,裁剪原始圖像為1024×1024大小,再進(jìn)行訓(xùn)練,大大增加了圖像的數(shù)量,從而豐富了模型的訓(xùn)練數(shù)據(jù),進(jìn)而提高了模型的訓(xùn)練效果。
3.2 實驗環(huán)境與訓(xùn)練參數(shù)
實驗使用Linux系統(tǒng),通過Conda環(huán)境,使用搭載三路NVIDIA GeForce GPU 3090渦輪版顯卡服務(wù)器進(jìn)行模型訓(xùn)練,具體實驗環(huán)境配置如表1所示。
實驗中模型以YOLOv5s為基礎(chǔ),應(yīng)用YOLOv5s預(yù)訓(xùn)練權(quán)重。訓(xùn)練采用多GPU分布式數(shù)據(jù)并行[21](Distributed Data Parallel,DDP)的方法,該方法與單GPU訓(xùn)練相比可以減少使用內(nèi)存,在更短的時間內(nèi)完成訓(xùn)練,并且可以處理更大規(guī)模的數(shù)據(jù)集和模型,使計算更加高效。訓(xùn)練超參數(shù)設(shè)置為:batchsize設(shè)為99,學(xué)習(xí)率設(shè)為0.01,權(quán)重衰減分別設(shè)為0.937和0.0005,迭代訓(xùn)練次數(shù)為300。
3.3 評價指標(biāo)
在目標(biāo)檢測任務(wù)中,平均精確率mAP[22](mean Average Precision,mAP)是常用的性能評價指標(biāo)之一。目標(biāo)檢測訓(xùn)練后,各個類別類別都會生成precision-recall[23]曲線,曲線與坐標(biāo)軸圍成的圖形面積就是這個類別的精度AP。mAP則是所有類別AP的平均值,表示模型在所有類別上的檢測精度,反映了模型總體的檢測效果。
[mAP=i=1mAPim]" " ⑹
其中,m是類別數(shù),APi是類別i的平均精度。
mAP@0.5表示IOU[24](Intersection over Union)閾值為0.5的mAP。IOU是一種用于目標(biāo)檢測任務(wù)中測量預(yù)測框與真實框之間重疊程度的指標(biāo)。這個指標(biāo)衡量了模型檢測出的小目標(biāo)精度,是目標(biāo)檢測任務(wù)重要性能評價指標(biāo)之一,因此本文使用mAP@0.5指標(biāo)來衡量對于遙感圖像目標(biāo)檢測的精度。
3.4 實驗結(jié)果與分析
為驗證改進(jìn)算法的有效性,使用DOTA數(shù)據(jù)集對改進(jìn)模塊做消融實驗,實驗結(jié)果如表2所示。
表2中YOLOv5s_A,YOLOv5s_B,YOLOv5s_C,分別表示添加CA注意力機(jī)制、添加檢測頭并融合FRM的改進(jìn)頸部網(wǎng)絡(luò)、使用Copy-reduce-paste數(shù)據(jù)增強(qiáng)。根據(jù)表2數(shù)據(jù),原YOLOv5s模型在DOTA數(shù)據(jù)集上的mAP@0.5值為0.706。在單獨添加三個模塊后,檢測精度分別提升至0.711、0.716和0.709,表明了每個模塊都提升了遙感圖像小目標(biāo)檢測效果,同時表明了增強(qiáng)特征提取能力、提升特征融合能力這些改進(jìn)思想的合理性。同時應(yīng)用這三個改進(jìn)模塊時,遙感圖像目標(biāo)檢測精度提高到0.719,較原YOLOv5s模型提升了3.2%的性能。數(shù)據(jù)結(jié)果證明,改進(jìn)算法有效提升了遙感圖像目標(biāo)檢測精度。
通過表3可以直觀看出改進(jìn)后的算法與原YOLOv5算法在DOTA數(shù)據(jù)集各類目標(biāo)的mAP@0.5結(jié)果對比。改進(jìn)后的方法在大部分類別上的檢測效果均有明顯提升,特別是在訓(xùn)練集中目標(biāo)數(shù)量較少且目標(biāo)像素小的類別,如飛機(jī)、足球場和網(wǎng)球場等,如果加入FRM模塊和CA注意力機(jī)制,并應(yīng)用Copy-Paste數(shù)據(jù)增強(qiáng)技術(shù)后,就可以明顯地看出改進(jìn)后的模型對各類別的檢測精度有很大的提升。但在直升機(jī)、環(huán)形交叉路口這種特征不明顯的類別上,改進(jìn)后的模型的檢測精度依然不高,需要研究其他改進(jìn)方法以進(jìn)一步提高檢測精度。
為了驗證改進(jìn)模型YOLOv5-FRM的性能,我們將其與幾個典型的目標(biāo)檢測模型,如RetinaNet、Mask R-CNN、Faster R-CNN進(jìn)行對比,并使用mAP@0.5和FPS指標(biāo)進(jìn)行評估。具體結(jié)果如表4所示。從表4中可以看出,改進(jìn)后的方法在DOTA數(shù)據(jù)集上mAP結(jié)果最佳。相較于兩階段的RetinaNet、Mask R-CNN和Faster R-CNN方法,改進(jìn)后的模型YOLOv5-FRM在DOTA數(shù)據(jù)集上獲得了不低于7.6%的精度提升。之后與一階段遙感圖像目標(biāo)檢測方法YOLOv3和YOLOv5進(jìn)行對比,結(jié)果表明YOLOv5系列算法在精度上相較于YOLOv3算法整體上有著顯著提升。其中,改進(jìn)算法相比YOLOv3系列算法在DOTA數(shù)據(jù)集目標(biāo)檢測有著高達(dá)21.6%的精度提升。但由于特征凈化模塊的引入,所改進(jìn)算法的計算量有所增加,檢測速度較原YOLOv5方法略有下降,但總體來看,改進(jìn)算法檢驗精度更高,相比原模型更有競爭力。
本文通過在DOTA數(shù)據(jù)集上對所改進(jìn)方法進(jìn)行的目標(biāo)檢測結(jié)果可視化展示來說明該算法的有效性。圖5展示了相比于原YOLOv5網(wǎng)絡(luò),改進(jìn)后的 YOLOv5-FRM在多個典型遙感圖像上的檢測結(jié)果。從圖5中可視化結(jié)果可以觀察到,改進(jìn)方法相比于原YOLOv5 網(wǎng)絡(luò)小目標(biāo)檢測效果更好,其能夠在遙感圖像中檢測出一些容易被漏檢的小目標(biāo),也正確檢測了被YOLOv5誤檢的小目標(biāo)。檢測結(jié)果直觀表明了改進(jìn)算法有效提升了遙感圖像小目標(biāo)檢測精度。
4 結(jié)束語
針對原YOLOv5對于遙感圖像小目標(biāo)檢測效果不佳的問題,提出了一種改進(jìn) YOLOv5的遙感圖像小目標(biāo)檢測算法,該方法通過引入CA注意力機(jī)制模塊和重塑頸部網(wǎng)絡(luò)并融合多尺度空間凈化模塊FRM來提高對小目標(biāo)的檢測效果,同時在馬賽克數(shù)據(jù)增強(qiáng)基礎(chǔ)上使用Copy-reduce-paste數(shù)據(jù)增強(qiáng)方法來解決遙感圖像小目標(biāo)信息相比于背景信息占比過低的問題,在DOTA遙感圖像數(shù)據(jù)集上的實驗結(jié)果證明了所提出改進(jìn)方法的有效性。在接下來的工作中,將嘗試探索引入具有更強(qiáng)特征提取能力的模塊,以增強(qiáng)模型由全局信息到微小信息的關(guān)注度。同時研究新的預(yù)測框損失函數(shù)并引入改進(jìn)模型,以提高模型預(yù)測小目標(biāo)位置與坐標(biāo)方面的效果。
參考文獻(xiàn)(References):
[1] FREUND Y, SCHAPIRE R E. Experiments with a
new boosting algorithm[C]//13th International Conference on Inter-national Conference on Machine Learning,1996:148-156.
[2] VAPNIK V N. An overview of statistical learning theory[J].
IEEE Transactions on Neural Networks,1999,10(5):988-999.
[3] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich
feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Lake City,USA,2014:580-587.
[4] GIRSHICK R. Fast R-CNN [C]//Proceedings of the IEEE
International Conference on Computer Vision. Santiago, Chile,2015:1440-1448.
[5] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN:
towards real-Time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[6] LIU W, ANGUELOV D,ERHAN D, et al. SSD: single shot
multi-box detector[C]//European Conference on Computer Vision.Berlin: Springer International Publishing,2015:21-37.
[7] LIN T Y, GOYAL P, GIRSHICK R, et al.Focal loss for
dense objectdetection[C]//Proceedings of the IEEE International Conference on Computer Vision,2017: 2980-2988.
[8] REDMON J, DIVVALA S, GIRSHICK R, et al. You
onlylookonce:unified,real-timeobjectdetection[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. LasVegas, USA,2016:779-788.
[9] 汪鵬,辛雪靜,王利琴,等.基于YOLOv3的光學(xué)遙感圖像目
標(biāo)檢測算法[J].激光與光電子學(xué)進(jìn)展,2021,58(20):20281-2028.
[10] 趙文清,康懌瑾,趙振兵,等.改進(jìn)YOLOv5s的遙感圖像目
標(biāo)檢測 [J/OL].智能系統(tǒng)學(xué)報,2022. https://kns.cnki.net/kcms/detail/23.1538.TP.20220930.1620.004.html.
[11] SHAO J N, YANG Q Y, LUO C Y, et al. Vessel detection
from nighttime remote sensing imagery based on deep learning[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021:12536-12544.
[12] 李坤亞,歐鷗,劉廣濱, 等.改進(jìn)YOLOv5 的遙感圖像目標(biāo)
檢測算法[J/OL].計算機(jī)工程與應(yīng)用,2022:1-9.
[13] 林文龍,阿里甫·庫爾班,陳一瀟,等.面向遙感影像目標(biāo)
檢測的ACFEM-RetinaNet算法[J/OL].計算機(jī)工程與應(yīng)用,2022:1-11.http://kns.cnki.net/kcms/detail/11.2127.TP.20221125.1132.018.html.
[14] 周華平,郭偉.改進(jìn)YOLOv5 網(wǎng)絡(luò)在遙感圖像目標(biāo)檢測中的
應(yīng)用[J].遙感信息,2022,37(5):23-30.
[15] 劉濤,丁雪妍,張冰冰,等.改進(jìn)YOLOv5的遙感圖像檢測
方法[J/OL].計算機(jī)工程與應(yīng)用.https://kns.cnki.net/kcms/detail//11.2127.TP.20230228.0952.002.html.
[16] GOLNAZ G, YIN C, ARAVIND S, et al. Simple copy-
pasteis a strong data augmentation method for instance segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:2918-2928.
[17] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature
pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:2117-2125.
[18] LIU S, QI L, QIN H F,et al. Path Aggregation Network for
Instance Segmentation[C]//Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA,2018:8759-8768.
[19] BOCHKOVSKIY A, WANG C.Y, LIAO H.M, et al.
YOLOv4: optimal speed and accuracy of object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2020:2-7.
[20] Qibin Hou,Daquan Zhou,Jiashi Feng,et al. Coordinate
Attention for Efficient Mobile Network Design. In CVPR,2021.
[21] 夏立斌,劉曉宇,姜曉巍,等.基于分布式數(shù)據(jù)集的并行計算
框架內(nèi)存優(yōu)化方法[J].計算機(jī)工程,2023,49(04):43-51.
[22] 黃彥博. 基于深度神經(jīng)網(wǎng)絡(luò)的遙感圖像目標(biāo)檢測方法研究[D].
杭州:杭州電子科技大學(xué),2022.
[23] 朱衍波. 基于改進(jìn)YOLOv4算法的目標(biāo)檢測算法研究[D].
西安:西安電子科技大學(xué),2021.
[24] 姜楊,趙峰禹,陳梟.基于改進(jìn)Cascade R-CNN模型的機(jī)器
人抓取檢測研究[J].東北大學(xué)學(xué)報(自然科學(xué)版),2023,44(6):799-807.