







摘" 要: 航空?qǐng)D像目標(biāo)具有面積比例較小、排列密集、傾斜角度任意等特點(diǎn)。為了達(dá)到航空?qǐng)D像目標(biāo)精確檢測(cè)的要求,改進(jìn)了特征提取網(wǎng)絡(luò),同時(shí)使用橢圓中心采樣方法,優(yōu)化標(biāo)簽采樣策略以解決采樣不足問(wèn)題。最后使用無(wú)錨點(diǎn)解耦合目標(biāo)檢測(cè)頭將邊界框回歸任務(wù)與目標(biāo)分類任務(wù)分離以提高檢測(cè)精度。實(shí)驗(yàn)表明,所提方法在DOTA和HRSC2016數(shù)據(jù)集上分別達(dá)到了75.2%和89.1%的mAP,滿足了精確檢測(cè)的要求。
關(guān)鍵詞: 無(wú)錨點(diǎn); 深度學(xué)習(xí); 橢圓中心采樣; 解耦合檢測(cè)
中圖分類號(hào):TP391" " " " " 文獻(xiàn)標(biāo)識(shí)碼:A" " "文章編號(hào):1006-8228(2023)12-85-04
Rotating object detection method in aerial images based on anchor-free decoupling head
Kang Yuzhe1, Feng Guilin2, Zhang Yicheng3, Kang Yiyun3, Shen Wei3
(1. school of Information Science and Engineering, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China;
2. Zhejiang Provincial Department of Natural Resources Information; 3. School of Computer Science and Technology, Zhejiang Sci-Tech University)
Abstract: Aerial image objects have the characteristics of small area ratio, dense arrangement, and arbitrary inclination angle. In order to meet the requirements of accurate detection of aerial image objects, the feature extraction network is improved, and the ellipse center sampling method is used to optimize the label sampling strategy to solve the problem of insufficient sampling. Finally, an anchor-free decoupling object detection head is used to separate the bounding box regression task from the object classification task to improve detection accuracy. Experiments show that the proposed method achieves 75.2% and 89.1% mAP on the DOTA and HRSC2016 datasets, respectively, which meets the requirements of accurate detection.
Key words: anchor-free; deep learning; ellipse center sampling; decoupling detection
0 引言
航空?qǐng)D像目標(biāo)檢測(cè)是對(duì)低軌道衛(wèi)星或者無(wú)人機(jī)拍攝的圖像進(jìn)行分析,實(shí)現(xiàn)對(duì)特定目標(biāo)的定位與分類,是計(jì)算機(jī)視覺領(lǐng)域的重要應(yīng)用。隨著計(jì)算機(jī)運(yùn)算能力不斷提高,人們已經(jīng)不滿足于使用傳統(tǒng)人工提取特征的圖像識(shí)別算法對(duì)遙感圖像目標(biāo)進(jìn)行檢測(cè)。基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)相較于傳統(tǒng)目標(biāo)檢測(cè)方法具有更好的魯棒性、受光照或像素分辨率影響較小,因此能在一定程度上節(jié)約人力物力,提高檢測(cè)的效率與準(zhǔn)確率,實(shí)現(xiàn)航空?qǐng)D像目標(biāo)的自動(dòng)化檢測(cè)。對(duì)航空?qǐng)D像進(jìn)行目標(biāo)檢測(cè)存在諸多難點(diǎn),比如,圖像中需要檢測(cè)的目標(biāo)如汽車、橋梁的像素占比會(huì)比較小,并且它們經(jīng)常密集地排列在一起,造成識(shí)別困難。由于使用水平目標(biāo)檢測(cè)框會(huì)導(dǎo)致相鄰目標(biāo)在檢測(cè)時(shí)產(chǎn)生疊加,通用的目標(biāo)檢測(cè)模型例如YOLO[1]、Faster-RCNN[2]很難解決密集檢測(cè)和旋轉(zhuǎn)檢測(cè)問(wèn)題。
本文提出了一種使用高效解耦檢測(cè)頭的一階無(wú)錨點(diǎn)旋轉(zhuǎn)目標(biāo)檢測(cè)器AFDH(Anchor Free Decouple Detect Head),AFDH結(jié)構(gòu)簡(jiǎn)單,使用解耦合檢測(cè)頭提高目標(biāo)檢測(cè)框的識(shí)別精度,同時(shí)使用橢圓中心采樣來(lái)提高模型的收斂速度。在DOTA和HRSC2016數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文方法的可行性。
1 AFDH結(jié)構(gòu)設(shè)計(jì)
AFDH模型整體如圖1所示,AFDH使用Darknet53[3]作為特征提取的骨干網(wǎng)絡(luò),并將提取的特征圖輸入到無(wú)錨點(diǎn)解耦檢測(cè)頭中對(duì)目標(biāo)進(jìn)行定位與分類。最終輸出目標(biāo)的中心點(diǎn)坐標(biāo)、寬度、高度、類別和旋轉(zhuǎn)角度。
1.1 空間金字塔池化
由于航空?qǐng)D像沒有固定的像素長(zhǎng)寬比,特征提取網(wǎng)絡(luò)為了適應(yīng)任意大小的圖像輸入,目前的方法是通過(guò)裁剪,或壓縮拉伸來(lái)將輸入圖像縮放到固定大小。但是裁剪的區(qū)域可能不包含整個(gè)目標(biāo)檢測(cè)對(duì)象,而壓縮拉伸的內(nèi)容可能導(dǎo)致不必要的幾何扭曲。因?yàn)槟繕?biāo)內(nèi)容的丟失或失真,識(shí)別精度可能會(huì)受到影響。此外,還需要配置對(duì)應(yīng)裁剪、縮放的超參數(shù)增加了訓(xùn)練難度。
本文引入空間金字塔池化(SPP)層[4]來(lái)消除網(wǎng)絡(luò)的固定大小約束。將特征提取網(wǎng)絡(luò)最后一個(gè)池化層去掉,換成一個(gè)最大池化層,如果最后得到[k]個(gè)通道的特征圖也就是上層有[k]個(gè)卷積核做卷積,那該層增加[m]個(gè)最大池化層最終該層會(huì)有[k×m]維度的張量輸出,這個(gè)層稱為SPP層。SPP層的輸出將接入目標(biāo)檢測(cè)頭,SPP空間金字塔結(jié)構(gòu)如圖2所示。
1.2 DarkNet53-SPP結(jié)構(gòu)
DarkNet53是YOLO系列常用的特征提取網(wǎng)絡(luò),它結(jié)合了ResNet中使用大量殘差連接的結(jié)構(gòu)在對(duì)特征進(jìn)行提取的同時(shí)又緩解了網(wǎng)絡(luò)過(guò)深帶來(lái)的梯度消失問(wèn)題。將DarkNet53與上文中的SPP層組合形成DarkNet53-SPP結(jié)構(gòu)如圖3所示,作為本文的特征提取骨干網(wǎng)絡(luò)。該網(wǎng)絡(luò)輸出三組特征圖尺寸分別是20×20×1024、40×40×512、80×80×256,特征圖將輸入后續(xù)的無(wú)錨點(diǎn)解耦合檢測(cè)頭中進(jìn)行目標(biāo)的定位與分類。
1.3 無(wú)錨點(diǎn)目標(biāo)檢測(cè)解耦頭
目前檢測(cè)頭可分為兩種類型:無(wú)錨點(diǎn)[5]和有錨點(diǎn)[6]。有錨點(diǎn)檢測(cè)頭通常需要人工設(shè)置錨點(diǎn),這不僅引入額外的超參數(shù)和模型參數(shù)量,而且直接影響模型的性能。無(wú)錨點(diǎn)檢測(cè)頭不需要人工設(shè)置錨點(diǎn),減少了先驗(yàn)信息,比無(wú)錨點(diǎn)方法具有更強(qiáng)的適應(yīng)性。
如圖4所示,本文提出的無(wú)錨點(diǎn)目標(biāo)檢測(cè)解耦頭網(wǎng)絡(luò)包含3個(gè)分支,其中第一個(gè)是分類分支是[c]維向量用于輸出檢測(cè)框中[c]個(gè)類的置信度,第二個(gè)是5維向量回歸分支用于預(yù)測(cè)檢測(cè)框的中心點(diǎn)坐標(biāo),高度、寬度、類別和旋轉(zhuǎn)角度。第三個(gè)分支是1維向量用于輸出檢測(cè)框與真實(shí)目標(biāo)的交并比。
本文將每個(gè)目標(biāo)檢測(cè)框定義為[cx,cy,w,h,θ],其中[cx,cy]為目標(biāo)檢測(cè)框的中心點(diǎn)坐標(biāo),[w,h]為目標(biāo)檢測(cè)框的高度和寬度,[θ]為目標(biāo)檢測(cè)框的旋轉(zhuǎn)角度,范圍限制在[(0,90]]之間。檢測(cè)框的中心點(diǎn)坐標(biāo)偏移量由公式(1)定義,檢測(cè)框的尺寸信息偏移量由公式⑵定義,檢測(cè)框的旋轉(zhuǎn)角度偏移量由公式⑶定義。其中[regxy,regwh,regθ]表示回歸分支最后一層的直接輸出。[k]是一個(gè)可學(xué)習(xí)的調(diào)節(jié)參數(shù),[s]是多級(jí)特征提取的下采樣倍數(shù)。
[offsetxy=regxy×k×s] ⑴
[wh=(relu(regxy×k)+1)×s] " ⑵
[θ=Mod(regθ,90)] ⑶
2 橢圓中心采樣
無(wú)錨點(diǎn)檢測(cè)頭對(duì)每個(gè)目標(biāo)只選擇一個(gè)正樣本即目標(biāo)的中心點(diǎn)坐標(biāo)[7],同時(shí)忽略了其他置信度較高的預(yù)測(cè)坐標(biāo)。為了緩解無(wú)錨點(diǎn)帶來(lái)的正負(fù)樣本不平衡問(wèn)題,一般指定中心3×3區(qū)域?yàn)檎龢颖緟^(qū)域[8],但是水平矩形會(huì)影響采樣范圍,短邊緣進(jìn)一步減少了大長(zhǎng)寬比目標(biāo)的采樣點(diǎn)數(shù)量,最直觀的矩形中心采樣是目標(biāo)中心一定范圍內(nèi)的矩形區(qū)域如圖5中虛線矩形所示。為了減少這些影響,本文提出了使用二維高斯分布的橢圓中心采樣方法如圖5中實(shí)線橢圓形所示,與矩形中心采樣法相比,橢圓中心采樣法更適用于旋轉(zhuǎn)目標(biāo)檢測(cè),大長(zhǎng)寬比目標(biāo)的采樣區(qū)域通過(guò)收縮長(zhǎng)軸更為集中。一般情況下二維高斯分布的概率密度函數(shù)如公式⑷所示,[x]表示目標(biāo)檢測(cè)框的坐標(biāo),[e]為自然常數(shù)實(shí)驗(yàn)時(shí)取值2.7。
[f(x)=12.5εe-12(x-μ)Tε-1(x-μ)] " ⑷
當(dāng)[0lt;fxlt;1]時(shí),二維高斯分布的橢圓輪廓可以表示為[fx=c]。橢圓曲線的輪廓線僅隨著[c]的減小而增大,即[c]的有效范圍為[[c0,1]]。考慮到航空?qǐng)D像中小目標(biāo)較多,為防止采樣面積小導(dǎo)致采樣不足,本文設(shè)[c0]為0.3。目標(biāo)的中心采樣面積可由[fx≥c]確定[9]。如果[fx]大于[c],則點(diǎn)[x]在采樣區(qū)域內(nèi)。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集
本文在DOTA和HRSC2016數(shù)據(jù)集上評(píng)估了提出的方法。DOTA是一個(gè)用于航空目標(biāo)檢測(cè)的大規(guī)模數(shù)據(jù)集,DOTA包含了2806張大型航空?qǐng)D像尺寸從800×800到4000×4000,有15個(gè)常見類別。HRSC2016包含1061張大小范圍從300×300到1500×900的航空?qǐng)D像。
3.2 實(shí)驗(yàn)細(xì)節(jié)
本文對(duì)DOTA和HRSC2016數(shù)據(jù)集使用SGD優(yōu)化器做50次迭代訓(xùn)練,初始學(xué)習(xí)率為0.005,學(xué)習(xí)率每10次迭代除以10進(jìn)行衰減。批處理大小統(tǒng)一設(shè)置為16,模型使用Pytorch進(jìn)行搭建,使用RTX3090 GPU進(jìn)行測(cè)試和訓(xùn)練,在評(píng)估時(shí)將NMS閾值設(shè)置為0.1。
3.3 不同骨干網(wǎng)絡(luò)使用解耦頭對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文提出的解耦檢測(cè)頭和橢圓中心采樣方法的有效性,文本采用不同的骨干網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn),使用平均準(zhǔn)確率(mAP)和幀率(FPS)作為性能評(píng)估指標(biāo),實(shí)驗(yàn)中所用到的骨干網(wǎng)絡(luò)在瓶頸層均使用BiFPN[10]均添加了橢圓中心采樣和解耦檢測(cè)頭結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果展示了本方法使用主流骨干網(wǎng)絡(luò)在DOTA、HRSC2016數(shù)據(jù)集上的性能表現(xiàn)。從表1可以看出,解耦檢測(cè)頭在適配了不同的骨干網(wǎng)絡(luò)后都表現(xiàn)出了優(yōu)良的性能,在使用DarkNet53-SPP骨干網(wǎng)絡(luò)時(shí)mAP最高,同時(shí)識(shí)別幀率也比較流暢。
3.4 速度和準(zhǔn)確率實(shí)驗(yàn)
由上文實(shí)驗(yàn)可以得出使用DarkNet53-SPP骨干網(wǎng)絡(luò)效果最佳,為了進(jìn)一步證明本文提出方法的有效性,實(shí)驗(yàn)分別比較了本方法與目前主流旋轉(zhuǎn)目標(biāo)檢測(cè)算法在DOTA數(shù)據(jù)集以及HRSC2016數(shù)據(jù)集上的檢測(cè)性能。從表2中可以看出,AFDH在DOTA 數(shù)據(jù)集及HRSC2016數(shù)據(jù)集上均能取得不錯(cuò)的效果,并且在精度上優(yōu)于RRPN、R2CNN等二階目標(biāo)檢測(cè)網(wǎng)絡(luò),在識(shí)別速度上表現(xiàn)也比較優(yōu)秀,雖然添加了SPP模塊但是因?yàn)橛薪怦顧z測(cè)頭的優(yōu)化在識(shí)別速度上僅僅比YOLOv4、RetinaNet這兩個(gè)一階目標(biāo)檢測(cè)網(wǎng)絡(luò)低2幀但mAP平均提高了7.35%,可以達(dá)到實(shí)時(shí)性檢測(cè)和精確檢測(cè)的要求。
3.5 實(shí)驗(yàn)效果
在DOTA數(shù)據(jù)集上的檢測(cè)效果如圖6所示,可以看出本文提出的方法可有效檢測(cè)出分布密集、長(zhǎng)寬比較大以及非水平排列的船舶目標(biāo),具有良好的效果。
4 結(jié)束語(yǔ)
本文提出了一個(gè)基于無(wú)錨點(diǎn)解耦檢測(cè)頭的航空?qǐng)D像目標(biāo)檢測(cè)模型,可以對(duì)航空?qǐng)D像中任意旋轉(zhuǎn)角度的目標(biāo)進(jìn)行檢測(cè),并使用橢圓中心采樣,進(jìn)一步提升模型精度,最后通過(guò)實(shí)驗(yàn)證明了本方法的有效性。本文提出的一階模型結(jié)構(gòu)簡(jiǎn)單,參數(shù)量較小便于后續(xù)在邊緣設(shè)備部署使用。下一步將簡(jiǎn)化二維高斯分布的求導(dǎo)過(guò)程,進(jìn)一步降低計(jì)算難度,使其在邊緣部署中擁有更好的實(shí)時(shí)性能。
參考文獻(xiàn)(References):
[1] 朱福珍,王帥,巫紅.改進(jìn)的PP-YOLO網(wǎng)絡(luò)遙感圖像目標(biāo)
檢測(cè)[J].高技術(shù)通訊,2022,32(5):528-534.
[2] 王子琦,管振玉,朱軼昇,等.基于改進(jìn)級(jí)聯(lián)RCNN的遙感圖
像目標(biāo)檢測(cè)[J].計(jì)算機(jī)工程與設(shè)計(jì),2023,44(1):194-202.
[3] Huang Z, Wang J, Fu X, et al. DC-SPP-YOLO: Dense
connection and spatial pyramid pooling based YOLO for object detection[J]. Information Sciences,2020,522:241-258.
[4] Zadobrischi E. Intelligent traffic monitoring through
heterogeneous and autonomous networks dedicated to traffic automation[J]. Sensors,2022,22(20):7861.
[5] Tian Z, Zhan R, Hu J, et al. Generating anchor boxes
based on attention mechanism for object detection in remote sensing images[J]. Remote Sensing,2020,12(15):2416.
[6] Li Y, Pei X, Huang Q, et al. Anchor-free single stage
detector in remote sensing images based on multiscale dense path aggregation feature pyramid network[J]. IEEE Access,2020(8):63121-63133.
[7] Yu D, Xu Q, Guo H, et al. Anchor-free arbitrary-oriented
object detector using box boundary-aware vectors[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:2535-2545.
[8] Tian Z, Shen C, Chen H, et al. Fcos: A simple and strong
anchor-free object detector[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,44(4):1922-1933.
[9] Huang Z, Li W, Xia X G, et al. A general Gaussian
heatmap label assignment for arbitrary-oriented object detection[J]. IEEE Transactions on Image Processing,2022,31:1895-1910.
[10] Syazwany N S, Nam J H, Lee S C. MM-BiFPN: multi-
modality fusion network with Bi-FPN for MRI brain tumor segmentation[J]. IEEE Access,2021,9:160708-160720.
[11] Yang X, Yan J, Feng Z, et al. R3det: Refined single-stage
detector with feature refinement for rotating object[C]//Proceedings of the AAAI conference on artificial intelligence,2021,35(4):3163-3171.
[12] Li Z, Hou B, Wu Z, et al. Fcosr: A simple anchor-free
rotated detector for aerial object detection[J]. arXiv preprint arXiv:2111.10780,2021.
[13] Nabati R, Qi H. Rrpn: Radar region proposal network for
object detection in autonomous vehicles[C]//2019 IEEE International Conference on Image Processing (ICIP). IEEE,2019:3093-3097.
[14] Pang J, Li C, Shi J, et al. R2-CNN: fast Tiny object
detection in large-scale remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing,2019,57(8):5512-5524.