









摘 要: 針對單次多盒檢測算法(SSD)對復雜背景下合成孔徑雷達(SAR)圖像艦船目標的檢測容易出現(xiàn)誤檢或漏檢情況,提出一種基于融合注意力機制與改進的SSD算法的目標檢測方法。首先在SSD算法上引入ResNet網(wǎng)絡(luò)并進行改進,以提供豐富的語義信息和細節(jié)信息,提高算法的魯棒性;其次融合通道和空間注意力增強對艦船目標的辨認能力,抑制海雜波等干擾信息;同時改進損失函數(shù)來解決艦船密集分布時的漏檢問題,提高網(wǎng)絡(luò)訓練效果。數(shù)據(jù)集上的實驗表明,該方法平均準確率(mAP)為87.6%,比SSD算法提高了4.2個百分點,目標的漏檢和誤檢明顯減少。相比SSD算法,該算法對復雜背景下的艦船目標有較好的辨別能力和魯棒性,抗干擾能力有所提升。
關(guān)鍵詞: 艦船目標檢測; 注意力機制; 單次多盒檢測算法; 合成孔徑雷達圖像
中圖分類號: TP751"" 文獻標志碼: A
文章編號: 1001-3695(2022)01-047-0265-05
doi:10.19734/j.issn.1001-3695.2021.05.0174
SAR ship object detection method incorporating attention mechanism and improved SSD algorithm
Xue Yuanliang, Jin Guodong, Hou Xiaohan, Tan Lining, Xu Jiankun
(College of Nuclear Engineering, Rocket Force University of Engineering, Xi’an 710025, China)
Abstract: This paper proposed a object detection method based on a fused attention mechanism with an improved single shot multibox detector(SSD) algorithm for the detection of synthetic aperture radar(SAR) image ship targets in complex backgrounds by SSD original algorithm that was prone to 1 detection or missed detection.Firstly,this method introduced the ResNet and improved SSD algorithm to provide rich semantic and detailed information to improve the robustness.Secondly,the fusion of channel and spatial attention enhanced the recognition ability of ship targets and suppressed the interference information such as sea clutter.Meanwhile,it improved the loss function to solve the problem of missed detection when the ships were densely distributed and improve the network training effect.Experiments on the dataset show that the mean average precision(mAP) of the method is 87.6%,which is 4.2 percentage points higher than that of the SSD algorithm,and the missed and 1 detections of targets are significantly reduced.Compared with the SSD algorithm,this method has better discrimination ability and robustness for ship targets in complex backgrounds,and improves the anti-interference ability.
Key words: ship object detection; attention mechanism; single shot multi-box detector(SSD); synthetic aperture radar(SAR) image
0 引言
隨著SAR高分辨率成像技術(shù)的不斷發(fā)展及其全天時、全天候的數(shù)據(jù)獲取優(yōu)勢,SAR圖像目標檢測成為研究熱點,在海上艦船目標檢測中取得了一定的成果[1~4],有效提高了海域偵察、監(jiān)視與管控能力,在軍民兩個領(lǐng)域都具有重要的現(xiàn)實意義。傳統(tǒng)的船舶檢測主要基于海雜波分布[5~8]和基于特征提取的恒虛警率方法[9~12],高度依賴先驗知識,算法魯棒性不強、普適性差。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[13]憑借其自主學習、參數(shù)共享等先天優(yōu)勢成為當前目標檢測技術(shù)的主流算法[14,15],基于深度學習的SAR艦船檢測技術(shù)也在逐漸走向成熟[16~21]。
在基于深度學習的目標檢測算法中,SSD[22]算法因其同時具備檢測速度和精度的優(yōu)勢,在艦船檢測領(lǐng)域得到廣泛應(yīng)用。Wang等人[3]將SSD與遷移學習相結(jié)合,解決了海洋和島嶼等復雜環(huán)境下的船舶檢測問題,提升了檢測精確度。文獻[23]中首次提出一種在自然圖像和衛(wèi)星圖像之間傳輸視覺知識的遷移學習SSD,具有較好的船舶檢測性能。文獻[24]在基于SSD的基礎(chǔ)上使用旋轉(zhuǎn)邊界框,可同時預(yù)測位置和角度信息,提升了對多角度艦船目標的檢測效果。
現(xiàn)階段基于SSD的SAR艦船檢測方法在復雜環(huán)境、高時效性要求、艦船密集分布的檢測情形中仍未達到期望效果,主要有三點不足:a)語義信息和細節(jié)信息不夠,淺層特征提取網(wǎng)絡(luò)在提取過程中缺少語義信息且細節(jié)信息丟失嚴重,而復雜背景下的艦船目標特征信息相對較少,語義信息和細節(jié)信息對艦船目標的識別尤為重要;b)用于檢測的特征層在空間與通道維度上權(quán)重相同,而不同的通道和空間維度往往代表著不同語義信息的物體,相同權(quán)重的特征層會影響檢測目標與干擾目標的區(qū)分;c)在艦船密集分布情況下,擁擠和遮擋會導致目標的特征信息缺失,從而影響網(wǎng)絡(luò)的訓練效果。而用于訓練SSD網(wǎng)絡(luò)模型的分類和回歸損失函數(shù)不能有效克服遮擋、擁擠帶來的不良影響,導致網(wǎng)絡(luò)在復雜場景下的訓練效果不好。針對上述問題,本文提出一種基于融合注意力機制與改進SSD的SAR艦船目標檢測方法,改進特征提取網(wǎng)絡(luò)以提供更豐富的細節(jié)信息和語義信息;然后融合注意力機制篩選目標特征,抑制干擾目標的特征信息;最后改進訓練過程中的損失函數(shù)保證網(wǎng)絡(luò)在復雜環(huán)境下對艦船目標的訓練效果。
1 本文算法
為提高SSD檢測算法在復雜背景下的艦船檢測效果,本文將分別從特征提取網(wǎng)絡(luò)、融合注意力機制和設(shè)計更有效的損失函數(shù)三個方面進行改進。
1.1 改進特征提取網(wǎng)絡(luò)
考慮到SAR圖像艦船的檢測會受到復雜背景和相似干擾的影響,而VGG[25]網(wǎng)絡(luò)提取的特征中缺少抗干擾能力強的語義信息和細節(jié)信息,因此將特征提取網(wǎng)絡(luò)替換為網(wǎng)絡(luò)層數(shù)更深、語義信息豐富的ResNet-50[26],同時對其殘差塊之間的信息傳遞、殘差連接和殘差塊的卷積三方面進行改進。
a)優(yōu)化殘差塊間的信息傳遞。ResNet-50中殘差塊之間是依靠ReLU激活函數(shù)完成輸入和輸出之間的非線性轉(zhuǎn)換,如圖1(a)所示。訓練初期,網(wǎng)絡(luò)傳遞的信息大部分為負信號,而ReLU激活層會對負權(quán)值直接清零,造成信息傳輸?shù)膿p耗。如圖1(b)~(d)所示,根據(jù)殘差塊的不同位置分為開始、中間、結(jié)束三種類型,開始單元的殘差塊移除映射部分和殘差部分相加之后的ReLU,保證特征信息不受損耗;中間單元和結(jié)束單元的殘差塊將BN和ReLU放在卷積之前作為預(yù)激活函數(shù),可以穩(wěn)定殘差塊的輸入信號,并且中間單元仍移除相加之后的ReLU,避免過多的ReLU妨礙信息傳遞。通過對優(yōu)化殘差塊之間的信息傳遞,保證了ReLU既能提供非線性關(guān)系又不會損耗傳遞的特征信息,促進網(wǎng)絡(luò)更好地學習。
b)設(shè)計殘差連接。在ResNet網(wǎng)絡(luò)中當殘差連接的輸入和輸出維度不同時,如圖2(a)所示,采用步幅(stride)為2的1×1的卷積(conv)進行下采樣,但是會造成75%的信息丟失和噪聲擾動[27]。為確保細節(jié)信息不被丟失,如圖2(b)所示,本文的下采樣使用步幅為2的最大池化層(maxpooling),再采用步幅為1的1×1卷積完成通道轉(zhuǎn)換,加強通道間信息交流。最大池化層會考慮來自特征圖的所有信息,并選擇其中激活度最高的元素作為輸出,避免細節(jié)特征信息的丟失。改進后的殘差塊傳遞信息更為平滑,能夠在更好分類的同時提高定位準確性;同時,相較于原始的ResNet網(wǎng)絡(luò),僅增加了三個最大池化層,其計算成本可以忽略不計。
c)改進殘差塊的卷積部分。圖3為殘差塊的卷積示意圖,其中每行的第一個數(shù)為當前特征圖的通道維度,第二個和第三個分別為卷積核的大小和通道數(shù)。如圖3(a)所示,ResNet網(wǎng)絡(luò)殘差塊中1×1卷積的作用是完成通道升維和降維,3×3卷積主要完成目標特征提取的部分。由于3×3卷積的通道數(shù)量過少(為512),限制了卷積層在空間信息上的學習能力[27],使用分組卷積將3×3卷積的輸入通道分組,每個分組獨立執(zhí)行卷積操作,其結(jié)構(gòu)如圖3所示。式(1)為參數(shù)計算公式,表1為改進前后網(wǎng)絡(luò)參數(shù)對比。可以看出,重塑殘差模塊能夠在保證參數(shù)量和計算成本不會大幅增加的同時,將可學習的通道數(shù)量擴展為原來的4倍(為2 048),顯著增加了網(wǎng)絡(luò)的學習能力,網(wǎng)絡(luò)的特征提取能力得到增強。
2.4 實驗結(jié)果分析
2.4.1 模型訓練
本文模型在SAR-Ship-Dataset數(shù)據(jù)集上從頭訓練,經(jīng)過不斷迭代后利用其生成的模型作為預(yù)訓練模型重新開始訓練。訓練的batch_size取16,初始學習率為0.001,學習率衰減權(quán)重為0.000 1,訓練迭代次數(shù)epoch取300,參數(shù)更新方法為引入動量的梯度下降法(momentum SGD),動量因子取0.9,訓練過程中的損失函數(shù)變化情況如圖6所示。在經(jīng)過300次迭代后網(wǎng)絡(luò)基本收斂,使用迭代40 000次后的訓練模型,算法總損失能收斂到2。
2.4.2 方法有效性分析
a)不同特征提取網(wǎng)絡(luò)對結(jié)果的影響。為了驗證1.1節(jié)中改進的特征提取網(wǎng)絡(luò)的有效性,將VGG16、ResNet50與本文改進后的ResNet分別作為特征提取網(wǎng)絡(luò)進行檢測效果評估,結(jié)果如表2所示。結(jié)果表明,本文改進的特征提取網(wǎng)絡(luò)應(yīng)用于SSD檢測網(wǎng)絡(luò)中是有效的,有效地加強了特征層之間的信息傳遞,既能提取艦船目標的語義信息,又能保留細節(jié)信息。在SAR艦船目標檢測中同時提高準確率與召回率,取得了更好的檢測效果。
b)不同損失函數(shù)對結(jié)果的影響。損失函數(shù)決定了網(wǎng)絡(luò)在訓練過程中的訓練效果。為檢驗本文設(shè)計的損失函數(shù)的訓練效果,SSD算法在數(shù)據(jù)集上進行對比實驗,結(jié)果如表3所示,相比于SSD使用的損失函數(shù),本文所加入的損失函數(shù)LRepGT與原有的回歸損失函數(shù)LAttr、置信度損失函數(shù)Lconf結(jié)合使用更適用于復雜背景下的艦船目標檢測任務(wù)。
c)融合注意力機制對結(jié)果的影響。表4是在以本文改進的特征提取網(wǎng)絡(luò)為基礎(chǔ)的SSD檢測算法上使用注意力機制的實驗結(jié)果。使用注意力機制后,算法能夠在更少的迭代次數(shù)下收斂,這是因為注意力機制能夠優(yōu)化特征圖,通過自適應(yīng)地分配權(quán)重,網(wǎng)絡(luò)可以更快地排除干擾,準確識別艦船目標,從而進一步提升目標檢測性能。
d)與其他算法的比較。為進一步驗證本文的檢測效果,將其與近年來經(jīng)典目標檢測算法對比,包括SSD[22]、兩階段算法Faster R-CNN[30]、單階段算法YOLOv3[31]、改進SSD算法的FSSD[32]方法,結(jié)果如表5所示。可以看出本文方法檢測精度在七種算法中排名第一,為87.6%,相比于SSD算法高出4.2個百分點,比Faster R-CNN高出3.3個百分點。本文算法改進的ResNet網(wǎng)絡(luò)和注意力機制提高了算法的檢測精度和魯棒性,和使用改進的損失函數(shù)提升網(wǎng)絡(luò)的訓練效果,算法的平均準確率得到提升,檢測時間小幅度增加但仍能夠滿足快速艦船檢測的需求。
2.4.3 檢測結(jié)果與分析
本文從數(shù)據(jù)集中選出不同尺寸和分辨率的圖像,利用迭代40 000次后的權(quán)重參數(shù)在測試集上進行測試,結(jié)果如下:
a)圖7為典型的近距離SAR艦船目標圖片的檢測結(jié)果。可以發(fā)現(xiàn),SSD算法由于特征提取能力不足,對艦船目標的識別能力不強,誤將兩個艦船目標識別為一個。而引入排斥損失函數(shù)訓練出的本文算法,其檢測框能夠很好地包圍目標。在目標距離較近時能夠較好地檢測不同尺寸目標,避免了對近距離目標重復標記和定位不精確的情況。
b)圖8為不同分辨率和海雜波影響下的SAR艦船圖像。從檢測結(jié)果來看,由于低分辨率和海雜波干擾,SSD算法對目標漏檢率較高,本文算法由于特征提取網(wǎng)絡(luò)提供豐富的語義信息和細節(jié)信息,能夠較好地識別不同分辨率的SAR圖像中多尺度、多形態(tài)的艦船目標。
c)圖9為典型的背景復雜的SAR艦船圖像,圖片中背景占比較大,陸地上艦船類似物較多,場景干擾對目標的檢測造成了很大的困難,導致SSD算法漏檢率較高。而本文算法因為通道和空間注意力機制提高了網(wǎng)絡(luò)的辨別能力,有效抑制了干擾特征信息的影響,所以即使在靠岸或背景中含有較多干擾的情況下仍然能正確地檢測目標,沒有發(fā)生漏檢或誤檢情況。證明本算法能夠有效適應(yīng)復雜環(huán)境,有效提升檢測效果和魯棒性。
3 結(jié)束語
本文以單階段目標檢測算法SSD為基礎(chǔ),對SAR圖像目標艦船進行檢測,改進其特征提取網(wǎng)絡(luò)和損失函數(shù),同時融合通道和空間注意力機制以增強網(wǎng)絡(luò)對艦船目標的辨別能力,在多場景、多尺度、多分辨率的艦船檢測中準確率更高,魯棒性更強。在數(shù)據(jù)集上進行一系列對比實驗,本文方法取得了較為理想的效果,能夠給出靠岸艦船、海面艦船等多種不同情況下艦船的置信度和位置信息,對密集型艦船有一定的檢測能力。在實驗中發(fā)現(xiàn)本方法對小目標存在一定的漏檢,但在可接受范圍內(nèi),下一步工作將圍繞小目標檢測進行研究。
參考文獻:
[1]Kang Miao,Ji Kefeng,Leng Xiangguan,et al.Contextual region-based convolutional neural network with multilayer fusion for SAR ship detection[J].Remote Sensing,2017,9(8):860.
[2]Kang Miao,Leng Xiangguan,Lin Zhao,et al.A modified Faster R-CNN based on CFAR algorithm for SAR ship detection[C]//Proc of International Workshop on Remote Sensing with Intelligent Proces-sing.Piscataway,NJ:IEEE Press,2017:1-4.
[3]Wang Yuanyuan,Wang Chao,Zhang Hong.Combining a single shot multibox detector with transfer learning for ship detection using sentinel-1 SAR images[J].Remote Sensing Letters,2018,9(8):780-788.
[4]Tings B,Bentes C,Velotto D,et al.Modelling ship detectability depending on TerraSAR-X-derived metocean parameters[J].CEAS Space Journal,2019,11(3):81-94.
[5]Smith M E,Varshney P K.VI-CFAR:a novel CFAR algorithm based on data variability[C]//Proc of IEEE National Radar Conference.Piscataway,NJ:IEEE Press,1997:263-268.
[6]Gao Gui,Liu Li,Zhao Lingjun,et al.An adaptive and fast CFAR algorithm based on automatic censoring for target detection in high-resolution SAR images[J].IEEE Trans on Geoscience and Remote Sensing,2009,47(6):1685-1697.
[7]Farrouki A,Barkat M.Automatic censoring CFAR detector based on ordered data variability for nonhomogeneous environments[J].IEE Proceedings- Radar Sonar and Navigation,2005,152(1):43-51.
[8]El-Darymli K,Gill E W,McGuire P,et al.Automatic target recognition in synthetic aperture radar imagery:a state-of-the-art review[J].IEEE Access,2016,4:6014-6058.
[9]Huang Xiaojing,Yang Wen,Zhang Haijian,et al.Automatic ship detection in SAR images using multi-scale heterogeneities and an a contrario decision[J].Remote Sensing,2015,7(6):7695-7711.
[10]Souyris J C,Henry C,Adragna F.On the use of complex SAR image spectral analysis for target detection:assessment of polarimetry[J].IEEE Trans on Geoscience and Remote Sensing,2003,41(12):2725-2734.
[11]Ouchi K,Tamaki S,Yaguchi H,et al.Ship detection based on cohe-rence images derived from cross correlation of multilook SAR images[J].IEEE Geoscience and Remote Sensing Letter,2004,1(3):184-187.
[12]Kaplan L M.Improved SAR target detection via extended fractal features[J].IEEE Trans on Aerospace and Electronic Systems,2001,37(2):436-451.
[13]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Proc of the 25th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2012:1097-1105.
[14]Goodfellow I,Bengio Y,Courville A.Deep learning[M].Cambridge,MA:MIT Press,2016.
[15]LeCun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521:436-444.
[16]Marino A.A notch filter for ship detection with polarimetric SAR data[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2013,6:1219-1232.
[17]Wang Yinhua,Liu Hongwei.PolSAR ship detection based on super pixel- level scattering mechanism distribution features[J].IEEE Geoscience and Remote Sensing Letters,2015,12:1780-1784.
[18]Lin Huiping,Chen Hang,Wang Hongmiao,et al.Ship detection for PolSAR images via task-driven discriminative dictionary learning[J].Remote Sensing,2019,11(7):769.
[19]胡昌華,陳辰,何川,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的SAR圖像艦船小目標檢測[J].中國慣性技術(shù)學報,2019,27(3):397-405,414. (Hu Changhua,Chen Chen,He Chuan,et al.SAR detection for small target ship based on deep convolutional neural network[J].Journal of Chinese Inertial Technology,2019,27(3):397-405,414.)
[20]楊龍,蘇娟,李響.基于深度卷積神經(jīng)網(wǎng)絡(luò)的SAR艦船目標檢測[J].系統(tǒng)工程與電子技術(shù),2019,41(9):1990-1997. (Yang Long,Su Juan,Li Xiang.Ship detection in SAR image based on deep convolution neural network[J].Systems Engineering and Electronics,2019,41(9):1990-1997.)
[21]陳冬,句彥偉.基于改進型YOLOv3的SAR圖像艦船目標檢測[J].系統(tǒng)工程與電子技術(shù),2021,43(4):937-943. (Chen Dong,Ju Yanwei.Ship detection in SAR image based on improved YOLOv3[J].Systems Engineering and Electronics,2021,43(4):937-943.)
[22]Liu Wei,Anguelov D,Erhan D,et al.SSD:single shot multibox detector[C]//Proc of the 14th European Conference on Computer Vision.Cham:Springer,2016:21-37.
[23]Nie Guhong,Zhang Peng,Niu Xin,et al.Ship detection using transfer learned single shot multi box detector[C]//Proc of the 4th Annual International Conference on Information Technology and Applications.2017.
[24]Wang Jizhou,Lu Changhua,Jiang Weiwei.Simultaneous ship detection and orientation estimation in SAR images based on attention module and angle regression[J].Sensors,2018,18(9):2851.
[25]Karen S,Andrew Z.Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10).https://arxiv.org/pdf/1409.1556v4.pdf.
[26]He Kaiming,Zhang Xiangyu,Ren Shaoqin,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2016:770-778.
[27]Duta I C,Liu Li,Zhu Fan,et al.Improved residual networks for image and video recognition[EB/OL].(2020-04-10).https://arxiv.org/pdf/2004.04989v1.pdf.
[28]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of the 15th European Conference on Computer Vision.Cham:Springer,2018:3-19.
[29]Wang Yuanyuan,Wang Chao,Zhang Hong,et al.A SAR dataset of ship detection for deep learning under complex backgrounds[J].Remote Sensing,2019,11(7):765.
[30]Ren Shaoqin,He Kaiming,Girshick R,et al.Faster R-CNN:towards real-Time object detection with region proposal networks[J].IEEE Trans on Pattern Analysis amp; Machine Intelligence,2015,39(6):1137-1149.
[31]Redmon J,F(xiàn)arhadi A.YOLOv3:an incremental improvement[EB/OL].(2018-04-08).https://arxiv.org/pdf/1804.02767.pdf.
[32]Li Zouxin,Zhou Fuqiang.FSSD:feature fusion single shot multibox detector[EB/OL].(2018-05-17).https://arxiv.org/pdf/1712.00960.pdf.