基于改進(jìn)RetinaNet的船舶檢測(cè)算法

2022-07-29 08:07:14凡文俊趙曙光郭力爭(zhēng)

計(jì)算機(jī)應(yīng)用 2022年7期

凡文俊，趙曙光*，郭力爭(zhēng)

凡文俊1，趙曙光1*，郭力爭(zhēng)2

（1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院，上海 201620； 2.河南城建學(xué)院計(jì)算機(jī)與數(shù)據(jù)科學(xué)學(xué)院，河南平頂山 467036）（ ? 通信作者電子郵箱sgzhao@dhu.edu.cn）

目前基于深度學(xué)習(xí)算法的目標(biāo)檢測(cè)技術(shù)在合成孔徑雷達(dá)（SAR）圖像船舶檢測(cè)中取得了顯著的成果，然而仍存在著小目標(biāo)船舶和近岸密集排列船舶檢測(cè)效果差的問(wèn)題。針對(duì)上述問(wèn)題，提出了基于改進(jìn)RetinaNet的船舶檢測(cè)算法。在傳統(tǒng)RetinaNet算法的基礎(chǔ)上，首先，將特征提取網(wǎng)絡(luò)殘差塊中的卷積改進(jìn)為分組卷積，以增加網(wǎng)絡(luò)寬度，從而提高網(wǎng)絡(luò)的特征提取能力；其次，在特征提取網(wǎng)絡(luò)的后兩個(gè)階段加入注意力機(jī)制，讓網(wǎng)絡(luò)更加專(zhuān)注于目標(biāo)區(qū)域，從而提升目標(biāo)檢測(cè)能力；最后，將軟非極大值抑制（Soft-NMS）加入到算法中，降低算法對(duì)于近岸密集排列船舶檢測(cè)的漏檢率。在高分辨率SAR圖像數(shù)據(jù)集（HRSID）和SAR船舶檢測(cè)數(shù)據(jù)集（SSDD）上的實(shí)驗(yàn)結(jié)果表明，所提改進(jìn)算法對(duì)于小目標(biāo)船舶和近岸船舶的檢測(cè)效果得到了有效提升，與當(dāng)前優(yōu)秀的目標(biāo)檢測(cè)模型Faster R-CNN、YOLOv3和CenterNet等相比，在檢測(cè)精度和速度上更加優(yōu)越。

合成孔徑雷達(dá)圖像；船舶檢測(cè)；RetinaNet；注意力機(jī)制；分組卷積

0 引言

隨著海洋產(chǎn)業(yè)的飛速發(fā)展，海洋經(jīng)濟(jì)在國(guó)民經(jīng)濟(jì)中的地位也越來(lái)越重要，而船舶在海洋產(chǎn)業(yè)的發(fā)展與海洋交通運(yùn)輸中起著重要的作用。對(duì)船舶的有效檢測(cè)不僅能提高海上運(yùn)輸效率，對(duì)減少海上交通事故的發(fā)生也有著極大的作用。近些年，雷達(dá)衛(wèi)星的迅猛發(fā)展，如TerraSAR-X、RADARSAT-2和哨兵一號(hào)等的發(fā)射，使合成孔徑雷達(dá)（Synthetic Aperture Radar， SAR）圖像的分辨率越來(lái)越高。SAR圖像的成像不受天氣和高度的影響，且SAR的自發(fā)光特點(diǎn)使它能在任何時(shí)候提供高質(zhì)量的圖像［1］，這些優(yōu)勢(shì)使得SAR圖像在船舶檢測(cè)領(lǐng)域發(fā)揮著重要的作用。

船舶檢測(cè)是遙感領(lǐng)域的一個(gè)重要研究課題。近年來(lái)，基于模式識(shí)別的傳統(tǒng)目標(biāo)檢測(cè)方法取得了巨大的進(jìn)步，傳統(tǒng)的目標(biāo)檢測(cè)大致分為區(qū)域選擇和分類(lèi)器兩部分。區(qū)域選擇有尺度不變特征變換（Scale-Invariant Feature Transform， SIFT）、方向梯度直方圖（Histogram of Oriented Gradient， HOG）等方法，分類(lèi)器有支持向量機(jī)（Support Vector Machine， SVM）和Adaboost等。傳統(tǒng)的SAR船舶檢測(cè)方法一般采用多個(gè)步驟，從圖像預(yù)處理、海陸分割，再到候選區(qū)域提取，最后進(jìn)行目標(biāo)檢測(cè)和鑒別［2］。應(yīng)用在SAR圖像船舶檢測(cè)最普遍的方法是恒虛警率（Constant False Alarm Rate， CFAR）［3］系列算法，CFAR算法通過(guò)合適的分布對(duì)海雜波背景進(jìn)行建模，并設(shè)定一個(gè)閾值對(duì)船舶目標(biāo)進(jìn)行檢測(cè)；但由于人工設(shè)定的特征魯棒性差，且在一些特殊場(chǎng)景下，如小目標(biāo)和近海的復(fù)雜背景，CFAR算法很難達(dá)到較好的性能。

隨著計(jì)算機(jī)硬件和深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network， CNN）成為目標(biāo)檢測(cè)、分類(lèi)、分割的主要方法。基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法主要分為兩類(lèi)：以Faster R-CNN（Region-based CNN）［4］等為代表的二階段檢測(cè)器和以YOLO（You Only Look Once）［5］系列、RetinaNet［6］等為代表的一階段檢測(cè)器。二階段檢測(cè)器的主要優(yōu)勢(shì)是精度高，而一階段檢測(cè)器與二階段檢測(cè)器相比檢測(cè)速度更快。對(duì)于SAR圖像船舶檢測(cè)任務(wù)來(lái)說(shuō)，基于深度學(xué)習(xí)的船舶檢測(cè)算法不像傳統(tǒng)的CFAR算法一樣需要復(fù)雜的建模過(guò)程，而且自動(dòng)學(xué)習(xí)的特征也比傳統(tǒng)目標(biāo)檢測(cè)方法手工設(shè)定的特征表現(xiàn)更加出色。基于卷積神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)領(lǐng)域的出色表現(xiàn)，一部分專(zhuān)家學(xué)者將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到了SAR圖像船舶檢測(cè)中。Kang等［7］提出了一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)，該方法將上下文信息和淺層位置特征與深層語(yǔ)義特征相結(jié)合，來(lái)提高檢測(cè)器的檢測(cè)精度。Jiao等［8］在Faster R-CNN的基礎(chǔ)上提出了一個(gè)密集連接多尺度網(wǎng)絡(luò)（Densely Connected MultiScale Neural Network， DCMSNN），將密集連接網(wǎng)絡(luò)作為它的特征提取網(wǎng)絡(luò)，主要用來(lái)檢測(cè)多尺度、多場(chǎng)景的船舶目標(biāo)。Zhang等［9］在網(wǎng)格卷積神經(jīng)網(wǎng)絡(luò)（Grid Convolutional Neural Network， G-CNN）的基礎(chǔ)上，通過(guò)將輸入圖像網(wǎng)格化和采用深度可分離卷積，極大加快了檢測(cè)器的檢測(cè)速度。為了獲得更顯著的特征并抑制噪聲，大量研究引入了注意力機(jī)制，Cui等［10］將特征金字塔與卷積注意力模塊相融合，Zhao等［11］提出了一個(gè)擴(kuò)張注意力模塊來(lái)提升檢測(cè)器的特征提取能力。袁國(guó)文等［12］在Libra R-CNN［13］的特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network， FPN）基礎(chǔ)上添加了神經(jīng)架構(gòu)搜索（Neural Architecture Search， NAS），以解決FPN多尺度金字塔的融合問(wèn)題，提高復(fù)雜場(chǎng)景下的船舶檢測(cè)精度。基于anchor-free的卷積神經(jīng)網(wǎng)絡(luò)方法也被應(yīng)用到SAR船舶檢測(cè)的研究中，Guo等［14］在CenterNet［15］的基礎(chǔ)上提出了CenterNet++，實(shí)驗(yàn)結(jié)果表明該網(wǎng)絡(luò)在檢測(cè)SAR圖像數(shù)據(jù)集中小目標(biāo)船舶的任務(wù)中取得了最先進(jìn)的性能。雖然當(dāng)前這些先進(jìn)的方法極大地提高了性能，但仍然存在著不足，無(wú)論是anchor-based方法還是anchor-free方法，它們的特征提取網(wǎng)絡(luò)都還有進(jìn)一步改進(jìn)的空間。anchor-free的方法擺脫了使用anchor帶來(lái)的巨大計(jì)算量，從而提升了船舶檢測(cè)的精度和速度，但同時(shí)也帶來(lái)了檢測(cè)結(jié)果不穩(wěn)定的問(wèn)題；而anchor-based方法對(duì)于密集排列船舶的檢測(cè)也存在著精度不高的問(wèn)題。

經(jīng)過(guò)對(duì)上述研究的分析發(fā)現(xiàn)，基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法在SAR船舶檢測(cè)中的表現(xiàn)更為出色，RetinaNet是一個(gè)簡(jiǎn)單而強(qiáng)大的目標(biāo)檢測(cè)網(wǎng)絡(luò)，不僅擁有較高的檢測(cè)速度，在檢測(cè)精度方面也比一些二階段檢測(cè)器性能更優(yōu)，但將傳統(tǒng)的RetinaNet直接應(yīng)用到SAR船舶檢測(cè)中依然會(huì)存在小目標(biāo)檢測(cè)困難和在近岸的復(fù)雜背景下會(huì)更容易產(chǎn)生漏檢和虛警的問(wèn)題。所以本文基于RetinaNet算法進(jìn)行優(yōu)化，首先對(duì)特征提取網(wǎng)絡(luò)進(jìn)行優(yōu)化，借鑒了Szegedy等［16］提出的Inception模塊，引入稀疏特性將全連接層改造成稀疏連接，在有限的計(jì)算資源內(nèi)提高了網(wǎng)絡(luò)性能，實(shí)現(xiàn)了對(duì)RetinaNet特征提取網(wǎng)絡(luò)的優(yōu)化。RetinaNet的特征金字塔網(wǎng)絡(luò)，能有效解決特征提取網(wǎng)絡(luò)在提取小目標(biāo)特征時(shí)不斷下采樣產(chǎn)生的特征丟失的問(wèn)題，提高了網(wǎng)絡(luò)對(duì)小目標(biāo)檢測(cè)的準(zhǔn)確率。其次，本文在RetinaNet的網(wǎng)絡(luò)模型中添加了注意力機(jī)制，使得網(wǎng)絡(luò)更加關(guān)注有效的特征信息，以此來(lái)提高船舶在復(fù)雜背景下的檢測(cè)精度。最后，將網(wǎng)絡(luò)檢測(cè)時(shí)采用的非極大值抑制（Non-Maximum Suppression， NMS）算法［17］替換為軟非極大值抑制（Soft-NMS）算法，解決了船舶在密集排列時(shí)精度丟失的問(wèn)題。

1 RetinaNet模型

RetinaNet的結(jié)構(gòu)如圖1所示。

圖1　RetinaNet的結(jié)構(gòu)

首先，通過(guò)由卷積神經(jīng)網(wǎng)絡(luò)組成的特征提取網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取；然后，通過(guò)特征金字塔網(wǎng)絡(luò)進(jìn)行特征融合，使單一分辨率圖片能構(gòu)建一個(gè)豐富的、多尺度的特征金字塔；最后，特征金字塔的每一層都有一個(gè)并行的分類(lèi)子網(wǎng)絡(luò)和邊框回歸子網(wǎng)絡(luò)，對(duì)特征圖的目標(biāo)進(jìn)行邊框回歸和分類(lèi)。

1.1　特征提取網(wǎng)絡(luò)

RetinaNet使用的特征提取網(wǎng)絡(luò)通常都是ResNet系列，ResNet是由一系列的殘差塊組成，殘差塊結(jié)構(gòu)如圖2所示，其表達(dá)式為：

殘差塊主要分為直接映射部分和殘差部分，是直接映射部分，函數(shù)是殘差部分，一般由兩個(gè)或三個(gè)卷積操作構(gòu)成。殘差塊有效地解決了卷積神經(jīng)網(wǎng)絡(luò)隨著深度的加深而出現(xiàn)的退化問(wèn)題：網(wǎng)絡(luò)深度飽和之后繼續(xù)加深網(wǎng)絡(luò)反而使網(wǎng)絡(luò)的效果變差。ResNet50就是集成這些殘差塊所形成的網(wǎng)絡(luò)，ResNet50不僅具有良好的特征提取能力，而且網(wǎng)絡(luò)層數(shù)和參數(shù)量也不多，所以RetinaNet就采用了ResNet50作為它的特征提取網(wǎng)絡(luò)。

1.2　FPN

FPN的結(jié)構(gòu)如圖3所示。

圖3　FPN結(jié)構(gòu)

FPN的主要作用就是利用特征提取網(wǎng)絡(luò)不同階段的特征圖，構(gòu)建一個(gè)多尺度的特征金字塔，每層特征都與高層的高語(yǔ)義信息的特征相融合，提升每層的預(yù)測(cè)效果，而且低層高分辨率特征能夠有效地提升小目標(biāo)的檢測(cè)效果。

1.3　focal loss

在傳統(tǒng)目標(biāo)檢測(cè)網(wǎng)絡(luò)（如Faster R-CNN、YOLO系列等）的類(lèi)別預(yù)測(cè)中，一般都是使用交叉熵?fù)p失（Cross Entropy Loss）。二分類(lèi)的交叉熵?fù)p失表達(dá)式如下：

RetinaNet采用優(yōu)化過(guò)后的交叉熵?fù)p失函數(shù)focal loss，函數(shù)的表達(dá)式為：

2 網(wǎng)絡(luò)改進(jìn)

SAR圖像在生成的過(guò)程中由于自身成像模式的原因，容易產(chǎn)生噪聲，并且生成的圖像分辨率過(guò)低，在近岸場(chǎng)景下的圖像背景復(fù)雜，但RetinaNet的特征提取網(wǎng)絡(luò)提取能力不足以勝任這么復(fù)雜的場(chǎng)景，所以傳統(tǒng)的RetinaNet在應(yīng)用到背景復(fù)雜的SAR船舶檢測(cè)和小目標(biāo)船舶檢測(cè)任務(wù)時(shí)，仍存在檢測(cè)準(zhǔn)確度偏低，以及在近岸船舶檢測(cè)時(shí)漏檢率和虛警率偏高的問(wèn)題。本文針對(duì)這些問(wèn)題提出了改進(jìn)的RetinaNet模型，其結(jié)構(gòu)如圖4所示。改進(jìn)的RetinaNet模型主要進(jìn)行了三個(gè)方面的改進(jìn)：首先對(duì)傳統(tǒng)的RetinaNet網(wǎng)絡(luò)所使用的特征提取網(wǎng)絡(luò)ResNet進(jìn)行了改進(jìn)，借鑒了Inception系列網(wǎng)絡(luò)的分組卷積之后再融合的思想，在不增加參數(shù)復(fù)雜度的前提下提高了特征提取網(wǎng)絡(luò)的特征提取能力。其次，在網(wǎng)絡(luò)中加入了注意力機(jī)制模塊，使檢測(cè)網(wǎng)絡(luò)更加注重特征圖的目標(biāo)特征，提高了網(wǎng)絡(luò)的檢測(cè)精度。最后，使用Soft-NMS算法代替原來(lái)的NMS算法。

2.1　特征提取網(wǎng)絡(luò)的改進(jìn)

為了提高特征提取網(wǎng)絡(luò)的提取能力，對(duì)ResNet的殘差塊進(jìn)行改進(jìn)，改進(jìn)前后的對(duì)比如圖5所示，（a）為ResNet的殘差塊結(jié)構(gòu)，（b）為改進(jìn)之后ResNeXt［18］的殘差塊結(jié)構(gòu)。圖5中，每個(gè)方框代表一層卷積，方框中參數(shù)分別表示輸入數(shù)據(jù)通道數(shù)、卷積核大小、輸出數(shù)據(jù)通道數(shù)。改進(jìn)后的殘差塊表達(dá)式為：

圖5　殘差塊改進(jìn)前后對(duì)比

2.2　空間注意力機(jī)制

為了使模型更加關(guān)注感興趣的特定目標(biāo)區(qū)域，同時(shí)抑制不相關(guān)的特征區(qū)域，本文算法在模型的特征提取網(wǎng)絡(luò)中加入了空間注意力機(jī)制。Zhu等［19］對(duì)空間注意力機(jī)制進(jìn)行了詳盡的經(jīng)驗(yàn)性分析，通過(guò)實(shí)驗(yàn)驗(yàn)證了Transformer attention仍具有大量的改進(jìn)空間，本文借鑒了上述研究對(duì)Transformer attention的改進(jìn)，將廣義注意力機(jī)制模塊（Generalized Attention Module， GAM）引入到本文實(shí)驗(yàn)中，結(jié)構(gòu)如圖6所示。

圖6　廣義注意力模塊結(jié)構(gòu)

2.3　Soft-NMS

將NMS算法應(yīng)用于大部分先進(jìn)的目標(biāo)檢測(cè)器中，用來(lái)消除多余的候選框，找到最佳的目標(biāo)檢測(cè)位置。該算法主要的流程是將檢測(cè)結(jié)果的多個(gè)候選框按照得分來(lái)進(jìn)行排序，并且計(jì)算得分最高的候選框與其他候選框的重疊面積，重疊面積達(dá)到閾值就刪除得分低的候選框，之后不斷迭代該過(guò)程直到達(dá)到最佳結(jié)果。但是在船舶檢測(cè)任務(wù)中，當(dāng)遇到密集排列的船舶時(shí)，使用NMS算法來(lái)處理預(yù)測(cè)框會(huì)導(dǎo)致漏檢，如圖8所示，假設(shè)圖中的框都為模型檢測(cè)出的候選框，而實(shí)線(xiàn)框得分比虛線(xiàn)框高，采用NMS算法會(huì)因?yàn)樘摼€(xiàn)框與實(shí)線(xiàn)框重疊面積超過(guò)閾值導(dǎo)致虛線(xiàn)框的刪除，最終導(dǎo)致漏檢，從而造成模型的精度降低。所以本文算法采用Soft-NMS算法來(lái)代替?zhèn)鹘y(tǒng)的NMS算法，Soft-NMS并不會(huì)暴力地刪除得分低的候選框，而是衰減候選框的得分，直到得分低于閾值才刪除，這樣能有效地解決上述問(wèn)題，從而提升模型精度。

圖7　注意力殘差塊結(jié)構(gòu)

圖8　NMS算法導(dǎo)致的漏檢

傳統(tǒng)的NMS算法的表達(dá)式如下：

3 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

3.1　數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

表1　HRSID數(shù)據(jù)集與SSD數(shù)據(jù)集

實(shí)驗(yàn)的硬件平臺(tái)配置為：Intel Xeon E5-2678處理器，可使用內(nèi)存為32 GB，GPU處理器為NVIDIA GeForce RTX2080，顯卡內(nèi)存為8 GB；操作系統(tǒng)為64位Ubuntu 18.04；運(yùn)行的軟件環(huán)境為Python3.7、CUDA10.0、Cudnn7.6。網(wǎng)絡(luò)模型是基于Pytorch1.3.1搭建的。

網(wǎng)絡(luò)在兩數(shù)據(jù)集上訓(xùn)練都選擇隨機(jī)梯度下降法（Stochastic Gradient Descent， SGD）作為優(yōu)化器，并設(shè)置動(dòng)量因子為0.9，權(quán)重衰減系數(shù)為0.000 1，學(xué)習(xí)率設(shè)置為0.001 25，并采用學(xué)習(xí)率線(xiàn)性增加策略，前500次迭代中學(xué)習(xí)率逐漸增加到0.001 25.使用學(xué)習(xí)率分段衰減策略，在模型訓(xùn)練的后幾個(gè)輪次將學(xué)習(xí)率調(diào)整為原來(lái)的1/10，保證模型逐漸收斂。

3.2　評(píng)價(jià)指標(biāo)

為了對(duì)目標(biāo)檢測(cè)器的性能進(jìn)行定量和全面的分析，通常都會(huì)采用IOU（Intersection Over Union）、精確率（Precision）、召回率（Recall）和平均精度均值（mean Average Precision， mAP）等作為評(píng)價(jià)指標(biāo)。

1） IOU。

IOU表示真實(shí)框與預(yù)測(cè)框的交集與并集的比值，其表達(dá)式如下：

2）精確率與召回率。

在目標(biāo)檢測(cè)器的分類(lèi)過(guò)程中，檢測(cè)器可能會(huì)將背景與目標(biāo)物體進(jìn)行誤分類(lèi)，也就導(dǎo)致了分類(lèi)的四種結(jié)果：真陽(yáng)性（True Positives， TP）、真陰性（True Negatives， TN）、假陰性（False Negatives， FN）、假陽(yáng)性（False Positives， FP）。TP表示正確分類(lèi)的正樣本數(shù)；TN表示正確分類(lèi)的負(fù)樣本數(shù)；FN表示沒(méi)有檢測(cè)到的正樣本數(shù)；FP表示在圖像背景上虛警的個(gè)數(shù)。所以，精確率Precision與召回率Recall的計(jì)算式如下：

如果數(shù)據(jù)集中有多個(gè)類(lèi)別，那么所有類(lèi)別AP的平均值就是mAP。常見(jiàn)的目標(biāo)檢測(cè)數(shù)據(jù)集的評(píng)估格式有Pascal VOC和MS COCO。Pascal VOC的mAP計(jì)算是基于IOU閾值等于0.5的，IOU大于0.5的檢測(cè)框?qū)儆赥P，小于0.5的屬于FP。而MS COCO的評(píng)價(jià)標(biāo)準(zhǔn)更加豐富和全面，如AP、AP50（IOU閾值為0.5）、AP75（IOU閾值為0.75），其中AP是主要的挑戰(zhàn)指標(biāo)，AP將IOU閾值分為10個(gè)，從0.5到0.95，間隔為0.05，分別在這10個(gè)IOU閾值上求取精確率，最后再求平均得到AP，所以選取AP、AP50、AP75作為本文算法的評(píng)價(jià)指標(biāo)。

3.3　消融實(shí)驗(yàn)

如第2章所述，本文在RetinaNet的基礎(chǔ)上進(jìn)行改進(jìn)，包括ResNeXt、GAM、Soft-NMS這3個(gè)核心模塊。為了更好地評(píng)估各個(gè)模塊對(duì)傳統(tǒng)的RetinaNet算法的改進(jìn)能力，本文實(shí)驗(yàn)分別對(duì)各個(gè)模塊進(jìn)行了消融實(shí)驗(yàn)，結(jié)果如表2所示。

表2　改進(jìn)算法各模塊的消融實(shí)驗(yàn)結(jié)果

可以發(fā)現(xiàn)，傳統(tǒng)RetinaNet在SSDD數(shù)據(jù)集上的AP為52.3%，而ResNeXt的加入，增強(qiáng)了網(wǎng)絡(luò)的特征提取能力，使網(wǎng)絡(luò)檢測(cè)結(jié)果的AP提高了1.6個(gè)百分點(diǎn)；在將RetinaNet的特征提取網(wǎng)絡(luò)改進(jìn)為ResNeXt的情況下，又分別對(duì)GAM模塊和Soft-NMS模塊進(jìn)行了實(shí)驗(yàn)，分別提高了1.7個(gè)百分點(diǎn)和1.6個(gè)百分點(diǎn)；最終將3個(gè)模塊進(jìn)行融合，相較傳統(tǒng)的RetinaNet，本文改進(jìn)算法在AP上提高了3.8個(gè)百分點(diǎn)，驗(yàn)證了各個(gè)模塊融合的有效性。

3.4　基于HRSID數(shù)據(jù)集的改進(jìn)算法實(shí)驗(yàn)與分析

表3中，分別給出了傳統(tǒng)的RetinaNet算法和本文改進(jìn)算法在HRSID測(cè)試集上的測(cè)試速度以及各個(gè)AP值。通過(guò)分析表3數(shù)據(jù)可以發(fā)現(xiàn)，本文通過(guò)對(duì)傳統(tǒng)的RetinaNet算法特征提取網(wǎng)絡(luò)和損失函數(shù)的改進(jìn)，以及加入注意力機(jī)制，在損失較小測(cè)試速度的情況下極大提高了模型的精度。本文算法相較RetinaNet算法，在AP50上提高了0.9個(gè)百分點(diǎn)，在AP75上提高了3.4個(gè)百分點(diǎn)，最終模型的平均精度提高了2.4個(gè)百分點(diǎn)。

表3　RetinaNet算法改進(jìn)前后性能對(duì)比

除了上述檢測(cè)精度的優(yōu)勢(shì)外，本文算法在復(fù)雜背景及小目標(biāo)船舶檢測(cè)任務(wù)上的適應(yīng)能力更強(qiáng)。選擇了兩個(gè)有代表性的船舶檢測(cè)場(chǎng)景來(lái)驗(yàn)證本文算法的檢測(cè)能力，可視化結(jié)果如圖9所示，第一行為小目標(biāo)場(chǎng)景，第二行為復(fù)雜背景的近岸船舶場(chǎng)景，第一列圖像中的框表示真實(shí)標(biāo)注框，第二列和第三列圖像中的框表示模型的檢測(cè)框。設(shè)定測(cè)試集上的置信度閾值為0.5，置信度低于0.5的檢測(cè)框?qū)⒈贿^(guò)濾來(lái)防止虛警過(guò)多。從可視化結(jié)果圖9可以看出，本文算法相較于RetinaNet算法提高了在小目標(biāo)船舶檢測(cè)和復(fù)雜背景的近岸船舶檢測(cè)任務(wù)中的準(zhǔn)確率。

圖9　不同算法檢測(cè)結(jié)果的可視化對(duì)比

3.5　基于SSDD數(shù)據(jù)集不同算法對(duì)比實(shí)驗(yàn)與分析

為了進(jìn)一步驗(yàn)證改進(jìn)算法的SAR圖像船舶檢測(cè)能力，表4將本文算法與YOLOv3［23］、SSD［24］、Faster R-CNN［4］和近幾年的優(yōu)秀算法，包括anchor-based的Libra R-CNN［13］和anchor-free的CenterNet［15］在SSDD的測(cè)試集進(jìn)行了性能對(duì)比。不同算法在SSDD測(cè)試集上的PR曲線(xiàn)如圖10所示。

實(shí)驗(yàn)結(jié)果表明，由于Faster R-CNN二階段檢測(cè)網(wǎng)絡(luò)的特性，其在AP75上比本文算法提高了2.7個(gè)百分點(diǎn)，但本文算法的平均精度和AP50均優(yōu)于Faster R-CNN，且測(cè)試速度也有著較大的優(yōu)勢(shì)。本文算法相較于YOLOv3和SSD這樣的一階段網(wǎng)絡(luò)，平均精度AP分別提高了9.2個(gè)百分點(diǎn)和3.6個(gè)百分點(diǎn)，與近幾年的優(yōu)秀算法Libra R-CNN相比，平均AP也提高了0.7個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明，本文算法與當(dāng)前大多數(shù)網(wǎng)絡(luò)相比性能都更優(yōu)。

圖10　不同算法的PR曲線(xiàn)

表4　不同檢測(cè)算法的性能對(duì)比

在SSDD數(shù)據(jù)集的測(cè)試集上選取了兩種不同場(chǎng)景的SAR圖像進(jìn)行對(duì)比，圖11為小目標(biāo)船舶場(chǎng)景，圖12為近岸密集停靠船舶場(chǎng)景，同樣設(shè)置得分閾值為0.5，圖（a）中的框表示真實(shí)標(biāo)注框，其他圖中的框表示模型預(yù)測(cè)框。

圖11　小目標(biāo)船舶圖像的不同算法檢測(cè)結(jié)果對(duì)比

由圖11可以發(fā)現(xiàn)，本文檢測(cè)算法在小目標(biāo)船舶上的檢測(cè)結(jié)果明顯更優(yōu)。傳統(tǒng)的RetinaNet檢測(cè)算法由于對(duì)小目標(biāo)船舶檢測(cè)精度低，導(dǎo)致船舶的得分低，在固定的得分閾值下，產(chǎn)生了大量的漏檢目標(biāo)，而改進(jìn)之后的算法極大提高了船舶的置信度得分，因此極大地提高了檢測(cè)精度。與先進(jìn)的一階段網(wǎng)絡(luò)SSD和YOLOv3相比，改進(jìn)算法的漏檢目標(biāo)也有明顯減少；但與Fater R-CNN相比，改進(jìn)算法的精度略有降低。

將SSDD數(shù)據(jù)集的測(cè)試集按照船舶目標(biāo)是否近岸分為離岸數(shù)據(jù)集和近岸數(shù)據(jù)集兩類(lèi)，分別采用本文算法、SSD網(wǎng)絡(luò)、Faster R-CNN、YOLOv3統(tǒng)計(jì)其平均精度（AP），結(jié)果如表5所示。實(shí)驗(yàn)結(jié)果表明，本文算法無(wú)論在近岸場(chǎng)景還是在離岸場(chǎng)景，船舶檢測(cè)的精度相較其他網(wǎng)絡(luò)都得到有效的提升。

圖12　近岸密集停靠船舶圖像的不同算法檢測(cè)結(jié)果對(duì)比

表5　不同算法在SSDD數(shù)據(jù)集的近岸與離岸場(chǎng)景的檢測(cè)精度對(duì)比單位：%

4 結(jié)語(yǔ)

本文提出了一種基于分組卷積和注意力機(jī)制的改進(jìn)ReitinaNet船舶檢測(cè)算法，在不對(duì)檢測(cè)速度造成巨大損失的基礎(chǔ)上極大提高了船舶檢測(cè)精度。在HRSID數(shù)據(jù)集和SSDD數(shù)據(jù)集上的檢測(cè)結(jié)果均表明，本文提出的改進(jìn)算法相較于其他先進(jìn)算法，無(wú)論是針對(duì)小目標(biāo)船舶的檢測(cè)，還是對(duì)近岸復(fù)雜背景下的船舶檢測(cè)，都有更高的檢測(cè)精度。但本文算法對(duì)近岸船舶的檢測(cè)精度依然遠(yuǎn)低于離岸船舶，提升近岸復(fù)雜背景下的船舶檢測(cè)精度將作為今后重點(diǎn)的研究目標(biāo)。

[1] WACKERMAN C C， FRIEDMAN K S， PICHEL W G， et al. Automatic detection of ships in RADARSAT-1 SAR imagery ［J］. Canadian Journal of Remote Sensing， 2001， 27（5）： 568-577.

[2] 陳慧元，劉澤宇，郭煒煒，等.基于級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的大場(chǎng)景遙感圖像艦船目標(biāo)快速檢測(cè)方法［J］.雷達(dá)學(xué)報(bào)，2019，8（3）：413-424.（CHEN H Y， LIU Z Y， GUO W W， et al. Fast detection of ship targets for large-scale remote sensing image based on a cascade convolutional neural network ［J］. Journal of Radars， 2019， 8（3）： 413-424.）

[3] ROBEY F C， FUHRMANN D R， KELLY E J， et al. A CFAR adaptive matched filter detector ［J］. IEEE Transactions on Aerospace and Electronic Systems， 1992， 28（1）： 208-216.

[4] REN S Q， HE K M， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks ［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）： 1137-1149.

[5] REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： unified， real-time object detection ［C］// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2016： 779-788.

[6] LIN T Y， GOYAL P， GIRSHICK R， et al. Focal loss for dense object detection ［C］// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017： 2999-3007.

[7] KANG M， JI K F， LENG X G， et al. Contextual region-based convolutional neural network with multilayer fusion for SAR ship detection ［J］. Remote Sensing， 2017， 9（8）： Article No.860.

[8] JIAO J， ZHANG Y， SUN H， et al. A densely connected end-to-end neural network for multiscale and multiscene SAR ship detection ［J］. IEEE Access， 2018， 6： 20881-20892.

[9] ZHANG T W， ZHANG X L. High-speed ship detection in SAR images based on a grid convolutional neural network ［J］. Remote Sensing， 2019， 11（10）： Article No.1206.

[10] CUI Z Y， LI Q， CAO Z J， et al. Dense attention pyramid networks for multi-scale ship detection in SAR images ［J］. IEEE Transactions on Geoscience and Remote Sensing， 2019， 57（11）： 8983-8997.

[11] ZHAO Y， ZHAO L J， LI C Y， et al. Pyramid attention dilated network for aircraft detection in SAR images ［J］. IEEE Geoscience and Remote Sensing Letters， 2021， 18（4）： 662-666.

[12] 袁國(guó)文，張彩霞，楊陽(yáng)，等.復(fù)雜場(chǎng)景下深度表示的SAR船舶目標(biāo)檢測(cè)算法［J］.計(jì)算機(jī)工程與應(yīng)用，2022，58（2）：289-294.（YUAN G W， ZHANG C X， YANG Y， et al. SAR target detection algorithm for depth representation in complex scenes ［J］. Computer Engineering and Applications， 2022， 58（2）： 289-294.）

[13] PANG J M， CHEN K， SHI J P， et al. Libra R-CNN： towards balanced learning for object detection ［C］// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2019： 821-830.

[14] GUO H Y， YANG X， WANG N N， et al. A CenterNet++ model for ship detection in SAR images ［J］. Pattern Recognition， 2021， 112： Article No.107787.

[15] ZHOU X Y， WANG D Q， KR?HENBüHL P. Objects as points ［EB/OL］. ［2021-03-03］. https：//arxiv.org/pdf/1904.07850.pdf.

[16] SZEGEDY C， LIU W， JIA Y Q， et al. Going deeper with convolutions ［C］// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2015： 1-9.

[17] BODLA N， SINGH B， CHELLAPPA R， et al. Soft-NMS —improving object detection with one line of code ［C］// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway： IEEE， 2017： 5562-5570.

[18] XIE S N， GIRSHICK R， DOLLáR P， et al. Aggregated residual transformations for deep neural networks ［C］// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2017： 5987-5995.

[19] ZHU X Z， CHENG D Z， ZHANG Z， et al. An empirical study of spatial attention mechanisms in deep networks ［C］// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway： IEEE， 2019： 6687-6696.

[20] VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need ［C］// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook： Curran Associates Inc.， 2017： 6000-6010.

[21] WEI S J， ZENG X F， QU Q Z， et al. HRSID： a high-resolution SAR images dataset for ship detection and instance segmentation ［J］. IEEE Access， 2020， 8： 120234-120254.

[22] LI J W， QU C W， SHAO J Q. Ship detection in SAR images based on an improved faster R-CNN ［C］// Proceedings of the 2017 SAR in Big Data Era： Models， Methods and Applications. Piscataway： IEEE， 2017： 1-6.

[23] REDMON J， FARHADI A. YOLOv3： an incremental improvement ［EB/OL］［2021-03-03］. https：//arxiv.org/pdf/1804. 02767.pdf.

[24] LIU W， ANGUELOV D， ERHAN D， et al. SSD： single shot multiBox detector ［C］// Proceedings of the 2016 European Conference on Computer Vision， LNCS 9905. Cham： Springer， 2016： 21-37.

FAN Wenjun， born in 1996， M. S. candidate. His research interests include artificial intelligence， target detection.

ZHAO Shuguang， born in 1965， Ph. D.， professor. His research interests include intelligent information processing， pattern recognition， intelligent system.

GUO Lizheng， born in 1975， Ph. D.， associate professor. His research interests include resource management and scheduling of cloud computing， machine learning.

Ship detection algorithm based on improved RetinaNet

FAN Wenjun1， ZHAO Shuguang1*， GUO Lizheng2

（1，，201620，；2，，467036，）

At present， the target detection technology based on deep learning algorithm has achieved the remarkable results in ship detection of Synthetic Aperture Radar （SAR） images. However， there is still the problem of poor detection effect of small target ships and densely arranged ships near shore. To solve the above problem， a new ship detection algorithm based on improved RetinaNet was proposed. On the basis of traditional RetinaNet algorithm， firstly， the convolution in the residual block of feature extraction network was improved to grouped convolution， thereby increasing the network width and improving the feature extraction ability of the network. Then， the attention mechanism was added in the last two stages of feature extraction network to make the network more focus on the target area and improve the target detection ability. Finally， the Soft Non-Maximum Suppression （Soft-NMS） was added to the algorithm to reduce the missed detection rate of the algorithm for the detection of densely arranged ships near shore. Experimental results on High-Resolution SAR Images Dataset （HRSID） and SAR Ship Detection Dataset （SSDD） show that， the proposed algorithm effectively improves the detection effect of small target ships and near-shore ships， is superior in detection precision and speed compared with the current excellent object detection models such as Faster Region-based Convolutional Neural Network （R-CNN）， You Only Look Once version 3 （YOLOv3） and CenterNet.

Synthetic Aperture Radar (SAR) image; ship detection; RetinaNet; attention mechanism; grouped convolution

This work is partially supported by Interdisciplinary Key Program of Fundamental Research Funds for Central Universities （2232020A-12）.

1001-9081（2022）07-2248-08

10.11772/j.issn.1001-9081.2021050831

2021?05?20；

2021?12?15；

2021?12?29。

中央高校基本科研業(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金學(xué)科交叉重點(diǎn)計(jì)劃項(xiàng)目（2232020A?12）。

TP391.41

凡文俊（1996—），男，湖北天門(mén)人，碩士研究生，主要研究方向：人工智能、目標(biāo)檢測(cè)；趙曙光（1965—），男，陜西西安人，教授，博士，主要研究方向：智能信息處理、模式識(shí)別、智能系統(tǒng)；郭力爭(zhēng)（1975—），男，河南開(kāi)封人，副教授，博士，主要研究方向：云計(jì)算的資源管理與調(diào)度、機(jī)器學(xué)習(xí)。

基于改進(jìn)RetinaNet的船舶檢測(cè)算法

0 引言

1 RetinaNet模型

1.1 特征提取網(wǎng)絡(luò)

1.2 FPN

1.3 focal loss

2 網(wǎng)絡(luò)改進(jìn)

2.1 特征提取網(wǎng)絡(luò)的改進(jìn)

2.2 空間注意力機(jī)制

2.3 Soft-NMS

3 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

3.2 評(píng)價(jià)指標(biāo)

3.3 消融實(shí)驗(yàn)

3.4 基于HRSID數(shù)據(jù)集的改進(jìn)算法實(shí)驗(yàn)與分析

3.5 基于SSDD數(shù)據(jù)集不同算法對(duì)比實(shí)驗(yàn)與分析

4 結(jié)語(yǔ)

1.1　特征提取網(wǎng)絡(luò)

1.2　FPN

1.3　focal loss

2.1　特征提取網(wǎng)絡(luò)的改進(jìn)

2.2　空間注意力機(jī)制

2.3　Soft-NMS

3.1　數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

3.2　評(píng)價(jià)指標(biāo)

3.3　消融實(shí)驗(yàn)

3.4　基于HRSID數(shù)據(jù)集的改進(jìn)算法實(shí)驗(yàn)與分析

3.5　基于SSDD數(shù)據(jù)集不同算法對(duì)比實(shí)驗(yàn)與分析