周雪珂 劉 暢 周 濱①
①(中國科學院大學 北京 100049)
②(中國科學院空天信息創(chuàng)新研究院 北京 100190)
合成孔徑雷達 (Synthetic Aperture Radar,SAR) 作為一種主動式微波成像傳感器,利用脈沖壓縮技術(shù)改善距離分辨率,利用合成孔徑原理改善方位分辨率,具有全天時、全天候進行高分辨率雷達成像觀測能力[1,2]。SAR成像技術(shù)的日益成熟,對SAR圖像中船舶目標檢測的實時性和準確性也有了更高的要求[3]。
傳統(tǒng)的SAR船舶檢測方法一般采用多個步驟,從圖像預處理,海陸分割,再到候選區(qū)域提取,最后進行目標檢測和鑒別[4]。然而這種方法往往針對不同的場景問題就需要設計具體的解決方案,具有泛化性差的問題,檢測精度也較差。
近些年,深度學習技術(shù)以其強大的特征表達能力和自主的學習能力在各個領域都得到了廣泛的應用。基于深度學習的目標檢測方法具有很多的優(yōu)點[5]。深度學習算法充分體現(xiàn)了端到端的檢測思想,整個過程幾乎不需要人為干預和人為假設。因其適應性好,基于深度學習的目標檢測算法針對光學圖像、SAR圖像,或者針對飛機、車輛、船舶等不同目標只通過變更樣本重新訓練即可,不需要修改網(wǎng)絡結(jié)構(gòu)和構(gòu)建新特征。而且其適應性強,深度學習技術(shù)在進行船舶檢測時不用區(qū)分遠海近岸目標,網(wǎng)絡可以自主學習目標的深度特征。
2014年,Girshick等人[6]開創(chuàng)性地提出一種基于區(qū)域的卷積神經(jīng)網(wǎng)絡方法(Region-based CNN features,R-CNN),實現(xiàn)了在對目標檢測的同時進行識別。此算法在該領域引起了廣泛的關(guān)注,也涌現(xiàn)了很多有效的改進算法,比如Fast R-CNN[7],Faster R-CNN[8],YOLO (You Only Look Once)[9],SSD (Single Shot multibox Detector)[10]。Fast RCNN在R-CNN的基礎上通過固定單一尺寸的卷積特征圖進行網(wǎng)格劃分和池化,提高了計算速度。Faster R-CNN進一步引入?yún)^(qū)域建議網(wǎng)絡(Region Proposal Network,RPN),通過RPN與Fast R-CNN共享特征提取網(wǎng)絡,并進行位置回歸,以提高目標檢測的精度與速率。與R-CNN這些雙階段檢測器不同,Redmon等人[9]提出了一種單階段目標檢測算法,稱為YOLO,該算法將檢測問題簡化為分類回歸,提升了檢測速度,但也降低了檢測的精準性。在此基礎上,Liu等人[10]結(jié)合了Faster R-CNN的錨點機制與YOLO的回歸思想,提出了SSD目標檢測算法,雖然在準確度上有所提升,但對小目標的檢測效果仍然較差。
鑒于Faster R-CNN的高檢測準確度,不少學者已將其應用到SAR圖像船舶檢測中。李健偉等人[11]基于Faster R-CNN,結(jié)合將候選區(qū)域提取的二值化賦范梯度方法,采用級聯(lián)卷積神經(jīng)網(wǎng)絡以增加模型復雜度換取檢測精度的提升。2021年,李廣帥等人[12]基于Faster R-CNN通過設計不同尺寸卷積核增強對淺層特征的提取,但依舊是從增加特征提取網(wǎng)絡的卷積層數(shù)量出發(fā),增加模型復雜度。Wang等人[13]通過在網(wǎng)絡中引入軟閾值注意模塊抑制SAR船舶圖像中的海雜波噪聲與陸地背景,實驗驗證了其有效性與可行性。同時,基于檢測速度的提升,Zhang等人[14]進行了深入的研究。2019年,Zhang等人[15]提出基于深度可分離卷積神經(jīng)網(wǎng)絡的檢測算法,有效提升了檢測速度,但檢測精度有所損耗。之后,該團隊又提出了一些輕量型網(wǎng)絡[16,17],能夠較好地權(quán)衡檢測精度與檢測速度,并且具有良好的遷移能力。
復雜場景下的SAR圖像目標檢測,提升檢測精度和檢測速度,降低模型訓練代價,仍是目前大多數(shù)算法亟需解決的問題。本文基于Faster R-CNN算法進行優(yōu)化。首先,在卷積神經(jīng)網(wǎng)絡部分引入通道注意力模型(Channel Attention,CA)進行通道間特征的關(guān)系校準,使網(wǎng)絡更加關(guān)注有效信息,抑制無關(guān)信息,提升檢測精度。其次,結(jié)合基于神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)[18]算法的特征金字塔(Feature Pyramid Networks,FPN)[19]模塊,在FPN生成的不同組合特征空間實現(xiàn)特征圖的自動跨層連接,獲取具有更豐富語義信息的特征圖,以提升檢測性能,同時在結(jié)合FPN后,適當減少了特征維度,從而減少前后向傳播的運算量,以降低訓練時間,保證實時檢測。另外,在Faster R-CNN中,為了獲取固定尺寸的特征向量,感興趣區(qū)域池化層進行了兩次量化操作,導致獲取的候選框位置發(fā)生了偏移,對小目標檢測影響極大。本文借鑒2017年He等人[20]提出的Mask R-CNN中通過雙線性差值填充回歸得到的浮點數(shù)位置像素的方法,使得低層特征圖向上映射時沒有位置誤差,從而提升小目標檢測效果。在檢測時利用非極大值軟抑制(Soft-Non Maximum Suppression,soft-NMS)[21]算法以改善非極大值抑制(NMS)的性能,提高復雜背景下停靠在一起的密集船舶檢測精度。
Faster R-CNN算法檢測流程如圖1所示,首先基于特征提取網(wǎng)絡獲取輸入圖像的特征圖,然后通過RPN生成候選區(qū)域框,再使用感興趣區(qū)域池化(Region of Interest Pooling,RoI Pooling),從特征圖中獲得固定長度的各個候選區(qū)域的特征向量,最后對固定尺寸的特征向量進行分類得分與邊界框位置回歸。

圖1 Faster R-CNN結(jié)構(gòu)圖Fig.1 The frame structure of Faster R-CNN
Faster R-CNN的特征提取網(wǎng)絡通常采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN),常見的特征網(wǎng)絡有LeNet,AlexNet,VGG,Google-Net,ResNet,DenseNet等。其中ResNet通過引入3層殘差模塊(如圖2所示),解決了神經(jīng)網(wǎng)絡中一味增加網(wǎng)絡層數(shù)導致的“退化問題”。其中,Resnet50具有較好的特征提取能力,并且網(wǎng)絡層數(shù)與參數(shù)量也較少。因此,本文采用Resnet50作為Faster R-CNN的主干網(wǎng)絡。

圖2 Resnet50的殘差結(jié)構(gòu)Fig.2 The residual structure of Resnet50
RPN主要是通過滑窗操作、中間層映射和兩個全連接層進行分類回歸來實現(xiàn)候選區(qū)域生成的。
如圖3所示,首先選擇3×3的滑動窗口在共享特征的最后一層特征圖上進行滑動,每個滑動窗口區(qū)域通過中間層映射成一個特征向量,為每個滑窗區(qū)域的中心點生成k個不同尺寸和邊長的錨框。該特征向量經(jīng)過分類和回歸分別輸出每個滑動窗口的前背景概率值和回歸后的錨框位置坐標信息。在RPN中,每個滑窗產(chǎn)生k個候選區(qū)域,回歸層則會生成4k個位置坐標信息,分類層會生成2k個前背景得分信息。最后,RPN根據(jù)回歸計算出的修正值對每個錨框的長、寬和中心進行修正,修正后的候選區(qū)域再經(jīng)過非極大值抑制篩選出輸出得分靠前的前N個區(qū)域作為目標檢測網(wǎng)絡的輸入。

圖3 區(qū)域建議網(wǎng)絡結(jié)構(gòu)Fig.3 The structure of region proposal network
RPN網(wǎng)絡在生成候選區(qū)域框的時候有兩個任務,一個是判斷錨點產(chǎn)生的候選框是否為目標的二分類任務,另一個是對該候選框進行邊框回歸的回歸任務。故RPN訓練時的總體損失函數(shù)是分類損失Lcls和回歸損失Lreg的加權(quán)和,表達式為

分類損失函數(shù)為

其中,i表示第i個錨點,當錨點為正樣本時,表示錨框被預測為目標的概率。
回歸損失函數(shù)為

其中,

ti=ftx,ty,tw,thg表示預測的邊界框的4個位置參數(shù)坐標;ti表示正樣本對應的真值邊界框的坐標向量。其中,(x,y,w,h)為邊界框的中心坐標,寬,高。變量x,xa和x*分別用于預測框、錨框和真值邊界框。
在解決復雜背景下的SAR圖像船舶目標檢測任務時,上述Faster R-CNN模型存在檢測精度較低且算法復雜度高、訓練代價大的問題,導致其模型應用能力受限,針對此問題,本文提出了一種改進的Faster R-CNN模型。其網(wǎng)絡結(jié)構(gòu)如圖4所示,主要在以下3方面改進:

圖4 本文算法網(wǎng)絡結(jié)構(gòu)Fig.4 The network structure of the algorithm in this paper
(1) 為了提高小目標檢測性能,解決Faster R-CNN在感興趣區(qū)域池化過程中兩次量化帶來的候選框位置偏差問題,借鑒Mask R-CNN[20]中的RoI Align方法,使用雙線性內(nèi)插的方法獲得坐標為浮點數(shù)的像素點上的圖像數(shù)值。
(2) 為了提高檢測的準確度,在卷積神經(jīng)網(wǎng)絡中加入通道注意力模塊,對不同通道間的特征關(guān)系進行校準,提升網(wǎng)絡的特征提取能力。
(3) 為了高效地利用不同尺度的特征圖,基于神經(jīng)架構(gòu)搜索算法,改進特征金字塔結(jié)構(gòu),使網(wǎng)絡可以自動跨不同特征層進行特征融合。
Faster R-CNN通過RoI Pooling將RPN生成的候選區(qū)域統(tǒng)一到固定尺寸,然后經(jīng)過一個全連接層得到RoI特征向量。通過模型回歸得到的候選區(qū)域的位置往往是一個非整數(shù)像素值,為了得到池化后尺寸固定的特征圖,在RoI Pooling中存在兩次量化的過程,經(jīng)過這兩次量化,產(chǎn)生的候選框就會和開始回歸出來的位置坐標產(chǎn)生一定的誤差,這個誤差值會影響檢測的準確度,尤其是在進行小目標檢測時。
本文在感興趣區(qū)域池化部分引入Mask R-CNN中提出的RoI Align方法,具體操作如圖5所示。首先保持候選區(qū)域的浮點數(shù)位置坐標,然后將其劃分為k×k個單元,單元邊界也不做量化處理,最后對每個單元進行四等分找到其中心點,通過雙線性內(nèi)插計算出這4個位置的坐標,再進行最大池化。該方法通過將RoI Pooling中兩次量化轉(zhuǎn)換成一個連續(xù)的過程,解決了Faster R-CNN中的位置偏差問題。

圖5 RoI Align的實現(xiàn)原理Fig.5 Implementation principle of RoI Align
為了使模型更關(guān)注具有有效信息的通道特征,抑制無關(guān)特征,實現(xiàn)通道間特征關(guān)系的校準,本文在Faster R-CNN的特征提取網(wǎng)絡部分引入了CA機制。
CA算法借鑒SENet模型[22]的網(wǎng)絡結(jié)構(gòu),如圖6(a)所示,假設輸入為通道數(shù)為C的H W的特征圖,首先對特征圖進行壓縮(Squeeze)操作,將特征圖作為輸入,對應圖6(b)中的全局平均池化(Global Pooling)操作,將不同通道上整個空間特征編碼聚合,得到一個經(jīng)過全局壓縮的C11的特征向量;然后對全局特征進行激發(fā)(Excitation)操作,對應圖6(b)可以看到,通過兩個全連接層對通道間的相關(guān)性進行簡單建模,提取各個通道間的關(guān)系,再經(jīng)過Sigmoid激活函數(shù)獲得歸一化權(quán)重值;最后在原始特征圖的基礎上進行重加權(quán)(Scale)操作,也就是圖6(b)中的Scale操作,通過對原始特征圖乘以對應通道的權(quán)重值,得到新的特征圖。SE_Resnet將原始特征圖與新特征圖進行疊加,得到最終的特征信息,即在Resnet中的殘差模塊引入圖6(b)所示的CA結(jié)構(gòu)。

圖6 通道注意力模塊結(jié)構(gòu)Fig.6 The structure of channel attention module
本文選擇結(jié)合通道注意力的Resnet50作為特征提取網(wǎng)絡的主干網(wǎng)絡,表1列出了特征提取網(wǎng)絡的相關(guān)參數(shù)。

表1 以Resnet50作為主干網(wǎng)絡的特征提取網(wǎng)絡參數(shù)Tab.1 The network parameters extraction with Resnet50 as the backbone network feature
Faster R-CNN進行目標檢測,利用頂層特征圖進行后續(xù)目標分類與回歸處理。頂層特征是卷積神經(jīng)網(wǎng)絡多次下采樣得到的,具有比較豐富的語義信息,但是對細節(jié)的損失較大,而由于SAR圖像成像范圍較大,船舶目標相對較小,具有的像素信息也較少,在下采樣的過程中極易丟失,從而導致漏檢。為了解決這一問題,本文引入特征金字塔模塊。為能準確快速地找到一種跨尺度連接的最優(yōu)特征組合結(jié)構(gòu),本文使用了一種改進的特征金字塔結(jié)構(gòu)(NAS-FPN)。NAS-FPN借助神經(jīng)架構(gòu)搜索算法的優(yōu)勢,在FPN生成的不同組合特征空間中,發(fā)現(xiàn)一種高性能架構(gòu),實現(xiàn)特征的自動跨層連接。
NAS-FPN主要利用強化學習的思想,使用循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)作為控制器,利用網(wǎng)絡模型在特征搜索空間中的準確度作為獎勵進行交互,產(chǎn)生特征的組合行為,得到最優(yōu)的模型架構(gòu)。如圖7所示,控制器對具有不同架構(gòu)的子網(wǎng)絡進行采樣獲取概率P,子網(wǎng)絡模型將訓練過程中的檢測準確度R作為獎勵信號反向傳播更新控制器,通過不斷迭代實驗,控制器學習如何獲取更好的組合架構(gòu),隨著訓練模型的逐漸收斂,得到最終的實驗參數(shù),也就是最優(yōu)的組合方式。

圖7 NAS-FPN強化學習算法Fig.7 Reinforcement learning for NAS-FPN
NAS-FPN通過上述的預處理任務訓練一個簡單的子網(wǎng)絡模型,只需選擇10個epoch,并且使用10層Resnet網(wǎng)絡進行訓練。經(jīng)過預訓練任務得到的組合結(jié)構(gòu)如圖8所示,從圖中可以看到,此時的特征組合包括紅色自底向上和藍色自頂向下的特征組合方式,充分融合了不同尺度的特征圖信息。

圖8 FPN組合結(jié)構(gòu)Fig.8 The combination structure of FPN
當通過上述方式選定特征組合后,本文采用Resnet50作為主干網(wǎng)絡,提取了{C1,C2,C3,C4,C5} 5層特征,由于C1,C2占用內(nèi)存較大,故將其移除,然后對C5進行下采樣得到C6和C7層,選取{C3,C4,C5,C6,C7}構(gòu)成特征金字塔。然后經(jīng)過NAS-FPN得到{P3,P4,P5,P6,P7}。NASFPN通過特征融合單元(Feature Mergeing Cell,FMC)對網(wǎng)絡提取的特征圖進行重新融合,得到新的不同尺度的特征圖,然后作為目標檢測子網(wǎng)絡的輸入。如圖9,首先從特征圖集合中選取兩幅特征圖C3,C5作為FMC的輸入,同時選取特征圖C4作為FMC輸出特征圖的分辨率,這里的C3,C4,C5都是通過預處理任務選定的;然后針對輸入的兩幅特征圖從Binary中選擇所需的融合操作。這里Binary操作主要有兩種選擇,第1種如圖10(a)所示,當輸入的兩特征圖分辨率一致時,直接進行求和操作;第2種如圖10(b)所示,當輸入的兩特征圖分辨率不一致時,低層特征進行最大池化,并通過sigmoid激活函數(shù),與高層特征元素乘,結(jié)果再與低層特征相加得到最終的輸出;最后將新的融合特征圖增加到開始的特征圖集合中。

圖9 NAS-FPN結(jié)構(gòu)圖Fig.9 The frame structure of NAS-FPN

圖10 融合操作Fig.10 Binary operation
圖11(a)–圖11(e)是NAS-FPN中不同層輸出特征圖的熱力圖,這里選取了P3–P7層的特征。圖11(f)–圖11(g)為熱力圖疊加在原圖上的效果圖,從圖11(f)可以看出,最終送入RPN中的特征圖在保留原始信息的基礎上,已經(jīng)充分融合了各個尺度的特征信息,實現(xiàn)了對目標的精確定位。

圖11 NAS-FPN熱力圖結(jié)果Fig.11 The heatmaps of NAS-FPN
本次實驗使用的是SAR船舶檢測數(shù)據(jù)集(SAR Ship Detection Dataset,SSDD)[5],該數(shù)據(jù)集是國內(nèi)外公開的首個專門用于SAR圖像船舶目標檢測的數(shù)據(jù)集,共有1160個圖像和2456個船舶。該數(shù)據(jù)集參考PASCAL VOC數(shù)據(jù)集的制作方式,數(shù)據(jù)包括RadarSat-2、TerraSAR-X和Sentinel-1傳感器,HH,HV,VV和VH4種極化方式,分辨率為1~15 m,在大片海域和近岸地區(qū)都有船舶目標。
基于深度學習的SAR船舶檢測算法的日漸成熟,近些年多位學者提出用于模型訓練的高分辨率SAR船舶檢測數(shù)據(jù)集[23,24,25]。為了驗證本文所提出的網(wǎng)絡結(jié)構(gòu)泛化性,增加高分辨率SAR圖像數(shù)據(jù)集(High-Resolution SAR Images Dataset,HRSID)[24]進行實驗驗證,該數(shù)據(jù)集共包含5064張高分辨率SAR圖像和16951個船舶目標,參考COCO數(shù)據(jù)集的構(gòu)建過程,包括不同極化方式和不同背景的船舶目標,分辨率為0.5 m,1.0 m,3.0 m。
實驗的硬件配置采用Intel Core i7處理器,6 G B 內(nèi)部存儲器,GPU處理器為NVIDIA GTX1660Ti;實驗平臺為Ubuntu16.04;軟件環(huán)境是Python 3.6,Anaconda 3,CUDA10.0,Cudnn7.6。實驗基于pytorch1.3實現(xiàn)卷積神經(jīng)網(wǎng)絡模型,其中模型的特征提取網(wǎng)絡都是在Resnet50上進行預訓練的,主要參數(shù)包括最大迭代次數(shù)、候選區(qū)域錨框尺寸與數(shù)量、學習率、優(yōu)化器和soft-NMS的閾值。
本文采用精度均值(Average Precision,AP)、訓練時間(Time)、每秒幀數(shù)(Frame Per Second,FPS)、運算浮點數(shù)(FLOPs)和參數(shù)量(parameters)作為算法的評價指標。
(1) 精度均值
AP為準確率P和召回率R在[0,1]范圍內(nèi)繪制的曲線pr與坐標軸所圍成的面積。其表達式為

其中,準確率(Precision,P)是指在所有正樣本中,被正確識別為正樣本的比例。表達式為

召回率(Recall,R)是預測的樣本數(shù)中,被正確識別為正樣本的?比例。表達式為

其中,TP代表真正例,F(xiàn)N代表假反例,F(xiàn)P代表假正例。
(2) 訓練時間
Time代表模型訓練過程中,平均每一次迭代所需的時間,可以表示為

其中,n為模型訓練至收斂的迭代次數(shù),ti代表訓練第i次迭代所需要的時間。
(3) 每秒幀數(shù)
FPS代表檢測速度的快慢,可以表示為

其中,N為對測試集的樣本數(shù)量,T為對測試集進行檢測所需要的時間。
(4) 浮點運算次數(shù)
FLOPs用來評估前向運算時的計算量,計算量越大,說明網(wǎng)絡越復雜。
(5) 參數(shù)量
Parameters代表網(wǎng)絡中的參數(shù)數(shù)量,在神經(jīng)網(wǎng)絡中一般指訓練模型時需要學習的權(quán)重和偏置值。
首先在基礎實驗上進行多次調(diào)參,以獲得最佳實驗結(jié)果。最終的實驗參數(shù)設置如下:最大迭代次數(shù)為8000,錨框尺度設置為{4,8,16,32,64},比例為{0.5 :1 :2},學習率采用線性增加策略,初始的500次迭代中學習率逐漸增加,初始學習率設置為0.005,優(yōu)化器選擇的是隨機梯度下降法,soft-NMS的交并比閾值為0.5,最小得分閾值為0.05。當模型訓練逐漸收斂時,會提前終止迭代。
為了更好地評估本文所提出的改進算法在SAR圖像船舶目標的檢測性能,實驗基于SSDD數(shù)據(jù)集定量分析了該優(yōu)化算法。從表2可以發(fā)現(xiàn),從檢測精度上看,F(xiàn)aster R-CNN在SSDD上的AP值為85.4%,首先模型在感興趣區(qū)域池化模塊使用RoI Align時,AP提升了1.8%,通過添加CA模塊,獲取不同通道間特征圖的相關(guān)性,使得AP在Faster R-CNN基礎上提升了2.8%,通過添加NAS-FPN模塊獲取不同尺度的特征圖信息,使得AP在Faster R-CNN的基礎上提升了2.6%,本文算法結(jié)合CA與NAS-FPN模型,將AP相較基礎模型提升了4.0%,取得了較好的檢測結(jié)果;從訓練時間上看,F(xiàn)aster R-CNN在SSDD上達到0.667 s/iter,本文算法在Faster R-CNN的基礎上添加了通道注意力模塊,增加了訓練時間,但是通過結(jié)合NAS-FPN模塊,移除了占內(nèi)存較大的C1和C2層特征,并且將之前送入RPN的1024維的通道數(shù)減少到256維,降低了模型的復雜度與訓練時間。故本文算法相較基礎Faster R-CNN仍具有極大的檢測精度優(yōu)勢,同時檢測速度提升了7.9 FPS,達到10.7 FPS,完全能夠滿足海上船舶實時檢測的應用需求。

表2 基于Faster R-CNN的優(yōu)化算法對比Tab.2 Comparison of optimization algorithms based on Faster R-CNN
為了進一步驗證本文算法的目標檢測能力,基于SSDD與HRSID數(shù)據(jù)集,表3將本文算法與SSD[10],Cascade R-CNN[26]和PANet[27]等算法進行了性能對比。圖12展示了不同算法在兩數(shù)據(jù)集上的P-R曲線圖。實驗證明,本文算法雖然在檢測速度上和模型參數(shù)上存在一些劣勢。但不論在SSDD還是在HRSID數(shù)據(jù)集上,本文算法的檢測精度都是最高的。

圖12 不同算法的P-R曲線對比Fig.12 The P-R curve of different methods

表3 不同檢測算法的性能對比Tab.3 Comparison of different detection algorithms
除上述在檢測精度方面的優(yōu)勢外,本文算法對各種復雜場景下船舶目標的檢測適應能力更強。圖13–圖15分別從SSDD中選擇了3種不同場景下的SAR船舶圖像進行對比,包括小目標船舶、近岸船舶和密集停靠船舶,這里設置得分閾值為0.8,即認為在測試中,如果檢測到的船舶目標和標記的矩形框的重疊部分達到標記矩形框的80% 以上,則認為是成功檢測。
對比圖13可以發(fā)現(xiàn)本文算法在小目標檢測中的檢測效果明顯更優(yōu),在Faster R-CNN中,由于模型檢測精度低,對船舶目標的得分不夠準確,在固定得分閾值下,當?shù)梅纸Y(jié)果不夠精確時,針對一例船舶目標就會存在多個矩形標記框,如圖13(c)中的虛警情況;當船舶目標的邊緣輪廓較弱時,模型打分結(jié)果過低,就會導致漏檢。相同的參數(shù)設置下,本文算法因為其檢測精度的提升,完全消除了虛警現(xiàn)象,漏警也得到了明顯的改善,遺漏目標也主要是因為船舶目標的邊緣較弱,提取的特征進行回歸時的得分低于閾值,未成功檢測,對于這一類弱目標的檢測,也會在今后的研究中重點關(guān)注;與SSD算法相比,SSD算法對小目標檢測效果極差,在圖13中未檢測出一例船舶目標;通過對比PANet與Cascade R-CNN發(fā)現(xiàn),Cascade R-CNN在小目標檢測上的效果較差,在Cascade R-CNN中,特征金字塔主要包括自上而下的單向融合,PANet中增加了自下而上的二次融合結(jié)構(gòu),而本文算法使用了NAS-FPN,增加了更復雜的雙向特征融合,能夠有效抑制噪聲提取目標,目前的檢測結(jié)果是最好的,檢測率為100%,召回率為88.2%,虛警率為0。這說明本文算法對小目標檢測相較當前大多數(shù)網(wǎng)絡來說效果更優(yōu)。

圖13 小目標船舶圖像的檢測算法對比Fig.13 Comparison of detection algorithms for small target
對比圖14中復雜背景下的近岸船舶目標檢測結(jié)果,本文算法由于多尺度特征融合,增強了不同尺度船舶特征的提取,同時結(jié)合了通道注意力模型對不同通道間特征關(guān)系進行校準,使得近岸船舶不需要海陸分割等手段,就可以準確提取目標特征并成功檢測目標,在圖14中本文算法的檢測率達到100%,召回率為100%,虛警率為0。對比PANet和Cascade R-CNN網(wǎng)絡,檢測結(jié)果保持一致,但Faster R-CNN和SSD算法由于檢測精度較低,均漏檢了圖中的小目標船舶。這說明了本文算法對復雜背景下近岸的SAR圖像船舶檢測效果也更好。

圖14 近岸船舶圖像的檢測算法對比Fig.14 Comparison of detection algorithms for inshore ship
對比圖15中復雜背景下的密集停靠船舶目標檢測結(jié)果,對比算法均出現(xiàn)多個漏警,而本文算法則高效地檢測出了其中大部分的漏警,檢測率達到100%,召回率為85.7%,虛警率為0。從漏警目標可以看出對于近鄰停靠的船舶,當其停靠角度有差異時,就可以正確檢測,但是,當停靠在一起的船舶完全平行時,就會將其檢測成一例目標,針對這一情況在后續(xù)研究中考慮使用平衡場景學習機制(Balance Scene Learning Mechanism,BSLM)[28]提升近岸復雜場景下的船舶檢測精度。目前實驗結(jié)果對比表明本文算法對于密集停靠的船舶目標檢測準確度仍然更高。

圖15 密集停靠的船舶圖像檢測算法對比Fig.15 Comparison of detection algorithms for adjacent targets
表4基于SSDD數(shù)據(jù)集,將測試數(shù)據(jù)的船舶目標按照近岸與離岸船舶分為兩類,分別統(tǒng)計其檢測精度與召回率。

表4 不同檢測算法基于SSDD在近岸與離岸場景下的性能對比Tab.4 Comparison of different detection algorithms in inshore and offshore scenes of SSDD
實驗結(jié)果表明,不論是針對近岸船舶還是離岸船舶,本文的檢測精度都是最高的。與SSD算法相比較,本文算法的提升主要體現(xiàn)在離岸船舶目標的檢測,由于這類目標多數(shù)為小目標船舶導致SSD檢測效果較差。與Cascade R-CNN,PANet相比,本文算法因結(jié)合更復雜的多尺度特征融合與通道關(guān)系校準模塊,在近岸和離岸船舶檢測中檢測精度均得到有效地提升。
最后,本文選取了AIR-SARShip 1.0數(shù)據(jù)集[25]的圖像進行模型結(jié)果測試。如圖16所示,AIRSARShip 1.0數(shù)據(jù)為3000×3000的高分辨SAR圖像,其中,使用藍色矩形框在檢測結(jié)果中標注目標位置。本文算法能夠較好地檢測出船舶目標,檢測率為100%。這說明該模型對大場景下星載SAR圖像的船舶檢測也是有效的。

圖16 本文算法在AIR-SARShip 1.0數(shù)據(jù)上的檢測結(jié)果Fig.16 Detection result of this algorithm on AIR-SARShip 1.0
本文提出一種基于多尺度特征融合與通道關(guān)系校準的Faster R-CNN目標檢測算法,將其用于SAR圖像的船舶檢測研究中。在兩種船舶檢測數(shù)據(jù)集上的檢測結(jié)果均表明,相較原始Faster R-CNN,SSD,Cascade R-CNN與PANet,本文算法不論是針對不同尺度下的小目標船舶,復雜背景下的近岸船舶,還是近鄰停靠的多船舶目標都具有更好的檢測精度,各種復雜場景下的船舶目標檢測適應性更強。在檢測時間上,與原始Faster R-CNN相比,檢測速度得到了大幅度提升,能夠適應對各種檢測實時性要求高的檢測任務需求,例如實時海面監(jiān)控、緊急海上救援以及軍事部署任務等。