黃澤賢, 吳凡路, 傅瑤, 張雨, 姜肖楠*
(1.中國科學院 長春光學精密機械與物理研究所,吉林 長春 130033;2.中國科學院大學,北京 100049)
我國擁有遼闊的海域,海面艦船目標檢測無論是在民用方面還是軍事方面都具有十分重要的意義。遙感圖像目標檢測識別一直是遙感圖像處理和模式識別領域備受關注的研究方向[1-2]。基于遙感圖像的艦船目標檢測技術使得大范圍遠海域的監測成為可能,極大地豐富軍事、海事部門的監測手段。隨著遙感衛星技術的不斷成熟,遙感圖像分辨率不斷提升、數據規模日益猛增,傳統目標檢測算法主要基于手工提取特征,手工提取特征存在識別準確率不高、效率低、易受背景干擾等缺點[3-4],已難以滿足應用需求。
在計算機視覺領域,基于深度學習的方法相較于傳統方法顯示出巨大優勢。深度學習方法可以從海量圖像數據中學習圖像特征表達以極大地提高含有大量信息的圖像處理精度。通過組合多個非線性變換、自適應地組合低層特征形成更抽象的高層特征的深度網絡,進而提取出圖像中的光譜、紋理、幾何等隱藏得更深、語義信息更豐富的特征,獲得比傳統方法更高的精度和效率[5]。本文歸納梳理了經典目標檢測算法,對遙感圖像艦船目標檢測算法的技術現狀進行了分析,探討了當前遙感圖像船舶目標檢測算法面臨的問題與挑戰以及未來的發展趨勢。
隨著深度學習在計算機視覺領域取得的革命性成功,卷積神經網絡(Convolutional Neural Networks, CNN)被廣泛應用于圖像分類與目標識別。CNN可以自動提取特征,大大提高了目標識別的準確率。基于深度學習的目標檢測算法主要分為基于錨框的(Anchor-Based)方法和無錨框的(Anchor-Free)方法,其中Anchor-Based方法包括基于候選區域(Region Proposals)的兩階段目標檢測算法和基于回歸的一階段目標檢測算法。基于深度學習的目標檢測算法的發展進程見圖1,本文介紹了幾種經典的目標檢測算法。

圖1 目標檢測算法發展進程Fig.1 Development process of target detection algorithms
2.1.1 基于候選區域的兩階段目標檢測算法
兩階段檢測算法首先從圖像中提取候選區域,然后從候選區域生成目標的預測框。兩階段檢測算法一般檢測精度較高,但檢測速度慢。
(1)R-CNN
Girshick提出的區域卷積神經網絡(Region Convolutional Neural Networks, R-CNN)[6]首先采用選擇性搜索(Selective Search, SS)算法獲取可能包含目標的建議區域;然后,將建議區域的尺寸調整一致后送入CNN AlexNet中提取特征;再將提取的特征向量送入每類的支持向量機(Support Vector Machine, SVM)分類器進行二分類,判斷目標是否屬于該類;最后對已分類的目標框進行精細調整得到更加準確的邊界框坐標。檢測流程見圖2。

圖2 R-CNN檢測流程Fig.2 R-CNN detection process
R-CNN算法第一次將卷積神經網絡用于目標檢測,在VOC2012 (Visual Object Classes Challenge 2012)數據集[7]上的均值平均精度(mean Average Precision, mAP)達到了53.3%,相比之前的最優結果提高了30%以上。但該算法一張圖像生成大量的候選框,特征的冗余計算使得檢測速度很慢。
(2)SPPNet
空間金字塔池化層(Spatial Pyramid Pooling,SPP)[8]將一幅圖像分為若干個尺度的圖像塊,對提取的特征進行融合得到多尺度特征。SPPNet能接收不同尺寸的輸入并生成尺寸一致的特征圖,網絡結構如圖3所示。

圖3 SPPNet網絡結構Fig.3 SPPNet network structure
SPPNet解決了CNN模型輸入圖像尺寸固定的問題,避免特征圖的重復計算,在VOC2007數據集[9]上的mAP值為59.2%,比R-CNN的檢測速度高。但是,和R-CNN相同,SPPNet訓練CNN提取特征后送入SVM進行分類,耗費巨大的存儲空間,多階段訓練流程復雜,而且不能微調空間金字塔池化之前的卷積層,限制了深層網絡的準確性。
(3)Fast RCNN
Fast R-CNN[10]可以同時訓練分類器和邊框回歸器。Fast R-CNN首先使用SS算法生成候選區域;然后,將圖像輸入至VGG-16 (Visual Geometry Group Network)[11]提取特征,得到感興趣區域(Region of Interest,ROI);再在ROI上利用池化層將特征圖縮放到相同尺寸,最后將這些特征圖傳遞到全連接層進行分類,并用Softmax和線性回歸層得到目標邊界框,架構如圖4所示。

圖4 Fast R-CNN架構Fig.4 Fast R-CNN structure
Fast R-CNN訓練VGG-16網絡的速度比RCNN快9倍,測試速度快213倍,在VOC2012數據集上實現了更高的mAP(65.7%)。與SPPNet相比,Fast R-CNN對VGG-16的訓練速度快3倍,測試速度快10倍,準確率也更高。但是Fast R-CNN仍然使用SS算法獲取感興趣區域,速度上無法滿足實時檢測的應用需求。
(4)Faster RCNN
Faster R-CNN[12]用區域選擇網絡(Region Proposal Networks,RPN)取代SS算法生成候選框,提高了檢測速度。Faster R-CNN首先將圖像輸入至VGG-16得到特征圖;然后用RPN生成目標建議區域;再應用ROI池化層將特征圖和目標推薦區域調整到相同尺寸,最后輸入全連接層生成目標的預測邊界框,架構如圖5所示。

圖5 Faster R-CNN架構Fig.5 Faster R-CNN structure
Faster R-CNN在VOC2012數據集上的mAP值為67.0%,精度更高,并且檢測速度更快,接近于實時檢測,但是在后續檢測階段存在計算冗余。Faster R-CNN的主要缺點是交并比(Intersection Over Union,IOU)閾值過高會導致模型過擬合,過低則會產生噪聲引起的虛警問題。
2.1.2 基于回歸的一階段目標檢測算法
一階段檢測算法不需要生成候選區域,直接預測出目標的類別概率和位置信息。相比于兩階段目標檢測算法,檢測速度得到了很大的提升。
(1)YOLO
YOLO(You Only Look Once)[13]首次把目標檢測看作一個回歸問題,利用整張圖像作為網絡的輸入,僅經過一個CNN,就可以得到邊界框的位置及其所屬的類別。YOLO將輸入圖像平均劃分為S×S個網格,如果一個物體的中心落在某一個網格中,那么該網格負責檢測該物體。每個網格要預測B個邊界框,每個邊界框預測5個值:中心點坐標為(x,y),長寬(w,h)和物體是否屬于某個類別的置信度。此外每個網格還要預測類別信息,記為C個類。一張圖像輸入網絡輸出一個S×S×(5×B+C)的張量,網絡結構如圖6所示。

圖6 YOLO網絡結構Fig.6 YOLO structure
相比于兩階段檢測算法,YOLO的檢測速度有很大的提高,能夠以每秒45幀的速度實時處理448×448的圖像;但是檢測精度較低,在VOC2012數據集上的mAP值僅為57.9%,而且對小目標檢測效果差。
(2)SSD
SSD (Single Shot MultiBox Detector)[14]同時借鑒了YOLO的回歸思想和Faster R-CNN的錨機制,以VGG-16作為主干特征提取網絡,在VGG-16之后添加了幾個卷積層,利用低層特征與高層特征實現多尺度檢測,網絡結構如圖7所示。SSD在多個特征層產生錨框,進行非極大值抑制(Non-Maximum Suppression,NMS)后輸出最終檢測結果。

圖7 SSD網絡結構Fig.7 SSD structure
在59幀/秒的處理速度下針對300×300大小的輸入圖像,SSD在VOC2007數據集上將mAP值提高至74.3%,性能優于Faster R-CNN。盡管SSD不同的檢測分支可以對多個尺度的目標進行檢測,但是用于小目標檢測識別的低層特征僅有一層,并未對特征進行融合,特征表達能力不夠、細節信息不足,造成部分小目標漏檢。
(3)YOLOv2
YOLOv2[15]針對YOLO召回率和定位精度方面的不足進行改進,檢測速度更快。YOLOv2使用Darknet-19作為特征提取網絡,可輸入多種尺寸的圖像,每層卷積后增加批量標準化(Batch Normalization,BN)進行預處理;刪除全連接層,引入了先驗框來預測邊界框坐標,并使用K-means聚類方法得到先驗框的尺寸。還通過添加直通層,把高分辨率的淺層特征連接到低分辨率的深層特征而后進行融合獲取細粒度特征,提高檢測效果。輸入416×416大小圖像時最終輸出13×13×N的特征圖,N=(class_num+4+1)×anchor_num;其中class_num為數據集中目標類別數目,anchor_num是先驗框數目。
在67幀/秒的處理速度下針對416×416的輸入圖像,YOLOv2在VOC2007數據集上將mAP值提高至76.8%,檢測精度和速度均優于SSD和Faster R-CNN。但是由于YOLOv2網絡只有一條檢測分支,缺乏對多尺度上下文信息的獲取,對小目標的檢測效果較差。
(4)YOLOv3
YOLOv3[16]主干特征提取網絡采用更深層的Darknet-53,利用特征金字塔網絡結構(Feature Pyramid Network,FPN)進行特征融合實現了3個尺度的檢測,使用邏輯回歸代替softmax進行多標簽分類。YOLOv3在兼顧實時性的同時保證了檢測的準確性。
輸入圖像尺寸為320×320時,YOLOv3在COCO數據集[17]上的平均精度(Average Precision, AP)為28.2%,單幀運行時間為22 ms,與SSD精度接近,但速度快了三倍。但YOLOv3使用均方誤差(Mean Squared Error,MSE)作為邊界框回歸損失函數,使得目標的定位并不精準。
(5)YOLOv4
YOLOv4[18]結合近年來CNN最優秀的優化策略對YOLOv3進行改進。YOLOv4的主干特征提取網絡為CSPDarknet53,使用Mish激活函數,采用SPP、路徑聚合PANet作為加強特征提取網絡,對特征進行融合來提升特征種類的多樣性以及檢測算法的魯棒性。YOLOv4還在數據預處理方面引入了Mosaic數據增強、cmBN(Cross mini-Batch Normalization)和自對抗訓練(Self-Adversarial Training, SAT)。在預測階段YOLOv4采用CIOU (Complete-IOU)代替MSE作為邊界框損失函數提高了定位精度,同時將非極大值抑制(Non Maximum Suppression,NMS)換成DIOU_NMS (Distance-IOU_NMS),避免相鄰目標檢測時出現漏檢。
以65 幀/秒的速度處理608×608的輸入圖像,YOLOv4在COCO數據集上的AP值為43.5%,實現了檢測速度與精度的平衡。
(6)YOLOv5
YOLOv5[19]在輸入端利用Mosaic數據增強來提高小目標檢測效果、訓練前自動計算適合數據集的初始錨框,并將圖片縮放為統一尺寸。主干采用Foucs結構和CSP結構,Foucs結構利用切片操作把輸入的高分辨率特征圖拆分為多個低分辨率特征圖后再進行拼接后進行卷積得到輸出特征圖,Foucs可以減少參數量、提升檢測速度。頸部采用FPN和PAN進行特征融合,并使用借鑒CSPNet設計的CSP2結構來代替普通卷積來加強頸部的特征融合能力。預測階段YOLOv5采用GIOU損失和DIOU_NMS。
YOLOv5共有4種網絡結構:YOLOv5s,YOLOv5m,YOLOv5l和YOLOv5x,隨著網絡深度的不斷增加,精度不斷上升,速度隨之下降。以50幀/秒的速度處理640×640的輸入圖像,YOLOv5x在COCO數據集上的AP值為55%。
2.1.3 小 結
Anchor-Based目標檢測算法根據預先設定的錨框來調整預測結果,檢測性能對于錨框的大小、數量和長寬比異常敏感。固定的錨框使得檢測器的通用性很差,通過預先定義尺度、長寬比生成的錨框通常只適用于一個或幾個特定的對象。當新數據集中的目標尺寸和形狀或圖像尺寸與原始數據集有較大差異時,需要重新設置尺度、長寬比以適應新的目標檢測數據集。為了匹配目標的真實框,網絡會生成大量的錨框,訓練時大部分被標記為負樣本,這樣就會造成正負樣本不均衡的問題,干擾算法的學習過程。此外,在訓練過程中,網絡會計算真實框和所有錨框的交并比(Intersection over Union,IOU)來確定用于檢測真實目標的錨框,這會占用大量的內存,消耗大量的時間。
Anchor-Based目標檢測算法由于生成的錨框過多導致檢測過程復雜,同時產生的大量超參數也會影響檢測器的性能,而Anchor-Free目標檢測算法通過確定關鍵點代替錨框大大減少了超參數的數量。
2.2.1 CornerNet
CornerNet[20]首次提出Anchor-Free思想,把檢測目標的邊界框轉化為檢測左上角和右下角的一對關鍵點,無需設計錨框作為先驗框,減少了網絡的超參數,架構如圖8所示。

圖8 CornerNet網絡結構Fig.8 CornerNet structure
在COCO數據集上CornerNet的AP值為42.1%。由于CornerNet只關注邊緣和角點,缺乏目標內部信息,容易產生假正例(False Positives,FP),網絡需要很多后處理(如NMS)來得到預測結果,降低了算法檢測速度。
2.2.2 CenterNet
Zhou等在CornerNet基礎上進行改進提出了CenterNet目標檢測器[21],架構如圖9所示,直接檢測目標中心和回歸目標尺寸。該算法簡單、快速、準確,不需要耗時的NMS后處理,具有端到端、可微分的特點,是真正意義上的Anchor-Free。此外,CenterNet具有良好的通用性,可以在一次前向傳播中估計一系列額外的物體屬性(如姿勢、3D方向、深度),可用于3D目標檢測。

圖9 CenterNet網絡架構Fig.9 CenterNet structure
在142 幀/秒的處理速度下CenterNet在COCO數據集上的AP值為28.1%。但是CenterNet對于同一類別緊密相鄰的目標檢測效果較差,因為目標真實框的中心產生重疊,CenterNet只能檢測出一個中心點,造成目標漏檢。
2.2.3 FASF
Zhu等提出的FSAF (Feature Selective Anchor-Free Module)模塊[22]將在線特征選擇用于訓練特征金字塔中的無錨分支,為目標自動分配最合適的特征,架構如圖10所示。在推理時,FSAF模塊可以與基于錨的分支并行輸出預測結果,幾乎不增加推理開銷。引入FSAF模塊的最佳模型在COCO數據集上的AP值為44.6%。

圖10 FSAF模塊Fig.10 FSAF modules
2.2.4 FCOS
Tian等提出的FCOS (Fully Convolutional One-Stage Object Detector)[23]以逐像素預測的方式進行目標檢測,完全避免了與錨框相關的計算和超參數,網絡結構如圖11所示。通過引入FPN用不同的層處理不同的目標框,解決目標真實框重疊時出現的漏檢問題;同時引入了Center-ness層,過濾掉大部分的誤檢框。FCOS檢測器在COCO數據集上的AP值為44.7%。

圖11 FCOS架構Fig.11 FCOS architecture
上述基于關鍵點的方法消除了生成錨框的繁瑣過程,通過直接根據網絡預測關鍵點生成適合目標尺度和形狀的方框,大大提高了檢測速度。但是對關鍵點預測的準確性要求高,預測不準確容易導致漏檢和定位不準。
上述基于深度學習的目標檢測算法在VOC,COCO等自然圖像數據集上取得了較好的檢測效果,各種算法的檢測效果對比如表1所示。

表1 經典算法檢測效果對比Tab.1 Comparison of classical algorithm detection results
遙感圖像目標檢測作為目標檢測的一個研究熱點,一直受到研究者的廣泛關注,經典目標檢測算法如Faster RCNN、YOLO憑借其強大的特征提取能力逐漸取代傳統方法被應用到遙感圖像艦船目標檢測中[24-26]。由于遙感圖像與自然圖像存在巨大的差異,經典目標檢測算法直接用于艦船檢測存在檢測精度低、漏檢等問題,需要對算法進行改進。
基于CNN的目標檢測算法在自然圖像數據集上取得了良好的檢測效果,而遙感圖像中往往背景復雜、艦船目標尺度變化大,經典目標檢測算法往往不能有效地提取艦船特征。目前的研究主要采用頻域增強、特征金字塔網絡結構、注意力機制等方法對目標特征進行增強,進而提高多尺度艦船目標的檢測精度。常見方法如圖12所示。

圖12 常用的多尺度檢測方法Fig.12 Common multi-scale detection methods
3.1.1 優化特征表示能力
(1)頻域增強
Al-Saad等[27]提出了頻域增強方法,將小波變換嵌入Faster R-CNN,在提取ROI之前,將原始圖像分解成高、低頻分量,在頻域進行訓練和測試,提高了檢測精度。這種方法簡單易行,但是精度提升不高。
(2)并行特征
并行特征可以提高模型的多尺度學習能力,通常對同一輸入應用多個不同核大小或擴張速率的卷積來得到。Li等[28]提出了一種分層選擇濾波層(Hierarchical Selective Filtering, HSF)對Faster R-CNN進行了改進,HSF由核大小為1×1,3×3,5×5的三個并行卷積層組成,通過層次化的卷積運算來生成多尺度艦船特征,有效檢測不同尺寸的近岸和近海船舶。Liu等[29]利用1×1,3×3,5×5和7×7的卷積核組成四支結構,并在每個分支中分別引入膨脹率為1,3,5,7的膨脹卷積,增加接收野,最后通過殘差將四個支路的輸出和輸入端口連接起來,生成檢測多尺度艦船目標的特征。
(3)密集特征
DenseNet[30]采用層間密集連接的方法,每層都接受之前所有層的特征圖作為額外輸入,并將來自不同層的特征圖進行拼接,保持底層特征信息的完整性,促進了特征重用,可以提高遙感圖像多尺度目標的檢測性能。Jiao等[31]提出了一種基于Faster-RCNN框架的密集連接多尺度神經網絡,該網絡將一個特征圖緊密地從上到下連接到其他特征圖,并從連接的特征圖生成建議,解決了多尺度、多場景合成孔徑雷達(Synthetic Aperture Radar, SAR)的艦船檢測問題。Tian等[32]設計了一種密集特征提取模塊,集成不同分辨率的低層位置信息和高層語義信息,提高特征在網絡中的重用效率,將該模塊應用在經典檢測網絡YOLO和Mask-RCNN上,改進網絡在可見光圖像和SAR圖像數據集上的檢測精度均有提高。
3.1.2 特征高效融合
特征融合是提高多尺度目標檢測性能的另一常用方法。一般來說,在神經網絡中,淺層特征包含目標更多的結構和幾何信息,這有利于目標的回歸。高級特征包含更多的語義信息,有利于對象的分類。高效的特征融合方法可以提高網絡的表征能力,從而提高模型檢測多尺度目標的精度。
FPN[33]自頂向下將高層強語義信息的特征傳遞下來,但是對定位信息沒有傳遞。PANet[34]在FPN的基礎上添加了一個自底向上的金字塔,將低層的強定位信息特征傳遞上去,融合的特征增添了語義信息。自適應空間特征融合[35](Adaptive Spatial Feature Fusion,ASFF)將每層信息融合起來并且自主學習各個尺度融合的權值,解決了PANet特征融合時小目標在高層特征層上被當作背景和大目標在底層中被當作背景的問題。空洞空間卷積池化金字塔[36](Atrous Spatial Pyramid Pooling,ASPP)對輸入以不同采樣率的空洞卷積并行采樣,將結果進行堆疊,再通過1×1卷積將通道數降低到預期數值,以多個比例捕捉圖像的上下文信息。
這些特征融合模塊被應用于艦船檢測網絡中[32,37-40],融合不同層次的特征,在保證位置信息準確性的同時保留更多的語義信息,提高多尺度目標的檢測效果。Tian等[32]引入FPN和ASPP結合的模塊進行特征融合,獲得更大范圍的深度語義信息,增強對不同尺度目標特征的提取能力。Zhang等[37]利用改進的FPN構建SAR艦船檢測網絡,取得了良好的檢測效果。Qing等[38]利用改進的FPN和PANet對主干網絡輸出的特征進行融合,加強艦船特征提取。
3.1.3 注意力機制
為了優化提取的特征,注意力機制也被融合到艦船檢測網絡中[39-42]。注意力機制起源于人類的視覺機制,核心思想是關注關鍵信息而忽略無關信息,減少時間成本和降低計算復雜度。基于視覺注意力機制的目標檢測算法通常通過注意模型得到顯著特征圖,增強目標與背景的差異,然后通過分析顯著特征圖對目標進行檢測。
注意力機制理論上可以嵌入到網絡的任意位置。Chen等[39]將注意力模型集成到檢測網絡的主干部分中,利用注意力模型獲得不同層次的顯著特征,再用FPN融合不同層次的顯著特征。Zhang等[40]設計的LSSD(Lightweight Single Shot Detector)在雙向特征融合模塊進行特征融合后利用注意力機制進一步優化融合特征,有利于更有效地捕捉關鍵信息。注意力機制的引入提高了SAR圖像復雜場景下多尺度艦船目標的檢測效果。Qu等[41]利用卷積注意力模塊(Convolutional Block Attention Module,CBAM)將輔助網絡連接到YOLOv3主干網絡,使網絡能夠更好地學習特定的目標特征,然后用ASFF取代FPN解決特征融合不足的問題,提高模型的穩定性,在可見光遙感圖像數據集上取得了優于YOLOv3的檢測效果。
3.1.4 小 結
優化特征提取網絡和高效的特征融合方法能夠有效提高檢測精度,但是會增加計算復雜度,降低檢測速度,精度與速度的平衡是實際應用中需要考慮的重要問題。大多數注意力機制的參數是通過標簽和預測值的損失反向傳播進行更新,沒有引入其他監督信息,因此受到的監督有局限,容易產生過擬合的問題。
與自然圖像不同,遙感圖像以俯視視角拍攝的,艦船目標往往以不同方向分布在圖像中,經典的目標檢測模型的水平邊界框的定位方式,難以對多方向艦船目標進行精準、緊湊的定位。
3.2.1 水平邊界框精確定位
(1)兩階段水平框檢測改進算法
為了提高水平邊界框檢測多角度艦船目標的效果,旋轉不變層和多角度錨點被用于改進經典的兩階段目標檢測算法。Cheng等[43]在RCNN中引入旋轉不變層,優化目標函數來訓練網絡,旋轉不變性通過強制旋轉前后訓練樣本的特征相互映射接近來實現,解決了任意方向目標檢測不準確的問題。Li等[44]在Faster R-CNN模型中增加多角度錨點處理特征,解決了水平錨點對旋轉物體敏感的問題,能有效檢測任意方向的目標。
(2)一階段水平框檢測改進算法
高斯模型被應用于經典一階段目標檢測算法中,可以增加定位坐標的準確性。Hong等[45]在YOLOv3模型中引入錨框坐標的高斯參數來預測定位,解決坐標信息不可靠的問題,改進模型可以應對不同分辨率下遙感圖像中艦船目標方向和尺寸的變化,穩定性較高。
(3)密集目標漏檢問題
使用水平邊界框檢測存在密集目標漏檢的問題,因為多個艦船傾斜密集排布時,不同目標邊界框之間的重疊區域會很大,在進行NMS操作后置信度低的邊界框會被丟棄,造成目標的漏檢。為了解決這個問題,Chen等[39]在后處理中引入Soft-NMS,在NMS中與置信度最大的邊界框IOU超過閾值的其余邊界框的置信度均被置為0,而Soft-NMS[46]將其余邊界框的置信度進行衰減,衰減程度與IOU值有關,衰減后置信度大于正確檢測閾值的仍當作是目標,減少嚴重重疊情況下艦船目標的漏檢。這種方法可以一定程度上緩解密集目標漏檢的問題,但是閾值的設定對結果的影響較大。
3.2.2 旋轉邊界框精確定位
為了對多方向艦船目標進行精準定位,旋轉邊界框被引入經典目標檢測網絡中提升檢測效果。
(1)兩階段旋轉框檢測改進算法
兩階段目標檢測算法通常利用RPN生成水平錨框來預測目標位置,改進算法使用RPN生成旋轉錨框。如Yang等[47]提出了一種基于Faster R-CNN的艦船目標旋轉框檢測框架,在RPN中使用尺度、比例和角度3個參數生成旋轉錨框來預測艦船目標的最小外接矩形。Koo等[48]提出的RBox-CNN同樣使用RPN生成旋轉錨框,并用寬度/高度距離投影來穩定地預測角度。兩階段檢測網絡的檢測速度慢,難以滿足實時性的需求。
(2)一階段旋轉框檢測改進算法
一階段檢測算法將圖像輸入檢測網絡直接輸出目標水平邊界框的四維坐標信息,旋轉邊界框可以通過增加角度信息得到。黎經元[49]和陳俊[50]使用旋轉矩形框改進YOLOv3模型,在預測四維位置信息的基礎上增加了角度信息,同時改進了損失函數以及計算旋轉框IOU的方法,提高了多角度并排停靠艦船目標檢測的準確率,相比于兩階段的檢測網絡檢測速度也得到了提高。
(3)角度邊界性問題
以上改進算法中的旋轉邊界框均可用5個參數(x,y,w,h,θ)來表示,如圖13所示。其中,(x,y)表示中心點坐標,(w,h)表示寬度和高度,θ表示旋轉角度,指長邊與x軸(水平軸)的夾角,角度為[-90°,90°)。五參數表示法會帶來角度周期性的邊界問題:-90°和89°兩個邊界角度的偏差非常小,模型計算邊界處的損失值卻會突然增加,使網絡學習難度提高。

圖13 旋轉邊界框的五參數表示法Fig.13 Five-parameter representation of rotating bounding box
為了解決角度邊界不連續的問題,Qing等[37]將圓形平滑標簽(Circular Smooth Label,CSL)技術引入旋轉框艦船檢測模型中。CSL[51]利用高斯函數把連續的目標角度轉化為離散的類別標簽,把回歸問題轉化為分類問題,如圖14所示。Su等[52]提出了一種非基于角度的回歸方法,取6個參數(x,y,w,h,OH,OV)來確定旋轉框,如圖15所示,其中(x,y)表示中心點坐標;(w,h)表示目標水平外框的寬和高;H,V分別為水平邊界框與順時針方向旋轉邊界框之間的水平、垂直距離,然后求出標準化的水平和垂直偏移量:OH=H/w,OV=V/h,從根本上解決了角度回歸的邊界性問題。CSL技術和旋轉矩形框的六參數表示法都可以有效解決邊界問題,但是會增加模型參數量,損失檢測時間。

圖14 圓形標簽平滑Fig.14 Circular label smoothing

圖15 旋轉邊界框的六參數表示法Fig.15 Six-parameter representation of rotating bounding box
3.2.3 無錨框精確定位
無錨框的方法也被應用于旋轉艦船目標檢測[53-56],如Wang等[54]提出的基于CenterNet的SAR圖像船舶檢測方法,它將艦船目標建模為一個點,回歸水平邊界框大小,不需要NMS,從根本上解決了因NMS導致的密集目標漏檢問題。Cui等[55]提出的一階段無錨艦船檢測框架將旋轉艦船目標的檢測完全轉化為中心關鍵點和形態大小的預測,并提出了一種“正交池化”模塊來提取艦船旋轉特征。
3.2.4 小 結
使用水平邊界框檢測多角度艦船目標存在密集目標漏檢的問題。旋轉邊界框可以解決漏檢問題,并且更好地貼合目標,但是需要考慮角度的邊界性問題。無錨框的方法對關鍵點的預測準確性要求很高,預測不準確就容易導致漏檢和定位不準。
與自然圖像中目標占整幅圖像的比例很大不同,遙感圖像中艦船目標往往只有幾十到幾百個像素,屬于小目標。其檢測主要存在兩個問題:一是樣本不足,很多艦船數據集圖像中的小艦船目標并未被標注出來,缺乏大量數據對模型進行訓練;二是小目標在圖像中所占像素少,隨著CNN的前向傳播,特征圖尺度不斷減小,頂層特征圖中可能不包括小目標的特征,不能幫助小目標定位。小目標檢測一直是現有深度學習算法中的難點,目前有大量針對小目標檢測開展的算法優化研究,常用方法如圖16所示。

圖16 提高小目標檢測效果的常用方法Fig.16 Common methods for improving effectiveness of small target detection
3.3.1 數據增強擴充小目標樣本
數據增強是提高小目標檢測性能的有效方法之一,可以有效地解決小目標樣本不足問題。傳統的數據增強方法可以大致分為:(1)基于幾何變換的方法,包括旋轉、縮放、翻轉、裁剪、填充、平移和仿射變換等;(2)基于改變顏色成分的方法,包括亮度、對比度、色相和飽和度等。為了增加遙感圖像訓練數據集的規模和多樣性,多種數據增強方法被用于提高檢測模型的魯棒性和泛化能力,常用的技術有多角度旋轉、顏色抖動、隨機平移、隨機裁剪、水平翻轉和添加隨機噪聲等[57-59]。
為了解決遙感圖像數據集中小型艦船樣本稀缺的問題,Shin等[60]提出了一種“剪切和粘貼”策略來增強圖像用于訓練模型,利用預先訓練好的Mask-RCNN提取船舶切片,然后粘貼到各種背景海洋場景中,合成新的圖像,檢測結果驗證了合成艦船圖像的有效性。Hu等[61]提出了一種混合策略,將海面目標區域與多個變化場景混合,以增加多樣性和訓練樣本的數量。Chen等[62]提出了一種利用梯度懲罰的高斯混合Wasserstein GAN生成足夠信息量的小型艦船目標樣本,然后用原始數據和生成數據對CNN進行訓練,實現對小型船舶的精確實時檢測。
3.3.2 利用淺層特征檢測小目標
為了解決小目標在深層特征圖中消失的問題,常用方法是充分利用淺層特征中的信息對小目標進行檢測[63-67]。Kong等[63]提出的Hyper-Net利用跳層提取特征的方式來同時獲取包含語義信息的高層特征和包含高分辨率位置信息的淺層特征,利用淺層特征來提高小目標的檢測效果。Wei等[64]在Faster R-CNN中引入擴張卷積,它可以提供更大的接受域,減少小目標信息的丟失,提高檢測效果。Zhang等[65]使用多分辨率卷積改進Faster-RCNN的VGG16結構,將深層特征和淺層特征映射結合生成多分辨率特征圖,提高了小型艦船目標的召回率和準確率。Liu等[66]采用細粒度特征增強對YOLOv2模型進行改進,向YOLOv2網絡中添加重組層和路由層,將前向傳播中的淺層特征圖和深層特征圖匯集起來,提高了小型艦船目標的檢測效果。針對YOLOv3網絡對小型艦船目標檢測精度低的問題,常用方法是在網絡降8倍、降16倍和降32倍采樣3個檢測尺度的基礎上增加1個降4倍采樣的檢測尺度,在增加的淺層特征尺度上為小目標分配錨框,提高檢測效果[67-69]。引入淺層特征會增加模型計算的復雜度,時間成本會增加。
3.3.3 注意力機制
注意力機制被引入網絡中,通過優化小目標的特征表示來提高檢測性能。典型目標檢測算法如YOLOv3,YOLOv4一般在將多尺度的特征圖進行級聯后檢測目標,從每個通道和位置提取的特征對最終檢測結果的貢獻平等,但實際上每個通道和位置的特征圖是對特定語義信息的響應。注意力機制可以給予代表小目標特征的部分適當的權重,有效提高模型檢測小目標的能力。Chen等[70]在YOLOv3網絡中引入膨脹注意模塊(Dilated Attention Module,DAM),它利用膨脹卷積來擴大接收野,并集成通道注意和空間注意模塊來提取顯著特征,突出小目標與背景的區別,提高檢測效果。Nie等[71]在Mask-RCNN模型中同時使用通道注意模塊和空間注意模塊,增強了信息從底層到頂層的傳播,提高對小型船舶的檢測精度。Hu等[72]為了優化特征信息的表達,提出了空間和通道維度的雙注意模塊,自適應學習特征在不同尺度上的顯著性,并提出了一個新的損失函數,為小目標檢測提供了更好的收斂性能。
3.3.4 小 結
數據增強可以擴充小型艦船目標的樣本數量,是提高小目標檢測的一項有效措施。利用淺層特征可以提高網絡檢測小目標的效果,但是會增加計算復雜度、損失檢測時間。注意力機制也可以很好地提高小目標檢測效果,但是需要考慮過擬合問題。
典型的目標檢測模型參數量巨大,往往難以部署在衛星的嵌入式設備上。為了滿足實時檢測艦船目標,將模型應用于資源有限的嵌入式設備中,需要減少模型的參數量,提高模型的檢測速度,常用方法如圖17所示。

圖17 精簡模型的常用方法Fig.17 Common methods for streamlining models
3.4.1 模型壓縮
模型壓縮是模型輕量化的一種常用策略。3種模型壓縮方法被廣泛應用,分別是模型剪枝、知識蒸餾和量化[73]。其中,模型剪枝通過去除網絡中冗余的通道或層,可以顯著減小參數大小和模型大小[74-75];知識蒸餾將經過訓練的大型網絡作為教師網絡,然后用較大的網絡來指導小的學生網絡的訓練[76-77];量化的核心思想是對網絡進行壓縮,例如將權值的比特數從32位浮點數減少到16位浮點數或8位整數,使模型尺寸大大降低[78-79]。
為了獲得更好的艦船目標檢測性能,這三種方法通常會結合使用[80-83]。Zhang等[80]采用結構化剪枝方法對網絡進行壓縮,再采用知識蒸餾來提高壓縮后網絡的識別精度。Chen等[81]引入基于權重的網絡剪枝和權值量化對網絡進行壓縮。Ma等[82]首先對YOLOv4模型進行稀疏訓練找到不太重要的信道和層;其次對網絡進行信道修剪、層修剪;再利用知識蒸餾對剪枝模型進行再訓練;最后,將模型的權值從FP32 (32-bit Floating Point,32位浮點數)量化為FP16。模型壓縮與量化流程如圖18所示。以上方法對資源受限的SAR目標識別都取得了較好的效果,減少了模型參數量,提高了檢測速度。陳科峻等[83]將YOLOv3算法的批量歸一化層的尺度因子作為通道重要性的度量指標,對模型進行剪枝壓縮,參數量減少了91.5%,檢測時間縮短了60%,能夠滿足可見光遙感圖像實時艦船檢測的需要。

圖18 模型壓縮與量化流程Fig.18 Model compression and quantification processes
3.4.2 網絡輕量化
設計輕量化骨干網絡結構或卷積計算單元是模型輕量化的另一種有效策略。Li等[84]改進Faster RCNN骨干網絡結構,提出了一種輕量級艦船探測器Lite-Faster RCNN,將檢測速度提高了8倍。Huang等[85]提出的Ship-YOLOv3模型通過減少部分卷積運算和增加跳轉連接機制改變YOLOv3網絡結構來減少特征冗余,在保證實時性的前提下模型的檢測精度和召回率都得到提高。Ding等[86]提出的艦船檢測模型用卷積代替Faster RCNN中的全連接層,大大降低了網絡參數量,減少了內存需求和時間消耗。Long等[87]結合密集連接、殘余連接和群卷積的思想,提出了Lira-YOLO艦船目標檢測器。與Tiny-YOLOv3相比,Lira-YOLO具有更高的檢測精度和更低的計算復雜度。Zhao等[88]在網絡中引入深度可分卷積,構建了一個輕量級艦船檢測器。
3.4.3 小 結
模型的壓縮與量化雖然可以提高檢測速度,但是會損失檢測精度,降低模型識別率。網絡輕量化可以提高檢測速度,降低計算復雜度,不會犧牲檢測精度;但過于依賴人工先驗知識,需要針對不同場景對網絡進行相應的優化,以適應不同的檢測任務。
盡管目標檢測技術已經取得了長足的進步,但在大幅寬遙感圖像中艦船的快速檢測仍面臨挑戰。如果將一幅大幅寬的圖像通過降采樣直接輸入檢測網絡,圖像信息會丟失,不利于檢測目標。
3.5.1 分塊檢測
常用的分塊檢測方法是將大幅寬遙感圖像分為若干個圖像塊,分別對每個圖像塊進行檢測識別,檢測流程如圖19所示。Voinov等[89]提出了一種基于卷積神經網絡的大幅寬遙感圖像艦船檢測方法,首先去除陸地區域后將圖像分塊,然后利用MobileNet模型檢測圖像塊中是否包含艦船目標,最后對正分類結果采用Faster R-CNN預測艦船的位置和類別。這種圖像分塊方式容易在圖像塊的邊緣處將目標一分為二,導致目標不完整從而影響檢測效果。

圖19 大幅寬遙感圖像分塊檢測流程Fig.19 Large-area remote sensing image segmentation detection process
基于感興趣區域提取的圖像分塊方法可以避免目標被分割的問題。黎經元[59]利用形態學方法和視覺顯著性算法在大幅寬遙感圖像中提取可疑海域切片,避免目標被分割。聶婷[90]使用擴展小波變換增強復雜背景下目標與背景的對比度來快速定位大幅寬遙感圖像中的感興趣區域,然后用改進的超復數頻域視覺檢測方法來提取圖像的感興趣區域。
3.5.2 整幅圖像一次性檢測
Van等[91]提出的YOLT將YOLO應用于大幅寬遙感圖像檢測,利用YOLO在大幅寬圖像上滑動窗口快速檢測各個區域,完成對整幅遙感圖像的檢測任務。YOLT滑動窗口時相鄰兩窗口之間會有15%的重疊,最后合并每個窗口檢測結果進行非極大值抑制得到最終結果,這種基于滑動窗口的方法重復地處理會占用大量的計算時間,使得整個算法的效率降低,一次性對大幅寬遙感圖像進行艦船可以提高檢測速度。Su等[52]提出了一種基于YOLO的一次性檢測大幅寬遙感圖像的方法,將特征提取網絡改進為全卷積結構組成的DCNDarknet25,可以接受任何大小的圖像作為輸入,并且通過減少參數和添加變形卷積提高了檢測速度和準確性。
3.5.3 小 結
大幅寬遙感圖像分塊檢測法第一階段的檢測結果對最終分類結果起決定性作用,利用人工設計的特征提取感興趣區域,效率低且檢測效果不好。一次性檢測方法將整幅遙感圖像送到網絡訓練時,大面積的背景信息被當作負樣本,小部分的艦船目標被視為正樣本,這會導致嚴重的樣本不平衡,浪費訓練時間和資源,因此需要一定的策略來解決正負樣本不均衡的問題。
深度學習需要大量的樣本進行模型訓練,隨著卷積神經網絡模型在遙感領域的廣泛應用,出現了大規模的遙感圖像數據集。包含艦船目標的常見數據集如表2所示。其中,最常用于艦船檢測的可見光圖像數據集是DOTA和HRSC2016,SAR圖像數據集是SSDD。有研究者收集來源于谷歌地球的遙感圖像,構建艦船數據集來訓練模型[28,47,49,66]。

表2 艦船數據集對比Tab.2 Comparison of ship datasets
4.1.1DOTA數據集
DOTA數據集[92]由來自不同傳感器和平臺的2 806幅航空遙感圖像組成,包括艦船、飛機和橋梁等15個類別,其中艦船圖像573張。圖像尺寸在800×800到4 000×4 000像素之間。數據集總共有188 282個實例,艦船目標采用水平邊界框與旋轉邊界框標注。
4.1.2HRSC2016數據集
HRSC2016數據集[93]由來自6個不同港口的1 061幅遙感圖像組成。目標包括海上的船舶和停靠在岸邊的船舶。圖像分為訓練集436張(共1 207個標記樣例)、測試集444張(共1 228個標記樣例)和驗證集181張(共541個標記樣例)。圖像尺寸為300×300到1 500×900像素,分辨率為0.4~2 m。艦船目標采用旋轉邊界框標注。
4.1.3NWPU VHR-10數據集
NWPU VHR-10數據集[94]包括一個正面圖像集(包括650張圖像)和一個負面圖像集(包括150張圖像)。NWPU VHR-10數據集的正像集圖像尺寸從533×597到1 728×1 028像素,包含10類地理空間對象:飛機、船舶、儲罐、棒球場、網球場、籃球場、田徑場、港口、橋梁和車輛。
4.1.4Kaggle Airbus Ship Detection數據集
Kaggle Airbus Ship Detection數據集[95]由Kaggle挑戰賽(Airbus Ship Detection Challenge)提供的RGB圖像(每幅尺寸為768×768,包括表示船只位置的編碼像素)數據集。編碼后的像素被轉換為二進制掩碼,其中“ship”表示為1,“no ship”表示為0。通過計算值為1掩碼的4個角坐標可將其轉換為邊界框。
4.1.5MASATI數據集
MASATI數據集[96]包含6 212幅可見光衛星遙感圖像,其中艦船圖像3 113張。圖像尺寸約為512×512像素。
4.1.6HRRSD數據集
HRRSD[97]數據集中的圖像主要來自谷歌地圖,分辨率為0.15~1.2 m,少部分來自百度地圖,分辨率為0.6~1.2 m。圖像共計21 761張,包括飛機、棒球場、籃球場、橋梁、十字路口、田徑場、港口、停車場、船舶、儲罐、T形路口、網球場和車輛13類目標,其中包含艦船目標的圖像有3 886張,采用水平邊界框標注。
4.1.7DIOR數據集
DIOR數據集[98]包含23 463張圖像和192 472個實例,涵蓋了艦船、飛機、橋梁和籃球場等20類對象。其中艦船類圖像2 702張,分為訓練集650張、驗證集652張、測試集1400張。圖像尺寸為800×800,分辨率為0.5~30 m,艦船目標采用水平邊界框標注。
4.1.8FGSC-23數據集
FGSC-23[99]是一個高分辨率光學遙感圖像艦船目標精細識別數據集,共有4 052個艦船切片,分辨率在0.4~2 m,包含23類艦船目標。對每個切片標注了類別、長寬比以及艦船方向,按1∶4將各類圖像隨機劃分為測試集和訓練集。
4.1.9SSDD數據集
SSDD數據集[100]共有1 160張圖像,只對像素數大于3的艦船目標進行標注,包含2 456艘船舶。平均每張圖片顯示的船只數量為2.12艘;按7∶2∶1分為訓練集、驗證集和測試集3部分。圖像尺寸為500×500,分辨率為1~15 m,艦船目標采用水平邊界框標注。
4.1.10 SAR-ship-Dataset數據集
SAR-ship-Dataset數據集[101]由102景高分三號影像108景哨兵一號影像組成,包括43 819個256×256像素的艦船切片,采用水平邊界框標注,同時包括距離和方位。圖像分辨率分別為3,5,8和10 m。
4.1.11AIR-SARShip1.0數據集
AIR-SARShip1.0數據集[102]來源于高分三號衛星拍攝的31景圖像,按照2∶1來劃分訓練集與測試集。圖像尺寸為3 000×3 000,分辨率為1 m和3 m,艦船目標采用水平邊界框標注。
4.1.12HRSID數據集
HRSID數據集[103]共有5 604張圖像,由136景SAR影像裁剪得到,包括小尺寸目標9 242個、中等尺寸目標7 388個、大尺寸目標321個。65%的圖像劃分為訓練集,35%的圖像劃分為測試集,圖像尺寸為800×800,圖像分辨率為0.5~3 m,采用水平邊界框標注。
艦船目標檢測的常用評價指標有:交并比(Intersection Over Union, IOU)、精度P(Precision)、召回率R(Recall)、平均精度AP和均值平均精度mAP。
4.2.1 IOU
IOU是兩個矩形交集面積與兩個矩形并集面積之比,如圖20所示。假設A是模型預測框,B是目標真實框,則:

圖20 交并比示意圖Fig. 20 Schematic diagram of IOU
一般情況下通過設定IOU閾值來判斷預測框是否檢測到目標物體,即:
其中閾值T一般取0.5。
4.2.2 精度和召回率
P表示被正確識別到的正樣本數占所有預測為正樣本的比例,R指預測值中被正確識別到的正樣本數占所有正樣本數量的比例,即:
其中:TP(True Positives)表示預測為正,實際為正;FP(False Positives)表示預測為正,實際為負;FN(False Negatives)表示預測為負,實際為正。
4.2.3 平均精度
PR曲線是以精度P為縱坐標、召回率R為橫坐標繪制的曲線,如圖21所示。模型的精度越高,召回率越高,模型性能就越好,PR曲線下的面積就越大。

圖21 PR曲線Fig.21 PR curves
將PR曲線下的面積定義為AP:
AP的值越大,說明模型的平均準確率越高。
4.2.4 均值平均精度mAP
mAP指的是不同類別目標檢測精度的均值。在檢測多類目標時,計算每一個類別的AP,然后再計算平均值,mAP是對檢測到的目標平均精度的一個綜合度量。計算公式如下:
其中m表示數據集中目標的類別數目。
基于深度學習的目標檢測技術以其高精度、高效率、適用性強的優良特性廣泛應用到遙感圖像艦船檢測中并取得了一定的效果。但是在實際應用中仍然存在著挑戰,主要體現在:
(1)高分辨率遙感圖像中艦船目標清晰可見的同時也會存在大量云霧遮擋等情況,這也是可見光衛星影像的固有缺陷。當圖像中有薄云霧以及部分遮擋情況時,可以進行去云霧處理。當圖像中有厚云霧遮擋無法檢測出目標時,可以融合不同類型傳感器的圖像信息來抵抗云霧干擾從而完成目標檢測任務,如利用SAR,以及可見光遙感數據進行艦船檢測[104]。基于多源圖像融合的艦船目標檢測具有廣闊的應用前景,目前已有SAR與多光譜/全色圖像融合、全色和多/高光譜圖像融合、多光譜/高光譜與激光雷達圖像融合的研究;多源圖像融合需要考慮兩方面的問題:一是需要克服不同成像機理差異帶來的影響,如SAR圖像與多光譜/全色圖像融合時的噪聲和光譜失真;二是需要考慮融合不同來源的地理信息,并從像素級融合往深層次特征級、語義信息融合的方向發展[105]。
(2)遙感圖像一般尺寸巨大,現有檢測方法大多采用圖像分塊的方式,計算復雜,一次性檢測方法大面積的背景被當作負樣本,正樣本數量遠遠小于負樣本數量,訓練過程中會出現很多假正例FP,影響檢測器性能,正負樣本不平衡的問題仍需進一步地研究。在自然圖像目標檢測中,難分樣本挖掘(Hard Example Mining,HEM)是解決正負樣本不平衡問題的關鍵技術。HEM把得分較高的FP當作困難負樣本(Hard Negative,HN),并把挖掘出的HN送入網絡再訓練一次來提高檢測器判別FP的能力,從而提高檢測精度[106],HEM對大面積遙感圖像艦船檢測具有借鑒意義。
(3)深度學習目標檢測模型的訓練需要大量樣本,與自然圖像動輒百萬千萬個樣本的數據集相比,針對艦船目標的高質量數據集較少,少量的樣本訓練模型容易出現過擬合。一方面,可采用遷移訓練的方法首先在大規模數據集上對模型進行預訓練,再用較少的數據集訓練模型進行調優;另一方面,可以對數據集進行擴充,然而樣本標注需要耗費極大的人力和時間成本。弱監督學習可以顯著減少標注工作量,訓練集只需要標注二進制標簽來標注圖像中是否包含目標對象[107],但是二進制標簽缺乏位置信息,難以對目標進行定位。針對此問題,Yang等[108]通過分析類信息與位置信息之間的相互作用,提出了一種弱監督艦船目標檢測器Piston-Net,其檢測精度達到了有監督學習目標探測器的水平,然而Piston-Net只能檢測單類目標,如何擴展到檢測多類目標是今后的研究方向。
(4)當前基于深度學習的艦船目標檢測大多是檢測圖像中是否存在艦船目標并給出其位置。未來的艦船目標檢測應更加細化,不只是定位出艦船的位置,還要精準識別出整個編隊的配置、各型艦船的數目等,這需要對數據集中的艦船目標進行更細致的標注。FGSC-23是現有的光學遙感圖像艦船目標精細識別數據集,但是其樣本數量仍然較少,仍需構建用于精細識別的艦船數據集。
(5)雖然基于深度學習的目標檢測模型具有很高的檢測精度,但是其參數量巨大,實際工程應用需要考慮到實時性檢測和硬件設備資源有限需要精簡模型。現有的方法有兩種:壓縮模型和設計輕量化的網絡。前者會損失檢測精度,后者可以避免精度損失,但是大多基于現有模型進行精簡,未來可以設計智能的模型選擇策略,例如神經架構搜索(Neural Architecture Search,NAS)可以從給定的候選神經網絡結構集合中按照某種策略搜索出最優網絡結構[109],今后研究可以考慮應用NAS自動搜索更優的網絡結構。
(6)旋轉邊界框能夠很好地貼合艦船,對目標進行更精細的定位,但是與水平邊界框相比,其精度會因邊界損失值突變問題而降低。當前,自然圖像目標檢測中針對邊界性問題的解決方法一方面將旋轉邊界框建模為高斯分布,并提出基于IOU的損失代替斜框IOU損失來簡化計算,避免直接角度回歸;另一方面把角度預測轉化為分類,設計光滑標簽,避免邊界不連續問題。上述方法已經應用到遙感圖像艦船檢測中,進一步提高旋轉邊界框的檢測精度仍需進行深入研究,基于中心點或關鍵點的無錨框旋轉檢測[110]是一個有應用前景的方向。
(7)艦船目標檢測未來的發展也應當借鑒計算機視覺等領域最新的研究成果,如基于Transformer的目標檢測模型DETR(Detection Transformer),DETR首先用一個CNN網絡提取特征,然后展平特征圖,當作序列輸入給Transformer,經處理后并行輸出預測結果;DETR免去了關于錨框的處理,同時免去了NMS后處理[111]。但是,收斂速度慢和計算量大等缺點會降低DETR應用于艦船檢測任務中的性能。已有學者將基于Transformer的模型進行改進應用于艦船檢測,如Zhang等[112]提出了艦船目標檢測器ESDT(Efficient Ship Detection Transformer)。骨干網采用ResNet50提取深度特征;然后,將特征輸入使用多尺度自注意力實現的編碼器;最后,增強的特征被送到解碼器進行艦船檢測;引入了特征蒸餾加快收斂速度,從預訓練的大型DETR中學習知識。Chen等[113]提出了一種基于PET(Perceptually Enhanced Transformer)的無錨SAR圖像艦船檢測方法,PET抑制散射噪聲,增強艦船目標在復雜背景下的顯著特征;并提出一種稀疏注意方法快速聚焦全局特征中的重要信息,加快網絡收斂速度。未來,基于Trans-former的模型的研究重點是提高檢測精度與加速網絡收斂。
光學遙感圖像艦船目標檢測是目標檢測的一個重要應用場景,在民用和軍用方面都具有重要的價值。本文歸納總結了典型的基于深度學習的目標檢測算法,分類梳理了針對艦船目標特點的改進研究,分析了各種改進方法的優缺點。最后,探討了當前遙感圖像船舶目標檢測算法面臨的問題與挑戰以及未來的發展趨勢。