曾祥書,黃一飛,蔣忠進
(東南大學毫米波國家重點實驗室, 江蘇 南京 210096)
合成孔徑雷達(SAR)是一種主動式微波遙感系統,可以全天候全天時地進行SAR成像,已廣泛用于農林監測、地質調查、災害監測、海洋監測以及國防建設等諸多方面。不論是民用還是軍用,對SAR圖像中陸地和海洋目標的檢測與識別都具有重要意義[1-5]。
傳統的SAR圖像目標識別主要包含預處理、目標檢測、特征提取和特征分類等4個步驟,其識別效果很大程度上取決于人工設計的特征提取,步驟復雜,泛化能力差[6]。隨著以卷積神經網絡(CNN)為代表的深度學習的不斷發展,深度學習在SAR圖像目標識別中也得到廣泛應用[7-8]。通過CNN可以完成SAR圖像的高維特征提取,減少人為干預,實現“端到端”的處理流程[9-11]。
目前基于CNN的SAR圖像目標檢測與識別算法,按照模型結構可以大致分為雙階段算法和單階段算法。雙階段算法通常具有較高的識別精度,但相當耗時且具有較大的計算開銷,常用的模型結構主要包括R-CNN[12]、Fast-RCNN[13]、Faster-RCNN[14]等。單階段算法大幅提高了識別速度,常用的模型結構主要包括SSD[15]、YOLO[16]等。早期單階段算法的精度不如雙階段算法,但YOLOv3[17]的出現改變了這一局面,其在保證計算速度的前提下,進一步提高了識別精度,使單階段算法在速度和精度上均超過雙階段算法。2020年6月,Ultralytics公司發布了YOLOv5模型,這是在YOLOv3的基礎上進行了大幅改進的新一代單階段模型,它不僅提高了模型的性能,還實現了模型的輕量化設計。
基于CNN的SAR圖像目標識別經過國內外大量科研人員的實驗驗證,已經取得了大量的成果[18-20]。文獻[21]針對SAR圖像中相干斑噪聲的影響,提出了一種像素級去噪和語義增強的檢測模型,并在SSDD數據集上驗證了該模型的有效性和泛化性能。文獻[22]提出一種基于監督對比學習正則化的SAR圖像建筑物提取方法,通過增強特征空間中相同類像素的相似性和不同類像素的差異性,提高了建筑物的識別精度。文獻[23]提出了一種基于改進Faster-RCNN的SAR圖像運動目標檢測方法,提高了檢測準確率,降低了虛警率,并在自制的Mini-SAR系統中驗證了該方法的有效性。
針對SAR圖像中目標分布密集、背景復雜等問題,本文提出一種改進YOLOv5網絡模型,并將其用于SAR圖像目標識別。該方法根據訓練數據中的標注框尺寸信息,使用寬度比和高度比作為距離度量,利用k-means聚類方法生成先驗錨點框,作為預測框優化時的框尺寸初始值。引入SIoU[24]來代替競爭性交并比 (CIoU),以得到更加合理的框回歸損失函數,提高在密集分布情況下的目標定位精度。使用Focal Loss[25]來替代二元交叉熵,以得到更加合理的置信度損失函數,提高在復雜背景下的目標識別精度。本文基于大規模多類SAR目標數據集MSAR進行了大量的實驗驗證,結果表明,相比于所選用的幾種對比網絡,本文的改進YOLOv5網絡模型具有更好的目標識別性能。
本文使用的改進YOLOv5網絡模型如圖1所示,由輸入、主干特征提取網絡、加強特征提取網絡、解耦頭、預測框優化及損失計算、輸出等六個部分組成。

圖1 YOLOv5網絡結構
主干特征提取網絡選用CSP-Darknet網絡,用于基礎特征提取,該網絡包含1個Focus結構、4個卷積塊、4個CSP結構、1個SPP 結構。其中Focus結構對原始SAR圖像在橫坐標和縱坐標方向各做二倍間隔采樣,減少層數和參數量,以提升推理速度和梯度反傳速度。卷積塊包含卷積(Convolution)、批量歸一化(BN)和SiLU激活函數三部分。SiLU激活函數表示為
f(x)=x·sigmoid(x)
(1)
SiLU激活函數可以視為平滑的ReLU函數,具有平滑、無上界有下界、非單調的特性。CSP結構具有兩種不同的設計,如圖1中CSP1_n和CSP2_n,CSP結構可以在保證準確性的情況下減少網絡參數,提高計算速度和對設備的要求。SPP結構能通過池化核大小不同的最大池化處理進行特征提取,以提高網絡的感受野。
通過主干特征提取網絡,可以得到輸入SAR圖像的三種層次的特征圖,其中淺層特征圖具有較強的位置信息和較弱的語義特征,而深層特征圖具有較強的語義特征和較弱的位置信息。這些特征圖被輸送給后續的加強特征提取網絡,做進一步的特征提取和融合。
加強特征提取網絡由特征金字塔網絡(FPN)和路徑聚合網絡(PAN)組成,用于多尺度特征提取與融合,FPN和PAN的結構如圖1所示。FPN把深層的語義特征通過上采樣與淺層融合,從而增強多個尺度上的語義表達。PAN則相反,把淺層的定位信息通過卷積塊實現下采樣與深層融合,增強多個尺度上的定位能力。經過加強特征提取網絡后,特征圖將同時具有豐富的語義信息和位置信息。
網絡訓練階段,YOLOv5首先將輸入SAR圖像的大小調整為256×256;然后輸入圖像經過主干特征提取網絡和加強特征提取網絡,得到大小分別為32×32、16×16、8×8的三個不同層次的特征圖;這些特征圖分別經過三個不同的解耦頭,獲得針對小、中、大目標的三組邊框回歸與目標分類參數;最后將這些參數與訓練數據的標簽信息進行比較,計算損失函數,并反向傳播更新網絡參數。
網絡測試階段,在測試集上利用訓練好的網絡模型生成大量預測框,通過非極大值抑制(NMS)算法,刪除冗余預測框,得到和不同目標一對一匹配的多個檢測框。將測試集標簽信息與檢測框參數進行對比,統計準確率和召回率等各項技術指標。
在常規YOLOv5網絡中,通常會引入錨點框(anchor),作為后續參數優化中預測框的初始尺寸值。默認的錨點框是基于COCO和VOC數據集進行訓練得出的,總共包含9組,分別覆蓋大、中、小三種尺寸,每種尺寸都包含三組不同的寬高比。
本文針對大規模多類SAR目標數據集MSAR,使用k-means聚類算法對訓練數據集標簽信息中的邊界框尺寸進行聚類,進而重新生成了9組最適用于MSAR數據集的錨點框。
此處構建任意兩個邊界框之間的距離度量d為
(2)
式中:w1和w2分別表示邊界框1和邊界框2的寬度;h1和h2分別表示邊界框1和邊界框2的高度。
通過計算兩個邊界框之間的寬度比和高度比,以描述它們之間的相似程度。此時需要同時計算w1/w2、h1/h2、w2/w1和h2/h1,并在這四個比值中選擇最大值作為距離度量d。當兩個邊界框之間的相似程度越高時,它們之間的距離度量就會越小,匹配效果就會越好。
錨點框的聚類結果如圖2所示,圖中橫軸表示邊界框的寬度,縱軸表示邊界框的高度。本實驗從數據庫標簽信息中一共摘取49 386個邊界框,根據每個邊界框的寬度和高度來確定其坐標,成為圖中的一個圓點。

圖2 k-means聚類所得錨點框
通過k-means聚類,將距離度量d接近的邊界框聚為一類,并表示成同一種顏色,每種顏色的圓點群的質心用×點表示。每個×點就是一個錨點框,本實驗一共構建了9個錨點框,其坐標分別為[4, 4]、[10, 11]、[25, 10]、[11, 28]、[21, 19]、[31, 29]、[26, 57]、[62, 32]、[70, 90]。
YOLOv5目標識別可以歸結為目標邊框參數和目標類別參數的回歸問題,其所使用的損失函數包括框回歸損失lreg、置信度損失lobj、分類損失lcls三部分。損失函數表示為
l=lreg+lobj+lcls
(3)
常規的框回歸損失lreg由預測框和真實框之間的CIoU損失構成[23]。本文使用SIoU指標替代CIoU指標,以衡量預測框和真實框之間的相似度。SIoU值越大,說明它們的匹配度越高,相應的損失函數值就越小。
為了更好的說明SIOU值的計算,給出預測框A和真實框B的示意圖如圖3所示。

圖3 預測框和真實框示意圖
式中:σ表示A和B中心點之間的距離;cw和ch分別表示以σ為對角線的矩形框的寬和高;dw和dh分別表示能包圍A和B的最小方框的寬和高。
SIoU值計算如下:
(4)
式中:rIoU(A,B)表示預測框A和真實框B之間的交并比,計算如下。
(5)
Δ代表距離成本函數,計算為
Δ=(1-e-γρx)+(1-e-γρy)
(6)

Ω代表尺寸成本函數,計算為
Ω=(1-e-ωw)θ+(1-e-ωh)θ
(7)

可以看出,相較于CIoU,SIoU除了考慮預測框和真實框之間的重疊區域、距離和長寬,還考慮了兩個框之間的角度關系。SIoU指標可以使預測框更快、更準確地朝著與真實框重疊度更高、對齊程度更好的方向優化。
由此改進的框回歸損失lreg計算為
(8)

在置信度損失lobj中,本文采用Focal loss代替二元交叉熵,以優化置信度損失函數。相對于二元交叉熵,Focal loss具有更好的類別平衡性和針對性,能夠提高網絡訓練效率和目標識別精度。改進的置信度損失lobj計算為
(9)

關于分類損失lcls,本文的計算方法與常規YOLOv5網絡一致,計算如下
(10)

實驗選用了YOLOv3、常規YOLOv5以及改進YOLOv5三種網絡,進行訓練和測試,以進行SAR圖像目標識別性能的比較。
實驗所使用的數據集來自文獻[25]中所提出的大規模多類SAR目標數據集MSAR,該數據集包括HH、HV、VH和VV四種極化方式,由28 449張尺寸為256×256像素的SAR圖像切片構成,涵蓋機場、港口、近岸、島嶼、遠海、城區等復雜場景,類型有艦船、油罐、橋梁和飛機四類目標,共計39 858艘艦船,12 319個油罐,1 851架橋梁和6 368架飛機。本實驗將數據集按9:1的比例,劃分為訓練集和測試集。
本文在MSAR數據集上,使用三種網絡進行了SAR圖像目標識別實驗,部分實驗結果如圖4~圖7所示。其中紫色方框標示檢出艦船目標,藍色方框標示檢出橋梁目標,綠色方框標示檢出油罐目標,紅色方框標示檢出飛機目標,紅色橢圓框標示漏檢目標,紅色三角形標示虛檢目標。

圖4 艦船目標識別效果
試驗中,YOLOv3、常規YOLOv5以及改進YOLOv5三種網絡模型給出的SAR圖像艦船目標識別結果如圖4所示,圖中有一個靠岸停泊的艦船目標。
從圖4中可以看出, YOLOv3網絡的識別結果中存在一處虛檢和一處漏檢,常規YOLOv5網絡的識別結果中存在二處虛檢,而改進YOLOv5網絡不存在虛檢和漏檢。
三種網絡模型給出的SAR圖像橋梁目標識別結果如圖5所示,圖中有一個小島,通過一座橋梁與陸地相連,小島對面有一個艦船目標停靠。

圖5 橋梁目標識別效果
從圖5中可以看出,三種網絡均正確識別出停靠的艦船目標。YOLOv3網絡未能識別出橋梁目標,常規YOLOv5網絡和改進YOLOv5網絡均正確識別出橋梁目標,但常規YOLOv5網絡的結果中存在一處艦船目標的虛檢。
三種網絡模型給出的SAR圖像油罐目標識別結果如圖6所示,圖中存在密集分布的油罐目標群。

圖6 油罐目標識別效果
從圖6中可以看出,YOLOv3網絡的識別結果中存在11處漏檢,常規YOLOv5網絡和改進YOLOv5網絡不存在虛檢和漏檢。
三種網絡模型給出的SAR圖像飛機目標識別結果如圖7所示,圖中存在8個飛機目標,其背景為一個機場。

圖7 飛行目標識別效果
從圖7中可以看出,YOLOv3網絡未能識別出所有8個飛機目標,常規YOLOv5網絡的識別結果中存在3處漏檢,而改進YOLOv5網絡不存在虛檢和漏檢。
此外,本文還針對密集型小目標進行了目標識別實驗,實驗結果如圖8所示,圖中存在機場背景下密集分布的多個飛機小目標。

圖8 密集型小目標識別效果
從圖8中可以看出,YOLOv3網絡和常規YOLOv5網絡的識別結果中存在較多的漏檢和虛檢,而改進YOLOv5網絡基本不存在虛檢和漏檢。由于SAR圖像分辨率較低,目標眾多,識別結果中沒有標示虛檢和漏檢,僅僅標示了檢出的飛機目標。
本文采用的SAR圖像目標識別性能指標包括:準確率rP=NTP/(NTP+NFP),指正確檢出目標占檢出目標總數的比例;召回率rR=NTP/(NTP+NFN),指正確檢出目標占真實目標總數的比例;以及二者的調和平均數F1=2×rP×rR/(rP+rR)。其中,參數NTP為正確檢出目標個數,NFP為虛檢目標個數,NFN為漏檢目標個數。
本文基于MSAR數據集進行了大量實驗,統計了YOLOv3網絡、常規YOLOv5網絡以及改進YOLOv5網絡在目標識別方面的性能指標,具體數據如表1所示。

表1 三種網絡的性能指標比較
由表1可以看出,在艦船目標識別中,相較于YOLOv3網絡,常規YOLOv5網絡的識別準確率rP略有降低,但召回率rR和調和平均數F1值明顯提高,漏檢更少。并且,對于橋梁、飛機、油罐三類目標,常規YOLOv5網絡的準確率rP、召回率rR和調和平均數F1值均明顯高于YOLOv3網絡。
相比于前兩種網絡,改進YOLOv5網絡對全部四類目標,在召回率rR、準確率rP、調和平均數F1值三方面均有明顯提升。
除此之外,本文還統計了三種網絡對四類目標的識別平均精度(AP),并計算其平均精度均值(mAP),統計結果如表2所示。

表2 三種網絡的AP值和mAP值對比
由表2可知,相比于YOLOv3網絡,常規YOLOv5網絡對飛機目標的識別AP值略有降低,但對艦船、橋梁、油罐三類目標的識別AP值均有明顯提升,由此其識別mAP值提高了19.47%。相比于常規YOLOv5網絡,改進YOLOv5網絡對全部四類目標的識別AP值均有明顯提升,導致其識別mAP值提高了7.62%。
此外,本文還利用YOLOv3網絡、常規YOLOv5網絡和改進YOLOv5網絡對同一組尺寸為256×256的SAR圖像進行目標識別,并測量計算時間和處理速度。結果顯示,YOLOv3網絡的計算時間為0.010 s,處理速度為99FPS;常規YOLOv5網絡的計算時間為0.011 s,處理速度為93FPS;改進YOLOv5網絡的計算時間為0.011 s,處理速度為90FPS。可以看出,相對于YOLOv3網絡,常規YOLOv5網絡和改進YOLOv5網絡的計算時間略有增加。這是因為YOLOv5網絡所采用的結構比YOLOv3網絡更加復雜,且本文的改進YOLOv5網絡中,采用SIoU來衡量預測框和真實框之間的相似度,以計算框回歸損失,這都會導致計算量增加。
本文提出一種改進YOLOv5卷積神經網絡,并將其用于SAR圖像目標識別。在該網絡中,改進了先驗錨點框的生成方法、框回歸損失函數和置信度損失函數,以提高在復雜背景下對密集分布目標的識別精度。
本文基于MSAR數據集,選擇了YOLOv3、常規YOLOv5作為對比網絡,分別對艦船目標、橋梁目標、油罐目標、飛機目標以及密集分布小目標進行了大量的SAR圖像目標識別實驗,以驗證改進YOLOv5網絡的有效性。
實驗結果表明,相比兩種對比網絡,改進YOLOv5網絡對四類目標均具有更高的識別準確率、召回率和F1值。在AP值和mAP值綜合指標方面,改進YOLOv5網絡亦優于另外兩個對比網絡。在計算時間方面,改進YOLOv5網絡與常規YOLOv5網絡相當,且二者的計算時間均略長于YOLOv3網絡。