王 冰,周 焰,張懷念,趙 凱
(空軍預警學院預警情報系,武漢 430019)
遙感影像飛機目標檢測能夠通過獲取地面飛機動態信息,為后續的空中目標識別提供情報,在軍事與民用領域有廣泛應用。近年來,深度學習依靠強大的自動提取特征能力,成為處理飛機目標檢測問題的重要途徑。文獻[1-3]基于深度卷積神經網絡完成圖像特征的自動提取與目標檢測,能夠較為準確地檢測到飛機目標。
目前基于深度學習的飛機目標檢測方法主要有兩類。第1 類方法的代表為Faster R-CNN[4]、SPP-Net[5]等,這類方法的檢測精度較高,但必須將候選框輸入CNN 中再檢測,導致檢測速度較慢。第2 類方法的代表為YOLO[6](You Only Look Once)、單一目標多尺度檢測框架[7](Single Shot MultiBox Detector,SSD)等,它的思想是利用深度卷積神經網絡提取圖像特征后,將特征圖均勻分割成網格,在網格上使用候選框檢測目標。由于減少了輸入候選框到CNN 中再檢測的環節,SSD 方法的檢測速度相對較高,是飛機目標檢測的首選框架,但存在的問題是對不同目標的特征提取無差異,未針對飛機目標的特征與尺寸設計網絡。
針對以上的問題,設計并構建了飛機目標Inception 網絡(AFInceptionNet)以及飛機目標候選框生成網絡(Aircraft Target Region Proposal Network,AFRPN)。用以上網絡改進SSD 檢測框架,提出了AFSSD 飛機目標檢測方法。
SSD 檢測框架是一種可以一次檢測多個目標的檢測模型,主要由特征提取網絡、候選框生成網絡這兩部分組成。在模型的訓練與檢測時,將圖像輸入到模型中,特征提取網絡提取圖像的特征圖并傳遞給候選框生成網絡,后者直接在特征圖上完成候選框的訓練與檢測,舍棄了再將候選框輸入到CNN中訓練與檢測的過程。所以SSD 框架大大提升了檢測的速度。



SSD 框架獲取大于IOU 閾值的候選框,通過非極大值抑制,得到可信度分數最高的候選框作為檢測結果。
在訓練階段,需依據交并比與人工標注的真值框進行匹配,并將候選框劃分為正樣本與負樣本兩類,為訓練檢測框架做準備。匹配過程包括3 個階段:1)依次判斷與每個真值框具有最大交并比的候選框,即是否大于SSD 檢測框架所設定的IOU 閾值。若滿足此判斷條件,則劃分到正樣本類別中,并將其與該真值框匹配;2)將階段1)中未匹配的候選框,通過階段1)的再次篩選,直到剩余的候選框全部小于IOU 閾值;3)將未匹配的候選框劃分到負樣本的類別中。
在得到正、負樣本后,SSD 檢測框架依據最小化損失函數的原則,訓練候選框。在綜合了可信度分數損失函數與候選框位置的損失函數后,總損失函數為:


圖1 SSD 檢測框架的結構



圖2 AFSSD 檢測方法的結構示意圖
視覺模式是計算機視覺領域中圖像所表達的場景或者具體對象,不同的卷積神經網絡的特征圖對應不同的視覺模式。本文將梯度下降應用于卷積神經網絡(CNN)輸入圖像的值,然后利用VGG16[8]與InceptionV3 網絡[9]對卷積神經網絡的過濾器進行可視化[10],得到使卷積層特征圖具有最大響應的視覺模式。

圖3 使卷積神經網絡不同卷積層的特征圖得到最大響應的視覺模式
圖3 給出了使不同卷積層的特征圖得到最大響應的視覺模式。分析圖3 可以看出:CNN 的1-4層卷積層對應顏色特征、簡單的邊緣紋理特征,如自然圖像中的條紋、波浪、斑點、裂痕等;緊隨連接LeNet-5 結構的卷積層對應的是眼睛、羽毛、鱗片、樹枝、葉片、稻田、耕地等特征;在之后連接Inception結構對應的是具有對稱性的目標,且目標周圍是與其形成反差的背景,如地面、機場跑道等。
雖然飛機目標的外形輪廓較為復雜,但組成飛機的各個部分的幾何特點較為簡單。飛機以機身為對稱軸,左右兩翼對稱地分布于機身兩側,具有較好的對稱性。
依據CNN 卷積層特征圖具有最大響應的視覺模式以及飛機目標的幾何特征,設計AFInception-Net 飛機目標特征提取網絡,專門提取遙感影像中飛機目標的特征。該AFInceptionNet 網絡由C1~C3層、C4~C6 層、P1~P2 層和5 個Inception 層I1~I5 組成。其中,C1~C3、C4~C6 層主要提取機場場景中的顏色與紋理特征,P1~P2 層起到降維的作用,I1~I5層用來提取在機場的多種邊緣、紋理特征中具有對稱性的飛機目標的特征。AFInceptionNet 網絡的結構及具體參數如下頁圖4 所示,參數為該層特征圖的長、寬、通道數。
首先基于K-均值方法[11]對飛機尺寸聚類,將得到的聚類中心作為代表性的飛機尺寸,然后優化SSD 檢測框架中候選框長寬比的設定,并將代表性的飛機尺寸作為優化后的候選框,建立AFRPN 飛機目標候選框生成網絡。

圖4 AFInceptionNet 網絡的結構
2.3.1 K-均值對飛機尺寸聚類


圖5 原始飛機目標尺寸分布

圖6 K-均值聚類后飛機目標尺寸分布

表1 具有代表性的飛機目標尺寸與比例
2.3.2 優化候選框


圖7、圖8 分別給出了真值框與AFRPN 候選框生成網絡生成候選框的過程。如圖8 所示,在訓練與檢測階段,AFRPN 在圖像上遍歷地產生5 種候選框,實現對不同尺寸飛機目標的有效檢測。

圖7 標注了真值框的飛機目標

圖8 生成不同尺寸候選框的示意圖
實驗選取了DOTA 數據集[12]與NWPU VHR-10數據集[13]中包含飛機的影像,經過裁剪與旋轉后構建了用于訓練的飛機目標檢測數據集。數據集共包含遙感影像1 000 張、飛機對象2 967 個。RSODDataset 數據集[14]作為測試數據。訓練和測試所用的硬件為NVIDIA GEFORCE GTX 1 050 GPU,內存為12.0 GB,深度學習框架為TensorFlow。訓練的優化方式為隨機梯度下降法,學習率為0.004,動量為0.95,權值衰減為0.000 04,每次處理2 幅影像,最大迭代次數為10 000 次。
為考察AFSSD 的檢測性能,設被正確分類的飛機目標為TP,未被正確分類的飛機目標為FP,被誤分為飛機目標的背景為FN,被正確分類的背景為TN。則召回率與準確率之間關系的計算公式為

圖9、圖10 給出運用AFSSD 與其他4 種檢測方法得到的“準確率-召回率”曲線、“虛警率-召回率”曲線。由圖9、圖10 可知,在相同的召回率的條件下,AFSSD 飛機檢測方法具有更高準確率以及更低的虛警率。

圖9 5 種檢測方法的“準確率-召回率”曲線

圖10 5 種檢測方法的“虛警率-召回率”曲線

表2 候選框設計對檢測精度的影響
為了解決SSD 檢測框架對不同目標的特征提取無差異的問題,本文首先基于使卷積神經網絡的特征圖得到最大響應的視覺模式,結合遙感影像中飛機目標的幾何特征,建立了AFInceptionNet 飛機目標特征提取網絡;然后使用K-均值方法對飛機尺寸聚類,將聚類中心作為代表性的飛機目標尺寸,構建了AFRPN 飛機目標候候選框生成網絡;用AFInceptionNet 與AFRPN 改進SSD 檢測框架,提出了AFSSD 飛機目標檢測方法。針對該方法的檢測性能開展對比實驗,仿真結果表明,該候選框生成網絡能夠有效檢測不同尺寸的飛機目標;該檢測方法可以準確地檢測出遙感影像中的飛機目標,并且相比于SSD 檢測框架提高了檢測精度,為下一步的飛機目標類型識別提供了解決思路。

圖11 5 種檢測方法的檢測結果