余東行,張 寧,張保明,郭海濤,盧 俊
(1. 信息工程大學,河南 鄭州 450001; 2. 中國衛星導航定位應用管理中心,北京 100088)
機場作為國民經濟的交通樞紐和軍事斗爭中重點打擊的戰略目標,實現遙感影像上機場和跑道的自動檢測和識別對于輔助飛機起降和空中交通管制、提高精確制導武器的打擊效果等方面都具有重要的現實意義。
機場目標在遙感影像上具有顯著共性特征:①長直性的跑道和滑行道;②水泥和瀝青等構成的地面及建筑具有較高影像灰度值;③位置通常遠離城區,周邊大多為農田、植被和稀疏的居民地,具有視覺顯著性特征。基于上述特征,機場檢測方法主要可分為三類:利用邊緣和直線特征檢測機場[1-4]、利用顯著性檢測與圖像分割算法提取較大的機場連通區域[5-9]和利用機器學習的方法識別機場[10-14]。利用邊緣和直線特征簡單直觀,但受影像質量的影響,通常難以獲得穩定可靠且連續性較強的直線,直線檢測的有效性與直線組的平行性判斷易受田壟和河流等影響,檢測耗時且精度低。視覺顯著性特征依賴于圖像上具有明顯的視覺顯著性區域,但這些方法極易受城區、山脈等其他同樣具有顯著特點的地物影響,虛警率高、通用性較差。文獻[10—11]將卷積神經網絡(convolutional neural network,CNN)應用于遙感影像的機場檢測與識別任務中,大大提高檢測的速度和精度,但由于機場具有多方向性,機場檢測的精度仍有進一步提升的空間。針對上述問題,利用卷積神經網絡在目標檢測上的優勢與機場在影像上的視覺顯著性特征,本文設計一種結合卷積神經網絡與顯著性特征的機場目標檢測算法,可實現機場的快速高精度檢測。
YOLO[15]將目標檢測視為回歸問題,從而實現端對端的實時目標檢測。在訓練過程中,將圖像劃分若干網格(S×S,如圖1所示),利用卷積神經網絡預測每一個網格是否存在目標的中心點以及該目標的類別置信度和邊界框,最后利用非極大值抑制的策略對所有邊界框進行篩選和合并,得到檢測結果。
YOLO模型的卷積神經網絡結構設計如圖2所示,包含卷積層和全連接層,根據其功能可分為特征提取層和分類定位層兩部分。特征提取層由卷積層和池化層組成, 用于提取圖像的特征。分類定位層由全連接層組成,輸出大小為7×7的格網,用于預測目標的位置和類別概率。每個格網預測B個邊界框和C個類別的概率,每個邊界框包含5個預測值:邊界框的中心點坐標(x,y)、大小(w,h)和置信度(confidence)。置信度包含預測邊界框是否含有目標以及邊界框與實際位置的偏差。
YOLO算法采用損失函數為
(1)

YOLO對小目標的檢測能力較差,YOLOv2[16]和YOLOv3[17]算法在YOLO算法的基礎上進行了改進,提高了其精度和效率:去掉YOLO中的全連接層和最后的池化層,將格網劃分的數量從7×7增加到13×13,卷積神經網絡模型采取殘差網絡等,增強了對小目標的檢測能力。
分析機場的空間分布及其在影像上的特征可知,在其周邊局部范圍內,機場區域的面積較大,且具有較高的灰度值和明顯的邊界,這些特征具有視覺的顯著性。在卷積神經網絡快速獲取機場范圍的基礎上,本文采取頻率域視覺顯著性分析方法[18]來獲取機場的顯著性區域。
圖像的頻率域信息可由傅里葉變換得到,f(x,y)表示一幅大小為M×N的圖像,其傅里葉變換為
(2)
式中,u=0,1,2,…,M,v=0,1,2,…,N。令R(u,v)和I(u,v)分別表示F(u,v)的實部和虛部,則圖像的頻譜為
|F(u,v)|=[R2(u,v)+I2(u,v)]1/2
(3)
F(u,v)=arctan[I(u,v)/R(u,v)]
(4)
F(u,v)=|F(u,v)|ejF(u,v)
(5)
式中,|F(u,v)|為振幅譜;Φ(u,v)為相位譜。圖像的相位譜保留了圖像中重要的顯著性信息,為了獲取圖像中較大的顯著目標、突出目標整體顯著性區域和邊界范圍,需要保留頻率域中的高頻信息;由于影像中的高頻信息還包含噪聲、紋理等干擾因素,需要截去一定的高頻信息,因此采用不同標準差(s1和s2,且s1>s2)高斯濾波器G進行差分

G(x,y,s1)-G(x,y,s2)
(6)
將多個差分結果相組合,從而大大提高顯著性檢測的效果。當采用的高斯方差成一定比例時,即s1/s2=r>1,s2=r,K個高斯差分的組合可表示為
G(x,y,rKs)-G(x,y,s)
(7)
當rKs為無窮大時,對圖像的高斯濾波即為計算整幅圖像的均值(Iu);s值較小時,可以濾去部分噪聲,最終顯著性檢測的結果可表示為
S(x,y)=‖Iu-Is(x,y)‖
(8)
顯著性檢測的流程如下:
(1) 將影像進行高斯濾波以除去部分噪聲,將RGB通道的影像轉換到Lab顏色空間。

(3) 顯著性檢測結果為
(9)
目標檢測算法通常采用邊界框來描述所檢測到的目標,如圖3(a)所示。為了更精確地檢測機場目標,需要采用最小矩形邊界框來描述,如圖3 (b)所示。本文采取自上而下的檢測方式:利用卷積神經網絡在目標檢測上的速度和精度優勢,用于檢測機場的整體區域,在興趣區域內利用機場在影像上所呈現的視覺顯著性特征,進而獲取更精確的機場位置,流程如圖4所示。因此本文算法步驟如下:
(1) 機場區域檢測:采集少量機場影像作為訓練數據,基于遷移學習的思想,對經過自然影像數據集上訓練好的YOLOv3模型進行微調,用于機場的興趣區域提取。
(2) 顯著性檢測:利用基于頻率域分析的顯著性檢測方法計算所獲取興趣區域的顯著圖。
(3) 圖像分割和連通區提取:利用大津分割法(Otsu)確定顯著圖的分割閾值,對分割后的圖像進行閉運算,填充圖像分割后產生的空洞,連接相近的碎片,擴大圖像分割后產生的連通區,對所有連通區進行標記,保留面積最大3個連通區。
(4) 機場位置確定:雖然利用卷積神經網絡可以有效提取機場的整體范圍,但同時少數機場(的機場、瀝青材質的跑道等)在影像上不具有視覺顯著性特征(如圖5所示),難以提取機場的準確輪廓。因此,對興趣區域的連通區提取結果進行重心判斷,若該連通區的重心不在興趣區域的中心,則保留原始興趣區域的邊界;否則,輸出該連通區的邊界作為優化后的機場邊界。
試驗采用264幅衛星影像,空間分辨率約20 m,影像大小從500×500到2000×2000之間不等,其中100張影像用于訓練,164張影像用于測試。所選取影像涵蓋了不同地區、不同種類、不同形狀的機場目標,圖6給出部分機場實例。試驗使用深度學習環境為Tensorflow,所用的硬件配置為GTX1080Ti(顯存10 GB),Intel酷睿8核處理器(主頻3.8 GHz,內存64 GB)。由于所采集的數據不足以訓練一個完整的深層卷積神經網絡,因此訓練采取遷移學習的方式,對COCO數據集下的Darknet-53的預訓練權重進行微調,并以聚類的方式獲取機場的先驗尺寸。
采用文獻[6]、FRCNN[19]、YOLOv2、RetinaNet[20]以及本文所采取的YOLOv3算法對測試集164張影像進行檢測,不同閾值T的檢測結果統計及用時見表1—表3(概率大于T的目標則認為是機場,文獻[6]僅采用視覺顯著性特征檢測機場,閾值T對其無影響)。

表1 機場檢測個數統計(閾值T=0.3)

表2 機場檢測結果統計(閾值T=0.7)

表3 平均每張影像檢測用時
從表1—表3統計結果可以看出,文獻[6]采用基于頻率域的視覺顯著性特征來檢測機場,具有較高的虛警率和漏檢率,且耗時長;將卷積神經網絡應用于遙感影像的機場目標檢測任務中,顯著提高了機場識別的精度和效率。圖7為不同方法的檢測效果,測試影像涵蓋了多種場景:郊區機場、城區機場、瀕海岸機場以及特征不明顯的山地機場。位于郊區的機場周邊地物以植被為主,具有較強的視覺顯著性特征,易于檢測和識別,但同時受到道路、河道、田壟以及城鎮居民區的干擾;位于城區的機場影像上道路縱橫交錯、紋理較為復雜,機場灰度和對比度較弱;沿岸和島嶼上的機場受海岸線和突出的島嶼影響較大;位于山地(沙漠)的機場通常視覺特征較弱,也最難以檢測。
從機場的影像特征可以發現,機場的形狀多樣,僅靠跑道的直線特征通常難以做到準確檢測和識別。從不同方法在影像上機場的定位效果上看,利用機場的顯著性特征顏色和灰度特征來識別機場目標,缺乏有效的機場識別方法,難以有效排除同樣具有視覺顯著特征的非機場地物,虛警率和漏檢率較高。在機場周邊存在更為顯著的目標時,將極大地干擾機場檢測的效果。利用卷積神經網絡對機場檢測,不依賴于直線特征和視覺顯著性特征,能夠有效應對多種類型和復雜成像質量下的機場檢測,穩健性強。在眾多基于卷積神經網絡的目標檢測算法中,FRCNN、RetinaNet和YOLOv3算法均具有較高的準確率,對多種類型的機場目標均能做到有效檢測和識別。但Faster R-CNN虛警率較高,這些誤識別為機場的地物主要為與機場跑道在顏色和形狀上相近的公路和海岸線等,同時FRCNN檢測速度較慢。YOLOv2算法檢測速度雖然較快,但準確性較差,漏檢率較大。RetinaNet和本文采取的YOLOv3對于各種類型的機場都可以較好地進行檢測,穩健性較好,檢測的精度較高,其中YOLO3具有絕對的速度優勢。
利用YOLOv3算法可以準確快速地獲取機場整體范圍,對興趣區域的顯著性檢測決定了機場的精確位置,機場檢測的優化結果如圖8和圖9所示。對興趣區域進行簡單的分割(Otsu分割法),對大型機場效果較好,但當機場的范圍較小時,周圍地物(建筑物、裸地、植被等)將極大地干擾機場的分割結果,難以獲取機場的準確位置,本文所采取的顯著性檢測方法,能夠有效過濾機場跑道周邊地物的干擾,提高機場邊界和機場跑道的精確度。
本文提出了一種結合視覺顯著性特征的機場檢測算法,利用深層卷積神經網絡快速提取機場目標,避免了傳統方法采用人工設計特征泛化性差的問題,同時結合機場在影像上所呈現的視覺顯著性特征獲取更加精確的機場邊界位置,實現了遙感影像上機場目標的快速高精度檢測。從試驗結果和分析來看,在遙感影像的機場檢測和識別問題中,相對于其他方法,YOLOv3算法不僅具有較好的識別效果,而且具有較強的穩健性,能夠有效應對復雜場景下的多種機場目標,在檢測精度和速度上具有明顯的優勢。然而,這些優勢主要依賴于具有高性能計算能力的硬件設備和訓練數據,如何在可移動設備上兼顧較高的識別精度和理想的實時性,實現多尺度影像上的機場檢測和識別,是進一步研究的問題。