遙感圖像飛機目標高效搜檢深度學習優化算法

2019-01-30 01:34:32郭琳秦世引

北京航空航天大學學報 2019年1期

郭琳，秦世引

(北京航空航天大學自動化科學與電氣工程學院, 北京 100083)

在現代戰爭和防御偵察中，由于飛機目標機動性強，威脅性大，附加值高，常被視為一類具有高戰略價值的時敏目標。借助遙感圖像對地面停靠的飛機目標實施高效精準的檢測與定位對情報獲取及戰略部署具有重要意義。隨著遙感技術的不斷發展，遙感圖像在空間分辨率、光譜分辨率、時間分辨率上呈現出快速增長的趨勢。如何利用海量的圖像數據，實現大幅面遙感圖像飛機目標的高效檢測與精準定位，成為一項亟待解決的難點課題。其挑戰性主要體現在以下4點：①遙感圖像成像幅面大，覆蓋范圍廣。與之相比，飛機目標所占像素比例小，信噪比(Signal to Noise Ratio, SNR)低，對整幅遙感圖像進行人工判讀難以在短時間內發現飛機目標。②不同類型的飛機目標的外型各異，大小不同，涂裝顏色也各有區別，經典的淺層目標特征在檢測過程中容易造成誤檢、漏檢情況的發生。③飛機目標的檢測容易受到不同天時、天候條件下光照、陰影、云層遮擋等環境因素的影響，需要算法具備良好的穩定性以應對不同檢測場景的需要[1]。④由于戰場形勢瞬息萬變，大幅面遙感圖像的飛機目標檢測算法除了需要具備很高的精確性，還必須滿足實時性的應用需求。

飛機目標通常停靠在停機坪和跑道區域內，對停機坪和跑道區域實施候選檢測區域的分割與提取可以顯著縮小飛機目標的搜尋范圍，進而在分割出的停機坪與跑道區域內針對飛機目標實施精確地檢測定位，這是實現大幅面遙感圖像飛機目標高效檢測的有效途徑。在本文中，利用高性能的端到端深度神經網絡(Deep Neural Networks，DNN)結構，對大幅面遙感圖像中的停機坪與跑道區域等飛機目標候選檢測區域實施高效精準分割，顯著提高了飛機目標的檢測效率。在分割出的跑道與停機坪區域內，借助手工采集的飛機目標樣本集，對YOLO (You Only Look Once)網絡模型進行遷移式強化訓練，一方面彌補了手工數據集數據規模上的不足，另一方面借助YOLO網絡的強時效性的優勢，實現了飛機目標的高效檢測與定位。在候選檢測區域的分割提取與飛機目標的高效檢測2個環節中，都充分考慮了大幅面遙感圖像飛機目標檢測精確性與實時性的實際應用需求，借助2種高性能DNN網絡的級聯組合，提出了新穎的搜尋與檢測相集成的飛機目標高效檢測算法。

為了驗證本文所提出的級聯式飛機目標高效檢測算法的有效性，在實際獲取的大幅面遙感圖像上，將本文提出的檢測算法與 R-CNN (Regions with Convolutional Neural Networks)[2]、Faster R-CNN[3]進行飛機目標檢測實驗結果的對比分析和性能評估。結果表明，本文提出的搜尋與檢測相集成的級聯組合式飛機目標高效檢測算法不僅在檢測速度上具有明顯優勢，同時在檢測精度上也能達到滿意水平，可為大幅面遙感圖像中飛機目標的高效檢測提供良好的技術支持。

1 相關工作與技術動態

遙感圖像幅面大，包含的地物類型多，為了提高檢測效率，降低虛警干擾，需要對停機坪與跑道區域實施高效精準分割。

趙雪梅等[4]提出了基于隱馬爾可夫高斯隨機場模型的模糊聚類高分辨率遙感影像分割算法，分別利用隱馬爾可夫模型和高斯模型構建標號場和特征場的鄰域關系，同時強化空間和光譜信息對影像分割的影響，在特征域上，不但考慮了同一彩色的鄰域關系，也考慮了不同彩色間的鄰域關系, 完善了光譜的鄰域信息，實現了高分辨率遙感影像地物目標的精準分割。陳榮元等[5]提出了一種結合Gibbs隨機場的特征加權遙感影像分割方法，利用加權最小距離分類法對影像進行初始分割，并利用Gibbs隨機場描述像素的空間相關性，綜合Gibbs隨機場描述的標記場和加權最小距離分類法描述的特征場來獲取影像的最終分割結果。Budak等[6]提出了一種新穎的由粗檢到精篩的停機坪與跑道區域分割方案，先基于直線段檢測 (Line Segment Detector, LSD)算法提取長直線區域作為停機坪與跑道分割的候選區域，再對候選檢測區域進行局部不變特征提取與分類，最終達到停機坪與跑道區域檢測與分割的目的。Wang和Pan[7]提出了一種基于顯著性區域搜索的停機坪與跑道分割算法，先通過顯著圖提取停機坪與跑道的候選區域，再提取候選區域的視覺詞包(Bag of Visual Words, BoVW)特征，通過支持向量機(SVM)對BoVW特征進行分類，最終實現停機坪與跑道區域的定位和分割。

然而，經典的停機坪與跑道區域分割算法具有一定的局限性：①基于直線形狀特征的停機坪與跑道區域分割算法在非直線區域性能欠佳，而基于顯著性提取的分割算法無法準確描述停機坪與跑道區域的輪廓信息，從而導致分割精度較低；②利用長直線特征進行候選分割區域搜尋，其搜尋結果與直線長度的閾值設置密切相關，在應對不同檢測場景時泛化性能較弱，容易造成誤分割情況的發生。

伴隨著深度學習理論的迅猛發展，特別是AlexNet獲得了ImageNet2012挑戰賽冠軍以后[8]，DNN網絡在數字手寫體識別、人臉識別以及無人駕駛等諸多領域取得了巨大的成功。借助卷積神經網絡(Convolutional Neural Networks, CNN)，可以為圖像中的每個像素分配具有語義信息的類別標簽，從而實現像素級的圖像分割。然而，經典的CNN網絡對于輸入圖像的大小有嚴格限制，而原始圖像的裁剪和縮放會引起目標信息的畸變與缺失，造成分割精度的下降。為了解決這一問題，Long等[9]提出了全卷積神經網絡(Fully Convolutional Neural Network, FCN)的概念。在FCN網絡中，全連接層被1×1大小的卷積層所替代，從而使得FCN網絡具備處理任意大小圖像的能力。FCN網絡對淺層特征與深層特征進行融合，獲得了性能更優的特征表達，并借助融合特征圖的上采樣，獲得最終的分割結果。然而，簡單的上采樣操作會破壞原始圖像像素之間的空間位置關系，導致分割精度欠佳。為了解決這一問題，Badrinarayanan等[10]提出了新穎的SegNet網絡模型結構。SegNet的創新之處在于其獨特的編碼-解碼結構。在編碼階段，SegNet借助VGG-16網絡中的13個卷積層完成特征提取，而在解碼階段，則采用對稱的網絡模型進行空間信息和語義信息的恢復。相比FCN網絡簡單的上采樣算法，SegNet多層轉置卷積操作更有利于精確恢復原始圖像像素點之間的空間位置關系，因而能夠實現更加精確的圖像分割。Ronneberger等[11]提出了結構更為復雜的U-Net網絡模型。U-Net結合了編碼-解碼的結構設計以及多特征圖融合的優勢，相比Dan等[12]提出的模型，在性能上有了大幅提高。此外，條件隨機場(Conditional Random Fields, CRF)可以顯著提高圖像分割精度，這在Chen等[13]的研究中也得到了充分的借鑒和應用。Zhao等[14]在CVPR2017發表的PSPNet、Chen等[15]發表的DeepLab及He等[16]在ICCV2017上發表的Mask R-CNN使圖像語義分割的精度得到了進一步提升。

飛機目標作為一種高價值的時敏目標，在不同天時、天候的復雜場景下對其實施高效精準檢測一直都是國內外學者研究的熱點。經典的飛機目標檢測算法在特征選擇上，主要包括外型特征、輪廓特征、顯著性特征和局部不變特征等。伴隨著深度學習的迅猛發展，傳統的手工特征被深度學習提取的機器特征快速超越和取代。Girshick等[2]在CVPR2014上首次將深度學習引入到目標檢測中，提出了R-CNN算法。在R-CNN算法的實現過程中，首先借助選擇性搜索算法獲取大量的目標線索，然后利用AlexNet網絡模型對目標線索區域進行特征提取，最后借助SVM分類器對特征進行分類，從而實現目標檢測的目的。相比經典的可變性部件模型(Deformable Part Model, DPM)目標檢測算法，R-CNN算法在平均精度均值(Mean Average Precision, MAP)上提高了30%以上。然而，由于選擇性搜索算法需要消耗大量的計算資源，并且每個目標線索進行特征提取時都要進行重復的卷積操作，導致R-CNN算法的檢測速度較慢。Girshick[17]在ICCV2015上發表的Fast R-CNN算法及Ren等[3]發表的Faster R-CNN算法陸續解決了這些問題。在Fast R-CNN算法中， Ren等[18]借鑒了SPPNet空間金字塔池化的思路，通過在卷積層后加入感興趣池化層對不同大小的目標線索的特征圖進行歸一化處理，一方面克服了R-CNN算法輸入圖像必須為固定大小的局限，避免了圖像剪裁和變形造成的目標畸變;另一方面所有的目標線索可以共享卷積層的權重參數，大幅降低了計算資源開銷。而在Faster R-CNN算法中，選擇性搜索算法被區域線索神經網絡(Region Proposal Neural Networks, RPN)所替代，不僅目標線索檢測的精確率和召回率得到了明顯改進，而且線索生成效率也獲得了顯著提高。為了進一步加快目標檢測的效率，Redmon等[19]在CVPR2016上提出了新穎的YOLO算法。YOLO算法的創新之處在于其采用了端到端的網絡結構設計，利用回歸算法對目標類別以及目標邊界框位置進行擬合，相比Faster R-CNN算法先產生目標線索，再對目標線索進行分類篩選的檢測策略，在檢測速度上有了大幅提升。

本文在分析前沿研究動態的基礎上，通過DNN網絡的深度學習與級聯組合將搜尋分割與檢測定位有機結合起來，設計構建了高性能的飛機目標檢測算法。

2 快速搜尋與高效檢測的組合方案

2.1 大幅面遙感圖像中飛機目標的分布特點

為了調查遙感圖像中飛機目標的分布規律，從Google Earth上搜集了100幅遙感圖像，并對停機坪與跑道以及其他區域的飛機樣本數目進行統計。不同區域停放的飛機目標樣本在圖1中進行了展示。在圖1中，上下兩行圖像展示了兩組不同區域停靠的飛機目標樣本示意圖。在每行圖像中，停機坪、跑道以及其他區域的飛機目標樣本，均為該行首列展示的原始遙感圖像局部放大所得。

圖1 不同區域停靠的飛機目標樣本示意圖Fig.1 Schematic of aircraft target sample docked in various areas

對不同區域飛機目標樣本的數量進行統計，結果如表1所示。從結果中可以看出，停機坪與跑道區域內停靠的飛機目標為1 046架，占總數的97.85%，而停靠在其他區域的飛機目標為23架，占總數的2.15%。因此，對停機坪與跑道區域進行高效精準分割，可以在盡可能不遺漏飛機的條件下，大幅減少搜索范圍，同時避免無關檢測區域產生的干擾，顯著提高飛機目標檢測的效率和精度。

表1 不同區域停靠的飛機目標樣本數量統計Table 1 Quantity statistics of aircraft target sample docked in various areas

2.2 基于DNN網絡的停機坪快速檢測與分割

大幅面遙感圖像中的停機坪與跑道區域的分割和提取不僅需要滿足高精度的要求，精確判定候選檢測區域范圍，避免誤分割和漏分割情況的發生，還需要具有很高的分割效率，滿足飛機目標檢測實時性的需求。借助深度學習理論，本文設計了新穎的端到端DNN網絡以實現大幅面遙感圖像停機坪與跑道區域的高性能分割，網絡的離線監督訓練如圖2所示。圖中：g(·)為DNN網絡模型的非線性激活函數；Wi和bi分別為第i層神經元的權重系數和偏移量。

在DNN網絡的離線監督訓練過程中，借助開源標注工具LableMe[20]，對遙感圖像樣本集中的停機坪與跑道區域進行人工標注。當離線監督訓練完成后，DNN網絡模型便固定下來。在實際使用過程中，將原始遙感圖像輸入到訓練好的DNN網絡模型中，即可生成對應大小的停機坪與跑道區域的分割結果。

圖2 停機坪與跑道區域分割DNN網絡模型的離線監督訓練Fig.2 Off-line supervised training of DNN model for apron and runway area segmentation

2.3 遙感圖像飛機目標高效檢測方案

為了滿足高效檢測的任務需要，基于YOLO算法，本文設計了面向大幅面遙感圖像飛機目標的檢測方案。該方案借助分治法的思想，采用了先拆分后拼合的策略。首先，對停機坪與跑道區域分割圖像進行大小調整，并按照448像素×448像素對其進行標準塊切分；然后，利用手工采集的飛機目標樣本集對預訓練的YOLO網絡模型進行遷移式強化訓練；再次，借助遷移式強化訓練YOLO網絡模型對標準塊遙感圖像進行飛機目標的檢測和定位；最后，將包含飛機目標檢測結果的標準塊圖像按原始空間排布順序重新拼合，得到完整的大幅面遙感圖像飛機目標檢測結果。

2.4 搜尋與檢測相集成的級聯組合方案

借助本文提出的停機坪與跑道區域分割DNN網絡以及YOLO網絡的性能優勢，對區域搜尋與目標檢測2個環節進行級聯組合，給出搜尋與檢測的級聯組合方案，如圖3所示。

從圖3中可以看出，本文提出的搜尋與檢測相集成的級聯組合方案在候選檢測區域搜尋與飛機目標檢測中分別設計了不同的DNN網絡以實現各自部分的功能。其優勢為：①具備良好的時效性；②由于采用了端到端的設計思路，在整個飛機目標的檢測過程中無需人為干預，只需提供原始的大幅面遙感圖像，即可獲得停機坪與跑道區域分割圖像及飛機目標的檢測結果，為大幅面遙感圖像飛機目標的高效檢測提供了便利。

圖3 搜尋與檢測的級聯組合Fig.3 Cascade combination of searching and detection

3 停機坪與跑道區域的分割和提取

3.1 停機坪與跑道區域檢測和分割的DNN模型

借助深度學習方法，本文設計了大幅面遙感圖像停機坪與跑道區域分割深度神經網絡(Large-Scale Remote Sensing Image Apron and runway Segmentation Neural Networks, LS-RSIASNN)，網絡模型結構及參數設置如圖4(a)所示。

圖4 停機坪與跑道區域分割DNN網絡模型示意圖Fig.4 Schematic of DNN models for apron and runway area segmentation

從圖4中可以看出，LS-RSIASNN網絡的深度為76層，相比其他DNN網絡具有更深的網絡結構，因而有利于抽象特征的挖掘，提高圖像分割的精度。LS-RSIASNN網絡模型中一共包括20個卷積網絡單元(Convolutional Network, ConvNet)，其中前19個用于特征提取與圖像恢復，最后1個用于分割標簽的生成。而在每個ConvNet中包含一個卷積層、一個最大整合層及一個激活層。所有卷積層的卷積核大小為3×3，卷積步長為1，最大整合層的步長為2。激活函數選用修正的線性單元(Rectified Linear Unit, ReLU)，其解析表達式為

(1)

ReLU激活函數與Sigmoid和Tanh激活函數相比，由于對其局部定義域x≤0的取值限制，使之不易落入梯度死區，而擴展了活化范圍。在每個激活層前設置的批歸一化層能夠進一步避免梯度消失和梯度爆炸情況的發生，增強DNN網絡訓練過程的穩定性。

LS-RSIASNN網絡采用了端到端的模型結構設計，當離線訓練過程完成以后，輸入原始的遙感圖像即可生成對應大小的分割結果，因而具備了很高的效率。與此同時，LS-RSIASNN網絡借鑒了U-Net與FCN網絡的設計思路，借助不同深度網絡特征圖的相互融合，產生性能更優的特征表達，進而實現高精度的圖像分割，該方法在He[21]、Huang[22]及Su[23]等的工作中也得到了成功的應用。與U-Net不同的是，一方面LS-RSIASNN網絡具有更深的網絡結構，以產生更加抽象的目標特征；另一方面除了跨層的目標特征融合，LS-RSIASNN網絡對相鄰ConvNet輸出的目標特征也進行了融合，以獲取更加精確的目標分割結果。

3.2 樣本數據標注和DNN模型的離線監督訓練

在LS-RSIASNN網絡的離線監督訓練中，借助開源工具LabelMe對200幅遙感圖像中的停機坪與跑道區域進行人工標注。圖5展示了停機坪與跑道區域的人工標注過程及生成的停機坪與跑道區域正樣本。其中，圖5(a)展示了3個不同機場拍攝的原始遙感圖像；圖5(b)顯示的是利用LabelMe對停機坪與跑道區域進行人工標注；圖5(c)為人工標注后對應生成的停機坪與跑道區域正樣本，淺色部分代表停機坪與跑道正樣本區域，黑色部分代表背景區域。

圖5 停機坪與跑道區域人工標注及樣本Fig.5 Manual labelling samples of apron and runway areas

由于手工樣本集數據量較為有限，將160幅圖像劃分為訓練集對DNN網絡實施離線監督訓練，而其余40幅圖像則作為測試集對訓練完成后的DNN網絡進行測試與評估。在離線監督訓練過程中，借助交叉熵作為損失函數，利用自適應矩估計(Adaptive moment estimation, Adam)算法[24]對網絡模型進行參數更新，交叉熵的解析表達式為

(1-y(i))lb(1-h(x(i)))]

(2)

式中：m為像素點的個數；y(i)為第i個像素的類別標簽；h(·)為Sigmoid函數。

經過500輪迭代訓練后DNN網絡趨于收斂，其離線監督訓練過程的性能進化曲線如圖6所示。可以看出，在離線監督訓練過程中，LS-RSIASNN網絡的交叉熵損失低于對比的其他DNN網絡。進一步，借助測試集中的遙感圖像對離線監督訓練后的DNN網絡進行停機坪與跑道區域分割實驗，以對各種DNN網絡的圖像分割性能進行評估。

3.3 DNN網絡學習進化的停機坪與跑道區域分割和提取

為了對DNN網絡的圖像分割性能進行評估，將測試集遙感圖像送入網絡中，獲得停機坪與跑道區域的分割結果如圖7所示。圖7(a)的4幅原始遙感圖像拍攝于4個不同的機場，圖7(b)淺色部分為人工標注的停機坪與跑道正樣本，圖7(c)～(g)為不同DNN網絡生成的停機坪與跑道區域分割結果。

從圖7可以看到，本文提出的LS-RSIASNN網絡在分割精度上明顯優于對比的其他DNN網絡模型。借助式(3)，對分割結果的交并比(Intersection-over-Union, IoU)進行計算。

圖6 停機坪與跑道區域分割DNN網絡模型性能進化曲線Fig.6 Performance evolution curves of DNN models for apron and runway area segmentation

圖7 不同DNN網絡模型停機坪與跑道區域分割結果對比Fig.7 Comparison of apron and runway area segmentation results among various DNN models

(3)

式中：area(·)為面積大小；RoIT為不同DNN網絡生成的停機坪與跑道區域分割結果；RoIG為手工標注的正樣本區域。IoU得分的分布區間為[0,1]，越接近1說明分割結果越好。

不同DNN網絡停機坪與跑道區域分割IoU得分對比如表2所示。表2的結果在圖8中進行了更為直觀的展示。

FCN-8、FCN-16網絡借助上采樣操作進行圖像恢復，破壞了像素點之間的空間位置關系，導致分割結果欠佳。而LS-RSIASNN網絡則采用了更加精確的多層反卷積操作進行圖像細節恢復，借助不同深度圖像特征的相互融合，獲得了更為精確的分割結果。此外，還對LS-RSIASNN網絡的分割效率進行了評估。在實驗中，將4 480像素×4 480像素大小的遙感圖像輸入到不同的DNN網絡中，統計從原始遙感圖像輸入到分割結果輸出之間的時間開銷，實驗結果如圖9所示。實驗中，借助一顆Nvidia Tesla M60 GPU進行運算加速，從實驗結果中可以看到，單幀圖像分割的時間開銷具有一定的波動性，這與圖像場景的復雜程度有關。而從平均時間開銷來看，由于LS-RSIASNN網絡具有更加復雜的結構，因此相比結構較為簡單的DNN網絡需要消耗更長的計算時間，但不同DNN網絡的時間開銷總體維持在較低水平，平均時間開銷不超過1 s。

表2 不同DNN網絡模型停機坪與跑道區域分割IoU得分Table 2 IoU for apron and runway area segmentation with various DNN models

圖8 不同DNN網絡模型停機坪與跑道區域分割IoU對比Fig.8 Comparison of IoU for apron and runway area segmentation with various DNN models

圖9 停機坪與跑道區域分割時間開銷對比Fig.9 Comparison of time cost for apron and runway segmentation

4 基于YOLO網絡的飛機目標快速檢測

借助高性能的DNN網絡模型，對飛機目標可能出現的停機坪與跑道區域實施了精準的分割和提取，大幅縮小了目標搜索的區域范圍。為了進一步對停機坪與跑道區域內的飛機目標進行高效檢測，本節借助YOLO網絡模型的遷移式強化訓練，設計了飛機目標的高效檢測算法。在分割的停機坪與跑道區域內，通過與R-CNN及Faster R-CNN算法的飛機目標檢測結果進行對比分析，驗證了本文算法的有效性。

4.1 YOLO網絡原理及優勢分析

YOLO網絡將目標檢測中的邊界定位與類型判別轉化為回歸問題進行求解，在檢測速度與召回率上優于經典的目標檢測算法。同時作為一種端到端的DNN網絡，YOLO網絡不僅易于訓練，也能大幅節省特征存儲、調用等中間環節帶來的計算資源消耗，有利于實現目標的實時檢測。

4.1.1 YOLO網絡檢測算法的原理

YOLO網絡由24個卷積層、4個最大整合層及2個全連接層組合而成，網絡結構模型如圖10所示。

圖10 YOLO網絡模型及參數設置Fig.10 YOLO network model and parameter setting

(4)

對7×7×2=98個預報邊界框得分S進行計算并排序，設置閾值排除得分較低的邊界框，進而借助非極大值抑制(Non-Maximum Suppression, NMS)去除重合的預報邊界框從而獲得最終的目標檢測結果。

4.1.2 YOLO網絡實時檢測的性能優勢

YOLO算法將目標檢測作為回歸問題進行求解，與R-CNN、Fast R-CNN及Faster R-CNN相比在計算效率上具有明顯優勢。R-CNN算法采用選擇性搜索獲得目標線索區域，進而借助DNN網絡提取目標線索區域特征，利用SVM對特征進行分類從而完成目標檢測任務。DNN網絡及特征分類器的訓練需要在多個模塊中分別進行，因此檢測效率較低。而Faster R-CNN算法利用RPN網絡替代選擇性搜索算法，借助RPN與Fast R-CNN的集成實現高效的目標檢測。盡管RPN與Fast R-CNN共享了部分卷積層權重參數，但2個網絡需要分別進行訓練。Faster R-CNN算法雖然能夠保持較高的檢測精度，但在檢測速度上依然不能滿足實時性的需要。借助YOLO網絡，原始圖像通過端到端的DNN網絡結構，便能直接輸出目標的位置、類別及相應的置信概率，顯著簡化了檢測流程，在檢測效率上實現了大幅提升。

4.2 YOLO網絡的訓練策略與實施方案

YOLO網絡受到Ren等[3]工作的啟發，將網絡分為特征提取器與目標分類器2個部分分別進行訓練。在特征提取器訓練階段，借助Image-Net2012數據集，對YOLO網絡中的前20個卷積層進行預訓練。YOLO網絡中的前20個卷積層主要用于圖像特征的提取，而ImageNet2012包含的1 000類目標共126萬張圖片，可以為特征提取器提供豐富的訓練數據。YOLO網絡中的后4個卷積層及2個全連接層組成的卷積特征圖網絡(Network on Convolution feature map, NoC)主要用于特征整合與特征分類。相比簡單的Softmax分類器，NoC網絡可以對高維的目標特征進行更好的區分，從而進一步提高目標檢測的精度。在ImageNet2012預訓練的基礎上，在較小的樣本集Pascal VOC 2007(20類9 963張圖片)上進行再次訓練。最終YOLO網絡在Pascal VOC 2007數據集上目標檢測的平均精度均值MAP達到65.5%，弱于Faster R-CNN的71.6%，在檢測速度上達到45幀/s，明顯快于Faster R-CNN的0.5幀/s，在實時檢測中表現出較強優勢。

4.3 面向高效檢測的遷移式擴充樣本強化訓練

借助新穎的網絡結構設計及大規模數據集的離線監督訓練，YOLO網絡在目標檢測的精度和時效性方面都達到了較高水平。為了充分利用YOLO網絡的性能優勢，在有限的計算資源和數據集的條件下，利用自行采集的手工訓練樣本集，對YOLO網絡進行遷移式強化訓練，從而實現飛機目標實時檢測的任務需求。

4.3.1 擴充樣本的采集與標注

借助開源標注工具LabelImg，對遙感圖像數據集中的飛機目標位置進行人工標注。與預訓練的YOLO網絡模型保持一致，訓練樣本集中的遙感圖像大小均設置為448像素×448像素。同時采用了數據增廣方法對有限的手工樣本集進行擴充，如圖11所示。圖11每行4幅遙感圖像拍攝于4個不同機場，圖11(b)顯示的是利用LabelImg對飛機目標位置進行手工標注的過程。在手工標注過程中，LabelImg會記錄下標注區域的坐標及目標的類別信息，并與Pascal VOC 2007的數據格式保持一致。

進一步，為了彌補手工樣本集數量規模的不足，對有限的樣本集進行水平和垂直翻轉，使樣本數量擴充至原來的3倍。通過對100幅遙感圖像中的353架飛機目標進行手工標注，最終獲取了1 059個擴充樣本及其對應的飛機目標位置信息，用于對預訓練的YOLO網絡進行遷移式強化訓練。

4.3.2 性能遷移的合理性分析

手工采集的數據集不論在數據規模還是目標種類的多樣性上都無法與ImageNet2012及Pascal VOC 2007相比。然而，大規模數據集的離線監督訓練對于DNN網絡模型的性能提升至關重要。在深度學習中，如果預訓練模型的數據集與任務數據集在樣本類型及目標特征上具有較強的相關性，則可借助遷移學習方法將預訓練好的模型應用在新任務中，從而克服訓練樣本不足的缺點。在Pascal VOC 2007數據集中共包含9 963幅20類共24 640個目標的類型及位置信息，其中包括477幅共625個飛機目標樣本。一方面，Pascal VOC 2007數據集中的飛機目標特征與手工建立的數據集中的飛機目標特征具有較強的相關性；另一方面，大規模數據集中不同類型目標的淺層特征，如邊緣、紋理與手工數據集之間具有互通性。因此，本文中沒有從頭訓練YOLO網絡，而是在ImageNet2012及Pascal VOC 2007數據集預訓練的YOLO網絡模型的基礎上，利用手工標注的數據集進行遷移式強化訓練，從而充分利用大規模數據集的優勢，實現飛機目標的高效檢測。

4.3.3 擴充樣本監督下的強化訓練

為了對預訓練的YOLO網絡進行遷移訓練，將手工標注的飛機目標樣本與Pascal VOC 2007原有的飛機目標樣本的類別屬性設置為一致，將預訓練的模型權重參數載入到圖10所示的YOLO網絡模型中，進而借助手工標注的飛機目標樣本集對預訓練的網絡模型進行遷移訓練與權重微調，其離線監督遷移強化訓練過程的性能進化曲線如圖12所示。

圖12(a)中曲線代表預報邊界框的置信度誤差Econf，用于衡量預報邊界框內是否存在目標及預報邊界框與真實邊界框之間的重合度，其測算表達式為

(5)

圖12(b)中曲線代表識別誤差Eclass，用于衡量中心落在第i個單元格內的目標是否屬于正確的類別，識別誤差表達式為

(6)

圖12 YOLO網絡性能進化曲線Fig.12 Performance evolution curves of YOLO networks

圖12(c)中曲線代表定位誤差Ecoord，用于衡量預報邊界框的定位精度，定位誤差的測算表達式為

(7)

圖12(d)中的總體誤差為以上3類誤差的總和，表達式為

Etotal=Econf+Eclass+Ecoord

(8)

在遷移式強化訓練過程中利用Adam算法對網絡模型參數進行更新。經過10萬次訓練，基于擴充樣本遷移式強化訓練的YOLO網絡模型趨于收斂。

4.4 YOLO網絡飛機目標檢測時效性能評估

在大幅面遙感圖像停機坪與跑道其余分割的基礎上，對候選檢測區域圖像進行強化處理，只保留停機坪與跑道區域的像素值，而將背景區域的像素值置0。根據式(9)對強化圖像進行尺度取整歸一化處理，并利用三線性插值對圖像進行分辨率提升。

(9)

式中：符號「·?代表向上取整；wori、hori與wnew、hnew分別為遙感圖像原始及調整后的寬度與高度。

整幅遙感圖像被切分為448像素×448像素的標準塊子區域，進而借助遷移式強化訓練YOLO網絡模型對每一個標準塊子區域進行飛機目標檢測。將包含飛機目標檢測結果的標準塊圖像進行重新拼合，最終得到遙感圖像飛機目標的檢測與定位結果。

通過與R-CNN、Faster R-CNN算法進行檢測時間開銷對比，驗證遷移式強化訓練YOLO網絡的時效性，實驗結果如圖13所示。對實驗結果進行統計，得到3種對比算法的平均檢測時間開銷如表3所示。

圖13 飛機目標檢測的時間開銷對比Fig.13 Comparison of time cost for aircraft target detection

從表3中可以看出，相比R-CNN以及FasterR-CNN算法，YOLO網絡在檢測速度上具有明顯優勢，能夠為大幅面遙感圖像飛機目標的實時檢測提供有力支持。圖14展示了基于不同算法的飛機目標檢測結果，其中每行的4幅圖像均拍攝于4個不同的機場。

表3 飛機目標平均檢測時間開銷對比Table 3 Comparison of average time cost for aircraft target detection s

圖14 飛機目標檢測結果對比Fig.14 Comparison of aircraft target detection results

5 基于搜檢級聯的飛機目標高效檢測

候選檢測區域的高效分割及目標的快速定位是大幅面遙感圖像飛機目標實時檢測的2個必要環節。本節對搜索與檢測的級聯組合式檢測方案的必要性與可行性進行了分析，借助DNN網絡性能優勢的互補與強化，最終形成級聯組合式飛機目標高效檢測算法。

5.1 搜索與檢測的綜合集成

在大幅面遙感圖像中，飛機目標所占像素比例小，信噪比低，為了實現飛機目標的高效檢測，必須對停機坪與跑道等候選檢測區域進行分割和提取，縮小飛機目標的搜索范圍，從而提高檢測效率。同時，候選檢測區域的分割和提取也能夠避免背景目標引發的虛警，提高飛機目標檢測精度。因此，搜尋與檢測的級聯組合對于大幅面遙感圖像飛機目標的實時檢測是必要的。

借助深度學習及高性能的端到端DNN網絡模型，可以實現停機坪與跑道區域的精準分割，相比經典的圖像分割算法，DNN網絡在分割精度與速度上具有顯著優勢。進而，對停機坪和跑道區域分割圖像進行取整歸一化處理與標準塊切分，借助遷移式強化訓練YOLO網絡模型對每一個標準塊圖像進行飛機目標檢測，再將包含飛機目標檢測結果的標準塊圖像按照原先的空間順序進行拼合，最終得到遙感圖像飛機目標的檢測結果。搜尋與檢測的級聯組合能夠滿足大幅面遙感圖像飛機目標檢測實時性與精確性的應用需求，因此該方案是可行的。

5.2 級聯組合式飛機目標高效檢測算法

根據第3、4節所述內容，給出級聯式飛機目標高效檢測算法。

輸入：原始遙感圖像Iori。

輸出：飛機目標檢測結果Iresult。

初始化：原始遙感圖像的長寬w,h。

步驟3將原始遙感圖像Iori輸入到Model1中得到機場分割圖像Iairport。

在級聯式飛機目標高效檢測算法中，候選檢測區域的高效搜尋與飛機目標的精準定位分別采用了不同的DNN網絡予以實現。在網絡模型的離線監督訓練上，停機坪與跑道區域分割DNN網絡選擇了完整訓練的方式，而在飛機目標檢測中，則借助YOLO網絡的遷移式強化訓練彌補了手工數據集數據規模上的不足。由于YOLO網絡模型圖像處理尺寸的限制，在算法中采用了先切分再拼合的檢測策略，而小范圍的圖像調整對于大幅面遙感圖像中目標的形變影響較為微弱，同時也可以借助大數據集數據規模與樣本類型多樣性的優勢進一步提高飛機目標檢測的結果。

6 綜合實驗與性能分析

本節利用實際的大幅面遙感圖像對級聯式飛機目標高效檢測算法進行綜合實驗驗證。在實驗中，借助精確率、漏檢率及時效性，與R-CNN、Faster R-CNN的目標檢測算法進行對比分析，驗證本文算法的有效性。

6.1 數據庫與實驗平臺

實驗采集了40幅可見光遙感圖像作為測試集，圖像大小均為4 480像素×4 480像素。數據集涵蓋了轟炸機、預警機、運輸機、戰斗機等多種機型、多種尺寸大小的飛機目標。實驗硬件平臺由一顆Nvidia Tesla M60 GPU提供運算加速。實驗軟件平臺為Python 2.7.13，深度學習框架為基于TensorFlow 1.02的Keras 2.0.9。

6.2 實驗框架設計與參數設置

為了對本文算法的精度和效率進行綜合分析與性能評估，設計綜合實驗框架如下：首先，利用R-CNN、Faster R-CNN及YOLO算法在原始遙感圖像及停機坪與跑道區域分割圖像中分別進行飛機目標檢測實驗，對比相同算法在停機坪與跑道區域分割前、后飛機目標檢測的精確率、漏檢率及時間開銷3個性能指標的差異，驗證基于DNN網絡的停機坪和跑道飛機目標候選檢測區域分割對于檢測性能提升的有效性。然后，對R-CNN、Faster R-CNN及YOLO算法的檢測結果進行橫向對比，驗證YOLO算法在檢測時效性方面的優勢。在所有實驗中，輸入的原始遙感圖像大小為4 480像素×4 480像素。整幅圖像被切分為100個標準塊子區域分別進行檢測，然后按照原先的順序進行拼合，最終給出飛機目標檢測的最終結果。

6.3 實驗結果與性能評估

在綜合實驗中，借助LS-RSIASNN網絡對停機坪和跑道區域進行分割提取，不同算法進行飛機目標檢測的實驗結果如圖15所示。從飛機目標檢測結果的對比中可以得知，停機坪與跑道區域的精確分割可以大幅減少背景區域帶來的虛警干擾。從圖15(c)、(e)、(g)三幅圖像可知，R-CNN、Faster R-CNN及YOLO算法在停機坪與跑道區域之外都檢測到了大量的虛警目標。與之相比，圖15 (d)、(f)、(h)三幅圖像只對停機坪與跑道區域內的飛機目標進行檢測，因而大幅減低了虛警發生的概率。

為了對檢測結果進行定量分析，對R-CNN、FasterR-CNN及YOLO算法的精確率、漏檢率及時間開銷進行了對比，其中精確率P、漏檢率M表達式為

(10)

(11)

式中：Nreal為預測正確的飛機目標數量；Nfalse為虛警目標數量；Nmiss為未檢測到的飛機目標數量；Ntotal為飛機目標的總數。精確率P反映了所有檢測目標中真實飛機目標正確檢測數所占的比例，而漏檢率M反映了真實飛機目標的漏檢數量占真實飛機目標總數的比例，實驗結果如表4所示。

從表4中可以看到，停機坪和跑道區域的精確提取減少了無關區域虛警目標的干擾，3種飛機目標檢測算法的精確率均得到了明顯提升。在漏檢率上，Faster R-CNN相比YOLO和R-CNN算法具有一定優勢，其主要原因在于：Faster R-CNN算法中，在特征圖的每個像素點上會生成9種不同大小和寬高比的預測框對可能出現的飛機目標線索區域進行判定。與之相比，YOLO算法在每個單元格區域內只生成2個候選的預測框，而R-CNN算法利用選擇性搜索判斷目標可能出現的潛在區域，因此Faster R-CNN算法的RPN網絡在飛機目標線索的數量上具有一定優勢，可以減少飛機目標漏檢情況的發生。然而，過多的目標線索也會增加檢測時間的開銷。通過3種算法的對比可以看到，YOLO算法的檢測效率相比Faster R-CNN及R-CNN算法有明顯優勢，同時在精確率和漏檢率上也能保持在滿意的水平。搜尋與檢測相集成的級聯組合式飛機目標檢測方案的有效性得到了充分驗證。

為了增強YOLO算法在漏檢率上的性能表現，一方面可以縮小單元格區域的面積，提高算法對小尺度飛機目標的檢測效果，另一方面也可以增加每個單元格區域候選預測框的數量，從而減少飛機目標漏檢情況的發生。

6.4 述評與注解

候選檢測區域的精準分割及高效的目標檢測算法是實現大幅面遙感圖像飛機目標實時檢測的必要環節。借助DNN網絡對復雜外型的停機坪和跑道區域實施精準分割，GPU單元提供的運算加速，使得DNN網絡在分割速度上能夠保持明顯優勢。YOLO算法將目標定位和目標類型判別合并為一個回歸問題進行求解，相比R-CNN及Faster R-CNN算法具有更強的時效性，同時在檢測精度上也能保持在滿意的水平。因此，本文提出的搜尋與檢測相集成的級聯式飛機目標高效檢測算法在大幅面遙感圖像的飛機目標檢測中具有較強的綜合優勢。

7 結論

本文提出了一種新穎的搜尋與檢測相集成的級聯式飛機目標高效檢測算法，以實現大幅面遙感圖像中飛機目標的高效精準檢測與定位。算法將候選檢測區域的高精度分割及面向候選區域的目標高效檢測級聯為統一的整體，通過高性能的DNN網絡的相互協作，實現優勢互補與增強。級聯組合式目標檢測算法在檢測的時效性上具有較為明顯的優勢，同時在檢測精度上也能達到較高水平，能夠為大幅面遙感圖像飛機目標的高效檢測與定位提供有效幫助。在后續的工作中，計劃將基于深度學習的視覺注意力機制引入到算法中，從而實現更大幅面遙感圖像停機坪與跑道區域的快速定位與分割，使算法的實用性得到進一步的提高。