侯毅葦,李林漢,王 彥
(1.河北金融學院, 大數據科學學院,河北 保定 071051; 2.河北金融學院, 金融創新與風險管理研究中心,河北 保定 0710051; 3.中國電子科技集團公司第五十四所 信息傳輸與分發技術重點實驗室,河北 石家莊050081)
關鍵字:目標識別;紅外顯著性;目標導引;深度學習;YOLO-V3;智能裝備
隨著新軍事變革的不斷推進和發展,戰場形態將走向智能化與信息化,主要作戰方式也朝著整個武器裝備體系間的對戰發展,未來裝備對于目標自主捕獲功能的需求越來越迫切[1]。然而,現有裝甲裝備火控系統大多數采用人為指定目標,啟動跟蹤器實施對特定目標的跟蹤,無法對可能出現的威脅目標進行檢測與識別。因此,如何提高火控系統的目標自主/半自主識別性能將是未來智能裝甲裝備的發展方向[2]。
目標自主檢測與識別是指利用機器學習及人工智能方法在圖像中自動獲取目標類別和位置。現有的方法大都是對典型目標,如飛機、來襲導彈、艦船、橋梁等進行識別。在實戰環境下,實時預警檢測系統需要具備復雜背景中廣域目標探測與識別[3]。由于缺乏目標的先驗信息,現有算法存在虛警率高、實時性偏低等問題,限制了實戰環境下的廣泛應用。迄今為止,國內外廣域目標檢測與識別項目仍然處于試驗階段,還沒有軍品上可靠的型號產品,迫切要求研究大范圍遠距離成像條件下的穩健目標檢測識別算法。
眾所周知,復雜背景下自主識別能力和實時性成為制約人工智能技術實用性的關鍵。現有的大多數算法是利用低層次特征進行支持向量機(Support Vector Machine,SVM)分類。文雄志等人提出了一種基于河流先驗信息的橋梁識別方法,該方法利用橋梁大概率位于河流之上的先驗信息,通過提取河流上的疑似區域特征,然后通過分類器的判斷,實現橋梁的檢測[4]。Yao 等人利用機場跑道特有特征,設計了一種多尺度模式分類方法,能夠從大范圍搜索區域中識別目標[5]。雖然這些方法已經能夠較高精度地識別典型目標,但該類方法對圖像的質量與目標特性要求較高。一旦目標的形狀改變,識別率大大降低。因此,現有的裝備還并不具備完全依靠系統自身識別能力進行打擊。航天九院的出口型“彩虹”無人機仍然是利用數據鏈由人在回路進行目標打擊,其識別系統主要用于輔助識別。目前,以卷積神經網絡為代表的深度學習方法已經在可見光圖像識別領域取得了不錯的成績,從RCNN[6]、SPP-Net[7]、Fast-RCNN[8]、Faster- RCNN[9]、YOLO[10]、SSD[11]、YOLO-v2[12]到YOLO-v3[13]正在逐步刷新目標檢測與識別的精度和速度。與傳統人工設計特征不同,深度網絡通過非線性網絡結構逐層學習潛在特征,獲得目標最本質的特征信息。
由于地面裝備的特殊性,直接將現有模型應用到目標檢測與識別中,效果不太理想。首先,車載裝備需要實時的對目標進行識別,而神經網絡模型復雜度太高,很難滿足實時性的要求;其次,車輛行駛過程的煙塵嚴重影響成像質量,導致目標識別率不高。因此,針對深度神經網絡模型很少直接應用于裝甲光電系統,且實時性較差的問題,本文提出一種結合紅外顯著性目標導引的改進YOLO 網絡的智能裝備目標識別系統,該方法利用紅外與電視的互補特征,通過均值漂移聚類快速地獲取疑似目標,并通過改進的YOLO 模型進行可見光目標識別。實驗仿真結果表明,本文提出的方法對地面目標識別精度較高,能夠用于戰場環境下態勢感知、區域監控及目標打擊應用。
YOLO-v3 網絡是目前目標識別領域較好的一種深度學習模型,該網絡是從YOLO 和YOLO-v2 網絡演變而來[13]。與基于候選區域的深度學習網絡相比,YOLO 網絡將檢測問題轉化為回歸問題,該網絡不需要窮舉候選區域,直接通過回歸生成目標的置信度和邊界框坐標。與Faster-RCNN 網絡相比,大大提高了檢測速度。
YOLO 檢測模型如圖1 所示。網絡將訓練集中的每個圖像分成S×S(S=13)網格。如果真實目標的中心落入網格中,則該網格負責檢測目標的類別。在每個網格中預測出來多個邊界框,并且要為每個預測出來的邊界框評分,以便表示該邊界框完全包含目標的置信度(Confidence),其定義如下:

式中:Pr(object)表示邊界框中包含目標的概率(若存在目標Pr(object)=1,反之等于0);則表示預測結果和基準邊框之間的重疊度(Intersection over Union, IoU)。置信度反映了網格是否包含目標以及預測邊界框的準確性。當多個邊界框檢測到同一目標時, YOLO 使用非最大抑制( Non-Maximum Suppression,NMS)方法選擇最佳邊界框。

圖1 YOLO 模型識別流程Fig.1 Recognition process in YOLO model
雖然YOLO 獲得了更快的檢測速度,但它的檢測準確率不如Faster R-CNN。為了解決這個問題,YOLO-v2 改進了網絡結構,并使用卷積層替換YOLO輸出層中的完全連接層。同時,YOLO-v2 還引入了批量歸一化、維度聚類、細粒度特征、多尺度訓練等策略,與YOLO 相比大大提高檢測精度的其他方法。YOLO-v3 是YOLO-v2 的改進版,通過使用多尺度預測來檢測最終目標,其網絡結構比YOLO-v2 更復雜。YOLO-v3 可以預測不同尺度的邊界框,相比YOLO-v2 能更有效地檢測小目標。
現有的地面裝備光電系統將電視攝像機和紅外熱像儀集成于光電平臺上,通過平臺的轉動對指定區域進行圖像采集,然后送出圖像處理單元進行分析,實現目標檢測與跟蹤,為作戰人員提供精確指示,進而實現對目標打擊[14]。紅外熱像儀可實現廣域遠距離目標搜索,但是獲取的遠距離目標圖像信噪比偏低,不利于目標識別;電視攝像機可以獲取豐富的紋理細節的目標圖像,有利于虛假目標的剔除以及真目標識別。因此,結合紅外和可見光探測器互補思想,利用目標熱特性實現目標定位,再由可見光圖像進行識別,降低YOLO 深度識別網絡對疑似區域識別時間,其系統框圖如圖2 所示。
大多數深度識別網絡在訓練前需要設定初始的目標尺度,近似的尺度將獲得更加準確的位置,使得模型更加容易收斂。目前存在兩類先驗框計算方法:第一種是直接對尺寸大小進行預測;第二種是錨點框(anchor box)候選模板[12]。這兩種方法都是在訓練過程進行尺度微調,但前者受誤差影響較大容易往更大尺度的邊界框變化,后者則不能保證先驗框就是最優尺度,容易陷入局部最小。
為了提取目標,需要從紅外圖像中提取目標像素點,并對像素點進行特征描述,實現特征聚類。為了簡化運算,本文采用均值分割對疑似目標進行粗分割,然后采取均值漂移聚類進行目標定位,最后利用目標的結構特性篩選出待識別的目標。
為了實現目標檢測并定位,需要對疑似目標區域進行聚類分析。在未知目標先驗信息的情況下,本文采用均值漂移算法進行聚類。均值漂移算法(Mean Shift)是一種非參數概率密度估計方法[15],通過逐步密度梯度偏移實現最優聚類,其偏移量定義為概率密度f(x)的局部極大值,也就是概率密度的梯度?f(x)為0 的點。假定d維空間Rd中存在n個樣本點x1,i=1, …,n,在x點的均值漂向量定義如下:

式中:G(x)表示高斯核函數;w(xi)是采樣點xi的權值,w(xi)≥0;h是帶寬,一般設置為30,主要依賴于目標的最小可識別尺寸。由于均值漂移向量Mh(x)指向概率密度梯度方向,其本質是在指定帶寬范圍內尋找最大概率密度函數梯度的收斂點。等式(2)經過變換可重寫為如下等式:

因此,給定一個初始點x,核函數G(x),允許誤差ε=5,若先假定均值漂移算法可以采用交替迭代沿著概率密度梯度的方向不斷移動,最終獲得最優聚類中心。因此,通過對所有像素點進行協同的聚類分析,得到不同的類集合。
由于粗分割與定位獲得了大量疑似目標區域,為了降低識別網絡處理的復雜度,本文采用目標空間結構特性剔除虛假目標。紅外目標空間結構特性往往與形狀特征、大小特征、位置布局特征等有密切關系,是實現主觀視覺判讀和機器解譯分析的主要參考依據。本文采用長寬比與矩形度作為目標的空間幾何特征進行目標篩選。

圖2 紅外目標位置引導下的深度學習目標識別算法框架Fig.2 Framework of deep learning based object recognition guided by the location of infrared object
對典型目標的統計分析表明大多數目標在長寬比與矩形度上符合某個范圍約束,例如:車輛的長寬比一般在2~3,軍用艦船一般大于5,因此結合長寬比能很快排除一些背景干擾,抑制虛警。目標的矩形度用來描述目標形狀的復雜程度,其值越小,表明目標越接近矩形。大多數地面典型目標的形狀都是接近于一個矩形。
通過上述目標幾何結構特征的分析,可以快速剔除虛假目標,為下一步目標識別提供可靠的目標位置,縮小搜索范圍,降低處理時間。
由于YOLO 網絡中存在大量卷積和下采樣操作,在訓練神經網絡的同時降低了特征圖的數量,造成特征信息的損失。因此,為了增強目標特征的表征能力,本文提出采用密集連接神經網絡(Dense Net)[16]來更有效地捕獲特征信息,該策略是利用前饋模式將每個層信息連接到其他層。也就是說,第l層接收前面l-1 層的所有特征圖作為輸入:

式中:x0,x1, …,xl-1是前l-1 層的特征映射的級聯,Hl則是用于處理級聯特征的函數。密集網絡可以減輕梯度消失問題,增強特征傳播,促進特征復用,并大大減少參數數量。雖然密集連接塊的結構使得特征圖得到了重用,但帶來利用率高的同時也導致了越到深層的網絡,特征圖的數量也就越多,計算的內存需求也逐步提升,因此本文采用文獻[16]提出的優化策略進行。
本文提出的改進YOLO-v3 識別網絡仍然是以Darknet-53 為基礎網絡架構,并使用DenseNet 代替具有較低分辨率的原始轉移層,以增強特征傳播,復用和融合,其模型結構如圖3 所示。YOLO-v3 并沒有采用Softmax 函數作為最終的預測分類器,而是采用獨立的邏輯回歸函數(sigmoid 函數)來預測每個邊界框的多標簽分類。也就是說,紅外導引的每個邊界框可以屬于多個類別,如掩體和坦克,此操作對于復雜戰場環境下多目標并存場景是非常有用的。為了滿足多目標識別的需要并驗證算法的有效性,本文對網絡的末端進行了修改,將目標類別的數目改為五類(履帶裝甲、輪式裝甲、人、掩體,靶標)。所有的輸入圖像首先調整為512×512像素,代替原有的256×256像素圖像。然后,改進網絡中的32×32 和16×16 原始轉移層與下采樣層被DenseNet 結構取代。在本文中,傳遞函數Hl使用函數BN-ReLU-Conv(1×1)- BN-ReLU-Conv(3×3),它是卷積算子(Conv),批量歸一化(Batch Normalization,BN),線性整流函數(Rectified Linear Unit, ReLU)的組合。Hl通過對x0,x1, …,xl-1層的數據非線性變換,緩減梯度消失,其中xi由64 個特征提取層組成,每層的分辨率為32×32。特征逐漸前向傳遞,最終得到大小為16×16×1024 的多層次深度特征。
在訓練階段,當圖像特征被轉移到較高分辨率層時,后一特征層將在密集網絡中接收其前面的所有特征層的特征,從而減少特征損失。另外,通過這種方式,可以在低分辨率的卷積層之間實現特征復用,提高特征的表征能力。
為了驗證提出的結合紅外顯著性目標引導的改進YOLO 網絡的目標識別模型,本章將從改進的YOLO 模型性能與識別精度兩方面進行分析。本文實驗環境為:Intel 酷睿i9-9900k @ 3.6 GHz (×8),16 GB×4 (DDR4 3200 MHz),NVIDIA TESLA P100 16G×2,Ubuntu 16.04,64 位操作系統。

圖3 改進的YOLO v3 識別網絡Fig.3 Improved YOLO v3 recognition networks
為了定性定量地評價本節所提出的識別模型的有效性,采用自建數據集和PASCAL VOC 公共數據集進行深度學習訓練和測試。自建數據集是利用中海外九洲(陜西)防務科技有限公司研制的GD/PD-2801A 光電探測設備,其紅外圖像分辨率是640×512,電視圖像分辨率是1280×720。為確保不同探測器獲取圖像場景一致,紅外與電視視場大小調到相同大小,且光軸重合。試驗從外場采集了46280張紅外及其電視圖像,該數據集主要以地面環境下車輛及人員目標的可見光及紅外圖像為主,目標類別數為10。選取32150 幅圖像作為訓練樣本,14130 幅圖像作為測試樣本。標注數據主要采用耶魯大學的Autolable 工具[17],實驗所需訓練圖像均按照PASCAL VOC 2012 數據集格式進行了人工標注。PASCAL VOC 公共數據集是圖像識別和分類領域優秀的數據集,被用來訓練本文提出的YOLO 模型,并驗證模型的收斂性能。
實驗選擇了YOLO-V3[13],Cascaded RCNN[18],R-FCN-3000[19]和RNOD[20]作為對比算法,所有的對比算法都采用作者給出的源代碼或可執行文件,并且都用相同的訓練集進行訓練。本次實驗將從算法的均值平均精度(Mean Average Precision,mAP)、幀率(Frames Per Second,FPS)、IoU 三個方面進行分析。
Faster RCNN、FCN 和 SSD 使用 Inception Resnet-v2 作為特征提取網絡,而本文提出的改進YOLO-V3 識別網絡是以Darknet-53 為基礎網絡架構,其網絡初始化參數如表1 所示。為了提高模型的檢測精度,輸入圖像被調整為 512×512 像素以適應Darknet 框架。動量、初始學習率、權重衰減正則化等參數與YOLO-V3 模型中的原始參數一致;學習速率初始化設置為0.001,然后在訓練到第40000 步后降至0.0001,在50000 步后降至0.00001。訓練過程中的準確度和損失變化如圖4(a)和圖4(b)所示。訓練集與測試集實驗結果表明,本文改進的基于改進YOLO 識別算法具有較高的收斂速度與識別精度。
為解決復雜地面環境下低對比度目標檢測問題,本文提出了一種基于紅外顯著性目標引導的改進YOLO 網絡的智能裝備目標識別方法,該方法利用了紅外與可見光圖像的互補特性,通過疑似目標檢測、多層卷積層特征提取、多尺度置信度模型完成檢測與識別任務。表2 是不同的深度模型對所有測試圖像的定量指標結果,其中mAP 是評價檢測算法對所有類別物體的檢測性能,即所有類的平均正確率(AveragePrecision, AP)的均值。可以看出,Cascaded RCNN通過級聯幾個檢測網絡達到不斷優化預測結果,其檢測網絡是是基于不同IOU 閾值進行訓練,其精度是所有模型中較高的,但實時性太差;RNOD 是兩個全連接層和NMS 模塊引入目標語義模塊中,通過關聯分析提升識別的精度,但該模型容易引起誤判,尤其是針對戶外采集的低質量的圖像,其識別精度較低;R-FCN-3000 是提出了解耦分類支路實現多目標分類,在保證速度(30FPs)的情況下將R-FCN 的分類類別數延伸至3000 類。由于本文類別設置不多,其識別精度與YOLO-V3 相當;本文的算法首先對紅外圖像進行顯著性快速目標導引,利用目標幾何特點,聚類計算目標框尺度;然后使用改進的YOLO 網絡實現目標檢測與識別。實驗結果表明本文提出的模型的識別準確率比YOLO V3 略有提升,但實時性得到了很大的提升。在相同分辨率的情況下,幀頻接近74。

表1 初始網絡參數Table 1 Initialization network parameters

圖4 訓練過程Fig.4 Training process

表2 不同方法的識別準確率Table 2 Different methods of recognition accuracy
圖5是YOLO與本文算法的檢測識別性能的視覺效果,實驗選用了一張具有代表性的圖像進行分析。圖5(a)為YOLO 目標檢測結果,沒有加人紅外位置引導;圖5(b)為本文算法的裝甲目標檢測結果,該方法利用紅外顯著性快速目標導引提供的目標質心位置與目標尺度,右圖是在同分辨率可見光圖像以及在目標位置導引下的深度網絡檢測結果。可以看到本文提出的方法具有較好的性能。為了分析本文所提的算法對戶外場景的識別效果,圖6 是不同識別算法的定性分析結果。本文提出的算法能夠識別場景中的大部分目標,尤其是針對土堆旁邊的士兵也也能準確定位,但也存在將工事識別成城墻的情況;Cascaded RCNN的識別精度較高,主要依賴于該方法對IOU 的自適應分析,目標定位精度高,但也存在識別不全的情況,尤其是將多個坦克識別成一個。RNOD 算法對孤立目標識別精度較高,但對遮擋目標差異較大;R-FCN-3000 能識別圖像的大多數目標,由于關聯性的分析,容易把目標識別成多個目標,例如將裝甲上的附著物識別成人。

圖5 YOLO-V3 與本文算法的檢測識別定性對比Fig.5 Qualitative comparison of detection and recognition performance between YOLO-V3 and the proposed algorithm

圖6 不同算法的識別結果對比Fig.6 Comparison of recognition results for different algorithms
為了提升作戰環境下目標檢測識別的性能,本文提出了一種基于紅外顯著性目標引導的改進YOLO網絡的智能裝備目標識別算法,該算法利用紅外圖像提供目標可能的位置引導可見光圖像中的深度自主學習目標檢測,從而加速檢測的速度。本文提出的改進YOLO-v3 識別網絡是以Darknet-53 為基礎網絡架構,并使用DenseNet 代替具有較低分辨率的原始轉移層,以增強特征傳播,復用和融合。大量定性定量的實驗結果表明,本文提出的模型可以有效地提高現有目標檢測與行為識別網絡的性能。
本文提出的算法僅僅是利用紅外導引下進行自然圖像識別,雖然測試數據集的識別性能較好。然而,本文算法適用范圍較小,不具備全天候全天時的態勢感知、區域監控及目標打擊應用。下一步,項目組將融合紅外與可見光的互補特征,提升算法的全方位泛化能力。