程勇策,鄭 堯,趙 濤
(1.中國電子科技集團第三研究所,北京 100015;2.陸航研究所,北京 101121)
目前,目標檢測能力在光電偵查、光電監視及導航制導等領域的應用受到越來越多的重視[1-3]。單純依靠圖像信息進行檢測方法存在實時性較差、弱小目標檢測困難以及易受環境影響等問題。因此,為獲得更為精確的目標檢測和識別率,光電偵查系統往往采用多光(如可見光和紅外等)架構,或借助激光或毫米波雷達的信息對目標識別進行輔助判別。多源信息融合可以對同一目標進行全面詳盡的描述,異源信息可以提高互補性,增加對圖像理解的可靠性,但這也極大地增加了系統的復雜度。
目前,基于多源信息融合的目標檢測方法受到研究人員越來越多的關注,其更多地應用在自動駕駛和光電監測等領域。卡耐基梅隆大學的Urmson等人[4]在自動駕駛的研究中,提出使用激光雷達和彩色圖像信息融合的目標檢測方法,實現車輛周圍環境的快速感知。
SAIC公司推出了一款光電與雷達融合監控系統[5]。該系統用于地空、海洋、陸地或者岸基警戒等安全領域,可將光電與雷達的數據進行軟件集成,使用導航雷達探測目標后,自動引導光電調整到位進行目標進一步識別。Karpathy等人[6]開展了基于紅外和可見光圖像數據源融合的行人和車輛目標檢測方法的研究,提出了基于孿生深度卷積神經網絡,在不同融合機制下,很好地實現了目標檢測和分類。Zhang等人[7]根據監視臺站長期積累的可見光圖像和紅外圖像,建立了相關多光譜的數據集,利用Matlab的深度學習組件對雙光譜的艦船圖像進行了訓練,并且在可見光圖像無法獲取目標時,利用紅外光譜圖像對目標進行識別。上海大學的奚玉鼎等人提出一種紅外、可見光以及雷達融合探測的低、慢、小目標識別系統,系統可針對海基和岸基的應用進行調整,信息處理系統可以將雷達、紅外及可見光圖像進行融合,實現目標的融合判決。國防科技大學的項目[8]提出以激光雷達和可見光立體視覺為基礎,基于深度學習的方法,實現障礙物識別以及行人和車輛感知。雖然采用多光譜相機或者加裝雷達和激光等設備后,光電監視系統對目標特性的檢測能力大大增強,尤其在距離信息與速度信息提取方面更具有優勢,但是這將大大增加系統的成本,同時,存在系統待處理數據量過大的情況,這也對信息處理硬件的處理能力提出了很高的要求。
本文提出一種基于Dezert-Smarandache(D-S)信息融合理論的目標識別方法。該方法采用了準確率較高且可以在移動硬件端部署的輕量級網絡——MobileNet+SSD的卷積神經網絡作為圖像信息的依據。在該網絡中,通過密集鏈接實現特征層的快速增廣,有效降低了模型的參數數據量,實現了模型的輕量化。該方法借助光電伺服系統提供的目標空間特征,獲取目標的空地位置、角速度及速度等信息,最終采用Dezert-Smarandache理論對識別結果進行融合判決,實現對目標類型(人、車、船及飛機)的檢測和分類。
目前,移動設備端的計算能力很難滿足當前表現較好的目標檢測網絡對計算能力的需求,因此需要對網絡進行結構剪枝和參數蒸餾等操作。MobileNet+SSD系列卷積神經網絡是一種新結構的輕量型目標檢測網絡[9],可以在保持較高檢測準確率的情況下,有效減少網絡中的參數量與計算量。因此本文選取MobileNetV2網絡作為特征提取網絡并進行適當改進。相較于MobileNetV1網絡,MobileNetV2網絡引入了線性瓶頸(Linear Bottlenecks)和 反 向 殘 差 塊(Inverted Residual block)。在網絡輸出維度較小層后,線性瓶頸只采用線性激活函數而非ReLu非線性激活函數,這種改進降低了使用ReLu非線性激活函數造成的信息損失。反向殘差塊的設計采用了先升維、后降維的結構,與傳統的殘差塊先降維、后升維的結構相反。反向殘差的結構可以解決訓練時隨著網絡深度增加而出現的梯度消失問題,使得反向傳播過程中深度網絡的淺層網絡也能得到梯度,使得淺層網絡的參數也可被訓練,從而增加了特征表達能力。MobilenetV2的瓶頸結構如圖1所示。

圖1 MobilenetV2瓶頸圖
瓶頸層中圖像參數的輸入與輸出情況如表1所示。其中,k和k′分別是瓶頸層輸入和輸出圖像的通道數;h和w分別是輸入圖像的高度和寬度,t是擴張系數;s是步長。

表1 MobilenetV2瓶頸層的輸入輸出
瓶頸的設計還采用了反向殘差塊的整體結構模式,特征圖在計算中采用先升維、后降維的策略。本文采用的瓶頸結構如圖2所示。與原網絡不同的是,借鑒在s=1時的殘差連接結構,在輸出特征圖大小一致的瓶頸之間采用圖像拼接代替殘差連接。實驗證明,這樣的結構可以借助特征復用來提升信息和梯度在網絡中的傳輸效率。盡管特征圖拼接會造成瓶頸輸出通道數的快速增加,從而導致網絡參數和計算量的增加,但通過適當降低瓶頸的擴張系數t,可以實現對網絡規模的控制。

圖2 本文的瓶頸結構
在網絡設計方面,本文將Dense-Net的密集連接應用于MobileNetV2+SSD的網絡中。本文的特征提取網絡MobileNetV2沒有采用多個輸出通道堆疊的方式,而是對瓶頸的輸出通道數進行放大,最終實現通道的增長。結構中首先堆疊數個步長為1的瓶頸,并采用密集連接對輸出通道進行拼接,以提高網絡通道數量。同時,為了保證網絡的復雜度與特征提取能力,使用了t=1、s=1的瓶頸和t=1、s=1的瓶頸的組合來完成輸出通道數縮小。改進的MobileNetV2+SSD網絡的結構如圖3所示。
在MobileNet特征提取網絡中,瓶頸結構的拼接在一定程度上可以代替或者部分代替擴張系數對于通道數的擴張作用。本網絡在卷積層較深的位置采用了較小的擴張系數,如第13、14、17及16個bottleneck部分。

圖3 改進的MobileNet+SSD網絡結構
瓶頸參數的計算方法為:

式中:p為網絡參數數量;t為擴張系數;Cin為圖像通道數;Cout為輸出通道數。
MobileNet網絡結構中,關鍵特征提取層對應的輸入輸出參數和計算量如表2所示。改進網絡的參數量為245 864個,較之前的網絡結構參數量減少約17%,計算量減少了約13%。網絡結構經過改進后,計算量與參數量都有明顯的降低。參數與計算量減少的原因為:在原網絡中s=2的瓶頸會對輸出的通道數進行放大,這些輸入經過多層傳遞后必然會產生更多的計算量。而拼接結構s=2的瓶頸的輸出通道數較少,即這些瓶頸內的參數與計算量也較少。通過拼接的方式不會進行多余的計算。
MobileNetV2+SSD網絡結構共有29層網絡結構。其中,MobileNetV2特征提取網絡有17層,其余12層由17層網絡衍生而成,其作用是為SSD提供不同尺度的特征圖。本文沿用了SSD的基礎結構,未對其進行改進。

表2 MobileNet網絡部分計算參數以及計算量
基于伺服信息的目標組分類是通過光學倉伺服控制系統的陀螺和GPS提供的轉臺的方位角度、俯仰角度、相應的角速度以及位置信息來判斷目標的大致類型。由伺服提供的信息和圖像信息,雖然不需要伺服信息和圖像在時間上進行融合,但是需要傳感器和伺服系統在時間上的同步輸出數據。根據伺服系統陀螺儀工作手冊,其采樣頻率為1 000 Hz,圖像傳感器的采樣頻率為25 Hz。以采樣速率慢的傳感器為基準向下兼容,在第40 ms、80 ms、120 ms等時間節點,在伺服和相機報文刷新時,進行信息采集和融合工作。其時間同步如圖4所示。

圖4 伺服和相機時間同步示意圖
基于伺服信息的目標識別流程如圖5所示。首先,根據伺服的GPS信息判斷系統的安裝位置和安裝高度;其次,通過俯仰信息判斷得到觀測物體的大致俯仰陀螺的方位信息(光軸的指向),判斷其為地面物體還是空中物體;最后,通過方位陀螺的角速度信息近似判斷物體的速度。最終形成地面低速、地面高速、空中低速以及空中高速4大類物體特征。
多源信息目標智能判決技術主要通過對圖像識別結果和伺服轉臺信息進行融合判決的形式對目標進行判別,篩選那些判別概率最大的結果。由于低、慢、小目標輻射噪聲的多源信息是在光電探測器和伺服信息在不同機制下獲取的,多源信息之間配準困難,因此,本文采用D-S證據理論的目標融合驗證方法,如圖6所示。
根據D-S判決理論[10],將判決的光電伺服跟蹤目標種類的所有可能結果通過識別框架Θ進行表示,且Θ中的元素是互不相融的,Θ中所有子集為2Θ。定義Θ上的函數m:2Θ→[0,1]滿足:

式中:m(A)為A的基本概率賦值,表示對識別結果A的信任度。空集的信任度為0,識別結果信任度之和為1。
在識別結果中存在子集A滿足m(A)>0,則稱A為識別結果的一個焦元。定義識別框架Θ上的置信函數為B,函數可以表示為:

識別結果的合成規則為:將多個組識別結果轉化為一個融合的識別結論,從而實現多識別結果的融合。即可以通過求解同一焦元的子集基本概率賦值的正交和,求得該焦元的合成概率指派:


圖5 基于伺服信息的目標識別流程

圖6 D-S目標信息判決理論智能判決技術
融合判決對基于伺服信息的判斷設定為:當判定地面低速目標時,該焦元的基本概率賦值設定為0.7,地面高速目標的概率賦值設定為0.3,其他焦元設定為0,其他情況同理。
本文的實驗環境為Linux Ubuntu 18.04系統,核心處理器為Intel i7 9700,內存為16 GB,圖形計算單元為 GTX 1080 Ti,采用 PyTorch1.2,Cuda10.0,Cudnn7.5,用的數據集為COCO 2012數據集中人、車、船、飛機部分數據以及自主采集數據,網絡訓練選擇人、車、船及飛機的圖像各2 000張,測試圖像各200張。
測試的loss曲線如圖7所示。從圖7可以看出,loss曲線在訓練最初下降速度較快,而后loss值變化趨于平緩。改進后,loss平穩后的值與原始網絡相近,說明在對原始網絡的規模進行縮減時并沒有使網絡的訓練變得困難。

圖7 loss曲線
網絡在測試集上的準確率變化如圖8所示。從圖8以看出,在測試集上,改進網絡和原始MobileNetV2網絡在典型圖像場景檢測任務方面都有著較高的準確率。其總體趨勢為:交并比(IoU)越高,召回越低,并且在整個訓練測試中,改進網絡的表現優于原始的MobileNetv2網絡。例如,在召回率為0.8時,改進網絡的IoU提高了約5%。

圖8 網絡在測試集的準確率變化曲線
根據D-S證據理論對外場試驗采集的圖像進行檢測并和伺服參數進行融合判決。僅取圖像檢測時4個結果的可能性作為4個焦元,并將圖像檢測和根據伺服參數估計的結果作為證據信息融合圖像檢測結果,如圖9所示。其中,對圖像9(a)的判決結果如表3所示。針對圖9(b)基于D-S信息融合的伺服空間和圖像信息融合結果如表3所示。可以看到,僅僅依靠圖像信息,汽車的檢測的置信度僅為38%,而飛機的置信度為44%,出現了明顯的判讀誤差。但是根據轉臺提供的空間信息對汽車判別,根據式(4)進行融合判決時,可以看到檢測目標的識別種類為汽車,檢測置信度上升到81%,極大地提高了檢測的準確率。

圖9 圖像融合檢測結果

表3 基于D-S信息融合的伺服空間和圖像信息融合結果
本文提出了一種基于圖像識別信息與伺服系統提供的空間信息相融合的目標檢測和識別算法。該技術的圖像識別算法采用了改進的MobileNetV2+SSD圖像檢測算法,圖像檢測較原MobileNet+SSD網絡計算量降低12%左右,檢測精度最高能達到81%。信息融合采用D-S信息融合方法,對弱小目標的判別準確率可以達到70%,較之前提高21.5%,尤其針對圖像網絡難以識別的小目標,檢測準確率提高明顯。