管秀云,史 超,崔令飛,修全發(fā),李 理
(1.中國兵器工業(yè)標準化研究所,北京 100089;2.中國兵器工業(yè)計算機應用技術研究所,北京 100089)
在現代戰(zhàn)場環(huán)境中,無人機、高精度衛(wèi)星等各類尖端偵查設備的廣泛應用已經積累了海量的目標圖像,如何有效利用這些圖像素材以及獲取目標關鍵信息,以便在未來戰(zhàn)場中能夠智能識別可疑目標、定位敵我已經成為軍事領域的研究熱點。本文提出了基于海量數據和深度學習的戰(zhàn)場可疑目標智能識別與跟蹤框架,包括人臉檢測與識別、裝備目標檢測與識別以及可疑目標跟蹤等模塊。人臉檢測與識別基于MTCNN檢測人臉位置以及人臉中左眼、右眼、鼻子、左嘴角、右嘴角等5個關鍵點;裝備目標檢測基于YOLO v3對裝備目標進行位置檢測和目標識別;可疑目標跟蹤基于BACF算法對標記的可疑目標進行目標跟蹤。通過對人臉檢測與識別、裝備目標檢測與識別和可疑目標跟蹤等模塊構成的智能識別與跟蹤框架進行研究,達到對戰(zhàn)場典型目標的快速檢測與識別以及對標記的可疑目標進行跟蹤的要求。
人是構成戰(zhàn)場情報的最重要因素,設計基于人臉識別的智能算法對敵進行人臉檢測和識別,可以統(tǒng)計敵方人數,獲得敵方信息,確定敵方位置,了解敵人分布態(tài)勢等。人臉檢測與識別子模塊基于MTCNN進行人臉檢測與對齊,基于FaceNet進行人臉識別,分類器選用了性能較好的隨機森林算法。
Multi-task Cascaded Convolutional Networks(MTCNN)[1]為多任務級聯(lián)卷積神經網絡。它通過三階的級聯(lián)卷積神經網絡對任務進行從粗到細的處理,每個階段的網絡都是一個多任務網絡。處理的任務包括3個:人臉/非人臉判定、人臉框回歸和特征點定位。人臉/非人臉判定采用cross-entropy損失函數,人臉框回歸和特征點定位采用歐式距離損失函數。定義其損失函數表達式分別為:
為應對人臉目標不同尺度的問題,圖像輸入調整成為多個尺寸。第1階段,通過一個淺層的CNN快速生成候選窗口,該CNN全部由卷積層構成,取名P-Net,獲取候選人臉窗口以及人臉框回歸向量。
第2階段,通過一個更復雜的CNN否決大量非人臉窗口,從而精簡人臉窗口,取名R-Net,第1階段輸出的候選窗口作為R-Net輸入,R-Net能夠進一步篩選大量錯誤的候選窗口,然后再利用人臉框回歸向量對候選窗口做校正。
第3階段,使用更復雜的CNN進一步精簡結果并輸出5個人臉特征點,與第2階段類似,但是這一階段使用更多的監(jiān)督識別人臉區(qū)域,而且網絡能夠輸出5個人臉特征點位置坐標。P-Net、R-Net和O-Net 3個階段的網絡結構如圖1所示。

圖1 P-Net、R-Net、O-Net網絡結構圖
FaceNet[2]可以直接進行端到端學習,通過獲得圖像空間到歐式空間的編碼方法,然后基于該編碼再進行人臉識別、人臉驗證和人臉聚類等任務。目標函數采用三元組的表示方法,同時優(yōu)化了2種策略:線下數據集每N步生成一些三元組;線上生成三元組時,在每一個mini-batch中選擇難以確認的正負樣例。目標函數表達式為:
FaceNet采用了2種網絡模型作為線下的訓練模型,第1種模型為NN1的網絡結構,共有22層,140萬參數需要訓練;第2種網絡結構采用了GoogLeNet的Inception結構,并且減少了模型的大小,形成了NNS1(2 600萬參數)和NNS2(430萬參數)。整體網絡結果如圖2所示。

圖2 FaceNet網絡結構示意圖
隨機森林[3](Random Forest, RF)是Bagging的一個擴展變體。隨機森林在以決策樹為基分類器構建Bagging集成的基礎上,進一步在決策樹的訓練過程中引入了隨機屬性選擇。在隨機森林中,對基決策樹的每個結點,先從該結點的屬性集合中隨機選擇一個包含k個屬性的子集,然后再從這個子集中選擇一個最優(yōu)解屬性進行劃分。參數k控制了隨機性的引入程度:若令k=d,那么基決策樹的構建與傳統(tǒng)決策樹相同;若令k=l,則隨機選擇一個屬性用于劃分,在一般情況下,取值k=log2d。
裝備是戰(zhàn)場環(huán)境中重要的組成部分,設計基于YOLO v3的目標檢測與識別模塊,可以快速偵測到戰(zhàn)場環(huán)境下使用的主戰(zhàn)坦克、步兵戰(zhàn)車、火箭炮等多類別典型陸戰(zhàn)武器裝備。圖像特征提取使用了基于卷積神經網絡的Darknet,目標檢測與識別基于YOLO的第3個版本——YOLO v3,能夠實現復雜戰(zhàn)場背景下實時的裝備目標檢測與識別。
YOLO v3[4]沿用了在YOLO v2中的Darknet作為圖像特征提取網絡,并且網絡深度由YOLO v2中的19層增加到53層。Darknet-53采用全卷積形式替換掉Darknet-19中的最大池化層,引入ResNet中的residual結構用來減少網絡太深而出現的梯度彌散問題。最終得到的特征提取網絡為Darknet-53,包含了52個卷積層和1個平均池化層。網絡共使用了包含不同數量和的卷積層構建了23個residual結構,借鑒了Network in Network的思想,最后使用了全局平均池化進行預測,每個卷積層使用批量歸一化操作并且去掉了dropout操作,沒有出現過擬合現象。Darknet-53與Darknet-19、ResNet-101、ResNet-152的性能對比見表1,Darknet-53的Top-1和Top-5的準確率分別為77.2%和93.8%,分別高于Darknet-19的74.1%和91.8%,同時比ResNet-101和ResNet-152更加有效率。性能測試實驗中,GPU均為Titan X,圖像的輸入尺寸均為256×256。

表1 Darknet-53與Darknet-19、ResNet的性能對比
YOLO v3檢測網絡以Darknet-53為基礎模型進行特征提取,并對網絡結構進行相應修改,Darknet-53只是作為圖像特征提取網絡,將原網絡的最后一層Avgpool去掉,使得最后的卷積層可以有更高分辨率的特征。和YOLO相比,該結構移除了全連接層,整個網絡均為卷積操作,保留了空間信息,最終得到的每個特征點與原圖中的每個網格一一對應;和YOLO v2相比,不同于它采用pooling層做特征圖的降采樣,眾多的3×3卷積增加了通道的數量,1×1卷積可以有效提高壓縮3×3卷積后的特征表示信息。YOLO v3同樣借鑒了Faster R-CNN中的anchor思想:使用k-means算法對數據集中的目標進行維度聚類,確定anchor的大小和數量,YOLO v3共使用了9個anchor。并且沒有采用標準k-means算法中的歐式距離來衡量差異,定義了新的距離公式:
d(box,centroid)=1-IOU(box,centroid)
YOLO v3中目標物的邊框由bx、by、bw、bh共同決定。tx、ty、tw、th分別表示模型預測的中心點位置坐標、寬和高,cx和cy表示目標物中心點所在網格的坐標,pw和ph表示先驗邊框的寬和高。則目標物的邊框為:
bx=σ(tx)+cx
by=σ(ty)+cy
bw=pwetw
bh=pheth
YOLO v3中采用每隔訓練幾輪就改變輸入圖像尺寸的方式,以使模型對于不同尺寸的圖像具有穩(wěn)健性,同時這種操作也加強了對于小目標檢測的精確度。YOLO v3采用上采樣和融合方法,可以在多個尺度的特征圖上進行檢測。模型對于小尺寸的輸入處理速度更快,因此YOLO v3可以按照需求調節(jié)速度和準確率。
YOLO v3與其他目標檢測框架性能對比見表2。
傳統(tǒng)教學模式的出發(fā)點,在教學中忽視了學生的主體地位,沒有很好地解決“學生如何去學”這一問題,導致學生在被動學完課程后仍不能熟練地綜合應用課程的內容、原理和方法。學生主動性不足,必然導致學習效率不高。

表2 目標檢測框架性能對比
基于BACF算法對于戰(zhàn)場出現的可疑目標進行標記,然后對標記目標進行實時跟蹤。
Background-Aware Correlation Filters(BACF)是Hamed Kiani提出的基于HOG特征的目標跟蹤算法。采用較大尺寸檢測圖像塊和較小尺寸濾波器提高真實樣本的比例,濾波器填充0以保持和檢測圖像一樣大。算法為最小化目標函數:
式中,P是一個D×T的二值矩陣;xk∈RT;y∈RT;h∈RD且T?D。目標函數可以用下式表示;

采用ADMM算法可以近似得到g和h的最優(yōu)解,分別為:

目標智能識別與跟蹤框架包括人臉檢測與識別、裝備目標檢測與識別和可疑目標跟蹤等3個模塊。人臉識別、裝備檢測與識別采用線下模型訓練與線上模型調用相結合的方式,用于識別數據庫中已經存儲的人物目標和主戰(zhàn)坦克、步兵戰(zhàn)車以及火箭炮等各式陸戰(zhàn)裝備。人臉檢測與可疑目標跟蹤采用無監(jiān)督的方式,直接進行線上人臉的檢測與被標記可疑目標的跟蹤。框架各模塊之間的關系如圖3所示。

圖3 智能檢測與識別框架模塊圖
人臉檢測基于MTCNN中P-Net、R-Net和O-Net 3個網絡;人臉識別基于FaceNet網絡結構,并且使用FaceNet在2個龐大的數據集Wild和YouTube Faces上訓練的模型參數作為初始參數,以采集到人臉圖像作為訓練集進行訓練;裝備目標檢測與識別以YOLO v3在CoCo數據集上訓練的模型參數作為初始參數,以采集到的主戰(zhàn)坦克、步兵戰(zhàn)車和火箭炮等圖像作為訓練集進行訓練;可疑目標跟蹤基于BACF算法不斷更新帶有拉格朗日乘子的目標函數,得到最優(yōu)的和,達到線上實時的目標跟蹤策略。智能識別與跟蹤框架算法流程如圖4所示。

圖4 智能檢測與識別框架算法流程圖
裝備目標圖像庫通過互聯(lián)網爬取了20種主戰(zhàn)坦克、步兵戰(zhàn)車和火箭炮等陸戰(zhàn)主要裝備的圖像;人臉目標圖像庫通過互聯(lián)網爬取了10位在戰(zhàn)爭片中飾演士兵的角色人臉進行仿真試驗,每一個角色選取不少于300張人臉圖像構成訓練集。裝備目標圖像利用圖像增強技術進行數據集的擴充,所采用的方法包括水平翻轉、一定程度的位移和翻轉,添加椒鹽噪聲、高斯噪聲以及改變圖像的對比度、亮度等[5]方式,達到增加圖像訓練樣本的目的。
基于數據增強技術[6],裝備目標圖像擴充至20種,每種200張圖像;人臉識別圖像為10種,每種3 000張圖像。訓練模型使用單GPU,型號為GeForce GTX 1070,顯存為8G,CPU型號為Inter(R) Core(TM) i7,操作系統(tǒng)為Windows 10,深度學習框架為TensorFlow和Kreas。
4.3.1 人臉檢測與識別
人臉檢測使用Opencv讀取圖像或者從攝像頭讀取視頻幀,基于MTCNN網絡對圖像中的人臉進行檢測,在自然光環(huán)境下,可以做到人臉表情變化更具有魯棒性,同時內存消耗不大,可以實現實時人臉檢測。也可以將人臉中眼睛、鼻子、嘴巴等5個關鍵點進行標記。人臉檢測結果如圖5所示。

a) 多人人臉與關鍵點檢測

b) 單人人臉與關鍵點檢測
人臉識別采用仿真實驗數據,獲取訓練集同樣基于MTCNN[7]網絡,并且將獲得的人臉圖像剪裁至,以適應FaceNet的輸入,采用FaceNet[8]已經訓練好的模型參數為網絡初始參數,MTCNN中3個階段P-Net、R-Net和O-Net分別設置閾值,同時設置和的2個參數,分類器采用隨機森林算法,設置樹的棵數為300。數據集采用五折交叉驗證的方式進行驗證。取10%作為測試集進行測試,準確率能夠達到94.76%。人臉識別結果如圖6所示。

a) 有迷彩遮擋人臉識別
由圖6可知,王寶強在電視劇《士兵突擊》中飾演軍人許三多,許三多是10位訓練集人物中的一位,將其他王寶強的圖像輸入到訓練好的模型中,同樣可以進行人臉識別,說明模型具有不錯的泛化能力。
4.3.2 裝備目標檢測與識別
采用YOLO v3網絡對裝備目標進行檢測與識別,設置網絡參數為score=0.01,iou=0.5,batch=64,learning_rate=0.000 1等,anchors采用YOLO v3默認的9個anchors的大小,分別為:
(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326)
當網絡迭代次數超過2萬次時,各個參數變化基本穩(wěn)定。隨著迭代次數的增加,類別準確率和召回率逐漸接近于1,平均重疊率穩(wěn)定在0.83。從各參數的收斂情況來看,網絡的訓練結果比較理想。裝備目標檢測與識別的部分結果如圖7所示。

a) 99A主戰(zhàn)坦克檢測

b) T-90主戰(zhàn)坦克檢測

c) ZBD-04步兵戰(zhàn)車檢測

d) M1A2坦克檢測
4.3.3 可疑標記目標跟蹤
對測試視頻選取第1幀圖像作為基準,對可疑目標進行標記,基于BACF算法[9]對測試視頻中的被標記目標進行跟蹤。在10個10 s測試視頻中,跟蹤準確率為80%,輸出速率為18 fps。對視頻3選取第10幀、第167幀、第330幀輸出如圖8所示。

a) 第10幀

b) 第167幀

c) 第330幀
本文將人臉檢測、人臉識別、裝備目標檢測與識別、可疑目標跟蹤等子模塊融合構造戰(zhàn)場可疑目標智能識別與跟蹤框架,對戰(zhàn)場圖像情報的獲取與積累具有一定的意義。本文所構造的人臉識別和裝備識別模型具有較好的準確率,能夠滿足不同光照條件、不同環(huán)境下的目標檢測與識別。但是本文也存在一些不足,例如,無法識別較模糊的人臉以及在較復雜背景下會跟丟標記的可疑目標,這都是今后需要研究的方向。