趙佳歡 楊海明 邱令存
上海機電工程研究所,上海 201109
在現代信息化戰爭中,戰術意圖識別是戰場態勢感知的核心內容之一,是指揮員作出決策的重要依據[1-2]。傳統的意圖識別方法需要指揮員結合戰場環境、目標屬性、目標狀態和敵我兵力部署等一系列特征作出判斷。這些特征與意圖之間很難用顯式的數學公式表達,主要依賴于指揮員的經驗知識。隨著現代戰爭中信息規模劇增,傳統的意圖識別方法普遍需要面對信息過載的問題,即面對大量的數據信息,如何選出有用的信息并加以合理的利用。為減少對專家經驗知識的依賴,解決信息過載的問題,需要設計一種高效的智能化意圖識別模型[3]。
基于模板匹配、貝葉斯網絡和證據理論等方法的意圖識別模型普遍存在一些局限性[4-7],比如領域專家知識的顯式表示問題、戰場態勢時序信息處理的問題等。循環神經網絡(Recurrent Neural Network, RNN)是深度學習領域中備受關注的模型之一[8-9],在語音識別、機器翻譯等序列數據處理領域有著廣泛應用。本文以RNN模型為基礎建立戰術意圖識別模型,解決目標特征自動提取、序列數據處理等問題,然后將注意力機制引入意圖識別模型,提出一種融合注意力機制的戰術意圖識別模型,同時在注意力分布計算過程中,設計了新的點積打分函數,減少計算資源的消耗,提升模型訓練時的收斂速度,最后通過仿真驗證了改進后意圖識別模型的有效性。
意圖是指希望達到某種目的的設想和打算[10],而戰術意圖指在某次具體的作戰過程中,為完成某一特定任務而做的基本設想和打算。對敵意圖識別是指根據戰場上我方信息源所獲取的敵方信息,綜合推理判斷出敵方目前的作戰意圖。
圖1為空中目標群及其意圖的層次圖,該圖所含的意圖類型并非空中目標意圖類型的全集,僅是給出了戰場指揮員關注的、對敵我雙方對抗有關鍵作用的意圖類型。需要明確的是,只要是判定來襲目標為敵方軍事單位,無論其是執行何種任務、遂行何種意圖,都會對我方造成一定程度的威脅,唯一的區別在于是直接威脅或是間接威脅。直接威脅意圖會直接導致我方重要目標蒙受損失,間接威脅意圖雖然不會直接造成我方的損失,但是可能會為后續敵方行動提供情報支撐,屬于間接威脅。

圖1 空中目標群/意圖層次分解
戰場上的威脅主要來源于軍事目標,一般認為民用目標不會構成威脅。而軍事目標又可分為獨立目標和集群目標,但在現代信息化戰爭中,多兵種多組織協同作戰能發揮更大的作戰效能,不同意圖的實現需要各類不同戰機編隊配合完成,下面給出幾類常見的戰術編隊:①突擊編隊,主要執行摧毀諸如指揮所、軍用機場等重要預定目標的任務,是實現攻擊意圖的主力,一般由殲轟機、轟炸機、強擊機等組成;②火力壓制編隊,執行反輻射作戰任務,摧毀對手地面防空導彈陣地,由“野鼬鼠”(Wild Weasel)戰機組成,攜帶反輻射導彈;③電子壓制編隊,執行干擾壓制對手地面防空導彈陣地,由電子干擾機組成;④掩護編隊,掩護己方其他編隊在戰區內的活動,由殲擊機和多用途飛機等組成;⑤預警指揮編隊,搜索監視空中目標,指揮并引導己方戰機,由預警機組成;⑥戰術偵察編隊,對重要區域進行偵察,由偵察機組成。
本文以攻擊、偵察和撤退這3大類入手對敵方意圖進行分析。
攻擊是戰場上威脅程度最高的意圖類型。現代戰爭中攻擊任務大致可分為突防攻擊和防區外攻擊。突防攻擊,指突擊編隊在壓制編隊成功開辟空中走廊的前提下,對地面目標實施打擊,一般用于打擊敵方縱深目標;防區外攻擊,指在電子壓制編隊協同下,載機于防區外發射遠程武器進行打擊。遂行意圖需要多兵力多機型編隊合力完成,攻擊意圖一般由突擊編隊、壓制編隊、掩護編隊、預警指揮編隊中的幾種組合完成。
偵察是為了獲取對手相關情報,比如兵力部署、戰斗編成、指揮所位置、武器裝備等關鍵情報,一般于戰斗行動發起前進行。為強調偵察行動的靈活性、隱蔽性,偵察任務編隊一般由偵察機群組成,有時也會攜帶掩護編隊等,具有暴露即退的原則。
撤退是指戰斗單元在執行任務過程中被敵方單位阻截而受損,或完成既定任務后,從作戰區域內退出的行動。
戰術意圖識別過程顯然是非合作式的,敵方必然會隱藏其真實意圖,對戰術意圖的研究必須充分認識其具有的欺騙性和對抗性。傳統意圖識別方法主要依靠指揮員憑借經驗作出判斷,這種方式過度依賴專家經驗知識。戰場上目標種類和數量繁多,戰場數據規模劇增,指揮員在識別意圖的過程中將面臨信息過載的問題。
注意力機制是認知神經學中的概念,是人腦的一種復雜認知機制[11-12]。人腦在同時接受到來自視覺、聽覺等各方面的大量信息時,仍能穩定地工作,是由于注意力機制有意或無意地提取出部分有用的信息進行處理,同時過濾掉冗余信息。
工程實踐中的計算資源通常是有限的,但深度學習模型需要處理大規模數據,如何合理分配有限的計算資源是一個急需解決的問題[13-15]。為此,本文借鑒人腦的聚焦式注意力機制,將其引入基于RNN的戰術意圖識別模型中,使網絡能對輸入信息進行選擇,自動提取目標特征,解決信息過載的問題,提高意圖識別模型的識別準確率。
在注意力機制的計算過程中,主要可分為2個步驟:一是計算注意力分布;二是根據注意力分布,計算所有輸入的加權平均。
1)計算注意力分布
假設有k組輸入信息X=[x1,x2,…,xk]T,其中每個xi,i∈[1,k]都是n維輸入向量,表征意圖識別問題中敵方目標在某一時刻的狀態信息。在意圖識別過程中,并不需要將所有時刻的信息全部完整地輸入到神經網絡中,可以從X中挑選出與意圖直接相關的信息輸入模型。為達到此目的,引入一個查詢向量(Query Vector)表征與意圖的相關,查詢向量可以是動態生成的,也可以是可學習的參數。同時利用打分函數對輸入信息與查詢向量之間的相關性進行評估。
在給定查詢向量q和輸入信息X的前提下,選擇第i個輸入向量的概率αi計算公式如式(1)所示。

(1)
式中:z=i表示選擇被選擇信息的索引值,αi為注意力分布(Attention Distribution),s(xi,q)為打分函數。常用的加性模型打分函數如式(2)所示,
s(xi,q)=VTtanh(Wxi+Uq)
(2)
式中:W,U和V均為可學習參數。
計算打分函數時,加性模型需要計算雙曲正切函數,運算效率較低,為此提出一種點積模型作為新的打分函數,如式(3)所示,
(3)
點積打分函數在實際計算過程中更好地利用了矩陣相乘,避免計算雙曲正切函數可以減少計算資源的消耗,提升模型的收斂速度,進一步提升識別準確率。
2)計算加權平均
式(1)計算得到的αi可以簡單理解為,在給定一個查詢向量q時,第i個輸入向量受關注的程度,接著需要依據αi對所有的輸入信息進行匯總。注意力機制選擇信息的本質是求所有輸入信息在注意力分布上的期望,圖2給出了注意力機制的示意圖。

圖2 注意力機制示意圖
該信息匯總方式的計算公式如式(4)所示。

(4)
循環神經網絡(Recurrent Neural Network, RNN)是一類具有記憶功能的神經網絡,屬于反饋型神經網絡。與前饋型神經網絡相比,RNN與生物神經網絡更為相似。RNN在處理時間序列數據上更有優勢,通過其獨特的循環層結構,時間序列數據可以依據循環輸入網絡,各個時刻隱藏層的輸出不僅與當前時刻的輸入有關,還包含了之前所有時刻的信息。
本文在基于RNN的意圖識別模型的基礎上,引入注意力機制,提高意圖識別模型的性能。意圖識別問題本質上是一個分類問題,當RNN模型用于分類問題時,多采用N-1的拓撲結構,即輸入為N個數據,輸出只選擇最后一步的狀態。圖3給出了按時間展開的N-1型循環神經網絡分類模型。

圖3 按時間展開的N-1型循環神經網絡分類模型
在圖3中,x1,x2和xt分別為各時刻的戰場態勢輸入數據,且有xi∈R1×m,i∈{1,2,…,t},m為輸入數據的維數;s1,s2和st分別是各時刻RNN隱層的輸出狀態,且有si∈R1×n,i∈{1,2,…,t},n為隱藏層神經元數量;ot為最后時刻RNN的輸出,表征目標的戰術意圖,且有ot∈R1×l,l為待分類的意圖類型數量。U和V分別為輸入層與隱藏層之間、隱藏層與輸出層之間的全連接權值矩陣,且有U∈Rm×n,V∈Rn×l;W為隱藏層與隱藏層之間的循環權值矩陣,且有W∈Rn×n。
RNN模型的前向計算過程如式(5)至式(8)所示。式(5)首先計算初始時刻的隱藏層狀態輸出,該狀態僅與初始時刻的輸入x1和權值U有關,
s1=f(x1U+b)
(5)
式中:f為非線性激活函數,本文選擇LeakyReLU函數,該函數的表達式為
(6)
式中:a∈(1,+∞)。
接著是依次順序循環計算各個時刻的隱藏層狀態輸出,該輸出還與上一時刻的隱藏層輸出有關,
si=f(xiU+si-1W+b),i∈[2,t]
(7)
最后依據最后一步隱藏層的狀態向量st與全連接矩陣V可得最終輸出向量,
ot=stV
(8)
結合圖4說明如何將注意力機制應用到基于RNN的意圖識別模型中。該改進的模型與傳統的“N-1型”RNN模型的區別在于,RNN的分類輸出結果不再僅依賴于最后一個時間步的輸出狀態,而是需要對各時間步的輸出狀態依據式(1)計算得到的注意力分布進行加權平均。圖4給出了按時間展開的融合注意力機制的意圖識別模型。

圖4 融合注意力機制的意圖識別模型
該意圖識別模型主要包括數據輸入層、狀態循環計算層、注意力機制作用層、信息匯總輸出層4個主要組成部分。
1)數據輸入層
意圖識別模型需要接收某一時間段內的數據,從而對目標意圖作出判斷。輸入數據主要包括目標距離各重要區域的空間位置信息、速度信息、相對運動信息等多維信息。
假設有m個重要目標可能會遭受敵方攻擊或偵查,敵方航空兵的基本戰術編隊為1.2節所提的6種。結合圖5說明輸入數據具體格式,其中數據的下標表示時間。

圖5 輸入數據格式

數據輸入模型前,還需要對數據進行0-1歸一化預處理,然后將某一段時間內的數據依次循環輸入意圖識別模型。值得注意的是,不同意圖的實現,并非全部具有1.2節所提到的編隊,因此,當某一特定編隊缺失,則將其對應位置信息全部置0。
2)狀態循環計算層

3)注意力機制作用層

4)信息匯總輸出層

該結果可作為后續威脅評估、火力分配等任務的參考因素,也是戰場指揮員全面掌握戰場態勢的有效手段之一。
本小節將對提出的融合注意力機制的意圖識別方法進行仿真驗證。數據來源于某戰場態勢仿真平臺,該平臺設定的空襲作戰樣式來源于海灣戰爭時期轟炸巴格達出動的“Q攻擊編隊”。海灣戰爭是冷戰后有大量高科技武器投入實戰的大規模武裝沖突,其展現了現代高科技條件下作戰的新情況和新特點。“Q攻擊編隊”展示了對防空導彈陣地所掩護目標的典型空襲模式,主要包含了爭奪制電磁權、實施防空壓制、對地攻擊等一系列步驟。
表1給出某次針對地面指揮所的攻擊任務的兵力構成情況。

表1 某次攻擊指揮所任務典型兵力構成
1991年1月19日當天,伊拉克首都巴格達由包括SA-2、SA-6、SA-8在內的各類中近程防空導彈陣地護衛,為簡化分析,假設防御方需要重點保衛的目標為3處,防空陣地若干,戰場位置分布如圖6所示。

圖6 戰場位置分布示意圖
以上述戰場環境為背景,戰場態勢仿真平臺共生成1.04GB的數據,其中包括對指揮所、軍用機場、某特定重要目標進行攻擊或偵查以及撤退這7類意圖。以9∶1的比例將數據劃分為訓練集和測試集,訓練集包含2395400條數據,測試集包含266200條數據。
為保證深度學習模型具備良好的泛化能力,要求數據規模越大越好,但是規模大小是相對的,一般認為數據在百萬條以上或者達到GB量級,就能滿足要求。因此,本文的數據集規模是滿足要求的。
在模型訓練時設置總的迭代步數為200。圖7和圖8給出了引入注意力機制前后,意圖識別模型在測試集上準確率和F1得分的對比,表2給出了意圖識別模型訓練時關于收斂性的參數,表3給出了意圖識別模型各項性能指標的對比。

表2 模型訓練參數對比

表3 引入注意力前后模型各類指標對比

圖7 引入注意力前后模型準確率對比

圖8 引入注意力前后模型F1得分對比
從圖7可以看出,將注意力機制引入基于RNN的意圖識別模型后,模型在測試集上的表現明顯更好,不僅初始的準確率更高,而且更快達到峰值,并且最終的準確率更高。
從圖8可以看出,將注意力機制引入基于RNN的意圖識別模型后,模型初始的F1得分差別不大,但隨著迭代步數增加,改進后的模型F1得分明顯高于改進前的F1得分。
從表2可以看出,改進后的模型在單步訓練耗時上更久,但收斂步數更少,收斂時間更短,收斂速度更快。這是由于在引入注意力機制的過程中,增加了諸如注意力分布、加權平均等額外計算步驟,導致改進后的模型在單步訓練中需要消耗更多的計算資源,但也恰恰因為引入了這些額外計算步驟,使得模型能對目標信息進行有效選擇,去除冗余信息,解決信息過載的問題,用更少的步數達到收斂,使得最終收斂時間比改進前更短,收斂速度更快。
從表3可以看出,改進后的意圖識別模型各項性能指標,包括準確率、精確率、召回率和F1得分,都有不同程度的提升。
從圖9可以看出,由于點積打分函數相較于加性打分函數,更好地利用矩陣相乘,避免計算雙曲正切函數,減少計算資源的消耗,在實際計算中運算效率更高。在應用梯度下降法更新網絡參數時,網絡能以更快的收斂速度達到更高的準確率。說明點積打分函數能進一步提升注意力機制的作用效果,意圖識別模型有更高的準確率。

圖9 改進打分函數前后的模型準確率對比圖
在防空反導作戰背景下,識別敵方來襲空中目標的戰術意圖具有重要意義。本文首先分析了幾類典型戰術意圖類型,然后建立了基于循環神經網絡理論的意圖識別模型,解決傳統意圖識別過程中人工提取特征、時序數據處理等難點,接著引入注意力機制對模型進行改進,提高模型的識別準確率,解決信息過載的問題,最后依據實際戰例數據,通過仿真驗證了融合注意力機制的意圖識別模型的性能。仿真結果顯示,改進后的意圖識別模型在準確率、精確率、召回率和F1得分等各項性能指標上均有不同幅度的提升,且本文提出的將點積模型作為打分函數可以進一步提升注意力機制的作用效果。結果表明,本文提出的融合注意力機制的意圖識別模型,能有效對敵方來襲空中目標的戰術意圖進行準確的識別。