劉成龍 胡廣朋
(江蘇科技大學計算機學院 鎮江 212100)
隨著人工智能的發展,從貝葉斯估計到近階段的深度學習,軍事智能的指揮決策研究者們在將深度學習應用于自主決策上也展開了許多研究。就目前來說,國內外關于自主決策的方法探討是處于起步階段,絕大部分研究工作采用半監督或監督的深度學習方法,但是數據的缺乏限制了方法后續的發展。雖然之后也有人利用深度學習方法對自主決策進行進一步的研究,但是相關方面的研究也還在理論探索,要想有具體的實際應用,還是要有比較長的路要走。
傳統典型的方法是胡桐清、陳亮等在軍事智能決策的理論與實踐中提出的軍事專家支持系統[1],該系統建立了多條規則和一個定量與定性相融合的有效推演機制,可以自動生成作戰決策的方案,根據方案,能夠幫助指揮員進行決策,但方案需要一定的專業知識,存在一些局限性。朱豐等在對戰場態勢評估的研究討論中[2]利用一系列技術對目的識別、決策推演等多方面展開了研究。李耀宇等曾在國防科技大學學報上發表文章[3],利用逆向強化學習的方法,優化方案,前提條件是不確定條件策略、地形的戰場火力分布。陳希亮、張永亮在基于深度強化學習的陸軍分隊戰術決策問題研究[4]中提出了一種決策框架,利用逆向強化學習在戰場行為決策上收獲頗豐。喬永杰,王欣九,孫亮等提出利用陸軍指揮所模型自主生成作戰計劃時間參數的方法[5],建立服務框架,進而有了自動生成作戰計劃的方案。中科院研制的“SASIA-先知V1.0”在全國兵棋推演大賽上取得了較好的成績,先知V1.0所采用的模型是由知識和數據共同建立的,同時也證明了深度學習在軍事對抗領域大有可為。
文章針對對手行為分析構建預測模型,進而采用基于自適應增強的規劃識別方法,利用此算法能夠將可觀察到的對手行為作為唯一已知條件,實現對目標的預測。該方法對可觀察行為不斷訓練弱預測器,最終組成強預測器。并以aerial bombing operations數據集為例設計實驗,驗證方法可行性。
實現沙盤推演分析的模型如圖1所示。首先策略規劃器將對手的動作或狀態的改變作為觀察對象,推理出對手規劃和所有的目標,不僅如此,策略規劃器會依據預測的對手規劃做出應對動作,然后策略規劃器向動作規劃器下達指令,動作規劃器會依照指令,進行有效的信息決策,接著模型要依據決策進行行為模擬,同時將收集到的有效信息發給動作處理器,動作處理器后續就會將收到的有效信息傳回最初的策略規劃器,達到破壞對手規劃和防御的目的。
規劃識別方法是整個沙盤推演的核心,規劃識別方法是整個行為分析網絡的核心,整個分析過程以特征抽象處理后的數據特征作為輸入,通過識別算法分析尋找異常的操作行為,分析各行為之間相互轉換的概率。在對對手規劃的分析時間,不斷完善規劃應對,達到應對對手規劃的預測識別。

圖1 沙盤推演分析框架
策略規劃器根據對手行為進行的分析會影響規劃識別算法對最終結果的預測,常見的策略規劃器方法主要有隱馬爾可夫、隨機快速搜索樹(RRT)以及Adaptive boosting等。
Adaptive boosting又被稱為自適應增強,其基礎的想法就是利用相同的訓練集去訓練各不相同的弱分類器,接著將這些集合起來,構成一個新的分類器,也稱為強分類器,記為H(x)。定義一個樣本(xi,yi),則訓練樣xi為樣本類別觀測值,yi是xi的樣本類別標識,滿足yi=f(xi),f是要學習的目標概念的集合。各個樣本的權值為D(1),…D(n),D(i)>0,1≤i≤n。

基本過程分為以下幾步:第一,對初始的訓練數據進行賦值,假設存在M個訓練數據,那么每一個樣本的初始權值相同,都為1/M。第二,進行訓練。在過程中,如果樣本被錯誤分類,那么它的權重增加;如果被正確分類,權重減少。權重重新賦值后就會應用于下次訓練,如此迭代下去,第三,將每次迭代得到的分類器融合起來,作為最終的決策分類器,也稱為強訓練器。融合的規則是損失函數(loss function)最小化原則,按照此函數的負梯度方向不斷地循環。定義在第t輪迭代時,第i個訓練樣本(xi,yi)的權重分布為Dt(i)。弱學習算法的任務就是根據訓練樣本的分布及權重Dt完成一個弱分類器ht:X→R的學習,最簡單情況下ht是二值的,好壞由誤判率εt進行衡量。

經過T次訓練學習后,得到一系列弱分類器h1,h2,h3,…,hT。可以用累加模型來定義強分類器:

其中,x是特征向量;ht(x)是第t次迭代得到的弱分類器;αt是ht(x)的權重。AdaBoost的核心思想就是按照損失函數的負梯度方向不斷地循環,融合迭代所得到的分類器,指數損失函數為

其中,t,y分別為循環更新次數和種別標記,通過不斷地更新權值,求得最終強分類器的最優解。
針對于復雜的沙盤推演環境,文章提出基于自適應增強的的規劃識別方法(Adaptive Boosting Planning Recognition,ABPR)。自適應增強算法的核心思想是重視誤差大的學習樣本,改變其分配權重并再次進行訓練,得到多個誤差較小的弱預測器,再組成一個強預測器。根據自適應增強算法的原理,將規劃識別方法看作弱預測器。首先用規劃識別算法對樣本不斷的訓練,如果得到的預測誤差不在范圍之內,那么對該樣本重新賦值,并計算第t個規劃識別弱預測器的權重,得到T個規劃識別弱預測器、權重,將得到的權重進一步融合,得到一個強預測器,利用最終預測器,輸出規劃預測。
ABPR方法在沙盤推演中的應用主要由數據預處理過程、分析模型建立并調整模型參數、識別判斷當前的對手規劃和對敵意規劃的預測四個部分組成。在本文提出的方法中,首先對選用的數據集進行數據預處理,包括對冗余信息的刪減和不規范數據的規范化;然后將數據集作為Agent的行為進行觀察并對分析模型進行優化;接著輸入一組對手行為數據,提取領域中的(近期、中期或者遠期)目標,將這些目標分解以降低其抽象層,并將其擴展進規劃中,重復這樣的動作確定具體動作,直至規劃中只存在原始動作。最后預測層對概率值最大的數據序列做狀態信息的預測,獲取對行為的預測值。如在沙盤推演中,占領對手領地這個目標是明確的,因為占領陣地明確指出,但是何時占領、如何占領等問題沒有具體描述,假設給定以下前提條件:有足夠的兵力,并且已經在對手陣地,那么利用兵力占領陣地就可以直接執行,這是一個具體操作。
根據以上分析,自適應增強改進的規劃識別算法預測具體步驟如下。
1)導入數據樣本,初始化樣本權重。

其中,Di是初始權重;m是樣本個數。
2)設置要訓練的規劃識別弱預測器個數T和模型結構,用規劃識別算法對樣本不斷的訓練。
3)計算規劃識別弱預測器預測訓練樣本的預測誤差ec。
4)將預測誤差ec與預設誤e進行比較,調整訓練樣本權重Di。
5)計算第t個規劃識別弱預測器的預測誤差:

6)計算第t個規劃識別弱預測器的權重:

其中,Ct是第t個規劃識別預測器權重;et是第t個規劃識別預測器的預測誤差。
7)計算下一輪迭代時訓練樣本的權重:

其中,Bt是歸一化因子。
若未達到迭代次數,返回第2)步,進行下一次迭代,直到迭代T次后,停止訓練。
8)輸出強預測器。經過T次訓練后,生成T組弱預測函數ft(x)根據權重分布組合生成強預測函數:

其中,F(x)是強預測函數,ft(x)是弱預測函數。
本次實驗主要針對空軍任務中飛機狀態進行分析。主要的樣本來自于aerial bombing operations數據集。該數據集由二戰的數字化紙質任務報告組成。每條記錄都包含了date(日期)、conflict(沖突)、geographic location(地理位置)和飛機的狀態數據。并從數據集中隨機抽取50條數據定義為對手進攻性行為,以此模擬進攻行為。并且該數據集的數據被按塊分割,在進行驗證實驗時,將數據塊中的三分之一作為訓練集,剩余的數據塊作為測試集,最后分析本文算法在對飛機不同狀態下的行為目的預測的效果。
用規劃識別方法訓練測試,誤差大于0.005的樣本視為強化訓練樣本,不斷地更新權值,計算預測誤差。通過不斷的訓練,得到10個弱預測器和相應的權值,最后通過加權,輸出一個規劃識別最終預測器。
由圖2、圖3的均方誤差曲線可以看出,Ada-Boost改進的規劃識別在第5次之后開始收斂,最佳驗證性能為0.00057352;規劃識別在訓練7次之后開始收斂,最佳性能為0.00075864;由圖可得,經由AdaBoost改進后的規劃識別算法比過去簡單的的規劃識別算法收斂速度更快,擁有更良好的預測效果。

圖2 規劃識別預測模型均方誤差曲線

圖3 AdaBoost改進的規劃識別預測模型均方誤差曲線
為了提高在沙盤演練中敵意規劃的預測效率和準確度,本文提出基于AdaBoost改進的規劃識別方法。將每個規劃識別預測模型看做一個弱預測器,利用AdaBoost算法的核心思想,將得到多個經過多次訓練的、誤差較小的弱預測器組合成一個強預測器。利用得到的強預測器,識別預測軍事對抗中的敵意規劃。通過實驗證明,改進后的規劃識別方法可以提高預測模型的收斂速度以及預測效果,因此,改進后的規劃識別預測模型用于沙盤演練中敵意規劃的預測效果相對更好,所以該模型可以用于敵意規劃的識別與應對之中,為演練中的敵意規劃預測提供了一種新的方法,結論為決策者做出科學決策提供幫助。
文章提出的方法主要考慮對手規劃中的復雜性和誤導性,雖然抽象后的數據特征能夠提高模型的識別精度,但是有些初始信息的處理較為繁瑣,會增加模型對數據信息處理工作量。所以下一步的研究重點是提高處理行為信息的效率,并且雖然本文提出的算法一定程度上提高了識別的精度,但在實際應用場景中還需要能夠適應多場景的識別方法,接下來的研究學習將盡可能地提高算法的精度,從而能夠在實際環境下實現應用。