閆雪飛, 李新明, 劉 東, 王壽彪
(裝備學院復雜電子系統仿真實驗室, 北京 101416)
武器裝備體系(簡稱為體系)作戰仿真研究一直是軍事領域的熱點和難點,對于指導體系發展建設[1]、進行使命能力論證[2]、開展系統需求評估、輔助戰場指揮決策等均具有重要的意義。網絡信息體系(network information system-of-systems,NISoS)被認為是體系發展的高級形態,雖然相關概念才剛提出,但卻引起了軍事專家的高度重視。目前,針對NISoS的基本概念、內涵和架構研究已形成共識,對其基本形態也有了一個初步的認識,但對其更深層次的作戰機理研究則尚未起步,因此,迫切需要開發新的適合探索NISoS特征規律和概念演示的作戰仿真平臺,對于NISoS的論證評估研究具有基礎性意義。
通過總結針對NISoS的相關研究成果,可知NISoS是指由基礎網、感知網、決策網、火力網、保障網共同組成的,通過集成各種信息共享網絡,將陸、海、空、天、電、網多維戰場空間融為一體的大規模武器裝備體系。基本架構由基礎網、感知網、決策網、火力網、保障網組成,每個子網又由相應類型的武器裝備聚合而成,這是與一般武器裝備體系的主要區別,如圖1所示。另外,其基本內涵為網絡中心、信息主導與體系支撐,而如何以網絡為中心、以信息為主導、以體系為支撐則是需要進一步研究的內容。NISoS也是一個武器裝備體系,因此NISOS是一個復雜巨系統,同時也是一個復雜適應系統,而multi-Agent系統(multi-Agent system,MAS)是復雜系統以及復雜適應系統研究的主要渠道[3-4],此外,NISOS的復雜性、非線性、涌現性等體系特征也特別適合于采用MAS進行探索,因此,基于MAS的建模仿真是NISOS試驗研究的最佳選擇。但NISoS的極端復雜性則是制約將MAS技術進行成功移植的一大挑戰,其中,體系驅動的核心——Agent認知決策技術,則是最關鍵也是最棘手的環節。

圖1 NISoS架構示意圖Fig.1 Schematic diagram of NISoS architecture
文獻[5]對空戰Agent的決策行為進行了理論研究,采用反應型Agent決策,并結合作戰實際將Agent的決策規則分成了不同的階段,包括起飛階段、巡航階段、攻擊階段、規避階段以及降落階段等。文獻[6]在海軍作戰任務中采用了反應型Agent對指揮官的決策行為進行了建模,并對每條規則的權值進行了設定,具有最大權值的規則被采用,而在實際應用時,規則可以根據實際情況進行更新。文獻[7]基于信息、愿望和意圖(belief desire intention,BDI)模型對不對稱作戰Agent的決策制定進行了研究,但由于BDI基于邏輯演繹的推理方式,在實現過程中過于復雜,尤其是對于更復雜的作戰場景。文獻[8]針對multi-Agent作戰仿真決策機制的復雜性、不確定性提出了一種基于組件思想的Agent體系結構——基于multi-Agent的非對稱作戰仿真體系結構(multi-Agent based asymmetric combat simulation architecture,ACOMSIM),包括邏輯推理Agent、行動制定Agent、地形分析Agent、己方態勢感知Agent、敵方態勢感知Agent、任務時間調度Agent、任務分析Agent等,通過模塊化的思想將復雜問題簡單化,各個組件Agent相互協作共同實現問題的求解,其主要不足是各個組件都依賴于豐富的先驗知識,且不同組件之間的通信開銷降低了決策的效率。上述針對作戰Agent的決策行為研究都具有一定的代表性,但僅適用于特定的情形,且都存在一定程度的不足,尤其是當作戰體系更復雜、環境的不確定性更高時。
強化學習(reinforcement learning,RL)作為一種無師在線決策技術,在無需任何先驗知識的情況下即可實現對未知環境的學習,具有對不確定環境自適應的能力,因此被廣泛用于復雜環境包括體系對抗仿真情形下的智能體自主決策研究[9]。文獻[10]以戰場仿真中安全隱蔽的尋找模型為例,對基于半自治作戰Agent的Profit-sharing增強學習進行了實驗研究;文獻[11]將強化學習引入智能體模糊戰術機動決策模型中,有效地解決了馬爾可夫決策過程(Markov decision process,MDP)狀態轉移規律難以獲得時的模型求解問題;文獻[12]基于強化學習對仿真航空兵的空戰機動決策問題進行了研究;文獻[13]基于高斯徑向基函數(Gauss radial basis function,GRBF)神經網絡和Q-leaning算法對飛行器三維空間的隱蔽接敵策略進行了學習研究。
上述研究表明了RL在進行作戰仿真認知決策方面的可行性,但對于更復雜的NISoS作戰仿真決策,RL算法則具有其局限性。其根本原因是體系對抗中的Agent,其執行每個行為的收益不僅取決于自身的行為,還取決于對手的行為,而對于這一點,RL算法則不能很好地考慮,因此出現收斂較慢甚至決策不夠合理等問題。而博弈論則是專門研究決策主體相互作用時的一門學問,尤其是在解決非合作博弈方面具有獨特地優勢。本文的主要創新工作為①針對體系對抗開展博弈論研究;②建立了戰役層次零和動態博弈模型;③基于Nash-Q實現了Nash均衡求解;④通過NISoS作戰仿真原型系統驗證了算法的可行性以及相比Q-leaning的優勢。
Q-leaning算法是一種模型無關的RL算法,被廣泛應用于復雜問題、不確定環境中的Agent認知行為求解。經典Q-learning算法是一種基于單Agent的RL算法,學習的Q值對應于單個Agent的狀態-動作對,其優勢在于即使只知道每個狀態下的立即獎賞值,也可以基于時間差分(temporal difference,TD)公式完成Q(s,a)的學習,即
Qt(s,a)=Qt-1(s,a)+

(1)

基于單Agent的Q-leaning算法在選擇下一個動作時,僅僅考慮自身的行動而不去考慮對手動作的影響,這樣做的好處是計算復雜度低并且實現起來容易,但也面臨學習結果不夠準確的問題,因此,采用聯合Q-leaning算法是一種有效的解決途徑。相比基于單Agent的Q-leaning算法,聯合Q-leaning將原來的狀態-動作對Q函數擴展為狀態-聯合動作對Q函數,即增加了自變量的維數,同樣基于TD公式,其Q函數的迭代形式[14]為
(2)

Nash-Q算法與聯合Q-learning算法類似,都是基于TD公式迭代求解,并且Q函數對應的動作為所有Agent的聯合動作,區別在于其策略選取形式。Nash-Q算法基于Nash均衡選擇新狀態下的聯合動作,并且不需要獲取其他Agent的歷史動作信息,但是需要其他Agent的支付函數以及動作集。對于有兩個Agent的博弈模型,設QA為A的支付函數,QB為B的支付函數,則Nash-Q的迭代公式為
(3)

為了實現NISoS的作戰仿真研究,基于Java語言自主開發了一款作戰仿真原型系統。系統采用分布式進程調度架構,采用時間離散方式,通過用戶界面可向紅藍雙方的對抗體系加入不同類別的Agent,共包含6種類型的Agent,分別為通信Agent(communication Agent,CCAgent)、偵察Agent(scout Agent,SCAgent)、補給Agent(supply Agent,SUAgent)、修復Agent(repair Agent,RPAgent)、打擊Agent(attack Agent,ATAgent)以及指控Agent(canmand Agent,CMAgent),對應于NISoS的組成架構,可支持面向NISoS的地空一體化體系對抗研究,如圖2所示。

圖2 面向NISoS的空地一體化作戰仿真情景Fig.2 NISoS oriented ground to air integrated combat simulation scene
需要說明,雖然仿真時構建的NISoS與現實中的NISoS在規模和復雜程度上還有很大差距,但是作為真實NISoS的雛形,研究結果對于真實NISoS的規劃設計等相關研究具有一定的啟發。原型系統的物理作戰空間為按照JAVA3D標準定制的100 m×100 m的三維幾何地圖,在作戰開始時,紅藍雙方的兵力被分別自動部署在地圖的左右兩側,當仿真開始后,雙方會相向運動,直到在中間區域遭遇并展開對抗。
從層次上分,NISoS共包含兩個層次:戰術層次和戰役層次。其中,CCAgent、SCAgent、SUAgent、ATAgent、RPAgent隸屬于戰術層次,由于其決策行為相對簡單,可采用有限狀態機實現。而CMAgent隸屬于戰役層次,負責對所屬Agent的指揮與控制,決策行為比較復雜,是論文研究的重點。
由于系統基于時間離散模型進行調度,因此CMAgent的決策行為是以仿真時鐘為單位進行的,其主要目的是在當前感知態勢的基礎上進行決策,其認知域描述如表1所示,考慮到RPAgent為少量(通常紅藍雙方各有一個,作為雙方“大后方”出現),忽略其影響。

表1 CMAgent的認知域描述表
此外,CMAgent還能夠獲取殺傷敵軍數目以及死亡數目的實時信息。然而,CMAgent無法獲取對手Agent的支付函數以及行為策略,并且對于態勢感知也是具有不確定性的,這是體系對抗博弈模型求解的難點。
為了壓縮參數空間,也為了使學習成果更具一般性,需要首先對用到的學習參數進行規范化,其意義類似于流體力學中的無量綱化,對于實驗結果至關重要。主要包括狀態空間參數的歸一化以及獎賞參數的規約。狀態空間的歸一化公式為
式中,δ是一個極小值,其意義是避免除零,根據歸一化公式,CMAgent的狀態空間可由四維參數向量s={NCC,NSC,NSU,NAT}表示。獎賞信息的規約公式為

式中,EK為殺傷敵軍數目;OD為死亡友軍數目;δ的意義同前。可以看出,當r>0時,CMAgent得到的是正獎賞,當r<0時,CMAgent得到的是負獎賞,獎賞的好壞一目了然。通過以上對學習參數的規范化處理,使得學習數據更具普遍性,并且限定了范圍。
傳統的Q函數采用表格進行狀態空間的離散,然而,當狀態空間是連續的且維數較多時,表格離散法會面臨“分割難題”,并且學習效率較低。考慮到GRBF神經網絡的離散性能以及泛化能力,可以采用GRBF神經網絡對Q函數進行離散[12-13]。所謂泛化能力是指即使某個樣本沒有學習,GRBF神經網絡也能估計其輸出,而這是表格離散法不能做到的,其網絡結構如圖3所示。

圖3 基于GRBF神經網絡的Q離散Fig.3 Q discretization based on GRBF neural network
由圖3可知,GRBF神經網絡由4層組成,第1層為輸入層,第2層為離散層,第3層為隱含層,第4層為輸出層。其中,離散層的等寬離散公式為

(4)
可以算出,輸入狀態空間的樣本數目最大為54=625個,可以想象采用傳統離散方法的復雜性,其輸出層是對應聯合動作a={a1,a2,…}的Q值,共有|A|×|A|=3×3=9個聯合動作,其計算公式為

式中,徑向基函數bi(s)的計算公式為

式中,ci是第i個基函數的中心,與s具有相同的維度;σi是第i個基函數的寬度;m是隱含層的個數;‖s-ci‖為輸入狀態與基函數中心的歐氏距離。
定義1(混合策略) 一個Agent的混合策略為其行動空間的一個概率分布為
式中,aij為Agenti對應的第j個行動,下面給出混合策略Nash均衡的定義。

Nash-Q算法采用Q函數代替支付函數,假設學習Agent的支付函數為矩陣Amn,對手Agent的支付矩陣為Bmn,則根據Nash均衡的定義,雙方混合策略的求解可轉化為線性規劃問題,即



由于任何時刻


因此QA+QB=0,故CMAgent的博弈模型為零和博弈,故在已知自己的Q函數情況下,對手的支付函數可以設為Q函數的負,至此,可以實現Nash均衡的求解,而求解的Nash均衡對應的Q值即可作為Agent的學習目標,如式(3)所示。

(5)
式中,idx(at)為執行的行動的序號;TDNash為Nash強化信號,其計算公式為

TDNash的計算公式與式(3)是有區別的,即GRBF神經網絡的學習目標為Nash均衡而非單一狀態-動作對的Q函數。
學習過程以周期計數,當一個回合的作戰結束時視為一個學習周期的結束,其學習框架如圖4所示。

圖4 基于Nash-Q的CMAgent認知學習框架Fig.4 CMAgent cognitive learning framework based on Nash-Q
基于Nash-Q的NISoS戰役層次CMAgent的決策過程如下:
步驟1初始化CMAgent的GRBF神經網絡,通過k-means聚類設置GRBF的中心和寬度,設定最大學習周期數K,令k=1;



步驟5執行決策at,轉到新的狀態st+1;
步驟6如果仿真沒有分出勝負或者t<最大仿真步數,返回步驟3,否則繼續;

步驟8k=k+1,如果k>K,則結束學習,否則轉到步驟2繼續。
為了對本文所提算法的有效性進行充分驗證,在NISoS作戰仿真系統中共實現了3種決策方式,第1種是基于Nash-Q算法的決策,第2種是基于Q-Learning算法的決策,第3種是基于規則的決策,通過兩兩對抗的方式,驗證Nash-Q算法的優越性。
由于實驗的目的是為驗證基于Nash-Q的指控Agent智能決策算法,因此可以忽略對參戰兵力的指標參數進行關注,只研究在相同的兵力結構下,在不同決策算法約束下的體系對抗效果,進而分析決策算法。在地空一體化體系對抗的作戰背景下,設置紅藍雙方的NISoS結構均相同,且均只有1個編隊,對應1個CMAgent,每個編隊由5個地基SCAgent、5個空基SCAgent、5個地基ATAgent、5個空基ATAgent、5個地基CCAgent、5個空基CCAgent、5個地基SUAgent、5個空基SUAgent以及1個地基RPAgent組成,由于性能指標不是研究內容,這里省略每種類別Agent的性能指標介紹。

5.3.1 Nash-Q與Rule-based算法的對比


表2 基于Rule-based的CMAgent決策表



圖5 Nash-Q與Rule-based算法的總獎賞值隨周期的變化Fig.5 Total reward value of Nash-Q and Rule-based algorithm varying with the period
從圖5中可以,看出采用Rule-based的紅方在一開始占據優勢,這是由于采用Nash-Q的藍方在初始時刻以探索為主,無任何經驗,故在決策上不占優勢,然而隨著學習周期的增加,Rall快速提升,在20個周期內就已基本收斂。此外,采用Nash-Q算法的藍方無論是累積獎賞值還是獲勝率都要遠遠高于采用Rule-based決策算法的紅方,并且藍方獲勝概率幾乎為1,表明了Nash-Q的絕對優勢。Nash-Q決策算法能夠優于Rule-based決策算法的原因有兩個方面,一方面是由于強化學習特有的自適應能力,能夠在對抗的過程中逐步掌握對手的弱點并進行相應的針對,另一方面是由于相比Rule-based算法,Nash-Q能夠利用更多的態勢信息(4個維度共625種),從而能夠形成更準確的態勢判斷。
5.3.2 Nash-Q與Q-learning算法的對比
為了進一步驗證Nash-Q算法的學習能力,設計實現了基于Q-learning的CMAgent決策算法,其學習框架同Nash-Q,并且同樣采用GRBF神經網絡對Q表進行離散,其區別之處在于網絡權值的更新,即
由于聯合Q-learning需要獲取其他CMAgent的歷史決策信息,占據通信帶寬,且實現起來比較復雜,采用了單Agent Q-learning算法,其中強化信號為


圖6 Nash-Q與Q-learning算法的總獎賞值隨學習周期的變化Fig.6 Total reward value of Nash-Q and Rule-based algorithm varying with the studying period
5.3.3 Nash-Q的離線決策效能評估
當Nash-Q算法學習到一個較好的GRBF神經網絡結構參數后,可以關閉對網絡參數的學習,只根據已有的學習成果進行決策,即為離線決策。在離線決策試驗中,改變每個陣營編隊的數目以制造與在線學習階段不同的體系對抗情形,并與Rule-based算法進行對比,其中每個編隊的配置同前,得到的離線決策效能試驗結果如表3所示。其中,Nc代表編隊的數目,為了提高運行效率,實驗用機的數目不小于Nc,以確保每個CMAgent被分配到單獨的節點上。

表3 Nash-Q與Rule-based算法的離線決策效能對比
由表3可以明顯看出采用Nash-Q算法的藍方相比采用Rule-based算法的紅方具有與在線決策相當的決策優勢,無論是平均總獎賞值還是獲勝率都要遠遠高于紅方,表明了離線Nash-Q算法學習成果的普適性,同時也表明了戰法戰略的通用性,可以作為決策知識庫使用。
傳統的針對體系作戰Agent的認知決策行為主要以BDI推理、反應式為主,主要存在過于依賴專家經驗、實現過程復雜以及無法適應動態變化的環境等不足。為此,面向NISoS作戰仿真,建立了戰役層次指揮Agent不完全信息動態博弈模型,并基于Nash-Q實現了模型求解,可充分發揮強化學習以及博弈論各自的優勢,滿足對復雜體系對抗環境的自適應學習目的。此外,為了提高模型的泛化能力,采用GRBF神經網絡對Q-table進行擬合離散。仿真實驗證明了Nash-Q算法的可行性和相比Q-leaning以及反應式決策算法的優越性,并表明了Nash-Q算法較好的離線決策效能。下一步的工作是以動態博弈模型作為紅藍雙方的共同決策依據,盡可能去除非理性決策因素對對抗過程的影響,實現體系作戰效能的最大化、評估的客觀化、決策的智能化。
[1] GILMORE J M. 2015 Assessment of the ballistic missile defense system (BMDS)[R]. Washington, DC: Defense Technical Information Center, 2016.
[2] PATRICK T H, KEVIN M A. Integrated condition assessment for navy system of systems[J]. International Journal of System of Systems Engineering, 2012, 3(3/4): 356-367.
[3] YANG A, ABBASS H A, SARKER R. Landscape dynamics in multi-agent simulation combat systems[J]. Lecture Notes in Computer Science, 2004, 3339: 121-148.
[4] CONNORS C D. Agent-based modeling methodology for analyzing weapons systems[D]. Ohio: Air Force Institute of Technology, 2015.
[5] GISSELQUIST D E. Artificially intelligent air combat simulation agents[D]. Ohio: Air Force Institute of Technology,1994.
[6] ERCETIN A. Operational-level naval planning using agent-based simulation[R]. Monterey: Naval Post-graduate School, 2001.
[7] TSVETOVAT M,ATEK M. Dynamics of agent organizations: application to modeling irregular warfare[J]. Lecture Notes in Computer Science, 2009,5269: 141-153.
[8] CIL I, MALA M. A multi-agent architecture for modelling and simulation of small military unit combat in asymmetric warfare[J]. Expert Systems with Applications, 2010, 37(2): 1331-1343.
[9] GALSTYAN A. Continuous strategy replicator dynamics for multi-agent Q-learning[J]. Autonomous Agents and Multi-Agent Systems, 2013, 26(1): 37-53.
[10] 楊克巍,張少丁,岑凱輝,等.基于半自治agent的profit-sharing增強學習方法研究[J].計算機工程與應用,2007,43(15): 72-95.
YANG K W, ZHANG S D, CEN K H, et al. Research of profit-sharing reinforcement learning method based on semi-autonomous agent[J]. Computer Engineering and Applications, 2007, 43(15): 72-75.
[11] 楊萍, 畢義明, 劉衛東. 基于模糊馬爾可夫理論的機動智能體決策模型[J]. 系統工程與電子技術, 2008, 30(3): 511-514.
YANG P, BI Y M, LIU W D. Decision-making model of tactics maneuver agent based on fuzzy Markov decision theory[J]. Systems Engineering and Electronics, 2008, 30(3): 511-514.
[12] 馬耀飛, 龔光紅, 彭曉源. 基于強化學習的航空兵認知行為模型[J]. 北京航空航天大學學報, 2010, 36(4): 379-383.
MA Y F,GONG G H,PENG X Y.Cognition behavior model for air combat based on reinforcement learning[J]. Journal of Beijing University of Aeronautics and Astronautics,2010,36(4): 379-383.
[13] 徐安,寇英信,于雷,等.基于RBF神經網絡的Q學習飛行器隱蔽接敵策略[J].系統工程與電子技術,2012,34(1):97-101.
XU A, KOU Y X, YU L, et al. Stealthy engagement maneuvering strategy with Q-learning based on RBFNN for air vehicles[J]. Systems Engineering and Electronics, 2012, 34(1): 97-101.
[14] 段勇, 徐心和. 基于多智能體強化學習的多機器人協作策略研究[J]. 系統工程理論與實踐, 2014, 34(5): 1305-1310.
DUAN Y, XU X H. Research on multi-robot cooperation strategy based on multi-agent reinforcement learning[J]. Systems Engineering-Theory & Practice,2014,34(5):1305-1310.
[15] 賈文生,向淑文,楊劍鋒,等.基于免疫粒子群算法的非合作博弈Nash均衡問題求解[J].計算機應用研究,2012,29(1):28-31.
JIA W S, XIANG S W, YANG J F, et al. Solving Nash equilibrium for N-persons non-cooperative game based on immune particle swarm algorithm[J]. Application Research of Computers, 2012, 29(1): 28-31.