陳 健,趙建印,紀 紅
(海軍航空大學,山東 煙臺 264001)
現代兵棋是一種“兩方或多方指揮員直接參與,依據一定數據、 規則,通過一系列對抗與裁決的過程,實現對行動過程模擬、邏輯研究、評估論證的工具”[1]。隨著現代計算機技術與兵棋推演系統的融合發展,兵棋推演系統中的行為實體、行動過程、行為決策都會隨著實際發展態勢展現出不可預知的變化[2]。但是,現代兵棋推演系統在提高真實性的同時,也帶來了另一個問題,即在推演過程中實施指揮決策的人員(指揮員),不得不面對更復雜的實體構成和更不確定的推演環境,以及龐大的異構實體狀態空間和行為空間。這使得在兵棋推演過程中,確定一個囊括己方所有實體的最優行動方案變得非常困難。加上信息技術的融合使用,模糊了傳統兵棋回合制的概念,更快的推演節奏,要求雙方指揮員在有限的時間內做出科學合理的決策部署。因此,構建一個相對通用、合理簡化、反應迅速且具有較高準確性的快速決策框架,并基于該框架和具體的推演想定,實現推演的快速輔助決策系統,用來在復雜的推演環境中輔助指揮員優化各個階段的行動策略,具有較高的現實意義。
目前,對兵棋推演中的輔助決策框架和決策系統有過很多研究。文獻[3]將關注點聚焦在計算機兵棋博弈系統上,將知識規則與知識庫作為核心,避免因為兵棋規則復雜而造成的決策困難,同時引入推理機構輔助知識推理,搭建了智能決策支持系統。文獻[4]利用規則推理對具體類別的推演實體行為進行規劃,將規劃結果表示為行為樹的節點,從而完成了實體行為樹框架的搭建,實現動態決策。文獻[5]提出了分層智能規劃方法并搭建了完整模型。文獻[6]同樣使用行為樹方法,研究了實體模型的外部自主決策過程。文獻[7]在決策過程中引入了博弈的概念和機器學習中的決策樹算法,建立了兵棋推演中的決策模型。上述研究存在兩個共同的問題:一是決策模型(算法)大多較為復雜,適用于大型兵棋推演系統,但很難滿足上文提出的合理簡化和反應迅速的要求;二是大部分決策模型考慮的對象是計算機生成實體(CGF)或完全由計算機控制的智能體(Agent),而不是兵棋推演過程中的指揮員。
本文基于一般的決策和規劃流程,提出了一個快速決策框架(Rapid Military Decision Framework,RMDF),該框架針對異構實體模型和動態推演環境,基于一致性包算法實現任務分配,生成備選行動策略,通過簡化的作用效果熱圖和概率模型實現行動策略的快速評估和決策輔助,能夠在推演之前或推演期間,根據成功概率、生存能力提供行動方案的快速評估,可以有效地輔助兵棋推演指揮人員進行復雜態勢下的兵棋推演。
本文提出的快速決策框架邏輯如圖1所示。

圖1 快速決策框架邏輯圖
任務分配是制定行動方案的基礎。任務分配指根據總的任務目標,將兵棋推演想定中的B方實體分配給A方實體(A、B互為對手)的過程,是一個典型的多實體任務分配問題。依據文獻[8]提出的分類法,多實體協同任務分配問題等同于交叉調度的單任務多智能體時間 擴 展 任 務 分 配 問 題 (cross-schedule Dependent Single Task Multi-Robot Time-extended task Allocation,XDSTMRTA),其中交叉調度是指想定中的實體是否執行某個任務受其他實體任務執行情況影響;單任務是指推演實體一次只能執行一個任務;時間擴展是指推演實體在執行任務之前需要預先進行任務規劃。對于XDSTMRTA問題,常見的任務分配算法有集中式和分布式兩類,相比集中式分配算法存在中央節點負荷大、系統魯棒性差等缺點[9],分布式算法可提供更好的穩健性以及負荷的均衡性,是目前廣為采用的分配算法[10]。本文采用Choi等人提出的一致性包算法 (Consensus Based Bundle Algorithm,CBBA)作為推演實體任務分配算法。CBBA算法的特點是去中心化,同時可以很好地應用于異構實體模型和動態推演環境。文獻[11]證明了CBBA算法可收斂到納什均衡(Nash equilibrium)但非帕累托最優(Pareto optimal) 解,同時指出 CBBA算法可為單智能體單任務分配問題 (Single-Robot Single Task Task Allocation,SRSTTA)提供次優解決方案。當CBBA算法非負評分機制滿足邊際增益遞減 (Diminishing Marginal Gain,DMG)的收斂特性時,CBBA算法相對于最優目標值可達到至少50%的最優性[12],同時,由于CBBA算法運行時間為多項式時間,當推演實體和任務數量增多時,CBBA算法的可擴展性保證了其在實時動態環境下的適用性和快捷性[13]。
CBBA算法由任務包構建、沖突解決兩個階段構成,這兩個階段循環迭代直到完成任務分配,如圖2所示。第一階段采用基于市場的分布式拍賣策略作為任務選擇機制,第二階段使用基于局部通信的一致性策略作為沖突解決機制,結合分布式拍賣算法和一致性算法的優勢,實現快速產生無沖突的可行解決方案。

圖2 CBBA算法框圖
2.1.1 任務構建
在RMDF框架中,推演實體采用貪婪的方式進行局部任務包的構建。每個推演實體綁定四個向量,分別是任務包bi,任務執行路徑列表pi,獲勝者列表zi以及獲勝者出價列表yi。對于所有未分配的任務,推演實體將其連續添加到自身任務包中,并隨著分配過程的進行不斷更新上述四個向量,直到推演實體無法添加任務或任務全部分配完畢為止。
新任務添加到任務包中的方式為:計算各個推演實體執行各個任務的收益,從中選取收益最大的任務作為目標任務,相對應的推演實體作為目標實體。將目標任務的收益值與當前獲勝者出價列表yi中對應的收益值進行對比,若目標任務的收益值更大,則將目標任務添加至目標實體的任務包中,并更新目標實體的四個向量。

(1)
邊緣收益值是根據其添加到推演實體的任務包前后,推演實體的總收益值之差得到的。單個推演實體aj在tj時間完成任務j時的收益Jj(aj,tj)根據下式計算:
Jj(aj,tj)=e-λ·tjRj(aj)
(2)
其中λ為演實體aj的收益折扣因子。考慮到框架的便捷性,折扣因子可以根據推演實體的類型統一設置。
2.1.2 沖突解決
各推演實體完成自身任務包的構建后,進入CBBA算法的沖突解決階段。在這個階段中,推演實體通過局部通信共享各自的任務信息,實現任務沖突解決。相鄰推演實體的共享向量包括:獲勝者列表zi,獲勝者出價列表yi以及新引入的時間戳集合si。
si表示推演實體i最后一次更新信息的時間,時間戳更新公式如下:
(3)
其中,τr是消息接收時間。
當同一任務出現在多個實體的任務包中時,收益值最高的實體競拍到此任務,其余實體任務包的對應任務失效,同時獲得目標任務的實體更新自身信息結構,即該推演實體會釋放在目標任務之后添加的任務,并作為新任務由推演實體再次競拍。
在本階段,當實體i收到另一個實體k的zk、yk、sk時,實體i會根據自身zi和si來確定任務的最新信息。對任務i,實體i有三種可能的處理方式,決策規則如表1所示。

表1 推演實體沖突解決策規則表

快速決策框架事實上是一個簡化的推演評估系統原型。為提高框架的可擴展性和易修改性,本文采用了模塊化的設計思想,根據決策流程特點和一般兵棋推演評估流程,將框架分為四個子模塊,分別是:引擎模塊、環境模塊、實體模型模塊和視圖模塊。
(1)引擎模塊:引擎模塊的核心作用是實現推演評估的驅動,包含推演流程控制、任務分配、路徑控制、基礎策略等將模擬過程向前推進的關鍵方法。其中任務分配使用上文介紹的CBBA算法。
(2)環境模塊:環境模塊包含一個經過簡化的推演環境對象,為了支持快速決策,框架將復雜的推演環境簡化為空中、地面、海上三個不同的環境層,每一層以環境網格的方式表示,同時在網格內附加任務、地形、敵方實體等信息。
(3)實體模型模塊:實體模型模塊包含有關兵棋推演期間使用的推演實體和任務的必要信息。為了創建異構的推演實體,框架支持包括地面實體(UGV)、水面實體(USV)、空中實體(UAV)和防空實體(CAD)等多種異構推演實體。
(4)視圖模塊負責以快速推演過程的可視化表示。
快速決策框架的總體框架如圖3所示。

圖3 快速決策模型總體框架
2.2.1 折扣因子與實體配置
實體配置是推演決策過程中的重要環節,推演實體配置與CBBA算法的收益函數密切相關,如上文所述,CBBA算法的收益函數如下:
Jj(aj,tj)=e-λ·tjRj(aj)
(4)
其中給出了推演實體aj在tj時間完成任務j時的收益。收益由兩部分構成,第一部分是任務的標準收益Rj(aj),該收益是一個與推演實體索引aj相關的函數;第二部分是折扣收益,它是任務j完成時間t的函數,考慮到在實際情況中,完成給定任務的收益與完成任務的時間具有負相關性,為了更貼近實際,在目標收益中引入了折扣因子-λ·tj,用于表示目標收益隨時間遞減的特性。
由于折扣因子是任務完成時間t的函數,因此,在設定折扣因子時,需要考慮推演想定中行動范圍(地圖)的大小,并據此設定合適的折扣因子或折扣因子取值區間。當折扣因子的區間確定后,可以通過CBBA算法來優化不同階段的推演實體配置,提出了如圖4所示的優化結構,從而基于折扣因子獲得優化后的推演實體配置。

圖4 基于折扣因子的實體配置優化
2.2.2 環境層與殺傷率
在模擬環境中,框架基于核密度估計(KDE)算法,通過估計地圖上給定點相對于對手實體位置的危險級別(即對手實體單位的有效性級別),將指定區域內對手實體的作用要素。在本文提出的快速決策框架中,假定推演實體的作用效果分布與其作用距離相關,采用Epanechnikov函數作為核函數。
(5)
(6)
其中d是推演實體與地圖上指定點之間的距離。d=0時,推演實體的殺傷率取分布的最大值1。
首先,在地面層,空中實體、地面實體、水面實體和防空實體都可以在特定的作用區域對A方構成有效威脅。第二,在海上環境層,水面實體是主要威脅,但空中實體、地面實體和防空實體也作為有效的敵方實體加以考慮。第三,在空中環境層,A方的威脅主要來自于B方的空中實體和防空實體,如果在該區域存在B方的防空力量,則在該區域的作用效果上,將體現出對A方的重大威脅。
2.2.3 簡化的行動模型與行動評估
行動建模抽象并簡化了實體的行為和相互關系,本文提出的框架基于概率對行動模型進行簡化,以健康度Hp、作用效果L、命中概率PH、探測概率PD、瞄準系統可靠性PT、設備可靠性PW和層效能系數EL作為HL系統F的影響因子。
F=Hp·L·PH·PD·PT·PW·EL
(7)
除此之外,推演實體的損傷效果建模對行動模型也非常重要,框架通過損傷矩陣定義推演實體在交戰中對抗對手的有效性。在模擬環境中,框架采用如表2所示的作用矩陣。

表2 不同環境層的推演實體作用系數
推演實體的能力按照下列公式給出的方式進行簡化建模。
Fk=Fk-1-Fok
(8)
Mk=Mk-1-Mok
(9)
其中,Fk、Mk分別是k時刻推演實體的HL和機動性。Fok是時間k時對手實體的HL。
框架以雙方推演實體的平均機動性和平均HL能力作為行動評估指標,平均機動性和平均HL能力的計算公式如下所示。
(10)
(11)
其中x表示A方和B方,t表示資產對應的環境層,F、M是推演實體交戰后的機動性和HL能力,n是對抗后的幸存的推演實體數量。
為了驗證本文所提出的快速決策框架的可行性和準確性,在試驗環境中構建一個簡單的推演系統對框架進行仿真。
在驗證框架所使用的推演想定中,雙方的實體是異構的,可用推演實體包括了無人飛行器、地面車輛和水面船只。無人飛行器建模時考慮了其中高空長航程能力;地面車輛基于通用運輸車的性能進行建模,同時假設該地面車輛具有在任何地形下移動的能力;水面船只基于小型無人船的特點建模。由于推演實體的載油量和油耗特點對于任務的分配至關重要,因此這些參數在建模時予以特別考慮。異構實體模型的參數如表3所示。

表3 推演實體建模的核心參數
推演環境設定為一個小型的100×100的網格環境,推演任務是A方需要穿越B方防守區域,并竟可能多地消滅B方實體。初始的A方推演實體為2架無人飛行器,B方的推演實體為不同網格環境中的不同位置的1輛地面車輛以及2架無人飛行器。推演結果如表4所示。

表4 第一次推演結果
從表4數據中,可以看到即使選擇了適宜的折扣因子λ,A方仍然沒有能夠完成任務。由于B方的空中實體仍然幸存,因此A方對推演實體的配置進行更新,針對B方空中存在幸存實體,增加A方的空中力量,即在相同的想定下,A方無人飛行器由2架增加到3架。B方實體部署不變。推演結果如表5所示。

表5 第一次推演結果
可以看出,在同樣的場景中,A方通過調整決策,即調整A方的實體配置,確保了任務的完成。
本文提出了一種面向兵棋推演的快速決策框架,來加速推演過程中的行動方案分析和決策優化。通過分層的網格環境來簡化表示復雜的推演環境,通過推演實體的核心參數來確定其性能模型和行為模型。敵方實體的作用效果,簡化為地面、海上和空中三個網格環境層次上的作用效果。通過一致性包算法實現推演實體的自動任務分配,通過快速仿真實現推演策略的優化。仿真表明,該框架具有較高的可行性和執行效率。
在確保效率的前提下,對一致性包算法進行改進,使其適應多實體聯合任務分配是下一步的研究內容。在確保準確性的前提下,通過引入更多的隨機分布,如增加實體間通信的不確定性、態勢感知的不確定性來更好的模擬現實,也是下一步的重點研究內容。