基于深度強化學習的智能兵棋推演決策方法

2023-09-18 04:36:14胡水

計算機工程 2023年9期

胡水

（中國人民解放軍陸軍指揮學院，南京 210000）

0 概述

隨著高新技術在軍事領域的不斷發展運用，武器裝備的性能參數和造價越來越多，現代作戰體系越來越復雜，作戰訓練成本也同步激增。文獻［1］介紹為控制訓練成本和節約人力物力資源，各國使用仿真技術模擬作戰訓練。近年來，以深度強化學習為代表的人工智能技術快速發展，直接從模擬戰場原始數據中快速提取特征，使得對戰場態勢進行描述、感知并進一步自主決策成為可能。將人工智能技術應用于兵棋推演，形成戰術兵棋智能體，對培養智能化作戰指揮員打贏未來戰爭具有深遠意義。

文獻［2］通過蘭徹斯特模型對兵棋的勝負過程和作戰結果進行仿真分析，為兵棋規則的設計提供依據和參考。文獻［3］針對六角格回合制兵棋，使用AlphaZero 深度強化學習來自動學習作戰游戲過程。文獻［4］將模糊Petri 網的知識表示與推理方法應用于兵棋推演，在圖的特征中用不同符號表示不同變量，從而形成1 個簡潔的PN 映射，并將其用于兵棋推演的兵力表示和推理決策。文獻［5］通過對兵棋推演數據進行采集分析和處理，并基于數據搭建兵棋推演分析系統。文獻［6］介紹目前兵棋推演方面的研究面向規則智能算法、作戰方案評估等。智能算法多基于規則和數據分析，因此，開展基于深度強化學習的兵棋推演算法研究有助于提高兵棋推演的智能化水平，相較于人與人之間的兵棋推演對抗，基于強化學習的兵棋推演能夠篩選更多的數據。文獻［7］利用馬爾可夫決策過程、神經網絡等方法，增強AI 推演行動反饋及指揮策略應用能力，以逐步提高AI 在兵棋系統的對抗推演水準。文獻［8］深入分析軍事輔助決策走向智能化所面臨的難題和挑戰，僅根據深度學習是無法實現AI 對于高位輸入做出最優的決策，因此，針對已有AI 在人機對戰中所做的失誤決策，提出將深度神經網絡與強化學習算法相結合的新一代智能兵棋推演算法。

目前，深度強化學習的研究主要應用于博弈方向以及人機對抗方向，其中，深度Q 學習網絡（Deep Q-learning Network，DQN）能有效完成對環境狀態的態勢理解與決策構建的準確性。文獻［9］介紹記憶函數的引入將在可自我博弈的基礎上完成對模型的快速訓練并獲得較優的準確性。但是，在兵棋推演系統中智能體設計上，面對瞬息萬變的戰場環境與錯綜復雜的作戰場景，智能體的數據學習周期較長，策略產出與模型訓練收斂都需要較長時間。文獻［10］基于深度強化學習的思想和方式實現智能算法，雖然提高了AI 在兵棋系統的對抗推演水準，但是較長周期的策略產出是其最大的弊端。

本文聚焦于智能體在兵棋推演系統中自主決策產出過程的改進，在傳統策略-價值網絡的基礎上提出適用于兵棋推演的低優勢策略-價值網絡（Low Advantage Policy-Value Network，LAPVN）智能決策模型，有助于智能體加快產出作戰決策，設計符合兵棋規則的戰場態勢感知方法，提高策略的合理性。

1 相關理論

1.1 智能體的狀態-價值函數

狀態-價值函數Vπ(st)定義如下：

其中：Vπ(st)用于評判戰場狀態st下策略函數π的好壞程度。在大多數場景中智能體的狀態-價值函數是離散變量。策略函數π由策略網絡π(a|st；θ)近似表示。智能體在t時刻的狀態-價值函數如下：

其中：Qπ(st,a)表示t時刻動作-價值函數，表示在狀態st下執行動作a后獲得的價值。若消去環境狀態S可得：

由于V(S；θ)值可用于反映在環境狀態S下策略函數π的完備性，因此當J(θ)越高時，V(S；θ)也越高，說明策略網絡對于完備策略函數的近似度越高，即策略網絡做出的策略是一個完備的策略。但是J(θ)具有一定的閾值約束。文獻［11-12］利用策略梯度算法提高J(θ)。策略梯度的定義［13］如式（4）所示：

通過梯度上升不斷更新策略網絡π(a|S；θ)參數θ。

1.2 近似動作-價值函數

在策略梯度算法中，動作-價值函數Qπ并不是已知的，且直接計算需要大量的計算資源。因此，在策略梯度算法中將動作-價值函數Qπ(st,at)近似為qt。近似方法通常有Reinforce 和神經網絡近似方法。

Reinforce 方法：假定智能體在T時刻完成計算，在完成過程中統計(s1,a1,r1,s2,a2,r2,…,sT,aT,rT)。此時可得到任意時刻t的折扣回報：

由于動作-價值函數定義Qπ(st,at)=E[Ut]，ut是動作-價值函數Qπ的無偏估計，因此可用ut近似Qπ，即：

其中：qt為當前t時刻的動作-價值函數值。

神經網絡近似方法：文獻［14-15］借鑒了DQN的思想，利用另一個卷積神經網絡Qπ(w)近似動作-價值函數。

1.3 策略-價值網絡

策略網絡π(a|S；θ)用于近似策略函數π，給出當前狀態S下的動作a，通過策略梯度算法中梯度上升方式更新網絡參數θ。價值網絡q(S,a；w)用于近似動作-價值函數Qπ，評判動作a的好壞程度，以改進策略網絡。文獻［16-17］通過時間差分（Temporal-Difference，TD）算法中梯度下降方式更新網絡參數w。此時，狀態-價值函數如式（7）所示：

狀態-價值函數用于對當前環境狀態打分，評分高低反映智能體可獲勝的概率，更新θ是為了增加V(S；θ,w)，價值網絡q(S,a；w)在θ更新過程中對動作打分起著監督作用。更新w是為了提高對動作評分的精準度，環境給出的獎勵r起監督作用。

算法1 所示為在神經網絡中θt和wt的更新過程，st、θt、wt作為輸入，θt+1、wt+1作為輸出，步驟主要有：

1）對at～π(?|st；θ)進行采樣，得到動作at；

2）執行動作at，得到新的環境狀態st+1；

5）計算δt=qt-(rt+γ?qt+1)；

6）計算價值網絡梯度?wt與策略網絡梯度?θt：

7）更新θ與w：wt+1←wt-α?δt??wt，θt+1←θt+β?qt??θt；

8）得到7）中wt+1與θt+1。

2 基于深度強化學習的智能兵棋推演決策方法

針對兵棋智能體決策模型訓練時間長、策略產出效率較低的問題，本文提出一種策略網絡更新的改進方法，以縮短策略產出周期，加快模型訓練的收斂速度。

智能兵棋推演決策模型框架由戰場態勢感知模型、作戰場景判斷模型、智能決策模型與作戰動作指令模型組成，如圖1 所示。

圖1 基于深度強化學習的智能兵棋推演決策框架Fig.1 Framework of intelligent wargame deduction decision based on deep reinforcement learning

戰場態勢感知模型將兵棋推演仿真平臺獲取到的戰場仿真數據構建為智能體所能感知的戰場環境狀態st，并將其作為作戰場景判斷模型和智能決策模型的輸入。文獻［18］介紹在兵棋博弈中指揮決策或行為的優劣評估，難以通過人為設計的獎勵函數來判斷，因此，基于軍事規則先驗知識指導智能決策模型最終策略的產出。智能決策模型將收到的戰場態勢信息，經公共卷積層進行態勢感知，并提取特征向量，再分別發送給策略網絡和價值網絡。策略網絡根據收到的特征信息輸出當前戰場狀態下所有動作概率，得到可行動作概率集；價值網絡根據收到的特征信息輸出對當前戰場狀態st執行動作at的評分，并接收兵棋推演仿真平臺的戰場狀態環境反饋信息。作戰動作指令模型將獲取到的智能體動作指令下達到兵棋推演仿真平臺。該框架實現了智能體從戰場態勢感知、作戰場景判斷、智能決策產出以及最后的指令下達。

2.1 戰場態勢感知

戰場態勢感知用于幫助智能體構建狀態空間，主要包含戰場地圖信息、棋子信息、作戰場景規則信息等。其中，戰場地圖信息為智能體提供所處戰場環境的視野，幫助智能體理解其戰場作戰環境與作戰任務，棋子信息為智能體提供所擁有的作戰兵力，幫助智能體判斷其力量編組與作戰目標，作戰場景規則信息將為智能體提供指令規則，幫助智能體識別其作戰指令決策來源，理解作戰指令下達的合理性。文獻［19］介紹實時感知并準確理解戰場態勢，挖掘復雜態勢中的隱藏信息，是指揮員做出正確決策規劃的基礎。

本文提出兵棋智能體對于戰場環境的感知方法，通過劃分不同的戰場要素實體，將智能體所獲得的大規模戰場初始信息數據進行分類與提取，以得到戰場要素結果，并構造為智能體的輸入矩陣，有助于智能體進行戰場感知。

2.2 策略梯度中基準線的引入

兵棋智能體策略網絡受兵棋推演對抗問題中較復雜因素的影響，存在策略產出較慢且訓練效率較低的問題，而策略梯度算法可以幫助策略網絡更新其網絡參數。因此，本文在隨機策略梯度中引入基準線（Baseline）進行改進，以提高策略網絡訓練效率。

文獻［20］將Baseline 定義為1 個不依賴動作A的函數b。與傳統策略梯度更新方式不同，若向策略梯度中加入Baseline，在期望不變的情況下減小策略梯度的方差，使策略網絡的收斂速度加快。在策略梯度中引入函數b，則：

策略函數π為概率密度函數。式（8）中關于a求和后結果為1，因此式（8）結果為0，引入Baseline 的策略梯度將保證期望不變，即：

由于直接求策略梯度中的期望代價較高，因此利用蒙特卡洛對期望求近似值。在t時刻智能體通過隨機抽樣采取的動作為at～π(?|st；θ)，令：

其中：g(at)為策略梯度的無偏估計。由于at是通過隨機抽樣得到的，因此隨機梯度可得：

文獻［21］介紹了若b的選擇越接近于Qπ，則隨機策略梯度g(at)的方差越小，策略網絡訓練時收斂速度越快。

2.3 策略網絡的改進

由于在兵棋推演中戰場狀態st先于兵棋指令A被觀測，而且不依賴于A，因此狀態-價值函數Vπ(st)的評估結果只與當前戰場狀態有關。Vπ(st)定義如下：

Vπ(st)反映在當前狀態下采取任何行動的預期回報，非常接近Qπ，需要的計算成本和參數量較少，較容易實現和調整。因此，在策略網絡更新時引入Vπ(st)作為Baseline，在策略網絡更新時，隨機策略梯度方差會很小，能夠提高策略網絡在訓練時的穩定性。由于Baseline 的引入提供了1 個較好的起點和參考點，因此會加快策略網絡的收斂速度。此時的隨機梯度計算式如下：

其中：動作-價值函數Qπ由Reinforce 方法近似得到。本文根據優先經驗回放池［22］中的數據可計算得到Qπ的近似值ut。狀態-價值函數Vπ(S)根據式（1）使用另一個卷積神經網絡V(S；w)近似。隨機梯度可近似：

狀態-價值網絡參數更新：因為動作-價值函數Vπ是對回報Ut的期望，因此可用Reinforce 方法觀測到的折扣回報ut擬合Qπ得到預測誤差。預測誤差的計算式如下：

梯度下降更新狀態-價值網絡中參數ω，參數ω的計算式如下：

其中：γ為學習率。

此外，算法2 所示為引入Baseline 的策略網絡參數更新方法。戰場狀態st和策略網絡參數θt作為輸入，下一時刻的策略網絡參數θt+1作為輸出，步驟主要有：

1）從at～π(?|st；θ)采樣，得到動作at；

2）近似qt，qt≈Qπ(st，at)；

3）近似策略梯度g(at；θ)：

4）策略網絡參數θt通過梯度上升更新，β是學習率，θt+1的計算式如下：

5）根據4）計算結果得到下一時刻策略網絡參數θt+1。

隨著策略網絡訓練加深，引入的Baseline 函數b會越來越接近動作-價值函數Qπ，在后續訓練時收斂速度會不斷加快。

2.4 低優勢策略-價值網絡模型訓練框架

低優勢策略-價值網絡基于策略-價值網絡，其低優勢來源于優勢函數。優勢函數定義如下：

優勢函數表示在狀態S下，某動作a相對于平均而言的優勢性。在本文優勢函數恰好存在于式（13）中，若A(S,a)的值越小，說明該動作具有平均性。在策略網絡中表現的隨機梯度方差越小，這種低優勢性將加快模型訓練速度。

低優勢策略-價值網絡訓練框架如圖2 所示。

圖2 低優勢策略-價值網絡訓練框架Fig.2 Training framework of low advantage policy-value network

策略網絡將給出當前戰場狀態st下的1 個經評價空間修正后自認為較優的作戰方案at，經戰場控制執行。價值網絡為策略網絡給出的動作at評分值q。策略網絡根據q不斷改進自身策略（更新w）以迎合價值網絡判斷，并結合低優勢性，加快策略網絡的收斂速度，戰場環境給出的獎勵rt不斷提高價值網絡評分的專業性和準確性（更新θ），使價值網絡的打分更加合理。

2.5 低優勢策略-價值網絡的構建

在策略網絡和價值網絡中將當前戰場狀態提取為特征向量，因此在特征提取時可共用卷積層與池化層。輸入信息首先經過3 層全卷積網絡，分別使用32、64、128 個3×3 的過濾器，設置為ReLU 激活函數，以避免神經元節點輸出恒為0 的問題，緩解了梯度消失問題。公共卷積層將提取到的特征向量分別輸入到策略網絡和價值網絡。

公共卷積層通過共享權重增加效率和泛化能力，經過3 層全卷積網絡所提取的特征向量后，包含戰場環境的局部特征，如地形的邊緣、地形類別等，還包括戰場的全局特征，如戰場布局與比例等。這些信息有助于策略網絡生成合理的動作概率集，如根據地形類別特征幫助機動決策規劃，根據戰場布局特征幫助尋找合理的直瞄打擊位置。

對于策略網絡，設置4 個1×1 的過濾器進行降維處理，再接1 個全連接層，使用Softmax 激活函數對輸出信息進行歸一化處理，輸出兵棋的可行動作概率，供智能體AI 進行動作選擇。

對于價值網絡，設置4 個1×1 的過濾器進行降維處理，再設置1 個具有64 個神經元的全連接層，最后再接1 個使用Tanh 激活函數的全連接層，將輸出信息約束到[-1,1]之間作為戰場狀態好壞的評分。

本文的價值網絡是對狀態-價值函數Vπ的近似，而非傳統動作-價值函數Qπ的近似。價值網絡與策略網絡都設置了過濾器進行降維處理，從而將輸入的高維狀態矩陣降維到1 個較低維度的特征空間。這種降維操作可能會丟失輸入狀態矩陣中的某些特征信息，導致在計算過程時出現偏差。若降維操作過于強烈，可能會導致神經網絡在訓練時出現欠擬合現象。但是，降維操作可以大幅降低神經網絡的計算量，有效減少神經網絡的參數量并縮短計算時間，提高神經網絡的訓練效率，通過降低輸入矩陣維度，從而降低神經網絡的復雜度，進而減少神經網絡在訓練過程中出現過擬合的風險。本文在實驗中不斷調整過濾器數量，以選擇適當的降維策略，最終將過濾器數量設置為4，使神經網絡在保證準確性、計算效率和泛化能力的同時降低過擬合出現概率。

智能體狀態空間由4 個二值矩陣和1 個多值矩陣描述，并作為輸入信息輸入到低優勢策略-價值網絡中。低優勢策略-價值網絡的輸入矩陣如圖3所示。

圖3 低優勢策略-價值網絡的輸入矩陣Fig.3 Input matrix of low advantage policy-value network

根據戰場態勢感知信息，分別構造地形矩陣、兵棋位置矩陣（我方兵棋位置矩陣和敵方兵棋位置矩陣）、敵方上一步矩陣、是否為先手矩陣。

地形矩陣反映地圖上每個位置的地形類型，如平坦地、山地、灘涂等。地形可以影響部隊的機動速度、隱蔽性、攻擊防御力等方面，對作戰有著非常重要的影響。

兵棋位置矩陣記錄了每個兵棋在地圖上的位置，由于兵棋的種類、數量、位置等都會對作戰結果產生重要影響，因此加入位置矩陣可直接反映兵棋位置，間接反映兵棋數量。策略網絡通過兵棋位置矩陣可以更充分了解戰場上的兵棋分布情況，從而制定更加合理的戰術。在本文中，我方兵棋位置矩陣描述當前己方部隊以及友軍的情況。敵方兵棋位置矩陣描述敵方部隊情況。

敵方上一步矩陣記錄了上一個動作對應的狀態矩陣，策略網絡通過上一步矩陣可充分了解到戰場狀態的變化情況，從而更準確預測下一步可能的變化趨勢，有助于策略網絡學習作戰的規則和戰術。在本文中，敵方上一步矩陣描述敵方情況。

是否為先手矩陣記錄了當前局面是先手還是后手，該因素對作戰對抗的勝負非常重要。先手可率先展開攻勢，占據更有利的位置。因此，是否為先手矩陣的加入是有必要的。

這4 類矩陣的加入使神經網絡更全面地了解戰場狀態和作戰規則，從而更準確預測下一步決策，制定更加合理的戰術。

策略網絡和價值網絡的公共卷積層將從輸入信息中提取棋盤狀態的特征形成特征向量，將特征向量分別交給策略網絡和價值網絡進行后續處理。策略網絡輸出對于當前戰場狀態下每個動作的概率，供兵棋AI 參考動作選擇。價值網絡輸出當前戰場狀態對于兵棋AI的好壞，供策略網絡訓練和博弈時參考。

3 實驗與結果分析

3.1 實驗環境與兵棋作戰環境定義

本實驗平臺硬件配置使用移動版的NVIDA GeForce RTX3070 Ti顯卡，Python 編程語言被用于軟件配置上，具體的軟硬件配置如表1 所示。

表1 實驗配置軟硬件信息 Table 1 Experimental configuration software and hardware information

為研究當前算法的可行性，本文設置一種具有代表性的作戰場景，紅藍雙方圍繞島嶼奪控進行兵棋推演，場景設計示意圖如圖4 所示。

戰場環境大小為16×16，以六角格坐標量化棋盤，這種六角格結構使得相鄰的六角格之間可以沿6 個方向進行機動。從六角格的對稱性分析，在計算時其中心點到6 條邊的距離是相等的，并將距離設定為100 m。六角格可以更貼近實際作戰環境，適應不規則形狀和不同大小的場景，如凹型與凸型環境。該場景主要包含水面、灘涂、平地和植被4 類地形。六角格戰場環境參數說明如表2 所示。

表2 六角格戰場環境參數 Table 2 Parameters of hexagonal grid battlefield environmental

六角格戰場環境的地形決定其通行等級與限制等級的數值，數值越高，通行難度越大。地形與通行等級和限制等級的關系如表3 所示。

表3 地形與通行等級和限制等級的關系 Table 3 Relationship between terrain and passability levels and restriction levels

平坦地與疏林的限制等級與通行等級都為1，對機動值的消耗最少。沙泥灘、沙礫灘和密林的限制等級為1，通行等級為2，對機動值消耗較高。在只有為平坦地和疏林的戰場環境中，兵棋1 個回合最多能走4 格，而在沙泥灘、沙礫灘、密林等這類地形中，最多能走2 格。深海的限制等級與通行等級最高，兵棋一般是無法進行機動的。

高程變化從0～50，每增加1，平均海拔高度增加10 m，紅藍雙方的所有棋子在該場景內對抗。本文實驗所設定的主要戰役規則如下：

1）戰役最終勝利目標為殲滅敵方單位，雙方初始血量為100，任意一方數量歸零則戰役結束，表明另一方奪控了島嶼。

2）在每次迭代開始時，紅藍棋子的初始位置在島嶼中隨機產生，且不會出現在彼此射程之內，以增加戰役的隨機性，使得每次戰斗都具有一定的不確定性，智能體需要靈活應對。

3）雙方擁有相同的武器裝備，當執行射擊直瞄時，按距離增加造成的傷害逐步減小，直至超出射程無法射擊。當執行射擊間瞄時，通過貝塔分布進行傷害修正，以模擬現實中的射擊情況，智能體在射擊時對距離和瞄準進行權衡，以達到最佳的戰術效果。

4）該場景中兵棋自身觀測范圍是有限的，同時高程差與地形也會影響射擊通視情況，可能無法準確命中目標。為模擬現實中復雜的戰場環境，智能體通過觀測和推理來確定目標位置和可行的決策方案，以便更好地應對戰斗情況。

5）六角格間高程差與地形的限制等級會影響棋子能否機動進入該六角格，地形的通行等級會影響棋子的機動性能。為模擬地形的復雜性和機動力的不同，智能體需要根據環境狀態矩陣中包含的地形信息和自身狀態進行合理移動決策，以便更好地適應戰斗環境并實現作戰目標。

該作戰規則的實際性較高，殲滅敵方單位也是一種常見的勝利目標，雙方初始血量為100 也能夠反映兵棋在戰斗中的真實受損情況與作戰時的持久性。同時，兵棋初始位置的隨機性能增加戰術的多樣性。武器裝備產生的傷害按距離增加逐漸減小也符合實際射擊的物理規律，而間瞄時按貝塔分布進行傷害修正也能更全面地考慮移動射擊時對于打擊精度的影響。在實際作戰中六角格間的高程差和地形對機動進入該六角格的限制也是需要考慮的因素之一。同時，該規則較為簡單，不涉及復雜的戰術和策略，易于理解和操作，因此具有一定的普適性。除此之外，在一些實際戰斗中需要考慮兵棋有限的觀測范圍以及地形對通視情況的影響，因此，這些規則應用于不同的戰場環境中，例如城市、叢林、沙漠等不同類型的地形。但是，該規則也存在一定的局限性，由于不同類型的戰斗可能存在其他不同的勝利目標，因此需要根據實際情況進行調整。

該推演實驗博弈過程、規則和勝負標準具有一定的代表性，并且在實驗驗證過程和方法對比上有利于分析與驗證。

3.2 實驗結果

本文對該低優勢策略-價值網絡模型和文獻［23］所提的傳統策略-價值網絡模型運用于兵棋問題環境中并進行訓練，訓練效果對比如圖5所示。

圖5 低優勢策略-價值網絡和傳統策略-價值網絡的損失值下降趨勢Fig.5 Decrease trend of loss values between low advantage policy-value network and traditional policy-value network

從圖5 可以看出，在400 次自博弈對抗訓練中，2 種模型的損失函數總體呈下降趨勢。低優勢策略-價值網絡損失值從開始的5.3 下降到2.3，并且在前300 次迭代訓練中，損失值下降較快，之后下降的趨勢比較平緩。傳統策略-價值網絡的損失值從5.7 下降至3.0，并且在前100 次迭代訓練中，損失值下降較快，在100～250 次迭代訓練中下降趨勢較為平緩，之后下降較快。因此，引入Baseline 的低優勢策略-價值網絡模型損失值下降的趨勢與效果都優于傳統策略-價值網絡模型。

為評估低優勢策略-價值網絡模型對真實策略的擬合度，本文引入文獻［24］所提的KL 散度進行評測，KL 散度趨勢如圖6 所示。

圖6 KL 散度趨勢Fig.6 Trend of KL divergence

從圖6 可以看出，低優勢策略-價值網絡模型進行400 次迭代訓練，KL 散度在剛開始訓練時比較振蕩。隨著迭代訓練次數的增加，KL 散度值越來越平穩，并且非常接近于0，說明低優勢策略-價值網絡模型的擬合策略近似其真實策略，在該實驗場景中能得到最優策略。

在進行博弈訓練時，本文將蒙特卡洛樹搜索算法（MCTS）［25-26］作為對抗方參與同低優勢策略-價值網絡模型的訓練。當低優勢策略-價值網絡模型迭代訓練達50 次后，與MCTS 進行博弈評估，進行10 局對抗，并將定義的勝負率作為評估標準。勝負率的定義如下：

其中：wwin為低優勢策略-價值網絡模型的場數；ttie為平局數。表4 所示為在400 次迭代過程中MCTS 勝負率的變化，開始時MCTS 的搜索深度為1 000。MCTS 的勝負率變化趨勢如圖7 所示。

表4 MCTS 的勝負率變化 Table 4 Changes in win-loss ratio of MCTS

圖7 MCTS 的勝負率變化趨勢Fig.7 Change trend of win-loss ratio of MCTS

在每50 次迭代訓練的對弈中，若低優勢策略-價值網絡模型10 局完勝時，MCTS 算法的搜索深度將增加1 000，在提高其指揮決策能力的同時保存算法模型的參數。圖7 所示為進行7 次模型評估，在第6 次對抗MCTS 算法獲取完勝后，本文將MCTS 的搜索深度提高到2 000，第7 次對抗僅負2 局，說明在此迭代階段，模型已初步具備人類指揮員的作戰能力。

為進一步驗證LAPVN 決策的合理性，本文將訓練好的LAPVN 智能決策模型與文獻［27］所提的基于博弈樹搜索算法中極大值-極小值（Max-Min）、α-β剪枝搜索算法以及搜索深度為3 000 的MCTS算法分別進行50 局對抗。由于博弈樹搜索算法適用于對稱性博弈，因此本文在此處的對比實驗進行修改，將作戰場景規則4）中兵棋的局部觀測修改為全局性觀測，以式（19）的勝負率作為對比指標，實驗結果如圖8 所示。

圖8 不同網絡的博弈對抗Fig.8 Game adversaries among different networks

從圖8（a）和圖8（b）可以看出，在兵棋推演對抗中LAPVN 的決策較為合理，博弈對抗時間也較短，同時從圖8（c）可以看出，LAPVN 與博弈樹搜索算法中2 類算法的勝負率在0.7 以上，對抗MCTS 算法的勝負比超過了0.7。

4 結束語

本文提出基于深度強化學習的智能兵棋推演決策方法。在策略梯度中引入狀態-價值函數，實現對策略網絡的改進。在理論推導與兵棋推演上的實驗結果表明，在策略網絡更新時將狀態-價值函數作為Baseline，加快模型訓練時的收斂速度，策略網絡對于真實策略函數的擬合程度也非常接近。隨著迭代訓練的加深，該算法與MCTS 算法的對抗表現更優的決策水平。下一步將對如何提高Baseline 中動作-價值函數的擬合效率進行研究，實現對價值網絡的改進與優化。