張 耀,武富春,王 明,段 宏,張 昭,王海龍
(北方自動控制技術研究所,太原 030006)
隨著科技的不斷進步,戰爭形態將發生深刻的變革。在軍事智能化的趨勢之下,無人化作戰將成為基本形態[1]。無人戰車是未來陸軍實施地面突擊作戰的主要裝備,其自主系統主要由感知、決策和控制等子系統組成。其中,自主行為決策模塊,是無人戰車在復雜陸戰場環境中對敵目標實施快速、精確、有效打擊的核心[2]。
在傳統裝甲裝備作戰過程中,完成作戰任務主要靠駕駛員、車長、炮長分工協作,存在目標搜索速度慢,操作隨機性大,決策時間長的問題,同時作戰效能受乘員心理素質、生理狀況以及戰場環境的影響較大[3]。隨著人工智能的不斷發展,由于機器對海量信息處理能力強,反應速度快,面對動態戰場環境具有獨特的優勢,逐漸替代人類乘員成為可能,推動無人戰車的出現。無人戰車按照系統控制方式可以分為遙操作控制、半自主控制和全自主控制[4]。隨著無人戰車智能化水平的提高,全自主控制成為其未來發展的必然方向,自主行為決策技術必將成為主要的技術推動力。
目前,對于無人戰車自主行為決策的研究還處于起步階段。相比之下,無人戰斗機自主空戰決策[5]學術研究成果豐碩,雖然應用場景不同,但是其行為決策方法有很大參考價值,主要包括基于規則的方法以及基于學習的方法兩大類。基于規則的行為決策方法根據大量數據,以及專家知識構建動作規則庫,針對不同態勢制定對應的行為決策;基于學習的方法則以強化學習方法為代表,文獻[6]采用強化學習中的Actor-Critic 構架,通過神經網絡學習,解決連續狀態空間上的空戰決策問題。但是該方法存在收斂速度慢、算力要求高的缺點。
因此,本文提出一種深度強化學習結合行為樹的方法解決無人戰車自主行為決策問題,利用行為樹的邏輯規則與先驗知識降低強化學習的問題復雜度,保證算法穩定收斂,同時使行為決策模塊具有學習能力。本文從未來陸戰場單車的實際作戰需求出發,研究無人戰車自主行為決策技術。分析了無人戰車自主行為決策問題;建立了自主行為決策模型;提出一種深度強化學習結合行為樹的自主行為決策方法;最后,針對典型作戰場景,利用無人戰車對戰模擬仿真環境,驗證所提出的自主行為決策方法的有效性。
無人戰車是一種能感知環境并與環境交互,具有自主地面機動能力、自主精確火力打擊能力的智能化裝甲裝備。作為無人戰車“大腦”的行為決策模塊,直接體現了無人戰車的自主水平,對于戰車快速、精確、有效地打擊敵方起著決定性作用。根據無人戰車執行作戰的任務流程分析,無人戰車采用類人自主行為決策結構,如圖1 所示。無人戰車自主行為決策包括自主機動決策與自主火力決策。

圖1 無人戰車類人自主行為決策
機動決策是自主行為決策的基礎。無人戰車的機動決策是指根據實時感知的環境信息、自身行駛狀態,對隨時可能出現的敵方行為作出避險或迎敵反應,無人戰車自主產生合理駕駛策略的過程。自主機動決策模塊對應于傳統駕駛員的決策行為,連接環境感知模塊和車輛底盤運動控制模塊,共同實現自主行駛。主要包括自適應巡航,避障避險,通過特定區域等內容,需要不斷地適應戰場環境變化,調整自己的機動速度和方向,從而能夠快速安全駛向目標區域。從戰術層面考慮,機動能夠使我方占據有利地形,無論攻守都處于有利態勢。
火力決策是自主行為決策的核心。自主火力決策模塊對應于傳統車長和炮長的決策行為,完成目標搜索、目標瞄準、火炮控制和目標打擊等使命,直接決定了無人戰車整體的戰斗力。現有的武器火控系統在人的操作下能夠實現目標探測、火控解算和控制武器射擊等使命。無人戰車則需要自主火力決策與武器火控系統相配合,利用快速處理信息的能力以及學習能力,實現自主目標瞄準和自主目標打擊決策,以提高首發命中率和射擊反應時間。
由于戰場環境復雜,動態時變,特別是對抗場景下,敵方行為具有不確定性,無人戰車自主行為決策模塊需要根據環境態勢選擇動作,通過作出多步決策,實現作戰任務。其所面臨的問題稱為序貫決策優化問題(Sequential Decision Problem)。基于規則構建決策模型,難以適應這種動態不確定性;強化學習方法可以通過對策略的迭代,找到最優策略,對于突發事件也有較好的響應,故采用強化學習方法解決自主行為決策問題。
強化學習方法是一種基于馬爾可夫決策過程(Markov Decision Process,MDP)的序貫決策方法,其核心思想是交互試錯[7]。馬爾可夫決策過程可由元組表示,其中:S 是一個有限狀態集,A 是一個有限行為集,P 是集合中基于行為的狀態轉移概率矩陣,R 是基于狀態動作對(s,a)的獎勵函數,γ 是獎勵折扣因子,取值范圍為γ∈[0,1]。
無人戰車的自主行為決策過程可建模為一個基于MDP 的序貫決策問題。在作戰過程中,無人戰車需要不斷觀察環境態勢,獲取狀態s,并依據策略μ(a|s)選擇動作a,通過多步決策,最終完成火力打擊任務。在與戰場環境的交互中,無人戰車通過交互試錯最大化累積獎勵r,使其自主行為策略收斂至最優,如圖2 所示。

圖2 強化學習原理圖
針對無人戰車自主機動決策問題,本文選取我方戰車位置、戰車速度、機動目標位置、碰撞檢測等參數描述狀態空間Sm,如表1 所示。動作空間Am由方向、油門、剎車的連續控制量組成,如表2 所示。

表1 自主機動決策狀態輸入

表2 自主機動決策動作輸出
針對無人戰車自主火力問題,本文選取目標距離、戰車方位角、目標毀傷程度、我方戰車毀傷程度等參數描述狀態空間Sf,如表3 所示。動作空間Af由火炮高低角、方位角和是否開火描述,如表4 所示。
獎勵函數是強化學習算法評估當前動作好壞的直接指標,也是指導策略迭代優化方向的關鍵因素。獎勵函數的設計,直接影響到算法的學習效率和最終策略。

表3 自主火力決策狀態輸入

表4 自主火力決策動作輸出

深度強化學習算法有眾多分支,本文采用DDPG(Deep Deterministic Policy Gradient)算法,針對連續的狀態空間和動作空間,適用于無人戰車的自主機動控制、火力打擊等連續變量控制問題。DDPG算法采用了雙神經網絡的Actor-Critic 框架[8],其算法框架如下頁圖3 所示。

圖3 DDPG 算法框架圖
首先,Q 函數(也稱為動作值函數)定義為針對特定動作at的累積獎勵期望:



對于Actor 網絡,算法同樣利用卷積網絡來近似策略函數,故Actor 網絡又稱為策略網絡,其輸入為當前狀態s,輸出為動作a。而策略網絡的參數更新主要是朝著值函數網絡輸出增大的方向進行,梯度可以近似轉化計算。
為了加速DDPG 算法穩定收斂,本文采用經驗回放機制[9],先將交互數據存入緩存區中,再均勻隨機采樣,打破數據之間的關聯,使策略更快地穩定收斂。通過引入軟更新技巧,對Actor 和Critic 分別設置在線網絡和目標網絡,實現目標網絡參數的平穩更新。公式如下:


雖然深度強化學習方法具備上述優點,但在解決無人戰車自主行為決策問題時面臨著收斂速度慢、獎勵函數設計難度高、對訓練數據和計算能力要求高等缺點,故考慮將基于規則的方法行為樹與深度強化學習方法相結合,劃分任務空間,提高魯棒性。
行為樹是一種遵循一定遍歷順序的決策模型,具有邏輯清晰、模塊化、可擴展性好等特點[10]。如圖4 所示即為行為樹的遍歷方式。每個控制周期開始時,都將行為樹的根節點作為起始點,自頂向下、從左到右遍歷行為樹的各節點。行為樹節點可分為:行為節點、選擇節點、順序節點、并行節點。其中,行為節點是行為樹中的葉節點,負責輸出最終的行為;選擇節點會在其子節點中選擇一個遍歷;串行節點按照從左到右的順序遍歷其全部子節點;并行節點每次同時遍歷所有子節點。

圖4 行為樹遍歷方法
本文提出了深度強化學習結合行為樹的無人戰車行為決策方法,實現基于規則方法和基于學習方法的優勢互補。該決策方法將DDPG 決策模塊作為行為樹的行為節點,利用行為樹模型的邏輯規則和先驗知識將任務劃分為多個子任務,模塊化地使用強化學習方法,降低狀態空間和動作空間的復雜程度,加速策略收斂,降低算力要求;同時,采用DDPG 決策模塊,具備一定的泛化能力和學習能力[11]。

圖5 深度強化學習結合行為樹的決策方法
下頁圖5 所示即為所提出的無人戰車行為決策方法原理圖。在每一個行為決策周期中,無人戰車首先會更新自身狀態,并按照自頂向下、從左到右的順序遍歷整個行為樹。1)當運行到機動順序節點時,無人戰車首先從環境中獲取態勢信息,判斷是否到達目標位置。若到達,則停止機動,若未到達,則更新目標位置,順序執行路徑規劃和機動決策DDPG 節點,實現全局規劃和局部避障功能。2)當運行到火力打擊順序節點時,無人戰車首先從環境中獲取目標信息并跟蹤目標,之后進入機動決策DDPG 節點,對敵方行為作出避險或迎敵動作。最后,判斷目標是否被擊毀。若尚未被擊毀,則進入火力決策DDPG 節點,自主瞄準目標,并控制火炮的高低、方位角以及開火動作。與單獨使用強化學習方法完成作戰過程中的自主機動和火力決策相比,該方法利用行為樹機制將機動任務和火力打擊任務解耦,簡化狀態空間與動作空間的元素組成,降低復雜程度,從而加速算法收斂,提高魯棒性。
所提出的深度強化學習結合行為樹的決策方法算法流程如下:

DDPG 機動決策節點與火力決策節點算法流程如下:

本文基于UE4 仿真環境構建了無人戰車作戰場景,以單對單無人戰車作戰想定為例,驗證本文提出深度強化學習結合行為樹的無人戰車自主行為決策方法的有效性。敵方目標戰車采用基于規則的行為決策方法,我方無人戰車采用本文所提出的深度強化學習結合行為樹自主行為決策方法,完成機動和火力打擊任務。
首先,以城市作戰為背景,搭建模擬仿真環境。設置敵方無人戰車圍繞基地自主巡邏,在偵察到我方無人戰車后能夠及時反應,給予火力打擊。我方無人戰車在基地附近,與敵方無人戰車開展對抗,多輪次運行來訓練無人戰車自主行為決策模塊。然后,加快敵方無人戰車反應速度,統計10 次敵我對抗測試結果。
實驗場景參數設置如表5 所示。

表5 實驗參數設置
根據所設置的實驗場景,進行仿真驗證。如圖6所示,我方無人戰車訓練過程中擊中敵方無人戰車。

圖6 無人戰車仿真場景
經過5 000 輪訓練,其累計獎勵如圖7 所示。

圖7 累計獎勵關于訓練輪次變化圖
由于探索行為仍在發生,累計獎勵出現波動,訓練后期,無人戰車自主行為決策通過策略優化迭代實現收斂。我方無人戰車與加快反應速度后的敵方無人戰車進行10 次對抗測試,結果顯示,我方無人戰車有9 次能夠擊毀敵方無人戰車,由于敵方無人戰車采用基于規則的方法,有一定自主能力,說明深度強化學習結合行為樹的方法在本場景中優于基于規則的方法,能夠有效解決無人戰車自主行為決策問題。
本文提出一種基于深度強化學習結合行為樹的無人戰車自主行為決策方法,解決無人戰車自主行為決策問題。針對高動態強對抗環境下,無人戰車完成作戰任務時的序貫決策優化問題,狀態空間大,策略難以穩定收斂,應用深度強化學習結合行為樹方法,突破無人戰車自主行為決策技術,提高無人戰車的學習能力和智能化水平。通過仿真實驗驗證深度強化學習結合行為樹的無人戰車自主行為決策方法的有效性。下一步研究工作將圍繞仿真環境展開,豐富作戰動態場景,建立更加完善的測試機制,便于進行算法驗證。