施偉 馮旸赫 程光權 黃紅藍 黃金才 劉忠 賀威
多機協同空戰是指由兩架或兩架以上的作戰飛機互相配合、相互協作,完成對空作戰任務的一種戰爭方式,包括協同機動、協同打擊及火力掩護等環節,是現代海、陸、空、天、電一體化作戰模式在多機空戰中的具體體現[1].因此,提高多機協同效率,對于掌握戰場制空權、提高對空作戰任務成功率和減少作戰傷亡都具有重大意義.世界各國也越來越關注和重視有助于提高機群整體作戰效能的協同空戰的研究.然而,相較于單架戰機的空戰決策,多機協同問題涉及的實體類型更多、決策空間更大、復雜程度更高.
目前,自主空戰決策的算法研究,依據其核心內涵的不同,主要分為數學求解、機器搜索以及數據驅動三類方法.
第一類是基于數學求解的空戰決策方法.該方法最早可以追溯到上世紀Isaacs[2]提出的利用數學形式解解決追逐問題,但Isaacs 提出的方法缺乏嚴格的數學證明,只適用于簡單的空戰場景[3].隨著優化控制理論在20 世紀60 年代被提出,學者們開始嘗試用該理論解決空戰決策問題.早期的研究將空戰問題簡化為純追逐問題[4](即一方被指定為追逐者,另一方為被追逐者,空戰過程中,角色不發生更改),在空戰優化目標以及飛行動力學的限制下,采用Hamilton 方程求解.進入20 世紀80 年代后,戰機與導彈性能顯著提升,傳統純追逐形式的空戰被超視距空戰替代,敵我攻防角色轉換頻繁,固定角色的純追逐優化問題不再使用,針對雙目標優化的研究被大量開展[5?8].雙目標分別是給定戰場態勢,確定最終空戰結局;給定空戰結局,優化戰機機動動作.
第二類是基于機器搜索的空戰決策方法.目前較為成熟可行的空戰機動決策算法,如影像圖[9?10]、馬爾科夫方法[11?12]、蒙特卡洛搜索[13]、矩陣決策[14?15]、決策樹[16]、近似動態規劃[17?18]等,均是基于類似思路展開的.歐建軍等[19]引入偏好規劃理論解決不確定環境下態勢評估不準確的問題;奚之飛等[20]引入描述多目標威脅的威力勢場理論來構建態勢評價函數;韓統等[21]設計了一種協同威脅指數,強調戰機協同關系對戰場態勢的影響;嵇慧明等[22]結合距離、高度、速度、角度、性能要素構建戰機綜合優勢函數;王炫等[23]建立進化式專家系統樹框架;周同樂等[24]提出將戰場態勢與任務效益相結合的目標函數;左家亮等[25]利用深度神經網絡的預測能力來啟發決策序列搜索;劉樹林[26]提出一種專家意見、會議判斷與統計分析相結合的評價方法.
第三類是基于數據驅動的空戰決策方法.基于數據驅動的方法以神經網絡技術為主,該技術分為兩類:一類是將空戰機動決策問題轉變為分類(模式識別)問題,輸入實時戰場態勢,輸出戰機采取的機動動作[27?28];另一類與前向搜索方法類似,采用動態貝葉斯網絡,對不同戰場態勢下敵、我機機動動作的概率分布進行仿真、預測,判定我機采取的動作[29?30].目前,基于強化學習(Reinforcement learning,RL)的空戰決策技術[31?33]最為流行,以Q-learning 算法為例,該技術重點研究Q 值的設計方法,目標是獲得準確的戰場態勢到動作決策的映射關系.
上述三類研究方向也存在如下問題.
1)基于數學求解的空戰決策方法.是最理想也是最難以實現的,因為該方法要求嚴格的數學邏輯證明,模型構建復雜.僅針對較為簡單的空戰形式有效,如規避導彈、攔截衛星等,但當面臨三維空間復雜機動的纏斗空戰問題時,適用性較為有限.
2)基于機器搜索的空戰決策方法.本質在于解決任務規劃、態勢評估、目標分配等輔助決策問題,遵循“設計態勢評估函數評價戰場態勢、使用智能優化算法搜索最優策略”的邏輯內核.所以,這類方法具有專家經驗要求較高、態勢評估函數設計復雜且粒度難以把握、機動動作策略庫空間較小、優化算法搜索效率低、難以滿足戰場實時性決策的要求、場景簡單且泛化性能差的通病.
3)基于數據驅動的空戰決策方法.以強化學習為例,很多研究只提到強化學習的概念,本質上仍屬于機器搜索的范疇,僅利用神經網絡的預測能力為優化搜索算法提供啟發式經驗;一些研究僅適用于簡單的一對一空戰場景,并且需要大量專家經驗支撐,如評價函數、態勢估計、飛行動力學模型的設計等,這類研究難以移植到復雜場景,泛化性能較差;一些研究雖然提出了多機協同的概念,但只是簡單地將多機問題分解為單機問題來解決,較難提煉出協同戰法.
鑒于上述不同方法的缺點,本文提出一種“集中式訓練–分布式執行”的多機協同空戰決策流程框架.該框架不需要對空戰環境以及戰機飛行動力學進行建模、對專家經驗的需求較小、具有實時決策的能力,且本文提出的4 種算法改進機制能有效提高模型訓練的效率和穩定性,實現了使用強化學習算法解決多機協同空戰決策問題的技術途徑.
本文首先從構建整個決策流程框架入手,設計模型的訓練與執行架構;然后,針對多機空戰場景的特點,設計了4 種改進近端策略優化(Proximal policy optimization[34],PPO)算法的機制,針對性提高了多機協同對抗場景下深度強化學習算法的效果;最后,在兵棋推演平臺上仿真,測試本文提出的決策流程框架以及改進算法的效果,并總結模型涌現出的5 種典型戰法,實驗結果驗證了本文方法的有效性和實用性.
強化學習是機器學習的一個重要領域,其本質是描述和解決智能體在與環境的交互過程中學習策略以最大化回報或實現特定目標的問題.與監督學習不同,強化學習中的智能體不被告知如何選擇正確的動作,而是通過智能體不斷與環境交互試錯,從而學習到當前任務最優或較優的策略,能夠有效地解決在自然科學、社會科學以及工程應用等領域中存在的序貫決策問題.
現有強化學習方法利用馬爾科夫決策過程(Markov decision process,MDP)從理論方面對RL 問題進行基礎建模.MDP 由一個五元組〈S,A,R,T,γ〉定義,其中,S表示由有限狀態集合組成的環境;A表示可采取的一組有限動作集;狀態轉移函數T:S×A →?(S) 表示將某一狀態?動作對映射到可能的后繼狀態的概率分布,?(S) 表示狀態全集的概率分布,對于狀態s,s′ ∈S以及a ∈A,函數T確定了采取動作a后,環境由狀態s轉移到狀態s′的概率;獎賞函數R(s,a,s′)定義了狀態轉移獲得的立即獎賞;γ是折扣因子,代表長期獎賞與立即獎賞之間的權衡.
近年來,隨著深度學習(Deep learning,DL)技術的興起及其在諸多領域取得的輝煌成就,融合深度神經網絡和RL 的深度強化學習(Deep reinforcement learning,DRL)成為各方研究的熱點.同基本的強化學習方法相比,DRL 將深度神經網絡作為函數近似和策略梯度的回歸函數.雖然使用深度神經網絡解決強化學習問題缺乏較好的理論保證,但深度神經網絡的強大表現力使得DRL 的結果遠超預期,并在戰略博弈[35?36]、無人機控制[37]、自主駕駛[38]和機器人合作[39]等領域取得了較大突破.
在非凸優化的情況下,梯度可以用數值方法或抽樣方法計算,但很難確定適當的迭代學習率,需要隨時間變化以確保更好的性能.早期的強化學習研究在使用基于梯度的優化技術時也遇到了這樣的困境,為規避瓶頸,Schulman 等[40]提出一種處理隨機策略的信任域策略優化(Trust region policy optimization,TRPO)算法.該算法在目標函數中考慮了舊策略和更新策略之間的Kullback-Leibler(KL)發散,并能對每個狀態點的KL 發散進行有界處理.該方法跳出了對學習率的修正,使策略改進過程更加穩定,理論證明該方法單調地增加了累積獎賞.考慮到TRPO 中二階Hessian 矩陣計算的復雜性,Schulman 等[34]進一步發展了一階導數PPO算法.
圖1 描述PPO 算法中神經網絡的更新流程.訓練時從經驗回放庫(Replay buffer)中選擇一批樣本(Sample)供網絡參數更新.PPO 算法采用的是Actor-Critic(AC)框架,包含兩個網絡.Actor 網絡更新部分,同TRPO 方法一樣,定義了surrogate 目標:

圖1 PPO 訓練流程圖Fig.1 PPO algorithm training flow chart

在PPO 中,對上述代理目標進行了裁剪:

該目標LCLIP(θ) 實現了一種與隨機梯度下降兼容的信賴域修正方法,并通過消除KL 損失來簡化算法以及減小適應性修正的需求.
Critic 網絡部分,采用傳統TD-error更新網絡參數?,V?(s t) 估計了狀態s t的狀態價值函數.
本節首先介紹多機協同空戰決策流程的總體框架和“訓練?執行”架構,之后在PPO 算法基礎上,設計4 種算法增強機制,用于提升算法和整體框架的性能.
圖2 是基于深度強化學習的多機協同空戰決策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF).整個框架共包括5個模塊,分別為態勢信息處理模塊、深度強化學習模塊、策略解碼模塊、經驗存儲模塊、神經網絡訓練模塊.
框架的輸入量是戰場實時態勢信息,輸出量是所控實體的動作決策方案.原始戰場態勢信息輸入框架后,會首先經過態勢信息處理模塊進行加工,數據經過提取、清洗、篩選、打包、歸一化以及格式化表示后,將傳給深度強化學習模塊;深度強化學習模塊接收態勢信息數據,輸出動作決策;策略解碼模塊接收深度強化學習模塊的動作決策輸出,解碼封裝為平臺環境可接受的操作指令,對相應單元進行控制;同時,通過執行新動作獲得的新的環境態勢以及獎勵值與本步決策的環境態勢信息、動作決策方案一并被打包存儲進經驗存儲模塊;待訓練網絡時,再將這些樣本數據從經驗庫中提取出來,傳入神經網絡訓練模塊進行訓練.
深度神經網絡模塊是整個框架的核心,因為PPO 算法收斂穩定、性能好,并且其使用的一階優化與剪切概率比率的方法操作簡便,適合在兵棋推演平臺上進行多機協同對抗實驗,所以該模塊選取PPO 算法進行驗證性實驗.本文重點在于對多機協同對抗問題進行抽象建模,驗證兵棋推演平臺上使用強化學習算法解決該類問題的有效性,所以文章沒有對比眾多算法的性能差異,只是選取了其中較為先進的PPO 算法舉例.
在單智能體強化學習中,環境的狀態轉移只與單智能體的動作有關,而多智能體環境的狀態轉移依賴于所有智能體的動作;并且,在多智能體系統中,每個智能體所獲得的回報不只與自身的動作有關,還與其他智能體有關.通過學習改變其中一個智能體的策略將會影響其他智能體最優策略的選取,且值函數的估計也將不準確,這樣將很難保證算法的收斂性.因此,我們采用集中式訓練?分布式執行的架構,如圖3.

圖3 集中式訓練?分布式執行架構Fig.3 Framework of centralized training and decentralized execution
“集中式訓練”是指在訓練中使用聯合狀態?動作值函數V?(s,a1,a2,···,a n) 對智能體進行訓練.與分布式訓練(使用局部動作值函數V?(s i,a i) 訓練,輸入單個智能體的局部狀態s i和動作a i)相比,聯合動作值函數輸入的是全局態勢信息s和所有實體的動作信息a1~a n,是真正對于聯合狀態?策略的評估.其優點在于所有實體共享一套網絡參數,在決策動作時能夠考慮實體間的耦合關系,因為整個系統的轉移和回報函數的產生都與聯合動作有關,這樣能有效防止一個實體的策略影響其他實體的策略,解決算法較難收斂的問題.
然而,在真正執行的時候,單個智能體只能觀測到部分信息(包括部分的狀態信息和動作信息),無法獲得其他智能體的動作,甚至無法獲得聯合狀態.這種情況下,輸入決策網絡的是單智能體的局部觀測信息,輸出的是單智能體的決策動作,這就是“分布式執行”.這種決策方式可以彌補不同實體間的動作區分度不大、模型探索性不強的缺點.
空戰決策問題是專業要求高、系統性較強的研究領域,用于空戰的戰法戰術及策略復雜且豐富,所以專家經驗在解決該問題過程中往往具有十分關鍵的作用.傳統獎勵函數通常根據實體間交戰的輸贏判定得分,將戰損分值scoretotal作為獎勵值r用于網絡訓練.

但是,這樣設置的最大問題是獎勵過于稀疏,算法很難收斂.為解決這一問題,對獎勵函數進行改進,將專家經驗嵌入獎勵函數中.考慮到戰機靠近目標點時,神經網絡收到的獎勵反饋應該變大,所以在傳統獎勵函數基礎上增加一個額外獎勵項scoreencourage.

其中,discur表示當前時刻戰機距離目標點的距離,disnext表示下一時刻戰機距離目標點的距離.經過改進后的獎勵函數則變為:

式中,τ是衰減系數,隨著訓練的進行,該值按照式(7)逐漸減小;τstep是遞減步長;τtemp是衰減基數.實驗中的具體設置見附錄表A1.
嵌入專家經驗的獎勵函數,在訓練初期以額外獎勵部分占主導,引導戰機飛往目標點.隨著訓練迭代次數增加,傳統獎勵漸漸占據主導,側重探索空戰的戰法戰術.
使用強化學習解決問題,很難設計一種放之四海而皆準的獎勵函數,需要具體問題具體分析.本節提出的專家經驗獎勵機制的核心思想,是在原有稀疏獎勵的基礎上,人為添加一個稠密的獎勵,從而稠密化智能體獲得的獎賞值,加快智能體的訓練速度.上述專家經驗獎勵函數只是一種參考,真正使用算法框架時,還需要根據實際問題進行具體分析與設計.
在經驗回放庫中采樣時,如果使用傳統隨機采樣操作,不僅無法有效利用高質量的樣本,還有可能導致模型陷入局部最優解.另外,回放庫中的樣本數量不斷變化,也不利于訓練的收斂.因此,提出一種自適應權重以及優先采樣的機制,解決上述問題.
考慮到神經網絡的損失函數受優勢值影響,在設計自適應權重過程中,提高優勢值對采樣權重的影響.將參與采樣的每個智能體產生的樣本分別按照優勢值的絕對值,由大至小、從1 到N進行排序.考慮到全部樣本的采樣概率之和為1,設計如下樣本自適應權重計算公式:

其中,j表示樣本排序序號,P j表示第j號樣本的采樣概率,N表示一個智能體包含的樣本數量.提出的自適應權重計算公式,既增加了優勢值絕對值較大樣本的采樣概率,使獎勵值極大或極小的樣本都能影響神經網絡的訓練,加快算法收斂速度;又能充分發揮探索與利用的關系,平衡不同樣本采樣概率.
采樣時并非將經驗回放庫中的所有樣本統一計算權重并采樣,而是不同智能體分別計算各自產生的樣本的采樣權重,并按照該權重值分別采集預先設定數量的樣本,用于更新網絡參數.這種優先采樣機制能夠采集不同智能體產生的樣本,體現不同智能體間的合作關系,促使不同智能體逐漸收斂到相同目標.
由于多機空戰場景的狀態、動作空間龐大,單個智能體能夠探索的空間有限,樣本使用效率不高.另外,作為典型的多智能體系統,多機協同空戰問題中,單個智能體的策略不只取決于自身的策略和環境的反饋,同時還受到其他智能體的動作及與其合作關系的影響.所以,設計經驗共享機制,該機制包含共享樣本經驗庫和共享網絡參數兩個方面.
所謂共享樣本經驗庫,是將全局環境態勢信息s t、智能體的動作決策信息a t、智能體執行新動作后的環境態勢信息st+1和環境針對該動作反饋的獎勵值rt+1按照四元組 (s t,a t,s t+1,r t+1) 的形式存儲進經驗回放庫,每一個智能體的信息均按照該格式存儲進同一個經驗回放庫中.
在更新網絡參數時,按照第2.4 節所述機制從經驗回放庫中提取樣本,分別計算不同智能體產生的樣本在Actor 網絡和Critic 網絡下的損失值,進而求得兩個神經網絡的更新梯度J i.將不同智能體的樣本計算出的梯度值J i進行加權,可以得到全局梯度公式為:

其中,J i表示第i個智能體樣本計算出的梯度,n表示樣本總數,w i表示智能體i對全局梯度計算的影響權重.這種不同智能體的樣本共同更新同一套網絡參數的機制稱為“共享網絡參數”.
本文實驗只涉及同構智能體,可以使用所有實體的樣本對共享策略網絡進行訓練.當環境中存在異構實體時,依然可以所有實體共享一套網絡參數與經驗池,但需要在狀態空間輸入端、動作空間輸出端、經驗回放池采樣方法上作出一些針對性處理.例如,定義總的狀態空間維度,囊括不同類別實體的所有狀態,每類實體只在其包含的狀態維度上填充數據,其余狀態維度補零,從而統一所有類別實體的網絡輸入維度;同理,輸出端也定義總的動作空間維度,囊括不同類別實體的所有動作,每類實體進行決策時,在輸出端添加mask 操作,實體具有的動作維度正常輸出,不具有的動作維度補零,再對非零維度的輸出進行softmax 操作,按照其概率選擇動作;經驗回放池中的樣本則可以添加實體類別的標簽,在采樣時,均勻采集不同類別實體的樣本.理論上,按照上述方法,深度神經網絡能夠具備決策不同類別實體的能力.由于篇幅有限,本文不對其進行詳細建模.
多機交戰的策略與戰術戰法構成豐富、種類多樣、風格多變,即便在有限動作空間下,依舊具有涌現出豐富戰法的潛力.如果采用傳統PPO 算法的損失函數,訓練中后期智能體的探索能力會顯著下降.如何在算法收斂速度與智能體探索能力之間權衡是值得思考的問題.
為解決上述問題,設計一種基于策略熵的鼓勵探索機制,增強智能體的探索能力,并加快執行器網絡的收斂速度.
不同智能體添加策略熵后的損失函數定義為:

其中,下標i表示第i個智能體;θi表示網絡參數;LCLIP(θi)為傳統PPO 算法的損失函數,計算方法如式(2) 所示;(π(·|s t)) 表示在參數θi下策略π(·|s t)的策略熵,具體計算方法如式(11):

本文出現的策略熵權重默認為1,因此沒有在公式中另行標注.
本文針對的問題背景是多機協同空戰決策,主要強調不同實體間的配合協作.所以在計算損失函數時,不是直接計算全局損失,而是結合優先采樣機制和經驗共享機制,求解不同智能體各自產生的樣本的損失值.相應地,其策略熵也單獨計算,最后計算均值 Ei作為全局損失函數值.
包含鼓勵探索機制的損失函數如式(12):

其中,M是智能體總數.
本文實驗平臺為“墨子?未來指揮官系統(個人版)1版本號:v1.4.1.0”,該平臺支持聯合作戰背景下的制空作戰、反水面作戰等多種作戰樣式的仿真推演,適用于作戰方案驗證、武器裝備效能評估、武器裝備戰法研究等.實驗臺式機搭載的CPU 為i9-10900K、顯卡為NVIDIA GeForce RTX 3090、內存為64 GB.
實驗想定如圖4 所示,該想定中紅藍兵力配置相等,各自包含3 架戰斗機和一個可起降飛機的基地,想定范圍為長1 400 km、寬1 000 km 的長方形公海區域.

圖4 想定示意圖Fig.4 Scenario diagram
想定推演的過程為飛機從基地起飛,對己方基地進行護衛,同時對敵方的戰斗機和基地進行摧毀.各個實體的具體型號和損失得分見附錄表A 2 和表A3.

表A2 想定實體類型Table A2 Entity type of scenario

表A3 推演事件得分Table A3 The score of deduction events
使用PPO 算法構建強化學習智能體,按照第1節所述方法,對強化學習的要素進行定義.
1)狀態設計
狀態包含己方和敵方兩部分實體信息,己方實體信息包含己方飛機和導彈的信息,敵方實體信息包含敵方飛機和導彈的信息.由于戰場迷霧,己方和敵方同類型實體的狀態信息可能不一致,其中缺失的信息補零處理,數據全部按照去量綱的方式進行縮放.具體見附錄表A4.

表A4 狀態空間信息Table A4 State space information
2)動作設計
本文決策的實體控制包含航向、高度、速度、自動開火距離、導彈齊射數量5 個類.由于武器數量有限,當彈藥耗盡時,自動開火距離以及導彈齊射數量的決策將失效.為降低決策動作的維度,本文對航向、高度、速度和自動開火距離進行了離散化處理,具體見附錄表A5.動作空間維度為6×3×3×6×2 共648 維.

表A5 動作空間信息Table A5 Action space information
3)獎勵設計
獎勵包含兩個部分,一部分是稀疏的戰損獎勵,另一部分是嵌入式專家經驗獎勵.如第2.3 節所述的額外獎勵思想,本文采用的嵌入式獎勵是戰斗機距離敵方基地的距離減少量.本文將戰損得分與嵌入式專家經驗獎勵進行歸一化,防止變量量綱對計算結果的影響.
4)網絡設計
本文Actor 網絡與Critic 網絡結構大致相同.其中,全局態勢信息以及實體個體態勢信息分別經過多層歸一化層、卷積層對特征進行壓縮與提取,將兩部分獲得的中間層信息進行拼接,再經過全連接層后輸出.Actor 網絡輸出648 維動作概率分布,Critic 網絡輸出1 維狀態評價值.神經網絡示意圖見附錄圖A1.

圖A1 神經網絡示意圖Fig.A1 Diagrams of neural network
5)超參數設計
實驗過程中涉及的各種超參數設置見附錄表A1.

表A1 實驗超參數設置Table A1 Experimental hyperparameter setting
為驗證本文所提出的算法框架的有效性,根據上述設計方法進行對比實驗,分別記錄DRLMACACDF 模型、傳統PPO 算法模型、人類高級水平的模型與傳統規劃方法對戰的得分曲線,如圖5.其中,傳統PPO 算法也采用了“集中式訓練?分布式執行”框架;傳統規劃方法采用的是人工勢場避障算法與0-1 規劃相結合的規則模型;人類高級水平數據來源于第三屆全國兵棋推演大賽決賽前三名選手的比賽模型的平均得分.

圖5 算法有效性對比圖Fig.5 Algorithm effectiveness comparison diagram
從圖5 可以看出,隨著訓練次數的增多,DRLMACACDF 模型的得分曲線逐步上升,經過大約1 000 輪訓練后,超越了傳統規劃算法水平.模型大約在6 000 輪左右開始收斂,得分達到最大值.相比而言,傳統PPO 算法效果較差,得分始終為負,遠不及傳統規劃算法水平線.表1 是DRL-MACACDF和傳統PPO 算法的實驗數據統計.

表1 算法有效性實驗數據統計Table 1 Experimental statistics of algorithm effectiveness
從表1 可以看出,在15 000 輪訓練中,本文提出的DRL-MACACDF 算法平均勝率高達91.472%,而傳統PPO 算法平均勝率僅為0,性能結果對比十分鮮明.雖然DRL-MACACDF 模型的得分標準差偏高,但模型在經過訓練后,對戰能力迅速提升,比賽得分快速變化,所以造成了高標準差.當經過6 000 輪訓練,DRL-MACACDF 模型開始收斂后,重新計算DRL-MACACDF 模型的得分標準差則僅有1.313,反映出該模型性能穩定,波動較小.實驗結果證明,未加改進且缺乏專家經驗的傳統PPO 算法難以解決多機協同對抗決策問題,算法效果比傳統規劃算法效果還差.相較而言,本文提出的DRL-MACACDF 算法及決策框架,實驗效果超過了傳統強化學習算法和傳統規劃算法,性能良好且效果穩定,驗證了算法框架的有效性.
本文提出的算法框架包含4 種針對多機協同對抗對策問題背景的改進機制.為研究不同機制對算法性能的影響,設計消融實驗,通過在傳統PPO 算法上增減4 種改進機制,比較不同模型的效果.經過簡單試驗發現,在未使用嵌入式專家經驗獎勵機制的情況下,不同模型的得分都很低,其他機制對算法性能的影響效果難以觀察.因此,消融實驗改為在DRL-MACACDF 模型基礎上分別去除某一機制,根據實驗結果間接比較不同機制的作用.4 種對比算法的設置如表2 所示.

表2 消融實驗設置Table 2 The setting of ablation experiment
圖6 是消融實驗算法性能對比曲線,在傳統PPO 算法基礎上增加任意三種增強機制對實驗性能均有一定程度的提高,由于作用機制不同,其影響程度也存在差別.具體來看,未添加嵌入式專家經驗獎勵機制的DRL-MACACDF-R 模型性能最差,僅稍優于傳統PPO 算法,所以說專家經驗在強化學習中的指導意義巨大,可以給實驗性能帶來顯著提升;未添加經驗共享機制的DRL-MACACDF-A模型與DRL-MACACDF 模型學習曲線大致相當,但收斂速度相對較慢,且最終收斂得分稍低.無自適應權重及優先采樣機制和無鼓勵探索機制的模型性能依次降低,其中未添加鼓勵探索機制的DRLMACACDF-E 模型前期性能提升較快,但大約在6 000輪左右就開始收斂并陷入局部最優,最終落后于未添加自適應權重及優先采樣機制的DRL-MACACDF-S曲線;DRL-MACACDF-S 模型,前期收斂速度很慢,但模型性能一直在提高,訓練到10 000 輪左右時,反超DRL-MACACDF-E 模型.表3 統計了4種對比算法相較于傳統PPO 算法平均得分提高的百分比.

表3 消融實驗數據統計Table 3 Statistics of ablation experimental results

圖6 消融實驗算法性能對比圖Fig.6 Performance comparison diagram of ablation experimental algorithm
消融實驗證明,在解決本文設計的3V3 多機協同空戰背景的問題時,本文提出的DRL-MACACDF算法框架中添加的4 種創新增強機制均能提高算法性能,適用于解決多機協同空戰決策問題.
算法效率的高低是評價算法優劣的重要指標,模型訓練過程中的累計勝率曲線,反映了算法的學習效率.其導數為正值時,代表模型性能正在提高,勝利次數不斷增多;曲線斜率越大,則學習效率越高.如圖7 可以看出,實驗開始時算法更新迅速,模型性能提升較快,經過2 500 輪左右的訓練,累計勝率就達到了50%;至6 000 輪左右時,已經基本完成訓練,更新效率開始下降,模型趨于收斂.

圖7 累計勝率曲線Fig.7 Cumulative winning rate curve
進一步,分別抽取經過500 輪、1 000 輪、2 000輪、5 000 輪以及10 000 輪訓練的模型進行交叉對抗,統計100 局對抗的平均勝率,繪制勝率分布圖(如圖8 所示).
從圖8 的漸變可以看出,隨著訓練進行,模型性能呈現明顯的變化趨勢.以最左側列為例,從500 輪訓練增加到1 000 輪訓練,新模型就能以高達90.1%的概率贏得勝利,相較于傳統強化學習算法,本文模型能夠以很快的速度提升決策能力,隨著訓練次數增加,模型基本上能以接近100%的概率獲勝.由第4 列可知,當訓練從5 000 輪增加到10 000 輪,模型僅有53.6%的概率獲勝,此時勝負基本上是按照相等概率隨機分布的.這說明當達到最優解時,模型收斂穩定,且性能不會有大幅度的波動.

圖8 勝率分布圖Fig.8 Winning rate distribution map
復盤實驗數據,總結交戰過程中DRL-MACACDF 模型涌現出的作戰意圖、策略、戰術與戰法.
1)雙機與三機編隊戰術
智能體涌現出自主編隊能力,如圖9、圖10 所示,從基地起飛后,智能體會隨機采取雙機編隊或者三機編隊前往作戰區域.當使用雙機編隊時,通常智能體會選擇從南北兩路分別前往作戰區域包圍敵方飛機;而采用三機編隊時,智能體更傾向于從中路挺進,高速機動至交戰區主動迎敵.

圖9 雙機編隊Fig.9 Two-plane formation

圖10 三機編隊Fig.10 Three-plane formation
2)包夾戰術
如圖11 所示,在與敵方飛機對抗時,智能體常常會使用包夾戰術.兩架戰斗機同時從兩個方向對敵方飛機發起攻擊,充分發揮飛機數量優勢,與敵方戰機進行纏斗.這種包夾戰術表明,智能體已經具備控制多機、探索和實現復雜戰法的能力.

圖11 包夾戰術Fig.11 Converging attack
3)充分發揮武器射程優勢
如圖12 所示,經過訓練的智能體學會充分利用武器的有效射程,在敵方飛機進入導彈射程后,立即發射導彈進行攻擊,隨后調頭脫離敵方飛機攻擊范圍.如果導彈未擊落敵機,則再次靠近敵方飛機,重新組織進攻.該戰術動作既能有效節約彈藥,充分發揮導彈效能,又能最大限度減少己方傷亡.

圖12 發揮射程優勢Fig.12 Usage of maximum attack range
4)快速機動避彈動作
如圖13 所示,經過仔細復盤戰斗機空戰中的機動動作,發現智能體的行為涌現出一種明顯的快速機動主動避彈的戰術動作.當敵方導彈臨近己方戰斗機時,戰斗機會迅速向垂直于導彈瞄準基線的方向機動,之后再重新飛往目標點.采用突然變向的戰術動作,大幅降低了戰機被擊落的概率,經過統計,初始模型中擊落一架戰機平均需要1~2 枚彈,使用經過訓練的智能體進行避彈,平均需要4~5枚彈.

圖13 快速機動避彈Fig.13 Fast maneuvers to avoid attack
5)誘騙敵方彈藥戰法
另一個明顯的戰法是誘騙敵方彈藥,如圖14所示,智能體控制多架戰機在敵方火力范圍邊界試探,引誘敵方進行攻擊.當探測到敵方發射導彈對己方飛機攻擊后,會機動至敵方攻擊范圍外,超出敵方導彈射程;待失去導彈攻擊的威脅后,會再次進入敵方火力覆蓋范圍.該策略可以同時控制多架戰機誘騙敵方彈藥,能夠在短時間內大量消耗敵方導彈.

圖14 誘騙敵方彈藥Fig.14 Consume enemy ammunition
針對多機協同空戰決策的問題背景,本文提出一種“集中式訓練–分布式執行”的多機協同空戰決策框架.該框架內置深度強化學習模塊,并針對多機空戰場景的特點,設計了4 種PPO 算法改進機制,針對性提高了多機協同對抗場景下深度強化學習算法的效果,有效解決了多機協同空中作戰實體類型眾多、狀態和動作空間巨大、協同合作關系復雜程度高等問題.實驗結果證明,本文方法相較于傳統規劃算法和PPO 算法具有明顯優勢,進一步,消融實驗驗證4 種性能提升機制都不同程度地增強了算法性能,并且算法效率較高,能在有限的訓練次數下達到良好的效果.模型在訓練過程中涌現出的大量鮮明的戰術戰法表明,本文決策流程框架具有良好的探索能力,能充分挖掘、利用多機空戰場景下不同實體間協同合作的機制以及合作與競爭的戰術戰法,在戰場輔助決策領域具有巨大的應用價值.
本文重心在于抽象多機協同對抗問題,構建適合強化學習算法求解的模型,驗證技術路徑的可行性,所以并未對不同強化學習算法進行對比分析.在未來的工作中,可以進一步拓展框架下的算法種類,包括連續控制任務或者離散控制任務算法.
另外,實驗規模局限在3V3 飛機空戰,還未驗證大規模復雜場景下的算法性能.下一步的研究可以將想定設計的更加貼合實戰、更加復雜,比如增添實體種類、增加實體數量、豐富作戰任務等.
致謝
特別感謝梁星星、馬揚對本文實驗及文章撰寫工作的支持.