智能空戰深度強化決策方法現狀與展望

2024-08-22 00:00:00張燁涂遠剛張良崔顥王靖宇

航空兵器 2024年3期

摘" 要：""""" 本文聚焦于現代智能空戰決策技術的發展需求，分析了智能空戰場景的要素與特點，介紹了現有智能空戰決策理論的研究現狀，包括基于博弈理論的決策方法、" 先驗數據驅動的決策方法、" 基于自主學習的決策方法，著重梳理了基于價值和基于策略的深度強化學習智能決策方法。" 最后，面向未來智能空戰面臨的各種挑戰以及傳統深度強化學習的局限性，展望了深度強化學習技術在空戰領域的發展方向："" 面向集群作戰的多體智能決策技術、" 面向廣域時空的高效智能決策技術、" 面向復雜場景的泛化智能決策技術。

關鍵詞："""" 空戰決策; 人工智能; 強化學習; 智能博弈;" 集群作戰；"" 深度學習

中圖分類號："""""" TJ760

文獻標識碼：""" A

文章編號：" """1673-5048（2024）03-0021-11

DOI： 10.12132/ISSN.1673-5048.2023.0083

引用格式：張燁，涂遠剛，張良，等 . 智能空戰深度強化決策方法現狀與展望［ J］. 航空兵器， 2024， 31（ 3）： 21-31.

Zhang Ye， Tu Yuangang， Zhang Liang， et al. Status and Prospect on Deep Reinforcement Learning Decision-Making Methods for Intelligent Air Combat［ J］. Aero Weaponry， 2024， 31（ 3）： 21-31.（ in Chinese）

0" 引" 言

隨著現代空戰逐漸向強對抗、高動態、強不確定性等復雜戰場環境轉變，由人工智能理論賦能的智能空戰決策技術成為各國軍事應用智能化的研究重點。自20世紀60年代以來，智能空戰決策技術隨著戰場環境和作戰形態的演進經歷了若干階段［1］。早期的空戰形態以有人機對抗為主，智能決策系統依據專家知識生成機動規則，為飛行員提供輔助決策或對抗訓練。受限于人類固有戰術認知，此階段的決策算法智能化程度不高。隨著高性能無人裝備的出現，基于智能算法的機動策略演進技術使得無人系統在空戰場景中能夠補償有人機在反應速度和毀傷成本上的劣勢，逐漸發展為具有獨立作戰能力的智能平臺［2］。近年來，隨著有人/無人協同及分布式無人集群等新型作戰架構的出現，智能空戰決策技術正在向具有自主學習能力的智能決策理論發展，逐步由人類經驗主導過渡到以無人化自主決策為特征的新模式［3- 4］。其中，基于深度強化學習的智能決策算法通過智能體與環境或對手的對抗性博弈，學習并生成最優策略，實現累計回報最大化。與傳統決策方法不同的是，深度強化學習算法不受限于已有的專家經驗，能夠通過探索和學習實現對更加復雜空間的適應性和魯棒性，在能力涌現、自演進、自學習等方面具有優勢［5］。

然而，現有深度強化學習方法在智能空戰領域的應用研究仍處于初級階段，還存在若干難題和挑戰。例如，雖然赫倫（Heron）公司憑借深度強化學習技術在“阿爾法狗斗”競賽項目中擊敗人類飛行員，但其對創造性的戰術和策略仍缺乏深刻理解［1］。其次，戰場態勢復雜多變，導致決策過程面臨高維狀態-動作空間和稀疏獎勵問題，學習效率和收斂平穩性難以提高。此外，深度強化學習算法在可解釋性、安全性和泛化性等方面的缺陷，限制了其在實戰裝備上的實際應用。面對上述問題，如何對現有深度強化學習方法進行適應性改進，解決復雜戰場環境下的自主決策問題，進而提出支撐指揮與控制智能化的共性技術，具有重要的理論意義和軍事應用價值。

1" 智能空戰決策技術

1.1" 智能空戰決策技術要素與特點

智能空戰決策技術研究包含三個要素：" 作戰平臺、組織架構和決策理論，如圖1所示。

智能化作戰平臺依托智能感知與決策技術實現復雜場景下的偵察和打擊任務。作為現代空戰的主要打擊手段，以美國AIM-120、法國 MICA-EM以及俄羅斯P-77為代表的第四代雷達型空空導彈采用復合制導體制，

收稿日期： 2023-05-10

基金項目：國家自然科學基金青年項目（52202502）；中央高校基本科研業務費（D5000210857）

*作者簡介："" 張燁（1990-），女，陜西西安人，副教授。

具有多目標攻擊與發射后不管的能力，并采用了先進的抗干擾技術。在無人機自主作戰系統中，基于人工智能的“Alpha”AI系統具有一定的代表性。該系統通過使用基于語言的控制方法與“遺傳模糊樹”技術，解決了計算成本和性能之間的沖突，能夠真正實現低成本計算下的高效性能［6］。

智能戰場的組織架構是實現智能決策算法的關鍵，主要包含有人/無人機協同以及分布式無人集群兩種形式。有人/無人機協同作戰以有人平臺作為作戰時的總指揮，通過數據通信指揮無人機；" 無人機平臺執行有人作戰平臺發出的指令，完成目標識別、攻擊、規避和評估等任務，再將識別與評估結果上傳至有人作戰平臺，通過收集到的戰場信息對無人機進行宏觀調控。該技術利用了機器智能與人類智能的互補關系，既能避免飛行員處于危險環境中，又能保證作戰指令是受到人類嚴格把控的。 2019年3月，美國空軍研究實驗室（Air Force Research Laboratory， AFRL）發布了“空中博格”（Skyborg）項目，該項目旨在開發一種基于人工智能技術的無人機系統，采用模塊化和開放式框架，以此實現即使面對不同的復雜任務也能夠快速適應［7］。

分布式集群是智能空戰中的另一重要架構，其以面向任務的組織架構設計，采用分布式協同和智能決策方法實施全方位攻擊。匈牙利羅德大學的TamásVic-sek團隊利用群體智能行為機制，實現了10架四旋翼無人機的自主集群飛行試驗［8］。美國國防部高級研究項目局（Defense Advanced Research Projects Agency， DARPA）采用群體智能理論構建了面向對象的無人機集群的蜂群戰術，實現了進攻性蜂群使能戰術項目［9］。

智能空戰決策方法是連接作戰平臺和組織架構的理論基礎。目前用于解決智能空戰決策問題的方法大致可以分為三類：" 基于博弈理論的決策方法、先驗數據驅動的決策方法以及基于自主學習的決策方法，如圖2所示。這些方法是實現智能空戰決策的核心關鍵技術。 1.2" 智能空戰決策技術

1.2.1" 基于博弈理論的決策方法

在軍事上，尤其是在空戰領域運用博弈理論早已成為國內外研究的熱點。基于博弈理論的空戰問題主要有微分博弈和矩陣博弈。微分博弈是一種動態博弈策略，適用于追、逃、防御等問題。矩陣博弈則是通過建立基本機動動作庫作為備選動作，再以空戰中的角度、高度和速度等參數作為評價函數，以此建立博弈矩陣。

（1）微分博弈

微分博弈的求解一直是空戰決策研究的重點和難點，通常情況下只能通過梯度下降等方法得到數值解。文獻［10］擴展了經典的微分博弈論，設計了鞍點策略，采用了具有代表性的性能度量，得到了伴隨博弈的值函數，為使用微分博弈理論形式化地分析N個追擊者和M個逃避者的復雜高維沖突提供了基礎。文獻［11］利用最優控制和微分博弈理論，推導了任意階線性導彈和目標動力學的制導律，并得到了基于理想導彈模型及具有恒定軸向加速度的目標動力學的解析解。目前來看，基于微分博弈的空戰決策方法存在如下缺點：" 基于微分博弈的空戰決策模型要經過大量簡化才能計算，因此該方法難以應用于實際場景中；" 微分博弈的求解復雜性高、耗費時間長，與空戰本身具有的特點相矛盾。

（2）矩陣博弈

矩陣博弈具有方法靈活、計算速度快、計算量小等優點。文獻［12］根據角度威脅和距離威脅計算出空戰態勢評估函數，構建博弈矩陣。利用博弈混合策略設計了待優化的目標函數，并通過基于遷移學習的鴿子啟發式優化（Transfer Learning Pigeon-Inspired Optimization， TLPIO）得到最優混合策略。同時，所提出的TLPIO并沒有隨機初始化種群，而是采用基于Kullback-Leibler （KL）散度的遷移學習方法初始化種群，提高了優化算法的搜索精度。文獻［13］針對多無人機威脅排序時難以獲得完全信息的問題，利用博弈模型獲得不確定參數，再將已建立好的模糊收益的零和博弈轉化為具有清晰收益的矩陣博弈來解決上述問題。然而，基于矩陣博弈的空戰決策方法還存在著不足之處：" 決策時往往只顧及短期收益，沒有考慮長期收益；" 矩陣博弈比較保守，該決策方法只能保證我方收益不低于某個值，難以獲得最優的收益。

1.2.2" 先驗數據驅動的決策方法

基于先驗數據的智能空戰決策方法主要分為兩類方法：" 基于專家系統和基于深度學習的決策方法。基于專家系統的決策方法是利用人類專家的知識和經驗組成一個知識庫，再將其放入計算機中，根據當前空戰態勢選擇相對應的決策。基于深度學習的決策方法則是讓具有空戰經驗的飛行員在模擬機中對空戰進行決策，從而獲得大量的訓練樣本，然后利用深度神經網絡強大的擬合與計算能力，得出當前空戰態勢與在該態勢下執行的決策動作之間的關系。

（1）專家系統

傳統專家系統基于當前空戰態勢，用類似于IF-ELSE-THEN的邏輯規則產生基本的控制律。具有代表性的是美軍自適應機動邏輯（Adaptive Maneuver Logic， AML）系統［14］， NASA考慮到空戰決策的高實時性、隨機性等特點，認為經驗豐富的人類飛行員能夠較好地應對空戰場景，故借助專家系統使無人機能夠擁有自主決策的能力。其缺點也較為明顯：" 規則庫的建立復雜；" 策略簡單且固定；" 對于不同的機型適配性很差。

文獻［15］開發了一種嵌入式專家系統，匯聚了大量專家提供的空戰專業知識，再利用快速原型法促進知識的獲取。考慮到空戰場景的復雜多變性，專家系統難以利用不確定因素完成任務，針對上述問題，文獻［16］利用模糊貝葉斯網絡（Fuzzy Bayesian Network， FBN）處理不確定因素，構建了一個基于專家系統和FBN的混合戰術決策系統。仿真結果顯示該系統能夠提高實時性，同時能夠處理環境中的不確定因素。文獻［17］針對作戰環境復雜、對專家知識的過度依賴以及學習效率低等問題，利用動態質量重放（Dynamic Quality Replay， DQR）技術，有效引導智能體從歷史數據中學習戰術策略。目前基于專家系統決策方法的研究已經較為成熟，與其他方法的結合也能彌補該方法的部分缺點，但依舊存在著不足之處：" 將人類專家的知識和經驗轉化為知識庫的過程本身就很復雜，且不夠全面；" 專家系統的學習能力差，難以對新的知識進行學習。

（2）深度學習

神經網絡作為深度學習中最為成熟與重要的算法之一，是對人腦神經元的一種模擬與抽象，在學習以及構建極其復雜模型方面尤其突出。在早期，文獻［18］就探索了人工神經網絡在空戰機動中的適用性，然而其解釋性差，需要大量的樣本數據進行訓練，難以真正應用在實際空戰中。

文獻［19］以深度神經網絡為基礎，提出了中程導彈交戰時快速分類的方法，該方法應用了神經網絡和統計學程序，對無噪聲和有噪聲的飛行器作出了極其準確的類別預測，其最終目標是能在飛行過程中迅速識別未知導彈的特征。文獻［20］在給定專家飛行員的飛行軌跡時，研究了如何學習空戰機動模型的問題。其訓練了一個內部模型代表未來狀態，通過使用MDN-RNN（Mixture Density Networks-Recurrent Neural Network）和控制器模仿專家操作，然后通過假設的環境模型想象交戰情況。該方法不需要與真實環境交互，也不需要設計獎勵函數，極大地降低了成本，提高了訓練效率。盡管基于深度學習的決策方法相較于基于專家系統的決策方法，其構建模型更簡單，學習能力更強，但仍然存在缺點：" 訓練的數據來源于飛行員，無論如何訓練，該模型最后的決策能力也無法超越飛行員；" 神經網絡的參數與結構需要人為設計，無法避免人類自身的偏向性，具有較強的主觀性。

1.2.3" 基于自主學習的決策方法

自主學習是一種不需要先驗知識的智能學習方法，大致可以分為自適應動態規劃（Adaptive Dynamic Programming， ADP）和深度強化學習兩部分。前者是在動態規劃的基礎上形成的，考慮到動態規劃求解時需要系統的狀態轉移概率，而該概率在大多數情況下是未知的，因此利用一個離散公式來近似原始問題，最終能夠在未知狀態轉移概率的條件下找到問題的近似最優解；" 后者則是讓智能體與環境進行交互，執行動作從而獲得獎勵，其目的就是通過優化策略使期望回報最大。

自適應動態規劃又稱為近似動態規劃，是人工智能與控制科學交叉形成的方法。 ADP將狀態抽象為函數，利用價值迭代或策略迭代生成決策方法。文獻［21］提出了近似動態規劃的方法，開發并測試了一種近似策略迭代算法，該算法通過神經網絡回歸實現值函數的逼近，以獲得高質量的自主無人戰斗飛行器機動策略。自適應動態規劃仍存在以下缺點：" ADP只能解決離散動作問題，難以應用在實際的空戰系統中；"" ADP需要對手的空戰模型，沒有統一的模型來實現對手模型的建立。

深度強化學習結合了深度學習和強化學習各自的優點來建立人工智能系統，主要在強化學習中使用深度神經網絡的強大數據表達能力，例如價值函數可以用神經網絡來近似，以實現端到端的優化學習。借助深度神經網絡強大的擬合與計算能力，深度強化學習的發展突飛猛進。 2019年5月， DARPA啟動空戰演進（Air Combat Evolution， ACE）項目，目的是開發可信賴的人工智能算法和協作技術，將有人/無人機結合起來，實現自主空戰［22］。在Alpha Dogfight比賽中，所有參賽隊伍都基于深度強化學習開發了算法，而赫倫系統公司的智能體脫穎而出，其特點是沒有使用任何專家系統［23］。盡管深度強化學習相對于其他方法已經有了很大的改進，其仍存在著許多挑戰：" （1）樣本效率問題。深度強化學習在訓練過程中需要大量的樣本數據，這就導致了訓練效率越高，最終的結果越快獲得，并且表現越好。（2）災難性遺忘問題。由于訓練的次數過多，盡管可以通過回放池保存先前訓練的內容，但是在使用了神經網絡后的樣本數據過于龐大，已經被訓練過的數據往往要去擬合新的數據。

2" 基于深度強化學習的智能空戰決策方法

基于深度強化學習的智能空戰決策方法主要分為兩類：" （1）基于價值的方法。該方法是對動作價值函數Q的優化，最優的策略是通過選取最大的動作價值函數所對應的動作。典型的算法為深度Q網絡（Deep Q-Network， DQN）［24］。（2）基于策略的方法。該方法直接對策略進行優化，使用策略梯度方法，實現期望回報的最大化。典型算法有REINFORCE［25］和Actor-Critic［26］。兩者的區別在于前者使用實際觀測的回報來近似動作價值函數，方差大，速度慢；" 后者采用神經網絡近似動作價值函數，方差小，速度快。因此，目前深度強化學習大多使用基于Actor-Critic的算法。典型的算法有以信賴域策略優化算法（Trust Region Policy Optimization， TRPO）［27］和近端策略優化算法（Proximal Policy Optimization， PPO）［28］為代表的隨機策略方法，也有以深度確定性策略梯度算法（Deep Deterministic Policy Gradient， DDPG）［29］為代表的確定性策略方法。二者的區別在于前者輸出相應動作的概率，后者直接輸出特定的動作。

2.1" 基于價值的方法

價值學習的目標是找到一個函數，使其能夠估計在當前狀態下采取某一動作后所能帶來的價值。當這個函數已知，就能使用它來進行決策。簡單來說，價值學習就是當前時刻對于未來時刻的價值判斷。缺點在于其不確定性很大，因為無論是環境狀態的轉移還是智能體的決策都具有隨機性，并且時間跨度越長，估計越不準確。優點在于基于價值的方法采樣效率高、方差小，難以陷入局部最優，通常適用于離散動作空間的問題。

基于價值的方法一般是利用Q值表格進行建模和求解，只能解決小規模的簡單問題。例如，將DQN用于一對一近距空戰決策的生成，但其只適用于離散動作空間的問題，難以滿足實際飛行的需求。如圖3所示，空戰模型生成連續狀態作為輸入，經過幾個全連接層后輸出動作的Q值，然后將當前狀態、動作、獎勵和下一狀態存儲到經驗回放池中，從中隨機抽取樣本更新權重［30］。

文獻［31］考慮到DQN訓練需要巨大的計算量，模仿人類從簡單到復雜知識的學習過程，進行了分階段訓練。盡管最后獲得的結果并不是最優的，但是減少了大量的訓練時間并且結果是有效的。文獻［32］針對多對多智能空戰場景，對目標分配和機動決策進行了研究。目標分配基于混合粒子群優化算法（Hybrid Particle Swarm Optimization Algorithm）加入了移民粒子，防止陷入局部最優，機動決策則通過Double Q-learning算法，減少了DQN算法容易過擬合的問題。文獻［33］研究了多無人機在近距空戰中機動決策的生成方法，設計了參數共享深度Q網絡（Parameter Sharing-Deep Q Network， PS-DQN）算法，每一個智能體共享一個Q值網絡的參數。文獻［34］則在PS-DQN的基礎上提出了參數共享競爭深度Q網絡（Parameter Sharing Dueling Deep Q-Network， PS- DDQN）算法，打破了Multi-UCAV空戰中大狀態空間帶來的復雜性。相比于PS-DQN來說， PS-DDQN增加了一個Dueling網絡結構，使得PS-DDQN只需要學習對價值有影響的動作策略，減少了無關動作的訓練。文獻［35］研究了連續系統追擊與逃避的最優解問題，將雙模糊系統與Q-learning結合。由模糊Q-learning和Q值表模糊推理兩部分組成。克服了Q-learning難以在連續、低維空間中實現的缺點。文獻［36］將后見經驗回放（Hindsight Experience Replay， HER）與參數化深度Q-網絡（Parameterized Deep Q-Networks， PDQN）結合起來，形成了一種新的算法——HER-PDQN。該算法避免了獎勵函數的設計，并且減少了人類潛在意識對訓練過程的影響，有效解決了混合動作空間以及獎勵稀疏的問題。文獻［37］提出了多步雙深度Q-網絡（Multistep Double Deep Q-Network， MS-DDQN）算法，將最終回報獎勵放入前面的訓練步驟中，再將訓練前的模型作為第二學習模型的開始，使用該算法可以加快訓練速度和收斂速度。文獻［38］提出了一種基于態勢連續性的機動自主決策方法，設計了具有強引導的態勢評估函數，在深度Q網絡框架下訓練長短期記憶（Long Short-Term Memory， LSTM）進行空戰機動決策。基于價值的方法缺點較為明顯：" 不能處理連續動作空間問題；" 最終獲得的策略一般為確定性策略；" 簡單地采用ε-貪心策略容易導致過估計。而基于策略的方法則可以解決上述問題。

2.2" 基于策略的方法

策略學習的目的是獲得一個盡可能優的策略函數，使得該函數在未來能夠獲得盡可能大的累計回報。一般將策略π描述為一個帶有參數θ的函數，其決定了策略的具體形式，因而求解基于策略的問題轉變為如何確定策略函數的參數θ的問題。基于策略的方法適用于高維或連續動作空間的問題，并能夠自然地對隨機策略建模。在基于Actor-Critic的算法中， Critic網絡利用基于價值的方法學習Q值函數或狀態價值函數V來提高采樣效率， Actor網絡利用基于策略的方法學習策略，適用于連續、高維的動作空間。基于Actor-Critic的方法既可以看作是基于價值的方法在連續空間中的應用，也可以看作是基于策略的方法減少方差和提升采樣效率的改進。

文獻［39］以一架有人機和四架無人機協同作戰為戰斗場景，采用PPO算法，對獎勵函數增加了脫離獎勵、制導獎勵、目標分配及攻擊獎勵，使得決策更加靈活。文獻［40］提出了多智能體分層策略梯度算法（Multi-Agent Hierarchical Policy Gradient， MAHPG），該算法能夠學習多種策略，并通過對抗性自博弈學習超越專家系統，同時采用分層決策網絡處理復雜的混合動作，將選定的動作傳給后續動作的預測層，有效降低了動作的模糊性。鑒于近距空戰策略方法大多局限于規則或離散動作集，文獻［41］以端到端方式從觀測中學習近距空戰策略，為提高近端策略優化（PPO）的學習效率設計了狀態空間，同時還為該博弈設計了極大極小策略。文獻［42］提出了一種最終獎勵估計和近端策略優化的空戰機動決策方法（Final Reward Estimation-Proximal Policy Optimization， FRE-PPO），設計了中間和最終獎勵函數，并讓最終獎勵函數取代原始PPO中的優勢估計函數，提高了訓練性能，最后對最終獎勵函數抽樣，提升了訓練效率。文獻［43］提出了一種基于態勢評估和貪婪算法的敵方機動策略，然后構造基于基本機動庫的動作空間和近端策略優化算法的狀態觀察空間，設計帶有情景獎勵塑造的獎勵函數，以加快收斂速度。

上述方法大多以PPO算法為基礎，是一種隨機策略的方法，應用該類方法即使在相同的狀態下也可能執行不同的動作，有效提高了智能體的探索率。與之對應的則是確定性策略的方法，以DDPG算法為例，其思想是使用一個神經網絡Actor直接預測出當前狀態下需要采取的動作。例如，使用 DDPG 模擬交戰雙方的連續機動策略模型，但其只支持低維空間的學習問題，仿真精確度和真實度均較低。如圖4所示，自主空戰決策模型由空戰環境和強化學習算法組成，其中空戰環境包括空戰態勢、敵機狀態以及我方智能體狀態。強化學習算法以DDPG算法為例，其有兩個Actor-Critic架構，利用目標網絡使得Critic網絡的訓練更加平穩。整個過程為：" 從空戰環境中獲取空戰狀態來訓練算法，將當前狀態和動作輸入到評論家網絡中得到Q值，再將下一狀態和行動者目標網絡的下一動作輸入到評論家目標網絡得到目標Q值，再訓練策略使得評論家網絡Q值盡量接近評論家目標網絡Q值，然后將訓練好的算法應用在智能體上，從而實現自主空戰決策［44］。

文獻［45］使用非完全信息動態博弈模型模擬空戰的動態過程，設計了動態貝葉斯網絡來推斷對手的戰術意圖，然后建立基于多智能體深度確定性策略梯度（Multi-Agent Deep Deterministic Policy Gradient， MADDPG）的強化學習框架，獲得了空戰博弈模型的最佳Bayes-Nash均衡解。文獻［46］考慮到MADDPG算法只針對特定的均衡策略，引入極大極小模來獲得期望擾動，極大極小模對最壞情況擾動下的梯度方向進行局部逼近，得到期望擾動。文獻［47］中，空戰被建模為二人零和馬爾可夫博弈，在該模型中引入了一種目標位置預測方法，使UCAV（Unmanned Combat Aerial Vehicles）能夠預測目標的動作和位置。文獻［48］將視距內自主空戰建模為一個狀態-對抗性馬爾可夫決策過程（State-Adversarial Markov Decision Process， SA-MDP）。以狀態-對抗深度確定性策略梯度（State-Adversarial Deep Deterministic Policy Gradient， SA-DDPG）為基礎，在Actor網絡中引入了與性能損失上界相關的魯棒正則子，提高空戰策略的魯棒性。同時，它提出了一種基于最大熵逆強化學習（Maximum Entropy Inverse Reinforcement Learning， MaxEnt—IRL）的獎勵塑造方法，提高了空戰策略生成算法的效率。該類算法由于其確定性策略的特點，相同狀態下執行的動作是一樣的，探索效率遠不如隨機策略的方法，但是更加適用于高維或連續動作空間的問題。

文獻［49］以Actor-Critic為框架，通過改變獎勵函數的結構來加快訓練速度、提升學習效率，從而在空戰博弈對抗中找到有效的空戰策略。文獻［50］通過神經網絡逼近動作和狀態變量，利用高斯分布確定策略，同時為了提升探索效率，根據訓練次數調整隨機動作變量的概率分布情況，結果表明該方法生成的策略魯棒性好，但因其生成的機動策略均為固定的，無法體現真實戰場下的博弈對抗。文獻［51］則提出了一種分布式和可擴展的Actor-Critic強化學習架構，即情景依賴-選擇行動評估（Situation-Dependent Option-Action Evaluation， SDOE），它使智能體能夠共享態勢感知，并以成對的方式選擇戰術。文獻［52］考慮到實際空戰中存在多無人機的場景，建立了基于Actor-Critic的集中式評價、分布式執行的算法。在評價網絡模塊中使用了全局信息對當前決策優劣作出評判，而在執行網絡模塊中僅根據非完全信息進行自我決策，提高了多機對抗的效能。文獻［53］以包括俯仰角在內的10個狀態變量組成狀態空間，結合空戰態勢評估模型，以異步優勢Actor-Critic （Asynchronous Advantage Actor-Critic， A3C）［54］為基礎設計了內部獎勵與稀疏獎勵結合的雙層獎勵機制。如圖5所示，各個線程單獨進行訓練，具體過程為：" 從環境中獲取我方智能體與敵機的空戰態勢，作為狀態輸入到Actor網絡和Critic網絡，隨后智能體利用訓練好的網絡執行動

作，敵機則利用自身控制策略與我方智能體進行對抗，最后，將各個線程學習好的參數更新至全局網絡中，下一次訓練時通過獲取全局網絡中的參數繼續學習。

文獻［55］針對無人機近距格斗，提出了基于SAC（Soft Actor-Critic）算法［56］的無人機自主空戰決策，將空戰態勢作為輸入信息傳遞給SAC算法模塊，同時在算法中加入最大熵模型使策略隨機化，最后輸出機動決策，無人機執行決策動作。文獻［57］將經驗回放HER和SAC算法結合，智能體利用HER在實現目標的失敗和成功中學習，極大提高了采樣效率和學習速度。盡管目前只適用于路徑規劃和避障等問題，但后續也可以擴展到僅有部分觀測信息的情況。文獻［58］聚焦于S-蛇機動問題，提出了一種比例微分的SAC算法，加快了復雜網絡的訓練速度，同時在策略網絡中有多個狀態輸入和動作輸出，通過擴展門控循環單元（Gate Recurrent Unit， GRU）減少馬爾可夫對控制的影響。雖然基于Actor-Critic的方法已經結合了基于價值的方法和策略梯度方法，但仍存在缺點：" 在Critic部分依然存在著過估計和難收斂的問題，并且有了Actor的加入， Critic的收斂更加困難；" 在Actor部分的探索不足，容易陷入局部最優。

3" 面向未來空戰的智能決策技術展望

3.1" 面向集群作戰的多智能體決策技術

早期的深度強化學習都是以單智能體的算法出現，然而高精度，高實時性的軍事決策往往都是多個實體相互配合完成任務的，故多智能體強化學習（Multi-Agent Deep Reinforcement Learning， MADRL）方法更加適合于真實的戰爭中。多智能體強化學習方法不僅僅是在單智能體強化學習方法的基礎上增加智能體的個數，因為隨著智能體數量的增加，需要擴展的智能體信息維度也隨之增加，將會面臨維度災難的問題，同時還要在算法中加入博弈、協同和通信等機制，使得多個智能體具有自主協同等特點。盡管目前有關MADRL的方法很多，但是實際運用在空戰領域的算法還較少。因此可以考慮將其他領域較為成熟的方法運用到空戰領域上。

根據任務類型和最大化期望累計回報的不同， MADRL算法可以分為完全合作類、完全競爭類和混合類3種［59］。而對于智能空戰博弈來說，更需要的是完全合作類的算法，即每個智能體相互合作完成團隊任務，其目標是最大化團隊的全局獎勵。根據在算法中加入的博弈、協同和通信等機制的方式不同，可以將完全合作類MADRL算法分為基于通信學習和基于協作學習兩類。

（1）基于通信學習的完全合作類MADRL算法

該類算法假設智能體之間存在信息的交互，在訓練過程中需要學習的內容包括是否需要通信、何時通信以及與哪些智能體通信。通信機制并不是簡單地將其他智能體視為環境的一部分，而是可以通過自身和從其他智能體接收到的信息動態調整自身策略。 RIAL（Reinforced Inter-Agent Learning）和DIAL（Differentiable Inter-Agent Learning）是最初引入通信學習機制的算法［60］， RIAL缺少智能體之間的反饋，而這種反饋機制對于通信學習至關重要。 DIAL讓智能體之間有了梯度的傳遞，這種梯度傳遞就形成了一種反饋機制。為了提高通信效率，文獻［61］使用CommNet模型，使用連續通信來完成完全合作的任務，該模型由多個智能體組成，訓練它們之間的通信和策略。文獻［62］使用門控機制自適應地對不利通信信息進行裁剪，有效解決了帶寬受限的問題，同時提高了通信過程中對于通信錯誤信息和冗余信息的魯棒性。

（2）基于協作學習的完全合作類MADRL算法

與基于通信學習的算法相反，該類算法不再顯式智能體之間的通信信息，而是假設智能體能夠獲取其他智能體的觀測信息進行訓練，而在執行動作時智能體僅僅依靠自身的觀測進行決策。文獻［63］提出的VDN（Value Decomposition Networks）算法是一種價值分解的方法，該方法將整體的聯合價值函數分解為每一個智能體的價值函數，簡單來說，就是讓每一個智能體的價值函數相加求和即為聯合價值函數，不僅解決了虛假獎勵的問題，還解決了部分智能體“懶惰”的問題。文獻［64］提出了MAVEN（Multi-Agent Variational Exploration）算法，該算法通過引入分層控制的空間，將基于價值和基于策略的方法混合在一起。基于價值的智能體根據分層策略控制的共享潛在變量改變其動作。

3.2" 面向廣域時空的高效智能決策技術

未來空戰具有作戰空域大、作戰距離遠、空戰雙方的對抗策略空間大等特征，因此構建稀疏獎勵下的博弈智能策略優化難度較大。同時，由于多智能體在訓練過程中探索空間過大，探索的過程中智能體將其他智能體視為環境的一部分，智能體行為表現出隨機性，加劇了環境的非平穩性，使得策略收斂時間冗長，訓練過程收斂困難。針對上述挑戰，需要高效穩定的智能決策技術在廣域時空下提高決策訓練的效率和收斂的穩定性。

（1）深度課程強化學習

人類的學習過程一般遵循著先易后難、由易到難的順序，借鑒這一學習思想，課程學習主張讓模型先從簡單的樣本/任務開始學習，然后逐步過渡到復雜的樣本/任務，從而減少訓練時間并提高最終的性能。課程學習方法的核心是創建一系列與最終目標任務相似但難度不同的任務序列，進而通過遷移學習方法在任務序列之間進行策略遷移，從而在最終任務上達到加快學習速率、提高漸進性能的目的［65］。

深度課程強化學習結合自主優先課程學習和覆蓋懲罰的深度強化學習的新訓練模式，根據每個狀態樣本的復雜性自適應地從回放存儲中選擇合適的樣本，充分發揮經驗回放的作用［66］。深度課程強化學習算法的訓練過程如下：" 首先，智能體將與環境交互過程中產生的樣本數據存儲在回放存儲中，然后，對樣本數據進行課程評價，評價的標準包括樣本優先級和重復懲罰項，接著，智能體自主選擇符合當前狀態下課程難度的樣本數據組成的批訓練集，逐步提高課程難度使得難度更高的樣本數據被選中的概率提升，最后，智能體執行動作讓環境轉移到下一狀態。

（2）分層強化學習

分層強化學習（Hierarchy Reinforcement Learning， HRL）本質上是將整個任務分解成抽象的子任務，通過完成一系列的子任務從而加快整個任務的求解速度［67］。分層強化學習中，在求解每一個子任務時，會將其中的多個動作抽象為一個策略動作。然而，這并不符合馬爾可夫決策過程，因此研究人員引入了半馬爾可夫決策過程（Semi-Markov Decision Process， SMDP）［68］，來處理多個動作只有經歷多個時間段后才能體現出真正價值的問題。分層強化學習的主要算法包括Option［69］、分層抽象機HAMs（Hierarchies of Abstract Machines）［70］以及MAXQ值函數分解（MAXQ Value Function Decomposition）［71］，均是以SMDP為基礎提出的。

當前， HRL算法的架構可以分為兩個部分，第一部分為頂層架構，根據接收到的環境狀態以及反饋制定子任務；" 第二部分為底層架構，根據當前狀態以及子任務執行動作，從而解決子任務的問題。通過這種架構，頂層產生的子任務較為簡單，使得底層執行動作解決問題的效率加快。要將分層強化學習運用在空戰博弈領域，僅靠傳統分層強化學習算法顯然是不夠的。為了適應空戰領域在不同環境下采取的任務與策略具有共通性的特點，考慮采用子策略共享分層方法，將子策略細分為不同類別，從而在不同子任務中實現共享，進一步提高訓練效率。文獻［72］提出了一種基于skill-based的分層強化學習隨機神經網絡（Stochastic Neural Networks for Hierarchical Reinforcement Learning， SNNHRL），其建立了一個預訓練環境，在預訓練環境中訓練完成后利用學習到的策略，使智能體在實際環境中學習如何調用這些策略，提高解決問題的效率。而OpenAI提出了一種端到端的元共享分層學習（Meta-Learning Shared Hierarchies， MLSH）［73］算法，摒除了以往需要人工設定分層結構，其通過與環境的交互自動實現分層結構，同時子策略也是共享的。該算法突破了需要人工的局限性，實現了真正的自主學習。

3.3" 面向復雜場景的泛化智能決策技術

傳統深度強化學習的方法往往僅針對單一場景下的訓練，訓練后的模型魯棒性差，在已知樣本的情況下性能優良，而對于未知采樣目標的情況則會表現出不適性，難以適應不同場景下的任務。然而空戰場景是時刻都在變化的，因此，若僅采用傳統深度強化學習的方法，每次面對不同的場景，就要重新訓練，這大大降低了效率。針對上述問題，將元學習和深度強化學習相結合是一種有效的解決辦法，即元強化學習。面對未知場景時，經過訓練的泛化網絡能夠根據未知場景生成新的策略，對未知場景也有較好的適應性。

元學習指的是學習怎樣學習［74-75］，即借助以往的經驗知識來學習怎樣學習，利用以往的經驗來減少未來學習時樣本數量的需求［76］。以往的經驗一般稱為元知識，通過元知識對未來學習加以指導。元強化學習方法的核心思想在于它可以充分利用不同任務和不同場景下的訓練數據，從中找出共性知識，提煉一般性知識。通過該方法，既可以緩解不同任務、場景下模型啟動慢的問題，也可以提高對于新任務的學習效率［77］。現有的元強化學習方法大致可以分為基于上下文的元強化學習、基于梯度的元強化學習和離線強化學習。

（1）基于上下文的元強化學習

通過將以往的經驗聚合形成上下文，再以上下文作為元知識，提取相關的特征信息。上下文是一種隱藏表征形式，能夠合理利用以往經驗，提高泛化能力。文獻［78］在傳統強化學習［79］的基礎上，與上下文相結合，其結果可以達到使用最先進的元強化學習算法的水平。文獻［80］考慮到大多數元強化學習方法均由人手動設計，或是只針對專門的架構，或是限制元學習如何解決問題。因此，該文提出一種簡單神經注意力學習器（Simple Neural Attentive Learning， SNAL），使用時間卷積（Temporal Convolution）聚合以往的經驗形成上下文，接著使用軟注意力［81］（Soft Attention）機制精準定位并選擇特定的信息。

（2）基于梯度的元強化學習

梯度下降法是一種常用的優化方法，將其運用在元強化學習中可以提高泛化能力、增強學習效率以及無需手動調參等問題。經過梯度下降法優化后，在遇到新任務或新環境時，僅需少量步驟的梯度變化就可以快速適應新任務或新環境，避免了局限性。文獻［82］提出了元梯度強化學習，通過自動調整獎勵函數中的超參數，使其可以適應隨時間不斷變化的環境，在線調整超參數來最大化獎勵回報。文獻［83］在此基礎上，提出了在線發現目標的元梯度強化學習，該方法中的智能體僅能通過與環境的交互來發現目標，并且通過神經網絡調整超參數，隨著時間推移，智能體將會越來越有效率地學習。

（3）離線元強化學習

離線元強化學習主要用于解決元強化學習難以在實際中得到應用的問題，通過大量預先收集或離線數據集進行預訓練，極大降低了環境對訓練過程的影響，在訓練過程中無需與環境進行交互，減少了隨機探索行為以及高成本數據采樣行為。文獻［84］提出了一種無模型、端到端的離線元強化學習，通過行為正則化學習策略，同時在信息空間中引入負冪距離度量，結合上下文編碼器進行相關任務的推斷，該方法的計算速度高效，能夠快速適應新任務。文獻［85］認為對于未知敏感環境，安全探索非常重要，該文將安全探索的問題視為一個離線元強化學習，在訓練過程中利用離線數據學習安全與不安全行為，將學習到的安全措施運用到全新的環境中，并保證智能體能夠安全學習，快速適應。

4" 結" 束" 語

通過對當前智能空戰決策技術的梳理和未來發展趨勢的思考可以看出，人工智能技術與空戰領域的融合將對未來航空兵器的跨代發展和技術革新產生深遠影響，有望成為制勝未來戰場的核心能力。本文在闡釋現有空戰決策技術和國外軍事項目發展的基礎上，重點關注了基于深度強化學習的智能對抗技術在解決高動態、不確定性以及復雜戰場環境等問題的關鍵技術，揭示了智能空戰決策技術正逐漸從依賴先驗知識邁向基于自主學習的發展趨勢。目前，空戰場景和作戰樣式已邁入“后智能”時代，深度強化決策方法也將面臨更加嚴峻的技術挑戰，" 包括智能算法的安全性、可解釋性、可通用性以及對實際戰場應用的良好適應性等。這些關鍵技術的發展將進一步推動認知型智能技術在戰場上的應用，使得“以智取勝”成為未來航空裝備的跨代特征，引領新一輪的技術變革。

參考文獻：

［1］孫智孝，楊晟琦，樸海音，等. 未來智能空戰發展綜述［J］. 航空學報， 2021， 42（8）： 525799.

Sun Zhixiao， Yang Shengqi， Piao Haiyin， et al. A Survey of Air Combat Artificial Intelligence［J］. Acta Aeronautica et Astronautica Sinica， 2021， 42（8）： 525799.（in Chinese）

［2］董康生，黃漢橋，韓博，等. 智能空戰決策技術發展分析與展望［C］∥第九屆中國指揮控制大會論文集， 2021： 208-212.

Dong Kangsheng， Huang Hanqiao， Han Bo，" et al. Development Analysis and Outlook for Decision-Making Technology on Intelligent Air Combat［C］∥9th China Conference on Command and Control， 2021： 208-212. （in Chinese）

［3］鄒立巖，張明智，榮明. 智能無人機集群概念及主要發展趨勢分析［J］. 戰術導彈技術， 2019（5）： 1-11.

Zou Liyan， Zhang Mingzhi， Rong Ming. Analysis of Intelligent Unmanned Aircraft Systems Swarm Concept and Main Development Trend［J］. Tactical Missile Technology， 2019（5）： 1-11.（in Chinese）

［4］陳浩，黃健. 有人機/無人機協同系統研究現狀與展望［C］∥第十屆中國指揮控制大會論文集， 2022： 12-17.

Chen Hao， Huang Jian. Research Status and Prospect of Manned Vehicle and Unmanned Aerial Vehicle Cooperative System［C］∥10th China Conference on Command and Control， 2022： 12-17. （in Chinese）

［5］曹雷. 基于深度強化學習的智能博弈對抗關鍵技術［J］. 指揮信息系統與技術， 2019， 10（5）： 1-7.

Cao Lei. Key Technologies of Intelligent Game Confrontation Based on Deep Reinforcement Learning［J］. Command Information System and Technology， 2019， 10（5）： 1-7.（in Chinese）

［6］ Reilly M B. Beyond Video Games：" New Artificial Intelligence Beats Tactical Experts in Combat Simulation［EB/OL］. （2016-06-27）［2023-02-07］. http：∥ magazine.uc.edu/editors_picks/recent_features/alpha.html.

［7］ Trevithick J. USAF Plans for its Skyborg AI Computer Brain to be Flying Drones in the Next Two Years［EB/OL］. （2020-05-19）［2023-02-07］. https：∥www.thedrive.com/the- war-zone/27067/usaf-plans-for-its-skyborg-ai-computer-brain-to-be-flying-drones-in-the-next-two-years.

［8］樊邦奎，張瑞雨. 無人機系統與人工智能［J］. 武漢大學學報：信息科學版， 2017， 42（11）： 1523-1529.

Fan Bangkui， Zhang Ruiyu. Unmanned Aircraft System and Artificial Intelligence［J］. Geomatics and Information Science of Wuhan University， 2017， 42（11）： 1523-1529.（in Chinese）

［9］ Vásárhelyi G， Virágh C， Somorjai G， et al. Outdoor Flocking and Formation Flight with Autonomous Aerial Robots［C］∥IEEE/RSJ International Conference on Intelligent Robots and Systems， 2014： 3866-3873.

［10］ Garcia E， Casbeer D W， Von Moll A， et al. Multiple Pursuer Multiple Evader Differential Games［J］. IEEE Transactions on Automatic Control， 2020， 66（5）： 2345-2350.

［11］ Mishley A， Shaferman V. Linear Quadratic Guidance Laws with Intercept Angle Constraints and Varying Speed Adversaries［J］. Journal of Guidance， Control， and Dynamics， 2022， 45（11）： 2091-2106.

［12］ Ruan W Y， Duan H B， Deng Y M. Autonomous Maneuver Decisions via Transfer Learning Pigeon-Inspired Optimization for UCAVs in Dogfight Engagements［J］. IEEE/CAA Journal of Automatica Sinica， 2022， 9（9）： 1639-1657.

［13］ Li S Y， Chen M， Wu Q X， et al. Threat Sequencing of Multiple UCAVs with Incomplete Information Based on Game Theory［J］. Journal of Systems Engineering and Electronics， 2022， 33（4）： 986-996.

［14］ Burgin G H， Fogel L J， Phelps J P. An Adaptive Maneuvering Logic Computer Program for the Simulation of One-on-One Air-to-Air Combat ［R］. Washington D C： NASA， 1975.

［15］ Bloom P C， Chung Q B. Lessons Learned from Developing a Mission-Critical Expert System with Multiple Experts through Rapid Prototyping［J］. Expert Systems with Applications， 2001， 20（2）： 217-227.

［16］ Geng W X， Kong F E， Ma D Q. Study on Tactical Decision of UAV Medium-Range Air Combat［C］∥26th Chinese Control and Decision Conference， 2014： 135-139.

［17］ Hu D Y， Yang R N， Zhang Y， et al. Aerial Combat Maneuvering Policy Learning Based on Confrontation Demonstrations and Dynamic Quality Replay［J］. Engineering Applications of Artificial Intelligence， 2022， 111： 104767.

［18］ Schvaneveldt R W， Goldsmith T E， Benson A E， et al. Neural Network Models of Air Combat Maneuvering ［R］. Texas： Williams Air Force Base， 1992.

［19］ Eckert J， Carpenter M， Hartfield R， et al. Classification of Intermediate Range Missiles during Launch［C］∥ AIAA SciTech 2020 Forum， 2020.

［20］ Park S J， Park S S， Choi H L， et al. An Expert Data-Driven Air Combat Maneuver Model Learning Approach［C］∥ AIAA SciTech 2021 Forum， 2021.

［21］ Crumpacker J B， Robbins M J， Jenkins P R. An Approximate Dynamic Programming Approach for Solving an Air Combat Maneuvering Problem［J］. Expert Systems with Applications， 2022， 203： 117448.

［22］王星，郝澤龍，周一鵬. 美國智能導彈空戰體系結構與技術［J］. 飛航導彈， 2021（11）： 91-97.

Wang Xing， Hao Zelong， Zhou Yipeng. Architecture and Technology of American Intelligent Missile Air Combat［J］. Aerodynamic Missile Journal， 2021（11）： 91-97.（in Chinese）

［23］賀嘉璠，汪慢，方峰，等. 深度強化學習技術在智能空戰中的運用［J］. 指揮信息系統與技術， 2021， 12（5）： 6-13.

He Jiafan， Wang Man， Fang Feng， et al. Application of Deep Reinforcement Learning Technology in Intelligent Air Combat［J］. Command Information System and Technology， 2021， 12（5）： 6-13.（in Chinese）

［24］ Mnih V， Kavukcuoglu K， Silver D， et al. Human-Level Control through Deep Reinforcement Learning［J］. Nature， 2015， 518（7540）： 529-533.

［25］ Williams. On the Use of Backpropagation in Associative Reinforcement Learning［C］∥IEEE 1988 International Conference on Neural Networks， 2002： 263-270.

［26］ Barto A G， Sutton R S， Anderson C W. Neuronlike Adaptive Elements that can Solve Difficult Learning Control Problems［J］. IEEE Transactions on Systems， Man， and Cybernetics， 1983， SMC-13（5）： 834-846.

［27］ Schulman J， Levine S， Moritz P， et al. Trust Region Policy Optimization［EB/OL］. （2017-04-20）［2023-02-07］. https： ∥arxiv.org/abs/1502.05477.

［28］ Schulman J， Wolski F， Dhariwal P， et al. Proximal Policy Optimization Algorithms［EB/OL］. （2017-08-28）［2023-02- 07］. https：∥arxiv.org/abs/1707.06347.

［29］ Lillicrap T P， Hunt J J， Pritzel A， et al. Continuous Control with Deep Reinforcement Learning［EB/OL］. （2019-07-05）［2023-02-07］ . https：∥arxiv.org/abs/1509.02971.

［30］ Mohamed Ali M S， Wahid H， Mohd Subha N A， et al. Communications in Computer and Information Science［M］. Singapore： Springer Singapore， 2017： 274-286.

［31］ Yang Q M， Zhang J D， Shi G Q， et al. Maneuver Decision of UAV in Short-Range Air Combat Based on Deep Reinforcement Learning［J］. IEEE Access， 2019， 8： 363-378.

［32］朱星宇，艾劍良. 多對多無人機空戰的智能決策研究［J］. 復旦學報：自然科學版， 2021， 60（4）： 410-419.

Zhu Xingyu， Ai Jianliang. Research on Intelligent Decision Making of Many to Many Unmanned Aerial Vehicle Air Combat［J］. Journal of Fudan University： Natural Science， 2021， 60（4）： 410-419.（in Chinese）

［33］孔維仁，周德云，趙藝陽，等. 基于深度強化學習與自學習的多無人機近距空戰機動策略生成算法［J］. 控制理論與應用， 2022， 39（2）： 352-362.

Kong Weiren， Zhou Deyun， Zhao Yiyang， et al. Maneuvering Strategy Generation Algorithm for Multi-UAV in Close-Range Air Combat Based on Deep Reinforcement Learning and Self-Play［J］. Control Theory amp; Applications， 2022， 39（2）： 352-362.（in Chinese）

［34］ Kong W R， Zhou D Y， Zhang K， et al. Multi-UCAV Air Combat in Short-Range Maneuver Strategy Generation Using Reinforcement Learning and Curriculum Learning［C］∥ 19th IEEE International Conference on Machine Learning and Applications， 2021： 1174-1181.

［35］ Liu S Z， Hu X X， Dong K J. Adaptive Double Fuzzy Systems Based Q-Learning for Pursuit-Evasion Game［J］. IFAC-Papers On Line， 2022， 55（3）： 251-256.

［36］ Liu C， Van Kampen E J. HER-PDQN： A Reinforcement Learning Approach for UAV Navigation with Hybrid Action Spaces and Sparse Rewards［C］∥AIAA SciTech 2022 Forum， 2022.

［37］ Li Y F， Shi J P， Jiang W， et al. Autonomous Maneuver Decision-Making for a UCAV in Short-Range Aerial Combat Based on an MS-DDQN Algorithm［J］. Defence Technology， 2022， 18（9）： 1697-1714.

［38］ Zhang J D， Yu Y F， Zheng L H， et al. Situational Continuity-Based Air Combat Autonomous Maneuvering Decision-Making［J/OL］. Defence Technology，" doi： 10.1016/j.dt.2022.08.010.

［39］張博超，溫曉玲，劉璐，等. 基于近端策略優化的空戰決策算法研究［J］. 航空工程進展， 2022： 1-7.

Zhang Bochao， Wen Xiaoling， Liu Lu， et al. Research on Air Combat Decision Algorithm Based on Proximal Policy Optimization［J］. Advances in Aeronautical Science and Engineering， 2022： 1-7.（in Chinese）

［40］ Sun Z X， Piao H Y， Yang Z， et al. Multi-Agent Hierarchical Policy Gradient for Air Combat Tactics Emergence via Self-Play［J］. Engineering Applications of Artificial Intelligence， 2021， 98： 104112.

［41］ Li L T， Zhou Z M， Chai J J， et al. Learning Continuous 3-DoF Air-to-Air Close-in Combat Strategy Using Proximal Policy Optimization［C］∥ IEEE Conference on Games （CoG）， 2022： 616-619.

［42］ Zhang H P， Wei Y J， Zhou H A， et al. Maneuver Decision-Making for Autonomous Air Combat Based on FRE-PPO［J］. Applied Sciences， 2022， 12（20）： 10230.

［43］ Yang K B， Dong W H， Cai M， et al. UCAV Air Combat Maneuver Decisions Based on a Proximal Policy Optimization Algorithm with Situation Reward Shaping［J］. Electronics， 2022， 11（16）： 2602.

［44］ Yang Q M， Zhu Y， Zhang J D， et al. UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm［C］∥ IEEE 15th International Conference on Control and Automation （ICCA）， 2019： 37-42.

［45］ Ren Z， Zhang D， Tang S， et al. Cooperative Maneuver Decision Making for Multi-UAV Air Combat Based on Incomplete Information Dynamic Game［J/OL］. Defence Technology，" doi： 10.1016/j.dt.2022.10.008.

［46］ Kong W R， Zhou D Y， Zhang K， et al. Air Combat Autonomous Maneuver Decision for One-on-One within Visual Range Engagement Base on Robust Multi-Agent Reinforcement Learning［C］∥IEEE 16th International Conference on Control amp; Automation （ICCA）， 2020： 506-512.

［47］ Kong W R， Zhou D Y， Yang Z， et al. Maneuver Strategy Generation of UCAV for within Visual Range Air Combat Based on Multi-Agent Reinforcement Learning and Target Position Prediction［J］. Applied Sciences， 2020， 10（15）： 5198.

［48］ Kong W R， Zhou D Y， Yang Z， et al. UAV Autonomous Aerial Combat Maneuver Strategy Generation with Observation Error Based on State-Adversarial Deep Deterministic Policy Gradient and Inverse Reinforcement Learning［J］. Electronics， 2020， 9（7）： 1121.

［49］ Liu J X， Bailey J. AI 2019： Advances in Artificial Intelligence［M］. Cham： Springer International Publishing， 2019： 54-65.

［50］孫楚，趙輝，王淵，等. 基于強化學習的無人機自主機動決策方法［J］. 火力與指揮控制， 2019， 44（4）： 142-149.

Sun Chu， Zhao Hui， Wang Yuan， et al. UCAV Autonomic Maneuver Decision-Making Method Based on Reinforcement Learning［J］. Fire Control amp; Command Control， 2019， 44（4）： 142-149.（in Chinese）

［51］ Strickland L G， Pippin C E， Gombolay M. Learning to Steer Swarm-vs.-Swarm Engagements［C］∥ AIAA SciTech 2021 Forum， 2021.

［52］陳燦，莫靂，鄭多，等. 非對稱機動能力多無人機智能協同攻防對抗［J］. 航空學報， 2020， 41（12）： 324152.

Chen Can， Mo Li， Zheng Duo， et al. Cooperative Attack-Defense Game of Multiple UAVs with Asymmetric Maneuverability［J］. Acta Aeronautica et Astronautica Sinica， 2020， 41（12）： 324152.（in Chinese）

［53］ Fan Z H， Xu Y， Kang Y H， et al. Air Combat Maneuver Decision Method Based on A3C Deep Reinforcement Learning［J］. Machines， 2022， 10（11）： 1033.

［54］ Mnih V， Badia A P， Mirza M， et al. Asynchronous Methods for Deep Reinforcement Learning［EB/OL］. （2017-11-07）［2023-02-07］. https：∥www.docin.com/p-2043915216.html.

［55］李波，白雙霞，孟波波，等. 基于SAC算法的無人機自主空戰決策算法［J］. 指揮控制與仿真， 2022， 44（5）： 24-30.

Li Bo， Bai Shuangxia， Meng Bobo， et al. Autonomous Air Combat Decision-Making Algorithm of UAVs Based on SAC Algorithm［J］. Command Control amp; Simulation， 2022， 44（5）： 24-30.（in Chinese）

［56］ Haarnoja T， Zhou A， Hartikainen K， et al. Soft Actor-Critic Algorithms and Applications［EB/OL］. （2019-01-29）［2023-02-07］. https：∥arxiv.org/abs/1812.05905.

［57］ Lee M H， Moon J. Deep Reinforcement Learning-Based Model-Free Path Planning and Collision Avoidance for UAVs： A Soft Actor-Critic with Hindsight Experience Replay Approach［J］. ICT Express， 2023， 9（3）： 403-408.

［58］ Wei W Y， Fang Z， Zhu Y W. Model-Free Maneuvering Control of Fixed-Wing UAVs Based on Deep Reinforcement Learning［C］∥AIAA SciTech 2023 Forum， 2023.

［59］趙立陽，常天慶，褚凱軒，等. 完全合作類多智能體深度強化學習綜述［J］. 計算機工程與應用， 2023， 59（12）： 14-27.

Zhao Liyang， Chang Tianqing， Chu Kaixuan， et al. Survey of Fully Cooperative Multi-Agent Deep Reinforcement Learning［J］. Computer Engineering and Applications， 2023， 59（12）： 14-27.（in Chinese）

［60］ Foerster J， Assael I A， De Freitas N， et al. Learning to Communicate with Deep Multi-Agent Reinforcement Learning［C］∥ Advances in the 30th Neural Information Processing Systems， 2016： 2137-2145.

［61］ Sukhbaatar S， Fergus R. Learning Multiagent Communication with Backpropagation［C］∥ Advances in the 30th Neural Information Processing Systems， 2016： 2244-2252.

［62］ Mao H Y， Zhang Z C， Xiao Z， et al. Learning Agent Communication under Limited Bandwidth by Message Pruning［C］∥AAAI Conference on Artificial Intelligence， 2020： 5142-5149.

［63］ Sunehag P， Lever G， Gruslys A， et al. Value-Decomposition Networks for Cooperative Multi-Agent Learning［EB/OL］. （2017-06-16）［2023-02-07］.https：∥doi. org/10.4850/arxiv. 1706. 05296.

［64］ Mahajan A， Rashid T， Samvelyan M， et al. MAVEN： Multi-Agent Variational Exploration［EB/OL］. （2019-10-16）［2023-02-07］. https：∥doi.org/10.48550/arXiv.1910.07483.

［65］ Narvekar S， Peng B， Leonetti M， et al. Curriculum Learning for Reinforcement Learning Domains： A Framework and Survey［EB/OL］. （2017-06-16）［2023-02- 07］. https：∥doi.org/10.48550/arXiv.2003.04960.

［66］任志鵬. 基于自主優先課程學習的深度強化學習算法研究［D］. 南京：南京大學， 2018： 14-29.

Ren Zhipeng. Self-Paced Prioritized Curriculum Learning with Coverage Penalty in Deep Reinforcement Learning［D］. Nanjing： Nanjing University， 2018： 14-29.（in Chinese）

［67］ Barto A G， Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning［J］. Discrete Event Dynamic Systems， 2003， 13（4）： 341-379.

［68］ Chen T L， Lu J A. Towards Analysis of Semi-Markov Decision Processes［M］∥Artificial Intelligence and Compu tational Intelligence. Berlin： Springer， 2010： 41-48.

［69］ Sutton R S， Precup D， Singh S. Between MDPS and Semi-MDPS： A Framework for Temporal Abstraction in Reinforcement Learning［J］. Artificial Intelligence， 1999， 112（1/2）： 181-211.

［70］ Parr R， Russell S. Reinforcement Learning with Hierarchies of Machines［J］. Advances in Neural Information Processing Systems， 1998： 1043-1049.

［71］ Dietterich T G. Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition［J］. Journal of Artificial Intelligence Research， 2000， 13： 227-303.

［72］ Florensa C， Duan Y， Abbeel P. Stochastic Neural Networks for Hierarchical Reinforcement Learning［EB/OL］. （2017-04-10）［2023-02-07］. https：∥doi.org/10.48550/arXiv. 1704.03012.

［73］ Frans K， Ho J， Chen X， et al. Meta Learning Shared Hierarchies［EB/OL］. （2017-10-26）［2023-02-07］. https： ∥doi.org/10.48550/arXiv.1710.09767.

［74］ Bengio Y， Bengio S， Cloutier J. Learning a Synaptic Learning Rule［C］∥IJCNN-91-Seattle International Joint Conference on Neural Networks， 1991： 231-245.

［75］ Schmidhuber J. Evolutionary Principles in Self-Referential Learning［D］. München： Technische Universitt München， 1987.

［76］李凡長，劉洋，吳鵬翔，等. 元學習研究綜述［J］. 計算機學報， 2021， 44（2）： 422-446.

Li Fanchang， Liu Yang， Wu Pengxiang， et al. A Survey on Recent Advances in Meta-Learning［J］. Chinese Journal of Computers， 2021， 44（2）： 422-446.（in Chinese）

［77］ Daniel C， van Hoof H， Peters J， et al. Probabilistic Inference for Determining Options in Reinforcement Learning［J］. Machine Learning， 2016， 104（2/3）： 337-357.

［78］ Fakoor R， Chaudhari P， Soatto S， et al. Meta-Q-Learning［EB/OL］. （2020-04-04）［2023-02-07］. https：∥doi. org/10.48550/arXiv.1910.00125.

［79］ Fujimoto S， van Hoof H， Meger D. Addressing Function Approximation Error in Actor-Critic Methods［EB/OL］. （2018-02-26）［2023-02-07］. https：∥doi.org/10.48550/arXiv. 1802.09477.

［80］ Mishra N， Rohaninejad M， Chen X， et al. A Simple Neural Attentive Meta-Learner［EB/OL］. （2017-07-11）［2023-02-07］. https：∥doi.org/10.48550/arXiv.1707.03141.

［81］ Vaswani A， Shazeer N， Parmar N， et al. Attention is All You Need［EB/OL］. （2017-06-12）［2023-02-07］. https：∥doi. org/10.48550/arXiv.1706.03762.

［82］ Xu Z W， van Hasselt H， Silver D. Meta-Gradient Reinforcement Learning［EB/OL］.（2018-05-24）［2023- 02-07］. https：∥www.doc88.com/p-9148411556431.html.

［83］ Xu Z W， van Hasselt H， Hessel M， et al. Meta-Gradient Reinforcement Learning with an Objective Discovered Online［EB/OL］. （2020-07-16）［2023-02-07］. https：∥doi. org/10.48550/arXiv.2007.08433.

［84］ Li L Q， Yang R， Luo D J. FOCAL： Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization［EB/OL］. （2020-10-02）［2023-02-07］. https：∥doi.org/10.48550/arXiv. 2010.01112.

［85］ Luo M， Balakrishna A， Thananjeyan B， et al. MESA： Offline Meta-RL for Safe Adaptation and Fault Tolerance［EB/OL］. （2021-12-07）［2023-02-07］. https：∥doi. org/10.48550/arXiv.2112.03575.

Status and Prospect on Deep Reinforcement Learning

Decision-Making Methods for Intelligent Air Combat

Zhang Ye1*， Tu Yuangang1， Zhang Liang2，" Cui Hao2， Wang Jingyu1

（1.School of Astronautics， Northwestern Polytechnical University， Xi’an 710072， China;

2. China Airborne Missile Academy， Luoyang 471009， China）

Abstract： This paper focuses on the development of modern intelligent air combat decision-making technology， and analyzes the elements and characteristics of intelligent air combat scenarios. It introduces the research status and practical application of existing intelligent air combat decision-making methods， including decision-making methods based on game theory， prior data-driven decision-making method， and decision-making methods based on autonomous learning， and especially focuses on deep reinforcement learning intelligent decision-making methods based on value and strategy. Finally， facing to various challenges of future intelligent air combat and the limitations of traditional deep reinforcement learning， the paper gives the future development direction of deep reinforcement learning technology in the field of air combat， which are multi-agent intelligent decision-making technology for cluster warfare， efficient intelligent decision-making technology for wide area space-time， and generalized intelligent decision-making technology for complex scenarios.

Key words： air combat decision-making; artificial intelligence; reinforcement learning; intelligent game; cluster warfare; deep learning