基于深度強(qiáng)化學(xué)習(xí)的多機(jī)協(xié)同空戰(zhàn)方法研究

2021-08-28 04:55:58施偉馮旸赫程光權(quán)黃紅藍(lán)黃金才劉忠賀威

自動(dòng)化學(xué)報(bào) 2021年7期

施偉馮旸赫程光權(quán) 黃紅藍(lán) 黃金才劉忠賀威

多機(jī)協(xié)同空戰(zhàn)是指由兩架或兩架以上的作戰(zhàn)飛機(jī)互相配合、相互協(xié)作,完成對(duì)空作戰(zhàn)任務(wù)的一種戰(zhàn)爭(zhēng)方式,包括協(xié)同機(jī)動(dòng)、協(xié)同打擊及火力掩護(hù)等環(huán)節(jié),是現(xiàn)代海、陸、空、天、電一體化作戰(zhàn)模式在多機(jī)空戰(zhàn)中的具體體現(xiàn)[1].因此,提高多機(jī)協(xié)同效率,對(duì)于掌握戰(zhàn)場(chǎng)制空權(quán)、提高對(duì)空作戰(zhàn)任務(wù)成功率和減少作戰(zhàn)傷亡都具有重大意義.世界各國(guó)也越來(lái)越關(guān)注和重視有助于提高機(jī)群整體作戰(zhàn)效能的協(xié)同空戰(zhàn)的研究.然而,相較于單架戰(zhàn)機(jī)的空戰(zhàn)決策,多機(jī)協(xié)同問(wèn)題涉及的實(shí)體類(lèi)型更多、決策空間更大、復(fù)雜程度更高.

目前,自主空戰(zhàn)決策的算法研究,依據(jù)其核心內(nèi)涵的不同,主要分為數(shù)學(xué)求解、機(jī)器搜索以及數(shù)據(jù)驅(qū)動(dòng)三類(lèi)方法.

第一類(lèi)是基于數(shù)學(xué)求解的空戰(zhàn)決策方法.該方法最早可以追溯到上世紀(jì)Isaacs[2]提出的利用數(shù)學(xué)形式解解決追逐問(wèn)題,但I(xiàn)saacs 提出的方法缺乏嚴(yán)格的數(shù)學(xué)證明,只適用于簡(jiǎn)單的空戰(zhàn)場(chǎng)景[3].隨著優(yōu)化控制理論在20 世紀(jì)60 年代被提出,學(xué)者們開(kāi)始嘗試用該理論解決空戰(zhàn)決策問(wèn)題.早期的研究將空戰(zhàn)問(wèn)題簡(jiǎn)化為純追逐問(wèn)題[4](即一方被指定為追逐者,另一方為被追逐者,空戰(zhàn)過(guò)程中,角色不發(fā)生更改),在空戰(zhàn)優(yōu)化目標(biāo)以及飛行動(dòng)力學(xué)的限制下,采用Hamilton 方程求解.進(jìn)入20 世紀(jì)80 年代后,戰(zhàn)機(jī)與導(dǎo)彈性能顯著提升,傳統(tǒng)純追逐形式的空戰(zhàn)被超視距空戰(zhàn)替代,敵我攻防角色轉(zhuǎn)換頻繁,固定角色的純追逐優(yōu)化問(wèn)題不再使用,針對(duì)雙目標(biāo)優(yōu)化的研究被大量開(kāi)展[5?8].雙目標(biāo)分別是給定戰(zhàn)場(chǎng)態(tài)勢(shì),確定最終空戰(zhàn)結(jié)局;給定空戰(zhàn)結(jié)局,優(yōu)化戰(zhàn)機(jī)機(jī)動(dòng)動(dòng)作.

第二類(lèi)是基于機(jī)器搜索的空戰(zhàn)決策方法.目前較為成熟可行的空戰(zhàn)機(jī)動(dòng)決策算法,如影像圖[9?10]、馬爾科夫方法[11?12]、蒙特卡洛搜索[13]、矩陣決策[14?15]、決策樹(shù)[16]、近似動(dòng)態(tài)規(guī)劃[17?18]等,均是基于類(lèi)似思路展開(kāi)的.歐建軍等[19]引入偏好規(guī)劃理論解決不確定環(huán)境下態(tài)勢(shì)評(píng)估不準(zhǔn)確的問(wèn)題;奚之飛等[20]引入描述多目標(biāo)威脅的威力勢(shì)場(chǎng)理論來(lái)構(gòu)建態(tài)勢(shì)評(píng)價(jià)函數(shù);韓統(tǒng)等[21]設(shè)計(jì)了一種協(xié)同威脅指數(shù),強(qiáng)調(diào)戰(zhàn)機(jī)協(xié)同關(guān)系對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的影響;嵇慧明等[22]結(jié)合距離、高度、速度、角度、性能要素構(gòu)建戰(zhàn)機(jī)綜合優(yōu)勢(shì)函數(shù);王炫等[23]建立進(jìn)化式專(zhuān)家系統(tǒng)樹(shù)框架;周同樂(lè)等[24]提出將戰(zhàn)場(chǎng)態(tài)勢(shì)與任務(wù)效益相結(jié)合的目標(biāo)函數(shù);左家亮等[25]利用深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力來(lái)啟發(fā)決策序列搜索;劉樹(shù)林[26]提出一種專(zhuān)家意見(jiàn)、會(huì)議判斷與統(tǒng)計(jì)分析相結(jié)合的評(píng)價(jià)方法.

第三類(lèi)是基于數(shù)據(jù)驅(qū)動(dòng)的空戰(zhàn)決策方法.基于數(shù)據(jù)驅(qū)動(dòng)的方法以神經(jīng)網(wǎng)絡(luò)技術(shù)為主,該技術(shù)分為兩類(lèi):一類(lèi)是將空戰(zhàn)機(jī)動(dòng)決策問(wèn)題轉(zhuǎn)變?yōu)榉诸?lèi)(模式識(shí)別)問(wèn)題,輸入實(shí)時(shí)戰(zhàn)場(chǎng)態(tài)勢(shì),輸出戰(zhàn)機(jī)采取的機(jī)動(dòng)動(dòng)作[27?28];另一類(lèi)與前向搜索方法類(lèi)似,采用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),對(duì)不同戰(zhàn)場(chǎng)態(tài)勢(shì)下敵、我機(jī)機(jī)動(dòng)動(dòng)作的概率分布進(jìn)行仿真、預(yù)測(cè),判定我機(jī)采取的動(dòng)作[29?30].目前,基于強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)的空戰(zhàn)決策技術(shù)[31?33]最為流行,以Q-learning 算法為例,該技術(shù)重點(diǎn)研究Q 值的設(shè)計(jì)方法,目標(biāo)是獲得準(zhǔn)確的戰(zhàn)場(chǎng)態(tài)勢(shì)到動(dòng)作決策的映射關(guān)系.

上述三類(lèi)研究方向也存在如下問(wèn)題.

1)基于數(shù)學(xué)求解的空戰(zhàn)決策方法.是最理想也是最難以實(shí)現(xiàn)的,因?yàn)樵摲椒ㄒ髧?yán)格的數(shù)學(xué)邏輯證明,模型構(gòu)建復(fù)雜.僅針對(duì)較為簡(jiǎn)單的空戰(zhàn)形式有效,如規(guī)避導(dǎo)彈、攔截衛(wèi)星等,但當(dāng)面臨三維空間復(fù)雜機(jī)動(dòng)的纏斗空戰(zhàn)問(wèn)題時(shí),適用性較為有限.

2)基于機(jī)器搜索的空戰(zhàn)決策方法.本質(zhì)在于解決任務(wù)規(guī)劃、態(tài)勢(shì)評(píng)估、目標(biāo)分配等輔助決策問(wèn)題,遵循“設(shè)計(jì)態(tài)勢(shì)評(píng)估函數(shù)評(píng)價(jià)戰(zhàn)場(chǎng)態(tài)勢(shì)、使用智能優(yōu)化算法搜索最優(yōu)策略”的邏輯內(nèi)核.所以,這類(lèi)方法具有專(zhuān)家經(jīng)驗(yàn)要求較高、態(tài)勢(shì)評(píng)估函數(shù)設(shè)計(jì)復(fù)雜且粒度難以把握、機(jī)動(dòng)動(dòng)作策略庫(kù)空間較小、優(yōu)化算法搜索效率低、難以滿(mǎn)足戰(zhàn)場(chǎng)實(shí)時(shí)性決策的要求、場(chǎng)景簡(jiǎn)單且泛化性能差的通病.

3)基于數(shù)據(jù)驅(qū)動(dòng)的空戰(zhàn)決策方法.以強(qiáng)化學(xué)習(xí)為例,很多研究只提到強(qiáng)化學(xué)習(xí)的概念,本質(zhì)上仍屬于機(jī)器搜索的范疇,僅利用神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力為優(yōu)化搜索算法提供啟發(fā)式經(jīng)驗(yàn);一些研究?jī)H適用于簡(jiǎn)單的一對(duì)一空戰(zhàn)場(chǎng)景,并且需要大量專(zhuān)家經(jīng)驗(yàn)支撐,如評(píng)價(jià)函數(shù)、態(tài)勢(shì)估計(jì)、飛行動(dòng)力學(xué)模型的設(shè)計(jì)等,這類(lèi)研究難以移植到復(fù)雜場(chǎng)景,泛化性能較差;一些研究雖然提出了多機(jī)協(xié)同的概念,但只是簡(jiǎn)單地將多機(jī)問(wèn)題分解為單機(jī)問(wèn)題來(lái)解決,較難提煉出協(xié)同戰(zhàn)法.

鑒于上述不同方法的缺點(diǎn),本文提出一種“集中式訓(xùn)練–分布式執(zhí)行”的多機(jī)協(xié)同空戰(zhàn)決策流程框架.該框架不需要對(duì)空戰(zhàn)環(huán)境以及戰(zhàn)機(jī)飛行動(dòng)力學(xué)進(jìn)行建模、對(duì)專(zhuān)家經(jīng)驗(yàn)的需求較小、具有實(shí)時(shí)決策的能力,且本文提出的4 種算法改進(jìn)機(jī)制能有效提高模型訓(xùn)練的效率和穩(wěn)定性,實(shí)現(xiàn)了使用強(qiáng)化學(xué)習(xí)算法解決多機(jī)協(xié)同空戰(zhàn)決策問(wèn)題的技術(shù)途徑.

本文首先從構(gòu)建整個(gè)決策流程框架入手,設(shè)計(jì)模型的訓(xùn)練與執(zhí)行架構(gòu);然后,針對(duì)多機(jī)空戰(zhàn)場(chǎng)景的特點(diǎn),設(shè)計(jì)了4 種改進(jìn)近端策略?xún)?yōu)化(Proximal policy optimization[34],PPO)算法的機(jī)制,針對(duì)性提高了多機(jī)協(xié)同對(duì)抗場(chǎng)景下深度強(qiáng)化學(xué)習(xí)算法的效果;最后,在兵棋推演平臺(tái)上仿真,測(cè)試本文提出的決策流程框架以及改進(jìn)算法的效果,并總結(jié)模型涌現(xiàn)出的5 種典型戰(zhàn)法,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性和實(shí)用性.

1 深度強(qiáng)化學(xué)習(xí)背景知識(shí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要領(lǐng)域,其本質(zhì)是描述和解決智能體在與環(huán)境的交互過(guò)程中學(xué)習(xí)策略以最大化回報(bào)或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題.與監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)中的智能體不被告知如何選擇正確的動(dòng)作,而是通過(guò)智能體不斷與環(huán)境交互試錯(cuò),從而學(xué)習(xí)到當(dāng)前任務(wù)最優(yōu)或較優(yōu)的策略,能夠有效地解決在自然科學(xué)、社會(huì)科學(xué)以及工程應(yīng)用等領(lǐng)域中存在的序貫決策問(wèn)題.

現(xiàn)有強(qiáng)化學(xué)習(xí)方法利用馬爾科夫決策過(guò)程(Markov decision process,MDP)從理論方面對(duì)RL 問(wèn)題進(jìn)行基礎(chǔ)建模.MDP 由一個(gè)五元組〈S,A,R,T,γ〉定義,其中,S表示由有限狀態(tài)集合組成的環(huán)境;A表示可采取的一組有限動(dòng)作集;狀態(tài)轉(zhuǎn)移函數(shù)T:S×A →?(S) 表示將某一狀態(tài)?動(dòng)作對(duì)映射到可能的后繼狀態(tài)的概率分布,?(S) 表示狀態(tài)全集的概率分布,對(duì)于狀態(tài)s,s′ ∈S以及a ∈A,函數(shù)T確定了采取動(dòng)作a后,環(huán)境由狀態(tài)s轉(zhuǎn)移到狀態(tài)s′的概率;獎(jiǎng)賞函數(shù)R(s,a,s′)定義了狀態(tài)轉(zhuǎn)移獲得的立即獎(jiǎng)賞;γ是折扣因子,代表長(zhǎng)期獎(jiǎng)賞與立即獎(jiǎng)賞之間的權(quán)衡.

近年來(lái),隨著深度學(xué)習(xí)(Deep learning,DL)技術(shù)的興起及其在諸多領(lǐng)域取得的輝煌成就,融合深度神經(jīng)網(wǎng)絡(luò)和RL 的深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)成為各方研究的熱點(diǎn).同基本的強(qiáng)化學(xué)習(xí)方法相比,DRL 將深度神經(jīng)網(wǎng)絡(luò)作為函數(shù)近似和策略梯度的回歸函數(shù).雖然使用深度神經(jīng)網(wǎng)絡(luò)解決強(qiáng)化學(xué)習(xí)問(wèn)題缺乏較好的理論保證,但深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表現(xiàn)力使得DRL 的結(jié)果遠(yuǎn)超預(yù)期,并在戰(zhàn)略博弈[35?36]、無(wú)人機(jī)控制[37]、自主駕駛[38]和機(jī)器人合作[39]等領(lǐng)域取得了較大突破.

在非凸優(yōu)化的情況下,梯度可以用數(shù)值方法或抽樣方法計(jì)算,但很難確定適當(dāng)?shù)牡鷮W(xué)習(xí)率,需要隨時(shí)間變化以確保更好的性能.早期的強(qiáng)化學(xué)習(xí)研究在使用基于梯度的優(yōu)化技術(shù)時(shí)也遇到了這樣的困境,為規(guī)避瓶頸,Schulman 等[40]提出一種處理隨機(jī)策略的信任域策略?xún)?yōu)化(Trust region policy optimization,TRPO)算法.該算法在目標(biāo)函數(shù)中考慮了舊策略和更新策略之間的Kullback-Leibler(KL)發(fā)散,并能對(duì)每個(gè)狀態(tài)點(diǎn)的KL 發(fā)散進(jìn)行有界處理.該方法跳出了對(duì)學(xué)習(xí)率的修正,使策略改進(jìn)過(guò)程更加穩(wěn)定,理論證明該方法單調(diào)地增加了累積獎(jiǎng)賞.考慮到TRPO 中二階Hessian 矩陣計(jì)算的復(fù)雜性,Schulman 等[34]進(jìn)一步發(fā)展了一階導(dǎo)數(shù)PPO算法.

圖1 描述PPO 算法中神經(jīng)網(wǎng)絡(luò)的更新流程.訓(xùn)練時(shí)從經(jīng)驗(yàn)回放庫(kù)(Replay buffer)中選擇一批樣本(Sample)供網(wǎng)絡(luò)參數(shù)更新.PPO 算法采用的是Actor-Critic(AC)框架,包含兩個(gè)網(wǎng)絡(luò).Actor 網(wǎng)絡(luò)更新部分,同TRPO 方法一樣,定義了surrogate 目標(biāo):

圖1 PPO 訓(xùn)練流程圖Fig.1 PPO algorithm training flow chart

在PPO 中,對(duì)上述代理目標(biāo)進(jìn)行了裁剪:

該目標(biāo)LCLIP(θ) 實(shí)現(xiàn)了一種與隨機(jī)梯度下降兼容的信賴(lài)域修正方法,并通過(guò)消除KL 損失來(lái)簡(jiǎn)化算法以及減小適應(yīng)性修正的需求.

Critic 網(wǎng)絡(luò)部分,采用傳統(tǒng)TD-error更新網(wǎng)絡(luò)參數(shù)?,V?(s t) 估計(jì)了狀態(tài)s t的狀態(tài)價(jià)值函數(shù).

2 多機(jī)協(xié)同空戰(zhàn)決策流程設(shè)計(jì)

本節(jié)首先介紹多機(jī)協(xié)同空戰(zhàn)決策流程的總體框架和“訓(xùn)練?執(zhí)行”架構(gòu),之后在PPO 算法基礎(chǔ)上,設(shè)計(jì)4 種算法增強(qiáng)機(jī)制,用于提升算法和整體框架的性能.

2.1 總體框架設(shè)計(jì)

圖2 是基于深度強(qiáng)化學(xué)習(xí)的多機(jī)協(xié)同空戰(zhàn)決策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF).整個(gè)框架共包括5個(gè)模塊,分別為態(tài)勢(shì)信息處理模塊、深度強(qiáng)化學(xué)習(xí)模塊、策略解碼模塊、經(jīng)驗(yàn)存儲(chǔ)模塊、神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊.

框架的輸入量是戰(zhàn)場(chǎng)實(shí)時(shí)態(tài)勢(shì)信息,輸出量是所控實(shí)體的動(dòng)作決策方案.原始戰(zhàn)場(chǎng)態(tài)勢(shì)信息輸入框架后,會(huì)首先經(jīng)過(guò)態(tài)勢(shì)信息處理模塊進(jìn)行加工,數(shù)據(jù)經(jīng)過(guò)提取、清洗、篩選、打包、歸一化以及格式化表示后,將傳給深度強(qiáng)化學(xué)習(xí)模塊;深度強(qiáng)化學(xué)習(xí)模塊接收態(tài)勢(shì)信息數(shù)據(jù),輸出動(dòng)作決策;策略解碼模塊接收深度強(qiáng)化學(xué)習(xí)模塊的動(dòng)作決策輸出,解碼封裝為平臺(tái)環(huán)境可接受的操作指令,對(duì)相應(yīng)單元進(jìn)行控制;同時(shí),通過(guò)執(zhí)行新動(dòng)作獲得的新的環(huán)境態(tài)勢(shì)以及獎(jiǎng)勵(lì)值與本步?jīng)Q策的環(huán)境態(tài)勢(shì)信息、動(dòng)作決策方案一并被打包存儲(chǔ)進(jìn)經(jīng)驗(yàn)存儲(chǔ)模塊;待訓(xùn)練網(wǎng)絡(luò)時(shí),再將這些樣本數(shù)據(jù)從經(jīng)驗(yàn)庫(kù)中提取出來(lái),傳入神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊進(jìn)行訓(xùn)練.

深度神經(jīng)網(wǎng)絡(luò)模塊是整個(gè)框架的核心,因?yàn)镻PO 算法收斂穩(wěn)定、性能好,并且其使用的一階優(yōu)化與剪切概率比率的方法操作簡(jiǎn)便,適合在兵棋推演平臺(tái)上進(jìn)行多機(jī)協(xié)同對(duì)抗實(shí)驗(yàn),所以該模塊選取PPO 算法進(jìn)行驗(yàn)證性實(shí)驗(yàn).本文重點(diǎn)在于對(duì)多機(jī)協(xié)同對(duì)抗問(wèn)題進(jìn)行抽象建模,驗(yàn)證兵棋推演平臺(tái)上使用強(qiáng)化學(xué)習(xí)算法解決該類(lèi)問(wèn)題的有效性,所以文章沒(méi)有對(duì)比眾多算法的性能差異,只是選取了其中較為先進(jìn)的PPO 算法舉例.

2.2 集中式訓(xùn)練–分布式執(zhí)行架構(gòu)設(shè)計(jì)

在單智能體強(qiáng)化學(xué)習(xí)中,環(huán)境的狀態(tài)轉(zhuǎn)移只與單智能體的動(dòng)作有關(guān),而多智能體環(huán)境的狀態(tài)轉(zhuǎn)移依賴(lài)于所有智能體的動(dòng)作;并且,在多智能體系統(tǒng)中,每個(gè)智能體所獲得的回報(bào)不只與自身的動(dòng)作有關(guān),還與其他智能體有關(guān).通過(guò)學(xué)習(xí)改變其中一個(gè)智能體的策略將會(huì)影響其他智能體最優(yōu)策略的選取,且值函數(shù)的估計(jì)也將不準(zhǔn)確,這樣將很難保證算法的收斂性.因此,我們采用集中式訓(xùn)練?分布式執(zhí)行的架構(gòu),如圖3.

圖3 集中式訓(xùn)練?分布式執(zhí)行架構(gòu)Fig.3 Framework of centralized training and decentralized execution

“集中式訓(xùn)練”是指在訓(xùn)練中使用聯(lián)合狀態(tài)?動(dòng)作值函數(shù)V?(s,a1,a2,···,a n) 對(duì)智能體進(jìn)行訓(xùn)練.與分布式訓(xùn)練(使用局部動(dòng)作值函數(shù)V?(s i,a i) 訓(xùn)練,輸入單個(gè)智能體的局部狀態(tài)s i和動(dòng)作a i)相比,聯(lián)合動(dòng)作值函數(shù)輸入的是全局態(tài)勢(shì)信息s和所有實(shí)體的動(dòng)作信息a1～a n,是真正對(duì)于聯(lián)合狀態(tài)?策略的評(píng)估.其優(yōu)點(diǎn)在于所有實(shí)體共享一套網(wǎng)絡(luò)參數(shù),在決策動(dòng)作時(shí)能夠考慮實(shí)體間的耦合關(guān)系,因?yàn)檎麄€(gè)系統(tǒng)的轉(zhuǎn)移和回報(bào)函數(shù)的產(chǎn)生都與聯(lián)合動(dòng)作有關(guān),這樣能有效防止一個(gè)實(shí)體的策略影響其他實(shí)體的策略,解決算法較難收斂的問(wèn)題.

然而,在真正執(zhí)行的時(shí)候,單個(gè)智能體只能觀測(cè)到部分信息(包括部分的狀態(tài)信息和動(dòng)作信息),無(wú)法獲得其他智能體的動(dòng)作,甚至無(wú)法獲得聯(lián)合狀態(tài).這種情況下,輸入決策網(wǎng)絡(luò)的是單智能體的局部觀測(cè)信息,輸出的是單智能體的決策動(dòng)作,這就是“分布式執(zhí)行”.這種決策方式可以彌補(bǔ)不同實(shí)體間的動(dòng)作區(qū)分度不大、模型探索性不強(qiáng)的缺點(diǎn).

2.3 嵌入式專(zhuān)家經(jīng)驗(yàn)獎(jiǎng)勵(lì)機(jī)制

空戰(zhàn)決策問(wèn)題是專(zhuān)業(yè)要求高、系統(tǒng)性較強(qiáng)的研究領(lǐng)域,用于空戰(zhàn)的戰(zhàn)法戰(zhàn)術(shù)及策略復(fù)雜且豐富,所以專(zhuān)家經(jīng)驗(yàn)在解決該問(wèn)題過(guò)程中往往具有十分關(guān)鍵的作用.傳統(tǒng)獎(jiǎng)勵(lì)函數(shù)通常根據(jù)實(shí)體間交戰(zhàn)的輸贏判定得分,將戰(zhàn)損分值scoretotal作為獎(jiǎng)勵(lì)值r用于網(wǎng)絡(luò)訓(xùn)練.

但是,這樣設(shè)置的最大問(wèn)題是獎(jiǎng)勵(lì)過(guò)于稀疏,算法很難收斂.為解決這一問(wèn)題,對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行改進(jìn),將專(zhuān)家經(jīng)驗(yàn)嵌入獎(jiǎng)勵(lì)函數(shù)中.考慮到戰(zhàn)機(jī)靠近目標(biāo)點(diǎn)時(shí),神經(jīng)網(wǎng)絡(luò)收到的獎(jiǎng)勵(lì)反饋應(yīng)該變大,所以在傳統(tǒng)獎(jiǎng)勵(lì)函數(shù)基礎(chǔ)上增加一個(gè)額外獎(jiǎng)勵(lì)項(xiàng)scoreencourage.

其中,discur表示當(dāng)前時(shí)刻戰(zhàn)機(jī)距離目標(biāo)點(diǎn)的距離,disnext表示下一時(shí)刻戰(zhàn)機(jī)距離目標(biāo)點(diǎn)的距離.經(jīng)過(guò)改進(jìn)后的獎(jiǎng)勵(lì)函數(shù)則變?yōu)?

式中,τ是衰減系數(shù),隨著訓(xùn)練的進(jìn)行,該值按照式(7)逐漸減小;τstep是遞減步長(zhǎng);τtemp是衰減基數(shù).實(shí)驗(yàn)中的具體設(shè)置見(jiàn)附錄表A1.

嵌入專(zhuān)家經(jīng)驗(yàn)的獎(jiǎng)勵(lì)函數(shù),在訓(xùn)練初期以額外獎(jiǎng)勵(lì)部分占主導(dǎo),引導(dǎo)戰(zhàn)機(jī)飛往目標(biāo)點(diǎn).隨著訓(xùn)練迭代次數(shù)增加,傳統(tǒng)獎(jiǎng)勵(lì)漸漸占據(jù)主導(dǎo),側(cè)重探索空戰(zhàn)的戰(zhàn)法戰(zhàn)術(shù).

使用強(qiáng)化學(xué)習(xí)解決問(wèn)題,很難設(shè)計(jì)一種放之四海而皆準(zhǔn)的獎(jiǎng)勵(lì)函數(shù),需要具體問(wèn)題具體分析.本節(jié)提出的專(zhuān)家經(jīng)驗(yàn)獎(jiǎng)勵(lì)機(jī)制的核心思想,是在原有稀疏獎(jiǎng)勵(lì)的基礎(chǔ)上,人為添加一個(gè)稠密的獎(jiǎng)勵(lì),從而稠密化智能體獲得的獎(jiǎng)賞值,加快智能體的訓(xùn)練速度.上述專(zhuān)家經(jīng)驗(yàn)獎(jiǎng)勵(lì)函數(shù)只是一種參考,真正使用算法框架時(shí),還需要根據(jù)實(shí)際問(wèn)題進(jìn)行具體分析與設(shè)計(jì).

2.4 自適應(yīng)權(quán)重及優(yōu)先采樣機(jī)制

在經(jīng)驗(yàn)回放庫(kù)中采樣時(shí),如果使用傳統(tǒng)隨機(jī)采樣操作,不僅無(wú)法有效利用高質(zhì)量的樣本,還有可能導(dǎo)致模型陷入局部最優(yōu)解.另外,回放庫(kù)中的樣本數(shù)量不斷變化,也不利于訓(xùn)練的收斂.因此,提出一種自適應(yīng)權(quán)重以及優(yōu)先采樣的機(jī)制,解決上述問(wèn)題.

考慮到神經(jīng)網(wǎng)絡(luò)的損失函數(shù)受優(yōu)勢(shì)值影響,在設(shè)計(jì)自適應(yīng)權(quán)重過(guò)程中,提高優(yōu)勢(shì)值對(duì)采樣權(quán)重的影響.將參與采樣的每個(gè)智能體產(chǎn)生的樣本分別按照優(yōu)勢(shì)值的絕對(duì)值,由大至小、從1 到N進(jìn)行排序.考慮到全部樣本的采樣概率之和為1,設(shè)計(jì)如下樣本自適應(yīng)權(quán)重計(jì)算公式:

其中,j表示樣本排序序號(hào),P j表示第j號(hào)樣本的采樣概率,N表示一個(gè)智能體包含的樣本數(shù)量.提出的自適應(yīng)權(quán)重計(jì)算公式,既增加了優(yōu)勢(shì)值絕對(duì)值較大樣本的采樣概率,使獎(jiǎng)勵(lì)值極大或極小的樣本都能影響神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,加快算法收斂速度;又能充分發(fā)揮探索與利用的關(guān)系,平衡不同樣本采樣概率.

采樣時(shí)并非將經(jīng)驗(yàn)回放庫(kù)中的所有樣本統(tǒng)一計(jì)算權(quán)重并采樣,而是不同智能體分別計(jì)算各自產(chǎn)生的樣本的采樣權(quán)重,并按照該權(quán)重值分別采集預(yù)先設(shè)定數(shù)量的樣本,用于更新網(wǎng)絡(luò)參數(shù).這種優(yōu)先采樣機(jī)制能夠采集不同智能體產(chǎn)生的樣本,體現(xiàn)不同智能體間的合作關(guān)系,促使不同智能體逐漸收斂到相同目標(biāo).

2.5 經(jīng)驗(yàn)共享機(jī)制

由于多機(jī)空戰(zhàn)場(chǎng)景的狀態(tài)、動(dòng)作空間龐大,單個(gè)智能體能夠探索的空間有限,樣本使用效率不高.另外,作為典型的多智能體系統(tǒng),多機(jī)協(xié)同空戰(zhàn)問(wèn)題中,單個(gè)智能體的策略不只取決于自身的策略和環(huán)境的反饋,同時(shí)還受到其他智能體的動(dòng)作及與其合作關(guān)系的影響.所以,設(shè)計(jì)經(jīng)驗(yàn)共享機(jī)制,該機(jī)制包含共享樣本經(jīng)驗(yàn)庫(kù)和共享網(wǎng)絡(luò)參數(shù)兩個(gè)方面.

所謂共享樣本經(jīng)驗(yàn)庫(kù),是將全局環(huán)境態(tài)勢(shì)信息s t、智能體的動(dòng)作決策信息a t、智能體執(zhí)行新動(dòng)作后的環(huán)境態(tài)勢(shì)信息st+1和環(huán)境針對(duì)該動(dòng)作反饋的獎(jiǎng)勵(lì)值rt+1按照四元組 (s t,a t,s t+1,r t+1) 的形式存儲(chǔ)進(jìn)經(jīng)驗(yàn)回放庫(kù),每一個(gè)智能體的信息均按照該格式存儲(chǔ)進(jìn)同一個(gè)經(jīng)驗(yàn)回放庫(kù)中.

在更新網(wǎng)絡(luò)參數(shù)時(shí),按照第2.4 節(jié)所述機(jī)制從經(jīng)驗(yàn)回放庫(kù)中提取樣本,分別計(jì)算不同智能體產(chǎn)生的樣本在Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)下的損失值,進(jìn)而求得兩個(gè)神經(jīng)網(wǎng)絡(luò)的更新梯度J i.將不同智能體的樣本計(jì)算出的梯度值J i進(jìn)行加權(quán),可以得到全局梯度公式為:

其中,J i表示第i個(gè)智能體樣本計(jì)算出的梯度,n表示樣本總數(shù),w i表示智能體i對(duì)全局梯度計(jì)算的影響權(quán)重.這種不同智能體的樣本共同更新同一套網(wǎng)絡(luò)參數(shù)的機(jī)制稱(chēng)為“共享網(wǎng)絡(luò)參數(shù)”.

本文實(shí)驗(yàn)只涉及同構(gòu)智能體,可以使用所有實(shí)體的樣本對(duì)共享策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練.當(dāng)環(huán)境中存在異構(gòu)實(shí)體時(shí),依然可以所有實(shí)體共享一套網(wǎng)絡(luò)參數(shù)與經(jīng)驗(yàn)池,但需要在狀態(tài)空間輸入端、動(dòng)作空間輸出端、經(jīng)驗(yàn)回放池采樣方法上作出一些針對(duì)性處理.例如,定義總的狀態(tài)空間維度,囊括不同類(lèi)別實(shí)體的所有狀態(tài),每類(lèi)實(shí)體只在其包含的狀態(tài)維度上填充數(shù)據(jù),其余狀態(tài)維度補(bǔ)零,從而統(tǒng)一所有類(lèi)別實(shí)體的網(wǎng)絡(luò)輸入維度;同理,輸出端也定義總的動(dòng)作空間維度,囊括不同類(lèi)別實(shí)體的所有動(dòng)作,每類(lèi)實(shí)體進(jìn)行決策時(shí),在輸出端添加mask 操作,實(shí)體具有的動(dòng)作維度正常輸出,不具有的動(dòng)作維度補(bǔ)零,再對(duì)非零維度的輸出進(jìn)行softmax 操作,按照其概率選擇動(dòng)作;經(jīng)驗(yàn)回放池中的樣本則可以添加實(shí)體類(lèi)別的標(biāo)簽,在采樣時(shí),均勻采集不同類(lèi)別實(shí)體的樣本.理論上,按照上述方法,深度神經(jīng)網(wǎng)絡(luò)能夠具備決策不同類(lèi)別實(shí)體的能力.由于篇幅有限,本文不對(duì)其進(jìn)行詳細(xì)建模.

2.6 鼓勵(lì)探索機(jī)制

多機(jī)交戰(zhàn)的策略與戰(zhàn)術(shù)戰(zhàn)法構(gòu)成豐富、種類(lèi)多樣、風(fēng)格多變,即便在有限動(dòng)作空間下,依舊具有涌現(xiàn)出豐富戰(zhàn)法的潛力.如果采用傳統(tǒng)PPO 算法的損失函數(shù),訓(xùn)練中后期智能體的探索能力會(huì)顯著下降.如何在算法收斂速度與智能體探索能力之間權(quán)衡是值得思考的問(wèn)題.

為解決上述問(wèn)題,設(shè)計(jì)一種基于策略熵的鼓勵(lì)探索機(jī)制,增強(qiáng)智能體的探索能力,并加快執(zhí)行器網(wǎng)絡(luò)的收斂速度.

不同智能體添加策略熵后的損失函數(shù)定義為:

其中,下標(biāo)i表示第i個(gè)智能體;θi表示網(wǎng)絡(luò)參數(shù);LCLIP(θi)為傳統(tǒng)PPO 算法的損失函數(shù),計(jì)算方法如式(2) 所示;(π(·|s t)) 表示在參數(shù)θi下策略π(·|s t)的策略熵,具體計(jì)算方法如式(11):

本文出現(xiàn)的策略熵權(quán)重默認(rèn)為1,因此沒(méi)有在公式中另行標(biāo)注.

本文針對(duì)的問(wèn)題背景是多機(jī)協(xié)同空戰(zhàn)決策,主要強(qiáng)調(diào)不同實(shí)體間的配合協(xié)作.所以在計(jì)算損失函數(shù)時(shí),不是直接計(jì)算全局損失,而是結(jié)合優(yōu)先采樣機(jī)制和經(jīng)驗(yàn)共享機(jī)制,求解不同智能體各自產(chǎn)生的樣本的損失值.相應(yīng)地,其策略熵也單獨(dú)計(jì)算,最后計(jì)算均值 Ei作為全局損失函數(shù)值.

包含鼓勵(lì)探索機(jī)制的損失函數(shù)如式(12):

其中,M是智能體總數(shù).

3 仿真實(shí)驗(yàn)及結(jié)果

本文實(shí)驗(yàn)平臺(tái)為“墨子?未來(lái)指揮官系統(tǒng)(個(gè)人版)1版本號(hào):v1.4.1.0”,該平臺(tái)支持聯(lián)合作戰(zhàn)背景下的制空作戰(zhàn)、反水面作戰(zhàn)等多種作戰(zhàn)樣式的仿真推演,適用于作戰(zhàn)方案驗(yàn)證、武器裝備效能評(píng)估、武器裝備戰(zhàn)法研究等.實(shí)驗(yàn)臺(tái)式機(jī)搭載的CPU 為i9-10900K、顯卡為NVIDIA GeForce RTX 3090、內(nèi)存為64 GB.

3.1 實(shí)驗(yàn)想定

實(shí)驗(yàn)想定如圖4 所示,該想定中紅藍(lán)兵力配置相等,各自包含3 架戰(zhàn)斗機(jī)和一個(gè)可起降飛機(jī)的基地,想定范圍為長(zhǎng)1 400 km、寬1 000 km 的長(zhǎng)方形公海區(qū)域.

圖4 想定示意圖Fig.4 Scenario diagram

想定推演的過(guò)程為飛機(jī)從基地起飛,對(duì)己方基地進(jìn)行護(hù)衛(wèi),同時(shí)對(duì)敵方的戰(zhàn)斗機(jī)和基地進(jìn)行摧毀.各個(gè)實(shí)體的具體型號(hào)和損失得分見(jiàn)附錄表A 2 和表A3.

表A2 想定實(shí)體類(lèi)型Table A2 Entity type of scenario

表A3 推演事件得分Table A3 The score of deduction events

3.2 模型構(gòu)建

使用PPO 算法構(gòu)建強(qiáng)化學(xué)習(xí)智能體,按照第1節(jié)所述方法,對(duì)強(qiáng)化學(xué)習(xí)的要素進(jìn)行定義.

1)狀態(tài)設(shè)計(jì)

狀態(tài)包含己方和敵方兩部分實(shí)體信息,己方實(shí)體信息包含己方飛機(jī)和導(dǎo)彈的信息,敵方實(shí)體信息包含敵方飛機(jī)和導(dǎo)彈的信息.由于戰(zhàn)場(chǎng)迷霧,己方和敵方同類(lèi)型實(shí)體的狀態(tài)信息可能不一致,其中缺失的信息補(bǔ)零處理,數(shù)據(jù)全部按照去量綱的方式進(jìn)行縮放.具體見(jiàn)附錄表A4.

表A4 狀態(tài)空間信息Table A4 State space information

2)動(dòng)作設(shè)計(jì)

本文決策的實(shí)體控制包含航向、高度、速度、自動(dòng)開(kāi)火距離、導(dǎo)彈齊射數(shù)量5 個(gè)類(lèi).由于武器數(shù)量有限,當(dāng)彈藥耗盡時(shí),自動(dòng)開(kāi)火距離以及導(dǎo)彈齊射數(shù)量的決策將失效.為降低決策動(dòng)作的維度,本文對(duì)航向、高度、速度和自動(dòng)開(kāi)火距離進(jìn)行了離散化處理,具體見(jiàn)附錄表A5.動(dòng)作空間維度為6×3×3×6×2 共648 維.

表A5 動(dòng)作空間信息Table A5 Action space information

3)獎(jiǎng)勵(lì)設(shè)計(jì)

獎(jiǎng)勵(lì)包含兩個(gè)部分,一部分是稀疏的戰(zhàn)損獎(jiǎng)勵(lì),另一部分是嵌入式專(zhuān)家經(jīng)驗(yàn)獎(jiǎng)勵(lì).如第2.3 節(jié)所述的額外獎(jiǎng)勵(lì)思想,本文采用的嵌入式獎(jiǎng)勵(lì)是戰(zhàn)斗機(jī)距離敵方基地的距離減少量.本文將戰(zhàn)損得分與嵌入式專(zhuān)家經(jīng)驗(yàn)獎(jiǎng)勵(lì)進(jìn)行歸一化,防止變量量綱對(duì)計(jì)算結(jié)果的影響.

4)網(wǎng)絡(luò)設(shè)計(jì)

本文Actor 網(wǎng)絡(luò)與Critic 網(wǎng)絡(luò)結(jié)構(gòu)大致相同.其中,全局態(tài)勢(shì)信息以及實(shí)體個(gè)體態(tài)勢(shì)信息分別經(jīng)過(guò)多層歸一化層、卷積層對(duì)特征進(jìn)行壓縮與提取,將兩部分獲得的中間層信息進(jìn)行拼接,再經(jīng)過(guò)全連接層后輸出.Actor 網(wǎng)絡(luò)輸出648 維動(dòng)作概率分布,Critic 網(wǎng)絡(luò)輸出1 維狀態(tài)評(píng)價(jià)值.神經(jīng)網(wǎng)絡(luò)示意圖見(jiàn)附錄圖A1.

圖A1 神經(jīng)網(wǎng)絡(luò)示意圖Fig.A1 Diagrams of neural network

5)超參數(shù)設(shè)計(jì)

實(shí)驗(yàn)過(guò)程中涉及的各種超參數(shù)設(shè)置見(jiàn)附錄表A1.

表A1 實(shí)驗(yàn)超參數(shù)設(shè)置Table A1 Experimental hyperparameter setting

3.3 算法有效性檢驗(yàn)

為驗(yàn)證本文所提出的算法框架的有效性,根據(jù)上述設(shè)計(jì)方法進(jìn)行對(duì)比實(shí)驗(yàn),分別記錄DRLMACACDF 模型、傳統(tǒng)PPO 算法模型、人類(lèi)高級(jí)水平的模型與傳統(tǒng)規(guī)劃方法對(duì)戰(zhàn)的得分曲線(xiàn),如圖5.其中,傳統(tǒng)PPO 算法也采用了“集中式訓(xùn)練?分布式執(zhí)行”框架;傳統(tǒng)規(guī)劃方法采用的是人工勢(shì)場(chǎng)避障算法與0-1 規(guī)劃相結(jié)合的規(guī)則模型;人類(lèi)高級(jí)水平數(shù)據(jù)來(lái)源于第三屆全國(guó)兵棋推演大賽決賽前三名選手的比賽模型的平均得分.

圖5 算法有效性對(duì)比圖Fig.5 Algorithm effectiveness comparison diagram

從圖5 可以看出,隨著訓(xùn)練次數(shù)的增多,DRLMACACDF 模型的得分曲線(xiàn)逐步上升,經(jīng)過(guò)大約1 000 輪訓(xùn)練后,超越了傳統(tǒng)規(guī)劃算法水平.模型大約在6 000 輪左右開(kāi)始收斂,得分達(dá)到最大值.相比而言,傳統(tǒng)PPO 算法效果較差,得分始終為負(fù),遠(yuǎn)不及傳統(tǒng)規(guī)劃算法水平線(xiàn).表1 是DRL-MACACDF和傳統(tǒng)PPO 算法的實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì).

表1 算法有效性實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)Table 1 Experimental statistics of algorithm effectiveness

從表1 可以看出,在15 000 輪訓(xùn)練中,本文提出的DRL-MACACDF 算法平均勝率高達(dá)91.472%,而傳統(tǒng)PPO 算法平均勝率僅為0,性能結(jié)果對(duì)比十分鮮明.雖然DRL-MACACDF 模型的得分標(biāo)準(zhǔn)差偏高,但模型在經(jīng)過(guò)訓(xùn)練后,對(duì)戰(zhàn)能力迅速提升,比賽得分快速變化,所以造成了高標(biāo)準(zhǔn)差.當(dāng)經(jīng)過(guò)6 000 輪訓(xùn)練,DRL-MACACDF 模型開(kāi)始收斂后,重新計(jì)算DRL-MACACDF 模型的得分標(biāo)準(zhǔn)差則僅有1.313,反映出該模型性能穩(wěn)定,波動(dòng)較小.實(shí)驗(yàn)結(jié)果證明,未加改進(jìn)且缺乏專(zhuān)家經(jīng)驗(yàn)的傳統(tǒng)PPO 算法難以解決多機(jī)協(xié)同對(duì)抗決策問(wèn)題,算法效果比傳統(tǒng)規(guī)劃算法效果還差.相較而言,本文提出的DRL-MACACDF 算法及決策框架,實(shí)驗(yàn)效果超過(guò)了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法和傳統(tǒng)規(guī)劃算法,性能良好且效果穩(wěn)定,驗(yàn)證了算法框架的有效性.

3.4 消融實(shí)驗(yàn)

本文提出的算法框架包含4 種針對(duì)多機(jī)協(xié)同對(duì)抗對(duì)策問(wèn)題背景的改進(jìn)機(jī)制.為研究不同機(jī)制對(duì)算法性能的影響,設(shè)計(jì)消融實(shí)驗(yàn),通過(guò)在傳統(tǒng)PPO 算法上增減4 種改進(jìn)機(jī)制,比較不同模型的效果.經(jīng)過(guò)簡(jiǎn)單試驗(yàn)發(fā)現(xiàn),在未使用嵌入式專(zhuān)家經(jīng)驗(yàn)獎(jiǎng)勵(lì)機(jī)制的情況下,不同模型的得分都很低,其他機(jī)制對(duì)算法性能的影響效果難以觀察.因此,消融實(shí)驗(yàn)改為在DRL-MACACDF 模型基礎(chǔ)上分別去除某一機(jī)制,根據(jù)實(shí)驗(yàn)結(jié)果間接比較不同機(jī)制的作用.4 種對(duì)比算法的設(shè)置如表2 所示.

表2 消融實(shí)驗(yàn)設(shè)置Table 2 The setting of ablation experiment

圖6 是消融實(shí)驗(yàn)算法性能對(duì)比曲線(xiàn),在傳統(tǒng)PPO 算法基礎(chǔ)上增加任意三種增強(qiáng)機(jī)制對(duì)實(shí)驗(yàn)性能均有一定程度的提高,由于作用機(jī)制不同,其影響程度也存在差別.具體來(lái)看,未添加嵌入式專(zhuān)家經(jīng)驗(yàn)獎(jiǎng)勵(lì)機(jī)制的DRL-MACACDF-R 模型性能最差,僅稍?xún)?yōu)于傳統(tǒng)PPO 算法,所以說(shuō)專(zhuān)家經(jīng)驗(yàn)在強(qiáng)化學(xué)習(xí)中的指導(dǎo)意義巨大,可以給實(shí)驗(yàn)性能帶來(lái)顯著提升;未添加經(jīng)驗(yàn)共享機(jī)制的DRL-MACACDF-A模型與DRL-MACACDF 模型學(xué)習(xí)曲線(xiàn)大致相當(dāng),但收斂速度相對(duì)較慢,且最終收斂得分稍低.無(wú)自適應(yīng)權(quán)重及優(yōu)先采樣機(jī)制和無(wú)鼓勵(lì)探索機(jī)制的模型性能依次降低,其中未添加鼓勵(lì)探索機(jī)制的DRLMACACDF-E 模型前期性能提升較快,但大約在6 000輪左右就開(kāi)始收斂并陷入局部最優(yōu),最終落后于未添加自適應(yīng)權(quán)重及優(yōu)先采樣機(jī)制的DRL-MACACDF-S曲線(xiàn);DRL-MACACDF-S 模型,前期收斂速度很慢,但模型性能一直在提高,訓(xùn)練到10 000 輪左右時(shí),反超DRL-MACACDF-E 模型.表3 統(tǒng)計(jì)了4種對(duì)比算法相較于傳統(tǒng)PPO 算法平均得分提高的百分比.

表3 消融實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)Table 3 Statistics of ablation experimental results

圖6 消融實(shí)驗(yàn)算法性能對(duì)比圖Fig.6 Performance comparison diagram of ablation experimental algorithm

消融實(shí)驗(yàn)證明,在解決本文設(shè)計(jì)的3V3 多機(jī)協(xié)同空戰(zhàn)背景的問(wèn)題時(shí),本文提出的DRL-MACACDF算法框架中添加的4 種創(chuàng)新增強(qiáng)機(jī)制均能提高算法性能,適用于解決多機(jī)協(xié)同空戰(zhàn)決策問(wèn)題.

3.5 算法效率分析

算法效率的高低是評(píng)價(jià)算法優(yōu)劣的重要指標(biāo),模型訓(xùn)練過(guò)程中的累計(jì)勝率曲線(xiàn),反映了算法的學(xué)習(xí)效率.其導(dǎo)數(shù)為正值時(shí),代表模型性能正在提高,勝利次數(shù)不斷增多;曲線(xiàn)斜率越大,則學(xué)習(xí)效率越高.如圖7 可以看出,實(shí)驗(yàn)開(kāi)始時(shí)算法更新迅速,模型性能提升較快,經(jīng)過(guò)2 500 輪左右的訓(xùn)練,累計(jì)勝率就達(dá)到了50%;至6 000 輪左右時(shí),已經(jīng)基本完成訓(xùn)練,更新效率開(kāi)始下降,模型趨于收斂.

圖7 累計(jì)勝率曲線(xiàn)Fig.7 Cumulative winning rate curve

進(jìn)一步,分別抽取經(jīng)過(guò)500 輪、1 000 輪、2 000輪、5 000 輪以及10 000 輪訓(xùn)練的模型進(jìn)行交叉對(duì)抗,統(tǒng)計(jì)100 局對(duì)抗的平均勝率,繪制勝率分布圖(如圖8 所示).

從圖8 的漸變可以看出,隨著訓(xùn)練進(jìn)行,模型性能呈現(xiàn)明顯的變化趨勢(shì).以最左側(cè)列為例,從500 輪訓(xùn)練增加到1 000 輪訓(xùn)練,新模型就能以高達(dá)90.1%的概率贏得勝利,相較于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法,本文模型能夠以很快的速度提升決策能力,隨著訓(xùn)練次數(shù)增加,模型基本上能以接近100%的概率獲勝.由第4 列可知,當(dāng)訓(xùn)練從5 000 輪增加到10 000 輪,模型僅有53.6%的概率獲勝,此時(shí)勝負(fù)基本上是按照相等概率隨機(jī)分布的.這說(shuō)明當(dāng)達(dá)到最優(yōu)解時(shí),模型收斂穩(wěn)定,且性能不會(huì)有大幅度的波動(dòng).

圖8 勝率分布圖Fig.8 Winning rate distribution map

3.6 行為分析

復(fù)盤(pán)實(shí)驗(yàn)數(shù)據(jù),總結(jié)交戰(zhàn)過(guò)程中DRL-MACACDF 模型涌現(xiàn)出的作戰(zhàn)意圖、策略、戰(zhàn)術(shù)與戰(zhàn)法.

1)雙機(jī)與三機(jī)編隊(duì)?wèi)?zhàn)術(shù)

智能體涌現(xiàn)出自主編隊(duì)能力,如圖9、圖10 所示,從基地起飛后,智能體會(huì)隨機(jī)采取雙機(jī)編隊(duì)或者三機(jī)編隊(duì)前往作戰(zhàn)區(qū)域.當(dāng)使用雙機(jī)編隊(duì)時(shí),通常智能體會(huì)選擇從南北兩路分別前往作戰(zhàn)區(qū)域包圍敵方飛機(jī);而采用三機(jī)編隊(duì)時(shí),智能體更傾向于從中路挺進(jìn),高速機(jī)動(dòng)至交戰(zhàn)區(qū)主動(dòng)迎敵.

圖9 雙機(jī)編隊(duì)Fig.9 Two-plane formation

圖10 三機(jī)編隊(duì)Fig.10 Three-plane formation

2)包夾戰(zhàn)術(shù)

如圖11 所示,在與敵方飛機(jī)對(duì)抗時(shí),智能體常常會(huì)使用包夾戰(zhàn)術(shù).兩架戰(zhàn)斗機(jī)同時(shí)從兩個(gè)方向?qū)撤斤w機(jī)發(fā)起攻擊,充分發(fā)揮飛機(jī)數(shù)量?jī)?yōu)勢(shì),與敵方戰(zhàn)機(jī)進(jìn)行纏斗.這種包夾戰(zhàn)術(shù)表明,智能體已經(jīng)具備控制多機(jī)、探索和實(shí)現(xiàn)復(fù)雜戰(zhàn)法的能力.

圖11 包夾戰(zhàn)術(shù)Fig.11 Converging attack

3)充分發(fā)揮武器射程優(yōu)勢(shì)

如圖12 所示,經(jīng)過(guò)訓(xùn)練的智能體學(xué)會(huì)充分利用武器的有效射程,在敵方飛機(jī)進(jìn)入導(dǎo)彈射程后,立即發(fā)射導(dǎo)彈進(jìn)行攻擊,隨后調(diào)頭脫離敵方飛機(jī)攻擊范圍.如果導(dǎo)彈未擊落敵機(jī),則再次靠近敵方飛機(jī),重新組織進(jìn)攻.該戰(zhàn)術(shù)動(dòng)作既能有效節(jié)約彈藥,充分發(fā)揮導(dǎo)彈效能,又能最大限度減少己方傷亡.

圖12 發(fā)揮射程優(yōu)勢(shì)Fig.12 Usage of maximum attack range

4)快速機(jī)動(dòng)避彈動(dòng)作

如圖13 所示,經(jīng)過(guò)仔細(xì)復(fù)盤(pán)戰(zhàn)斗機(jī)空戰(zhàn)中的機(jī)動(dòng)動(dòng)作,發(fā)現(xiàn)智能體的行為涌現(xiàn)出一種明顯的快速機(jī)動(dòng)主動(dòng)避彈的戰(zhàn)術(shù)動(dòng)作.當(dāng)敵方導(dǎo)彈臨近己方戰(zhàn)斗機(jī)時(shí),戰(zhàn)斗機(jī)會(huì)迅速向垂直于導(dǎo)彈瞄準(zhǔn)基線(xiàn)的方向機(jī)動(dòng),之后再重新飛往目標(biāo)點(diǎn).采用突然變向的戰(zhàn)術(shù)動(dòng)作,大幅降低了戰(zhàn)機(jī)被擊落的概率,經(jīng)過(guò)統(tǒng)計(jì),初始模型中擊落一架戰(zhàn)機(jī)平均需要1～2 枚彈,使用經(jīng)過(guò)訓(xùn)練的智能體進(jìn)行避彈,平均需要4～5枚彈.

圖13 快速機(jī)動(dòng)避彈Fig.13 Fast maneuvers to avoid attack

5)誘騙敵方彈藥戰(zhàn)法

另一個(gè)明顯的戰(zhàn)法是誘騙敵方彈藥,如圖14所示,智能體控制多架戰(zhàn)機(jī)在敵方火力范圍邊界試探,引誘敵方進(jìn)行攻擊.當(dāng)探測(cè)到敵方發(fā)射導(dǎo)彈對(duì)己方飛機(jī)攻擊后,會(huì)機(jī)動(dòng)至敵方攻擊范圍外,超出敵方導(dǎo)彈射程;待失去導(dǎo)彈攻擊的威脅后,會(huì)再次進(jìn)入敵方火力覆蓋范圍.該策略可以同時(shí)控制多架戰(zhàn)機(jī)誘騙敵方彈藥,能夠在短時(shí)間內(nèi)大量消耗敵方導(dǎo)彈.

圖14 誘騙敵方彈藥Fig.14 Consume enemy ammunition

4 結(jié)論

針對(duì)多機(jī)協(xié)同空戰(zhàn)決策的問(wèn)題背景,本文提出一種“集中式訓(xùn)練–分布式執(zhí)行”的多機(jī)協(xié)同空戰(zhàn)決策框架.該框架內(nèi)置深度強(qiáng)化學(xué)習(xí)模塊,并針對(duì)多機(jī)空戰(zhàn)場(chǎng)景的特點(diǎn),設(shè)計(jì)了4 種PPO 算法改進(jìn)機(jī)制,針對(duì)性提高了多機(jī)協(xié)同對(duì)抗場(chǎng)景下深度強(qiáng)化學(xué)習(xí)算法的效果,有效解決了多機(jī)協(xié)同空中作戰(zhàn)實(shí)體類(lèi)型眾多、狀態(tài)和動(dòng)作空間巨大、協(xié)同合作關(guān)系復(fù)雜程度高等問(wèn)題.實(shí)驗(yàn)結(jié)果證明,本文方法相較于傳統(tǒng)規(guī)劃算法和PPO 算法具有明顯優(yōu)勢(shì),進(jìn)一步,消融實(shí)驗(yàn)驗(yàn)證4 種性能提升機(jī)制都不同程度地增強(qiáng)了算法性能,并且算法效率較高,能在有限的訓(xùn)練次數(shù)下達(dá)到良好的效果.模型在訓(xùn)練過(guò)程中涌現(xiàn)出的大量鮮明的戰(zhàn)術(shù)戰(zhàn)法表明,本文決策流程框架具有良好的探索能力,能充分挖掘、利用多機(jī)空戰(zhàn)場(chǎng)景下不同實(shí)體間協(xié)同合作的機(jī)制以及合作與競(jìng)爭(zhēng)的戰(zhàn)術(shù)戰(zhàn)法,在戰(zhàn)場(chǎng)輔助決策領(lǐng)域具有巨大的應(yīng)用價(jià)值.

本文重心在于抽象多機(jī)協(xié)同對(duì)抗問(wèn)題,構(gòu)建適合強(qiáng)化學(xué)習(xí)算法求解的模型,驗(yàn)證技術(shù)路徑的可行性,所以并未對(duì)不同強(qiáng)化學(xué)習(xí)算法進(jìn)行對(duì)比分析.在未來(lái)的工作中,可以進(jìn)一步拓展框架下的算法種類(lèi),包括連續(xù)控制任務(wù)或者離散控制任務(wù)算法.

另外,實(shí)驗(yàn)規(guī)模局限在3V3 飛機(jī)空戰(zhàn),還未驗(yàn)證大規(guī)模復(fù)雜場(chǎng)景下的算法性能.下一步的研究可以將想定設(shè)計(jì)的更加貼合實(shí)戰(zhàn)、更加復(fù)雜,比如增添實(shí)體種類(lèi)、增加實(shí)體數(shù)量、豐富作戰(zhàn)任務(wù)等.

致謝

特別感謝梁星星、馬揚(yáng)對(duì)本文實(shí)驗(yàn)及文章撰寫(xiě)工作的支持.