一種結(jié)合MADDPG和對(duì)比學(xué)習(xí)的無(wú)人機(jī)追逃博弈方法

2024-03-30 10:53:18王若冰王曉芳

宇航學(xué)報(bào) 2024年2期

關(guān)鍵詞：智能

王若冰，王曉芳

（北京理工大學(xué)宇航學(xué)院，北京 100081）

0 引言

現(xiàn)代無(wú)人機(jī)體型小，隱蔽性強(qiáng)，大量應(yīng)用于現(xiàn)代空戰(zhàn)。無(wú)人機(jī)追逃博弈問(wèn)題成為當(dāng)前競(jìng)相研究的熱點(diǎn)。為了提高無(wú)人機(jī)的自主博弈能力，亟需研究使無(wú)人機(jī)空戰(zhàn)對(duì)抗更加智能化的追逃博弈方法［1］。

求解飛行器追逃問(wèn)題的方法主要有基于蒙特卡洛法的數(shù)值求解方法［2］、采用最優(yōu)控制理論［3-4］和微分對(duì)策理論［5-6］的方法。采用數(shù)值解法的追逃博弈求解方法需要進(jìn)行大量仿真，求解成本過(guò)高，不滿足當(dāng)前快速求博弈均衡解的需求。文獻(xiàn)［3-4］在基于最優(yōu)控制理論的飛行器追逃博弈求解方法中，都假設(shè)對(duì)方的機(jī)動(dòng)策略已知。這些方法不適用于追逃雙方均在自己最大機(jī)動(dòng)能力范圍內(nèi)進(jìn)行機(jī)動(dòng)，而沒(méi)有哪方采用固定策略的場(chǎng)景。采用微分對(duì)策理論的博弈方法大多是基于精確的追逃雙方相對(duì)運(yùn)動(dòng)模型推導(dǎo)的。而現(xiàn)代戰(zhàn)爭(zhēng)中，復(fù)雜戰(zhàn)場(chǎng)環(huán)境往往對(duì)飛行器形成較大干擾，無(wú)法建立其追逃問(wèn)題的精確數(shù)學(xué)模型，此時(shí)微分對(duì)策博弈方法的精度將會(huì)下降，甚至不再適用。

近年來(lái)發(fā)展起來(lái)的深度強(qiáng)化學(xué)習(xí)算法不需要建立飛行器的精確數(shù)學(xué)模型，而是通過(guò)與環(huán)境的交互、設(shè)定獎(jiǎng)勵(lì)函數(shù)來(lái)引導(dǎo)飛行器進(jìn)行自主機(jī)動(dòng)決策。當(dāng)前，深度強(qiáng)化學(xué)習(xí)算法在航跡規(guī)劃［7］、制導(dǎo)律設(shè)計(jì)［8-10］、姿態(tài)控制［11-13］、空戰(zhàn)決策［14］等多方面有著較多的應(yīng)用。近年來(lái)，也有學(xué)者采用深度強(qiáng)化學(xué)習(xí)理論研究飛行器追逃博弈問(wèn)題［15-16］。文獻(xiàn)［15］采用基于自博弈架構(gòu)的PPO 算法，根據(jù)CW 方程設(shè)計(jì)了一種特殊的獎(jiǎng)勵(lì)函數(shù)，最終求解得到軌道航天器追逃博弈的均衡解；文獻(xiàn)［16］將模糊推理與時(shí)序誤差評(píng)價(jià)相結(jié)合，對(duì)經(jīng)驗(yàn)回放池進(jìn)行分類后，采用深度強(qiáng)化學(xué)習(xí)算法求解了高速飛行器的攻防博弈。

當(dāng)前采用深度強(qiáng)化學(xué)習(xí)算法的追逃博弈求解方法，大多采用了多階段交替訓(xùn)練（自博弈）的方式，也就是固定一方的策略同時(shí)訓(xùn)練另一方的策略直至收斂，并進(jìn)行多次交替訓(xùn)練。但實(shí)際博弈過(guò)程中，追逃雙方同時(shí)機(jī)動(dòng)，上述方法求得的解并不一定是最優(yōu)解，且該方法中網(wǎng)絡(luò)的訓(xùn)練時(shí)間比較長(zhǎng)。本文將復(fù)雜作戰(zhàn)環(huán)境中變速飛行的飛行器追逃博弈問(wèn)題看作多智能體博弈對(duì)抗問(wèn)題，采用多智能體強(qiáng)化學(xué)習(xí)與博弈論相結(jié)合的方法，通過(guò)“集中式訓(xùn)練、分布式執(zhí)行”［17］的方式，實(shí)現(xiàn)訓(xùn)練過(guò)程中無(wú)人機(jī)追逃雙方的同時(shí)機(jī)動(dòng)博弈，在追逃雙方獎(jiǎng)勵(lì)函數(shù)收斂時(shí)求得雙方的最優(yōu)解（納什均衡解）。

在追逃博弈問(wèn)題中，捕獲域和逃逸域是非常重要的概念。所謂捕獲域是指追擊方成功情況下追逃雙方初始態(tài)勢(shì)的集合，逃逸域定義類似。目前求解捕獲域（逃逸域）的方法，大多數(shù)是在定性或定量微分對(duì)策的基礎(chǔ)上，對(duì)微分對(duì)策問(wèn)題進(jìn)行簡(jiǎn)化，最后求得捕獲域［18-19］。文獻(xiàn)［18］采用微分博弈理論研究了捕獲域的存在條件，并給出了近地軌道飛行器追逃博弈中關(guān)于偏心率的捕獲域邊界；文獻(xiàn)［19］提出了一種基于定性微分博弈的數(shù)值方法，對(duì)軌道追逃問(wèn)題中的三維界柵軌跡和捕獲域進(jìn)行轉(zhuǎn)化并求解。

以上求解捕獲域的方法都是在精確數(shù)學(xué)模型基礎(chǔ)上進(jìn)行的，當(dāng)飛行器處于復(fù)雜干擾環(huán)境而無(wú)法獲得精確數(shù)學(xué)模型，求解捕獲域非常困難，目前還未見(jiàn)到此方面的文獻(xiàn)。事實(shí)上，影響博弈結(jié)果的初始因素很多，例如初始位置、初始速度方向等，故表征捕獲域的是一個(gè)高維狀態(tài)向量域，此時(shí)捕獲域的求解會(huì)更加復(fù)雜。深度對(duì)比學(xué)習(xí)方法是一種考察樣本之間差異信息的監(jiān)督學(xué)習(xí)方法［20-21］，通過(guò)構(gòu)建孿生神經(jīng)網(wǎng)絡(luò)，采用引導(dǎo)樣本進(jìn)行分類的損失函數(shù)訓(xùn)練出一種可以穩(wěn)定有效提取特征的深度神經(jīng)網(wǎng)絡(luò)。而捕獲域和逃逸域?qū)嶋H上是兩種不同類別的高維向量域，因此本文采用深度對(duì)比學(xué)習(xí)的方法，對(duì)高維初始狀態(tài)向量進(jìn)行區(qū)分學(xué)習(xí)，進(jìn)而實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境中高維捕獲域（逃逸域）的間接表征。

1 問(wèn)題描述與建模

1.1 無(wú)人機(jī)運(yùn)動(dòng)建模

假設(shè)兩架無(wú)人機(jī)在水平面內(nèi)進(jìn)行博弈對(duì)抗，其相對(duì)運(yùn)動(dòng)關(guān)系如圖1所示。

圖1 無(wú)人機(jī)二維追逃博弈幾何模型Fig.1 Geometric model of UAVs two-dimensional pursuit-evasion game

圖1 中，OXZ為地面坐標(biāo)系。P、E 分別代表追擊方無(wú)人機(jī)（以下簡(jiǎn)稱“追擊方”）和逃逸方無(wú)人機(jī)（以下簡(jiǎn)稱“逃逸方”）。vP、vE分別為追擊方和逃逸方的速度矢量，速度矢量與OX軸的夾角為速度方向角ψ，若由OX軸逆時(shí)針旋轉(zhuǎn)至速度矢量，則ψ為正，反之為負(fù)。ηPE為追擊方速度矢量前置角，即vP與目標(biāo)視線之間的夾角，若由速度矢量逆時(shí)針旋轉(zhuǎn)到目標(biāo)視線，則ηPE為正，反之為負(fù)。分別為追擊方和逃逸方的切向加速度大小則為雙方的法向加速度大小。qPE為追擊方-逃逸方無(wú)人機(jī)視線角。

考慮擾動(dòng)的無(wú)人機(jī)運(yùn)動(dòng)模型為：

式中：xi，zi(i=P，E)為無(wú)人機(jī)i的質(zhì)心坐標(biāo)和為復(fù)雜環(huán)境中的等效有界擾動(dòng)。考慮到無(wú)人機(jī)機(jī)動(dòng)能力的有限性，其控制量須滿足：

在無(wú)人機(jī)追逃博弈問(wèn)題中，無(wú)人機(jī)i可通過(guò)攜帶的慣導(dǎo)、雷達(dá)探測(cè)器等裝置獲得自身與對(duì)手的位置以及自身的速度信息，故可得雙方之間的距離rPE及追擊方速度矢量前置角ηPE為：

式中：vP、rPE分別為追擊方速度大小與追逃雙方相對(duì)距離大小。

假設(shè)ra為追擊無(wú)人機(jī)的毀傷半徑，Tmax為考慮燃油等因素的無(wú)人機(jī)允許飛行最長(zhǎng)時(shí)間。當(dāng)滿足以下不等式時(shí)，認(rèn)為追擊方成功捕獲逃逸方，否則認(rèn)為逃逸方成功逃逸。

式中：TPE為追逃博弈的實(shí)際時(shí)間。

1.2 無(wú)人機(jī)追逃博弈數(shù)學(xué)建模

對(duì)于無(wú)人機(jī)追逃博弈問(wèn)題，追擊方與逃逸方是非合作目標(biāo)，雙方的博弈目的完全沖突，此問(wèn)題實(shí)質(zhì)上是一種完全競(jìng)爭(zhēng)的零和博弈（Zero-sum game，ZSG）問(wèn)題。二維平面內(nèi)運(yùn)動(dòng)的無(wú)人機(jī)通過(guò)調(diào)整切向加速度和法向加速度來(lái)實(shí)現(xiàn)對(duì)運(yùn)動(dòng)的控制，即無(wú)人機(jī)i的控制量ui=

追逃博弈過(guò)程中，追擊方（逃逸方）在考慮對(duì)方的前提下，不斷調(diào)整自身的策略以縮短（增加）相對(duì)距離來(lái)實(shí)現(xiàn)捕獲（逃逸）。根據(jù)追逃雙方上述博弈目標(biāo)，構(gòu)建t時(shí)刻基于相對(duì)距離的博弈效能微分函數(shù)jP(uP，uE)、jE(uP，uE)，考慮總博弈時(shí)間為TPE，則時(shí)間-控制量效能目標(biāo)函數(shù)為：

式中：λi(i=P，E)為加權(quán)系數(shù)。

綜上，本文的無(wú)人機(jī)追逃博弈三要素為：博弈者集合{P，E}、動(dòng)作集合U={uP，uE}、效能函數(shù){JP，JE}。

在無(wú)人機(jī)追逃博弈過(guò)程中，追逃雙方分別根據(jù)當(dāng)前的狀態(tài)調(diào)整策略，獨(dú)立優(yōu)化各自的效能函數(shù)JP，JE，并得到各自的最優(yōu)策略。假設(shè)目標(biāo)函數(shù)JP，JE：uP×uE→R在uP×uE上連續(xù)，則根據(jù)博弈論中的納什均衡理論，雙方的策略滿足如下不等式時(shí)，零和博弈存在納什均衡態(tài)：

式中：J=JP。對(duì)于零和博弈，博弈均衡態(tài)是博弈系統(tǒng)的穩(wěn)定狀態(tài)。本文采用的基于多智能體強(qiáng)化學(xué)習(xí)算法的無(wú)人機(jī)追逃博弈求解框架，在“集中式訓(xùn)練”中，追逃雙方的博弈能力不斷提升，最終雙方的效能函數(shù)均達(dá)到考慮對(duì)手策略與狀態(tài)下的最優(yōu)，系統(tǒng)到達(dá)博弈納什均衡態(tài)。采用“分布式執(zhí)行”的方式，追逃雙方可根據(jù)自身狀態(tài)執(zhí)行將所有對(duì)手的狀態(tài)與動(dòng)作考慮在內(nèi)的納什均衡策略，得到在不同初始條件下的納什均衡解。

2 采用MADDPG算法的追逃雙方納什均衡解求解

MADDPG 算法基于多個(gè)智能體之間的博弈關(guān)系，采用全局觀測(cè)信息與策略不斷評(píng)估各個(gè)智能體的決策。本節(jié)首先介紹多智能體馬爾科夫決策過(guò)程與MADDPG 算法理論，最后給出了采用MADDPG 算法的無(wú)人機(jī)追逃博弈納什均衡解求解流程。

2.1 追逃雙方多智能體馬爾科夫決策過(guò)程

2.1.1 追逃雙方的狀態(tài)空間與動(dòng)作空間

對(duì)于多智能體強(qiáng)化學(xué)習(xí)，其采用的馬爾科夫決策過(guò)程可以看作一種隨機(jī)博弈（Stochastic games，SG）框架，具體可以表示為：

式中：S為包含環(huán)境中所有智能體的所有狀態(tài)的空間集合，在無(wú)人機(jī)博弈問(wèn)題中，觀測(cè)量S為：

設(shè)N為參與博弈的智能體數(shù)量，A1，A2，…，AN表示各智能體的動(dòng)作，則多智能體的聯(lián)合動(dòng)作A可表示為A=A1×A2× …×AN，對(duì)于無(wú)人機(jī)追逃博弈，無(wú)人機(jī)i(i∈{P，E})的動(dòng)作為其切向加速度大小ati和法向加速度大小ani，則聯(lián)合動(dòng)作A為：

式（8）中的P：S×A×S→[0，1]為狀態(tài)轉(zhuǎn)移矩陣，γ∈[0，1]為獎(jiǎng)勵(lì)期望中的衰減因子。

2.1.2 追逃雙方的獎(jiǎng)勵(lì)函數(shù)

式（8）中，R1，R2，…，RN為智能體的即時(shí)獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)函數(shù)的設(shè)置對(duì)于MADDPG 算法的收斂性具有重要影響。追逃博弈過(guò)程中，式（3）中的相對(duì)距離rPE與追擊方速度矢量前置角ηPE對(duì)追逃雙方的博弈態(tài)勢(shì)有著至關(guān)重要的作用，因此可根據(jù)這2 項(xiàng)設(shè)定獎(jiǎng)勵(lì)函數(shù)。

式（14）中：ηa為追擊方期望的速度矢量前置角，為了有利于追擊目標(biāo)并且網(wǎng)絡(luò)不至于太難收斂，其一般設(shè)為一個(gè)較小的值，本文設(shè)為15°。

為了避免常值獎(jiǎng)勵(lì)函數(shù)帶來(lái)的獎(jiǎng)勵(lì)稀疏問(wèn)題，式（11）～（14）中，在常值獎(jiǎng)勵(lì)函數(shù)的基礎(chǔ)上增加了隨時(shí)間變化的項(xiàng)（式（12）和（14）的常值獎(jiǎng)勵(lì)函數(shù)可看作0）。

綜上，對(duì)于第m步，追擊方獎(jiǎng)勵(lì)函數(shù)RP為：

類似地，逃逸方的獎(jiǎng)勵(lì)函數(shù)RE也由4 部分組成：

考慮到逃逸方目標(biāo)與追擊方相反且采用零和馬爾科夫博弈的前提，式（16）中4 部分獎(jiǎng)勵(lì)函數(shù)分別為：

2.1.3 無(wú)人機(jī)追逃博弈的納什均衡態(tài)表征

追逃雙方無(wú)人機(jī)智能體i(i∈{P，E})的狀態(tài)值函數(shù)為：

式中：πi為智能體i的策略，π-i為除去智能體i以外其他智能體的策略；Ei表示智能體i的累計(jì)回報(bào)在聯(lián)合狀態(tài)St=T=s處的期望值為智能體i在t=T+1 時(shí)刻獲得的獎(jiǎng)勵(lì)；St=T+1為所有智能體在t=T+1時(shí)刻的聯(lián)合狀態(tài)集；γ仍然為折扣系數(shù)。

對(duì)于無(wú)人機(jī)追逃博弈這個(gè)零和博弈問(wèn)題，所有智能體i(i∈{P，E})都在最大化各自的策略價(jià)值函數(shù)，其納什均衡態(tài)可表示為：

式中：πi，?、π-i，?分別為智能體i與除去i外的其他智能體的納什均衡策略；∏i為智能體i的策略集。

2.2 MADDPG算法框架

MADDPG 算法的網(wǎng)絡(luò)結(jié)構(gòu)分為Actor 網(wǎng)絡(luò)與Critic 網(wǎng)絡(luò)，其采用“集中式訓(xùn)練，分布式執(zhí)行”的框架進(jìn)行訓(xùn)練，意義在于：在訓(xùn)練過(guò)程中，通過(guò)全局集中式的Critic 網(wǎng)絡(luò)對(duì)各個(gè)獨(dú)立的agent 進(jìn)行訓(xùn)練，使得每個(gè)agent 都在考慮全局信息的前提下對(duì)自身的局部策略進(jìn)行調(diào)整，避免了單智能體算法無(wú)法解決的環(huán)境不平穩(wěn)問(wèn)題；在分布式應(yīng)用時(shí)，每個(gè)Actor 網(wǎng)絡(luò)僅需根據(jù)自身的觀測(cè)信息便可得出策略。

采用MADDPG 算法的無(wú)人機(jī)追逃博弈求解算法架構(gòu)如圖2所示。

圖2 采用MADDPG算法的無(wú)人機(jī)追逃博弈求解算法架構(gòu)Fig.2 Framework of the MADDPG algorithm solving the pursuit-evasion game between UAVs

多智能體追逃博弈網(wǎng)絡(luò)中，每個(gè)智能體的Critic網(wǎng)絡(luò)的輸入包括所有智能體的全局信息，網(wǎng)絡(luò)損失函數(shù)為：

Critic 網(wǎng)絡(luò)通過(guò)最小化式（20）來(lái)實(shí)現(xiàn)自身網(wǎng)絡(luò)參數(shù)的更新。

追逃雙方智能體的Actor 網(wǎng)絡(luò)則采用梯度下降法進(jìn)行參數(shù)更新，每個(gè)智能體的Actor網(wǎng)絡(luò)僅需要局部信息，以此實(shí)現(xiàn)后續(xù)的分布式執(zhí)行。

智能體(i∈{P，E})的Actor 網(wǎng)絡(luò)梯度的計(jì)算公式為：

式（20）～（21）中，參數(shù)上下標(biāo)t代表更新網(wǎng)絡(luò)參數(shù)的第t個(gè)數(shù)據(jù)，其中t=1，2，…，K。

追逃雙方的Actor網(wǎng)絡(luò)參數(shù)的更新公式為：

式中：η為學(xué)習(xí)率，θi為Actor網(wǎng)絡(luò)參數(shù)。

在MADDPG 集中式訓(xùn)練過(guò)程中，追逃雙方智能體i(i∈{P，E})的策略梯度均按照式（20）～（22）進(jìn)行更新。當(dāng)每個(gè)智能體的獎(jiǎng)勵(lì)函數(shù)都趨于收斂時(shí)，雙方的獎(jiǎng)勵(lì)均為考慮對(duì)手策略下的最優(yōu)，根據(jù)1.2小節(jié)以及式（6）可知，此時(shí)便得到了多智能體追逃博弈的納什均衡解。

2.3 對(duì)比學(xué)習(xí)下的追逃雙方捕獲域和逃逸域求解

2.3.1 無(wú)人機(jī)捕獲域和逃逸域的表征

對(duì)于無(wú)人機(jī)追逃博弈，雙方的博弈結(jié)果取決于博弈的初始態(tài)勢(shì)，即不同的初始狀態(tài)對(duì)應(yīng)的雙方博弈結(jié)果不同。本文中，定義追擊方成功捕獲所對(duì)應(yīng)的追逃雙方初始條件的集合為捕獲域；逃逸方成功逃逸所對(duì)應(yīng)的初始條件的集合稱為逃逸域。

若對(duì)抗開(kāi)始時(shí)，追逃雙方的位置、速度大小已定，則表示初始速度方向的速度方向角組合(ψP0，ψE0)可表征捕獲域和逃逸域；若對(duì)抗開(kāi)始時(shí)，追逃雙方的速度大小和方向已定，則雙方的初始位置XPE=(xP0，zP0，xE0，zE0)T可表征捕獲域和逃逸域。

以(ψP0，ψE0)表征的捕獲域（由于逃逸域也類似，以下均不再寫逃逸域）是二維平面內(nèi)的點(diǎn)集，因此可較容易地直觀表征。而以(xP0，zP0，xE0，zE0)T表示的捕獲域?yàn)樗木S點(diǎn)集，其表征比較困難。如果對(duì)抗開(kāi)始時(shí)雙方的位置和速度均未定，則表征捕獲域的向量維度更高。本文采用對(duì)比學(xué)習(xí)的方法來(lái)求取高維捕獲域。

對(duì)比學(xué)習(xí)通過(guò)讓孿生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)點(diǎn)之間的相似或不同的關(guān)系，來(lái)獲得區(qū)分?jǐn)?shù)據(jù)點(diǎn)類別的能力［21］。對(duì)于高維度的向量，孿生神經(jīng)網(wǎng)絡(luò)將其映射為一個(gè)具有區(qū)分度的低維向量，并通過(guò)衡量低維向量之間的相似度來(lái)衡量高維向量之間的相似度。

對(duì)于本文中的高維捕獲域與逃逸域，兩者互不相容，故可采用對(duì)比學(xué)習(xí)的方法，利用孿生神經(jīng)網(wǎng)絡(luò)將高維初始條件映射為具有區(qū)分度的低維特征向量，并衡量低維特征向量的相似程度，進(jìn)而對(duì)高維的捕獲域和逃逸域進(jìn)行間接表征。

2.3.2 深度對(duì)比學(xué)習(xí)的樣本集獲取

給定典型攻防對(duì)抗場(chǎng)景下的初始條件，采用收斂的MADDPG 博弈網(wǎng)絡(luò)獲得不同初始態(tài)勢(shì)下的博弈結(jié)果，從而獲得捕獲成功樣本點(diǎn)集和逃逸成功樣本點(diǎn)集。之后，采用先隨機(jī)打亂、后隨機(jī)取樣的方式獲得具有相同分布且互不相容的訓(xùn)練樣本集、驗(yàn)證樣本集與測(cè)試樣本集，用于孿生神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試。

2.3.3 采用深度對(duì)比學(xué)習(xí)的捕獲域求解

孿生神經(jīng)網(wǎng)絡(luò)的2 個(gè)輸入為追逃博弈的2 個(gè)初始條件X1，X2，以Y來(lái)表示X1，X2的差異度。若X1，X2對(duì)應(yīng)的博弈結(jié)果相同，稱其為同類樣本對(duì)，則Y=0；若不同，則為異類樣本對(duì)，同時(shí)Y=1。孿生神經(jīng)網(wǎng)絡(luò)由2 個(gè)共享權(quán)重的深度神經(jīng)網(wǎng)絡(luò)構(gòu)成，輸入為高維的向量樣本對(duì)X1，X2，輸出為具有可提取特征的低維樣本對(duì)G(X1)，G(X2)。X1，X2之間的相似程度用映射后的低維向量之間的歐氏距離D來(lái)衡量，即：

設(shè)定歐氏距離閾值ε，當(dāng)D(X1，X2) ≤ε時(shí)，認(rèn)為X1，X2相似；反之，則認(rèn)為X1，X2相異。對(duì)比學(xué)習(xí)算法通過(guò)低維樣本的相似度衡量高維向量的相似度，具體見(jiàn)文獻(xiàn)［21］。

孿生神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為對(duì)比損失函數(shù)L，其表達(dá)式為［21］：

基于訓(xùn)練集中的同類樣本對(duì)與異類樣本對(duì)，通過(guò)最小化L來(lái)不斷更新網(wǎng)絡(luò)參數(shù)，最終可訓(xùn)練出使異類樣本對(duì)相互遠(yuǎn)離，同類樣本對(duì)相互靠近的孿生神經(jīng)網(wǎng)絡(luò)。當(dāng)L趨于0 并穩(wěn)定后，認(rèn)為孿生神經(jīng)網(wǎng)絡(luò)收斂，此時(shí)網(wǎng)絡(luò)便具有了穩(wěn)定地提取特征的能力。

設(shè)孿生神經(jīng)網(wǎng)絡(luò)提取特征能力的強(qiáng)弱由區(qū)分正確率ζ來(lái)表示：

式中：N為總樣本數(shù)，M為孿生神經(jīng)網(wǎng)絡(luò)區(qū)分正確的樣本數(shù)。

本文采用對(duì)比學(xué)習(xí)算法，在訓(xùn)練過(guò)程中通過(guò)L來(lái)調(diào)整網(wǎng)絡(luò)參數(shù)，直到驗(yàn)證集與訓(xùn)練集的ζ均不低于95%且L收斂時(shí)，停止訓(xùn)練。再應(yīng)用測(cè)試集對(duì)該網(wǎng)絡(luò)的區(qū)分效果進(jìn)行非重復(fù)試驗(yàn)，進(jìn)而驗(yàn)證網(wǎng)絡(luò)對(duì)樣本區(qū)分的有效性與魯棒性。

3 仿真校驗(yàn)及分析

3.1 仿真條件

本仿真在CPU 為i5-6500 CPU@3.20 GHz、內(nèi)存為12 GB 的PC 機(jī)上進(jìn)行，基于Pycharm Community 2022.03.22 平臺(tái)、采用Python 3.7 語(yǔ)言進(jìn)行程序編寫，深度學(xué)習(xí)環(huán)境采用Pytorch 1.13.1。

追逃雙方無(wú)人機(jī)的初始位置、初始速度大小及方向范圍、雙方的切向和法向加速度范圍，以及擾動(dòng)見(jiàn)表1。表中dti與dni在擾動(dòng)范圍內(nèi)均勻分布。

表1 追逃雙方初始參數(shù)、加速度及擾動(dòng)Table 1 The initial parameters，accelerations of the pursuer and escaper and the disturbances

假設(shè)追擊方無(wú)人機(jī)毀傷半徑ra=15 m。MADDPG 算法中的Actor 網(wǎng)絡(luò)與Critic 網(wǎng)絡(luò)的參數(shù)設(shè)置見(jiàn)表2。

表2 MADDPG網(wǎng)絡(luò)參數(shù)Table 2 Network parameters of MADDPG

MADDPG算法訓(xùn)練參數(shù)設(shè)置見(jiàn)表3。

3.2 無(wú)人機(jī)博弈對(duì)抗納什均衡解求解分析

采用表2～3 的網(wǎng)絡(luò)與算法參數(shù)，對(duì)處于表1 隨機(jī)場(chǎng)景中的追逃雙方無(wú)人機(jī)進(jìn)行集中式訓(xùn)練，得到的追逃雙方平均回合獎(jiǎng)勵(lì)如圖3所示。

圖3 追逃雙方平均回合獎(jiǎng)勵(lì)Fig.3 Average episode reward of the pursuer and escaper

由圖3可知，博弈對(duì)抗網(wǎng)絡(luò)在經(jīng)過(guò)1 849回合的集中式訓(xùn)練后，追逃雙方平均回合獎(jiǎng)勵(lì)趨于收斂，此時(shí)雙方的獎(jiǎng)勵(lì)函數(shù)都在考慮對(duì)方策略的前提下趨于收斂穩(wěn)定，系統(tǒng)達(dá)到了均衡狀態(tài)，此時(shí)博弈對(duì)抗網(wǎng)絡(luò)即為納什均衡網(wǎng)絡(luò)。

采用收斂的MADDPG 博弈對(duì)抗網(wǎng)絡(luò)作為策略生成網(wǎng)絡(luò)，對(duì)給定追逃雙方初始條件的場(chǎng)景進(jìn)行“分布式執(zhí)行”，實(shí)現(xiàn)雙方無(wú)人機(jī)的博弈對(duì)抗。假設(shè)某作戰(zhàn)場(chǎng)景中，追擊方的初始位置(xP0，zP0)為（-30.84，24.42）m，初始速度大小vP0=148.75 m/s，初始發(fā)射方向ψP0=69.13°；逃逸方初始位置(xE0，zE0)為（27.99，1 727.25）m，初始速度大小為vE0=24.42 m/s，初始發(fā)射方向ψE0=-34.68°。追逃雙方切向、法向加速度范圍與訓(xùn)練時(shí)相同，見(jiàn)表1。

采用MADDPG 決策網(wǎng)絡(luò)得到追逃雙方的飛行軌跡（包含第20、30、40步的追逃雙方實(shí)時(shí)位置和視線）如圖4所示。

圖4 追逃雙方運(yùn)動(dòng)軌跡Fig.4 The trajectory of the pursuer and the escaper

由圖4可知，在給定場(chǎng)景中，追擊方在t=9.809 s時(shí)與逃逸方的相對(duì)距離rPE達(dá)到15 m，實(shí)現(xiàn)了對(duì)逃逸方的捕獲。

追擊方和逃逸方的切向加速度、法向加速度變化如圖5～8所示。

圖5 追擊方切向加速度Fig.5 The tangential acceleration of the pursuer

圖6 逃逸方切向加速度Fig.6 The tangential acceleration of the escaper

圖7 追擊方法向加速度Fig.7 The centripetal acceleration of the pursuer

圖8 逃逸方法向加速度Fig.8 The centripetal acceleration of the escaper

由圖5～8可知，追擊方的切向加速度較小且其變化也較小，而其法向加速度變化較大；逃逸方的法向加速度較小且其變化也較小，但其切向加速度較大，因此追擊方主要通過(guò)法向機(jī)動(dòng)進(jìn)行追擊而逃逸方主要通過(guò)切向機(jī)動(dòng)進(jìn)行逃逸。

對(duì)于無(wú)人機(jī)追逃博弈，不同的初始條件下，追逃雙方的博弈結(jié)果也不同，接下來(lái)求解以初始發(fā)射方向、初始位置表征的捕獲域和逃逸域。

3.3 無(wú)人機(jī)追逃博弈捕獲域與逃逸域求解

1) (ψP0，ψE0)表征的捕獲域與逃逸域

假設(shè)追逃雙方的初始位置、速度大小以及加速度范圍與3.2 中的仿真場(chǎng)景一致，追擊方、逃逸方的初始速度方向角ψP0與ψE0分別在[60°，75°]和[ -45°，-15°]內(nèi)采樣。采用收斂的MADDPG 決策網(wǎng)絡(luò)作為無(wú)人機(jī)的控制網(wǎng)絡(luò)，根據(jù)博弈結(jié)果，可直接通過(guò)蒙特卡洛打靶的方式得到以(ψP0，ψE0)表征的捕獲域和逃逸域，具體如圖9所示。

圖9 捕獲域與逃逸域的劃分Fig.9 Division of capture region and escape region

圖中，藍(lán)色區(qū)域?yàn)椴东@域，紅色區(qū)域?yàn)樘右萦颍謩e表征追擊方成功捕獲與逃逸方成功逃逸的(ψP0，ψE0)。

2) (xP0，zP0，xE0，zE0)表征的捕獲域與逃逸域

假設(shè)追逃雙方無(wú)人機(jī)初始速度大小及加速度范圍同3.1 中的仿真場(chǎng)景，本部分設(shè)雙方的初始發(fā)射方向分別為ψP0=60°，ψE0=-30°。追擊方初始位置的xP0、zP0分別在（-100，0）m 和(0，100) m 內(nèi)均勻采樣，逃逸方初始位置的xE0、zE0分別在(0，100) m 和(1 700，1 800) m內(nèi)均勻采樣。將四維向量XPE=[xP0，zP0，xE0，zE0]T輸入MADDPG 博弈對(duì)抗網(wǎng)絡(luò)，根據(jù)博弈結(jié)果，劃分同類樣本對(duì)與異類樣本對(duì)，2類樣本對(duì)的數(shù)量基本符合1∶1 的比例。2 類樣本對(duì)混合得到總樣本對(duì)集合W。基于W按照8∶2∶2的比例劃分訓(xùn)練集T、驗(yàn)證集V和測(cè)試集J，各樣本集中同類、異類樣本對(duì)的數(shù)量也基本符合1∶1的比例，具體見(jiàn)表4。

表4 訓(xùn)練集、驗(yàn)證集和測(cè)試集參數(shù)Table 4 The parameters of the training set、validation set and test set

對(duì)比學(xué)習(xí)訓(xùn)練參數(shù)以及孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置見(jiàn)表5。

表5 對(duì)比學(xué)習(xí)訓(xùn)練參數(shù)和孿生神經(jīng)網(wǎng)絡(luò)參數(shù)Table 5 The training parameters of contrastive learning and parameters of the Siamese Network

在計(jì)算區(qū)分正確率的式（25）中，設(shè)N=100。在表4和表5的基礎(chǔ)上，得到孿生神經(jīng)網(wǎng)絡(luò)的L隨回合數(shù)變化曲線如圖10所示；訓(xùn)練集與驗(yàn)證集的區(qū)分正確率隨回合數(shù)變化的曲線如圖11所示。

圖10 孿生神經(jīng)網(wǎng)絡(luò)的損失函數(shù)圖Fig.10 The loss of the Siamese Network

圖11 訓(xùn)練集與驗(yàn)證集的區(qū)分正確率Fig.11 The distinguish accuracy rate of the training and validation set

由圖10 可知，經(jīng)過(guò)40 回合的訓(xùn)練后，孿生神經(jīng)網(wǎng)絡(luò)的L逐漸收斂至0附近；由圖11可知，隨著回合數(shù)的增多，訓(xùn)練集和驗(yàn)證集的區(qū)分正確率呈現(xiàn)振蕩上升趨勢(shì)，當(dāng)回合數(shù)為90 時(shí)，測(cè)試集和驗(yàn)證集的區(qū)分正確率均達(dá)到96%，此時(shí)滿足算法終止條件（區(qū)分正確率大于95%），停止訓(xùn)練。

從測(cè)試集中隨機(jī)抽取100 個(gè)樣本對(duì)，采用第90 回合的孿生神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行判別，重復(fù)進(jìn)行30 次。在30 次的測(cè)試結(jié)果中，最低的ζ為88%，最高的ζ達(dá)99%，平均ζ為94.8%，說(shuō)明訓(xùn)練出的孿生神經(jīng)網(wǎng)絡(luò)對(duì)于追擊成功與逃逸成功對(duì)應(yīng)的高維初始條件有著較強(qiáng)的區(qū)分能力。

隨機(jī)從W中抽取1 414 個(gè)高維樣本（追擊成功、逃逸成功樣本分別為621、793個(gè)），將其輸入至孿生神經(jīng)網(wǎng)絡(luò)，根據(jù)深度對(duì)比學(xué)習(xí)算法的原理，網(wǎng)絡(luò)將輸出具有可區(qū)分特征的低維向量，其空間分布如圖12所示。

圖12 追擊成功與逃逸成功的低維可提取特征向量分布Fig.12 Low-dimensional extractable feature vector distribution of successful pursuit and successful escape

由圖12可知在絕大多數(shù)情況下，經(jīng)由對(duì)比學(xué)習(xí)得到的孿生神經(jīng)網(wǎng)絡(luò)可將追擊成功與逃逸成功的高維向量對(duì)應(yīng)的低維特征向量明顯地區(qū)分開(kāi)，即：同類樣本點(diǎn)的低維特征向量之間的距離大部分小于歐氏距離閾值0.1，異類樣本點(diǎn)的低維特征向量之間距離則大部分大于0.1。結(jié)合式（24）可知，孿生神經(jīng)網(wǎng)絡(luò)使同類樣本點(diǎn)相互靠近而異類樣本點(diǎn)相互遠(yuǎn)離，以此實(shí)現(xiàn)了對(duì)于高維初始條件的區(qū)分，進(jìn)而間接表征了高維捕獲域。

在實(shí)際應(yīng)用時(shí)，令孿生神經(jīng)網(wǎng)絡(luò)的其中一個(gè)輸入為捕獲成功的某初始條件向量(xP0，zP0，xE0，zE0)T=（-50，40，90，1 790）Tm，另一個(gè)輸入是需判別的20個(gè)初始條件向量，得到的對(duì)比學(xué)習(xí)分類與實(shí)際分類結(jié)果如表6所示（為了節(jié)省篇幅，只給出其中10個(gè)的結(jié)果）。表中P和E分別表示捕獲成功和逃逸成功。

表6 采用孿生神經(jīng)網(wǎng)絡(luò)的捕獲與逃逸預(yù)測(cè)Table 6 The predictions of the pursuit and escape success by using Siamese Network

由表6 可知，對(duì)比學(xué)習(xí)網(wǎng)絡(luò)的區(qū)分正確率為95%，說(shuō)明了此對(duì)比學(xué)習(xí)的孿生神經(jīng)網(wǎng)絡(luò)對(duì)于捕獲域（逃逸域）表征的有效性。

4 結(jié)論

本文針對(duì)二維平面內(nèi)無(wú)人機(jī)追逃博弈問(wèn)題，研究了博弈均衡解的求取以及捕獲域（逃逸域）的表征問(wèn)題。主要結(jié)論有：提出了一種考慮零和博弈的無(wú)人機(jī)追逃博弈獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法，并建立了多智能體追逃博弈馬爾科夫模型；構(gòu)建了采用MADDPG算法的追逃博弈策略求解框架，并求得了博弈均衡解；提出了一種采用深度對(duì)比學(xué)習(xí)理論和孿生神經(jīng)網(wǎng)絡(luò)的捕獲域（逃逸域）求解方法，實(shí)現(xiàn)了對(duì)2 個(gè)高維區(qū)域的有效區(qū)分和間接表征。