李曾琳, 李波*, 白雙霞, 孟波波
(1.西北工業(yè)大學(xué) 電子信息學(xué)院, 陜西 西安 710129; 2.西安現(xiàn)代控制技術(shù)研究所, 陜西 西安 710065)
隨著現(xiàn)代戰(zhàn)場網(wǎng)絡(luò)化、信息化、智能化發(fā)展,空中作戰(zhàn)的反應(yīng)時間大幅縮短,作戰(zhàn)行動空前激烈,并逐漸超出人類的應(yīng)對能力[1],在此情況下,無人機(jī)憑借其機(jī)動性能強(qiáng)、隱身性好、作戰(zhàn)效率高、無人員傷亡等優(yōu)勢,在現(xiàn)代空戰(zhàn)中逐漸呈現(xiàn)出替代有人駕駛戰(zhàn)斗機(jī)的趨勢。機(jī)動決策是空戰(zhàn)過程中的核心環(huán)節(jié),決定了空戰(zhàn)的效率與能力。但目前為止,大部分無人機(jī)仍未實現(xiàn)真正的自主,依然需要人為直接或間接協(xié)助來完成任務(wù),嚴(yán)重限制了無人機(jī)在戰(zhàn)場上的優(yōu)勢。因此,實現(xiàn)無人機(jī)的智能化是未來重要的研究方向。
目前,無人機(jī)的智能機(jī)動決策方法主要包括以微分對策法[2-3]、矩陣對策法[4-5]、專家系統(tǒng)法[6-9]、影響圖法[10]為代表的傳統(tǒng)算法,以及以遺傳算法[11-14]、強(qiáng)化學(xué)習(xí)算法[15-16]為代表的智能算法。傳統(tǒng)算法不具備自主學(xué)習(xí)能力,存在計算量大、依賴人為設(shè)置規(guī)則、靈活性差等缺陷;遺傳算法和強(qiáng)化學(xué)習(xí)算法雖然具有一定的自主性,但前者在使用遺傳編碼描述無人機(jī)飛行決策的過程中,其編碼規(guī)則和進(jìn)化方式依然對操作者的主觀經(jīng)驗有著較強(qiáng)的依賴性,而后者通常適用于包含有限馬爾可夫決策過程的決策問題,在連續(xù)空間問題中會出現(xiàn)難以收斂的情況。因此,對于無人機(jī)自主機(jī)動決策這類復(fù)雜的非線性問題,本文考慮將兼具深度學(xué)習(xí)感知和探索能力以及強(qiáng)化學(xué)習(xí)決策能力的深度強(qiáng)化學(xué)習(xí)算法[17-19]應(yīng)用到機(jī)動決策問題中。
在諸多深度強(qiáng)化學(xué)習(xí)算法中,非確定性策略算法Soft Actor Critic(SAC)憑借其強(qiáng)探索性、高適應(yīng)性等特點而被廣泛應(yīng)用于智能決策領(lǐng)域[20-22]。此外,在傳統(tǒng)深度強(qiáng)化學(xué)習(xí)中,獎勵函數(shù)的組成及各項獎勵因素在總獎勵中所占權(quán)重大小完全依賴于人類經(jīng)驗,且在訓(xùn)練過程中的每一個時刻,各個獎勵因素的權(quán)重都是固定的,即不同的狀態(tài)變量對當(dāng)前獎勵的影響程度始終不變,無法體現(xiàn)不同時刻、不同態(tài)勢下不同狀態(tài)變量的相對重要性。
為了降低獎勵函數(shù)對人類經(jīng)驗的依賴程度,同時提高訓(xùn)練速度,本文將SAC算法與注意力機(jī)制(AM)結(jié)合,提出AM-SAC算法,實現(xiàn)了1對1(1V1)模式下的自主機(jī)動決策,最后通過仿真實驗來驗證該算法的可行性與優(yōu)越性。
在作戰(zhàn)過程中,將無人機(jī)視為剛體模型,并假設(shè)無人機(jī)受到的重力加速度、大氣密度和無人機(jī)質(zhì)量始終不變,忽略地球公轉(zhuǎn)、自轉(zhuǎn)、地球曲率以及風(fēng)力等對無人機(jī)運動的影響。針對1V1模式下的作戰(zhàn)環(huán)境,將無人機(jī)的狀態(tài)參量定義在北天東坐標(biāo)系中,以空戰(zhàn)區(qū)域中心O作為坐標(biāo)原點,X軸指向正北方向,Y軸指向豎直向上方向,Z軸根據(jù)右手定則指向正東方向。
用[X,Y,Z]描述無人機(jī)坐標(biāo)位置,v表示速度大小,速度向量v與OXZ平面所成夾角為俯仰角θ,其變化范圍為[-90°,90°],速度向量在OXZ平面的投影與X軸正向之間的夾角為航向角φ,變化范圍為[-180°,180°]。則3自由度無人機(jī)運動方程如式(1)、式(2)所示:
(1)
(2)
式中:Xt、Yt、Zt分別為無人機(jī)當(dāng)前時刻的坐標(biāo);dT表示無人機(jī)訓(xùn)練過程中的積分步長;vt為當(dāng)前時刻的速度;θt、φt分別為當(dāng)前時刻的俯仰角和航向角;dv為無人機(jī)加速度大小;dθ表示俯仰角變化率;dφ表示航向角變化率。
根據(jù)上述運動方程,可通過對dv、dθ、dφ的值進(jìn)行合理設(shè)定,完成無人機(jī)在三維空間中的一系列機(jī)動過程。
針對1V1模式下的作戰(zhàn)環(huán)境,構(gòu)建無人機(jī)近距空戰(zhàn)模型如圖1所示。圖1中,D表示敵方無人機(jī)相對我方無人機(jī)的位置矢量,方向由我方無人機(jī)指向敵方無人機(jī),qt為敵方無人機(jī)速度矢量vt與相對位置矢量D反方向的夾角,表示我方無人機(jī)相對敵方無人機(jī)的相對方位角,θm為我方無人機(jī)的俯仰角,φm為我方無人機(jī)的航向角,qm為我方無人機(jī)速度矢量vm與D的夾角,表示敵方無人機(jī)相對我方無人機(jī)的相對方位角;根據(jù)前述假設(shè)內(nèi)容,無人機(jī)可被視為質(zhì)點,用紅藍(lán)點分別表示我方無人機(jī)和敵方無人機(jī)。

圖1 空中對抗態(tài)勢圖
我方無人機(jī)的位置向量表示為Pm=(Xm,Ym,Zm),相應(yīng)的速度向量表示為vm=(vmx,vmy,vmz);敵方無人機(jī)位置向量表示為Pt=(Xt,Yt,Zt),相應(yīng)的速度向量表示為vt=(vtx,vty,vtz);d表示相對距離大小。D、d、qm和qt的計算公式分別如式(3)~式(6)所示:
D=(Xt-Xm,Yt-Ym,Zt-Zm)
(3)
(4)
(5)
(6)
考慮到導(dǎo)彈性能對無人機(jī)作戰(zhàn)能力的限制,選取以攻擊機(jī)為中心的空空導(dǎo)彈攻擊區(qū)來完成攻擊區(qū)建模,如圖2所示。圖2中,dmax、dmin、qmax分別為空空導(dǎo)彈最大發(fā)射距離、最小發(fā)射距離和最大離軸發(fā)射角。

圖2 導(dǎo)彈攻擊區(qū)示意圖
該攻擊區(qū)僅由空空導(dǎo)彈最大發(fā)射距離dmax決定的遠(yuǎn)邊界、最小發(fā)射距離dmin決定的近邊界和導(dǎo)彈最大離軸發(fā)射角qmax決定的兩條側(cè)邊界圍成,與無人機(jī)速度、目標(biāo)方位角等變量無關(guān),且攻擊區(qū)方位僅隨無人機(jī)縱軸發(fā)生改變。此外,無人機(jī)從捕獲目標(biāo)到發(fā)射導(dǎo)彈,其間還需要經(jīng)過獲取目標(biāo)信息、計算導(dǎo)彈發(fā)射諸元、加載數(shù)據(jù)等一系列過程。因此,要實現(xiàn)對目標(biāo)的打擊,需要同時滿足距離、角度和時間條件,如式(7)所示:
(7)
式中:q為離軸發(fā)射角;tin為敵方無人機(jī)持續(xù)處于我方無人機(jī)攻擊區(qū)內(nèi)的時間;tshoot為我方無人機(jī)從捕獲目標(biāo)到發(fā)射導(dǎo)彈需要的時間。在實驗中,不考慮導(dǎo)彈發(fā)射后的軌跡變化過程,因此當(dāng)滿足式(7)時,即認(rèn)為我方無人機(jī)在當(dāng)前時刻能夠發(fā)射導(dǎo)彈,且該導(dǎo)彈能夠?qū)⒛繕?biāo)擊毀,作戰(zhàn)成功。
本文針對1V1作戰(zhàn)模式,給定作戰(zhàn)環(huán)境初始態(tài)勢,其中目標(biāo)無人機(jī)做隨機(jī)運動,我方無人機(jī)根據(jù)不同時刻作戰(zhàn)雙方的相對態(tài)勢信息自主生成決策,并執(zhí)行機(jī)動動作,盡可能快速且持續(xù)地讓敵方無人機(jī)落入我方無人機(jī)攻擊區(qū)內(nèi)。在此過程中,假設(shè)環(huán)境及態(tài)勢信息完全可見,無人機(jī)通過不斷與環(huán)境進(jìn)行交互來獲取相應(yīng)獎勵并更新狀態(tài),進(jìn)而完成策略優(yōu)化。
機(jī)動決策是一種復(fù)雜的非線性問題,若訓(xùn)練過程中智能體對策略空間的探索不夠全面,則會導(dǎo)致訓(xùn)練效果差甚至不收斂的情況。針對這一問題,相關(guān)學(xué)者提出了非確定性策略算法SAC[23],其最顯著的特征是引入了最大熵原理。熵是一種衡量客觀事物無序性的參數(shù),熵值越大,事物越混亂,隨機(jī)性越大,也就意味著智能體會進(jìn)行更多的探索。SAC算法將獎勵值與熵值共同作為優(yōu)化目標(biāo),在最大化期望獎勵的同時要求熵值最大化,通過增加策略熵的期望來增強(qiáng)智能體探索的能力,提升隨機(jī)策略性能。
AM受啟發(fā)于人類的選擇性視覺注意力機(jī)制,當(dāng)人們看待事物時,會選擇性地把注意力集中在自己更關(guān)注的部分上。Query-Key-Value模型是目前最常用的一種AM模型,其結(jié)構(gòu)如圖3所示。圖3中,WQ、WK、WV分別為3個可訓(xùn)練的參數(shù)矩陣,Q、K、V分別為輸入X與WQ、WK、WV相乘后得到的矩陣。

圖3 Q、K、V模型示意圖
AM-SAC算法將AM引入SAC算法,構(gòu)建注意力網(wǎng)絡(luò),在訓(xùn)練過程中根據(jù)當(dāng)前時刻的無人機(jī)狀態(tài)及戰(zhàn)場態(tài)勢信息生成新的權(quán)重分布。算法結(jié)構(gòu)如圖4 所示。圖4中,包含一個策略網(wǎng)絡(luò)πθ(st,at)、兩個Q網(wǎng)絡(luò)Qφ1和Qφ2以及兩個目標(biāo)Q網(wǎng)絡(luò)Qφ′1和Qφ′2(其中,st為當(dāng)前時刻狀態(tài),at為當(dāng)前策略下的動作值,θ、φ1、φ2、φ′1、φ′2表示對應(yīng)網(wǎng)絡(luò)的參數(shù)),w為更新后的權(quán)重分布,r為獎勵值,st+1為下一時刻狀態(tài),Q1、Q2、Q′1、Q′2分別為兩組Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)的狀態(tài)-動作價值函數(shù)值。
AM-SAC算法包含一個注意力網(wǎng)絡(luò)、一個策略網(wǎng)絡(luò)和兩組Q網(wǎng)絡(luò)。其中,注意力網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)信息輸出獎勵函數(shù)的權(quán)重分布w(st),兩組目標(biāo)Q網(wǎng)絡(luò)計算不同的Q值,選取兩個網(wǎng)絡(luò)中最小的值來計算目標(biāo)Q值,進(jìn)而抑制對Q值的過高估計。策略網(wǎng)絡(luò)πθ根據(jù)當(dāng)前狀態(tài)st輸出兩個值,分別定義為均值μ和方差σ,同時對標(biāo)準(zhǔn)正態(tài)分布采樣得到噪聲τ,二者共同決定動作at,如式(8)和式(9)所示:
μ,σ=πθ(st)
(8)
at=tanh(μ+τ·exp(σ))
(9)
在策略優(yōu)化過程中,假設(shè)當(dāng)前策略為π(·|st),則AM-SAC算法的累計獎勵為

(10)
式中:T為一個回合內(nèi)規(guī)定的最大訓(xùn)練步長;w(st)為當(dāng)前時刻的權(quán)重分布;r(st,at)為當(dāng)前獎勵值;α為熵正則化系數(shù),表示熵在獎勵中所占比重,為了提高模型訓(xùn)練的穩(wěn)定性,α采用自適應(yīng)調(diào)整;H(π(·|st))為策略的熵,表示為
H(π(·|st))=E(-lgπ(·|st))
(11)
則AM-SAC算法的最優(yōu)策略π*為
π*=argmaxJ(π)
(12)
AM-SAC算法中的狀態(tài)-動作價值函數(shù)定義為

(13)
式中:γ為折扣因子。
參數(shù)更新時,策略網(wǎng)絡(luò)通過最小化策略的KL散度實現(xiàn),其損失函數(shù)為
(14)
式中:Zθ(st)為對數(shù)配分函數(shù),用于歸一化分布。
Q網(wǎng)絡(luò)參數(shù)更新的損失函數(shù)為

(15)
式中:R為經(jīng)驗池;Qφ′(st+1,at+1)=min(Q′1,Q′2)為目標(biāo)Q值。
為了能夠通過調(diào)整價值網(wǎng)絡(luò)中獎勵因子的權(quán)重從而使訓(xùn)練過程中的價值網(wǎng)絡(luò)更好地貼近真實價值網(wǎng)絡(luò),將權(quán)重網(wǎng)絡(luò)損失函數(shù)定義為
Jw(ω)=E(st,at)~π(lgπθ,ω(at|st)-Qθ,ω(st,at))
(16)
熵正則化系數(shù)α自適應(yīng)調(diào)整損失函數(shù)為
J(α)=E[-αlgπt(at|πt)-αH0]
(17)
式中:H0為目標(biāo)熵值。則AM-SAC算法具體步驟如圖5所示。

圖5 AM-SAC算法流程
圖5中,episode為當(dāng)前訓(xùn)練回合,m為最大訓(xùn)練回合數(shù),step為當(dāng)前回合內(nèi)的訓(xùn)練步長。
2.3.1 狀態(tài)空間和動作空間
在空戰(zhàn)過程中,我方無人機(jī)需要根據(jù)作戰(zhàn)雙方形成的相對態(tài)勢信息來做出決策,因此狀態(tài)空間需要同時包含敵我雙方的狀態(tài)信息。結(jié)合無人機(jī)近距空戰(zhàn)模型,本文采用九元組來描述狀態(tài)空間:
[X,Y,Z,v,θ,φ,d,qm,qt]
(18)
根據(jù)無人機(jī)運動方程,設(shè)置動作空間為
[dv,dθ,dφ]
(19)
2.3.2 獎勵函數(shù)
獎勵函數(shù)一定程度上反映了訓(xùn)練的目的,根據(jù)式(7),獎勵函數(shù)從距離和相對方位角兩方面進(jìn)行設(shè)計。此外,為了避免稀疏獎勵的問題同時保證訓(xùn)練速度與質(zhì)量,每一項獎勵均由連續(xù)獎勵與稀疏獎勵共同構(gòu)成。距離獎勵函數(shù)表示為

(20)
式中:Rd1為稀疏獎勵;Rd2為連續(xù)獎勵;dmin和dmax分別設(shè)置為1 km和3 km。
角度獎勵包含qm和qt兩項。敵方無人機(jī)相對我方無人機(jī)的相對方位角獎勵為
Rqm1=1,qm
Rqm=Rqm1+Rqm2
(21)
式中:Rqm1為稀疏獎勵;Rqm2為連續(xù)獎勵。
我方無人機(jī)相對敵方無人機(jī)的相對方位角獎勵為
Rqt1=-1,qt
Rqt=Rqt1+Rqt2
(22)
式中:Rqt1為稀疏獎勵;Rqt2為連續(xù)獎勵。
總獎勵為
R=w1Rd+w2Rqm+w3Rqt
(23)
式中:wi(i∈{1,2,3})表示各獎勵因素的權(quán)重,由注意力網(wǎng)絡(luò)生成。
共設(shè)計兩個仿真實驗,實驗1將AM-SAC算法應(yīng)用到給定初始態(tài)勢的空戰(zhàn)環(huán)境中,實現(xiàn)基于AM-SAC的智能空戰(zhàn)決策任務(wù),并與SAC算法進(jìn)行對比,從獎勵收斂速度、最大累計獎勵值、作戰(zhàn)軌跡以及各個狀態(tài)量的變化過程等方面進(jìn)行分析,進(jìn)而得出兩種算法的差異。實驗2將算法應(yīng)用到多個具有不同初始態(tài)勢的環(huán)境中,對其在不同作戰(zhàn)環(huán)境下的效果進(jìn)行測試。實驗中,敵方無人機(jī)做隨機(jī)運動,我方無人機(jī)根據(jù)算法生成的決策完成機(jī)動。
3.1.1 實驗參數(shù)
設(shè)計初始態(tài)勢如表1所示的作戰(zhàn)環(huán)境,用于決策實驗。

表1 測試環(huán)境初始態(tài)勢
作戰(zhàn)雙方初始位置、角度及速度等狀態(tài)信息由表2給出。

表2 敵我雙方初始化位置信息
3.1.2 實驗結(jié)果
記錄兩種算法在訓(xùn)練過程中每一回合的累計獎勵值,如圖6所示。

圖6 獎勵曲線對比圖
由圖6可以看出:SAC算法和AM-SAC算法均能夠收斂至對應(yīng)的累計獎勵最大值,但在此過程中,SAC算法在200步左右陷入局部最優(yōu),在1 500步左右經(jīng)過探索跳出局部最優(yōu)并收斂至最大值;AM-SAC算法在500步左右便收斂至最大值附近,且該最大獎勵值略大于SAC算法,說明AM-SAC算法更加穩(wěn)定,能更快地收斂至更優(yōu)的策略。
對訓(xùn)練結(jié)果模型進(jìn)行測試。圖7展示了對抗過程中紅藍(lán)雙方無人機(jī)的作戰(zhàn)軌跡。

圖7 作戰(zhàn)軌跡對比圖
初始時,敵我雙方距離較遠(yuǎn),敵方對我方相對方位角較大,由圖7(a)中可以看出,為了使敵方無人機(jī)進(jìn)入我方導(dǎo)彈攻擊區(qū)內(nèi),兩種算法均能夠做出決策快速轉(zhuǎn)變我方無人機(jī)航向,減小敵方對我方相對方位角,對敵機(jī)呈現(xiàn)尾后攻擊的態(tài)勢,之后縮短敵我雙方相對距離,在水平面內(nèi)達(dá)到滿足導(dǎo)彈發(fā)射條件的攻擊態(tài)勢。
此外,作戰(zhàn)雙方之間具有初始高度差,為了提高導(dǎo)彈發(fā)射成功率,需要盡可能消除敵我之間的高度差異。圖7(b)說明AM-SAC產(chǎn)生的策略能夠讓我方無人機(jī)更快地調(diào)整俯仰角,減小二者之間的高度差,并在之后與敵方無人機(jī)保持在同一高度水平上,確保敵方無人機(jī)持續(xù)處于無我方攻擊區(qū)內(nèi)。
圖8所示為作戰(zhàn)過程中兩種算法下各個狀態(tài)變量的變化曲線對比。
由圖8可知:在作戰(zhàn)開始后,為了快速調(diào)整我方無人機(jī)航向,敵我相對距離在前30步左右出現(xiàn)小幅度增加,我方對敵方相對方位角在前100步左右出現(xiàn)小幅度減小的情況;在100步之后,敵方對我方相對方位角基本穩(wěn)定,此時敵我之間相對距離快速縮減,我方對敵方相對方位角也逐漸增大,使我方無人機(jī)處于最佳攻擊狀態(tài);在200步以后,AM-SAC算法中敵方對我方相對方位角基本穩(wěn)定在10°以內(nèi),SAC算法則在15°以內(nèi)波動;在250步以后,相比于SAC算法,AM-SAC算法中我方對敵方相對方位角更快地增大。因此,AM-SAC的決策更加穩(wěn)定,在實現(xiàn)空戰(zhàn)攻擊任務(wù)時更具有優(yōu)勢。
圖8(d)和圖8(e)描述了我方無人機(jī)作戰(zhàn)過程中的姿態(tài)變化。在AM-SAC算法中,無人機(jī)的俯仰角變化范圍為(-9°,3°),SAC算法中,無人機(jī)的俯仰角變化范圍為(-13°,5°),且在作戰(zhàn)后期,AM-SAC算法中的航向角波動明顯小于SAC算法。結(jié)合作戰(zhàn)軌跡,說明相較于SAC算法,AM-SAC算法能夠以更小的機(jī)動穩(wěn)定且快速地降低敵我雙方之間的高度差異,并在完成姿態(tài)調(diào)整后朝著敵方無人機(jī)方向更穩(wěn)定地飛行,更快實現(xiàn)作戰(zhàn)目的。
由圖8(f)可以看出,在作戰(zhàn)前期和中期,兩種算法都能夠通過加速并保持在速度上限來快速縮小敵我之間的相對距離,在滿足發(fā)射距離條件后,開始減速來避免雙方距離太近,甚至小于導(dǎo)彈最小發(fā)射距離,從而對本機(jī)造成損失。但在后期,SAC算法中速度降低至0 m/s,不符合實際空戰(zhàn)情況;AM-SAC則控制速度緩慢變化,將敵我相對距離始終保持在略大于最小發(fā)射距離(1 km)狀態(tài),更加合理且符合實際空戰(zhàn)情況。
在作戰(zhàn)過程中,AM-SAC算法中獎勵函數(shù)的權(quán)重分布由注意力網(wǎng)絡(luò)動態(tài)調(diào)整。記錄訓(xùn)練過程中的權(quán)重分布變化如圖9所示。

圖9 權(quán)重分布變化圖
權(quán)重分布初始值隨機(jī)生成,在該環(huán)境下,敵方無人機(jī)隨機(jī)運動過程中不會對我方無人機(jī)造成威脅,因此我方無人機(jī)無需進(jìn)行過大機(jī)動來脫離敵方攻擊區(qū),我方對敵方相對方位角在獎勵函數(shù)中所占權(quán)重減少;同時,我方無人機(jī)需要通過決策來縮小敵我之間的相對距離及敵方對我方的相對方位角,使敵機(jī)落入我方攻擊區(qū)內(nèi),從而讓我方無人機(jī)能夠順利發(fā)射導(dǎo)彈,獲得作戰(zhàn)勝利,因此相對距離權(quán)重和敵方對我方的相對方位角權(quán)重不斷增大。
綜上分析,SAC算法與AM-SAC算法均能在有限回合內(nèi)完成訓(xùn)練,實現(xiàn)無人機(jī)空戰(zhàn)過程的自主機(jī)動決策,并使我方無人機(jī)取得作戰(zhàn)勝利。相較于SAC算法,AM-SAC算法生成的決策能夠控制無人機(jī)更快地讓戰(zhàn)場態(tài)勢滿足導(dǎo)彈發(fā)射條件,實現(xiàn)作戰(zhàn)任務(wù),且無人機(jī)機(jī)動過程中穩(wěn)定性和合理性更高,更加符合實際空戰(zhàn)情況。同時,AM-SAC算法的收斂時間遠(yuǎn)早于SAC算法,極大地減少了訓(xùn)練所需時間。
為了測試AM-SAC算法能否在不同初始態(tài)勢下實現(xiàn)智能空戰(zhàn)決策任務(wù),本文設(shè)計了4個不同的環(huán)境,其初始狀態(tài)值如表3所示。

表3 多環(huán)境初始狀態(tài)
環(huán)境1中敵方對我方相對方位角適中,我方對敵方相對方位角較大,整體呈現(xiàn)相互遠(yuǎn)離的狀態(tài);環(huán)境2中敵方對我方相對方位角較大,我方對敵方相對方位角較小,呈現(xiàn)出敵方無人機(jī)對我方無人機(jī)進(jìn)行追擊的狀態(tài);環(huán)境3中敵方對我方相對方位角較小,我方對敵方相對方位角較大,呈現(xiàn)為我方無人機(jī)對敵方無人機(jī)進(jìn)行追擊的狀態(tài);環(huán)境4中敵方對我方相對方位角適中,我方對敵方相對方位角較小,整體呈現(xiàn)相互接近的狀態(tài)。在4個環(huán)境下分別進(jìn)行實驗,結(jié)果如表4所示。

表4 AM-SAC訓(xùn)練結(jié)果
從表4中可以看出,AM-SAC算法在4個作戰(zhàn)環(huán)境下均能實現(xiàn)自主機(jī)動決策并獲得作戰(zhàn)勝利。環(huán)境2中由于敵我之間初始相對距離較小,比其他環(huán)境更早取得作戰(zhàn)成功,但由于敵方對我方初始相對方位角較大,我方對敵方初始相對方位角較小,需要較大的機(jī)動才能改變態(tài)勢,使我方無人機(jī)占據(jù)優(yōu)勢地位,因此獎勵收斂慢于其他環(huán)境。圖10更加直觀地展示了整個作戰(zhàn)過程。

圖10 作戰(zhàn)軌跡示意圖
由環(huán)境1和環(huán)境3的空戰(zhàn)軌跡示意圖可以看出,當(dāng)我方無人機(jī)初始狀態(tài)不處于敵方無人機(jī)攻擊區(qū)內(nèi)時,我方無人機(jī)受到威脅較小,僅需根據(jù)獲取的敵方無人機(jī)位置信息改變航向角、調(diào)整自身姿態(tài),然后朝敵方無人機(jī)方向機(jī)動;環(huán)境2和環(huán)境4中,我方無人機(jī)初始時受到敵方無人機(jī)威脅較大,因此需要先通過調(diào)整自身航向角,經(jīng)過較大機(jī)動過程后,增大敵我之間相對距離和我方對敵方相對方位角,遠(yuǎn)離敵方無人機(jī)攻擊區(qū),確保自身安全,之后再向敵方無人機(jī)方向運動,減小敵我之間相對距離即敵方對我方相對方位角,使敵方無人機(jī)落入我方無人機(jī)攻擊區(qū)內(nèi),完成作戰(zhàn)任務(wù)。
本文以1V1空戰(zhàn)中的無人機(jī)智能決策為背景,貼合實際作戰(zhàn)任務(wù),建立了3自由度無人機(jī)運動模型、無人機(jī)近距空戰(zhàn)模型和攻擊區(qū)模型。在傳統(tǒng)深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入AM的概念,提出了基于AM-SAC算法的無人機(jī)智能空戰(zhàn)決策方法。該方法根據(jù)當(dāng)前的空戰(zhàn)態(tài)勢對獎勵函數(shù)中各個獎勵因素的權(quán)重值進(jìn)行實時調(diào)整,并設(shè)計了兩組實驗進(jìn)行測試和對比。得到主要結(jié)論如下:
1)相較于SAC算法,AM-SAC算法能夠使無人機(jī)更快地占據(jù)作戰(zhàn)優(yōu)勢,同時能夠增強(qiáng)決策過程的機(jī)動穩(wěn)定性,使無人機(jī)機(jī)動過程更加合理,更符合實際空戰(zhàn)情況,體現(xiàn)了算法的可行性和優(yōu)越性。
2)基于AM-SAC的智能空戰(zhàn)決策算法在優(yōu)勢態(tài)勢下能夠快速實現(xiàn)對敵機(jī)的打擊任務(wù),在劣勢態(tài)勢下則能夠及時調(diào)整自身姿態(tài)改變航向,充分保證本機(jī)安全的同時對敵機(jī)進(jìn)行攻擊,說明該算法適用于多種不同初始態(tài)勢下的作戰(zhàn)環(huán)境。