融合動(dòng)作剔除的深度競(jìng)爭(zhēng)雙Q網(wǎng)絡(luò)智能干擾決策算法

2021-09-23 13:26:00宋佰霖

空軍工程大學(xué)學(xué)報(bào) 2021年4期

饒寧，許華，宋佰霖

(空軍工程大學(xué)信息與導(dǎo)航學(xué)院，西安，710077)

電磁空間是繼陸、海、空、天的第五維戰(zhàn)場(chǎng)，電子對(duì)抗是在電磁空間進(jìn)行軍事斗爭(zhēng)的主要手段。在感知、決策、行動(dòng)、評(píng)估的閉環(huán)電磁頻譜作戰(zhàn)過程中，干擾決策是進(jìn)行有效對(duì)抗的重要環(huán)節(jié)，然而目前人工決策的實(shí)時(shí)性與科學(xué)性較差，難以適應(yīng)未來戰(zhàn)場(chǎng)瞬息萬變的態(tài)勢(shì)。近年智能決策成為研究熱點(diǎn)，出現(xiàn)了基于遺傳算法、粒子群算法[1-2]等優(yōu)化理論的干擾參數(shù)尋優(yōu)方法，這些方法需要較多的先驗(yàn)信息，實(shí)用性不強(qiáng)。而隨著人工智能技術(shù)的迅速發(fā)展，無需先驗(yàn)信息的強(qiáng)化學(xué)習(xí)理論在電子戰(zhàn)領(lǐng)域得到初步應(yīng)用。如Amuru等人[3]將決策干擾參數(shù)的過程建模為多臂賭博機(jī)模型，提出干擾賭博機(jī)(jamming bandit，JB)算法，該算法可自適應(yīng)地優(yōu)化干擾信號(hào)直至最佳；在干擾信號(hào)參數(shù)方面，顓孫少帥等人[4]提出一種雙層強(qiáng)化學(xué)習(xí)的干擾決策算法，以犧牲交互時(shí)間來提升算法收斂速度，決策干擾參數(shù)。此外，該團(tuán)隊(duì)還利用正強(qiáng)化的思想來提高最優(yōu)動(dòng)作被選中的概率，以更少的交互次數(shù)獲得更好的干擾效果[5]。在雷達(dá)對(duì)抗領(lǐng)域，邢強(qiáng)等人[6]針對(duì)雷達(dá)工作模式及數(shù)目未知情況，研究基于Q學(xué)習(xí)的智能雷達(dá)對(duì)抗方法，可實(shí)現(xiàn)秒量級(jí)的收斂速度。黃星源等人[7]利用雙Q學(xué)習(xí)對(duì)戰(zhàn)場(chǎng)的干擾效果進(jìn)行自主學(xué)習(xí)，實(shí)現(xiàn)對(duì)雷達(dá)干擾資源的認(rèn)知決策。Q學(xué)習(xí)作為一種基于表格搜索型的強(qiáng)化學(xué)習(xí)算法，無法解決高維決策問題。而深度Q網(wǎng)絡(luò)(deep Q network，DQN)[8]可利用神經(jīng)網(wǎng)絡(luò)進(jìn)行Q學(xué)習(xí)算法中的函數(shù)擬合，能夠處理高維的態(tài)勢(shì)信息。基于此，張柏開等人[9]提出了對(duì)多功能雷達(dá)的DQN認(rèn)知干擾決策方法，當(dāng)可執(zhí)行的任務(wù)數(shù)量增多時(shí)依然有較好的決策效率。

上述研究主要解決靜態(tài)環(huán)境中的干擾參數(shù)決策和資源分配問題，很少研究變化環(huán)境中的決策問題，并且有關(guān)通信電子戰(zhàn)的智能決策研究主要針對(duì)通信方使用固定通信參數(shù)時(shí)如何學(xué)習(xí)干擾參數(shù)，而實(shí)際場(chǎng)景中，通信方受到干擾后通常會(huì)優(yōu)先選擇切換波道以躲避干擾。因此本文研究側(cè)重頻率擊中的智能干擾決策，針對(duì)通信干擾決策問題提出一種融合動(dòng)作剔除的深度競(jìng)爭(zhēng)雙Q網(wǎng)絡(luò)智能干擾決策方法(action elimination dueling double deep Q network，AED3QN )。該方法在Double DQN算法基礎(chǔ)上通過采用競(jìng)爭(zhēng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)決策干擾方案，并引入干擾動(dòng)作剔除機(jī)制來加快學(xué)習(xí)最佳干擾策略。當(dāng)通信方采用未知且變化的通信抗干擾策略時(shí)，相對(duì)已有算法該算法能更快地學(xué)習(xí)到對(duì)應(yīng)的干擾策略，實(shí)現(xiàn)更高的干擾成功率并獲得更大的干擾收益。

1 對(duì)抗場(chǎng)景與馬爾科夫決策過程

1.1 對(duì)抗場(chǎng)景

圖1 波道碰撞示意圖

假設(shè)通信方傳輸數(shù)據(jù)采用數(shù)字調(diào)制進(jìn)行通信，設(shè)通信信號(hào)的低通等效表達(dá)式為：

(1)

式中：Px表示通信接收機(jī)收到的平均信號(hào)功率；g(t)表示實(shí)值脈沖波形；T是碼元間隔；xm是隨機(jī)變量表示該數(shù)字調(diào)制方式的碼元符號(hào)。

設(shè)干擾信號(hào)的低通等效表達(dá)式為：

(2)

由于通信收發(fā)雙方是完全同步，故在經(jīng)過匹配濾波和抽樣判決后在通信接收機(jī)處收到的信號(hào)表達(dá)式為：

(3)

(4)

(5)

式中：σ2為環(huán)境噪聲方差。

1.2 馬爾科夫決策過程

根據(jù)對(duì)抗場(chǎng)景，本文將干擾通信波道的場(chǎng)景建模為馬爾可夫決策過程(MDP)[10]。馬爾可夫決策過程可用元組表示，其中S代表狀態(tài)空間，A代表動(dòng)作空間，P代表狀態(tài)轉(zhuǎn)移概率，R代表獎(jiǎng)勵(lì)函數(shù)。4個(gè)元素具體定義如下：

狀態(tài)空間S：在時(shí)隙t，環(huán)境的狀態(tài)可表示為：

st=(fc,fj)

(6)

式中：fc為t時(shí)隙通信方所在波道；fj為t時(shí)隙干擾方所在波道。其中fc∈{1,2,…,N}，fj∈A，A為干擾方的動(dòng)作空間。

動(dòng)作空間A：在時(shí)隙t，干擾方會(huì)根據(jù)當(dāng)前算法選擇一個(gè)波道進(jìn)行干擾，干擾動(dòng)作表示為at，at∈{1,2,…,N}。

狀態(tài)轉(zhuǎn)移概率矩陣P：在時(shí)隙t，干擾方根據(jù)當(dāng)前所處的環(huán)境狀態(tài)st選擇動(dòng)作at，環(huán)境轉(zhuǎn)移到下一個(gè)時(shí)隙t+1狀態(tài)st+1，則狀態(tài)轉(zhuǎn)移概率為：

p(s′|S,a)=Pr{St+1=s′|St=s,At=a}

(7)

且滿足：

(8)

獎(jiǎng)勵(lì)函數(shù)R：假設(shè)在時(shí)隙t環(huán)境狀態(tài)為st，干擾方選擇干擾動(dòng)作at，環(huán)境達(dá)到狀態(tài)st+1后干擾方可獲得獎(jiǎng)勵(lì)r。干擾方的目標(biāo)是保持持續(xù)穩(wěn)定的干擾，因此在確保當(dāng)前干擾成功的條件下，也需要準(zhǔn)確預(yù)測(cè)出通信方在受到干擾后會(huì)選擇的下個(gè)波道。故規(guī)定干擾方某時(shí)隙干擾成功獲得的收益與到當(dāng)前時(shí)隙為止干擾方連續(xù)干擾成功的時(shí)隙總數(shù)成正比，干擾方某時(shí)隙干擾失敗獲得的收益與到當(dāng)前時(shí)隙為止通信方連續(xù)正常通信的時(shí)隙數(shù)成反比。定義干擾獎(jiǎng)勵(lì)函數(shù)為：

(9)

式中：k為比例常數(shù)；t1、t2構(gòu)成的時(shí)隙區(qū)間[t1,t2](t2>t1)，表示通信方在此區(qū)間內(nèi)受到干擾方連續(xù)干擾；t3、t4構(gòu)成的時(shí)隙區(qū)間[t3,t4](t4>t3)，表示通信方在此區(qū)間內(nèi)均正常通信。

將干擾方獲得的干擾總收益定義為所有時(shí)隙內(nèi)獲得的獎(jiǎng)勵(lì)總和即：

(10)

式中：t為通信時(shí)隙；rt為干擾方在該時(shí)隙獲得的干擾收益。

2 融合動(dòng)作剔除的深度競(jìng)爭(zhēng)雙Q網(wǎng)絡(luò)決策算法

2.1 動(dòng)作剔除

在缺少先驗(yàn)信息時(shí)，干擾方對(duì)于何種干擾動(dòng)作的干擾效果最好無從得知，常常需要嘗試不同的干擾動(dòng)作去進(jìn)行探索。而在實(shí)際環(huán)境中嘗試不同干擾動(dòng)作成本及風(fēng)險(xiǎn)較大，故需兼顧利用目前已知效果較好的干擾動(dòng)作。面對(duì)探索和利用的困境，DQN算法[9]和Q學(xué)習(xí)算法[6]均采用多臂賭博機(jī)中的ε-greedy策略，如式(11)所示：

(11)

即以1-ε的概率選擇當(dāng)前狀態(tài)下收益最高的動(dòng)作，以ε的概率進(jìn)行隨機(jī)選擇。

本文借鑒文獻(xiàn)[11]提出的多臂賭博機(jī)策略EUCBV，利用干擾動(dòng)作的干擾效能設(shè)置置信上界值，從干擾動(dòng)作集合中剔除干擾效能低于該上界值得干擾動(dòng)作，減少對(duì)無效干擾動(dòng)作不必要的探索，如圖2所示。

圖2 EUCBV策略

EUCBV策略為：

π(a|s)=

(12)

依據(jù)各動(dòng)作的效能設(shè)置置信上界值，剔除無效動(dòng)作，即若動(dòng)作i滿足式(13)，則剔除動(dòng)作i。

(13)

式中：A(s)表示在狀態(tài)s的可選動(dòng)作集合。

EUCBV策略和經(jīng)典多臂賭博機(jī)策略如UCB1等策略[12-14]的性能對(duì)比見圖3。

圖3 策略對(duì)比

從圖3可看出EUCBV策略在解決探索-利用困境中表現(xiàn)最佳，證明了在未知環(huán)境中通過估計(jì)價(jià)值方差來剔除無效干擾動(dòng)作的可行性。

長(zhǎng)期以來，變電站建設(shè)沿用的是就地采購(gòu)砂石、磚、鋼筋、水泥等建筑材料，現(xiàn)場(chǎng)捆綁鋼筋，攪拌混凝土、澆筑、養(yǎng)護(hù)、填充、粉刷的傳統(tǒng)模式。這種施工模式往往會(huì)因作業(yè)隊(duì)伍技術(shù)水平參差不齊而使得工程質(zhì)量受到影響。在國(guó)家電網(wǎng)公司“三通一標(biāo)”和“兩型一化”中，對(duì)變電站建設(shè)提出了更高的要求，工業(yè)化、模塊化、標(biāo)準(zhǔn)化的裝配式建構(gòu)筑物將成為變電站建設(shè)發(fā)展的方向。

2.2 深度競(jìng)爭(zhēng)雙Q網(wǎng)絡(luò)

Q學(xué)習(xí)和DQN算法在估計(jì)動(dòng)作價(jià)值時(shí)均采用選取最大估計(jì)值，如式(14)，這在學(xué)習(xí)過程中會(huì)導(dǎo)致過估計(jì)，最終使得學(xué)到的策略偏離最佳策略。

yQ=r+γQ[s′,arg maxaQ(s,a;θ);θ]

(14)

式中：s表示狀態(tài)；a表示動(dòng)作；r為執(zhí)行動(dòng)作后獲得的即時(shí)獎(jiǎng)勵(lì)；γ為折扣因子；θ為網(wǎng)絡(luò)參數(shù)；Q(s,a;θ)表示Q函數(shù)。

針對(duì)過估計(jì)問題，借鑒文獻(xiàn)[15]利用在線網(wǎng)絡(luò)進(jìn)行動(dòng)作選擇，本文利用目標(biāo)網(wǎng)絡(luò)估算其價(jià)值降低過估計(jì)對(duì)算法學(xué)習(xí)過程的影響，見式(15)：

yDoubleQ=r+γQ[s′,arg maxaQ(s,a;θ);θ]

(15)

式中：θ為在線網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)，θ-為目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。

此外，為了進(jìn)一步比較相同環(huán)境狀態(tài)下不同干擾動(dòng)作的優(yōu)劣，更準(zhǔn)確地剔除無效動(dòng)作，借鑒文獻(xiàn)[16]，采用競(jìng)爭(zhēng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，引入優(yōu)勢(shì)函數(shù)來評(píng)估某個(gè)干擾動(dòng)作在當(dāng)前狀態(tài)相對(duì)其他動(dòng)作的好壞程度。如圖4所示，將全連接神經(jīng)網(wǎng)絡(luò)的單個(gè)輸出改為兩個(gè)輸出，一個(gè)輸出當(dāng)前狀態(tài)的價(jià)值，另一個(gè)輸出干擾動(dòng)作的優(yōu)勢(shì)函數(shù)，最終合并為干擾動(dòng)作的Q函數(shù)。

圖4 競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)

干擾動(dòng)作的Q函數(shù)表示為：

Q(s,a)=V(s;θ,α)+A(s,a;θ,β)

(16)

Q(s,a)=V(s;θ,α)+

(17)

引入競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)后，可將每個(gè)動(dòng)作的Q值拆分為狀態(tài)值函數(shù)加上每個(gè)動(dòng)作的優(yōu)勢(shì)函數(shù)。而優(yōu)勢(shì)函數(shù)恰恰體現(xiàn)了該動(dòng)作的相對(duì)優(yōu)劣，故將優(yōu)勢(shì)函數(shù)替換式中的即時(shí)獎(jiǎng)勵(lì)部分，利用優(yōu)勢(shì)函數(shù)表征的動(dòng)作相對(duì)優(yōu)劣情況可得到更準(zhǔn)確的無效動(dòng)作剔除方法，如式(18)所示。

(18)

2.3 融合動(dòng)作剔除的深度競(jìng)爭(zhēng)雙Q網(wǎng)絡(luò)智能干擾決策算法

本文在深度競(jìng)爭(zhēng)雙Q網(wǎng)絡(luò)基礎(chǔ)上，引入無效干擾動(dòng)作剔除機(jī)制，結(jié)合對(duì)抗場(chǎng)景提出了融合動(dòng)作剔除的深度競(jìng)爭(zhēng)雙Q網(wǎng)絡(luò)智能干擾決策算法(AED3QN)。

算法框架如圖5所示。AED3QN算法包含兩個(gè)神經(jīng)網(wǎng)絡(luò)，分別是在線決策網(wǎng)絡(luò)和價(jià)值評(píng)估網(wǎng)絡(luò)，每個(gè)網(wǎng)絡(luò)均采用競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)。在線決策網(wǎng)絡(luò)根據(jù)當(dāng)前環(huán)境狀態(tài)st給出所有干擾動(dòng)作的干擾效能，根據(jù)式(18)進(jìn)行無效干擾動(dòng)作的剔除，在新干擾動(dòng)作集合中依據(jù)貪婪策略選擇干擾動(dòng)作at并執(zhí)行。價(jià)值評(píng)估網(wǎng)絡(luò)根據(jù)該干擾動(dòng)作并結(jié)合環(huán)境狀態(tài)給出該干擾動(dòng)作的干擾效能rt，得到下一個(gè)環(huán)境狀態(tài)st+1，將交互經(jīng)驗(yàn)(st,at,st+1,rt)存入經(jīng)驗(yàn)回放池。訓(xùn)練時(shí)，在經(jīng)驗(yàn)回放池中隨機(jī)采樣S個(gè)經(jīng)驗(yàn)樣本，根據(jù)式(19)進(jìn)行梯度下降來訓(xùn)練在線決策神經(jīng)網(wǎng)絡(luò)。

圖5 AED3QN智能決策算法框圖

(19)

式中：α為學(xué)習(xí)步長(zhǎng)。

每隔一定時(shí)間將在線決策網(wǎng)絡(luò)參數(shù)賦值給價(jià)值評(píng)估網(wǎng)絡(luò)。

3 實(shí)驗(yàn)仿真與分析

本文在干擾方先驗(yàn)信息較少的條件下，研究當(dāng)敵方采用切換通信波道的抗干擾手段時(shí)，在未知敵抗干擾策略時(shí)干擾方如何決策干擾方案才能獲得更好的干擾效果。

仿真實(shí)驗(yàn)中，通信方有一對(duì)信號(hào)發(fā)射接收機(jī)，干擾方只對(duì)通信接收機(jī)進(jìn)行干擾，通信接收機(jī)可更換通信波道躲避干擾。通信方為達(dá)到通信安全目的，采用偽隨機(jī)波道切換策略，并且每隔一段時(shí)間改變通信波道切換的策略。預(yù)設(shè)的通信波道及通信波道切換策略對(duì)于干擾方而言未知，且干擾方為確保功率集中每次只能選擇一個(gè)波道釋放干擾信號(hào)。實(shí)驗(yàn)從干擾成功率和干擾總收益2個(gè)方面對(duì)比本文算法(AED3QN)、Q學(xué)習(xí)算法[6]和DQN[9]的性能。0～5 MHz頻率范圍內(nèi)劃置了N個(gè)正交波道，設(shè)每個(gè)波道的帶寬均為Bi，為了減少仿真環(huán)境存在的隨機(jī)性與偶然性，每組仿真實(shí)驗(yàn)重復(fù)1 000次，取1 000次仿真實(shí)驗(yàn)數(shù)據(jù)的平均值作為最后的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)及模型參數(shù)設(shè)置見表1。

表1 實(shí)驗(yàn)及模型參數(shù)

通信方使用偽隨機(jī)波道切換策略進(jìn)行通信，通過設(shè)置隨機(jī)種子，產(chǎn)生偽隨機(jī)數(shù)列，數(shù)列中的元素代表波道序號(hào)，根據(jù)偽隨機(jī)波道序列切換波道。并且每隔一定時(shí)間變更隨機(jī)種子重新生成偽隨機(jī)波道序列，策略時(shí)頻圖樣如圖6所示，黃色頻點(diǎn)表示所在波道的中心頻率。

圖6 時(shí)頻圖樣

當(dāng)通信方采用偽隨機(jī)波道切換策略且每2 000回合改變一次隨機(jī)數(shù)種子時(shí)，AED3QN算法、DQN算法和Q學(xué)習(xí)算法的干擾效果見圖7。

從圖7(a)的干擾成功率曲線可以看到，初始階段隨著訓(xùn)練回合的增加，3種學(xué)習(xí)算法通過與環(huán)境不斷交互，并學(xué)習(xí)利用交互得到的歷史經(jīng)驗(yàn)，干擾成功率迅速上升。其中Q學(xué)習(xí)算法最先達(dá)到80%的干擾成功率，而DQN和AED3QN算法曲線軌跡相仿，初始階段學(xué)習(xí)速率不及Q學(xué)習(xí)，但在1 000回合后干擾成功率逐漸超過Q學(xué)習(xí)。而當(dāng)每2 000回合通信方改變策略時(shí)，在每次策略改變后3種算法的干擾成功率均有顯著下降，其中DQN算法下降幅度最大，原因在于環(huán)境的快速改變使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的擬合函數(shù)需重新擬合，而神經(jīng)網(wǎng)絡(luò)相比于Q表需要更多的數(shù)據(jù)進(jìn)行訓(xùn)練。AED3QN算法由于在訓(xùn)練網(wǎng)絡(luò)的同時(shí)進(jìn)行無效干擾動(dòng)作的剔除，降低了決策空間的維度，在敵方策略發(fā)生改變后，能更快地學(xué)習(xí)到對(duì)應(yīng)的干擾方案。圖7(b)中AED3QN和DQN算法獲得的干擾總收益明顯高于Q學(xué)習(xí)，從曲線變化趨勢(shì)可以看到當(dāng)通信方的策略發(fā)生改變時(shí)，AED3QN算法可以更快地學(xué)習(xí)到應(yīng)對(duì)的干擾方案，表現(xiàn)出比其他2種學(xué)習(xí)算法在變化環(huán)境中更強(qiáng)的學(xué)習(xí)和適應(yīng)能力。

圖7 通信方第2 000回合改變策略干擾效果對(duì)比

當(dāng)通信方加快改變波道切換策略的速度時(shí)(每過1 000回合改變一次通信策略)，此時(shí)算法干擾效果見圖8。

由圖8可知，當(dāng)環(huán)境變化加快時(shí)3種算法最終的干擾成功率都有相對(duì)較大幅度的下降。而從圖8(b)的干擾收益曲線可以看到，在每次環(huán)境變化后AED3QN算法的干擾收益出現(xiàn)短暫下降后能更快地回升，穩(wěn)健性更強(qiáng)。表2給出了3種算法的干擾效果對(duì)比。

圖8 通信方每1 000回合改變策略效果對(duì)比

表2 干擾效果對(duì)比

表2中，當(dāng)通信方改變通信策略時(shí)，本文算法無論是干擾成功率還是最終獲得的干擾總收益均高于DQN和Q學(xué)習(xí)算法。當(dāng)敵方策略改變后，本文算法能更快地學(xué)習(xí)到新的對(duì)抗方案，在變化環(huán)境中表現(xiàn)出更強(qiáng)的穩(wěn)健性。

4 結(jié)語

本文設(shè)計(jì)了一種通信干擾智能決策方法，在深度雙Q網(wǎng)絡(luò)基礎(chǔ)上，采用競(jìng)爭(zhēng)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)來輸出干擾方案，利用競(jìng)爭(zhēng)結(jié)構(gòu)中的優(yōu)勢(shì)函數(shù)進(jìn)一步對(duì)比各干擾動(dòng)作的優(yōu)劣，剔除無效的干擾動(dòng)作，加快算法學(xué)習(xí)速度。仿真結(jié)果表明，當(dāng)環(huán)境發(fā)生改變時(shí)本文所提出的方法能達(dá)到更高的干擾成功率，穩(wěn)健性更強(qiáng)，與已有方法相比性能更優(yōu)。但本文也存在一些不足，例如環(huán)境發(fā)生改變后本文算法仍需要一定的時(shí)間重新學(xué)習(xí)適應(yīng)環(huán)境，這在連續(xù)動(dòng)態(tài)變化的環(huán)境中效率不高。今后的工作主要圍繞如何更充分地利用與環(huán)境交互得到的歷史經(jīng)驗(yàn)，加快重新學(xué)習(xí)環(huán)境模型的速度。