基于最大策略熵深度強化學習的通信干擾資源分配方法

2021-11-13 01:57:04饒寧許華齊子森宋佰霖史蘊豪

西北工業大學學報 2021年5期

饒寧, 許華, 齊子森, 宋佰霖, 史蘊豪

(空軍工程大學信息與導航學院, 陜西西安 710077)

隨著各種電子信息技術在軍事領域的廣泛應用，電子對抗在現代戰爭中發揮的作用顯得愈加重要。為了確保信息的安全傳輸，涌現出了如跳頻、智能組網、猝發通信等各種抗干擾通信技術[1-3]。在通信組網對抗背景下，干擾方的對抗目標已由單一鏈路變為通信網絡，如何利用有限干擾資源對抗整個通信網絡獲得最優干擾效果，需要制定合理的資源分配方案來實現干擾資源利用效益最大化。而對抗通信網的干擾資源分配問題決策復雜度高，僅靠人工調度效率較低。當前，遺傳算法、離散布谷鳥算法、模擬退火算法、人工蜂群算法等智能算法已被廣泛用于解決這類如雷達輻射源干擾資源分配、認知無線電頻譜資源利用等決策問題[4-6]。對于非線性組合優化問題，上述算法都需要較完備的先驗信息且需對數據分布作出假設，這些假設隨著無線網絡的復雜度提升與實際情況的差異會逐漸變大，并且在組網對抗中干擾方難以獲得通信方的先驗信息，此類算法實用性受限，不能很好地解決通信干擾資源分配問題。

強化學習作為人工智能領域的重要研究方向，可在無先驗信息條件下求解決策問題。深度強化學習融合了深度學習的特征提取能力[7]，在強化學習框架中利用神經網絡擬合目標函數來決策復雜高維空間的資源分配問題已成為研究熱點，相關成果可分為以下2類：①基于單智能體深度強化學習的資源分配方法[8-12]，如文獻[8-10]針對無線網絡中的信道接入問題、功率分配等問題均采用基于深度Q網絡(deepQnetwork,DQN)算法的分配方法來達到最大化頻譜利用效率、最小化功耗等目的。但是DQN算法只適用于離散動作空間的場景，不適合動作空間過大的聯合優化問題。為解決連續空間的決策問題，文獻[11]提出基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)的多用戶無線蜂窩網絡功率控制方法，并通過理論分析證明了DDPG算法可以應用于多種通信網絡的用戶調度、信道管理和功率分配等問題。此外，文獻[12]提出在深度強化學習框架下構建資源分配模型，利用圖卷積網絡抽取底層關鍵的拓撲特征來學習最佳資源分配策略;②基于多智能體強化學習的資源分配方法[13-16]，如針對認知無線電網絡中主基站和認知基站共存導致的聚集干擾問題，文獻[13]提出了多智能體Q學習的信道和功率分配方法，將多個認知基站建模為多個智能體，以集中訓練、分散執行的方式獲得節能資源分配策略。文獻[14]提出基于分布式近端策略優化的功率控制方法，設置多個智能體在多線程中與環境交互以提升學習速率。多智能體強化學習方法多用于智能體之間存在非合作博弈的場景，如文獻[15]將車聯網中的每條車輛與車輛(vehicle to vehicle,V2V)鏈路分別視為單智能體，各智能體在不具備全局網絡信息情況下均利用DDPG算法來獲得各自最優分配策略。文獻[16]提出分布式多智能體的深度競爭雙Q網絡算法，各用戶在隨機博弈模型中達到納什均衡，在滿足各用戶質量服務要求的同時最大化長期的整體網絡效用。

現有研究大都面向認知無線電、雷達對抗等領域且多為非合作博弈場景，很少考慮通信對抗的協同干擾場景。本文針對對抗組網通信場景下的通信干擾資源分配問題，提出一種基于最大策略熵深度強化學習的干擾資源分配方法，通過將策略熵引入神經網絡的策略梯度中，使得算法在期望最大化干擾策略效能的同時兼顧最大化策略熵，提升策略的探索性以更快地收斂至全局最優。通過仿真對比，本文所提算法相比于其他算法收斂速度更快，可更高效地完成資源分配。

1 對抗場景與決策模型構建

1.1 對抗場景

在無線通信環境中，假設干擾方有N臺干擾機,n={1,2,…,N}表示干擾機的集合,干擾機采用瞄準式干擾模式。通信方采用TCP/IP協議通信,并使用M條通信鏈路進行組網通信,m={1,2,…,M}表示通信鏈路的集合,這些通信鏈路使用互不干擾且正交的等帶寬信道,且各通信鏈路相對重要性指數可表示為

W=[ω1,ω2,…,ωM]

(1)

假設干擾方通過通信偵察并經過情報分析綜合,掌握了敵方各通信鏈路所使用的中心頻率,并確定了各通信鏈路的接收機所處位置,本文假設各接收機均為固定站。對于干擾方而言,通信方所使用的各通信鏈路相對重要性指數未知。干擾方期望在資源受限條件下,合理分配干擾資源,獲得最大干擾效能,對抗場景如圖1所示。

每臺干擾機至多同時干擾U條通信鏈路,t時刻設通信鏈路i的發射機信號功率為Pi,鏈路信道增益為Hi,Pj和Hj分別表示干擾機信號發射功率和干擾鏈路信道增益。由于一條鏈路可能受到多個干擾機的干擾,故通信鏈路i接收機處的信干比為

(2)

式中:k表示同時對鏈路i施加干擾的干擾機數量;σ2表示環境噪聲方差;Li和Lj分別表示通信信號和干擾信號的路徑損耗,由自由空間傳播損耗得

L=32.5+20lg(f)+20lg(r)

(3)

式中:f為信號中心頻率;r為信號傳播距離。

戰場環境下無法準確獲得通信方接收機處的信干比,難以直接對分配方案的干擾效果進行評估。而根據通信TCP/IP協議,干擾方在釋放干擾信號后可通過對環境偵察獲取確認幀/非確認幀信息(ACK/NACK),統計偵收到的NACK數據包可得到通信方傳輸信息的誤包率(packet error rate,RPE),進而根據下式計算出符號錯誤率(symbol error rate,RSE)[17]

RSE=1-(1-RPE)1/H

(4)

式中:H是校驗比特數。

可將組網通信中所有鏈路在t時刻的總符號錯誤率表示為

(5)

結合每條通信鏈路的相對重要性,干擾資源受限條件下的干擾資源分配問題就可轉化為優化問題,如(6)式所示

(6)

RSEi(t)≥τ0,?i∈M

(7)

式中,τ0表示干擾方設定的最小閾值。(6)～(7)式表示干擾方案需在使得每條通信鏈路誤符號率都至少達到設置閾值τ0的基礎上最大化加權的總符號錯誤率。

約束條件如(8)式所示

(8)

1.2 決策模型構建

強化學習方法通過建立馬爾科夫決策過程(Markov decision process,MDP)求解問題,本場景中在干擾機執行當前狀態的干擾方案后,環境會轉移到新的狀態,而新的狀態只取決于當前狀態和干擾方案,與過去狀態和干擾方案無關。因此本文研究的干擾資源分配問題滿足馬爾科夫時間無后效性,可建模為馬爾科夫決策過程,馬爾科夫決策過程包含智能體Agent、狀態空間S、動作空間A、獎勵函數R和折現因子γ等元素。本文中MDP定義如下:

智能體Agent:干擾方通過智能引擎制定干擾方案,而智能引擎可指引偵察機進行偵察并引導各干擾機進行協同干擾,故智能引擎可視為MDP中的智能體。

狀態空間S:環境狀態S(t)表示當前時刻干擾資源的分配分案和干擾方案的干擾效果,S(t)是由干擾資源分配矩陣X(t)和干擾效果評估矩陣E(t)構成的(N+1)行M列矩陣,即

(9)

其中干擾資源分配矩陣表示為

X(t)=[x1(t),x2(t),…,xN(t)]T

(10)

式中:xi(t)=[ci1(t)ci2(t)…ciM(t)],1≤i≤N表示單個干擾機的干擾目標;元素cij(t)∈{0,1},當cij(t)=1表示第i個干擾機對第j條通信鏈路進行干擾,反之cij(t)=0則表示未干擾。

干擾效果評估矩陣表示為

E(t)=[τ1(t)τ2(t)…τM(t)]

(11)

式中,τj(t)∈{0,1},1≤j≤M。τj(t)=1表示干擾方評估得出的第j條通信鏈路誤符號率達到預設值即RSEj(t)≥τ0,反之τj(t)=0表示RSEj(t)<τ0。

動作空間A:每個干擾機在時刻t可至多選擇干擾U條通信鏈路,并在對應信道上分別施加總功率不超過Pmax的干擾信號,故令干擾方的干擾策略即干擾動作為

A(t)=[a1(t)a2(t)…aN(t)]T

(12)

式中,ai(t)=[pi1(t)pi2(t)…piM(t)],1≤i≤N表示第i個干擾機的干擾資源分配情況,其中0≤pij(t)≤Pmax,1≤j≤M。pij(t)=0表示第i個干擾機未干擾第j條鏈路,否則表示第i個干擾機干擾第j條鏈路且干擾信號功率為pij(t),且滿足

(13)

(14)

式中,sign為符號函數。

獎勵函數R:強化學習中獎勵函數機制的作用是告訴智能體當前行為相對而言的優劣程度,故獎勵函數可引導算法的優化方向。在通信對抗的干擾資源分配問題中,干擾方的目的是在達到期望符號錯誤率的前提下使得干擾功率盡可能小,避免功率過大而暴露干擾機位置,因此將獎賞函數定義為

[(1+sign(RSEi(t)-τ0))/Pi(t)]

(15)

式中:wi為第i條通信鏈路的相對重要性系數;sign為符號函數;RSEi(t)為第i條鏈路的符號錯誤率;τ0為設置的符號錯誤率門限值;Pi(t)為對第i條鏈路的總干擾功率。

干擾資源分配優化問題的目標是要最大化分配方案的干擾效能,在強化學習模型中即最大化干擾方一段時間內獲得的累積獎勵

(16)

式中,γ∈[0,1]為折現因子。

2 基于最大策略熵深度強化學習的資源分配算法

本文在分配干擾機干擾鏈路的同時還涉及對不同通信鏈路干擾功率的分配,此時資源分配問題是非凸的NP-hard問題[18]。NP-hard問題的主流解決思路是求其次優解,運算復雜度高,特別是當待決策變量處于連續區間時求解困難,本文采用最大熵深度強化學習思想解決該問題。

2.1 最大策略熵

深度強化學習作為不需要先驗信息的機器學習方法,采用試錯方式進行學習,即控制智能體不斷與環境交互,在所處環境狀態下根據當前學到的策略采取動作,采取的動作會改變環境狀態,并根據環境給出的反饋修正策略。在感知-決策-反饋-修正的過程中,智能體不斷學習并優化行動策略,最終可獲得當前環境下較好的執行策略。

傳統深度強化學習模型的訓練目標為尋找最優策略π*使得累積獎勵期望最大,即

(17)

式中:ρπ為策略π形成的狀態-動作軌跡分布;st,at和r分別是第t步時的狀態、動作和即時獎勵;E表示數學期望運算。

在遞歸求解最佳策略π*時采用的Q函數貝爾曼迭代公式為

Q(st,at)=rt+γEst+1Q(st+1,at+1)

(18)

式中,st+1,at+1是環境狀態轉移之后的狀態和動作,γ是折現因子。

文獻[19]首次提出策略熵的概念,策略熵即策略分布熵,當策略熵較大時意味著策略的隨機性較強,在未知環境中的探索能力較強,而足夠的探索可實現對環境模型的充分學習避免陷入局部最優。

在深度強化學習模型中加入策略熵后,目標函數變為

(19)

H(π(·|st))=-log(πφ(at+1|st+1))

(20)

(9)式表示學習最佳策略過程中不僅要最大化累積獎勵期望,還要最大化策略熵。

故可將(18)式寫為

(21)

式中,πφ為從分布Φ采樣出的策略。

文獻[20]證明了策略分布與玻爾茲曼能量分布有相同的形式即正比于Q函數的指數形式,可通過Kullback-Leibler(KL)散度約束來更新策略

πnew=argminDKL·

(22)

式中,DKL(·)表示KL散度約束;Qπold(si,·)表示原策略下的Q函數;Zπold(si)表示原策略的對數配分函數。

2.2 算法框架

為提升模型在高維決策空間的泛化能力,采用深度神經網絡表示Q函數和策略函數即評估網絡和策略網絡,核心思想是利用策略網絡輸出干擾方案,利用評估網絡對干擾方案優劣程度進行評判,并在價值誤差函數中加入策略熵項,通過梯度下降方法優化策略網絡和評估網絡,當誤差函數收斂后策略網絡輸出的干擾方案即為最終資源分配方案。基于最大策略熵深度強化學習的資源分配算法基本框架如圖2所示。

圖2 基于最大熵深度強化學習的資源分配方法基本框架

借鑒DQN算法中設置目標網絡提升網絡訓練穩定性,本文算法亦采用了與評估網絡結構完全相同的目標網絡[21],用目標網絡的輸出與即時獎勵r之和作為評估網絡訓練的標簽。

此外,為了解決Q函數對Q值過高估計會使學到的策略偏差較大,本文算法中評估網絡和目標網絡均采用剪枝孿生網絡結構[22]即設置2個相同結構的神經網絡分別表示Q函數,2個網絡輸入完全相同,每次將孿生網絡中輸出較小的Q值輸入至價值誤差函數中,如(23)式所示

(23)

定義Q函數的價值誤差為

(24)

使用梯度下降更新評估網絡參數θm

(25)

Jπ(φ)=Est～D,at～πφ[αlog(πφ(at|st))-Qθ(st,at)]

(26)

由于從策略分布采樣得出動作的過程無法進行鏈式求導,為計算策略梯度使用自編碼器中重參數化技巧[24],如圖3所示。

圖3 策略網絡重參數化

圖3中,不直接從均值和協方差構成的高斯分布中采樣,而是先從標準正態分布里采樣出噪聲,然后把噪聲值乘以策略網絡輸出的協方差再加上均值即可反向求導。動作at可表示為

(27)

重參數之后,便可對策略網絡進行反向傳播和梯度下降更新

(28)

為了有效平衡在未知環境中的探索和利用,本文中熵系數α在學習過程可自適應更新,在初始階段由于對環境模型不夠了解,可調小熵系數增加策略的探索性以避免陷入局部最優;在經驗積累到一定階段,對學到的策略有足夠信心時,可調大熵系數,增加對當前所學知識的利用程度。本文通過計算(29)式梯度并反向傳播,可在不同策略熵狀態時自適應更新熵系數

J(α)=Eat～πφ[-αlogπφ(at|st)-αH″]

(29)

式中,H″設置為動作的維度大小。

2.3 算法流程

結合建立的馬爾科夫決策過程模型,提出基于最大策略熵深度強化學習的干擾資源分配方法如下。

算法基于最大策略熵深度強化學習的干擾資源分配方法

步驟1 建立干擾策略網絡π,網絡參數為φ;建立干擾方案效果評估孿生網絡Q1和Q2,網絡參數分別為θ1和θ2,隨機初始化上述網絡參數;

步驟3 設置經驗回放池D;

步驟4 While連續x輪訓練的獎勵平均值變化幅度小于δ,執行:

for每一時隙t:根據環境狀態st,對干擾策略網絡輸出的策略分布進行采樣,得到干擾方案at～πφ(at|st);

在環境中執行干擾方案at,得到下一時隙的環境狀態st+1,并計算得到環境獎勵值r(at,st);

將狀態轉移,干擾方案及獎勵值存入經驗回放池D中:

D←D∪{(st,at,r(st,at),st+1)}

end for

for 每一次訓練:

從經驗回放池中采樣小批次樣本:

B={…,(si,ai,r(si,ai),si+1),…}Length=batch-size

計算干擾方案目標價值:

y(r(ai,si),si+1)=r(ai,si)+

利用梯度下降更新干擾方案價值評估網絡參數θ1和θ2:

θj←θj-θjJQ(θj),forj=1,2

利用梯度下降更新干擾策略網絡參數φ:

φ←φ-φJπ(φ)

利用梯度下降更新溫度熵系數α:

α←α-αJ(α)

end for

end while

算法流程圖如圖4所示。

圖4 基于最大熵深度強化學習的干擾資源分配方法框圖

為使輸出動作連續且限制在規定范圍內,神經網絡的激活函數采用tanh函數,輸出動作可表示為

(30)

為抵消tanh函數對原高斯分布的影響,需對原策略分布進行修正

(31)

式中:π′(a′|s)為修正后的策略分布;ai為經驗回放池D中存放的第i個動作。

tanh函數輸出范圍為[-1,1],將輸出的動作值進行線性映射之后即可投影至真實的干擾功率范圍。

3 仿真與分析

假設通信方使用8條通信鏈路進行組網通信,各通信鏈路的相對重要性指數為W=[0.522 8,0.295 2,0.419 9,0.673 4,0.526 7,0.697 0,0.570 6,0.517 4]。干擾方有5臺干擾機,每臺干擾機可至多同時干擾2條通信鏈路,干擾機部署位置距離通信方300 km,其他實驗及模型參數如表1所示。

表1 實驗及模型參數

續表1

本文算法在資源分配過程中構建了策略網絡、評估網絡和目標網絡，各個網絡輸入輸出相互關聯，神經網絡的性能優劣直接影響算法實用性，而網絡性能取決于網絡的超參數，如隱藏層結構、優化器等，不同問題的最佳超參數配置一般不同且無法事先獲得，加之通過理論方法分析不同參數深度強化學習算法的收斂性較為困難。本文參考文獻[16]采用的仿真分析調參方式，此處給出精調后的參數及神經網絡結構配置：本文算法選定2層隱藏層，神經元數為(256,64)的全連接網絡，在上述網絡結構基礎上采用Adam優化器，并選擇折現因子為0.1。

首先分析熵系數對本文算法尋優性能的影響，之后在相同實驗環境中將本文算法與基于DQN[8]和基于DDPG[11]的資源分配方法進行比較。每次實驗采用蒙特卡洛方法重復執行5 000次，對實驗結果取平均值。

圖5a)中，熵系數可隨策略優化而自適應變化時，熵系數最終下降至0表明已不考慮策略熵的影響，轉為充分利用已學到的環境信息。從圖5b)可知此時算法收斂速度更快，干擾效能在530回合左右即可收斂至穩定值。而當熵系數固定不變時，由于熵的存在使算法始終保持一定的隨機性，干擾效能在訓練1 000個回合仍不能完全收斂，熵系數自適應變化時獲得的總效能提高了7%。

圖5 熵系數對算法性能影響

在相同實驗條件下利用MPEDRL、DDPG、DQN等算法解決干擾資源分配問題，分別從每回合壓制干擾成功率、價值誤差函數收斂速度以及獲得的干擾總效能等方面進行對比。本文將壓制干擾定義如下：當通信網絡中所有通信鏈路的誤符號率均高于誤符號率門限值時，認為實現了對組網通信的壓制干擾。

DQN算法無法解決連續變化動作的控制問題，在本實驗中需要將連續變量如干擾功率進行離散化，此處將干擾功率等間隔劃分成|A|個等級。

圖6a)是|A|=30時每回合壓制干擾成功率對比。可以看出DQN、DDPG算法在500個訓練回合內最高壓制干擾成功率不超過85%，而MPEDRL算法最終可實現單回合近95%的壓制干擾成功率。

圖6 壓制干擾成功率對比

圖6b)是不同功率劃分等級下壓制干擾成功率對比。當功率劃分等級從5增加至30時，DQN算法干擾成功率也在提升。然而進一步增加輸出維度并不能改善該算法性能，當功率劃分等級超過30時DQN算法的成功率慢慢下降至40%，這說明巨大的動作空間會導致實際訓練比較困難。通過簡單地擴大動作空間，也無法完全消除量化誤差。而DDPG和MPEDRL算法無需離散化動作空間，性能優于DQN算法。DDPG算法雖適用于連續的動作空間，但采用確定性策略，對未知環境的探索不足，壓制干擾成功率低于MPEDRL算法。

圖7是訓練過程中的各算法價值誤差對比，對比曲線變化，DDPG算法價值誤差下降最快，在50個訓練回合之后誤差即可降至0.1，但仍存在一定波動性。MPEDRL算法開始時由于輸出的策略隨機性較強，波動性也較大，但能迅速收斂，在350回合之后價值誤差已下降接近于0。

圖7 價值誤差曲線對比

圖8是各資源分配算法的歸一化干擾總效能對比。可以看到，基于DQN和基于DDPG的資源分配方法初始學習速度較快，但訓練過程波動性相對較大，而基于MPEDRL的資源分配方法在初始訓練階段對環境的探索性較強，收斂速度較慢，但通過充分利用所學知識，收斂速度迅速提升。圖8中，MPEDRL算法在280回合之后總干擾效能逐漸超過其他算法，最后趨于穩定，最終干擾效能高出DDPG算法15%。

圖8 歸一化干擾效能曲線對比

4 結論

針對通信組網對抗中的干擾資源分配問題，本文基于最大策略熵深度強化學習提出了一種新的干擾資源分配方法。該方法不需要過多有關通信方的先驗信息，在深度強化學習框架中將干擾方作為智能體，通過在目標函數中加入策略熵使得智能體在追求獲得最大干擾效能的同時期望最大化干擾策略熵，可獲得在未知環境中獲得探索和利用的較好平衡，避免陷入局部最優解。仿真結果表明，本文算法能夠在與外部環境不斷交互的過程中學習到高效的干擾資源分配策略，相較于已有方法收斂速度更快，學習過程波動性小。