靳 越,吳曉富,張劍書,2
(1.南京郵電大學 通信與信息工程學院,江蘇 南京 210003;2.南京工程學院 計算機工程學院,江蘇 南京 211167)
隨著通信對抗技術的快速發展,無線通信更易受到有意的干擾攻擊,因此抗干擾通信一直是近幾年通信領域的一個活躍研究課題[1]。在通信對抗中,對抗雙方都需要動態做出決策來調整通信或者干擾策略,從而獲得最大化的對抗收益。本文研究了抗干擾方的通信決策問題,目標是通過動態決策優化通信抗干擾的能力。
目前主流的通信抗干擾技術為直接序列擴頻技術(Direct Sequence Spread Spectrum,DSSS)與跳頻擴頻(Frequency Hopping Spread Spectrum,FHSS)。其中,跳頻通信由于其較強的抗干擾能力以及信號難以截獲的特點,被廣泛應用于抗干擾通信領域。
近年來,博弈論作為研究對抗性游戲的數學工具也在通信對抗中得到了廣泛應用。博弈論主要研究具有競爭性質的不同個體間的相互作用過程,考慮競爭過程中個體間的預測行為和實際行動,制定相應的優化策略。隨著人工智能以及通用無線電外設(Universal Software Radio Peripheral,USRP)的高速發展,干擾方可以動態發起更為智能的干擾攻擊[2],然而博弈論對動態決策并不是非常適合。
在人工智能領域,強化學習(Reinforcement Learning,RL)被認為是解決動態決策的有效工具。目前,強化學習中的Q網絡技術是解決該動態環境下決策問題的有效方法,并且已經廣泛應用于各種抗干擾通信決策問題。文獻[3]利用Q網絡算法研究了單個用戶模式下的通信抗干擾問題。Q網絡一般用于處理狀態數受限的決策問題, 鑒于通信抗干擾的基于頻譜瀑布的狀態定義涉及的狀態數不受限,因此Q網絡一般不能直接處理抗干擾通信決策中的頻譜瀑布輸入問題[4-5]。
近年來,強化學習與深度學習相互融合取得了里程碑式的結果,即深度強化學習(Deep Reinforcement Learning,DRL)。2013年,谷歌團隊提出了第一個DRL算法,即深度Q網絡(Deep Q Network,DQN)算法。該算法通過引入深度神經網絡來近似Q網絡,在多個Atari游戲中獲得優異的成績。DQN算法作為DRL的經典算法,受到了國內外學者的廣泛關注。文獻[6]提出了深度雙Q網絡(Double DQN,DDQN),解決了DQN算法中Q值高估的問題。文獻[7]提出了競爭Q網絡 (Dueling DQN)算法,通過改變決策神經網絡,將Q值拆分為狀態價值函數與相關狀態下特定動作的優勢函數之和,提高了Q值預測的準確性。文獻[8]提出了包含噪聲的深度Q網絡(NoisyNet DQN)算法,在網絡中加入噪聲網絡,提高了算法的穩定性和探索性。此外,還有其他系列的改進方法,包括優先經驗回放、DRQN、Rainbow算法等[9-11]。
基本的DQN算法具有模型簡單易于實現的優點,但對于動態決策而言決策網絡的模型收斂速度過于緩慢。針對這種情況,本文提出通過注意力機制與長短時記憶(Long Short-Term Memory,LSTM)層的有效結合來解決抗干擾通信背景下的時頻特征高效提取與學習問題。此外,除了靜態干擾模式,本文也從實際角度考慮,設置了動態干擾模式。因此本文提出的基于注意力機制和LSTM結合的DQN通信抗干擾算法,在原始DQN算法基礎上,考慮了干擾信號頻譜瀑布的分布規律與時間特征,從而通過注意力模塊與LSTM網絡更加全面地獲取信息,極大地加快了模型收斂的速度[12-13]。
如圖1所示,在t時刻,考慮一個合法通信用戶對(發送方與接收方)受單個干擾機影響的場景:t時刻,在Agent的引導下,合法通信用戶對的發送方可以選擇一個頻點(用f(t)∈[fL,fU]表示,其中fL、fU分別表示用戶通信頻段的起始和終止頻率),以pu表示發送信號功率。

圖1 信號傳輸模型Fig.1 Signal transmission model
用戶與干擾機通過電磁環境持續進行交互,利用環境反饋結果并結合通信抗干擾決策算法持續更新算法模型參數直至模型完全收斂,考慮到干擾信號和合法通信用戶對信號以及噪聲的共存,設Agent在時間間隔[t,t+Δt]接收信號的短時信號功率譜密度(Power Spectral Density,PSD)函數可表示為:
(1)

考慮到在實際的頻譜感知中,Agent感知并計算短時離散PSD,即:
(2)
式中:Δf為頻譜分析的分辨率。
由于電磁環境本身疊加了合法用戶信號、干擾信號以及多徑傳輸等影響,Agent感知的電磁頻譜信號很難直接用于通信抗干擾決策。而深度強化學習具有從電磁頻譜中學習干擾對抗態勢的能力,在單智能體假設下可以將通信抗干擾決策問題建模為馬爾可夫決策問題(Markov Decision Processes,MDP),而強化學習則是求解該MDP問題的利器[14]。

強化學習的目標是:找到一個最優策略π*,使得該策略下的累計回報G期望最大。
深度強化學習是指通過深度神經網絡來擬合決策函數π并通過深度學習方法解決最優策略π*的求解問題。

令gu表示從發射機到接收機信道功率增益,gj表示從干擾機j到接收機的增益。則合法用戶的接收SINR可以表示為:
(3)
令βth表示成功傳輸所需的SINR閾值,歸一化的傳輸率可以表示為μ(ft)=δ(β(ft)≥βth),若β(ft)≥βth為真,則μ(ft)=1,否則為0,即當接收SINR超過閾值時,μ(ft)=1表示信息成功傳輸,r為即時獎勵函數,定義為:
r(at)=μ(at)-λδ(at≠at-1),
(4)
式中:λ表示用戶中心頻率的切換成本。
本文同時考慮了靜態干擾和動態干擾。其中,靜態干擾包括:① 梳狀干擾——干擾機選擇在2、10、18 MHz三個頻率組成梳狀譜干擾;② 掃頻干擾——掃頻速度為1 GHz/s。動態干擾包括:① 動態掃頻/梳狀隨機干擾——干擾機以每100 ms周期等概率隨機選擇掃頻干擾和梳狀干擾模式;② 動態梳狀干擾——干擾機以每1 000 ms周期等概率隨機在2、6、10、14、18 MHz中選擇三個頻率組成梳狀譜干擾。圖2給出了兩種動態干擾的短時時頻圖。

(a) 動態掃頻/梳狀隨機干擾

(b) 動態梳狀干擾圖2 兩類動態干擾模式Fig.2 Two types of dynamic jamming modes
注意力機制已廣泛運用于圖像處理分析,本文考慮了三種注意力機制用于設計并進行了對比,包括SENet、通道注意力模塊(Channel Attention Module,CAM)與空間注意力模塊(Spatial Attention Module,SAM)。
從2014年起,注意力機制首先應用于機器翻譯領域并隨后在計算機視覺領域被廣泛使用并以此提高深度神經網絡的性能。注意力機制具有類似人類視覺的功能:人類視覺更傾向于圖像中有助于判斷的部分信息而忽略其他無關信息。如對圖片中的物體進行分類,占據圖片大部分面積的背景部分被視為無關信息。應用于計算機視覺領域的注意力機制一般分為通道域注意力、空間域注意力和混合域注意力。
2.1.1 SENet
SENet中通過SE模塊來實現特征重標定,該模塊包含以下三個操作:Squeeze、Excitation、Scale。SENet結構如圖3所示[16]。

圖3 SENet結構Fig.3 SENet structure
設該模塊的輸入為X,通過一系列卷積實現特征變換Ftr,即:
Ftr:X→U,X∈RH′×W′×C′,U∈RH×W×C。
(5)
設V=[v1,v2,…,vc]表示一系列卷積核,其中vc為第c層卷積的參數,則輸出特征U=[u1,u2,…,uc]可由式(6)表示:
(6)
輸出特征U進入 Squeeze操作,即平均池化:
(7)
式中:下標c表示第c維。因此將H×W×C的輸入轉換成1×1×C的輸出,對應Squeeze操作。
運用SE模塊中的Excitation操作來全面捕獲通道依賴性,學習到通道之間的非線性關系,因此在Excitation操作中采用了Sigmoid形式的門控機制,通過W來為特征圖的每一個通道生成相應權重:
s=Fex(z,W)=σ(W2δ(W1z))。
(8)
采用了參數分別為W1和W2的兩個全連接層來提升網絡的泛化能力,將得到的1×1×C的實數結合原始特征圖通過SE模塊中的Scale進行輸出,即:
(9)

2.1.2 通道注意力
CAM結構如圖4所示,其與SENet的不同之處是加了一個并行的最大池化層,提取到的高層特征更全面,更豐富[17]。

圖4 CAM結構Fig.4 CAM structure
給定輸入特征F,CAM做以下運算:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=
(10)
式中:MLP為全連接層,AvgPool表示平均池化,MaxPool表示最大池化,W1、W2為全連接層權重。
輸入特征F經過兩個并行的最大池化層和平均池化層,將特征圖從H×W×C變為1×1×C的大小,然后經Shared MLP模塊,在該模塊中,先將通道數擴張為原來的r倍,再壓縮到原通道數,經過ReLU激活函數得到兩個激活后的結果。將這兩個輸出結果進行逐元素相加,再通過一個Sigmoid激活函數得到通道注意力的輸出結果,再將這個輸出結果乘以原圖尺寸,得到大小為H×W×C的輸出。
2.1.3 SAM
單純的SAM比較簡單,其實現以下功能:
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))=
(11)
SAM結構如圖5所示,輸入特征F通過最大池化和平均池化可以得到兩個H×W×1的特征圖,然后經過連接操作對兩個特征圖進行拼接,通過7×7卷積變為1通道的特征圖,再經過一個Sigmoid得到空間注意力的特征圖,最后將輸出結果乘原尺寸變回H×W×C大小。

圖5 SAM結構Fig.5 SAM structure
循環神經網絡 (Recurrent Neural Network,RNN) 是一類用于處理序列數據的神經網絡。然而RNN在訓練時會產生梯度消失或梯度爆炸問題。為了解決這個問題,LSTM應運而生[18]。LSTM結構是一種特殊的循環神經網絡結構,通過“門”來控制信息的增加或丟棄,LSTM結構可以處理序列信息并且提取時間特征,解決了長時間序列的信息傳遞問題,使其具備長期記憶功能。LSTM模塊如圖6所示,數學原理如式(12)。

圖6 LSTM模塊Fig.6 LSTM module

(12)
式中:W均為權重,b均為偏置,Sigmoid與tanh為激活函數。
LSTM有三個Sigmoid門,自左向右依次是遺忘門(f)、輸入門(i)、輸出門(o)。由于Sigmoid函數將輸入映射到(0,1)區間的特點,這三個門分別決定了長期記憶流的保留程度、輸入單元的嵌入程度和短期記憶流的呈現程度。其原因很容易理解,如果Sigmoid輸出為1代表信息完全保留,輸出為0代表信息完全丟棄,而在0和1之間則代表了信息不完全保留而有所丟棄。
LSTM中還有按位乘法與加法兩種操作。按位乘法操作也就是遺忘門所執行的操作,用于丟棄部分信息;具體操作為:Sigmoid函數和細胞狀態Ct-1執行按位乘操作。Sigmoid函數的輸出為0~1的向量x′。使用向量x′去按位乘Ct-1向量,顯然會使得Ct-1向量的每一位置的值不同程度變小。從這樣的角度來看,Ct-1向量的部分值變小,就相當于“信息”被丟棄了。而“加法”操作,可以用于添加新的信息。具體操作為:使用一個Sigmoid函數,用此函數來按位乘隱藏狀態、輸入x的拼接向量[ht-1,x],此時Sigmoid函數的作用是選擇性的獲取隱藏狀態和輸入x中的信息。隨后的加法操作則是將這部分信息加入到了細胞狀態的向量中。
為具體起見,設抗干擾決策場景的跳頻范圍為20 MHz,感知周期為200 ms,故將尺寸為200×200的頻譜瀑布圖作為決策輸入。
本文提出的Attention+LSTM+DQN網絡模型如圖7所示。
步驟1:將200×200的矩陣再次以頻率軸分割,轉化成200個尺寸為200×1的時間序列向量作為LSTM模塊輸入。輸出為經過LSTM模塊處理后的200×300的矩陣。
步驟2:將大小為200×300的頻譜瀑布圖通過CAM模塊,經過平均池化與最大池化后經過Shared MLP模塊輸出為1×1×C,再將該輸出乘以原圖尺寸,得到1×200×300的輸出。
步驟3:將步驟2中輸出的三維tensor展平至一維數據,再經過兩個全連接層,得到輸出是大小為9的向量。網絡參數如表1所示。

表1 網絡參數Tab.1 Network parameters
所設計DQN的訓練和測試均在Linux服務器上進行,語言環境為Python3.7,CPU為Intel(R) Xeon(R) Silver 4210 2.80 GHz,GPU為NVIDIA Corporation GK210GL [Tesla K80]。
本文實驗基于Pytorch深度學習架構進行系統仿真和實驗分析。實驗中的場景是前文中的干擾模型。將三種抗干擾決策方法進行對比:DQN、LSTM+DQN與本文提出的Attention+LSTM+DQN。實驗參數設置如表2所示。

表2 實驗參數Tab.2 Experimental parameters
為評估決策網絡的訓練收斂能力,實驗中網絡訓練一輪后,立即用當前模型進行評估,這樣設置可以實時看到模型的在線訓練效果以及收斂速度。
選取SENet+LSTM+DQN、SAM+LSTM+DQN和LSTM+DQN作為CAM+LSTM+DQN的對比模型。其中SENet+LSTM+DQN與SAM+LSTM+DQN為圖7模型中將CAM注意力層替換為SENet注意力層與SAM注意力層構成的模型;LSTM+DQN為圖7中去除CAM注意力層后構成的模型。
本文將5次獨立實驗的結果取平均得到實驗對比圖。對于較為簡單的梳狀干擾與掃頻干擾,設置了8輪訓練與評估,對于較為復雜的動態干擾,設置了20輪訓練與評估。
本文利用歸一化的吞吐量來衡量網絡的性能。在仿真中Epoch定義為深度決策網絡迭代訓練100次,具體操作過程如下:第一步訓練神經網絡:神經網絡訓練一個Epoch;第二步保存神經網絡權重;第三步測試神經網絡:利用第二步保存的神經網絡權重在相同的干擾模式下驗證一個Epoch,并計算歸一化吞吐量Tall。
在一輪評估中,歸一化吞吐量Tall等于這一輪評估中獎勵值大于0的總次數除以這一輪評估的總次數,即:
Tall=Nreward/Nall,
(13)
式中:Tall為歸一化吞吐量,Nreward為獎勵值大于0的次數,Nall為評估總次數。在實驗中設置Nall=100。
三種干擾場景下不同抗干擾算法的性能對比如圖8所示,可以看出,沒有加入LSTM層處理的DQN的算法性能最差,以梳狀干擾為例,在訓練8個Epoch后模型才達到收斂,而僅加入了LSTM層的LSTM+DQN與Attention+LSTM+DQN在一輪訓練后就已經到達收斂。

(a) 梳狀干擾

(b) 掃頻干擾圖8 靜態干擾下不同抗干擾決策網絡的性能對比Fig.8 Performance comparison of different anti-jamming decision networks under static jamming
圖8中的干擾環境處于靜態模式下,在實際中,干擾并不是一成不變的。圖9中的干擾均為動態干擾模式,對于動態掃頻/梳狀干擾,本文提出的決策網絡在1輪訓練后已經達到了較高的吞吐量,完成了收斂。而LSTM+DQN算法與DQN算法則分別需要5輪訓練與10輪訓練,對于動態梳狀干擾,可以看出Attention+LSTM+DQN算法仍然優于所有其他算法。綜上可以看出所設計決策網絡具有最快的收斂速度,證明了該算法在復雜動態場景下也具有較好的性能,具有魯棒性。

(a) 動態掃頻/梳狀干擾

(b) 動態梳狀干擾圖9 動態干擾下不同抗干擾決策網絡的性能對比Fig.9 Performance comparison of different anti-jamming decision networks under dynamic jamming
此外評估中的獎勵值也可以評估算法是否優秀。強化學習模型的訓練以最大化累積獎勵為目標,累積獎勵越大,模型的性能越好。評估總獎勵對比如圖10所示,可以看出,所提出的決策網絡較其他兩種網絡均有較高的累積獎勵,說明其性能最佳。

(a) 梳狀干擾獎勵值

(b) 掃頻干擾獎勵值圖10 評估總獎勵對比Fig.10 Comparison of total rewards for evaluation
本文主要研究跳頻場景中的抗干擾決策網絡設計問題。通過融入注意力模塊與LSTM模塊,所設計的深度決策網絡適用于多種干擾模式下的抗干擾跳頻決策。仿真結果表明,在不同的干擾模式下,該算法表現出優異的在線收斂速度以及收斂性能,有利于在動態干擾環境下進行快速決策。