劉春玲,劉敏提,b,丁元明,b
(大連大學 a.信息工程學院; b.通信與網絡重點實驗室,遼寧 大連 116622)
在未來空戰中,無人機(Unmanned Aerial Vehicle,UAV)集群作戰將是重要的作戰形式之一,針對其高動態、網絡拓撲結構多變等特性,采用分布式網絡結構可提高無人機集群網絡的抗毀性。此外,實現信息安全、可靠傳輸是其完成任務的關鍵,確保無人機之間的可靠通信,將成為一項重要的研究內容[1]。
近年來,如何有效對抗智能性干擾與提高通信安全已成為研究熱點[1]。在抗干擾技術研究中,認知抗干擾算法已成為研究熱點方向之一[2],該算法可歸納為如下兩類:一類是基于強化學習理論[3]進行可用信道的選擇,主動規避干擾信道,從而實現頻域抗干擾。文獻[4]提出基于協作Q學習(Q-Learning,QL)的信道選擇算法,該算法可提高數據傳輸成功率,但當狀態空間規模較大時,其面臨維數災難的問題[5-6]。針對該問題,文獻[7]提出將深度Q網絡(DQN)在線學習算法應用于信道選擇。當信道數量較多時,文獻[8-9]利用演員-評論家(Actor-Critic,AC)算法進行信道選擇,但是該算法存在方差較大以及穩定性較差的問題。另一類是基于博弈論的方法[10-12],根據敵我雙方的競爭關系,建立功率域抗干擾博弈模型,通過求解博弈均衡得到最佳傳輸功率,實現從功率上壓制干擾信號以達到抗干擾的目的。以上算法均是僅從單個頻域或者功率域角度考慮,針對智能性干擾攻擊的靈活性較差[13]。
為提高網絡抗智能干擾的能力,本文將功率域和頻域抗干擾方法相結合,基于優勢演員-評論家(Advantage Actor-Critic,A2C)[14]與Stackelberg博弈(Stackelberg Game,SG),提出一種多域聯合認知抗干擾(Multiple Domain Joint Cognitive Anti-Jamming,MDJC-AJ)算法。該算法將可用信道探索問題轉化為序貫決策問題,由感知到的環境頻譜狀態進行信道選擇。根據設定的干擾容忍雙閾值將信道干擾程度分為嚴重、中度與輕微3個等級,并對處于中度干擾等級的信道建立功率域斯塔克伯格博弈模型,通過求解博弈均衡得到最佳傳輸功率。與此同時,本文采用簇頭協助決策方式來協助簇內信道決策成功率較低的節點,以提高網絡整體感知環境的準確性與干擾信道決策成功率。
無人機集群網絡采用層次結構的移動Ad-Hoc網絡,當無人機的數量大于6架時,適合采用分層式結構[15]。無人機集群網絡對抗智能干擾機示意圖如圖1所示。

圖1 無人機集群網絡對抗智能干擾機示意圖Fig.1 Schematic diagram of UAV cluster networkresist intelligent jammer
假設網絡中干擾機為J,干擾機個數為1,節點總數為NS,分簇數M=NS/NC,NC為簇內節點個數,節點i的簇內鄰節點個數C-i?ΩS,其中,ΩS為網絡節點集合。假設簇頭具有較高的等級,數據處理能力最強,其在簇內則充當局部控制中心的角色,簇間節點通過所在簇的簇頭轉發數據進行通信。

2.1.1 獎勵函數
在t時刻,且無干擾機時,節點i接收信號的信干噪比(Signal to Interference-plus Noise Ratio,SINR)為γNJ(t),存在干擾機時,SINR為γYJ(t),可表示為:
(1)
(2)


(3)
(4)


(5)

2.1.2 狀態空間與動作空間
假設環境狀態空間S為節點i的前一時刻感知頻譜bt-1,則時刻t的狀態st可表示為:
st=bt-1,st∈S
(6)

2.1.3 基于優勢演員-評論家的頻域抗干擾算法
AC算法是由行動者(Actor)與評論家(Critic)組成的強化學習算法,其中,Actor負責更新策略,Critic負責更新動作值函數。與AC算法相比,A2C算法通過引入基線能夠降低學習過程中的方差,以較準確的動作值指導策略更新,可帶來更好的求解效果。在實際應用中真實價值很難得到,一般采用函數近似法對價值和動作函數進行參數化,利用神經網絡等機器學習算法求解,求解過程如下:

(7)
2)對于Actor而言,其目標是通過不斷地更新參數w,使得其盡可能得到好的策略πw(s,a),即:
(8)
其中,d(s)對應起始狀態s。

為增加模型探索能力,在模型目標函數中加入策略的熵正則化項,其可衡量概率策略分布的不確定性,且其值越大說明模型具有更好的多樣性[18-19]。Actor網絡的參數w基于策略梯度下降的計算方法為:
(9)

(10)


表1 信道干擾等級判定規則Table 1 Decision rule of channel jamming level
在2.1節的基礎上,當上一時刻所用信道在當前時刻被判決為等級2時,則對該信道建立功率域SG模型,并通過求解Stackelberg均衡(Stackelberg Equilibrium,SE)得到最佳傳輸功率,實現功率域抗干擾。

(11)

干擾機J的效用函數可表示為:
(12)


(13)
(14)


2)考慮極端情況,有以下2種情況:


(15)


(16)




(17)
綜上所述,本文提出的MDJC-AJ算法實現過程描述如下:
輸入訓練數據D={(si,bi)|si∈S,bi∈A},經驗池E

2)迭代更新。對每個智能體(節點/簇頭),每幕執行以下操作:

(2)執行:利用πθ(·|s′)得到動作b′。
(4)策略更新:基于式(9),更新策略網絡參數w。
(5)價值更新:基于式(10),更新策略網絡參數θ。
(6)更新狀態與動作:s←s′,b←b′。

3)直至達到最大迭代次數Nit,結束。
參考文獻[12],本文對MDJC-AJ算法的復雜度進行分析,結果如表2所示。

表2 MDJC-AJ算法復雜度分析Table 2 Complexity analysis of MDJC-AJ algorithm
本文算法的運算復雜度分析描述如下:

2)對于單個節點,根據策略πθ(·|s′),在每個狀態下執行相應動作得到獎勵值的復雜度為O(C2),C2為與策略類型相關的常數,所有節點的運算復雜度為O(NSC2),該部分對應算法迭代更新中的步驟2、步驟3。
3)對于單個節點,基于式(9)、式(10),更新參數w、θ以及狀態s、動作b,運算復雜度為O(C3),C3為與每幕的時間步長或收斂迭代次數相關的常數,所有節點的運算復雜度為O(NSC3),該部分對應算法迭代更新中的步驟4~步驟6。
4)對于單個節點,根據閾值進行等級劃分,運算復雜度為O(C4),C4為與閾值個數相關的常數,所有節點的運算復雜度為O(NSC4)。
5)干擾機最佳干擾功率運算復雜度為O(C5),C5為與式(15)相關的常數。
6)對單個節點,根據式(17)計算節點最佳傳輸功率運算復雜度為O(C6),C6為常數,所有節點的運算復雜度為O(NSC6)。
通過以上分析,可得到MDJC-AJ算法的總運算復雜度為:
Csum=Nit(O(NSC1)+O(NSC2)+O(NSC3)+
O(NSC4)+O(C5)+O(C6))
(18)
由于實際環境態勢的多變性以及信息的局部性,存在單個節點局部頻譜感知能力有限的問題,為此引入簇頭協助從節點決策方法。基于簇頭協助的無人機集群網絡抗干擾示意圖如圖2所示。
簇頭協助從節點決策方法可描述為:各節點進行局部環境感知與信道決策時,若某節點所得結果無法達到期望值,則向簇頭發出Help信息,簇頭收到求助信息后,則向其傳輸無干擾信道數據信息,使其能夠進行可靠通信。需要說明的是,所有節點和簇頭均采用MDJC-AJ算法進行抗干擾。為了不失一般性,圖2中僅詳細說明第一個簇頭內部抗干擾算法的實現流程。
為驗證本文所提算法的有效性,實驗選用卷積神經網絡來擬合值函數和策略函數。仿真環境為Intel?CoreTMi7-4790 CPU@3.60 GHz四核八線程處理器,采用Pytorch1.2.0深度學習框架與Matlab2018a仿真平臺。

Actor網絡與Critic網絡基本一致,不同的是最后的全連接層[20]。Actor網絡輸出維度為32×1,對應32個待選信道,Critic的輸出維度為1,用于計算Actor所獲獎勵。網絡結構參數設置如表3所示。

表3 網絡結構參數設置Table 3 Parameter setting of network structure
仿真1為驗證本文所提算法的信道選擇性能,考慮干擾機采用智能性干擾,即不同時間段干擾機干擾的信道和功率均不同,為便于分析將環境狀態的時變點分別設在tchange=1 500和tchange=3 300,網絡中節點個數為4,編隊及所選簇頭已最優。實驗對文獻[4]Q學習抗干擾(QL-AJ)算法、文獻[8]演員-評論家抗干擾(AC-AJ)算法與本文算法的信道干擾情況決策成功率進行比較,結果如圖3所示。從圖3可以看出,在各個階段內,相比QL-AJ算法與AC-AJ算法,本文所提MDJC-AJ算法的信道干擾情況決策成功率更高。

圖3 3種算法的干擾信道情況決策成功率Fig.3 Channel decision success rate of jammingsituation with three algorithms
為進一步說明MDJC-AJ算法在智能性干擾情況下信道決策有效性,由仿真所得信道干擾情況判決結果,如圖4所示。從圖4可以看出,MDJC-AJ算法在決策出可用信道索引情況下,對信道干擾功率情況進行判決,可為功率域抗干擾提供依據。

圖4 MDJC-AJ算法對信道干擾情況判定結果Fig.4 Decision result of channel jamming situationby MDJC-AJ algorithm


圖5 觀測誤差e對網絡節點與干擾機效用函數的影響Fig.5 Influence of observation error e on utility functionof network node and jammer
從圖5可以看出,隨著干擾機觀測誤差e的增加,節點效用函數之和呈現遞增趨勢,然而干擾機的效用函數呈現遞減趨勢。這是因為隨著觀測誤差的增加,使得干擾機最佳傳輸功率偏離SE,導致其效用函數減小,干擾機觀測誤差等效于削弱了干擾機干擾的強度,而這將有利于提高節點效用函數,使其通信性能提升。
簇內節點個數對接收信號的SINR的影響如圖6所示。

圖6 簇內節點數對整體接收信號SINR的影響Fig.6 Influence of the number of nodes in a cluster onthe overall received signal SINR

仿真3實驗比較了QL-AJ算法、AC-AJ算法與本文算法的抗智能干擾性能,如圖7所示。從圖7可以看出,在3種不同算法下,網絡通信安全容量均隨著訓練時間的增加而不斷提高,且與QL-AJ算法、AC-AJ算法相比,本文算法的網絡通信安全容量更高。值得注意的是,在3個階段的突變點,上述3種算法得到的通信安全容量均驟減,之后恢復,然而本文算法較其他2種算法恢復的更快,其原因是:由于狀態空間和動作空間較大,QL-AJ算法遍歷Q表所有狀態的計算量龐大,算法收斂較慢;同時,AC算法利用卷積神經網絡強大的計算能力,相比QL算法提高了近4倍的計算速度;另外,相比于AC-AJ算法,本文算法能夠降低學習過程的方差,算法穩定性好、收斂更快,且通過聯合功率域抗干擾減少信道切換的時間,同時提高了接收信號SINR,從而得到的通信安全容量更高。

圖7 3種算法的抗智能性干擾性能對比Fig.7 Comparison of anti-intelligence-jamming performanceof three algorithms

(19)
其中,|S|為系統狀態個數。
為驗證所提方法算法收斂性能,實驗對比了QL-AJ算法、AC-AJ算法與本文算法的收斂情況。10個仿真周期的平均均方值誤差如圖8所示。從圖8可以看出,本文算法在經過10幕左右后已經收斂,比其他2種算法的收斂性能好,且得到的平均均方值誤差更小。

圖8 3種算法的平均均方值誤差變化曲線Fig.8 Average mean square error change curves ofthree algorithms
針對無人機集群網絡對抗智能性干擾能力較弱的問題,本文提出一種MDJC-AJ算法。該算法基于A2C頻域算法,利用感知到的頻譜狀態信息進行信道選擇,以提高算法的收斂速度與信道決策成功率,并在此基礎上,根據得到的功率干擾等級,利用功率域進行抗干擾,以減少信道切換時間、提高接收信號SINR。通過仿真對比QL-AJ算法與AC-AJ算法,說明本文所提MDJC-AJ算法的整體抗干擾性能較好。同時,本文采用簇頭協助的方法進一步改善網絡的抗干擾性能。后續將考慮實際物理場景中存在不完全觀測信息的情況,開展基于貝葉斯博弈理論的抗干擾方法研究,以滿足實際工程需要。