李明, 任清華,2, 吳佳隆
(1.空軍工程大學 信息與導航學院, 陜西 西安 710077;2.中國電子科技集團公司 航天信息應用技術重點實驗室, 河北 石家莊 050081)
在未來戰場無人機作戰將是主要作戰形式之一,無人機通信系統的可靠性和有效性是制約其作戰效能的重要因素。因此研究無人機通信系統可靠的通信抗干擾方式至關重要。
智能干擾和認知干擾的出現,給無人機通信抗干擾工作帶來了巨大的挑戰。為了有效對抗智能干擾,提高無人機通信系統的通信質量也就成了熱點研究內容[1]。目前,因為智能算法的興起,利用智能決策算法去對抗智能干擾的研究越來越多,他們大致可以分成兩大類:一類是在頻域上進行認知抗干擾,主要是通過頻繁的切換信道來躲避干擾的攻擊。例如文獻[2]利用深度Q網絡學習算法在頻域上進行信道選擇。文獻[3]研究了認知網絡中的抗干擾問題,提出了一種信道快速選擇算法。文獻[4]提出了一種利用博弈論抗干擾的方案,并給出了相應的信道選擇算法。另一類是在功率域上進行智能抗干擾,根據干擾的發射功率調整自己的發射功率來應對攻擊。典型的如文獻[5-6]利用博弈論的分析方法在功率域上進行抗干擾。文獻[7]將功率域抗干擾問題建模成一個非零和博弈模型,獲得了用戶的最佳發射功率。文獻[8]把用戶作為領導者,干擾機作為跟隨者,將功率域抗干擾問題建模成stackelberg博弈模型,得到了對抗雙方的最佳發射功率。為了更好地應對干擾攻擊,學者們又提出了多域聯合的抗干擾方法。例如文獻[9-10]設計出了一種速率自適應和信道選擇相結合的抗干擾算法,其性能優于單獨采用這2種方法中的任意一種。文獻[11]考慮了位置移動特性和信道的切換,提出了一種二維聯合抗干擾算法。文獻[12]利用遺傳算法對多個抗干擾參數實現了重新配置。但是,以上大多數多域聯合抗干擾算法是將多維決策排列在一個更大的一維決策空間中,其本質還是在一維上解決問題。
根據以上分析,本文將功率域和頻域上的抗干擾算法結合起來,提出一種基于多臂老虎機(multi-armed bandit,MAB)和stackelberg博弈的多域抗干擾智能決策算法。在信道統計信息未知的情況下,先是通過頻譜感知,利用多臂老虎機進行信道選擇,并對各信道干擾情況進行層次劃分,即分成輕度干擾、中度干擾和重度干擾3個層次。當上一時隙所選信道在當前時隙被判定為中度干擾時,不進行信道切換,而是在功率域建立Stackelberg博弈模型進行抗干擾。通過解出納什均衡獲得通信方最佳發射功率和最佳效用。所提算法不僅提高了通信系統抗干擾的可靠性和有效性,還減少了信道切換開銷,實現了智能抗干擾。
系統模型如圖1所示, 無人機通信系統包括發送方和接收方,還有一個惡意干擾機。現將無線網絡頻譜分成n個互相獨立的信道,定義信道集N={1,2,3,…,N},信道帶寬為Bn。當信道可用時定義狀態為“1”,不可用時定義其狀態為“0”。故信道可用狀態矢量為Q=(Q1,Q2,…Qn)。其中,Qn∈(0,1)。本文設定干擾機具有一定智能性,可以利用頻譜感知技術去感知用戶信道,也可以根據用戶的策略和環境信息調整自己的干擾策略,如切換干擾信道和調整干擾功率等,以求自身效益最大化。信道統計狀態信息是未知的,假設在每個時隙發送方只選擇一個信道進行傳輸,惡意干擾機也只能選擇一個信道進行干擾[13]。用戶在時隙t選擇可用信道ω(t)進行傳輸信息,獲得的回報可以定義為:
(1)

圖1 無人機多域抗干擾系統模型
在通信方對信道狀態統計信息未知的情況下,如何選擇可靠有效的信道已被建模成一個MAB問題[14]。多臂老虎機是一種具有強大學習能力的新型動態隨機控制模型,他主要應用于路由選擇、信道分配和伺機頻譜接入等問題。
基于改進的UCB索引策略[15],本節提出一種考慮信道切換開銷的信道選擇抗干擾算法。改進后的索引值由兩部分組成:第一部分為目前被選信道的預期平均回報;第二部分為改進的置信因子。根據文獻[14],劃分的每個信道都可以看成一個臂。在時隙t,設通信方選擇某個臂ω(t)便可獲得一個回報r(t)。χn(t)表示信道n在經過t個時隙后被選擇的次數,可表示為

(2)
(2)式中δ{·}是指示函數,其定義為

(3)
定義S(t)表示在t個時隙中信道切換次數

(4)
為了減少信道的探索成本,引入收益值方差來調節探索過程,可反映出在未來時刻收益波動情況。

(5)

根據(5)式可得到一個偏差因子,其數學表達式為

(6)
通過進一步調整改進,得到最終的改進的索引值

(7)

在時隙t
χn(t)=
(8)

(9)

(10)
定義選擇信道n的期望回報為
un=E[r(ω(t),Qω(t))]
(11)
式中,E[·]是求期望操作。
在t個時隙中,定義累積回報為

(12)
期望的累積回報為:

(13)
假設單位信道切換所需代價為b,則期望的信道開銷可以定義為
B[Z(t)]=bE[S(t)]
(14)
把信道開銷看成一種性能損失,則通信方所獲得的長期回報定義為


(15)
研究信道選擇問題就是為了使系統收益回報最大。在MAB問題中,評判此類算法的好壞常用悔恨值這一性能指標[16],它表示通信方沒有選擇最佳臂而造成的損失。故通信系統的最大收益也可以用系統的最小悔恨值來等價代替,把信道切換開銷考慮進去,在經歷t個時隙后的悔恨值為
(16)
式中,un*=maxun,n=1,2,…,M,E[A*(t)]是E[A(t)]的上界,即E[A*(t)]≥E[A(t)]。
本文主要研究的目標函數為(16)式,現為了驗證所選性能指標的合理性與可行性,進行如下推理分析和證明。
推論1系統得到的悔恨值函數隨著時間呈對數變化,即E[R(t)]~O(lgt)。且悔恨值函數收斂存在上界。
證明1根據參考文獻[17]所述的定理1,可以推得

(17)
式中,Δn=u*-un。再根據文獻[18]提供的定理可得
(18)
同樣根據參考文獻[18]所述定理可得
(19)
證畢。
通過改進的USB索引算法決策出各個信道干擾情況后,選擇最佳信道進行信息傳輸并且根據既定的信道干擾容限閾值PJth1與PJth2將信道所受干擾功率劃分成3個等級,即輕度、中度、重度干擾。

表1 信道的干擾等級劃分
根據2.1節得出的結論,當上一時隙所選信道在當前時隙被判定為中度干擾,則立即對此信道進行Stackelberg功率控制博弈抗干擾,不進行信道切換。并且通過求解博弈均衡得到通信方最佳傳輸功率,實現功率域抗干擾。
參考文獻[13]中的論述,假定信道增益在一個時隙內不會發生變化只會在下一個時隙隨機變化,定義通信方的接收端和發送端之間的信道增益為
Vs=(ds)-βsεs
(20)
式中:ds為通信方發射端和接收端的距離;βs是路徑衰落因子;εs是瞬時衰落系數。
同理,定義干擾機和接收端之間的鏈路增益為
Vj=(dj)-βjεj
(21)
式中:dj為通信方接收端和干擾機的距離;βj是路徑衰落因子;εj是瞬時衰落系數。
假設通信方為領導者,干擾機是跟隨者。定義博弈模型數學表達式為
Gs,j=〈{P,J},{us,uj}〉
(22)
根據文獻[19-20],假定通信方在時隙t選擇了信道n,基于接收信號的信干噪比,通信方在時隙t的效用函數定義為

(23)
式中:Qn是所選信道可用狀態;P表示通信方發射功率;J表示干擾機發射功率;Bn表示所選信道帶寬;N0是噪聲功率譜密度;Ys是通信方單位發射功率代價。
同理,可以定義干擾機的效用函數為

(24)
式中,Yj是干擾機單位發射功率代價。
本文采用經典的Stackelberg博弈分析方法——逆向歸納法。通信方的優化問題可以表示為求取最佳發射功率即Stackelberg均衡

(25)
式中,Pmax是通信方最大發射功率。同理,干擾機的優化問題可以表示為

(26)
式中,Jmax是干擾機的最大干擾功率。通過計算得到Stackelberg均衡,表示無論通信方還是干擾機都無法通過單方面改變策略而提高自己的效用。
與文獻[19-20]的分析求解過程類似,可以得到定理2。

(27)

(28)
證明2根據文獻[19-20]的論述分析,這里采用逆向歸納法進行證明。
假定通信方的功率策略是P,當Qn=1時,有
所以,干擾機的效用函數是干擾功率的凹函數。通過引入非負對偶變量ξ,干擾機的優化問題的拉格朗日函數可定義成下式

(29)
根據庫恩-塔克條件[21],可以得到

(30)
根據(30)式,可以得到干擾機的最佳干擾功率

(31)
式中,(·)+max(·, 0)。當Qn=0時,干擾機的效用函數uj=(P,J)=-YjJ是干擾功率J的單調遞減函數。
同理,根據通信方的優化問題,把(31)式代入(23)式中可得
(32)
式中
φ=(Yj+ξ)(BnN0)2/(Qnεsεj(ds)-βs(dj)-βj)
當滿足P≤φ時,通信方的效用函數us是發射功率P的線性函數。當滿足P>φ時,可以得到
?2us(P,J)/?2P=-(1/4P)×
所以,通信放的效用函數是發射功率P的凹函數。同理,通過引入非負對偶變量?,通信方的優化問題的拉格朗日函數可以定義為
(33)
與干擾機的分析過程類似,通信方的最佳發射功率為

(34)



證畢。
通過以上分析,把頻域和功率域2種域上的抗干擾算法相結合,得出的多域抗干擾智能決策算法流程如圖2所示。

圖2 多域抗干擾智能決策算法流程
算法多域抗干擾智能決策算法(MAIDA)
step 1 數據初始化,確定最大迭代次數Nt,干擾容限閾值PJth1、PJth2,令t=0,Sn(0)=0,χn(0)=0,r(0)=0;
step 2 遍歷所有信道,每個信道都要在時隙結束前根據歷史信息算出改進后的索引值;
step 3 在時隙t,選擇計算出的改進索引值最大的信道進行信息傳輸;
step 4 更新t=t+1,如果上一時隙所選信道在當前時隙被判定為輕度干擾,則繼續在該信道進行信息傳輸;若判定為中度干擾,則在功率域直接建立一個Stackelberg博弈功率抗干擾模型,由博弈均衡得出最佳傳輸功率;若判定為重度干擾,則發射功率為零,轉至step3;
step 5 根據公式依次更新:Sn(t),χn(t),r(t);
step 6 當迭代次數達到最大值Nt時,算法終止。
為驗證本文所提算法的有效性,對系統獲得的累積悔恨值、長期回報、瞬時回報和平均吞吐量等性能指標進行仿真。仿真硬件平臺是Inter(R) Core(TM),2.6 GHz,內存為8 GB的PC機,所有實驗均在MATLAB R2016a環境下進行。
參考文獻[13-14]參數設置如下:設共有10個信道,噪聲功率譜密度N0=-130 dB/Hz,信道帶寬Bn=2.5 MHz,衰落因子βs=βj=3,通信距離ds=10 km,dj=40 km,Pmax=30 W,Jmax=60 W。
仿真結果是進行200次蒙特卡洛仿真取平均值的結果。
為了驗證所提MAIDA算法面對智能性干擾對信道干擾情況判決的準確性,對信道在不同時隙下的改進索引值進行仿真。由仿真數據可繪制如圖3所示的信道索引圖。

圖3 MAIDA算法對信道干擾情況的等級劃分
從圖3可得出MADIA可以對信道干擾情況進行判決,并劃分干擾等級,為下一步在什么時隙哪個信道進行功率域抗干擾提供參考。
從仿真圖4可知,單位信道切換開銷b對系統的累積悔恨值有一定影響。累積悔恨值隨著單位信道開銷b的增大而增大。因為單位信道開銷越大,對系統的通信性能損失越大。從圖中還可以看出,MADIA得到的累積悔恨值與時隙呈對數變化關系,這也驗證了證明1。
為驗證所提MAIDA的性能,與2種不同算法的長期回報進行對比。從仿真圖5中可以看出,通信系統采用MAIDA可以獲得更大的長期回報。因為傳統MAB算法會在每個時隙都進行信道選擇,這將會增大信道切換開銷。至于隨機選擇算法其獲得的長期回報最小,因為其每個時隙都隨機切換信道,對抗干擾不具有針對性。
為進一步驗證MAIDA的性能,仿真分析了3種算法的期望回報速率,即瞬時回報。瞬時回報越高說明算法性能越好。從仿真6圖可以看出,MAIDA的瞬時回報要明顯高于其他2種算法,說明MAIDA性能要更優越。

圖4 累積悔恨值與單位切換開銷的關系 圖5 不同算法獲得的累積回報性能對比 圖6 不同算法獲得的瞬時回報性能對比
仿真圖7給出了上述3種算法的系統平均吞吐量隨時間變化曲線。由圖7可知,3種算法的平均吞吐量曲線走勢均是先快速增加,然后增速變慢,最后趨于平緩。所提MAIDA的系統平均吞吐量明顯高于另外2種算法,并且隨著時間的推移無限趨近于通信上界。

圖7 不同算法獲得的系統平均吞吐量隨時間變化關系曲線
以上仿真實驗是MAIDA算法與頻域或功率域上的抗干擾算法性能對比,驗證了本文所提算法抗干擾效果明顯好于單一域抗干擾。現對采用MAIDA算法和當前其他2種多域抗干擾算法的通信系統的誤碼率進行仿真,比較他們的抗干擾性能。認知無線電和多輸入多輸出技術相結合的算法(cognitive radio-mutiple input multiple output,CR-MIMO),實現了頻域、時域、空域上的混合式抗干擾;空時直擴通信系統與多輸入多輸出技術相結合的抗干擾算法(space-time direct spread MIMO,STDS-MIMO),實現了信息在時域、空域、功率域上的多域傳輸,大大提高了抗干擾能力。

圖8 不同多域抗干擾算法的通信系統誤碼率隨信干比變化曲線
由仿真結果可以看出,3種算法在低信干比下,都可以保持較低的誤碼率,說明抗干擾效果都很好。
但是,在相同信干比下,MAIDA算法的通信系統誤碼率還是明顯低于其他2種算法的,這也說明了本文算法抗干擾能力更強。
為解決無人機在戰場上面對復雜電磁環境及智能性干擾通信較困難的問題,提出了多域聯合抗干擾智能決策算法。此算法基于多臂老虎機在信道統計信息未知的情況下研究了信道選擇問題,并根據計算得出的改進的索引值對信道干擾等級進行劃分。根據干擾等級,選擇信道基于Stackelberg博弈模型在功率域上進行抗干擾,減少信道切換開銷,提高通信系統的長期回報值,得到了更高的系統平均吞吐量。通過仿真與其他多域抗干擾算法進行對比,說明該算法抗干擾性能更優越。