鄭澤新, 李偉, 鄒鯤, 李艷福
(空軍工程大學 信息與導航學院, 陜西 西安 710077)
現代戰場中,電子戰手段的發展嚴重影響著雷達性能,如被探測目標發展出箔條干擾和拖曳式干擾等無源干擾、壓制干擾和欺騙干擾等有源干擾技術進行自我保護。這些手段可通過淹沒或模糊目標回波、制造假目標等方式降低雷達對目標的檢測和識別概率。尤其當敵方對雷達實施自衛干擾時,干擾信號從天線方向圖主瓣進入接收機,導致通過波束置零抑制旁瓣干擾的空域抗干擾方法難以發揮效能,給對空雷達完成目標搜索、定位、跟蹤、識別和成像等任務帶來巨大挑戰。
在雷達抗主瓣干擾方面,國內外學者已有研究,其中,波形捷變因抗干擾性能好而備受重視。目前從波形捷變角度抗干擾的方式主要有頻率捷變和相位編碼信號捷變。方文等[1]提出了,基于捷變頻聯合波形熵的密集假目標干擾抑制算法,全英匯等[2]對頻率捷變雷達波形對抗技術發展趨勢進行了展望。晏藝翡等[3]提出了一種基于干擾環境感知和低截獲波形調度的抗主瓣干擾雷達設計方法。但是,脈間頻率捷變雷達在相干處理時間內對跳頻信號的處理會產生旁瓣,導致多普勒譜出現尖峰,而這些尖峰會被誤認為是目標,導致虛警概率提高[4]。當相位編碼信號用于波形捷變時,可帶來很高的自相關函數主旁瓣比,也可形成很窄的自相關主瓣,擁有較高的互正交性能,進而帶來較好的抗干擾性能。夏棟等[5]提出了利用相位編碼變波形聯合恒虛警技術抗同頻干擾的方法,從同頻干擾中提取出有用的目標回波信號,并且對強同頻干擾具有較好的適應性。Hu等[6]提出了一種相位編碼信號系統,有效抑制了主瓣干擾,提高了目標檢測概率。Wang等[7]利用相位和頻率編碼波形技術,提出了一種抗重傳干擾技術。但是,產生數目足夠且相互正交的編碼信號有很大困難,隨著編碼信號數目的增加,信號集內信號間互正交性能逐漸下降,導致轉發式干擾和重構式干擾等干擾手段[8]基于前一個或前幾個脈沖產生干擾信號時仍然能夠獲得一定的干擾性能。
現有波形捷變技術可對抗傳統干擾,但無法應對具有預測能力的干擾機。若能從博弈角度預測干擾信號,設計雷達波形,則可進一步提升雷達的可靠性。基于博弈思想研究雷達和干擾間動態對抗已有一些成果。He等[9]針對多基地雷達網和智能干擾機博弈問題,提出了一種功率分配和波束形成的博弈算法。Ye等[10]提出了一種基于最小損失準則的抗干擾策略選擇識別方法,基于博弈論將利潤矩陣轉化為最小損失決策矩陣,獲得了最佳策略。Chen等[11]通過建立合作博弈模型,研究分布式多輸入多輸出(MIMO)雷達功率分配,驗證了均勻功率分配通常不是最優。Shi等[12]研究了在多基地雷達系統中采用Stackelberg博弈方法的協作低截獲概率性能優化問題。Wang等[13]通過合作博弈論的框架,在最小化雷達時間資源成本的同時形成了穩定的網絡結構。基于納什均衡[14]、Stackelberg模型[15]和Bayesian博弈模型[16]設計雷達波形,有效提高了雷達檢測性能。但實際對抗場景中,參與博弈的因素眾多,傳統博弈模型需要人工進行博弈模型選擇、參數更新和策略選擇等工作,對操作人員的運算能力和知識水平提出了過高要求,無法擺脫模型的條件約束,難以得到真正的最優博弈策略。
強化學習具有強信息感知和交互能力,為博弈問題研究提供了一種全新的解決思路。現已有強化學習應用于雷達抗干擾的成果。Xing等[17]研究了基于強化學習的智能雷達對抗方法,提高了雷達對抗系統的適應性;并針對工作模式數量未知的情況,研究了基于強化學習的智能雷達對抗方法[18]。Selvi等[19]針對雷達通信共存問題,將雷達環境建模為馬爾可夫決策過程,預測并使用最小化干擾頻段。Li等[20]基于強化學習思想對認知雷達抗干擾跳頻策略展開研究,利用深度Q網絡等方法躲避干擾,并將深度強化學習思想用于雷達對抗主瓣干擾,獲得了較高的檢測概率[21]。Wang等[22]提出了基于強化學習的同址MIMO雷達認知波束形成算法。Cao等[23]關聯波形參數選擇與目標狀態估計,建立了強化學習模型,實現了性能更優的波形選擇算法。Wang等[24]提出了一種基于深度強化學習的認知雷達波形優化方法,提高了目標跟蹤精度。Ak等[25]基于部分可觀測馬爾可夫決策過程模型,使用深度Q網絡和長短時記憶網絡生成兩種跳頻策略,提高了認知雷達抗干擾性能。Shi等[26]針對多機動目標跟蹤中的雷達功率分配問題,提出了一種基于控制框架的深度確定性策略梯度認知設計。Ailiya等[27]提出了一種基于強化學習的聯合自適應跳頻和脈寬分配方案,利用Q-學習在環境信息不完備條件下生成了最優策略。
因此,本文將認知雷達和博弈思想結合,基于馬爾可夫決策過程實現博弈場景建模,在干擾條件下,得到雷達信號的頻域能量分配策略,合成時域最優雷達波形,并與傳統信號進行性能對比。
復雜電磁環境中,建立雷達和目標的博弈模型需要考慮雷達發射信號、目標回波、干擾、環境噪聲和各類雜波等因素,如圖1所示。圖2為信號模型。假設雷達發射信號為s(t)、接收信號為y(t),信號帶寬和功率為W與Ps;目標脈沖響應h(t)為時間Th有限的隨機模型,r(t)為接收濾波器脈沖響應,H(f)與R(f)分別為h(t)與r(t)的傅里葉變換;不考慮雜波時,噪聲n(t)為零均值高斯信道過程,其功率譜密度為Snn(f),W內不為零;每個脈沖發射前截獲的主瓣壓制干擾信號為j(t),總功率為PJ,功率譜密度為J(f)。

圖1 雷達探測場景Fig.1 Radar detection scene

圖2 信號模型Fig.2 Signal model
由圖2可知,雷達接收端濾波器輸出端信號[14]y(t)達式為
y(t)=r(t)*(s(t)*h(t)+n(t)+j(t))
(1)
式中:*為卷積運算符。雷達信號分量ys(t)、干擾和噪聲分量yj(t)分別為
ys(t)=r(t)*(s(t)*h(t))
(2)
yj(t)=r(t)*(n(t)+j(t))
(3)
在t0時刻信號和干擾噪聲比(SINR)的頻域表達式為

(4)
式中:S(f)為雷達發射信號s(f)的功率譜密度;E(·)為數學期望。
由文獻[28]可知,假設目標脈沖響應為時間有限隨機模型時,可用能量譜方差替代功率譜密度,即
(5)
式中:μh(f)為H(f)的均值。
設μh(f)=0,將式(5)代入式(4)中,利用施瓦茨不等式求解,可得

(6)

(7)
式中:Δf為頻率采樣間隔;K為頻率采樣數;W=KΔf;fk為頻率采樣點。
本文雷達檢測問題與文獻[15]相同,可定義為假設檢驗問題,通過經典Neyman-Pearson定理[29]求解,得雷達對目標檢測概率PD為
(8)

馬爾可夫決策過程具備馬爾可夫性,即未來狀態與過去狀態無關,僅依賴當前狀態和動作,公式表示為
P(st+1|st,at,st-1,at-1,…)=P(st+1|st,at)
(9)
式中:P(st+1|st,at)表示在狀態st下采取動作at轉移到狀態st+1的概率。
因此,可將雷達和干擾間的動態對抗過程描述為馬爾可夫決策過程模型。馬爾可夫決策過程可定義為包含狀態、行為、轉移概率、獎勵和折扣因子的五元組{S,A,P,R,γ}。狀態集S定義為{干擾信號j(t)、噪聲n(t)和目標沖激響應}組成的集合,其中狀態s∈S是環境信息的唯一表征。將所有可能應對干擾信號的雷達發射信號s(t)組成動作集A。狀態轉移概率函數P(s,a,s′)是雷達針對不同干擾的狀態s轉換到干擾狀態s′所采取的雷達信號a的概率,在沒有先驗知識且狀態轉移概率未知時,設初始狀態轉移概率均相等。獎勵函數R(s,a,s′)是博弈方在狀態s下執行動作a變換為狀態s′的累計獎勵平均值,根據博弈方所執行動作的好壞做出反饋。為了更好地確保狀態序列是有限的,模型中設置折扣因子決定決策依賴于短期收益還是長期收益。折扣因子γ∈[0,1],當γ趨于0時,博弈方傾向于獲得即時獎勵;當γ趨于1時,博弈方更傾向于獲得長期收益。
雷達在博弈過程中的波形變化過程具有馬爾可夫性,利用強化學習方法對系統環境進行馬爾可夫決策過程建模,可實現雷達和目標間的自適應波形博弈。馬爾可夫決策模型設計雷達波形示意如圖3所示,其中波形狀態為S,當前狀態的獎勵為R,i∈{1,2,3,…},箭頭上數字為狀態轉移概率。

圖3 馬爾可夫決策過程示意圖Fig.3 Schematic diagram of Markovdecision process

公式描述如下:
狀態空間S定義為
S={s1,s2,…,sNM}
(10)
式中:下標NM表示狀態集S的元素個數。令αi∈{0,1,…,N}表示第i個子頻帶上的功率分配情況,i∈{1,2,…,M},則單個狀態表示為
si=(α1,α2,…,αM)
(11)
動作空間A定義為
A={a1,a2,…,aN′M′}
(12)
式中:下標N′M′表示動作集A的元素個數。令βi∈{0,1,…,N′}表示第i個子頻帶上的功率分配情況,i∈{1,2,…,M′},則單個動作表示為
ai=(β1,β2,…,βM′)
(13)
強化學習模型的關鍵參數設置如表1所示。

表1 強化學習模型參數設置
獎勵結構是影響智能體選擇策略的重要因素,獎勵結構的設置不同,智能體的決策傾向性就不同。雷達接收機的SINR與雷達探測性能密切相關,因此本文將SINR設置為獎勵函數,如表2所示。

表2 獎勵函數結構
本文算法目標是利用馬爾可夫決策過程對博弈環境建模,采用策略迭代法尋找雷達抗干擾的最優策略。策略π可理解為在某一狀態s下選擇某一動作a的概率,即
π(a|s)=P[At=a|St=s]
(14)
如果策略π確定,即可確定雷達在每種干擾狀態下選擇每個動作的概率。為評價策略π的回報值,定義累計回報G,表征從某一狀態出發可能產生的若干條馬爾可夫鏈的累計回報,表示為
(15)
對每一策略π中的狀態s而言,可產生無數條馬爾可夫鏈,為了評價某一個狀態的回報價值,定義狀態值函數v(s)為狀態s的累計回報的期望,即

(16)
同理,定義狀態-行為值函數q(s,a):

(17)
迭代策略分策略評估和策略改進兩個步驟。先策略評估,在給定策略π下不斷迭代求解,直至值函數收斂,公式如下:

(18)
再通過在當前策略基礎上貪婪選擇能增加下一狀態值的動作,以此更新策略π,改進后的策略π′為
(19)
更新的狀態值為
(20)
由此即可得出最優策略[30]。
實驗仿真中,參數設置依據國外某型雷達,如表3所示。

表3 仿真參數
雷達和干擾作為博弈方,與環境信息交互,產生最優頻域波形策略,博弈過程如圖4、圖5所示。

圖4 雷達和干擾博弈過程一Fig.4 Game process one of radar and jamming

圖5 雷達和干擾博弈過程二Fig.5 Game process two of radar and jamming
圖4、圖5均為雷達和干擾機在博弈過程中的策略對比。圖4(a)中,雷達初始發射信號為線性調頻(LFM)信號,此時干擾機作為博弈主導方,根據接收的雷達LFM信號,在目標沖激響應較高的3、4、5、7子頻段上實施干擾,尤其在目標沖激響應最高的第5子頻段分配了50%的信號功率,達到了最大化干擾效果。如圖4(b)藍色柱狀圖所示,雷達為實現躲避干擾的同時獲取更多目標信息,選擇在目標沖激響應最強的第5子頻段發射全部功率,實現了對目標的有效探測。圖5(a)中雷達發射隨機信號,干擾機在雷達信號較強且目標沖激響應較高的3、4、5、7子頻段上實施干擾,為了有效壓制雷達信號,將更多的干擾功率分配給雷達信號最強的第4子頻段。如圖5(b)藍色柱狀圖所示,雷達則在干擾信號較弱且目標沖激響應相對較高的1、5、7子頻段分配了90%的信號功率,實現抗干擾的同時最大程度地提升信號的SINR。
由圖、圖5可見,雷達和干擾雙方均可利用此模型實現最優決策。
為將本文方法更好地應用于實際雷達探測系統,提高目標檢測性能,需產生雷達頻域最優波形策略的時域發射信號。目前獲取生成信號時域特性的方法很多,最簡單的方法是直接快速傅里葉逆變換(IFFT)方法,對最優幅度譜進行IFFT變換,然后對變換后的信號進行幅度歸一化處理,但該方法合成的時域信號與最優策略存在較大差別[31]。固定相位技術是合成非線性調頻信號的常規方法,使用牛頓法計算數值解,推導復雜。Jackson等[32]使用迭代變換方法(ITM)生成恒定包絡時域信號,頻譜擬合效果最好。因此本節采用ITM擬合頻域最優策略的時域信號。根據圖4頻域最優雷達和干擾策略合成時域信號,并驗證其頻域特性,結果如圖6、圖7所示。

圖6 雷達策略Fig.6 Radar strategy
圖6(a)、圖7(a)描述了合成時域信號的實部圖、虛部圖、幅度譜和相位譜;圖6(b)、圖7(b)為驗證時域波形的頻域特性結果,紅色虛線為本文方法設計的最優頻域策略,黑色實線則表示通過ITM合成時域信號的頻譜圖。由此可見,合成的時域信號較好地實現了最優策略的頻域特征,且具有恒包絡、抗干擾等低截獲性能。
SINR是衡量雷達目標檢測性能的重要參數。本節將對比最優策略波形與LFM信號、捷變頻信號,分析最優波形策略的目標探測性能。
LFM信號具有大的時間帶寬積,且隨著時間帶寬積的增大,信號的幅頻特性頂部起伏逐漸減小,接近矩形;捷變頻技術是指雷達發射相鄰脈沖或脈沖組的中心頻率在一定范圍內快速變化,有部分頻帶被干擾時,仍能在其他未被干擾的頻帶上進行正常探測。這兩種雷達發射信號均具有一定的抗干擾能力。將雷達信號總功率從1 W逐漸增加至30 W,通過式(7)計算3種波形策略的SINR和雷達檢測概率,結果如圖8所示。

圖8 最優波形策略和傳統雷達信號比較Fig.8 Comparison of optimal waveform strategy and traditional radar signal
雷達信號SINR隨著信號總功率增加而增大。由圖8(a)縱向對比可知,相同信號功率條件下,LFM信號SINR最小,捷變頻信號SINR高于LFM信號,本文方法生成的最優波形策略SINR最高,且與LFM信號、捷變頻信號相比,分別提高了6.39 dB和1.12 dB。圖8(b)為信號目標檢測概率隨信號總功率增加的變化圖。由此可見,捷變頻信號和本文最優信號在功率分別增加至15 W和11 W時,目標檢測概率可達99%以上,而LFM信號在功率增加至30 W時,僅實現70%左右的目標檢測概率。因此,可通過低發射功率實現抗干擾的同時提升雷達信號的抗截獲性能。
在對抗日趨激烈的電磁環境中,為提升雷達的探測、跟蹤和識別性能,本文提出了一種博弈條件下基于強化學習的對空雷達抗干擾波形設計方法。基于馬爾可夫決策過程對雷達與目標干擾間的博弈過程建模,通過策略迭代求解最優頻域能量分配策略,并生成恒包絡時域信號,實現博弈條件下的認知雷達波形設計。仿真結果表明,本文方法產生的最優雷達信號與LFM信號、捷變頻信號相比,雷達接收機SINR分別提高了6.39 dB和1.12 dB,顯著提高了目標檢測性能,并可通過發射更低功率實現抗干擾的同時提升雷達信號的抗截獲性能。