馮路為, 劉松濤, 徐華志
(海軍大連艦艇學院信息系統系, 遼寧 大連 116018)
在未來戰場環境中,信息優勢逐漸成為交戰雙方爭奪的首要目標,而電子對抗是獲取信息優勢的重要手段之一[1]。隨著各個國家對雷達的重視程度不斷加強,雷達發展趨于智能化,對比普通雷達,智能雷達發射的多為變化復雜的脈沖信號,同時開始利用相控陣電掃方式取代傳統雷達的機械式掃描方式[2],各種新概念新體制的智能雷達現已廣泛應用于民用和軍事領域,在遠程預警、反導和區域防空等領域發揮了很大作用。因此,針對非合作方智能雷達,干擾方正面臨著極其復雜的電子對抗環境,傳統的對抗手段在面對智能雷達時已無法進行快速有效的干擾,干擾效果不斷降低[3]。
在此背景下,如何有效地對智能雷達實施干擾是干擾決策技術的新興問題和研究熱點。目前,學者們已提出一系列基于強化學習的干擾決策方法,比如:李云杰等[4]通過將認知技術引入雷達干擾決策問題中,利用Q-學習算法設計了雷達認知干擾決策的過程;邢強等[5]通過分析雷達工作模式的識別過程,提高了結合Q-學習算法進行雷達對抗方法的功能性與實時性;張柏開等[6]提出了一種基于深度Q神經網絡(deep Q network,DQN)雷達干擾決策方法,對Q-學習算法進行了改進,定量分析先驗知識對干擾決策的影響,較好地完成了對多功能雷達的干擾決策任務。此外,周脈成[7]提出了基于博弈論的雷達干擾決策方法,有效解決了電子對抗過程中如何選擇雷達有源干擾樣式的問題。孫宏偉等[8]將D-S(Dempster-Shafer)證據理論結合到傳統電子干擾模式選擇過程中,以解決電子對抗裝備選擇干擾模式的問題。張思齊[9]將部分可觀測馬爾可夫決策過程(partially observable Markov decision process, POMDP)引入雷達干擾決策問題中,提出了一種對工作模式數已知雷達的干擾決策方法。雖然上述方法能夠為智能雷達干擾決策提供借鑒,但由于沒有充分考慮戰場環境的復雜性,難以有效應用到智能雷達的對抗過程。
為了解決上述問題,本文基于POMDP模型將動態規劃和強化學習的特點結合[10],設計干擾決策方法,實現在信息部分已知情況下的最優決策。具體思路為干擾方偵察設備通過接收的雷達信號特征生成脈內參數和脈間參數,根據參數特征判斷雷達工作狀態;當干擾實施后,依據雷達工作狀態的改變形成新的環境空間,將參數的信息熵作為評估干擾效果的依據,采用貝葉斯濾波更新干擾方對環境的信念,開始新的干擾決策過程,完成實時在線動態干擾,極大提高了對工作狀態未知的智能雷達干擾的效率和準確率。
POMDP模型是一種在信息部分可知條件下決策的理想模型,通過不斷優化構建的模型逐步生成最優策略。在實際干擾決策過程中,由于對抗雙方自身的非合作性,干擾方僅能通過以往的對抗經驗獲取敵方雷達的部分參數信息,基于智能雷達狀態的多變性以及參數的部分可知性,本文提出了基于POMDP模型的干擾決策方法用于非合作方的電子對抗過程[11]。
通過分析智能雷達對抗的特點,文中POMDP模型包括以下7個元素。
(1) 狀態空間S:在干擾決策過程中為智能雷達的狀態集用來表示雷達工作時的各個狀態。例如,以目前比較先進的相控陣雷達為例,具有多目標搜索、跟蹤、引導和測量參數等諸多功能。
(2) 觀測空間C:智能雷達干擾決策問題中,觀測空間主要是指干擾方通過信號偵收設備獲取的雷達參數信息集合。
(3) 行動空間A:表示干擾方在電子對抗過程中可以采取的干擾行動,記為干擾策略集。
(4) 轉移概率函數T(s′|s,a):表示智能體在雷達工作狀態為s時通過實施干擾行動a后使目標雷達工作狀態變為s′的概率。
(5) 觀測概率P(c|z):z為環境狀態真值,測量概率表示智能體在某個狀態,此時實際雷達狀態為z時,偵收設備測量為c的概率,反映在實際對抗過程中為干擾方獲取敵方雷達參數信息時的不確定度。
(6) 回報函數R(s,a):表示在采取某一種行動a后的立即回報值。在干擾決策過程中,用實施不同干擾方式后雷達威脅等級變化情況來定義R值,具體如下:
(1)
(7)γ為折扣因子:代表對未來回報的重視程度,其取值將完全累加到回報函數中,γ值越大認為當前收益與未來收益相比越不重要。
依據這些參數建立基于POMDP的干擾決策模型,將POMDP模型用一個包含所需信息的七元組M=表示。
通過設計一種循環的方法,實現干擾決策的目的,具體對抗過程如下。
(1) 首先讓智能體隨機選擇幾種不同的干擾方式并通過雷達狀態的改變信息得到一個初始的數據集,建立POMDP模型。
(2) 有了基本的初始數據集以后,對于模式已知的雷達工作狀態,運用POMDP模型的貪婪策略做出行為決策,讓智能體選擇算法中的回報函數R值最大的一種模式進行干擾,通過傳感器的反饋數據得到結果,利用信息熵進行干擾評估和效果分析。
(3) 當面對雷達工作狀態未知的情況時,可根據當前已有信息來預測未知雷達狀態的信息。根據未知狀態的雷達參數,結合已有的預測樣本集,選擇信息熵最大的干擾模式對雷達進行干擾,將得到的數據運用貝葉斯濾波來更新對環境的信念,從而完成了未知雷達狀態的歸類、特點分析以及最優方式的選擇,最大化這一步觀察的信息量,周而復始直至目標雷達轉換到威脅等級較低的模式,則認為完成了一次最優干擾策略的選擇,圖1為POMDP模型實現對抗功能的流程圖。

圖1 干擾對抗流程圖Fig.1 Flow chart of jamming countermeasure
雷達狀態識別技術在智能雷達對抗過程中起著非常重要的作用。通過準確快速識別智能雷達所處狀態,能夠結合對應的干擾策略集A為每種態勢分配所對應的回報函數,使整個POMDP算法具有邊學習邊對抗的能力。在雷達狀態識別方面,目前識別的主要方式是基于脈沖描述字(pulse description word,PDW)和輻射源描述字(emitter description word, EDW)分析實現。PDW={tTOA,θAOA,fRF,τPW,AP,F}用來表示雷達信號的脈內參數變化情況,其中tTOA為脈沖到達時間,θAOA為脈沖到達方位角,fRF為載波頻率,τPW為脈沖寬度,AP為脈沖幅度,F為脈內調制參數;EDW由脈沖重復間隔(pulse repetition interval, PRI)、天線掃描參數與脈內參數組成,用來表示雷達信號的脈間參數變化情況并作為對輻射源的全方位描述。
將雷達信號的脈內參數和脈間參數變化情況映射為智能雷達對抗中的雷達狀態量ST,如圖2所示,通過分析雷達狀態的威脅等級變化情況對當前所采用的干擾行動進行加強或者替換,使干擾決策過程具備邊學習邊對抗的認知功能。

圖2 雷達狀態識別Fig.2 Radar state recognition
信念分布是基于智能雷達工作模式數未知的特點引入的特殊表達方式,用來表征智能體對未知環境的認知程度,本文采用非參數的、基于樣本的方法來表示系統中信念的概率分布[12]。將對抗方式明確的雷達狀態定義為已知狀態,智能體對所有已知狀態的信念表示為nZ個樣本值和對應的權重,即:
Z={(zj,wj),j=1,2,…,nz}
(2)
式中:nz為樣本值的個數;zj為樣本值;wj為樣本值所對應的權重,wj∈(0,1)。樣本值及對應的權重通過非參數的形式表征了智能體對環境信念的認知,該方法可以用來描述更全面的分布空間,并能夠對系統中未知變量的非線性變換過程進行建模分析[13]。
設計貝葉斯濾波來實現對環境信念的預測和更新[14],具體包括兩步。
(2) 根據生成的未知雷達狀態預測樣本集,利用POMDP模型給予干擾機干擾手段。干擾機采用系統給出的最佳干擾樣式實施干擾,干擾完成后對當前雷達狀態參數進行多次偵收分析得到測量均值Cm,一般測量概率服從標準差為σ的高斯分布,因此可將參數測量的后驗概率分布定義[15]為
(3)
式中:η為規范化因子;P(z)是預測樣本集中的先驗概率;P(c|z)為干擾設備進行多次偵收分析雷達參數得到的測量概率。這一步通過計算參數測量的后驗概率完成了貝葉斯濾波的更新過程,將jam定義為可供智能體選擇的干擾樣式樣本集:
jam={Zk,k=1,2,…,njam}
(4)
式中:Zk為加權環境樣本集;njam為智能體已知干擾樣式個數。
POMDP模型的解被稱為策略,建立策略的回報函數R(s,a),表示在狀態為s時,采取行動a后所得到的立即回報。引入值函數VT(s)來表示策略所獲得的長期回報的大小[16]為
(5)
式中:γ∈[0,1]。通過值函數可以得到策略的遞歸函數為
(6)
此時,最優策略可以計算為
(7)
本文的目標是讓智能體自主地學習環境,對于未知的雷達狀態,自主選擇對抗方式。對于最優策略的效果,選取信息熵作為評估依據,其定義如下:
H(z)=E[log2I(z)]
(8)
式中:I(z)為目標雷達處于某種狀態時包含的信息量。
為了驗證本文基于POMDP模型的干擾決策方法對抗智能雷達的優越性,在Matlab環境下對提出方法進行仿真實驗,實驗平臺參數為Intel(R) Core(TM) i7-10750H CPU@2.60 GHz處理器,16G內存,未使用顯卡加速。采用干擾機對環境的尋優時長和決策準確率作為定量評價指標,將其與傳統Q-學習法[17]以及經驗決策法對比分析。
一般認為智能雷達具有多種不同的工作狀態,只有采取合適的干擾方式才能夠逐步降低目標雷達工作狀態的威脅等級。例如,當某型智能雷達在某一時刻處于制導狀態時,實施干擾后雷達可能丟失部分參數信息導致自身無法持續鎖定目標,從而使雷達只能轉移到威脅等級較低的成像狀態;繼續施加干擾,雷達的成像精度和準確度下降,雷達轉為測距狀態;再進行干擾,雷達檢測不到目標轉化為粗搜索狀態,可以認為該干擾過程效果較為顯著。雷達在受到干擾時一般不會由已知的最高威脅等級狀態直接轉變為最低威脅等級狀態。


表1 雷達工作狀態庫Table 1 Radar working state database


圖3 目標狀態概率分布Fig.3 Target state probability distribution

圖4 狀態初始輸入Fig.4 Status initial input

圖5 貝葉斯濾波更新環境信念Fig.5 Bayesian filtering updates environmental beliefs

圖6 二次更新環境信念Fig.6 Second renewal of environmental beliefs

圖7 輸出決策結果Fig.7 Output decision results
通過對POMDP模型的仿真實驗,智能體完成了一個干擾決策過程。可以看出,當基于POMDP模型的干擾決策方法在面對未知智能雷達狀態時,計算出當前已知狀態信息熵,通過分析未知雷達狀態的參數特征,利用貝葉斯濾波對其進行分步決策有較高的準確度,并且系統得到最優策略時間僅為3.7 s,如表2所示。同時,用概率分布的形式表征出其他干擾方式可能帶來的效果與影響,即使沒有正確預測出雷達的工作狀態,但通過結合以往干擾決策信息,POMDP方法仍能以一定概率選擇出次優干擾方式。

表2 POMDP模型決策時間Table 2 POMDP model decision time s
經驗決策法是指干擾方利用模板匹配技術,針對參數體制不變的雷達建立豐富的先驗知識庫,通過直接觀測雷達參數并結合庫內先驗知識自動選擇干擾樣式類型。由于雷達方與干擾方固有的非合作屬性,導致干擾方在實際電子對抗過程中一般無法獲得敵方雷達的全部參數信息,雷達工作狀態只能通過主觀分析觀測值估計確定,干擾決策時再依據即時收益R(s,a)的大小選擇相應的干擾樣式。然而,隨著智能雷達的迅速發展,干擾方獲取和利用先驗知識的難度大大增加,干擾方執行某種干擾行動后無法獲取最終的效果反饋,不能根據目標雷達狀態的實時變化情況相應調整己方的干擾策略,導致在干擾決策過程中操作人員主觀性較強,干擾效率始終較低;如果干擾機錯誤地識別了目標雷達當前所處的工作狀態,更會對干擾策略選取結果造成影響。
傳統Q-學習法可以看作是一個增量式動態規劃過程,通過不斷迭代計算狀態與動作對的映射函數,使算法的收益總和最大值趨于收斂,系統輸出最優策略。通過對系統進行恰當的初始化,可以大幅減少雷達干擾決策過程中最優策略的輸出時長,極大地提高了干擾決策的效率。但是該方法在計算過程中,需要不斷迭代更新收斂值,當雷達狀態增加時,決策過程的計算復雜度大幅上升并出現“維數災難”問題[18],導致系統的收斂精度大幅下降,收益總和收斂時產生的系統誤差對最優干擾策略的選取造成很大的影響;并且該方法只有在學習過程完成時才能更新系統的狀態值函數,整體決策周期長、學習效率低。
為了體現基于POMDP模型決策方法的優越性,利用3種方法在同等仿真條件下進行實驗,結果如圖8所示。

圖8 3種方法決策效果對比圖Fig.8 Comparison of decision-making effects of three methods
本文提出了一種基于POMDP的干擾決策方法來引導實現對戰場非合作方智能雷達的有效干擾。首先通過分析智能雷達對抗任務的特點建立POMDP模型;然后以信息熵作為評估標準,干擾機選擇信息熵最大的干擾樣式不斷嘗試,輸出最優干擾策略;最后采用非參數的形式反映智能體對環境的認知,利用貝葉斯濾波完成對干擾庫中未知雷達狀態的信念更新。仿真結果表明,所提方法對部分未知雷達的干擾過程取得了較好的效果,與傳統Q-學習法以及經驗決策法相比,決策準確率和效率優勢明顯。