一種基于雙DQN的空戰干擾樣式選擇方法

2021-11-30 04:30:40陳澤盛楊承志曹鵬宇邴雨晨

電訊技術 2021年11期

陳澤盛，楊承志，曹鵬宇，邴雨晨，納賢

(1.空軍航空大學，長春 130022;2.中國人民解放軍95510部隊，貴陽 550031)

0 引言

隨著機載火控雷達(Airborne Fire Control Radar，AFCR)技術體制的不斷發展，其工作狀態更加復雜，波形單元更靈活多變，抗干擾能力更強[1]，傳統的基于人工加載的干擾樣式選擇方法[2]將失去用武之地。在加載干擾樣式正確的情況下干擾機可以產生干擾效果，一旦敵方采取抗干擾措施，我方缺乏先驗知識將無法選擇合適的干擾樣式，作戰效能會大打折扣。強化學習由于無需先驗知識，且其與環境交互的過程與雷達對抗相似，因此更適用于雷達干擾樣式選擇。

Q-學習是強化學習中的一種高效的免模型算法。文獻[3]設計了基于Q-學習的認知雷達對抗過程，使雷達干擾系統通過自主學習實現高效干擾，但環境雷達的工作狀態較少。文獻[4]提出了智能雷達對抗(Intelligent Radar Countermeasure，IRC)方法，在工作模式數目未知的情況下通過Q-學習選擇最優的干擾路徑。文獻[5]研究了對多功能雷達(Multifunctional Radar，MFR)的Q-學習認知干擾決策方法，對仿真中各參數對實驗的影響進行分析，對比了該方法與其他傳統方法的優勢。但基于Q-學習的認知干擾決策方法在雷達任務較多的實戰條件下決策效率會明顯下降，因此文獻[6]使用深度Q神經網絡(Deep Q Network，DQN)來應對MFR任務較多的問題，但DQN算法存在計算Q值中“過估計”的問題[7]。為此，本文采用Double DQN算法，通過不同的網絡執行動作的評估與選擇，對這兩個部分進行解耦來解決這一問題，對空戰中的干擾樣式選擇進行研究。仿真結果顯示了本文算法的有效性。

1 干擾矩陣

現代空戰已經進入了超視距時代，AFCR已經成為空戰中主要的作戰對象，發揮著不可替代的作用。AFCR要在不同的作戰環境中遂行多樣化的作戰任務，因此在雷達系統設計上會設定多種工作模式，不同的工作模式對應著不同的威脅等級?？諔鹬惺褂幂^多的是空-空模式下的雷達工作模式，因此本文以AFCR的空-空雷達工作模式為主開展干擾研究。

在典型的空戰場景中，我方針對敵方的干擾實施流程如下：首先，我方通過偵察對敵AFCR的工作模式進行識別[8]，之后通過干擾樣式選擇算法從干擾樣式集中選擇最優干擾樣式對其進行干擾，使其工作模式不斷轉換，直至轉換為對應的威脅等級最低的狀態，達到預期干擾效果。

根據雷達的工作模式及其轉換關系和干擾樣式集可以構建出干擾矩陣，將干擾矩陣作為算法輸入進行干擾樣式選擇。

1.1 典型空-空雷達工作模式

空-空模式下AFCR的工作模式[9]主要包括搜索、跟蹤、格斗和識別等，每一類模式下又有多種子模式。

1.1.1 搜索模式

速度搜索(Velocity Search，VS)模式主要用于遠距高速接近目標的早期預警，威脅等級低。

邊搜索邊測距(Range While Search，RWS)模式可以在探測目標的同時進行測距，從而快速獲取潛在目標的位置信息。

邊掃描邊跟蹤(Track While Scan，TWS)模式[10]主要用于對多個來襲目標的探測和跟蹤。在檢測到目標后火控計算機會建立跟蹤文件，再通過關聯算法來對目標未來的參數進行估計。

1.1.2 跟蹤模式

態勢感知(Situation Awareness Mode，SAM)模式是RWS模式下的一個子模式，可以在單目標跟蹤(Single Target Tracking，STT)的方式下同時保持對多個目標的探測，威脅等級較高。

高優先級目標(High Priority Target，HPT)模式是TWS模式的一個子模式，在TWS模式探測到的目標中指定一個為HPT，威脅等級較高。

單目標跟蹤模式是AFCR具有最高威脅等級的模式。在選定HPT、SAM模式以及空戰格斗模式下的子模式均可進入STT模式。

1.1.3 空戰格斗模式

空戰格斗(Air Combat Mode，ACM)模式主要用于敵我近距離空戰，具有三種子模式。

機炮(Gun Acquire，GACQ)模式下，AFCR的平視顯示器(Heads Up Display，HUD)上會出現一個20°視角的虛線圓圈。垂直(Vertical Acquire，VACQ)模式下，HUD上會出現兩條距離5°視角的垂直虛線。這兩種模式如果探測到一個位于5 n mile內的目標，將自動轉入STT模式。

準星(Boresight，BST)模式下，HUD上的水線位置會出現一個3.4 °視角的虛線圓圈，如果探測到目標并位于10 n mile內，將自動轉入STT模式。

1.1.4 識別模式

非合作目標識別(Non-cooperative Target Recognition，NCTR)模式[11]是載機通過AFCR利用非合作目標自身的反射特性對其進行遠距識別與分類。

1.2 干擾樣式集

雷達干擾樣式多種多樣，每種干擾樣式的原理又不盡相同，且對于不同的雷達工作模式作用效果也有所差別。我方機載干擾設備在作戰前會進行干擾樣式的預加載，用于在作戰中的干擾樣式選擇。本文在干擾樣式集的建立上選擇了部分典型干擾樣式[12]，包括相參和非相參干擾樣式共10種：0是密集假目標；1是窄帶噪聲調相；2是靈巧噪聲；3是相參梳狀譜；4是間歇采樣；5是距離-速度聯合拖引；6是多普勒噪聲；7是掃頻噪聲；8是全脈沖復制；9是移頻干擾。這些干擾樣式產生的干擾效果包括壓制、欺騙和壓制-欺騙聯合效果。

1.3 干擾矩陣構建

干擾矩陣的構建可以分為實時建立和非實時建立。實時建立是在作戰環境下，由機載偵察設備對敵方AFCR的工作狀態進行偵察與識別，根據我方做出干擾樣式選擇之后敵方AFCR的模式變化來獲取雷達的工作模式轉換關系，再結合我方的干擾樣式集建立干擾矩陣。這種方式幾乎沒有任何先驗知識，干擾樣式是否可以起到效果無法得知。非實時建立則是在非作戰環境下，依靠偵察設備在平時的戰略偵察，我方已對敵方AFCR的工作模式有一定了解，通過對偵察數據的情報分析，對其在一些干擾樣式作用下的工作模式轉換關系已有一定的先驗知識，再通過仿真手段對其他干擾樣式進行驗證、更新，得到一個較為完善的干擾矩陣。

本文的干擾矩陣是在第二種方式下建立的，并且結合了部分先驗知識和開源資料。如表1所示，左側一欄為威脅等級從高到低排列的工作模式，右側則是各種干擾樣式作用下的工作模式轉換關系。

表1 干擾矩陣表

2 基于Double DQN的干擾樣式選擇算法

2.1 DQN原理與Double DQN的改進

2.1.1 DQN原理

DQN算法[13]是一種從高維的輸入學習控制策略的深度強化學習算法。和Q-學習算法相比，DQN將Q表的迭代更新過程轉化為一個函數擬合問題，通過用函數來代替Q表產生Q值。

在普通的Q-學習中，Q值更新公式如下：

Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)-Q(s,a))。

(1)

式中：s代表智能體(Agent)當前狀態，a′是Agent在下一個狀態s′下選擇的動作，r表示Agent到達下一個狀態得到的獎勵值，α∈[0,1]是Q值更新中的學習率，γ∈[0,1]是Q值更新中的折扣因子。Q(s,a)為Q現實值，r+γmaxa′Q(s′,a′)為Q估計值，通過對兩者之間的誤差學習來更新Q現實值。

在DQN算法中使用神經網絡來對Q值進行估計，相近的狀態得到相近的輸出動作。通過更新網絡參數θ來使Q函數逼近最優Q值，如式(2)所示：

Q(s,a;θi)≈Q(s,a)。

(2)

式中：θi是第i次迭代時的神經網絡參數。

(3)

損失函數如下：

(4)

MainNet的參數是每次訓練均在更新，每隔一定步數將網絡的參數值賦給TargetNet。在單步更新中TargetNet參數值不變，Q估計值也不變。

2.1.2 Double DQN的改進

DQN中計算Q估計值時的最大化操作會使得估計的值函數比值函數的真實值大，即會產生非均勻的“過估計”，影響最終決策。作為一種離線學習的算法，DQN每次學習時不是使用下一次交互的真實動作，而是使用當前認為價值最大的動作來更新目標值函數，但是對于真實的策略來說在給定的狀態下并不是每次都選擇使得Q值最大的動作，所以目標值直接選擇動作最大的Q值往往會導致目標值要高于真實值。

在Double DQN算法中動作的選擇和動作的評估分別用不同的值函數網絡來實現：首先，動作的評估是根據MainNet得到下一狀態s′下的Q值最大的動作Q(s′,a′;θi)；然后，將這個動作作為計算TargetQ值的動作，用TargetNet完成最優動作的選擇工作。Double DQN中TargetQ的計算式如下：

(5)

將上式帶入損失函數計算公式，得

Loss(θ)=E[(TargetQ-Q(s,a;θi))2]。

(6)

2.2 Double DQN干擾樣式選擇方法概述

本文將Double DQN的原理應用于干擾樣式選擇，其算法模型的流程如圖1所示，其中，s∈S表示敵方AFCR在某時刻的工作狀態，S代表敵方AFCR的工作狀態集；a∈A表示干擾機在某時刻下選擇出的干擾樣式，A代表我方干擾樣式集。當我方偵察設備通過雷達工作狀態識別得到s，將此狀態輸入到Double DQN網絡中，經過神經網絡擬合得到各個干擾樣式對應的Q值，根據ε-greedy策略(該策略可以平衡探索與利用之間的關系來獲得累計最大回報)來選取出一種干擾樣式a，作用于敵方AFCR。根據敵方AFCR的工作狀態轉換，我方進行效果評估得到回報r∈。由于敵方AFCR與我方屬于非合作關系，我方可以根據遭受干擾后的雷達工作狀態的改變來確定干擾的有效性[14]，通過對AFCR的威脅等級判定來給出相應的回報值r。干擾機根據回報值來更新Q值，決定下一工作狀態s′所要采取的干擾樣式，然后將上述的四個變量存入四元組樣本〈s,a,r,s′〉中，多條樣本組成樣本池D。在樣本池D中隨機抽取一定批量(minibatch)的樣本對神經網絡進行訓練，對網絡參數進行更新，然后再進行干擾樣式選擇，循環往復，直至達到終止狀態。

圖1 算法流程圖

算法的偽代碼如下：

1 輸入：狀態空間S，動作空間A，折扣因子γ，學習率α，迭代次數M

FORi=1:M

2 初始化網絡參數

FORs∈S

3 輸入偵察到的敵方AFCR工作狀態s

4 Double DQN計算Q值并依據ε-greedy策略給出干擾樣式a

5 我方通過偵察得到AFCR下一工作狀態，進行干擾評估得到獎勵值r

6 將四元組存入樣本池D，隨機抽取minibatch個樣本對網絡進行訓練，更新網絡參數

7s為終止狀態；

END FOR

8 達到最大迭代次數M

END FOR

由于不同的干擾樣式產生的干擾效果不同，壓制性干擾樣式會使敵方AFCR的工作狀態朝著威脅等級降低的方向轉變；欺騙性干擾樣式會產生欺騙性干擾效果，部分干擾樣式可能會使其工作狀態的威脅等級朝著升高的方向變化。因此,回報值定義如下：

(7)

式中：TL→min表示AFCR的工作狀態威脅等級將至最低；TL↓,ASJ表示采取壓制性干擾樣式，工作狀態向威脅等級降低的方向轉換；TL↑,ADJ表示采取部分欺騙性干擾樣式時工作狀態威脅等級向升高方向轉換；TL?/TL表示工作模式之間沒有轉換；TL↑表示AFCR工作狀態向威脅等級升高的方向轉換。

3 仿真驗證

本文仿真使用Tensorflow框架編寫。計算機配置如下：處理器采用Intel(R)Core(TM) i5-10200H；內存為16 GB。

本文用兩個全連接層來近似Q函數Q(s,a;θi)。網絡的細節如圖2所示，該網絡由兩個全連接層組成。

圖2 值函數擬合神經網絡結構

算法的訓練參數如表2所示。

表2 參數設置

在兩個網絡的參數替換前先觀察300步，然后每隔5步將MainNet的參數賦給TargetNet；初始化的ε-greedy策略中ε的初始概率值為0.1，終止概率值為0.9，即初始時有90%的概率隨機選擇干擾樣式，最終有90%的概率選擇最優干擾樣式，每一次學習都會將ε的值增大0.001，增加到終止值時停止，這樣的設置可以在訓練的過程中使網絡逐漸收斂；每次從樣本池的2 000個樣本中隨機抽取64個樣本用于網絡訓練。

圖3是Double DQN算法訓練得到的損失圖。由于樣本量較少，在迭代中選擇隔5步交換一次網絡參數。在每隔5步交換網絡參數后，網絡訓練損失值逐步下降，但由于初始時刻的ε探索值較低，隨機選擇干擾樣式會導致損失值產生波動，但隨著訓練的進行，ε探索值逐漸變大，神經網絡擬合的Q值越來越準確，損失值在大約750步以后降至0附近，說明網絡訓練完成。整個訓練過程所花費的平均時間為11.7 s，但在實際應用時，網絡訓練完成之后即可進行干擾決策，所以在實際應用中可以適當減少迭代次數，這樣可以提高決策效率，使決策時間控制在秒級，滿足實戰要求。

圖3 網絡訓練損失

將訓練中每次用于干擾樣式選擇的Q值記錄下來，如圖4所示，可以看到兩種算法的Q值變化趨勢一致，在迭代5 500步后收斂至495附近。但是Double DQN算法的Q值消除了一部分過估計，相比DQN算法的Q值較低，計算Q值的平均值可以得到前者比后者低34.01。這也驗證了Double DQN算法在解決Q值偏大和網絡訓練的TargetQ值不準確的問題上具有更良好的表現。

圖4 Q值對比

強化學習算法的最終目標都是使總的目標獎勵最大化，因此，把迭代過程中每次干擾樣式選擇產生的獎勵值相加得到總的獎勵值，對比20次重復實驗中DQN與Double DQN兩種算法得到的總獎勵值，如圖5所示?？梢园l現，在絕大部分情況下Double DQN算法產生的總獎勵值要高于DQN算法，這說明在干擾樣式選擇中選擇最優動作比次優動作會獲得更高的獎勵值，從而驗證了本文方法的有效性。

圖5 兩種算法的總獎勵值對比

在參數選擇上，折扣因子γ是調節長期回報與即時回報的參數，在仿真中我們更注重長期回報，因此將γ設置為0.9；而學習率α一般取值為0.1，但由于本文仿真迭代次數較多，而且α值過大會引起損失函數劇烈波動，所以經過多次試驗將α值設為0.005；樣本池的容量沒有固定的設置，當訓練步數恒定為2 000步時分別設置樣本池容量為1 000和2 000，對比兩種設置上的損失值情況，如圖6所示，可見樣本池容量設為2 000時損失值明顯高于容量為1 000時的。因此，在訓練步數為2 000步時選擇樣本池容量為1 000。

圖6 樣本池容量對比

根據仿真結果可以得到如圖7所示的最優干擾樣式選擇路徑，圖中以數字代表具體的干擾樣式，根據空戰的態勢和AFCR雷達的工作模式分為近距和遠距兩類，分別如圖7(a)和圖7(b)所示。在不同的干擾樣式的作用下，AFCR的威脅等級由高到低逐漸下降；部分干擾樣式在不同的態勢和工作模式下產生的干擾效果也不盡相同。

圖7 最優干擾樣式選擇路徑圖

4 結束語

隨著機載火控雷達技術體制的不斷進步，現代空戰中敵我雙方的電子戰博弈也愈演愈烈。針對空戰場景中機載火控雷達與干擾機之間的對抗，本文提出了一種基于Double DQN干擾樣式選擇方法，在建立干擾矩陣的基礎上通過Double DQN算法選擇最優干擾樣式，仿真實驗分析了參數設置，對比DQN證明了其在解決“過估計”問題上的有效性，給出了不同態勢下的最優干擾樣式選擇路徑。本文方法也可以為機載自衛吊艙的干擾樣式選擇提供參考?？紤]到目前先進戰機均為多用途戰機，還可以執行對地、對海突擊任務，因此下一步研究中還需對AFCR更多作戰模式下的干擾樣式選擇問題進行探索。

電訊技術2021年11期

電訊技術的其它文章: 稿約; 本刊已錄用論文開放科學(資源服務)標識碼(OSID)展示(三十五); 一種空口波形非正交接入系統鄰帶干擾消除方法; 基于干擾重構和分數階濾波的頻譜彌散干擾抑制; 極化碼中關鍵信息比特集合的非均勻奇偶校驗級聯方案; 基于GRU-CNN并聯神經網絡的自動調制識別