基于強化學習的雷達抗復合干擾*

2023-01-08 03:57:54許佰濤劉冬利侯建強李祎帆

艦船電子工程 2022年10期

許佰濤劉冬利侯建強李祎帆

（1.海軍大連艦艇學院學員五大隊大連 116018）（2.海軍大連艦艇學院信息系統系大連 116018）

1 引言

雷達作為偵察，打擊的重要裝備，在戰場上起著“先發現，先打擊，掌握戰場的主動權”的決定性作用。隨著軍事科技的快速發展，海戰場環境日益復雜，干擾技術也不再局限于單一干擾模式，雷達智能抗干擾已成為必然趨勢［1］。傳統雷達對抗（Traditional Radar Countermeasure，TRC）主要依靠雷達操作員與指揮員對干擾進行識別，根據經驗實施抗干擾決策，其抗干擾效果取決于操作員經驗知識，已經無法適應信息化戰場所面臨的對抗強度。在此背景下，認知電子戰技術出現并取得快速發展［2～4］，本文提出將強化學習與抗復合干擾結合起來，對抗復合干擾模型中的值函數進行了計算并迭代，使得抗復合干擾策略具備了自主更新與優化功能，使智能雷達對抗（Intelligent Radar Countermeasure，IRC）有了較大的提升。TRC與IRCD的區別如表 1［5］所示。

表1 IRC與TRC的區別

自從20世紀80年代，基于試錯方法、動態規劃和瞬時誤差方法形成了強化學習理論，被廣泛地應用在策略尋優的問題之中。它能夠與環境進行交互式學習，并通過不斷試錯的方式獲取反饋以實現動作策略的更新。目前基于強化學習的抗復合干擾的文獻較少，文獻［6］介紹了人工智能在雷達應用中的發展前景；文獻［7］引入認知技術，提出了基于Q學習算法的認知雷達對抗過程設計，使得干擾更具有主動性、針對性與自適應性；文獻［8］提出了基于Q學習的智能雷達對抗方法，分析了Q矩陣收斂時間、收斂值與循環次數的關系，但是未將干擾與抗干擾先驗知識引入；文獻［9］利用Q學習與Sarsa兩種典型的強化學習算法，對反干擾模型中的值函數進行了計算并迭代，文獻［10］提出了基于先驗知識的多功能雷達智能干擾決策算法，極大的提升了算法的收斂速率，但是未對復合干擾出具體分析。基于上述文獻，針對復合干擾，進行了智能雷達對抗強化學習設計，并對先驗知識進行融合，對抗復合干擾具有一定的理論意義。

2 強化學習理論概述

強化學習［11］是機器學習的一部分，它能夠與環境進行交互式學習，根據反饋信息實現從環境狀態到動作狀態的學習，使得行為策略能夠從環境中得到最大的累積獎賞值，最終收斂到最優策略，實現馬爾科夫決策過程的優化，解決了優化控制問題［12］。

強化學習模型主要包括主體（Agent）、環境（Environment）、行動（Action）、狀態（State）以及獎勵（Reward）。其主要的交互過程分為四步：1）智能體對環境進行感知；2）智能體根據學習策略采取行動；3）當采取行動之后，環境的狀態改變，并獲得相應的反饋獎勵；4）重復1）～3）并不斷更新回報值，并將其作為內部更新策略的依據，圖1為強化學習的MDP模型。

圖1 強化學習的MDP模型

當在t時刻，智能體感知到的外界環境為st，按照策略π選擇下一時刻的動作，不斷從環境中獲得累計回報，一般記為V(st)，其表達式為

式（1）為無限水平折扣模型，h為經過動作選擇次數，γt為折扣因子，當γt=0時，代表只看重下一時刻回報，當0＜γt＜1時，隨著γt的增大，表示越來越注重長期回報，當γt=1時，表示對未來回報都是同等重要的。

圖2 折扣因子與干擾次數關系

根據式（1）分析，當π 滿足式（2）時，此時策略為最優策略，得到也為最優狀態函數。

3 雷達抗復合干擾分析

常見的干擾技術［13］按照干擾樣式可以分為壓制性干擾和欺騙性干擾。常見的壓制性干擾主要有寬帶干擾、瞄準干擾和掃頻干擾等，壓制性干擾主要是使雷達難以發現敵方目標，欺騙性干擾則是使雷達難以區分出真實目標，主要有密集假目標干擾、距離波門拖引干擾、速度波門拖引干擾和距離-速度波門拖引干擾等。將壓制性干擾和欺騙性干擾復合，可以產生“1+1＞2”的效果，將真目標與產生的假目標隱藏在噪聲中，增加抗干擾的難度。

雷達抗復合干擾過程可以與以上的行為相對應：1）Agent代表雷達，可以根據外界的復合干擾，并采取相應抗干擾措施；2）Environment代表雷達所處的環境；3）Action代表雷達采取的抗干擾措施的集合；4）State代表環境中的存在的復合干擾，本文主要指2種壓制性干擾和3種欺騙干擾的組合；5）Reward代表環境改變所獲得獎勵值。根據文獻［9］得到歸一化抗干擾矩陣，如圖表2所示。

表2 歸一化抗干擾矩陣

采用壓制性干擾sy與欺騙性干擾sq的復合干擾，采取對應的抗干擾措施aY,aQ之后，抗干擾效益為V(sy,sq)(aY,aQ)，其表達式為

式（3）中：V(s)(a)為采取抗干擾措施a對干擾s的效益，表3為抗復合干擾效益矩陣。s1、s2、s3、s4、s5依次代表窄帶干擾、寬帶干擾、假目標干擾、距離波門拖引干擾、速度波門拖引干擾，a1、a2、a3、a4依次代表頻率捷變技術、寬限窄技術、脈沖周期抖動技術、距離速度聯合跟蹤技術。當采取對應的抗干擾措施之后，干擾方選取抗干擾措施影響最小的干擾方式。假設不同干擾之間都可以相互轉化，當采取aY,aQ抗干擾措施之后，根據不同抗干擾措施的效益，實施干擾的概率P也不盡相同，其概率定義為

表3 復合干擾轉化概率

式（4）中P(sy,sq|aY,aQ)為抗復合干擾aY,aQ，采取sy,sq的概率。之后將其轉化為不同復合干擾之間的轉移概率P(sy,sq|sY,sQ)。

4 基于Q學習的智能雷達抗復合干擾

s∈S表示電磁環境中存在的干擾樣式，a∈A表示雷達采取的抗干擾措施，當雷達感知并識別外界的復合干擾st，隨后采取相應的抗干擾措施at，外界隨即轉移到新的干擾措施st+1。

圖3 抗復合干擾的強化學習模型

5 實驗仿真和結果分析

假設干擾方具有寬帶干擾、瞄準干擾兩種壓制性干擾方式以及假目標干擾、距離波門拖引干擾、速度波門拖引干擾三種欺騙性干擾方式，經過加性復合，共形成6種復合干擾方式分別為s1+s3，s1+s4，s1+s5，s2+s3，s2+s4，s2+s5，抗干擾方式包括頻率捷變技術、寬限窄技術、脈沖周期抖動技術、距離速度聯合跟蹤技術，共形成四種抗復合干擾的方式，分別記為a1+a3，a1+a4，a2+a3，a2+a4，若復合干擾方式的威脅等級依次 4，3，3，2，1，1，復合干擾s1+s3為抗干擾方所期望狀態。

折扣常數初始化為0.5，Q矩陣初始化為一階0矩陣，根據先驗知識確定w，R，P矩陣，對雷達進行獨立觀察，進行Q矩陣的更新迭代，得到最終動作價值矩陣Q'。圖4為干擾轉化矩陣，表4為基于先驗知識的Q-learning學習，傳統的Q-learning學習隨著循環次數的增加，可能的結果都會發生收斂，與現實情況發生偏離，基于先驗知識的Q-learning學習的最終動作價值矩陣與轉移矩陣和轉移概率矩陣都有所關系，與現實情況較符。經過分析當初始干擾為s1+s4時，抗干擾方式采取a1+a3，經過傳統學習的Q-learning采取s2+s4或s2+s5干擾方式，經過先驗知識的Q-learning采取s2+s3干擾方式，根據表3驗證，當收到a1+a4抗干擾措施，干擾方會選取s2+s3，即按照s1+s4→s2+s3→s1+s3的復合干擾路徑，抗干擾方采取a1+a3→a1+a4抗干擾方式，此時會達到威脅最小的干擾方式。

圖4 復合干擾轉化圖

表4 基于先驗知識的動作回報矩陣

如圖5所示，隨著動作回報矩陣的不斷更新，干擾策略會趨近最優，最優次數為兩步，且訓練的次數不超過100次，在訓練開始階段，Q值為一階0矩陣，干擾策略的選擇更依賴于隨機選取，因此干擾次數有較大的波動，但隨著強化學習的不斷更新迭代，Q值并不斷收斂，因此會趨近于最優干擾策略。

圖5 強化學習的迭代次數

6 結語

本文將強化學習用于抗復合干擾決策之中，實現智能雷達對抗。先將單一干擾效益矩陣轉化為復合干擾矩陣，得到復合干擾轉移概率，將其作為先驗條件進行強化學習訓練，得到動作回報矩陣，可以較好的預測了干擾的轉移變化。但是有以下幾個方面未考慮：1）不同干擾與抗干擾方式的兼容問題；2）抗干擾效益矩陣未進行詳細的評估；3）模型較為簡單。這都是未來需要研究的方向。