許佰濤 劉冬利 侯建強 李祎帆
(1.海軍大連艦艇學院學員五大隊 大連 116018)(2.海軍大連艦艇學院信息系統系 大連 116018)
雷達作為偵察,打擊的重要裝備,在戰場上起著“先發現,先打擊,掌握戰場的主動權”的決定性作用。隨著軍事科技的快速發展,海戰場環境日益復雜,干擾技術也不再局限于單一干擾模式,雷達智能抗干擾已成為必然趨勢[1]。傳統雷達對抗(Traditional Radar Countermeasure,TRC)主要依靠雷達操作員與指揮員對干擾進行識別,根據經驗實施抗干擾決策,其抗干擾效果取決于操作員經驗知識,已經無法適應信息化戰場所面臨的對抗強度。在此背景下,認知電子戰技術出現并取得快速發展[2~4],本文提出將強化學習與抗復合干擾結合起來,對抗復合干擾模型中的值函數進行了計算并迭代,使得抗復合干擾策略具備了自主更新與優化功能,使智能雷達對抗(Intelligent Radar Countermeasure,IRC)有了較大的提升。TRC與IRCD的區別如表 1[5]所示。

表1 IRC與TRC的區別
自從20世紀80年代,基于試錯方法、動態規劃和瞬時誤差方法形成了強化學習理論,被廣泛地應用在策略尋優的問題之中。它能夠與環境進行交互式學習,并通過不斷試錯的方式獲取反饋以實現動作策略的更新。目前基于強化學習的抗復合干擾的文獻較少,文獻[6]介紹了人工智能在雷達應用中的發展前景;文獻[7]引入認知技術,提出了基于Q學習算法的認知雷達對抗過程設計,使得干擾更具有主動性、針對性與自適應性;文獻[8]提出了基于Q學習的智能雷達對抗方法,分析了Q矩陣收斂時間、收斂值與循環次數的關系,但是未將干擾與抗干擾先驗知識引入;文獻[9]利用Q學習與Sarsa兩種典型的強化學習算法,對反干擾模型中的值函數進行了計算并迭代,文獻[10]提出了基于先驗知識的多功能雷達智能干擾決策算法,極大的提升了算法的收斂速率,但是未對復合干擾出具體分析。基于上述文獻,針對復合干擾,進行了智能雷達對抗強化學習設計,并對先驗知識進行融合,對抗復合干擾具有一定的理論意義。
強化學習[11]是機器學習的一部分,它能夠與環境進行交互式學習,根據反饋信息實現從環境狀態到動作狀態的學習,使得行為策略能夠從環境中得到最大的累積獎賞值,最終收斂到最優策略,實現馬爾科夫決策過程的優化,解決了優化控制問題[12]。
強化學習模型主要包括主體(Agent)、環境(Environment)、行動(Action)、狀態(State)以及獎勵(Reward)。其主要的交互過程分為四步:1)智能體對環境進行感知;2)智能體根據學習策略采取行動;3)當采取行動之后,環境的狀態改變,并獲得相應的反饋獎勵;4)重復1)~3)并不斷更新回報值,并將其作為內部更新策略的依據,圖1為強化學習的MDP模型。

圖1 強化學習的MDP模型
當在t時刻,智能體感知到的外界環境為st,按照策略π選擇下一時刻的動作,不斷從環境中獲得累計回報,一般記為V(st),其表達式為

式(1)為無限水平折扣模型,h為經過動作選擇次數,γt為折扣因子,當γt=0時,代表只看重下一時刻回報,當0<γt<1時,隨著γt的增大,表示越來越注重長期回報,當γt=1時,表示對未來回報都是同等重要的。

圖2 折扣因子與干擾次數關系
根據式(1)分析,當π 滿足式(2)時,此時策略為最優策略,得到也為最優狀態函數。

常見的干擾技術[13]按照干擾樣式可以分為壓制性干擾和欺騙性干擾。常見的壓制性干擾主要有寬帶干擾、瞄準干擾和掃頻干擾等,壓制性干擾主要是使雷達難以發現敵方目標,欺騙性干擾則是使雷達難以區分出真實目標,主要有密集假目標干擾、距離波門拖引干擾、速度波門拖引干擾和距離-速度波門拖引干擾等。將壓制性干擾和欺騙性干擾復合,可以產生“1+1>2”的效果,將真目標與產生的假目標隱藏在噪聲中,增加抗干擾的難度。
雷達抗復合干擾過程可以與以上的行為相對應:1)Agent代表雷達,可以根據外界的復合干擾,并采取相應抗干擾措施;2)Environment代表雷達所處的環境;3)Action代表雷達采取的抗干擾措施的集合;4)State代表環境中的存在的復合干擾,本文主要指2種壓制性干擾和3種欺騙干擾的組合;5)Reward代表環境改變所獲得獎勵值。根據文獻[9]得到歸一化抗干擾矩陣,如圖表2所示。

表2 歸一化抗干擾矩陣
采用壓制性干擾sy與欺騙性干擾sq的復合干擾,采取對應的抗干擾措施aY,aQ之后,抗干擾效益為V(sy,sq)(aY,aQ),其表達式為

式(3)中:V(s)(a)為采取抗干擾措施a對干擾s的效益,表3為抗復合干擾效益矩陣。s1、s2、s3、s4、s5依次代表窄帶干擾、寬帶干擾、假目標干擾、距離波門拖引干擾、速度波門拖引干擾,a1、a2、a3、a4依次代表頻率捷變技術、寬限窄技術、脈沖周期抖動技術、距離速度聯合跟蹤技術。當采取對應的抗干擾措施之后,干擾方選取抗干擾措施影響最小的干擾方式。假設不同干擾之間都可以相互轉化,當采取aY,aQ抗干擾措施之后,根據不同抗干擾措施的效益,實施干擾的概率P也不盡相同,其概率定義為

表3 復合干擾轉化概率

式(4)中P(sy,sq|aY,aQ)為抗復合干擾aY,aQ,采取sy,sq的概率。之后將其轉化為不同復合干擾之間的轉移概率P(sy,sq|sY,sQ)。
s∈S表示電磁環境中存在的干擾樣式,a∈A表示雷達采取的抗干擾措施,當雷達感知并識別外界的復合干擾st,隨后采取相應的抗干擾措施at,外界隨即轉移到新的干擾措施st+1。

圖3 抗復合干擾的強化學習模型

假設干擾方具有寬帶干擾、瞄準干擾兩種壓制性干擾方式以及假目標干擾、距離波門拖引干擾、速度波門拖引干擾三種欺騙性干擾方式,經過加性復合,共形成6種復合干擾方式分別為s1+s3,s1+s4,s1+s5,s2+s3,s2+s4,s2+s5,抗干擾方式包括頻率捷變技術、寬限窄技術、脈沖周期抖動技術、距離速度聯合跟蹤技術,共形成四種抗復合干擾的方式,分別記為a1+a3,a1+a4,a2+a3,a2+a4,若復合干擾方式的威脅等級依次 4,3,3,2,1,1,復合干擾s1+s3為抗干擾方所期望狀態。
折扣常數初始化為0.5,Q矩陣初始化為一階0矩陣,根據先驗知識確定w,R,P矩陣,對雷達進行獨立觀察,進行Q矩陣的更新迭代,得到最終動作價值矩陣Q'。圖4為干擾轉化矩陣,表4為基于先驗知識的Q-learning學習,傳統的Q-learning學習隨著循環次數的增加,可能的結果都會發生收斂,與現實情況發生偏離,基于先驗知識的Q-learning學習的最終動作價值矩陣與轉移矩陣和轉移概率矩陣都有所關系,與現實情況較符。經過分析當初始干擾為s1+s4時,抗干擾方式采取a1+a3,經過傳統學習的Q-learning采取s2+s4或s2+s5干擾方式,經過先驗知識的Q-learning采取s2+s3干擾方式,根據表3驗證,當收到a1+a4抗干擾措施,干擾方會選取s2+s3,即按照s1+s4→s2+s3→s1+s3的復合干擾路徑,抗干擾方采取a1+a3→a1+a4抗干擾方式,此時會達到威脅最小的干擾方式。

圖4 復合干擾轉化圖

表4 基于先驗知識的動作回報矩陣
如圖5所示,隨著動作回報矩陣的不斷更新,干擾策略會趨近最優,最優次數為兩步,且訓練的次數不超過100次,在訓練開始階段,Q值為一階0矩陣,干擾策略的選擇更依賴于隨機選取,因此干擾次數有較大的波動,但隨著強化學習的不斷更新迭代,Q值并不斷收斂,因此會趨近于最優干擾策略。

圖5 強化學習的迭代次數
本文將強化學習用于抗復合干擾決策之中,實現智能雷達對抗。先將單一干擾效益矩陣轉化為復合干擾矩陣,得到復合干擾轉移概率,將其作為先驗條件進行強化學習訓練,得到動作回報矩陣,可以較好的預測了干擾的轉移變化。但是有以下幾個方面未考慮:1)不同干擾與抗干擾方式的兼容問題;2)抗干擾效益矩陣未進行詳細的評估;3)模型較為簡單。這都是未來需要研究的方向。