基于DQN的探測干擾一體化波形優化設計

2023-03-09 02:54:46胡學晶肖易寒

系統工程與電子技術 2023年3期

關鍵詞：信號

陳濤, 張穎,*, 胡學晶, 肖易寒

(1. 哈爾濱工程大學信息與通信工程學院, 黑龍江哈爾濱 150001;2. 哈爾濱工程大學先進船舶通信與信息技術工業和信息化部重點實驗室, 黑龍江哈爾濱 150001)

0 引言

隨著現代軍事電子干擾、電子偵察技術的不斷發展,雷達面臨的電磁環境日益復雜[1],有效攻擊對方電子系統和有效保護己方電子系統以阻止和破壞對方電子設備對電磁的利用都尤為重要,因此作戰平臺需要配備雷達、干擾機等,而功能單一且相互獨立的作戰設備占用大量資源且相互之間有較強電磁干擾,嚴重影響作戰能力。未來系統化戰爭武器裝備趨向于向一機多能的方向發展。近年來,有一些學者研究了雷達干擾一體化共享信號的方法。文獻[2]提出了一種基于雙載頻偽隨機二相編碼信號的干擾探測一體化信號波形。文獻[3]提出了一種偽碼噪聲調頻與線性調頻復合調制的探測干擾共享波形。文獻[4]應用遺傳算法設計了一種基于正交頻分復用的雷達通信一體化共享信號波形優化方法。文獻[5]根據干擾帶寬設計了探測干擾一體化信號波形。文獻[6]研究了具有低截獲概率的雷達干擾波形設計。同時,隨著認知雷達[7]的發展,一些基于智能算法的雷達干擾波形設計也得到了廣泛關注。文獻[8]通過模仿蝙蝠的認知學習過程，將信息反饋給發射機,實現自適應探測和處理。文獻[9]提出了基于Q學習的智能雷達對抗方法。文獻[10]提出了基于強化學習的認知干擾波形設計,有效地對雷達檢測環節進行了干擾。文獻[11]提出了基于深度Q網絡(deep Q-network, DQN)的干擾決策方法。上述論文更多是從雷達角度出發設計具有噪聲壓制特性的探測干擾一體化信號。受此啟發,本文考慮從干擾的角度出發設計一體化信號,使發射的干擾信號還具有探測功能。

首先介紹了一體化信號的工作場景,在此基礎上對一體化信號進行了建模。同時，從模糊函數以及恒虛警概率(constant false alarm rate, CFAR)[20]檢測技術的角度設計了探測干擾一體化性能評價函數。其中，DQN作為一種智能算法，針對數據量大的狀態空間具有良好的決策能力,尤其是在實際環境中,雷達信號形式不固定使得傳統干擾庫方法無法滿足實際需求[12-13]。因此，采用DQN算法進行求解,獲取最優一體化波形,最后通過對比仿真驗證了該方法的有效性。

1 一體化信號模型建立

1.1 場景描述

干擾信號可以分為壓制干擾信號和欺騙干擾信號[14],欺騙干擾信號主要是在對方雷達信號的基礎上設計干擾信號。而本文設計的探測干擾一體化信號是欺騙干擾信號,即將探測信號隱藏在干擾信號中,一體化信號的工作場景如圖1所示。圖1中，假設對方雷達發射雷達信號s(t),己方在檢測到對方雷達信號后，將s(t)信號與調制信號u(t)進行相干調制,得到干擾信號f(t),對方將接收到的干擾信號誤認為自己發射的雷達信號,然后經過一個系統函數為h(t)的匹配濾波器進行濾波處理，得到信號y(t),同時干擾信號f(t)又可作為己方的探測信號，對其他目標進行探測。

圖1 一體化信號工作場景Fig.1 Working scenarios of integrated signal

1.2 均勻間歇采樣轉發干擾信號

為了解決距離與距離分辨率相矛盾的問題,現代雷達普遍采用脈沖壓縮雷達,而線性調頻(linear frequency modulation,LFM)信號[15]是脈沖壓縮雷達常用的一種調制信號,因此假設針對LFM信號設計干擾信號。考慮到偵察干擾機不能同時收發,而數字射頻存儲(digital radio frequency memory,DRFM)[16]是一種應用高速數字采樣與存儲技術來實現對微波信號存儲與轉發功能的技術,因此大多數干擾機采用間歇采樣轉發干擾技術[17-19]。該技術可將接收到的大時寬脈沖壓縮信號分成若干個短脈沖進行發射，其原理如圖2所示。

圖2 間歇采樣重復轉發干擾原理圖Fig.2 Schematic diagram of intermittent sampling and repeated forwarding interference

圖2中,T為截獲到的雷達信號,Ts為間歇采樣周期,τ為采樣時間,η為轉發時間。當η=τ(即轉發時間倍數a=1)時,信號為均勻間歇采樣轉發干擾信號。截獲到的LFM信號s(t)的一般表達式為

(1)

式中:fc為載波頻率;T為信號持續時間;B為帶寬;K=B/T為調頻斜率;gT(t)為矩形信號,表達式為

(2)

信號s(t)匹配濾波器的系統函數為

(3)

LFM信號經過匹配濾波器的輸出為

(4)

式中:*表示卷積；-T≤t≤T。采樣信號u(t)的表達式為

(5)

式中:δ(·)為沖激函數。干擾信號f(t)經過一次延時轉發τ得到：

f1(t)=s(t-τ)u(t-τ)

(6)

經過匹配濾波得到：

y1(t)=f1(t)*h(t)=

(7)

式中:fs為間歇采樣頻率。重復轉發a次后的干擾信號脈壓輸出為

(8)

1.3 非均勻間歇采樣重復轉發干擾信號

對雷達信號進行間歇采樣轉發干擾在時域上也可體現為對雷達信號進行脈沖幅度調制,新的間歇采樣轉發干擾機制如圖3所示。

圖3中,固定最小采樣時間單元τ,編碼序列中的“0”代表采樣。若出現一個“0”,則采樣時間為τ,若連續出現兩個“0”,則采樣時間為2τ,以此類推;“1”代表轉發,此轉發為將前一時刻的所有采樣信號進行轉發,連續出現“1”意為將前一時刻的采樣信號重復轉發。

圖3 非均勻間歇采樣重復轉發干擾原理Fig.3 Principle of non-uniform intermittent sampling and repeated forwarding interference

例如，當序列為“0100110001”時，出現4個1,對應轉發時間依次為τ、2τ、2τ、3τ,意為非均勻轉發。為了易于書寫,不妨對序列先進行擴展,使得每一位碼元對應的碼元寬度均為τ,即可將上述序列擴展為“01001111000111”。

可令二進制序列{βn,0≤n≤N}的擴展序列為{εl,0≤l≤L},其中L代表擴展后的序列長度,擴展序列的第l個碼元對應的幅度包絡al(t)可表示為

al(t)=εlgτ(t)*δ(t-lτ)

(9)

式中:,εl的取值范圍為(0,1);τ為最小采樣時間單元。gτ(t)為矩形信號，其表達式為

(10)

轉發信號f(t)可表示為

(11)

式中:fl(t)為第l個碼元對應發射的短脈沖,表達式為

(12)

式中:I為當碼元為1時,此碼元前的連0串個數。由分析可知,最終的轉發信號f(t)取決于編碼序列,而編碼序列充分體現了非均勻間歇采樣時間以及轉發次數的取值,因此編碼序列的選取成為了問題的關鍵。

2 目標函數建立及優化求解

轉發信號f(t)除了應具備干擾特性，還應具備雷達探測特性。CFAR技術是針對大時寬帶寬積信號的一種有效檢測手段,因此可從雷達檢測環節分析干擾性能。探測信號能夠從回波信號中得到目標的運動信息,而模糊函數在一定程度上反映了距離和速度分辨力,因此可以從模糊函數的角度分析探測性能。

2.1 干擾性能優化分析

在一定的信噪比下,雷達根據系統的檢測概率Pd和虛警概率Pf的要求確定檢測門限,當信號的強度超過該門限時，說明檢測到目標。CFAR能夠自適應調整檢測門限,是現代雷達普遍采用的一種檢測技術,其原理如圖4所示。

圖4 CFAR原理Fig.4 Principle of CFAR

CFAR算法常用的方法有單元平均CFAR(cell averaging CFAR, CA-CFAR)、最大選擇CFAR(greatest order CFAR, GO-CFAR)、最小選擇CFAR(smallest order CFAR, SO-CFAR)。以CA-CFAR為例,檢測門限Si由左右N個參考單元的均值與檢測因子β相乘得到。為了對雷達檢測環節進行干擾以達到掩蓋真實信號的目的,應提高雷達檢測門限,即提高參考單元信號的幅度值。參考單元的幅度值與信號脈壓后的幅度有關,即設計的干擾信號脈壓后假目標的個數越多,幅度越大且干擾效果越好。因此不妨將干擾信號脈壓后信號幅度標準差與均值之比d作為評價干擾性能的標準。

d的表達式為

(13)

2.2 探測性能優化分析

模糊函數是分析雷達探測性能的重要工具,主要用來刻畫雷達信號分辨鄰近目標運動距離與速度的能力。理想的模糊函數應具有“圖釘”形狀,即能量主要集中在主瓣,旁瓣能量均勻分開。一體化信號f(t)的模糊函數可以定義為

(14)

時延分辨常數Cμ可表示為

(15)

根據時延分辨常數可定義距離分辨率為

(16)

式中:c代表光速。多普勒分辨常數Cν可表示為

(17)

根據多普勒分辨常數可定義速度分辨率為

(18)

式中:λ代表發射信號波長。當雷達信號的距離分辨力以及速度分辨力越大,即距離和速度分辨率越小,則說明雷達信號的探測性能越好。根據式(16)和式(18)可知,當光速c以及發射信號波長λ為定值時,時延分辨常數Cμ與多普勒分辨常數Cν越小,則雷達信號的距離和速度分辨率越小,探測性能越好。

2.3 一體化信號目標函數建立

通過以上分析可知,探測干擾一體化信號的設計應從兩個方面考慮:一是雷達探測性能最佳,即信號距離分辨率以及速度分辨率盡可能小;二是干擾性能最佳,即干擾信號脈壓后假目標的個數越大幅度越高,脈壓后信號幅度均值與標準差之比d盡可能大。因此可以轉化為求最大值問題,目標函數可以定義為

(19)

目標函數確定后,需要對目標函數求解,獲取最優的編碼序列。其中,Fu、Fv分別為單目標時式(13)、式(15)的倒數對應的最大值,Fd為單目標時式(13)對應的最大值,目的是將各項進行歸一化處理,ω1、ω2分別為探測性能和干擾性能的權重,可根據實際情況進行調節。

2.4 基于DQN的優化序列求解

與強化學習不同的是,深度強化學習適用于狀態連續或者狀態數據量大的空間。本文中每一組不同的編碼序列對應一個狀態,總體的狀態量可以表示為

(20)

式中:Numstate為總狀態量;T為雷達信號長度；τ為最小采樣時間。隨著序列長度的變化,編碼類型也會成指數倍增加,因此數據量大,而強化學習的狀態和動作值是離散且有限的。若將連續空間離散化,則離散點空間數據量大，不利于Q表的更新,且不足以保證泛化能力,因此可選擇DQN算法進行優化序列求解。

DQN更新公式為

Q(st,at)←

Q(st,at)+α[rt+γmaxat+1Q(st+1,at+1)-Q(st,at)]

(21)

式中:α表示學習率;rt表示獎勵函數;γ表示折扣因子;maxat+1Q(st+1,at+1)表示在下一狀態st+1時取動作at+1可以得到的Q的最大值。DQN的四元組為。此外,DQN算法采用了記憶回放機制,即由每一次智能體與環境交互得到的四元組均會存入記憶庫,每間隔一定的步數,將會從記憶庫中選取一定的樣本來訓練網絡。將DQN算法應用到探測干擾波形設計中的原理的框圖如圖5所示。要設計最優的一體化波形,使得其探測性能以及干擾性能最佳,則需要得到最優的二進制編碼序列。結合前文構造的目標函數,設計規則如下。

智能體:己方干擾機。

環境:對方雷達。

初始狀態s0:隨機產生一組長度為L的二進制序列,再固定序列第一位為0,即先采樣，后轉發。

動作值at:此刻碼元的取值為0或1,采用ε-Greedy算法,以ε的概率隨機選取,以1-ε的概率進行利用。

下一時刻狀態st+1:采取動作at后產生的新的二進制序列。

獎勵函數rt:目標函數R,即目標函數越大,獎勵越大。

圖5 基于DQN的一體化波形設計框圖Fig.5 Integrated waveform design block diagram based on DQN

將DQN算法應用到一體化波形設計中的流程如圖6所示。

圖6 基于DQN的一體化波形設計流程Fig.6 Integrated waveform design flowchart based on DQN

3 實驗仿真與分析

為了驗證基于DQN的探測干擾一體化信號波形優化設計方法的有效性,分別從探測性能與干擾性能方面進行分析驗證。同時，將從傳統的均勻間歇采樣轉發設計一體化信號以及采用遺傳算法、強化學習算法求解的最優編碼序列進行對比分析。

3.1 DQN算法仿真分析

算法采用Python語言和TensorFlow深度學習框架進行編寫。LFM信號設計參數如表1所示。

表1 LFM參數設置

其中，初始序列可隨機選擇,DQN網絡參數根據經驗設置如表2所示。

表2 DQN網絡參數設置

在200步后開始學習,每隔5步學習一次,并用估計值網絡參數更新真實值網絡。此外，分別設置強化學習的獎勵值為式(13)、式(15)以及式(17)的倒數,依次得到Fd、Fμ、Fν的最大值。再根據式(19)可知,不同權重ω1、ω2的取值對應的目標函數值也不相同,不妨令ω1=0.5、ω2=0.5,最終得到的一體化信號時域仿真如圖7所示。

圖7 一體化信號時域圖Fig.7 Time domain diagram of integrated signal

一體化信號的各維模糊函數如圖8所示。圖8分別從各個維度展示了經過深度Q學習后的一體化信號,其中藍色代表一體化信號(即非均勻間歇采樣轉發信號),橙色代表均勻間歇采樣轉發信號,均勻間歇采樣信號的采樣周期為0.25 μs。由圖8可以看出,進過深度Q學習后的干擾信號的各維模糊函數能量主要集中在主瓣,更接近理想的“圖釘”形狀,而均勻間歇采樣轉發后的干擾信號模糊函數能量不集中,旁瓣峰值比明顯高于非均勻間歇采樣一體化信號。

圖8 一體化信號各個維度模糊函數圖Fig.8 Fuzzy function diagram of each integrated signal dimension

以下將分析一體化信號的干擾性能。不妨設置雷達接收窗的距離范圍為12 000～15 000 m。目標位置在13 500 m處,對各信號進行脈壓處理,干信比25 dB, 取雷達的距離分辨率為15 m,距離單元的個數為200,采用單元平均恒虛警算法,參考單元長度為12,門限因子為10-6,仿真如圖9所示。

圖9 CFAR門限圖Fig.9 Threshold diagram of CFAR

圖9中,藍色線為非均勻間歇采樣信號,橙色線為均勻間歇采樣信號脈壓后的曲線。由圖9可以看出，均勻間歇采樣信號脈壓后的主假目標離真實目標近,次假目標離主假目標遠,真實目標仍有可能被檢測到,而非均勻間歇采樣一體化信號脈壓后假目標個數增多,對真實目標實現了壓制干擾的效果。綠色虛線代表經過深度Q學習后的非均勻間歇采樣一體化信號的檢測門限,紅色虛線代表均勻間歇采樣干擾信號的檢測門限,可知經過深度Q學習后的一體化信號門限明顯提高,真實目標被淹沒在假目標中,而均勻間歇采樣信號的門限提升不明顯,真實目標仍有可能被檢測到。DQN算法的誤差曲線如圖10所示,由圖10可知最佳訓練步數在1 000～1 200之間。

圖10 DQN算法的誤差曲線Fig.10 Error curve of DQN algorithm

以上說明，無論是從探測性能或是從干擾性能方面分析,進過DQN算法學習后的非均勻間歇采樣的一體化干擾信號性能明顯優于均勻間歇采樣干擾信號。

下面將分析深度Q學習在不同初始狀態下的收斂效果。在仿真時，初始狀態二進制序列隨機產生,再固定第一位為0。不妨固定一組全1序列,再隨機產生3組二序列進行對比分析。雷達參數設置如表1所示,各組收斂結果如表3所示。

表3 不同初始狀態對應的收斂效果

由表3可知,不同初始狀態的算法收斂時間不相同,收斂值的大小也不相同,相比于運算時間,初始狀態對最終收斂值的大小影響不大,因此在進行仿真時,可隨機產生初始狀態。

基于DQN的探測干擾一體化波形優化設計算法的時間估算方法為

T(n)=O(ntnm)

(22)

式中:nt代表每一次循環內部時間步的數量;nm代表主循環的數量。

3.2 與其他算法對比仿真分析

在進行不同算法對比分析時,各算法均在PyCharm軟件平臺下采用Python語言進行編寫。

(1) 遺傳算法

遺傳算法作為一種尋優算法，也得到了廣泛應用,其將用于決策的變量作為運算對象,可以直接對集合、序列等進行操作。遺傳算法的參數設置如表4所示。

表4 遺傳算法的參數設置

首先產生40組二進制編碼序列,計算每一組序列對應的一體化信號的適應度函數,適應度函數為式(19)中的目標函數,即目標函數越大,適應度函數越大。其余雷達參數設置與表1相同。遺傳算法不同種群的R值仿真如圖11所示。

圖11 初始種群和最終種群的R值Fig.11 Value of R of the initial population and the final population

圖11中,藍色圓圈為初始40個種群對應的目標函數R值,橙線為最終種群的R值,由圖11可知,最終種群的R值臨近最大值。

(2) 強化學習算法

與深度Q學習不同的是,強化學習會根據每一動作對應的狀態值生成一個Q表,用于Q值的更新。強化學習的四元組與DQN相同,其參數設置如表5所示,雷達參數設置與表1相同。

表5 強化學習參數設置

當雷達信號長度為20 μs時,遺傳算法、強化學習算法以及DQN算法的目標函數收斂曲線與迭代次數的關系如圖12所示。

圖12 不同算法收斂效果Fig.12 Convergence effects of different algorithms

由圖12可以看出,強化學習算法與DQN算法在收斂時對應的迭代次數約為112次,目標函數值約為0.82;遺傳算法在收斂時對應的迭代次數約為125次,目標函數值約為0.725。由此可以得出,當狀態量較少時,強化學習算法的收斂效果與DQN的收斂效果差距不明顯。相對于遺傳算法,DQN算法收斂更快,且最優解的質量Δi提高了13.10%,最優解的質量提高公式為:

(23)

式中:ValGA為遺傳算法收斂時的目標函數值;ValDQN為DQN算法收斂時的目標函數值。因此,本文提出的DQN算法能夠提高最優解的質量。

(3) 增大狀態量時不同算法收斂效果分析

根據式(20),固定最小采樣時間為0.125 μs,改變雷達信號長度,雷達信號越長,狀態量越大。因此,分別取雷達信號長度為20 μs、40 μs、60 μs、80 μs、100 μs,不同算法的目標函數收斂效果如圖13所示。

圖13 不同算法收斂效果Fig.13 Convergence effects of different algorithms

3種算法在雷達信號長度不同時,最優解方差如表6所示。

表6 不同算法最優解方差對比

由表6可知,當雷達信號長度增加時,3種算法中,DQN算法的最優解最穩定,強化學習算法其次,遺傳算法最末。

以上說明,當狀態量小時,DQN算法與強化學習算法的收斂效果相同,而相比于遺傳算法,DQN算法最優解的質量提高了13.10%;當狀態量增大時,相對于遺傳算法和強化學習算法,DQN算法的收斂值更大,最優解更穩定。

4 結論

本文考慮將探測信號隱藏在干擾信號中,提出了一種基于非均勻間歇采樣重復轉發的探測干擾一體化信號波形。該一體化信號將探測信號隱藏在干擾信號中,誤導對方將探測信號判斷為干擾信號,從而降低截獲概率。首先，建立了一體化信號模型,根據距離、速度分辨率以及一體化信號脈壓后幅度均值與標準差之比建立了目標函數；然后，通過DQN算法求解目標函數,得到最優的一體化信號波形。同時，將遺傳算法以及強化學習算法作為對比實驗。仿真結果表明，當編碼狀態量小時,DQN算法與強化學習算法收斂效果一致。與遺傳算法相比,DQN算法最優解的質量提高了13.10%;當編碼狀態量增大時,相對于遺傳算法和強化學習算法,DQN算法的收斂值更優,最優解更穩定。