999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的頻控陣-多輸入多輸出雷達發射功率分配方法

2023-03-01 08:16:22丁梓航謝軍偉
電子與信息學報 2023年2期
關鍵詞:優化信號

丁梓航 謝軍偉 齊 鋮

(空軍工程大學防空反導學院 西安 710051)

1 引言

雷達系統位于復雜多變的電磁環境中,在敵方干擾機和其他干擾源會對雷達正常工作帶來巨大的影響。因此,如何抑制環境中的干擾,提高雷達接收端的信干噪比(Signal-to-Interference-plus-Noise Ratios, SINR),對于雷達系統是至關重要的。

頻控陣(Frequency Diverse Array, FDA)這一概念于2006年被提出[1]。相較于傳統的相控陣雷達,FDA雷達的每個發射陣元間存在一個遠小于載波頻率的頻率偏移量,這一頻偏量使其能夠獲得角度-距離2維相關的波束方向圖[2–4]。FDA波束因具有角度-距離相關這一特性,使其被廣泛應用于包括目標角度-距離定位[5],2維波束形成技術和波束方向圖設計等領域[6,7]。

多輸入多輸出(Multi-Input and Multi-Output,MIMO)雷達因其與傳統相控陣(Phase Array,PA)雷達相比所具有的獨特優勢而得到了廣泛的研究。文獻[8]將FDA與MIMO雷達相結合,并提出了FDA-MIMO雷達接收處理模型。FDA-MIMO雷達同時具有FDA雷達距離-角度相關的波束方向圖和MIMO雷達所擁有的多自由度的特點,由此可以被用于欺騙干擾壓制[9–11]、聯合角度-距離估計[5]和空時自適應雜波抑制[12,13]等。

近年來,雷達與干擾的博弈現象受到廣泛關注。文獻[14]對雷達對抗中的博弈論問題進行了系統的分析與梳理。文獻[15]對博弈論思想在雷達系統設計中的應用進行了綜述,主要集中于雷達對抗、雷達資源管理、雷達波形設計、雷達射頻隱身等方面。文獻[16]提出基于回波間互信息量(Mutual Information, MI)準則的Stackelberg博弈波形設計。文獻[17]對多基地分布式MIMO雷達組網的功率進行了納什均衡分析,提出了一種以SINR為約束的雷達功率分配優化方法。上述文獻建立的博弈模型用于雷達與干擾的對抗分析,而針對頻譜式干擾的研究還很少。

在博弈的階段中,實際上是一個動態優化的過程。若干擾信號發生變化,雷達系統就需要立即調整發射功率分配模式,以獲得較高的SINR。傳統的優化方法普遍存在計算復雜度高的問題,而對抗過程是一個高實時性問題,因此亟需一種處理速度快的優化方法。近年來,深度學習(Deep Learning,DL)成為研究熱點,而強化學習可以實現離線學習、在線尋優。對于已經離線訓練好的網絡,將當前狀態輸入到網絡中,可以實時獲取優化的結果。文獻[18]利用凸優化方法對MIMO雷達發射功率進行優化以獲得最優的檢測性能。

在此基礎上,本文建立了FDA-MIMO雷達與頻譜干擾機的Stackelberg博弈模型。在兩者動態博弈的過程中,利用強化學習中的DDPG算法對采集的干擾信號狀態進行離線訓練,獲得演員和評論家網絡的參數,然后根據雷達當前偵測到的頻譜干擾樣式對發射功率進行在線動態優化,使雷達在工作時間段內獲得最優的輸出SINR性能,達到對抗頻譜干擾的效果。

2 數據模型

2.1 FDA-MIMO雷達

考慮一個發射和接收陣列均為均勻線性陣列的FDA-MIMO雷達。其中,雷達發射陣列含有M個發射陣元,陣元間隔為d=λ/2(λ為波長)。在接收陣列中,接收陣元數為Nr,陣元間隔為d=λ/2。假設該雷達發射信號類型為脈沖信號,則第m個發射陣元發射信號的表達式為

其中,?fm=(m ?1)?f表示第m個發射陣元的頻偏量,f0表 示發射信號的載波頻率,Td為發射脈沖信號的脈沖持續時間。由于陣元間 ?fm的存在,FDA-MIMO雷達能夠同時工作在多個頻率上,也使其具有精準頻譜干擾的抗干擾能力。wm,φm(t)分別是第m個發射陣元的發射信號功率值和基帶波形且φm(t)滿足關系式為

假設空間中一個遠場目標位于空間位置(θ,r),經過目標反射,第n個接收陣元接收到來自第m個發射的信號可以表示為

τm,n為信號在空間中傳播的時延,其表達式為

c表示光速。在窄帶信號假設下,式(3)可以近似改寫為

ψ(t)為信號傳播帶來的相位變化量,且可以表示為

當信號被雷達接收系統接收后,會經過一系列的信號處理過程。文獻[19]提出了一種多匹配濾波器的FDA-MIMO雷達的接收處理系統,本文也采用該接收處理方法。根據發射信號的相互正交性,經過匹配濾波器處理后的信號可以表示為

其中,?表示克羅內克積,⊙表示哈達瑪積,(·)T表示轉置操作。at(θ,r),ar(θ)分別為發射、接收導向矢量,w為發射功率向量,γ為目標反射系數。

2.2 干擾模型

考慮雷達系統處于頻譜干擾環境,該干擾可能來自敵方的干擾機和其他與雷達共享頻段的無線電。假設干擾信號可以表示為s(t),為了方便分析,考慮從第1個接收陣元。由2.1節,FDA-MIMO雷達將接收到的干擾信號s(t)通過信號接收處理過程后,在第m個通道采集到的信號為

其中, (·)?表 示共軛操作,τ表示采樣時延,對應目標所處的距離單元。

將經過M個通道處理后的干擾信號表示為矢量形式s=[s1,s2,...,sM]T。經過接收處理的頻譜干擾信號s服從均值為0,協方差矩陣為P的復高斯分布,其中

當Nr個接收陣元接收到干擾信號,每個陣元中都有M個處理通道,假設存在K個遠場干擾信號,信號方位角為{θk}Kk=1,接收陣列采集到的干擾加噪聲信號向量為

雷達系統的抗干擾能力可以用接收獲得的信干噪比(SINR)來表征。當雷達系統工作時間位于t(t=1,2,...,T)時刻,基于最小方差無失真響應(Minimum Variance Distortionless Response,MVDR)的線性檢測器

具有最高的輸出SINR,在該檢測器下獲得的SINR由式(15)給出

其中,(·)H表示共軛轉置操作。

從式(15)可以看出,不同的發射陣元功率分配模式,在MVDR線性檢測器下,可以獲得不同的SINR。因此,通過對發射陣元的功率分配優化,可以獲得最高的SINR。

3 基于強化學習的雷達抗干擾博弈的功率分配算法

3.1 博弈的基本模型

一種基于FDA-MIMO雷達的功率分配博弈論框架被建立。在雷達系統工作時,環境中的頻譜干擾對其產生了極大的影響,且雷達系統與干擾信號之間沒有合作關系,因此兩者建立非合作博弈關系,前者控制發射陣元功率矢量w,后者控制干擾信號的發射功率矩陣P。雷達和干擾之間是一種零和博弈,即一個參與者的增益是另一個參與者的損失。雷達和干擾的博弈框架可以表示如式(16)的形式

(3) 效用函數:U={Ur,Ui}, 其中,Ur=max{SINR}為 雷達的效用函數,雷達通過調整w獲得輸出的最大SINR,Ui=min{SINR}為干擾機的效用函數,干擾機通過改變P來獲得輸出的最大SINR。

在實際環境中,雷達與干擾機間存在一種Stackelberg博弈關系。Stackelberg博弈是一種完全信息動態博弈,跟隨者根據主導者的行為制定自己的行為策略,然后主導者再根據跟隨者的行為策略調整更新自己的策略以獲得最大效用。在本文中,考慮我方雷達需要在變化的干擾環境中保持較好的抗干擾性能,因此雷達是主導者,干擾機是跟隨者。在Stackelberg博弈框架下,該問題轉化為兩階段的優化問題,該優化問題如式(17)所示

其中,Pmin,Pmax分別表示每個發射陣元的功率最小值和最大值,Ptotal為發射陣元的總功率。

需要說明的是,在整個博弈時間T中,干擾機對雷達頻譜功率的感知需要一定的時間,即在雷達根據干擾信號動態調整功率分配策略后,干擾機只能在多個時刻后才能對發射的干擾信號進行調整,使得雷達獲得最小輸出SINR。雷達系統可通過外部的頻譜感知模塊和輔助傳感器陣列,感知環境中的干擾噪聲信號,可以實時地估計出干擾信號的頻譜以及協方差矩陣,便于雷達在博弈過程中獲得最佳的抗干擾性能。

3.2 基于DDPG算法的優化求解

當雷達接收到干擾機發射的干擾信號后,需要自適應地調整發射陣元的功率來避開干擾信號。在整個博弈的過程中,本文采用強化學習中的DDPG算法對雷達發射功率矢量w進行優化。將雷達各個陣元設置為智能體,負責收集環境中的干擾信號,并對發射陣元功率進行控制。

DDPG算法對智能體神經網絡進行訓練,得到網絡參數。在第t個雷達工作時刻,雷達陣元根據所接收到的狀態s?t,利用行為網絡輸出功率分配行為a?t,并獲得對應的獎賞rt?和下一步的狀態s?t+1,進入第t+1個工作時刻。將每個工作時刻獲得的經驗(st,at,rt,st+1)存儲在經驗池中。接下來,本文將對強化學習網絡中的狀態、行為、獎賞和行為-評論家網絡進行說明。

(1)狀態。在第t個雷達工作時刻,強化學習中的狀態是一個向量st=[xt,yt,pt], 其中,xt,yt分別表示目標的空間位置,pt是第t個工作時刻下,干擾信號的功率矩陣的對角線元素組成的行向量。

(2)行為。在深度強化學習框架中,智能體的行為向量為at=[w1,t,w2,t,...,wNt,t],其中每一個元素代表在每一個確定的工作時刻下雷達系統發射陣元的功率分配情況。

經過sigmoid函數輸出的at范 圍為[ 0,1],為保證行為at中 元素滿足約束條件式(17a)Pmin≤wi ≤Pmax,其作用于環境時再通過線性變換映射至真實范圍。設輸出的某一個行為取值為at,i,將其從[ 0,1]映射到[Pmin,Pmax] 范圍上的線性變換為at,i(Pmax?Pmin)+Pmin。

(3)獎賞函數。根據式(17)中的目標函數,獎賞函數被定義為雷達輸出的SINR,即在第t個工作時刻下的獎賞函數為

由于行為向量存在約束條件,為使強化學習網絡能夠滿足行為的約束條件,本文提出一種新的獎賞函數來實現對行為的約束。該獎賞函數更新為

通過重構獎賞函數,可以將行為的約束引入到深度學習網絡中。

3.2.1 功率優化方法的整體框架

在雷達偵測到干擾機發射干擾信號的先驗信息的條件下,DDPG網絡被用來求解雷達發射陣元的功率分配問題。在每一雷達工作時刻,雷達偵測到的先驗信息被存儲到記憶回放池并將其作為強化學習網絡訓練的輸入。對于傳統方法,在每一個工作時刻都需要對雷達的發射功率進行優化求解。經過記憶回放池中采樣數據對DDPG網絡訓練完成后,可以直接獲得雷達當前工作時刻優化后的功率分配結果。圖1為雷達-干擾機博弈下的功率優化方法的整體框架示意圖。

圖1 發射功率優化方法整體框架

3.2.2 DDPG算法流程

采用DDPG算法對上述雷達-干擾機博弈功率優化模型進行離線訓練,算法的整體流程如算法1所示。

算法1 DDPG算法

在網絡更新迭代訓練過程中,先積累經驗回放到經驗池中,根據經驗池中隨機抽取的樣本分別更新評論家和演員網絡。首先通過損失函數更新評論家網絡參數θQ。接下來通過評論家網絡得到的Q函數相對于動作的策略梯度,將梯度傳遞到演員網絡中對其參數θμ進 行更新。最后通過得到的θQ,θμ通過參數τ,按照設定的比例更新各自所屬的目標網絡中,其目標網絡會在下一步的訓練中用來預測行為和Q值。

4 仿真分析

FDA-MIMO雷達發射接收陣列均為均勻線性陣列且陣元數分別為M=6,Nr=5,陣元間距均為d=λ/2 。發射陣列陣元間頻偏量?f=10 kHz,載波頻率f0=1 GHz。雷達工作時間最小間隔為2 s,雷達工作總時間設置為20幀(40 s)。每個發射陣元的功率最小值和最大值分別為Pmin=0和Pmax=Ptotal。

在雷達工作初始時間內,空間中的目標位于(5 km,5 km),在整個雷達工作時間內,假設目標沿著45°方向,以速度v=100 m/s做勻速直線運動,雷達系統通過跟蹤算法在每個工作時刻對目標的位置進行實時更新。

假設干擾機的干擾頻段數量小于等于3。在初始工作時刻,干擾信號從方位角為45°進入雷達接收機系統,以30 dB, 25 dB和30 dB的干擾功率,干擾第1、第4和第6個發射陣元的頻段。根據所提博弈準則,雷達作為領導者會根據干擾機釋放的干擾信號通過自適應控制發射陣元的功率來提高輸出的SINR。在雷達調整陣元功率后,經過一段時間,干擾機偵測到雷達發射信號的變化,通過調整干擾信號使得雷達系統接收端獲得的SINR最小。雷達再根據新的干擾信號調整發射陣元的功率,形成博弈態勢。

干擾信號的功率分布計算公式為

其中,az(θ)=ez ?ar(θ),ez表示第z個元素為1,其余元素都為0的單位向量。z表示干擾頻譜的位置索引。

(4)DDPG中的參數設置。智能體的狀態表示為8維數組向量,動作表示為6維數組向量。演員網絡包含2個隱含層,每個隱含層的神經元個數為32,所有隱含層都采用tanh激活函數。評論家網絡包含3個隱含層,每個隱含層的神經元個數為32,所有隱含層都采用tanh激活函數。演員網絡和評論家網絡的學習率分別為0.001,0.01。折扣因子為κ=1 ,超參數ε=0.1。

本文程序是基于keras框架編寫的,計算機硬件條件為Core i5-10210CPU, 3.60 GHz, 8 GB內存,設置回合數為800,每一個回合中的迭代步數為20。

在各個回合中,雷達與干擾機智能博弈的完整工作過程的累計獎賞值和平均SINR值如圖2(a)和圖2(b)所示,雷達的目的是通過不斷地學習提升獎賞值,來獲得最大的獎賞,即最大SINR值。累計獎賞值和SINR值越大表明雷達的功率分配優化結果越好,網絡的學習效果越好。由仿真結果可以看出累計獎賞值與平均SINR值整體的變化趨勢是逐步增加的。在回合數大于400時,累計獎賞值和平均SINR值均達到最大且基本保持穩定。

圖2 累計獎賞值和SINR隨回合數的變化情況

圖3(a)為通過所提算法對FDA-MIMO雷達發射功率分配結果。從結果中可以看出,當t= 1時,在當前工作時刻,雷達沒有感知到外界的干擾信號,因此保留基本的功率均勻分配策略。當2≤t ≤10時,雷達偵測到干擾信號后,使發射功率集中在第2個發射陣元上;當 1 1≤t ≤15時,由于干擾機調整了頻譜干擾策略,雷達在偵測到干擾信號后立即對發射功率進行優化,使功率集中到第1個陣元;同樣地,當1 6≤t ≤20時,雷達將發射功率集中到第6個陣元,以獲得最優的SINR。圖3(b)為通過內點法對雷達發射功率優化分配的結果。由仿真結果可以看出,內點法得到的功率分配策略與所提算法類似,在雷達工作時間段中,功率都集中在某一個發射陣元上,且均避開了頻譜干擾信號所在的頻點。由此,驗證了本文所提算法能夠實現與傳統優化算法相似的優化效果,驗證了其有效性。

圖3 發射功率分配情況

為了直觀地展現出內定法和DDPG算法的性能,兩種算法得到的SINR值隨雷達工作時間的變化情況如圖4所示。從該仿真結果可以看出,當t= 1時,雷達采用功率均勻分配策略,此時雷達已經受到干擾,因此SINR較低。當t>1時,雷達系統開始根據干擾信號對發射功率進行優化,得到的SINR較高。相較于內點法,文中所提算法對發射功率優化后得到的SINR有一定的波動,這是因為所提算法在訓練時所用到的目標位置信息和干擾信息與仿真中設置的信息有一定差異。但通過兩種算法得到的SINR基本一致,因此驗證了所提算法的有效性。

圖4 SINR值變化情況

干擾在整個工作時間段的干擾信號參數變化情況如表1所示。

表1 頻譜干擾信號在工作時間段內的參數變化情況

各個時刻干擾信號在角度-頻率2維平面上的功率分布如圖5所示。

圖5 干擾信號在頻率-角度的功率分布情況

表2 算法復雜度

圖6 計算復雜度隨發射陣元數目變化情況

5 結論

本文建立了FDA-MIMO雷達與釋放頻譜干擾信號的干擾機的Stackelberg博弈關系,并將雷達作為領導者,干擾機作為跟隨者。為了使雷達獲得最大的抗干擾效果,將深度確定策略梯度算法應用于雷達發射陣列的功率優化分配中,使得雷達在干擾信號產生變化過程中,能夠動態調整陣元功率分配來獲得最優SINR。算法中考慮了單個陣元功率約束和陣列總功率約束,并在約束下輸出動作。仿真結果表明,通過DDPG算法的多個回合的訓練,使雷達能夠很好地感知干擾信號的變化并合理地分配發射陣元的功率,達到最優的SINR,實現抗干擾的效果。

猜你喜歡
優化信號
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
由“形”啟“數”優化運算——以2021年解析幾何高考題為例
完形填空二則
孩子停止長個的信號
基于LabVIEW的力加載信號采集與PID控制
一種基于極大似然估計的信號盲抽取算法
主站蜘蛛池模板: 在线无码av一区二区三区| 欧美www在线观看| h视频在线播放| 久久国产精品夜色| 国产麻豆精品在线观看| 69综合网| 国产a v无码专区亚洲av| 欧美A级V片在线观看| 亚洲无码视频喷水| 色首页AV在线| 白丝美女办公室高潮喷水视频| 黄色网址手机国内免费在线观看| 色欲国产一区二区日韩欧美| 欧美亚洲欧美区| 日韩欧美一区在线观看| 最新精品久久精品| 亚洲中文精品人人永久免费| 免费无码在线观看| 视频二区国产精品职场同事| 国产草草影院18成年视频| 18禁色诱爆乳网站| 国产免费网址| 福利国产在线| 日本欧美成人免费| 中文字幕亚洲乱码熟女1区2区| 国产一在线| 日韩在线1| 成人精品免费视频| 日韩黄色精品| 日韩A级毛片一区二区三区| 国产福利在线免费| 九色在线观看视频| 中国国语毛片免费观看视频| 四虎影视国产精品| 波多野结衣在线se| 97影院午夜在线观看视频| 国产网站黄| 亚洲V日韩V无码一区二区| 日本午夜三级| 国产第一页亚洲| 日韩福利视频导航| 国产综合欧美| 国产杨幂丝袜av在线播放| 国产91线观看| 亚洲国产成人久久精品软件| 欧美一级特黄aaaaaa在线看片| a国产精品| 欧美国产菊爆免费观看| 国产精品13页| 久久婷婷色综合老司机| 国产精品天干天干在线观看| 在线永久免费观看的毛片| 久久国产精品嫖妓| 久久亚洲AⅤ无码精品午夜麻豆| yjizz视频最新网站在线| 国产在线第二页| 亚洲无码精品在线播放| 久久亚洲国产最新网站| 精品福利一区二区免费视频| 亚洲最新网址| 亚洲无码精品在线播放| 亚洲天堂网视频| 久久综合五月婷婷| 啪啪永久免费av| 亚洲欧美一区在线| 国产三级毛片| 午夜不卡视频| 日本成人一区| a级毛片在线免费观看| www.av男人.com| 香蕉网久久| 波多野结衣第一页| 亚洲一区二区日韩欧美gif| 88av在线播放| 免费激情网址| 国产美女精品在线| 国产精品尤物在线| 99久久99这里只有免费的精品| 久久婷婷色综合老司机| 国产在线拍偷自揄观看视频网站| 老司国产精品视频| 在线观看亚洲国产|