999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的干擾資源分配方法

2023-12-08 06:06:48李健濤王軻昕張天賢
現代雷達 2023年10期
關鍵詞:深度動作策略

李健濤,王軻昕,劉 凱,張天賢

(電子科技大學 信息與通信工程學院, 四川 成都 611731)

0 引 言

在突防場景中,組網雷達系統通過數據融合和信息融合等協同處理方法極大的提高了作戰性能,對我方突防編隊產生了巨大的威脅[1-2]。伴隨干擾機群通常被用于對抗敵方組網雷達系統,使其無法準確地探測目標,從而掩護我方突防飛機完成既定任務[3-4]。在日益復雜的電磁環境中,如何合理地分配干擾資源,以達到對組網雷達最大的干擾效能,是近年來國內外學者研究的熱點問題。

目前,突防場景下干擾資源分配問題被廣泛研究。文獻[5]綜合考慮突防飛機在整個突防過程中位置變化時的干擾效益,利用概率加權法建立目標函數,并采用蟻群算法求解出干擾資源分配策略。文獻[6]研究了不同干擾樣式在不同恒虛警檢測器中的干擾效果差異,提出了一種基于二維整數編碼的改進布谷鳥(ICS)算法來提高收斂速度和尋優能力。文獻[7]考慮到組網雷達系統工作參數不確定性帶來的檢測概率誤差,建立了干擾資源穩健優化分配模型,并利用粒子群(PSO)算法對模型進行求解。然而,這些研究采用的算法仍基于傳統群智能算法,都采用逐幀優化的方法,運行效率低且穩定性較差。

深度強化學習(DRL)是機器學習的一個分支,其利用智能體與環境交互過程中的經驗來學習使回報最大化的策略,為復雜系統的感知決策問題提供了一種有效的解決方案。近年來,深度強化學習被廣泛應用于各種熱門領域中,如自動駕駛、游戲AI、機器人控制等。2014年起,谷歌DeepMind團隊將深度強化學習技術應用于Atari游戲中,經過訓練的游戲AI超越了人類玩家的最高水平[8]。深度強化學習也被應用于自然語言處理中,極大地提高了其語義關聯、邏輯推理和句式生成等能力[9]。因此,將深度強化學習技術基于到干擾資源分配問題中是一個值得研究的方向。

本文提出了一個基于深度強化學習的干擾資源分配方法。首先,建立一個突防場景下的干擾資源分配模型;其次,將干擾資源分配模型描述為一個馬爾可夫決策過程,設計相應的狀態空間、動作空間和回報函數;最后,針對模型在多維約束情況下難以求解的問題,提出了基于動作密鑰編碼的雙延遲深度確定性策略梯度網絡訓練算法,將混合整數優化問題轉化為連續變量優化問題。仿真結果表明,本文所提的干擾資源分配方法能夠對組網雷達實施有效的干擾,且具備出色的穩定性。

1 系統模型

1.1 突防場景模型

在突防組網雷達場景中,干擾機群在突防飛機周圍伴隨飛行并對組網雷達進行聯合壓制干擾,使組網雷達探測性能下降,進而掩護我方突防飛機完成突防打擊任務,如圖1所示。突防編隊由W個突防飛機和M個干擾機組成,組網雷達系統由N個雷達組成。

圖1 突防組網雷達場景示意圖Fig.1 Schematic diagram of penetration netted radar

1.2 干擾資源分配模型

假設干擾機可以發射多個干擾波束,每個波束只能夠干擾一部雷達,并且所有雷達都可以受到多個干擾波束的干擾。定義干擾機群在第k時刻的波束分配矩陣為

(1)

(2)

且每架干擾機最多產生L個波束,即

(3)

在本文的干擾模型中,每個干擾波束的發射功率是可控的,定義干擾機群在第k時刻的干擾功率分配矩陣為

(4)

(5)

1.3 雷達探測模型

雷達通過發射脈沖信號和接收目標回波信號來探測我方突防飛機,假設每個雷達的發射功率、天線增益、載頻等工作參數相同,則雷達n接收到突防飛機w的回波信號功率為

(6)

在干擾機群發射壓制干擾信號時,雷達n接收到干擾機m的干擾信號功率為

(7)

圖2 突防飛機、干擾和雷達相對空間位置Fig.2 Relative geometry position of the surprise aircraft, jammer and radar

(8)

式中:θ3 dB為雷達的3 dB波束寬度;常數α為天線增益系數。

1.4 協同干擾組網雷達檢測概率模型

本文采用組網雷達對多目標的聯合檢測概率作為協同干擾的效能指標,假設組網雷達的部分工作參數、工作模式被我方電子偵察系統提前獲取。

首先考慮組網雷達n探測突防飛機w時受到壓制干擾,其接收機的信干噪比為

(9)

(10)

根據Swerling Ⅰ檢測模型[10-11],雷達單脈沖檢測概率可以表示為

(11)

式中:y0為檢測門限。

組網雷達一般通過數據融合和信息融合的方法對目標進行聯合探測,本文考慮組網雷達檢測概率采用秩K準則進行融合。假設雷達n的局部判決為dn∈{0,1},其中dn=1或dn=0表示是否發現目標。融合中心根據這些局部判決產生全局判決向量D=[d1,d2,…,dN],有2N個組合。定義全局判決規則R(D),組網雷達中有K部及以上雷達檢測到目標,那么判定為發現目標,否則判定未發現目標,即

(12)

根據秩K準則得到的第k時刻組網雷達對突防飛機w的檢測概率為[12]

(13)

式中:S0表示全局判決向量Di(i=1,2,…,2N)中判決為未發現目標的集合;S1表示Di中判決為發現目標的集合。

組網雷達對W個突防飛機的檢測概率向量為

(14)

考慮到實際突防場景中,突防飛機對組網雷達的威脅程度可能不同,因此分配給突防飛機的檢測概率的權重也會有差異。突防飛機的檢測概率權重向量為

(15)

為了評估干擾機群對組網雷達的協同干擾性能,定義了一個全局代價函數為

J(Pdk,ωk)=ωk(Pdk)T

(16)

接下來基于深度強化學習的干擾資源分配方法中將參考式(16)設計回報函數。

2 基于深度強化學習的干擾資源分配方法

2.1 馬爾可夫決策過程

馬爾可夫決策過程(MDP)是一種用于描述深度強化學習中智能體貫序決策的數學模型,其具有馬爾可夫性,即當前狀態和回報只與上一時刻狀態和動作有關,與之前的狀態和動作無關。本文將突防場景下干擾資源分配建模為一個馬爾可夫決策過程,并設計相應的狀態空間、動作空間和回報函數。

2.1.1 狀態空間

突防場景下的干擾資源分配是一個時間序列優化問題,我們假設敵方組網雷達的位置固定,且突防飛機對組網雷達的威脅程度不變。當突防飛機和干擾機相對于組網雷達的位置發生變化時,組網雷達接收突防飛機的回波信號功率和干擾機的干擾信號功率也發生變化。本文將突防編隊的位置信息作為狀態空間,即

(17)

2.1.2 動作空間

在不考慮突防編隊動力學控制的情況下,我們假設其按照既定的飛行航跡執行突防任務。根據干擾資源分配模型,本文將干擾機群的波束分配策略和功率分配策略作為動作空間,即

A={uk,Pk}

(18)

2.1.3 回報函數

突防場景下,干擾機群的目標是降低組網雷達對突防飛機的檢測性能,因此本文將突防過程中每一時刻的全局代價函數的相反數作為回報函數,即

R=-J(Pdk,ωk)

(19)

在突防過程中,突防編隊的空間位置會發生變化,導致最優的回報值也隨之變化。為了評估干擾機群在整個突防過程中的總體干擾效能,之后的仿真驗證環節中我們把所有時刻的回報之和作為算法比較的指標依據之一。

2.2 基于動作密鑰編碼的雙延遲深度確定性策略梯度算法

深度強化學習(DRL)是一種將深度學習的感知能力和強化學習的決策能力結合在一起的人工智能算法,常被用于解決復雜系統的貫序決策問題。深度強化學習的原理框架如圖3所示,在每個時刻智能體與環境進行交互,得到當前環境下的狀態信息和回報;之后基于預期的回報評估各個動作的價值,通過某種策略將當前狀態映射為相應的動作并執行;環境對智能體的動作做出反應并更新環境參數。

圖3 深度強化學習原理框圖Fig.3 Deep reinforcement learning schematic

對突防場景下協同干擾組網雷達模型進行分析可以看出,干擾資源的分配本質上是一個多約束條件下的非線性混合整數規劃問題,這類問題的求解難度大。為了提高智能體的尋優能力和收斂效率,本文提出了一種基于動作密鑰編碼的雙延遲深度確定性策略梯度算法,將混合整數規劃問題轉換為連續規劃問題,緩解了變量約束對的影響,有效地解決了雙延遲深度確定性策略梯度算法可行性的問題。

借鑒文獻[13]中的方法,將干擾波束分配矩陣和干擾功率分配矩陣進行密鑰編碼,該編碼采用實數碼的形式,由整數部分和小數部分組成如表1所示。

表1 動作密鑰編碼Tab.1 Action key encoding

表中編碼的順序值表示干擾波束的編號,編碼的整數部分表示為干擾波束選擇干擾的雷達,小數部分表示干擾波束的功率分配比例。其中,干擾波束1和2、3和4、5和6分別來自三個不同干擾機。如果多個干擾波束來自于同一架干擾機,則通過歸一化的方式重新分配波束的功率比例。

雙延遲深度確定性策略梯度是一種基于AC(Actor-Critic)框架的無模型、異策略深度強化學習算法[14],可用于解決連續動作問題。TD3算法相較于深度確定性策略梯度(DDPG)算法有三點改進:第一,同時學習兩個價值網絡,每次選取較小Q值進行網絡參數的更新,有效地緩解高估偏差的問題;第二,給目標策略網絡基于平滑機制,在動作中加入隨機噪聲,減小目標策略受函數近似誤差引起的不準確影響;第三,降低策略網絡和三個目標網絡的更新頻率,提高算法的穩定性。

本文提出的基于動作密鑰編碼的雙延遲深度確定性策略梯度算法可以用任意的行為策略收集經驗,再通過經驗回放訓練策略網絡和價值網絡。其中,智能體輸出密鑰編碼動作與環境交互,環境將動作解碼并返回下一時刻的狀態和回報,其算法流程如下。

步驟1 設置環境參數,包括組網雷達和突防編隊的位置信息、組網雷達的工作參數。

步驟3 對于每個輪,循環執行以下操作。

1)初始化狀態s0。

2)根據當前狀態s,策略網絡πω輸出帶噪聲的編碼動作a:a←πω(s′)+ε,ε~N(0,σ)。其中,ε表示服從均值為0、方差為σ的高斯噪聲。

3)智能體執行編碼動作a與環境進行交互,環境對動作解碼,得到回報r和下一時刻狀態s′。

4)將智能體與環境交互的數據(s,a,r,s′)存儲到經驗池中。

5)若突防編隊沒有達到終點,則重復2)~4),否則開始執行以下步驟:

(1) 策略網絡和價值網絡及各自的目標網絡從經驗池B中隨機抽取Nb個樣本。

步驟4 保存網絡模型,結束輪循環。

3 仿真結果與分析

本節將通過仿真實驗來分析和驗證基于深度強化學習的干擾資源分配算法的可行性、有效性和穩定性。

考慮在仿真實驗中,突防場景下有W=2架突防飛機突防組網雷達,M=3架干擾機執行伴隨干擾;組網雷達系統由N=6部雷達組成,并采用秩4準則進行數據融合。突防編隊的飛機軌跡和組網雷達的空間位置如圖4所示。

圖4 突防場景仿真示意圖Fig.4 The simulation scenario of penetration netted radar

表2 干擾機工作參數Tab.2 The working parameters of the jammer

表3 雷達工作參數Tab.3 The working parameters of the radar

利用基于動作密鑰編碼的雙延遲深度確定性策略梯度算法進行仿真訓練時,相關參數設置:最大訓練輪數400 000,記憶池大小4 000,軟更新參數τ=0.1,獎勵衰減因子γ=0.99,初始探索噪聲方差1,探索噪聲衰減因子0.999 9,單次訓練batch-size采樣數64,策略網絡學習率0.001,價值網絡學習率0.002,動作輸出限制范圍[0,7)。TD3中策略網絡和價值網絡的參數與各自對應的目標網絡相同,價值網絡和策略網絡模型如圖5所示。

圖5 策略網絡和價值網絡模型Fig.5 Actor network and critic network models

利用PSO算法和本文所提的AKE-TD3算法對上述場景問題進行仿真實驗,得到不同算法在整個干擾過程中(每一幀)的全局代價函數性能曲線如圖6所示。可以看出,相比于PSO算法,AKE-TD3算法的全局代價函數值在前幾幀時基本相同,但在之后都表現出更出色的干擾性能。總體來說,AKE-TD3算法的干擾資源分配策略比PSO算法更好,初步驗證了本文所提方法的有效性。

圖6 單次仿真下不同算法全局代價函數對比Fig.6 Comparison of global cost functions of algorithms under single simulation

與圖6中結果相對應的干擾資源分配結果分別如圖7和圖8所示。圖中的顏色深淺表示干擾功率的大小,深藍色的部分表示無干擾波束被分配。由于初始化的隨機種群對PSO算法的性能有很大影響,因此每次收斂的結果具有波動性,且需要迭代多次才能得到較好的結果。因此可以明顯地看出,在作戰場景態勢緩慢變化的情況下,基于PSO算法的干擾波束分配策略頻繁變化,而基于AKE-TD3算法的干擾波束分配策略一直保持穩定,初步證明了本文所提方法的穩定性。

圖7 基于PSO算法干擾資源分配結果Fig.7 The results of resource allocation achieved by PSO algorithm

圖8 基于AKE-TD3算法干擾資源分配結果Fig.8 The results of resource allocation achieved by AKE-TD3 algorithm

為了進一步分析PSO算法和AKE-TD3算法的干擾性能和穩定性。本文使用PSO算法進行100次蒙特卡洛仿真實驗,并使用AKE-TD3算法在10個隨機種子下進行仿真實驗。得到不同算法全局代價函數在單次仿真全過程中(每一幀)的最大值、最小值和平均值,如圖9所示。對不同算法的總全局代價函數和分配策略平均變化次數進行數值統計分析,如表4所示。可以看出,本文所提算法的全局代價函數值和分配策略變化次數都比PSO算法小。因此其干擾能力更強,且在緩慢變化的戰場態勢中不會頻繁的變換策略。進一步驗證了本文所提算法的有效性和穩定性。

圖9 不同算法全局代價函數對比Fig.9 Comparison of global cost functions for different algorithms

表4 算法的總體性能對比Tab.3 Comparison of overall performance of algorithms

本文每隔100輪取消動作噪聲,將整個突防過程中所有時刻的干擾效能之和作為總回報。設置10個隨機種子,統計平均總回報的收斂曲線如圖10所示。深色的線代表回報的平均值,淺色的部分代表不同隨機種子下回報值的分布情況。可以看出,在訓練前期,總回報值一直在波動;隨著訓練的進行,曲線逐漸上升直至收斂。收斂曲線結果證明了AKE-TD3算法的可行性。值得注意的是,深度強化學習需要大量的時間訓練,AKE-TD3算法平均單次訓練時間約為6 h。但可以通過在不同場景下進行訓練將泛化性的策略保存到神經網絡中,使其具備較高的實時性,這也是深度強化學習的特點和優勢。

圖10 TD3算法回報函數收斂曲線Fig.10 Convergence curve of the AKE-TD3 algorithm reward function

4 結束語

本文針對干擾機群掩護目標突防組網雷達的場景,提出了一種基于深度強化學習的干擾資源分配方法。將干擾資源分配建模為一個馬爾可夫決策過程,提出基于動作密鑰編碼的雙延遲深度確定性策略梯度算法對模型進行求解。仿真結果表明,本文所設計的算法在多約束復雜干擾問題中,可以通過模擬智能體與環境之間的交互來探索干擾策略。相較于傳統智能優化方法,干擾效能得到提升,且能夠滿足穩定性的要求。值得注意的是,深度強化學習具有出色的泛化能力。通過隨機模擬突防場景對智能體進行訓練,可以使其具備在未知環境下的作戰能力,這將是后續工作的重點。

猜你喜歡
深度動作策略
深度理解一元一次方程
例談未知角三角函數值的求解策略
我說你做講策略
深度觀察
深度觀察
深度觀察
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
主站蜘蛛池模板: 国产玖玖视频| 超碰91免费人妻| 综合天天色| 免费在线观看av| 免费毛片网站在线观看| 波多野结衣在线一区二区| 国产成人毛片| 国产精品一区二区久久精品无码| 欧美日本视频在线观看| 国产精品免费入口视频| 国产成人综合网在线观看| 在线视频亚洲欧美| 亚洲成网777777国产精品| 亚洲欧美成aⅴ人在线观看| 久久久久久尹人网香蕉| 国产91透明丝袜美腿在线| 亚洲国产第一区二区香蕉| 久久精品女人天堂aaa| 国产99视频免费精品是看6| 免费高清a毛片| 国产在线98福利播放视频免费| 影音先锋亚洲无码| 2021无码专区人妻系列日韩| 亚洲va视频| 久久夜色精品| 亚洲精品动漫| 国内老司机精品视频在线播出| 亚洲综合经典在线一区二区| 91年精品国产福利线观看久久 | 久久福利网| 国产香蕉97碰碰视频VA碰碰看| 99re经典视频在线| 免费国产不卡午夜福在线观看| 国产精品亚洲αv天堂无码| 奇米影视狠狠精品7777| a级毛片一区二区免费视频| 91免费国产高清观看| 伊人天堂网| 亚洲欧美自拍一区| 日韩精品成人在线| 国产免费精彩视频| 五月综合色婷婷| 久久动漫精品| 自慰高潮喷白浆在线观看| 国产在线精彩视频二区| 国产女人综合久久精品视| 国产一线在线| 久青草免费在线视频| 国产精品不卡片视频免费观看| 国产成人免费高清AⅤ| 国产福利小视频高清在线观看| 99性视频| 亚洲V日韩V无码一区二区| 综合社区亚洲熟妇p| 欧美亚洲另类在线观看| 不卡无码网| 波多野结衣一二三| 日韩在线欧美在线| 亚洲综合经典在线一区二区| 亚洲欧美日韩精品专区| 色婷婷狠狠干| 中文字幕亚洲专区第19页| 天堂岛国av无码免费无禁网站| 岛国精品一区免费视频在线观看 | 在线观看亚洲精品福利片| 中文字幕无码制服中字| 久久久成年黄色视频| 中文字幕日韩视频欧美一区| 四虎成人在线视频| 国产91小视频| 国产第一色| 久热re国产手机在线观看| 日本91视频| 久久久久中文字幕精品视频| 日本在线欧美在线| 亚洲精品成人片在线观看 | 成人小视频在线观看免费| 国产麻豆永久视频| 中文字幕有乳无码| 成人另类稀缺在线观看| 国产在线拍偷自揄拍精品| 在线播放真实国产乱子伦|