999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全并行深度Q網(wǎng)絡的通信干擾資源快速分配算法

2024-09-13 00:00:00陸永安陳杰豪張琪露唐洪瑩
現(xiàn)代電子技術 2024年13期

摘" 要: 智能干擾技術已成為認知電子戰(zhàn)的重要研究方向。文中研究了對抗場景下最優(yōu)干擾與有限資源分配的策略優(yōu)化問題,通過設計一個可以自適應調(diào)整干擾策略的認知干擾器,選擇出當前狀態(tài)下最優(yōu)的干擾參數(shù),滿足干擾資源分配的實時性和有效性需求。為了進一步降低干擾能耗,引入了干擾持續(xù)時間這一干擾參數(shù),同時考慮了能量有限的約束條件。此外,為加快干擾機的學習速度,還提出了一種具有平行學習獨立決策功能的深度強化學習干擾資源快速分配算法。仿真結(jié)果表明,所提算法能夠在滿足干擾效果的前提下,其干擾能量利用率和訓練速度均優(yōu)于其他的深度強化學習干擾算法,同時對比差距會隨著干擾決策空間維度的增加而擴大。

關鍵詞: 認知干擾; 深度強化學習; 干擾資源分配; 干擾持續(xù)時間; 認知電子戰(zhàn); 全并行

中圖分類號: TN919?34" " " " " " " " " " " " " " 文獻標識碼: A" " " " " " " " " " " "文章編號: 1004?373X(2024)13?0047?08

Communication jamming resource fast allocation algorithm

based on fully parallel deep Q?network

LU Yongan1, 2, CHEN Jiehao1, 2, ZHANG Qilu1, 2, TANG Hongying1

(1. Science and Technology on Micro?system Laboratory, Shanghai Institute of Microsystem and Information Technology,

Chinese Academy of Sciences, Shanghai 201800, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China)

Abstract: Intelligent jamming technology has become an essential research direction in the field of cognitive electronic warfare. In this paper, the strategy optimization of optimal interference and limited resource allocation in confrontation scenarios is studied. By designing a cognitive jammer that can adjust jamming strategies adaptively, the optimal jamming parameters at the current state are selected to satisfy the real time and effectiveness requirements of jamming resource allocation. In order to further reduce jamming energy consumption, the parameter named jamming duration is introduced while considering the constraints of limited energy resources. Additionally, a deep reinforcement learning (DRL) jamming resource fast allocation algorithm with parallel learning and independent decision?making capabilities is proposed to accelerate the learning speed of the jammer. The simulation results indicate that the proposed algorithm is capable of outperforming the other DRL jamming algorithms in terms of jamming energy utilization and training speed while satisfying the jamming effect. Meanwhile, its comparison gap expands with the increase of the dimension of the jamming decision space.

Keywords: cognitive jamming; DRL; jamming resource allocation; jamming duration; cognitive electronic warfare; fully parallel

0" 引" 言

作為認知電子戰(zhàn)的關鍵環(huán)節(jié),電子對抗在現(xiàn)代戰(zhàn)爭中發(fā)揮的作用愈加重要,已成為近年來的研究熱點[1?2]。如何在有限時間內(nèi)確保成功干擾,最大程度上提高干擾資源利用率是當前亟須解決的重要難題。一方面,大多數(shù)通信干擾技術仍采用傳統(tǒng)的干擾方法,包括連續(xù)干擾、反應干擾、欺騙干擾、隨機周期干擾、掃頻干擾等[3?6]。這些干擾方法十分依賴先驗信息,在復雜的戰(zhàn)場通信環(huán)境下難以自適應地調(diào)整干擾策略,無法實施精確干擾和高效利用干擾資源。另一方面,為了確保信息的安全傳輸,各種智能抗干擾技術也給干擾決策帶來了巨大的挑戰(zhàn)[7?13]。

為了應對日益強大的抗干擾技術,克服傳統(tǒng)干擾方式單一、不靈活的缺點,許多學者開展了通信干擾技術的研究[14?22],尤其是利用智能學習解決動態(tài)未知環(huán)境下的實時干擾決策問題。文獻[14]研究了加性高斯白噪聲信道下的最優(yōu)干擾問題,并指出為了使受害者接收機的誤碼率最大化,干擾機信號與受害者信號匹配并不總是最優(yōu)的。文獻[16]結(jié)合Wolpertinger體結(jié)構(gòu),提出了一種基于深度強化學習和最大熵的軟行動者?批評(SAC)干擾算法,該算法能夠解決大規(guī)模干擾參數(shù)下無法收斂的問題。文獻[19]提出了一種基于深度強化學習的并行學習和聯(lián)合決策的干擾算法,解決了在動態(tài)頻譜環(huán)境下干擾信道和功率的聯(lián)合決策問題。

在干擾資源分配問題的研究中,上述大多數(shù)工作主要側(cè)重于優(yōu)化干擾功率來提高資源利用率,而忽略了干擾時隙結(jié)構(gòu)的影響。更具體地,整個干擾時間被劃分為若干時隙,其中每個時隙包含固定長度的干擾持續(xù)時間。當干擾效果(目標信號的誤碼率)達到理想閾值時,則可以進一步減小干擾持續(xù)時間,這對于配備有電池的干擾機的能量效率是非常重要的。

然而,當涉及到多域參數(shù)(如功率、頻道和持續(xù)時間等)的操縱時,智能干擾系統(tǒng)面臨的最大挑戰(zhàn)是大規(guī)模的決策空間問題,這會嚴重降低干擾系統(tǒng)的學習速度,加劇訓練過程的收斂難度,甚至導致網(wǎng)絡無法收斂,這對于分秒必爭的戰(zhàn)爭環(huán)境是十分致命的。雖然有部分研究工作提供了相應的解決方案[16,19],但是沒有考慮干擾頻道參數(shù)與其他干擾參數(shù)之間的并行學習關系。因此,僅僅通過增加網(wǎng)絡結(jié)構(gòu),利用單一網(wǎng)絡將全部干擾參數(shù)集中輸出,難以從根本上解決強化學習中超大狀態(tài)動作空間問題。

針對上述問題,本文綜合考慮干擾持續(xù)時間、干擾功率、調(diào)制方式和干擾頻道等因素設計干擾方案。為了克服大規(guī)模決策空間訓練速度慢、收斂困難的問題,受文獻[19]的啟發(fā),提出了一種基于強化學習的干擾資源分配快速決策算法。該算法將一個集中輸出的單策略網(wǎng)絡分解為兩個具有獨立決策和學習能力的子網(wǎng)絡,并行學習通信目標頻道的變化規(guī)律和干擾效果。仿真結(jié)果表明,在干擾成功率相同的情況下,該算法的干擾效率對比其他算法至少提高了13%。此外,與其他先進的強化學習算法相比,該算法收斂速度更快,可更高效地完成資源分配。

1" 系統(tǒng)模型與問題構(gòu)建

1.1" 系統(tǒng)模型

本文考慮了一個動態(tài)通信對抗場景,其中存在一個干擾系統(tǒng)和一個通信系統(tǒng)。通信系統(tǒng)由一對收發(fā)機組成,用于信息的傳輸和接收。干擾系統(tǒng)由一個干擾機組成,通過發(fā)送干擾信號破壞通信方的正常通信。在信息傳輸過程中,假設對抗場景下的無線傳輸信道為加性高斯白噪聲(AWGN)信道,通信方的接收機與發(fā)射機之間完全同步,并采用TCP/IP協(xié)議進行通信。

假設通信方傳輸時長為[T],單位傳輸時隙的大小為[Δt=TN],[N]為傳輸周期[T]內(nèi)時隙數(shù)量。通信方發(fā)射機有[W]個發(fā)射功率等級,通信功率集定義為[Pi={pi1,pi2,…,piW}];干擾機有[M]個干擾功率等級,干擾功率集定義為[Pj={pj1,pj2,…,pjM}]。通信方與干擾方的可用頻率范圍和調(diào)制樣式種類均相同,可用頻率范圍均勻分成[C]個頻道,可以表示為[C={f1,f2,…,fc}],其中[fc∈C]表示第[c]個頻道的中心頻率,可用頻道帶寬恒定為[B],調(diào)制樣式總共有[L]種,調(diào)制樣式集定義為[M={m1,m2,…,mL}]。干擾持續(xù)時間在單個傳輸時隙內(nèi)平均劃分成[k]份,干擾持續(xù)時間集合可以表示為[K={1k,2k,…,1}]。當干擾持續(xù)時間為1時,則表示為干擾通信方整個通信時隙。

根據(jù)通信TCP/IP協(xié)議,通信信號確認幀(ACK)/非確認幀(NACK)信息與數(shù)據(jù)包錯誤率(PER)有明確對應關系。借鑒文獻[15],可以通過監(jiān)聽通信方的確認幀來估計通信方的數(shù)據(jù)包錯誤率,進而推出通信方符號錯誤率(SER),可由式(1)給出:

[SER=1-(1-PER)1Nsym] (1)

式中[Nsym]是一個數(shù)據(jù)包中的符號數(shù)量。

干擾系統(tǒng)可通過SER判斷是否干擾成功,如式(2)所示:

[μSER(n)=1,SER≥η0,SERlt;η] (2)

式中:[μSER(n)]表示[n]時隙下干擾成功的指示函數(shù),[μSER(n)=1]時,表示干擾成功,[μSER(n)=0]時,表示干擾失敗;[η]為最低干擾誤碼率閾值。

干擾方旨在盡可能干擾通信方全部時隙并且使其能量消耗最低。為此設定JSR表示成功干擾率,其數(shù)學表達式為:

[JSR=n=0NμSER(n)N] (3)

當干擾成功時隙占全部時隙滿足一定比例時,即可表示該周期下通信信息全部傳輸失敗。因此,設定[JSR≥λ]表示成功干擾通信方全部傳輸信息,其中[λ]代表最低干擾成功率閾值。

每個時隙[n]下,干擾方的干擾功率和干擾持續(xù)時間分別為[pj(n)]和[k(n)]。因此,整個通信周期[T]下干擾方所消耗的總能量為:

[Esum=n=0Npj(n)k(n)," " pj(n)∈Pj,k(n)∈K] (4)

因此最優(yōu)干擾與有限資源分配問題就轉(zhuǎn)化為帶約束組合優(yōu)化問題:

[minEsum=minn=0Npj(n)k(n)s.t.JSR≥λ0≤pj(n)≤pjMEsum≤Emax]

式中:[pjM]表示干擾機最大干擾功率;[Emax]表示干擾機最大能量。

1.2" 馬爾科夫決策過程

本文的核心問題是對抗場景下最優(yōu)干擾與有限資源分配的策略優(yōu)化問題,根據(jù)馬爾科夫決策過程(MDP)[23]的定義,可以將上述的對抗過程建模成為一個MDP問題,其中干擾系統(tǒng)和通信系統(tǒng)相互作用做出決策。如圖1所示,通信方和干擾方根據(jù)它們各自的策略進行對抗,其中水平軸表示不同的時隙,垂直軸表示不同的頻道。干擾方的智能代理通過求解MDP得到最優(yōu)的干擾策略。MDP問題可以通過一個四元組[S,A,P,R]來表示,其中[S]是環(huán)境狀態(tài)空間,[A]是干擾方可以采取的行動空間,[P]是環(huán)境狀態(tài)的轉(zhuǎn)移概率矩陣,[R]是干擾方執(zhí)行動作[A]后獲得的獎勵函數(shù)。

在本文中,MDP元素的具體含義如下。

狀態(tài)空間[S]:[S=[s1,s2,…,sn]],[sn]表示在[n]時隙下頻譜感知信息,可以表示為:

[sn=[sf(n),spm(n),ζ(n)]sf(n)=[fi(n),fi(n-1),…,fi(n-τ)]," "fi(n)∈Cspm(n)=[pi(n),mi(n)]," " pi(n)∈Pi,mi(n)∈Mi] (5)

式中:[sf(n)]表示[n]時隙下通信方[τ]步的歷史頻點信息;[spm(n)]表示[n]時隙下通信方發(fā)射功率和調(diào)制樣式信息;[ζ(n)]表示[n]時隙下偵聽到的NACK包數(shù)量。

動作空間[A]:[A=[a1,a2,…,an]],[an]表示在[n]時隙下干擾機所采取的動作,可以表示為:

[an=[af(n),apmt(n)]af(n)=fj(n)," " fj(n)∈Capmt(n)=[pj(n),mj(n),k(n)],pj(n)∈Pj,mj(n)∈Mj,k(n)∈K] (6)

式中:[af(n)]表示[n]時隙下干擾機所選擇的頻道動作;[pj(n)]、[mj(n)]、[k(n)]分別表示[n]時隙下干擾機所選擇的功率大小、干擾樣式以及干擾持續(xù)時間。

獎勵函數(shù)[R]:在設計獎勵函數(shù)時,不僅需要考慮通信系統(tǒng)的傳輸性能下降情況,同時還需考慮干擾能耗的大小,以最大限度地避免干擾能量的浪費。獎勵函數(shù)設計如下:

[r(sn,an)=rf(n)+rpmt(n)] (7)

式中,[rf(n)]是頻道干擾獎勵函數(shù),具體表達式為:

[rf(n)=1,fj(n)-fi(n)lt;ε-1,else] (8)

當干擾頻道中心頻率與通信頻道中心頻率小于一個門限值[ε]時,表示干擾方與通信方在同一頻道下,得到獎勵值為1;否則,獎勵值為-1。[rpmt(n)]表示干擾效果獎勵函數(shù),具體表達式為:

[rpmt(n)=μSER(n)-pj(n)k(n)+SER] (9)

式中:[μSER(n)]是為了滿足當前通信時隙被成功干擾的條件;中間部分的懲罰項是為了降低干擾機能耗;獎勵值SER是為了在同一耗能下選擇出最優(yōu)的干擾樣式。

智能干擾系統(tǒng)的目標是通過不斷的學習和訓練,找到使累計獎勵值[Rsum]最大化的最佳干擾策略[π?],因此,本文的優(yōu)化目標公式如下:

[π?=argmaxπEτ~π(τ)Rsum,Rsum=maxEn=0Nγnr(sn,an)," " sn∈S,an∈A] (10)

式中:[E[·]]為數(shù)學期望;[0lt;γlt;1]為長期折扣因子。

2" 基于全并行DQN的干擾資源快速分配算法

在通信對抗領域,由于其通信方信號和干擾信號所組成的狀態(tài)空間與動作空間十分龐大,會導致基于表值或基于深度Q網(wǎng)絡(DQN)的方法收斂緩慢甚至出現(xiàn)不收斂的情況。為解決上述問題,本文提出了一種全并行DQN網(wǎng)絡結(jié)構(gòu),將集中輸出的單一DQN網(wǎng)絡解耦成兩個可以平行學習的DQN子網(wǎng)絡,通過各自DQN子網(wǎng)絡學習對應的動作價值,降低動作輸出維度,進而加快收斂速度。本節(jié)首先簡要介紹DQN算法,然后在DQN算法的基礎上,再詳細介紹所提算法Fully Parallel?DQN。

2.1" DQN算法

DQN是一種強化學習算法,它將深度神經(jīng)網(wǎng)絡與Q?learning算法相結(jié)合。DQN背后的基本思想是近似[Q]函數(shù),它表示在給定狀態(tài)下采取特定行動的預期未來回報。傳統(tǒng)的Q學習算法使用查找表來存儲對應于每個狀態(tài)動作的[Q]值,并通過式(11)不斷更新:

[Q(s,a)=(1-α)Q(s,a)+α(r(s,a)+λmaxaQ(s,a))] (11)

式中:[α∈(0,1]]是學習率;[s]、[a]分別是下一個狀態(tài)和下一個動作。

然而,當MDP模型具有高維度、大規(guī)模的狀態(tài)動作空間時,會讓[Q]表的存儲和搜索變得不切實際。為解決這一問題,許多研究都采用了函數(shù)逼近的方法,尤其是深度神經(jīng)網(wǎng)絡(DNN)作為一種非線性函數(shù)近似,被廣泛應用于大規(guī)模的強化學習,即[Q(s,a)≈Q(s,a,w)],其中[w]代表神經(jīng)網(wǎng)絡的權值參數(shù)。在DQN中,可以用DNN逼近[Q]值函數(shù)的分布,并通過優(yōu)化損失函數(shù)訓練DNN。

[L(w)=E[(yt-Q(s,a,w))2]] (12)

式中[yt]為目標[Q]值,可以看作標簽值,表示為:

[yt=r+γmaxaQ(s,a,w)] (13)

然而DQN算法可能不穩(wěn)定,原因有兩個:首先,在強化學習中訓練樣本之間存在相關性,因此無法滿足深度學習所需的獨立同分布條件;其次,即使對[Q]參數(shù)進行微小更新,也可能會導致策略的劇烈波動,從而改變訓練數(shù)據(jù)的分布情況。為了解決這些問題,文獻[24]開發(fā)了經(jīng)驗重放和目標網(wǎng)絡機制。具體來說,利用經(jīng)驗回放模塊存儲每一系列產(chǎn)生的狀態(tài)轉(zhuǎn)移樣本[(s,a,r,s′)],可以隨機采樣一批樣本進行學習,由于樣本的隨機性,這些數(shù)據(jù)之間的相關性可以被消除。此外,目標網(wǎng)絡具有與在線網(wǎng)絡相同的結(jié)構(gòu),但不同的權值參數(shù)會周期性地從在線網(wǎng)絡中復制,從而保證了目標的穩(wěn)定性。

2.2" 全并行DQN算法

如圖2所示,本文設計了一種“并行學習獨立決策”機制,用來加快干擾機在線學習速度和更新過程。其設計思想借鑒分層強化學習,將學習任務分解成更小、更易管理的子任務來解決復雜問題[25]。

在電磁對抗場景下,為了最大限度干擾敵方通信,首先需要考慮的是干擾效果能否滿足切斷通信鏈路的最低需求,其次才考慮有限資源分配問題。而保證干擾效果的前提是需要確保干擾信號與通信方信號的頻道是否相同。因此,可以將對抗場景下最優(yōu)干擾與有限資源分配的策略優(yōu)化問題分解為干擾效果與資源分配兩個子任務,并按照子任務的優(yōu)先等級去完成。

為了并行學習干擾效果與資源分配兩個子任務,在算法設計上,參考了DQN算法并加以修改,將集中輸出的單一DQN網(wǎng)絡劃分為兩個具有獨立決策和學習能力的子網(wǎng)絡,分別為頻道決策子(Channel Agent)網(wǎng)絡和功率?樣式?持續(xù)時間聯(lián)合決策(Power?Mode?Time Agent, PMT Agent)子網(wǎng)絡。每個子網(wǎng)絡均可看作為獨立的Agent。每個子網(wǎng)絡根據(jù)各自的感知信息和獎勵函數(shù)自主學習并更新網(wǎng)絡參數(shù),主要的優(yōu)點是能降低輸入輸出空間維度。具體地,在單一結(jié)構(gòu)的DQN算法下,其狀態(tài)和動作維度分別為:[C×W×L]、[C×M×L×K]。而相對于全并行DQN算法,并行結(jié)構(gòu)可以將頻道與其他干擾參數(shù)分開學習,因此其輸入和輸出維度可以降低為[C+W×L]、[C+M×L×K]。

Channel Agent旨在學習敵方通信方頻道的變化規(guī)律,而PMT Agent旨在滿足干擾效果的前提下,優(yōu)化干擾能耗。每一時刻下,Channel Agent會將頻域歷史信息傳輸?shù)讲呗栽u估網(wǎng)絡中進行評估,并根據(jù)策略網(wǎng)絡選擇出頻道動作[aft]及其狀態(tài)動作[Q]值。同理,PMT Agent會將功率?樣式感知信息[spmt]傳輸?shù)綄牟呗跃W(wǎng)絡,并輸出動作[apmtt]及其[Q]值。參考DQN算法的更新規(guī)則和當前狀態(tài)的獎勵值[rft]、[rpmtt],頻道損失函數(shù)[Lf(w)]和功率?樣式?干擾持續(xù)時間聯(lián)合損失函數(shù)[Lpmt(w)]可以表示為:

[Lf(w)=Erft+γmaxaft+1Q′1(sft+1,aft+1;w)-Q1(sft,aft;w)2] (14)

[Lpmt(w)=" "Erpmtt+γmaxapmtt+1Q′2(spmt+1,apmtt+1;w)-Q2(spmt,apmtt;w)2] (15)

式中[Q]表示目標網(wǎng)絡。

同時,還設計了一個更新規(guī)則,用來規(guī)范Channel Agent和PMT Agent的更新時間以及判斷是否需要停止更新。如上文所述,該算法首要任務是解決干擾頻道選擇問題,并且PMT Agent獎勵函數(shù)[rpmtt]中的干擾成功指數(shù)函數(shù)[μSER(·)]與誤碼率SER取決于Channel Agent的頻道選擇。也就是說,只有當干擾頻道與通信頻道相同時,獎勵函數(shù)[rpmtt]才會得到一個正確值;否則得到一個錯誤值,會影響PMT Agent的策略更新。因此,整個算法更新規(guī)則為:當干擾頻道與通信頻道相同時,Channel Agent和PMT Agent同時更新;否則,只更新Channel Agent。全并行DQN算法偽代碼如下:

算法:基于全并行DQN的快速干擾資源分配算法(Fully Parallel?DQN)

步驟1:初始化頻道子網(wǎng)絡Channel Agent和聯(lián)合子網(wǎng)絡PMT Agent的超參數(shù);

步驟2:初始化Channel Agent頻道子評估網(wǎng)絡的權重[w1]和目標網(wǎng)絡的權重[w′1];

步驟3:初始化PMT Agent聯(lián)合子評估網(wǎng)絡的權重[w2]和目標網(wǎng)絡的權重[w′2];

步驟4:

for [episode=1,2,…,M] do

for time slot [t=1,2,…,N] do

根據(jù)感知信息構(gòu)建狀態(tài)[st=[sft,spmt,ζt]];

輸入狀態(tài)[sft]到Channel Agent評估網(wǎng)絡并輸出干擾動作[aft]選擇干擾頻道[c];

輸入狀態(tài)[spmt]到PMT Agent評估網(wǎng)絡并輸出干擾動作[apmtt],選擇干擾功率[p],調(diào)制樣式[m]和干擾持續(xù)時間[k];

根據(jù)[ε?greedy]策略執(zhí)行動作,得到下一狀態(tài)[st+1]并根據(jù)式(8)、式(9)計算得到獎勵值;

存儲[(sft,aft,rft,sft+1)]到經(jīng)驗回放池[Df];

從經(jīng)驗回放池[Df]中隨機采樣小批次[Bf]訓練;

根據(jù)式(14)計算損失函數(shù)值,并更新Channel Agent評估網(wǎng)絡參數(shù)[w1];

if干擾選擇的頻道與通信方頻道相同then

存儲[(spmt,apmtt,rpmtt,spmt+1)]到經(jīng)驗回放池[Dpmt];

從經(jīng)驗回放池[Dpmt]中隨機采樣小批次[Bpmt]訓練;

根據(jù)式(15)計算損失函數(shù)值,并更新PMT Agent評估網(wǎng)絡參數(shù)[w2];

else

暫停更新PMT Agent評估網(wǎng)絡;

end if

每[Nf]步更新Channel Agent目標網(wǎng)絡權重[w′1=w1];

每[Npmt]步更新PMT Agent目標網(wǎng)絡權重[w′2=w2];

end for

end for

3" 仿真與結(jié)果分析

在這一部分中,給出了仿真結(jié)果,并從干擾成功率、能量消耗和干擾收斂速度三個方面對所提算法進行了性能分析。數(shù)值結(jié)果表明,在通信方具有實時檢測干擾能力,能夠動態(tài)調(diào)整通信參數(shù)回避干擾的情況下,該算法可以有效地干擾通信方的全部時隙,同時大幅度降低干擾能耗。此外,將Fully Parallel?DQN與幾種主流的強化學習基線進行了比較。比較結(jié)果表明,該算法在干擾效果和收斂速度方面均優(yōu)于基線。

3.1" 仿真設置

在本文仿真中,假設通信方和干擾機的可用頻帶帶寬為10 MHz,可分為[C=5]頻道,帶寬為[B=2 MHz]。通信方和干擾方在任何時間[t]下發(fā)送1個[Nsym=1 000]符號的包。如果在通信方接收機處至少有[η=]10%的碼元被錯誤接收,則表示干擾成功。通信方發(fā)射機的發(fā)射功率有三個等級[Pi=1 W,2 W,3 W],干擾功率集合為[Pj=1 W,2 W,3 W,4 W]。干擾方和通信方可選的調(diào)制樣式集合均相同。為便于分析,假設通信方的通信總時長[T=10 s],共有[N=100]個通信時隙。在單位時隙[Δt=TN=100 ms]內(nèi),干擾持續(xù)時間被平均劃分成[k=10]個干擾子時隙,干擾機可以任意干擾若干個子時隙。背景噪聲功率為-70 dBm。

通信距離和干擾距離均為100 m,其他實驗及模型參數(shù)如表1、表2所示。

在仿真中,引入干擾成功率(JSR)、干擾收斂時間(JCT)和干擾效用率(JSE)三大指標來衡量算法的性能。JSE表示干擾成功率與總干擾能耗的比值,可以定義為:

[JSE=JSREsum] (16)

式中[Esum]可以通過公式(4)得出。JSE反映了干擾機單位功率的效用值,較高的JSE值表示較高的資源利用率。

還需介紹幾種干擾算法作為比較,以評估所提出干擾算法的性能:所提算法(Fully Parallel?DQN),算法網(wǎng)絡結(jié)構(gòu)使用全并行結(jié)構(gòu);半并行DQN算法(Semi Parallel?DQN),參考文獻[19],使用半并行網(wǎng)絡結(jié)構(gòu);DQN算法,采用默認集中輸出的單一DQN網(wǎng)絡;Q?learning算法;random算法。

3.2" 仿真與結(jié)果分析

圖3展示了所提算法與其他經(jīng)典強化學習干擾算法的性能對比情況。由圖3可知,所提算法無論在JSR還是在JSE下,均比其他干擾算法效果好。采取半并行網(wǎng)絡的Semi Parallel?DQN算法和傳統(tǒng)DQN算法的效果大致相同。對于Q?learning算法,由于[Q]表不適合存儲和搜索大規(guī)模狀態(tài)動作空間,所以它的JSR僅有0.53。在干擾收斂時間(JCT)上,所提算法僅需7個epoch的訓練時間就能成功收斂,而相對于Semi Parallel?DQN和DQN算法,盡管它們在干擾效果上十分接近所提算法,但是需要至少75個epoch訓練時間下才能成功實現(xiàn)干擾通信方全部時隙的要求。在有限的訓練時間限制下,所提算法的并行結(jié)構(gòu)能更好地提高干擾機的收斂速度,快速達到理想的干擾效果,滿足實時性需求。

圖4展示了不同大小的干擾時隙劃分性能對比情況。由圖4可以看出,三種干擾子時隙劃分情況均能實現(xiàn)最佳干擾效果,并且干擾子時隙劃分數(shù)量與干擾成功率的收斂速度JCT成負相關,與干擾效用率JSE成正相關。在單位通信時隙下,干擾子時隙劃分數(shù)量越多,相應的動作空間[k(n)]參數(shù)也會隨之增大,這會導致網(wǎng)絡復雜度和輸出維度成比例上升,最終造成收斂時間變長。同時,因為干擾子時隙的間隔越小,干擾機可以選擇的干擾持續(xù)時間就越精確,避免了多余的干擾時間,因此JSE會隨著干擾子時隙數(shù)量增加而增大。

此外,為進一步驗證在大規(guī)模狀態(tài)動作空間下所提算法的優(yōu)越性,還分別將通信方頻道個數(shù)增加到10個和15個,多個頻道下的干擾成功率與干擾效用率對比如圖5所示。結(jié)合圖5和圖3可以看出,僅有所提算法滿足干擾通信方全部時隙的要求,同時頻道個數(shù)的增加對所提算法影響不大,三種不同頻道個數(shù)的最終干擾效果基本一致,干擾成功率的收斂時間也均能在20個epoch下實現(xiàn)收斂。對于其他經(jīng)典強化學習干擾算法,頻道個數(shù)的變化對他們的JSR和JSE影響較為明顯。尤其是DQN算法,隨著狀態(tài)動作空間的上升,JSR和JSE急劇下降,學習速度變得十分緩慢。還可以看出,隨著頻道個數(shù)的增加,所提算法與其他經(jīng)典干擾算法的性能差距進一步加大。

4" 結(jié)" 論

本文針對對抗場景下最優(yōu)干擾與有限資源分配的策略優(yōu)化問題,提出了一種基于全并行深度Q網(wǎng)絡的干擾資源分配快速決策算法。該算法把干擾資源分配問題建模為馬爾可夫決策過程,并將傳統(tǒng)的單一策略網(wǎng)絡劃分為兩個具有獨立決策和學習能力的子網(wǎng)絡,通過兩個獨立的子網(wǎng)絡并行學習頻道的變化規(guī)律以及干擾效果和能耗。這樣既能保證訓練過程的學習速度,又增強了決策過程的魯棒性;同時,還引入了干擾持續(xù)時間這一干擾參數(shù),在保證干擾效果的同時最小化干擾能耗,進一步提高了干擾資源利用率。仿真結(jié)果表明,該算法無論在干擾能耗還是收斂速度上均優(yōu)于其他強化學習方法,同時算法穩(wěn)定性高,更能適應高維度的決策空間,能夠在更復雜的動態(tài)通信對抗場景下保持快速收斂。

注:本文通訊作者為唐洪瑩。

參考文獻

[1] PIRAYESH H, ZENG H. Jamming attacks and anti?jamming strategies in wireless networks: A comprehensive survey [J]. IEEE communications surveys amp; tutorials, 2022, 24(2): 767?809.

[2] 劉松濤,雷震爍,溫鎮(zhèn)銘,等.認知電子戰(zhàn)研究進展[J].探測與控制學報,2020,42(5):1?15.

[3] PELECHRINIS K, ILIOFOTOU M, KRISHNAMURTHY S V. Denial of service attacks in wireless networks: The case of jammers [J]. IEEE communications surveys amp; tutorials, 2011, 13(2): 245?257.

[4] CAI Y, PELECHRINIS K, WANG X, et al. Joint reactive jammer detection and localization in an enterprise WiFi network [J]. Computer networks, 2013, 57(18): 3799?3811.

[5] SCHULZ M, GRINGOLI F, STEINMETZER D, et al. Massive reactive smartphone?based jamming using arbitrary waveforms and adaptive power control [C]// Proceedings of the 10th ACM Conference on Security and Privacy in Wireless and Mobile Networks. New York: ACM, 2017: 111?121.

[6] LICHTMAN M, JOVER R P, LABIB M, et al. LTE/LTE?A jamming, spoofing, and sniffing: Threat assessment and mitigation [J]. IEEE communications magazine, 2016, 54(4): 54?61.

[7] QI N, WANG W, XIAO M, et al. A learning?based spectrum access Stackelberg game: Friendly jammer?assisted communication confrontation [J]. IEEE transactions on vehicular technology, 2021, 70(1): 700?713.

[8] LI Y Y, XU Y H, XU Y T, et al. Dynamic spectrum anti?jamming in broadband communications: A hierarchical deep reinforcement learning approach [J]. IEEE wireless communications letters, 2020, 9(10): 1616?1619.

[9] YAO F Q, JIA L L. A collaborative multi?agent reinforcement learning anti?jamming algorithm in wireless networks [J]. IEEE wireless communications letters, 2019, 8(4): 1024?1027.

[10] PEI X F, WANG X M, YAO J N, et al. Joint time?frequency anti?jamming communications: A reinforcement learning approach [C]// 2019 11th International Conference on Wireless Communications and Signal Processing (WCSP). New York: IEEE, 2019: 1?6.

[11] LIU X, XU Y H, JIA L L, et al. Anti?jamming communications using spectrum waterfall: A deep reinforcement learning approach [J]. IEEE communications letters, 2018, 22(5): 998?1001.

[12] 宋佰霖,許華,蔣磊,等.一種基于深度強化學習的通信抗干擾智能決策方法[J].西北工業(yè)大學學報,2021,39(3):641?649.

[13] WANG X M, WANG J L, XU Y H, et al. Dynamic spectrum anti?jamming communications: Challenges and opportunities [J]. IEEE communications magazine, 2020, 58(2): 79?85.

[14] AMURU S D, BUEHRER R M. Optimal jamming against digital modulation [J]. IEEE transactions on information forensics and security, 2015, 10(10): 2212?2224.

[15] AMURU S D, TEKIN C, VAN DER SCHAAR M, et al. Jamming bandits: A novel learning method for optimal jamming [J]. IEEE transactions on wireless communications, 2016, 15(4): 2792?2808.

[16] XU Y T, WANG C, LIANG J K, et al. Deep reinforcement learning based decision making for complex jamming waveforms [J]. Entropy, 2022, 24(10): 1441.

[17] HAN D Q, LI A, ZHANG L L, et al. Deep learning?guided jamming for cross?technology wireless networks: Attack and defense [J]. IEEE/ACM transactions on networking, 2021, 29(5): 1922?1932.

[18] 饒寧,許華,齊子森,等.基于最大策略熵深度強化學習的通信干擾資源分配方法[J].西北工業(yè)大學學報,2021,39(5):1077?1086.

[19] WANG L G, LI G X, SONG F, et al. A DRL?based intelligent jamming approach for joint channel and power optimization [J]. Wireless communications and mobile computing, 2023(1): 3625917.

[20] ZHUANSUN S S, YANG J N, LIU H. Apprenticeship learning in cognitive jamming [J]. Optimal control applications and methods, 2019, 40(4): 647?658.

[21] KIM G, LIM H. Reinforcement learning based beamforming jammer for unknown wireless networks [J]. IEEE access, 2020, 8: 210127?210139.

[22] 彭翔,許華,蔣磊,等.一種融合噪聲網(wǎng)絡的深度強化學習通信干擾資源分配算法[J].電子與信息學報,2023,45(3):1043?1054.

[23] SUTTON R S, BARTO A G. Reinforcement learning: An introduction [M]. Massachusetts: MIT press, 2018.

[24] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human?level control through deep reinforcement learning [J]. Nature, 2015, 518(7540): 529?533.

[25] PATERIA S, SUBAGDJA B, TAN A H, et al. Hierarchical reinforcement learning: A comprehensive survey [J]. ACM computing surveys, 2022, 54(5): 1?35.

主站蜘蛛池模板: 色婷婷天天综合在线| 亚洲激情99| 久久婷婷人人澡人人爱91| 国产91蝌蚪窝| 亚洲视频欧美不卡| 永久免费AⅤ无码网站在线观看| 午夜福利网址| 九九热精品免费视频| 伊人天堂网| 高潮毛片免费观看| 久久精品丝袜高跟鞋| 国产成人一区| 91免费国产在线观看尤物| 五月婷婷精品| 极品私人尤物在线精品首页 | 亚洲视频a| 99在线小视频| 99久久精彩视频| 国产精品无码在线看| 亚洲一区二区三区国产精华液| 国产精品欧美亚洲韩国日本不卡| 日韩精品毛片人妻AV不卡| 一区二区自拍| 欧洲精品视频在线观看| 国产成人一区二区| 欧美亚洲欧美区| 毛片在线看网站| 欧美一级特黄aaaaaa在线看片| 国内精品小视频福利网址| 国产日韩欧美成人| 婷婷综合亚洲| 99久久人妻精品免费二区| 久久综合丝袜长腿丝袜| 狠狠v日韩v欧美v| 91色综合综合热五月激情| 中文天堂在线视频| 国产最爽的乱婬视频国语对白| 最新国语自产精品视频在| 色一情一乱一伦一区二区三区小说| 幺女国产一级毛片| 国内精品伊人久久久久7777人| 欧美一级在线看| 97在线公开视频| 亚洲欧美精品日韩欧美| 99久久国产精品无码| 免费一极毛片| 91视频99| 久久久久亚洲AV成人人电影软件 | 亚洲无线视频| 在线五月婷婷| 国产福利不卡视频| 国产迷奸在线看| 内射人妻无套中出无码| 国产成人亚洲毛片| 久久福利网| 中文毛片无遮挡播放免费| 制服丝袜一区| 国产精品13页| 国产成人调教在线视频| 国产欧美日韩专区发布| 波多野结衣一区二区三视频 | 日本在线视频免费| 67194亚洲无码| 亚洲成人动漫在线| 亚洲成a人片| 日韩国产精品无码一区二区三区| 国产精品第一区在线观看| 日本一区二区三区精品国产| 国产菊爆视频在线观看| 蜜臀AV在线播放| 国产亚洲视频免费播放| 中文字幕色站| 精品国产网站| 国产超碰在线观看| 国产爽妇精品| 精品国产自在现线看久久| 亚洲香蕉久久| 国产网站黄| 国产主播福利在线观看| 精品一区二区三区四区五区| 亚洲人成影视在线观看| 极品尤物av美乳在线观看|