999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種通信對抗干擾資源分配智能決策算法

2021-12-02 10:08:54宋佰霖史蘊豪
電子與信息學(xué)報 2021年11期
關(guān)鍵詞:效果

許 華 宋佰霖 蔣 磊 饒 寧 史蘊豪

(空軍工程大學(xué)信息與導(dǎo)航學(xué)院 西安 710077)

1 引言

在通信對抗作戰(zhàn)過程中,干擾決策是核心環(huán)節(jié),選擇最優(yōu)的干擾策略能夠節(jié)省干擾資源,提高干擾成功率。一些基于博弈論[1]、遺傳算法[2]等方法的干擾決策研究相繼取得成果,這些研究主要從干擾樣式、目標、功率等方面入手,通過建立通信方與干擾方的對抗模型,尋找最優(yōu)干擾策略。此類方法在解決小規(guī)模決策問題上理論成熟,具有一定優(yōu)勢,但很難用于解決戰(zhàn)場條件下多維度、大空間、小樣本決策問題。

隨著人工智能技術(shù)的蓬勃發(fā)展,結(jié)合人工智能技術(shù)的認知電子戰(zhàn)相關(guān)研究取得較大進展[3]。在認知電子戰(zhàn)系統(tǒng)的智能決策環(huán)節(jié),多采用強化學(xué)習(xí)相關(guān)方法,能夠為指揮員快速、準確提供輔助決策。強化學(xué)習(xí)是一種無需先驗知識,智能體通過與環(huán)境交互訓(xùn)練,使數(shù)值化收益值最大的一種機器學(xué)習(xí)理論,廣泛應(yīng)用于智能決策與控制[4]、自動駕駛[5]、組合優(yōu)化[6]以及資源分配[7]等領(lǐng)域中。基于強化學(xué)習(xí)的干擾決策方法研究近年來取得較大突破,文獻[8]建立多臂賭博機干擾模型,對物理層中信號體制、功率等級等參數(shù)進行優(yōu)化,以獲得功率最優(yōu)分配的干擾策略;文獻[9]在一種延遲信息場景下,從信息狀態(tài)轉(zhuǎn)移中獲取獎勵,針對802.11機制無線網(wǎng)絡(luò)決策最優(yōu)干擾策略;文獻[10]采用雙層強化學(xué)習(xí)方法,能夠在未知通信協(xié)議情況下以犧牲交互時間為代價學(xué)習(xí)到最佳干擾策略;文獻[11]通過學(xué)習(xí)最佳干擾信號的同相分量和正交分量,得到最優(yōu)干擾參數(shù)和最佳干擾樣式。然而大部分基于強化學(xué)習(xí)的干擾決策方法研究是關(guān)于干擾樣式、功率、物理層參數(shù)的,而幾乎沒有關(guān)于干擾資源分配問題的?,F(xiàn)如今在電磁頻譜作戰(zhàn)中,頻譜管控、資源分配是關(guān)鍵一環(huán),最優(yōu)化分配干擾資源能夠在取得最好干擾效果的同時使用較少的干擾力量,并且不過多占用電磁頻譜資源,保證己方通信正常進行,所以針對資源分配的干擾決策研究是至關(guān)重要的。

文獻[12]提出一種分層深度強化學(xué)習(xí)抗干擾(Hierarchical Deep Reinforcement Learning antijamming algorithm, HDRL)頻率決策算法,該算法在分層強化學(xué)習(xí)模型下分級決策通信頻率,可以在干擾樣式未知的條件下有效躲避干擾并減小計算量。雖然HDRL算法應(yīng)用于通信抗干擾決策場景,但其分層決策結(jié)構(gòu)具有較強適用性,也能夠應(yīng)用于干擾資源分配決策場景。

常用的抗干擾通信手段中,跳頻通信應(yīng)用最為廣泛。本文針對在跳頻干擾中干擾資源分配決策難題,提出一種基于自舉專家軌跡分層強化學(xué)習(xí)的干擾資源分配決策算法(Bootstrapped expert trajectory memory replay - Hierarchical reinforcement learning - Jamming resources distribution decision -Making algorithm, BHJM),按照偵察到的所有跳頻頻點分布劃分子頻段,分層決策干擾頻段及干擾帶寬,并利用本文設(shè)計的基于自舉專家軌跡的經(jīng)驗回放 (Bootstrapped Expert Trajectory Memory Replay, BETMR)機制采樣、訓(xùn)練算法,使算法能夠在現(xiàn)有干擾資源條件下,按照目標干擾優(yōu)先級順序,使用盡可能小的干擾帶寬實現(xiàn)最優(yōu)干擾效果。

2 系統(tǒng)模型

跳頻通信電臺通常使用頻分方式進行組網(wǎng),即在全頻段內(nèi)選擇頻點規(guī)劃跳頻頻率集,不同的頻率集之間通常無相同頻點。針對跳頻通信常使用跟蹤式干擾、攔阻式干擾等手段,隨著跳頻速率不斷增加,在每一跳上的駐留時間越來越短,最基本的跟蹤式干擾很難完成干擾任務(wù)。攔阻式干擾通過對某一頻段范圍內(nèi)干擾信號實施壓制性干擾,只要頻段內(nèi)包含目標頻點,且干擾功率滿足干信比條件,即可使干擾奏效。忽略收發(fā)天線不同帶來的極化損失,干信比計算方法可用式(1)表示

其中,PJ為 干擾機的發(fā)射功率,PS為信號發(fā)射機的發(fā)射功率;HJ為干擾機發(fā)射天線與信號接收天線增益之積,HS為信號發(fā)射機天線增益與接收天線增益之積;LJ和LS分別為干擾機信號和通信信號傳輸?shù)目臻g損耗,用式(2)表示,R為信號傳播距離

將式(2)代入式(1)中,可得到干信比的一般計算表示方法,如式(3)所示

如圖1所示為一個典型的干擾場景,在一個較小區(qū)域內(nèi)部署了多個地面通信干擾站,其干擾空域相同,通過偵察發(fā)現(xiàn)干擾空域內(nèi)有多個跳頻通信網(wǎng)。在實際中需要按照某些復(fù)雜規(guī)則來劃分通信網(wǎng)的威脅系數(shù),本文為簡便起見僅考慮距離因素,按照每個通信網(wǎng)與干擾方的距離不同劃分威脅系數(shù),距離越近威脅系數(shù)越高。如表1所示,由于N1距離干擾站最近,所以其威脅系數(shù)最高為6;而N6距離干擾站最遠,其威脅系數(shù)最小為1。干擾資源分配決策一般從通信目標的威脅系數(shù)入手,威脅系數(shù)越高,對其干擾的優(yōu)先級也就越高。

圖1 典型干擾場景

表1 目標屬性

假設(shè)現(xiàn)有通信網(wǎng)目標均為超短波信號,每個干擾站均采用寬帶攔阻式干擾,每個頻譜帶寬內(nèi)具有均勻相等的頻譜分量,且各站干擾發(fā)射功率相同。干擾空域內(nèi)共有M個通信網(wǎng)目標,W個干擾站;通信網(wǎng)內(nèi)作戰(zhàn)飛機間的信號傳輸距離用RS表示,干擾距離用RJ表 示。以通信網(wǎng)N1為例,對其干擾的干信比可用式(4)表示,當(dāng)干信比大于壓制系數(shù)KN1并且干擾該目標頻率集1/3以上頻點時,干擾有效,通信網(wǎng)N1的通信被阻斷

在干擾站偵收到跳頻信號后,通常對其中混合的多個跳頻信號進行分選。首先利用短時傅里葉變換、小波變換、譜圖變換等時頻分析方法分析估計跳頻頻率集、跳頻周期等特征參數(shù),再基于時空頻信息將不同通信網(wǎng)的信號分開,實現(xiàn)對目標的精準干擾。

如圖2所示為某時刻經(jīng)過網(wǎng)臺分選后跳頻目標的頻點分布情況,在200~400 MHz內(nèi)共有6個目標,每個目標規(guī)劃有一個頻率集。圖2中藍色虛線方框所在頻段的頻點較為密集,在一個頻段內(nèi)有多個目標的跳頻頻點,并且不同目標的頻點還存在交錯排列的情況,此時在不同位置施放攔阻干擾帶會對干擾資源分配及整體干擾效果產(chǎn)生不同影響。將所有目標頻點合并為整體進行干擾規(guī)劃,尋找包含多個不同目標的頻段實施干擾,可實現(xiàn)對多個目標的同時干擾,進而能夠降低干擾站的使用數(shù)量,減少干擾帶寬,實現(xiàn)對干擾資源的優(yōu)化分配。

3 干擾資源分配智能決策算法

3.1 基于整體對抗思想的干擾資源分配算法

針對干擾資源分配不合理、無優(yōu)化算法支撐決策等問題,本文提出基于整體對抗思想的干擾資源分配算法,如表2所示,以實現(xiàn)在現(xiàn)有干擾資源下,按照干擾優(yōu)先級順序,使用盡可能小的干擾帶寬實現(xiàn)最優(yōu)干擾效果。

表2 干擾資源分配算法

該算法將所有目標頻點按照頻率大小順序排列,若前后兩頻點頻率差大于攔阻干擾最大帶寬Bmax,說明這兩個頻點不可能被同一攔阻干擾帶干擾,即將兩頻點劃入前后兩個不同子頻段中。按照上述方法劃分頻點,直至所有頻點均被劃入各個子頻段中,圖2中紅色虛線方框即為劃分后的子頻段。

圖2 200~400 MHz頻率分布

3.2 分層強化學(xué)習(xí)模型

分層強化學(xué)習(xí)的核心思想是將復(fù)雜的深度強化學(xué)習(xí)問題拆解為若干個子問題,通過解決各個子問題來最終解決整體問題。通過給不同層級的子問題分別設(shè)置獎勵函數(shù),能夠有效解決復(fù)雜問題獎勵稀疏、不容易收斂的難題[13,14]。

在干擾資源分配決策問題中,需要同時解決干擾頻段的決策和干擾帶寬的決策,直觀上可以采用窮舉法得到問題的最優(yōu)解,然而在戰(zhàn)場條件下,目標數(shù)量眾多且頻率分布復(fù)雜多變,解的數(shù)量呈指數(shù)級增長,計算量難以承受[15]。本文設(shè)計了一種基于分層強化學(xué)習(xí)的決策算法,將決策干擾頻段和決策干擾帶寬作為兩個子任務(wù)來分別決策,決策網(wǎng)絡(luò)如圖3藍色虛線方框所示。

干擾頻段決策器結(jié)合環(huán)境狀態(tài)S1決策出干擾動作A1,即干擾頻段;干擾帶寬決策器結(jié)合環(huán)境狀態(tài)S2和 干擾動作A1決 策出干擾動作A2,即干擾帶寬。兩層決策出的干擾動作組成干擾策略P1=[A1,A2]施放干擾,改變環(huán)境狀態(tài)為S′。圖3所示為算法的模型結(jié)構(gòu),除各層決策器以外,模型還包括效果評估器和訓(xùn)練優(yōu)化器部分。在效果評估器中設(shè)置獎勵函數(shù),并根據(jù)S的變化分別計算干擾動作A1和A2的獎勵值r1和r2,獎勵值的高低即反映了決策效果。r1和r2的生成無關(guān)聯(lián)性,每層級決策器獎勵值的設(shè)置均與當(dāng)前層級解決的決策問題有關(guān),這樣可以并行訓(xùn)練兩層決策器以提高訓(xùn)練效率。再由訓(xùn)練優(yōu)化器對算法進行訓(xùn)練更新,在其中嵌入誤差函數(shù),通過選取一定數(shù)量包含狀態(tài)S、動作A和獎勵值r3部分信息的訓(xùn)練樣本做梯度下降計算,優(yōu)化決策網(wǎng)絡(luò)的隱藏層神經(jīng)元參數(shù),以實現(xiàn)對決策網(wǎng)絡(luò)的訓(xùn)練更新,不斷提高網(wǎng)絡(luò)的決策水平。

圖3 算法流程結(jié)構(gòu)

3.3 基于自舉專家軌跡的經(jīng)驗回放機制

本文設(shè)計一種基于自舉專家軌跡的經(jīng)驗回放(Bootstrapped Expert Trajectory Memory Replay,BETMR)機制,如圖4所示,在采樣環(huán)節(jié)尋找專家軌跡,提高優(yōu)勢樣本的利用率,進而提高算法的決策性能。

圖4 基于自舉專家軌跡的經(jīng)驗回放機制

為提高算法找到全局最優(yōu)策略的能力,BETMR機制將專家軌跡[16]用于算法訓(xùn)練中,能夠“迫使”智能體學(xué)習(xí)優(yōu)勢樣本,提高算法決策的有效性。在干擾資源分配問題中,所有的干擾目標均來自即時的通信偵察,并沒有能夠加以利用的專家軌跡信息,所以需要在算法訓(xùn)練的同時尋找專家軌跡eexpert=[S,A,r,S′], 并將其存入專家經(jīng)驗池Eexpert中。

本文中專家軌跡的判定標準不是一成不變的,尋找專家軌跡是一個動態(tài)的過程,手動建立或自動生成閾值集[δ0,δ1,...,δH]。假設(shè)某一回合的目標閾值是δm,若該回合總獎勵值R>δm,則這一回合樣本為專家軌跡

目標閾值δ呈階梯式變化,從δ0開始設(shè)置,假設(shè)某一回合δ=δm,若R<δm+1,則下一回合目標閾值δ=δm保 持不變;若δm+1

存儲樣本時,每一次決策均將樣本存入Enormal中,每一回合結(jié)束時評判當(dāng)前回合樣本是否滿足專家軌跡條件,若滿足,則將樣本再存入Eexpert中。算法訓(xùn)練時,按照式(7)抽取樣本

3.4 基于BETMR的干擾資源分配決策算法

在分層強化學(xué)習(xí)框架下,結(jié)合基于整體對抗思想的干擾資源分配算法與BETMR(如表3所示)機制,提出基于自舉專家軌跡分層強化學(xué)習(xí)的干擾資源分配決策算法(BHJM),如表4所示,將算法所需基本元素定義如下:

表3 BETMR算法

(1) 狀態(tài)空間:按照算法1步驟(2)劃分子頻段,按照威脅系數(shù)設(shè)置干擾目標g,分別查找各個子頻段上包含g的頻點個數(shù)C=[C1,C2,...,CM]。干擾頻段決策器的狀態(tài)S1=[C,g];干擾帶寬決策器的狀態(tài)S2=[CA1,CS1,g,A1],CA1為 所選子頻段內(nèi)包含g的頻點個數(shù),CS1為 子頻段S1包含所有目標的頻點個數(shù),A1為干擾頻段決策器的輸出動作。

(2) 動作空間:兩層決策器分別輸出干擾動作A1和A2,A1為 劃分子頻段中的某一個,A2用于表示干擾帶寬B,Bmax為可設(shè)置帶寬的最大值

(3) 獎勵函數(shù):在效果評估器中分別針對兩個決策環(huán)節(jié)設(shè)置獎勵函數(shù),計算獎勵值,以表征決策效果。

在訓(xùn)練優(yōu)化器中,使用3.3節(jié)提出的BETMR機制選擇訓(xùn)練樣本,按照干擾不同目標得到的不同獎勵值r1來 設(shè)置δ閾值集。引入動態(tài)Q網(wǎng)絡(luò)(Deep Q Network, DQN)算法[17]框架下的訓(xùn)練方法,分別設(shè)置估值神經(jīng)網(wǎng)絡(luò)和目標神經(jīng)網(wǎng)絡(luò)。兩個網(wǎng)絡(luò)的結(jié)構(gòu)相同,初始參數(shù)一致,估值神經(jīng)網(wǎng)絡(luò)負責(zé)計算當(dāng)前狀態(tài)S的估計價值Q(S,A;θn) , 引導(dǎo)動作A的選擇;目標神經(jīng)網(wǎng)絡(luò)負責(zé)計算目標價值Q(S′,A′;θn?)。其中,θn為 在n回 合估值神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù),θn?為在n回合目標神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)。

定義誤差函數(shù)L(θ),由式(14)表示。對參數(shù)θn做梯度下降計算,以更新估值神經(jīng)網(wǎng)絡(luò)。每經(jīng)過一定回合數(shù)后,將估值神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)賦給目標神經(jīng)網(wǎng)絡(luò),使兩個網(wǎng)絡(luò)參數(shù)相同,不必實時更新目標價值,同時減小了目標價值選取的相關(guān)性[17]

表4為本文提出的BHJM算法,每個決策器的神經(jīng)網(wǎng)絡(luò)均設(shè)置輸入層、2個隱藏層以及輸出層,干擾頻段決策器網(wǎng)絡(luò)的隱藏層神經(jīng)元數(shù)量用式(15)表示,x為輸入層神經(jīng)元數(shù)量;干擾帶寬決策器的隱藏層神經(jīng)元數(shù)量為16,網(wǎng)絡(luò)參數(shù)的更新過程可分別用式(16)、式(17)表示

表4 BHJM算法

4 實驗與仿真

4.1 場景及參數(shù)設(shè)置

經(jīng)過通信偵察獲取當(dāng)前干擾空域內(nèi)的6個跳頻目標,頻率范圍均在200~400 MHz內(nèi),其各類信息如表5所示。其中,根據(jù)長期情報或偵察情報,可知干擾方已知每個通信網(wǎng)目標的通信距離、信號發(fā)射機功率等參數(shù),假設(shè)每個目標的壓制系數(shù)均為2。各個目標的頻率集分布情況如圖5所示。

圖5 目標頻率集分布情況

表5 偵察目標信息

為確保干信比能夠大于壓制系數(shù),保證在功率域滿足干擾條件,設(shè)置干擾功率為30 kW;干擾帶寬最小為1 MHz,最大為3 MHz,其中每隔0.2 MHz設(shè)置一個可選帶寬,共有11種選擇。

4.2 不同數(shù)量干擾資源的干擾效果分析

將干擾站數(shù)量設(shè)置為6~12個共7種情況進行仿真實驗,分析在不同干擾資源條件下算法的干擾效果。首先對干擾帶寬決策器進行6000回合的預(yù)訓(xùn)練,降低其對干擾頻段決策器及整體決策效果的影響。

圖6所示為不同數(shù)量干擾站的干擾效果,可見當(dāng)干擾站數(shù)量超過9個時,決策出的干擾策略均能夠?qū)⒛繕巳扛蓴_,即干擾這6個目標最少需要9個干擾站。同時可以看出,算法訓(xùn)練中各目標被成功干擾的收斂順序是與目標威脅系數(shù)順序相符的,威脅系數(shù)越高的最先保證干擾。

圖6 不同數(shù)量干擾站的干擾效果

當(dāng)干擾站數(shù)量為6,7,8時,干擾資源不足,無法將所有的目標全部干擾。當(dāng)干擾站數(shù)量為8時無法將目標3干擾成功,干擾站數(shù)量為7時無法干擾2和3,而都能干擾目標1,原因與目標各頻率集的頻點分布有關(guān),目標1規(guī)劃的頻點與目標5和6的頻點存在交錯情況,處于同一個小區(qū)域內(nèi),所以在干擾目標5和6時能夠?qū)⒛繕?一起干擾。當(dāng)干擾站數(shù)量為6時,能夠干擾目標6, 4和2,而無法干擾前面都能干擾的目標5和1,原因是目標5的頻率集有10個,頻點數(shù)量有128個,現(xiàn)有干擾資源不足,但在嘗試干擾目標6和5時能夠?qū)㈩l率集數(shù)量相對較少并且存在頻點交錯現(xiàn)象的目標4同時干擾。

當(dāng)干擾資源不足時,各目標干擾成功的收斂順序仍然是與目標威脅系數(shù)順序相符的,算法能夠保證威脅系數(shù)越高的先被干擾。同時可以分析得出,在干擾同樣目標時,干擾資源越充足,算法訓(xùn)練收斂更快,訓(xùn)練過程更穩(wěn)定。

4.3 算法探索性對仿真效果的影響分析

基于強化學(xué)習(xí)的算法需要平衡探索與利用之間的關(guān)系,也就是使算法既要有一定探索性,一部分時間選擇最好的動作,剩下時間隨機選擇動作,避免算法收斂到局部最優(yōu)狀態(tài);又要把握好探索性的大小,以免算法長時間處于不收斂狀態(tài)。

從圖6中可以看出本實驗分成了訓(xùn)練和測試兩個階段,當(dāng)實驗進入到測試階段時,決策網(wǎng)絡(luò)停止訓(xùn)練更新,同時將選擇干擾動作的ε-greedy策略中ε值置為0,即每次均選擇Q(s,a)最大值對應(yīng)的動作。這樣做的目的是消除決策算法的探索性,用訓(xùn)練好的網(wǎng)絡(luò)來測試算法性能。

本文算法中的ε-greedy策略就是一種兼顧探索與利用的好方法,但由于實驗中每一回合均有6~12次使用該策略選擇干擾動作的環(huán)節(jié),每一回合能夠順利決策出最優(yōu)干擾策略的概率最多只有(0.9)6=0.53(ε=0.1),所以很難通過訓(xùn)練階段的結(jié)果來判斷算法是否已經(jīng)訓(xùn)練收斂。為了避免長時間訓(xùn)練算法使模型過度訓(xùn)練導(dǎo)致過擬合,需要使算法在訓(xùn)練出最優(yōu)策略后即停止訓(xùn)練。

本文設(shè)置閾值σ=(0.9)NJ,當(dāng)專家軌跡樣本在之前1500回合內(nèi)出現(xiàn)的概率超過σ,即可認為樣本對應(yīng)策略就是算法能決策出的最優(yōu)策略,算法也已訓(xùn)練到最優(yōu)狀態(tài),此時停止算法的訓(xùn)練更新,轉(zhuǎn)入測試階段。

分析圖6各子圖可以看出,算法按干擾優(yōu)先級順序決策干擾策略,探索性導(dǎo)致優(yōu)先級較低的目標在訓(xùn)練階段干擾成功率較低,但按照本文方法判定算法訓(xùn)練收斂轉(zhuǎn)入測試階段后,之前成功率處于上升階段的目標均能夠被成功干擾,證明了本文的算法收斂判斷方式是有效的。

4.4 BHJM算法與現(xiàn)有算法的決策對比

本文引用文獻[12]中的HDRL算法與BHJM算法對比決策效果。圖7展示了兩個算法的干擾效果對比情況,當(dāng)有9個干擾站時BHJM算法即可干擾全部目標,而此時HDRL算法只能干擾4個目標。當(dāng)干擾站數(shù)量為9個以下時,BHJM算法至少能干擾3個目標,而HDRL算法最多只能干擾3個目標。當(dāng)干擾站數(shù)量為12時,HDRL算法才能夠?qū)⑺心繕巳扛蓴_,此時較BHJM算法多用了3個干擾站,BHJM算法節(jié)省干擾站資源比例達到了25%。

圖7 干擾效果對比

圖8展示了兩個算法干擾帶寬的對比情況,當(dāng)干擾站數(shù)量超過10個時,BHJM算法在干擾更多目標的同時仍能夠節(jié)約1 MHz以上的干擾帶寬。當(dāng)干擾站數(shù)量不足10個時,BHJM算法使用的干擾帶寬比HDRL算法更大,但BHJM算法能干擾的目標更多,而HDRL算法雖然能夠節(jié)省干擾帶寬,但其無法決策出具有更好干擾效果的策略。當(dāng)干擾全部目標相同時,BHJM算法能夠節(jié)約4 MHz干擾帶寬,比例達到15%。

圖8 干擾帶寬對比

以12個干擾站為例,若不使用任何智能算法,干擾全部目標所需帶寬可達到3×12=36 MHz帶寬,BHJM算法可減少使用12 MHz帶寬,比例超過30%,能夠節(jié)省大量頻譜資源。

通過上述兩個對比可以看出,BHJM算法能夠在取得較好干擾效果的同時,還能節(jié)約大量干擾站資源及頻譜資源,實現(xiàn)了對干擾資源的更優(yōu)分配。

4.5 分層強化學(xué)習(xí)模型及BETMR機制對算法決策結(jié)果的影響分析

從圖9中可以看出,BHJM算法收斂后的平均獎勵值最高,HDRL算法次之,基于DQN的算法幾乎未學(xué)習(xí)到任何有用信息,算法基本不具有決策能力,獎勵值保持在0~25內(nèi)未有明顯變化??梢妼τ谀P蛷?fù)雜、決策維度高的各類問題,將其拆解成各個子任務(wù),采用分層強化學(xué)習(xí)模型就能夠較好解決。而DQN等傳統(tǒng)1維深度強化學(xué)習(xí)方法需要提前將不同的頻段與不同的帶寬組合成不同的干擾策略,每次決策出一個策略,但這樣會使得決策空間成倍增加,算法決策效率較低,無法解決此類問題。

圖9 決策效果對比

通過對比BHJM算法和HDRL算法的獎勵值可以看出,前者的平均值相較于后者高出40%以上,具有更好的決策效果。結(jié)合上一小節(jié)干擾效果對比情況可以分析得出,在分層強化學(xué)習(xí)模型的基礎(chǔ)上引入BETMR機制能夠讓算法學(xué)習(xí)專家軌跡,具有更強的決策能力。

5 結(jié)論

本文針對戰(zhàn)場環(huán)境下跳頻信號的干擾難題,提出一種干擾資源分配智能決策算法。該算法融合分層強化學(xué)習(xí)與專家軌跡等相關(guān)知識,分級決策干擾頻段和干擾帶寬,設(shè)計BETMR機制來采樣并訓(xùn)練優(yōu)化算法,使算法能夠在現(xiàn)有干擾資源特別是干擾資源不足的條件下,優(yōu)先干擾最具威脅目標,最優(yōu)分配干擾資源,具有首創(chuàng)性意義。仿真結(jié)果表明,基于分層強化學(xué)習(xí)模型能夠解決復(fù)雜的干擾問題,設(shè)計的BETMR機制能夠使算法具有更強的決策能力,算法整體較現(xiàn)有資源分配決策算法節(jié)約25%干擾站資源,減少15%干擾帶寬,具有較大實用價值。

猜你喜歡
效果
按摩效果確有理論依據(jù)
保濕噴霧大測評!效果最驚艷的才20塊!
好日子(2021年8期)2021-11-04 09:02:46
笑吧
迅速制造慢門虛化效果
創(chuàng)造逼真的長曝光虛化效果
四種去色效果超越傳統(tǒng)黑白照
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
期末怎樣復(fù)習(xí)效果好
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
3D—DSA與3D—CTA成像在顱內(nèi)動脈瘤早期診斷中的應(yīng)用效果比較
主站蜘蛛池模板: 宅男噜噜噜66国产在线观看| 国产女人18水真多毛片18精品| 国产激情在线视频| 夜夜拍夜夜爽| 国产精品区视频中文字幕| 国产无码精品在线| 亚洲无卡视频| 2048国产精品原创综合在线| 亚洲第一黄色网| 日韩精品一区二区三区免费| 国产女主播一区| 亚洲综合专区| 国产麻豆精品在线观看| 欧美成人综合视频| 99视频在线观看免费| 久久午夜夜伦鲁鲁片无码免费| 国产伦精品一区二区三区视频优播 | 亚洲国产av无码综合原创国产| 精品无码一区二区三区在线视频| 久久久91人妻无码精品蜜桃HD | 91精品国产91欠久久久久| 亚洲综合中文字幕国产精品欧美| 亚洲精品无码高潮喷水A| 91小视频在线观看| 国产精品第一区| 国产精品任我爽爆在线播放6080 | 亚洲一区二区无码视频| 91精品国产麻豆国产自产在线| 中文字幕在线看| 波多野结衣久久高清免费| 色婷婷成人网| 国产91丝袜| 亚洲欧美极品| 久久亚洲中文字幕精品一区| 亚洲无码视频一区二区三区 | av无码一区二区三区在线| 911亚洲精品| 国产香蕉国产精品偷在线观看| 五月天香蕉视频国产亚| 精品久久久久成人码免费动漫| 女人一级毛片| 在线观看视频99| 日韩精品无码免费一区二区三区| 亚洲无码视频图片| 女人av社区男人的天堂| 国产三级视频网站| 中文字幕在线看视频一区二区三区| 91精品久久久无码中文字幕vr| 试看120秒男女啪啪免费| 久久久成年黄色视频| 国产香蕉在线视频| 国产欧美中文字幕| 欧美精品高清| 欧美日韩国产在线人成app| 成人国产小视频| 91www在线观看| 国产综合亚洲欧洲区精品无码| 中国一级特黄大片在线观看| 97久久超碰极品视觉盛宴| 国产国拍精品视频免费看 | 国产97色在线| 精品国产福利在线| 乱码国产乱码精品精在线播放 | 青青国产视频| 成人a免费α片在线视频网站| 福利视频一区| 国产福利一区在线| 国产精品成人久久| 国产一二三区视频| 欧洲熟妇精品视频| 日韩天堂视频| 亚洲色婷婷一区二区| 99久久国产自偷自偷免费一区| 国产精品久久久久久久久| 国产精品原创不卡在线| 欧美黑人欧美精品刺激| 四虎永久在线| 2021国产乱人伦在线播放| 亚洲第一香蕉视频| 在线观看无码av五月花| 国产视频一二三区| 久久中文电影|