999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ET-PPO的雙變跳頻圖案智能決策

2022-12-08 08:07:14陳一波趙知勁
電信科學 2022年11期
關鍵詞:動作環境策略

陳一波,趙知勁

基于ET-PPO的雙變跳頻圖案智能決策

陳一波,趙知勁

(杭州電子科技大學通信工程學院,浙江 杭州 310018)

為進一步提高雙變跳頻系統在復雜電磁環境中的抗干擾能力,提出了一種基于資格跡的近端策略優化(proximal policy optimization with eligibility traces,ET-PPO)算法。在傳統跳頻圖案的基礎上,引入時變參數,通過狀態-動作-獎勵三元組的構造將“雙變”跳頻圖案決策問題建模為馬爾可夫決策問題。針對PPO算法“行動器”網絡樣本更新方式的高方差問題,引入加權重要性采樣減小方差;采用Beta分布的動作選擇策略,增強學習階段的穩定性。針對“評判器”網絡收斂速度慢的問題,引入資格跡方法,較好地平衡了收斂速度和全局最優解求解。在不同電磁干擾環境下的算法對比仿真結果表明,ET-PPO有更好的適應性和穩定性,對抗阻塞干擾和掃頻干擾表現較好。

復雜電磁環境;雙變跳頻圖案;近端策略優化;資格跡

0 引言

深度強化學習(deep reinforcement learning,DRL)結合深度學習的表示能力和強化學習的推理能力,可以適應時變的電磁環境。DRL根據學習目標的不同可以分為基于價值和基于策略的兩類學習算法,基于價值的DRL有深度網絡(deep-network,DQN),基于策略的DRL有深度確定性策略梯度(deep deterministic policy gradient,DDPG)和近端策略優化(proximal policy optimization,PPO)。文獻[8]應用DQN進行“雙變”跳頻圖案決策,對經驗回放DQN引入帕雷托(Pareto)樣本的概念,提出了基于帕雷托樣本的優先經驗回放深度網絡(deep-network with priority experience replay based on Pareto samples,PPER-DQN)算法,提升了DQN的經驗池篩選性能,更好地適應變化的電磁環境。但是其采用傳統優先級定義和Pareto樣本,導致復雜度增大。文獻[9]將分類經驗回放引入DDPG,提出了采用分類經驗回放的深度確定性策略梯度(deep deterministic policy gradient with classified experience replay,CER-DDPG)方法,降低了傳統優先級經驗回放機制的復雜度。但是DDPG缺少對狀態的“評判”,在不同環境中表現差異較大,穩定性較差。PPO是DRL中基于“行動器-評判器”的算法,并且適用于連續狀態-動作空間,它具有信賴域策略優化(trust region policy optimization,TRPO)的優點,同時更易于實現,相比其他在線策略梯度方法,PPO還具有更好的穩定性和可靠性[10],已在機器人控制[11]、模塊化生產控制[12]和城市道路交通控制[13]等領域得到應用。本文通過狀態-動作-獎勵三元組的構造將“雙變”跳頻圖案決策問題轉化為一個序列優化問題,并且“雙變”跳頻系統時域和頻域的連續性契合PPO算法中的連續狀態-動作空間,因此本文研究復雜電磁干擾中應用PPO的“雙變”跳頻圖案智能設計。

PPO算法性能和效率與其“行動器”和“評判器”的策略有關。不同于傳統DRL,PPO產生的樣本數據與“行動器”的策略有關,所以不能簡單地通過經驗池復用更新,而需要通過另外的途徑提高樣本數據利用率。文獻[14]利用以前學到的模型對“行動器”網絡初始化,提出模型加速近端策略優化(proximal policy optimization with model accelerate,MA-PPO),加速學習過程并提高運算效率。文獻[15]將策略引入“評判器”價值函數的更新過程,提出具有策略反饋的PPO(proximal policy optimization with policy feedback,PF-PPO)算法,與PPO相比,PF-PPO具有更快的收斂速度、更高的獎勵和更小的獎勵方差。DRL的網絡更新梯度包含了偏差和方差信息,偏差反映了期望預測與真實結果的偏離程度,方差反映了樣本數據的變動所導致的學習性能的變化,較低的偏差和方差可以保證算法的準確性和穩定性。文獻[16]將PPO“評判器”網絡的步回報估計改為廣義優勢估計(generalized advantage estimation,GAE),較好地平衡了算法的偏差和方差;文獻[17]通過蒙特卡洛估計,在“行動器”中為不同特征配置不同基線,降低了算法的方差,從而加快了學習速度;文獻[18]設計稀疏獎勵,取代“執行差額”獎勵,降低了算法的偏差。

但文獻[14-18]方法仍存在方差較高和樣本利用較低的問題,對此本文提出了ET-PPO算法。針對PPO“行動器”網絡樣本更新方式的高方差問題,本文引入加權重要度采樣(weighted importance sampling,WIS)減小方差,提高學習階段的穩定性;針對“評判器”網絡收斂速度慢的問題,本文引入資格跡(eligibility trace,ET),在不陷入局部最優解的前提下加速收斂。為了智能決策跳頻圖案,本文設計“行動器”的動作選擇策略為Beta分布策略,且在“行動器”的目標函數中添加策略的熵項以避免落入局部最優解。仿真結果表明,相比于傳統PPO、PPER-DQN和CER-DDPG,ET-PPO具有更快的學習速度、更高的獎勵和更好的平穩性。

1 問題建模

本文主要研究“雙變”跳頻系統在面對阻塞干擾和多頻連續波干擾時的跳頻圖案智能決策,希望在干擾較強的頻段,“雙變”跳頻可以自適應地提高跳速、增大信道劃分間隔以盡快跳出該頻段;在干擾較弱頻段,“雙變”跳頻可以自適應地放慢跳速、減小信道劃分間隔以保持長時間低誤碼率的高質量通信。

“雙變”跳頻系統可以在非連續頻帶靈活分配頻率,例如在常規跳頻系統中,本來不適用當前非連續頻帶的跳頻序列,在“雙變”跳頻系統中通過可變的跳頻速度和信道劃分間隔則可將原本出現在不可用頻帶的跳頻信號轉移至可用頻帶上,提高了頻譜資源的利用率。由此降低跳頻序列設計難度,增加跳頻序列集合的跳頻序列數量,使以碼分多址為基礎的跳頻系統支持更大的用戶容量。

多級頻移鍵控(multiple-frequency-shift keying,MFSK)下的“雙變”跳頻信號可以表示為:

在加性白高斯噪聲背景下,二進制頻移鍵控(frequency-shift keying,2FSK)相干解調總誤碼率為:

其中,erfc(·)表示補余誤差函數,為信噪比。由此可得,通過跳頻圖案智能決策增大解調器輸入端的平均信干噪比可以降低跳頻通信系統誤碼率,考慮到實際場景中電波傳輸的傳播損耗和瑞利衰落,本文將決策目標函數設計為最大化平均信干噪比(signal to interference plus noise ratio,SINR),即:

2 算法設計

2.1 改進的近端策略優化算法

PPO是DRL中一種基于行動器-評判器(actor-critic,AC)的算法,結合了策略迭代法和價值迭代法。

圖1 序列

結合基線和重要性采樣,PG算法的離軌策略更新為:

2.2 加權重要度采樣和資格跡

PPO算法“行動器”網絡進行期望更新時,其重要度采樣通過簡單平均實現,被稱為普通重要度采樣(ordinary importance sampling,OIS),如式(10)所示。

由式(13)可知,資格跡追蹤參數向量的梯度,決定分量的更新。

圖2 價值梯度權重以速率衰減示意圖

2.3 狀態動作空間、獎勵函數及動作選擇策略設計

在每一步中,智能體從環境得到一個獎勵,強化學習算法的唯一目標就是最大化長期總獎勵。為了實現高質量通信,通信系統需要一個高信干噪比的跳頻圖案,所以本文使用式(3)作為獎勵函數。

針對本文所定義的有限范圍內的動作空間,本文采用如式(15)所示的Beta分布概率密度函數作為“行動器”網絡輸出的動作選擇策略。

其中,和為Beta分布參數。

2.4 算法步驟

綜上可得,本文基于改進PPO的“雙變”跳頻圖案智能決策算法具體步驟如下。

步驟1 預測時間段內的干擾環境,初始化信號功率、跳頻序列。

步驟8 如果,結束算法;否則跳轉至步驟4。

3 實驗結果及性能分析

3.1 實驗1 熵項系數η對算法性能的影響

干擾環境用頻譜瀑布圖表示,包含高斯白噪聲、阻塞干擾和掃頻干擾的干擾環境如圖3所示,顏色越深,干擾功率越大。

圖3 干擾環境

圖4 熵項系數η對算法性能的影響

3.2 實驗2 加權重要度采樣和Beta分布策略的應用

干擾環境同實驗1,“行動器”不同更新方式對應性能曲線如圖5所示,是“行動器”網絡分別采用高斯分布和Beta分布的動作選擇策略及普通重要度采樣和加權重要度采樣的更新方法得到

圖5 “行動器”不同更新方式對應性能曲線

3.3 實驗3 資格跡衰減率λ對ET-PPO算法的影響

圖6 不同資格跡衰減率和不同n取值對應的性能曲線

3.4 實驗4 不同干擾環境下算法對比分析

本節分析比較應用PPER-DQN[8]、CER-DDPG[9]、傳統PPO[10]和本文ET-PPO的“雙變”跳頻圖案決策性能。為保證公平性,令所有算法具有相同的學習率、獎勵設定和獎勵折扣系數。本文“雙變”跳頻圖案決策屬于連續狀態?連續動作問題,而PPER-DQN適用于連續狀態?離散動作問題,所以PPER-DQN的仿真實驗中,對動作空間進行離散化處理,設置跳頻速度集合為[125, 250, 500, 1 000, 2 000] hop/s,信道劃分間隔集合為[1, 2, 3, 4] MHz。另外PPER-DQN以時序差分誤差作為優先經驗回放依據,CER- DDPG以立即獎勵作為分類經驗回放依據。3種干擾環境及相應性能曲線如圖7所示。

由圖7可知,ET-PPO在不同干擾環境中具有更快的收斂速度和更穩定的性能,這說明ET-PPO對動態變化干擾環境適應性較強。ET-PPO通過加權重要性采樣提高了采樣數據利用率,降低了學習的方差,在不同干擾環境中算法都在第40輪采樣之前完成收斂;通過Beta分布的動作選擇策略平衡了強化學習探索與利用的矛盾,在學習前期保證較高的探索度,在學習后期以利用為主,所以曲線振蕩幅度較小。PPER-DQN性能收斂在比較低的水平,這是因為離散化動作空間尋找的最優動作不精細,而更精細的動作空間離散化將增加訓練成本。PPO和CER-DDPG性能受環境影響較大,CER-DDPG在環境2中陷入局部最優解僅有50的總收益表現,PPO曲線振蕩幅度大,需要手動設置參數以平衡算法的探索與利用。

4 結束語

針對PPO算法“行動器”網絡更新方差大、“評判器”網絡更新收斂速度慢的問題,本文將加權重要性采樣和資格跡方法引入PPO算法;將Beta分布作為“行動器”網絡輸出的動作選擇策略,并將該策略的熵項添加到“行動器”網絡的目標函數上,使算法在學習初始階段充分學習參數以避免落入局部最優解;將“雙變”跳頻圖案決策建模為序列優化問題,設計了合適的獎勵函數和策略函數。在不同電磁干擾環境中應用本文算法的“雙變”跳頻圖案決策結果表明,相比于PPER-DQN、CER-DDPG和傳統PPO,本文所提出算法具有更快的收斂速度且不易落入局部最優解,對環境適應性強。本文針對的是連續狀態?動作空間問題,相比于離散問題具有更復雜的隨機性,但是狀態?動作維數不高,未來將研究強化學習在高維特征空間中的應用。

圖7 3種干擾環境及相應性能曲線

[1] 任興旌. 跳頻通信關鍵技術研究及系統設計[D]. 蘭州: 蘭州交通大學, 2018. REN X J. Key technology research and system design of frequency hopping communication[D]. Lanzhou: Lanzhou Jiatong University, 2018.

[2] 柳永祥, 姚富強, 梁濤. 變間隔、變跳速跳頻通信技術[C]//軍事電子信息學術會議. 2006:518-521. LIU Y X, YAO F Q, LIANG T. Bivariate frequency hopping communication technology[C]//Academic Conference on Military Electronic Information. 2006: 518-521.

[3] 嚴季, 梁濤, 祈竹. 變跳速、變間隔跳頻通信技術研究[J]. 無線通信技術, 2012, 21(4): 25-29. YAN J, LIANG T, QI Z. Research on thefrequenct hopping communication technology of variable hopping rate and variable interval[J]. Wireless Communication Technology, 2012, 21(4): 25-29.

[4] 汪小林, 黎亮, 張抒. 基于均勻性補償的跳頻圖案生成方法[J]. 兵工自動化, 2018, 37(9): 12-14. WANG X L, LI L, ZHANG S. Frequency hopping based on uniformity compensation[J]. Ordnance Industry Automation, 2018, 37(9): 12-14.

[5] 李金濤. 寬間隔跳頻序列設計與性能研究[D]. 成都: 西南交通大學, 2007. LI J T. Study on frequency hopping sequences with givenminimumgap[D]. Chengdu: Southwest Jiaotong University, 2007.

[6] 陳剛, 黎福海. 變速跳頻通信抗跟蹤干擾性能的研究[J]. 火力與指揮控制, 2016, 41(7): 107-109. CHEN G, LI F H. Research on anti-follower jamming performance of variable rate frequency hopping communications[J]. Fire Control & Command Control, 2016, 41(7): 107-109.

[7] 王越超. 自適應跳頻通信系統關鍵技術研究[D]. 南京: 東南大學, 2018. WANG Y C. Research on key technology of adaptive frequency hopping communication system[D]. Nanjing: Southeast University, 2018.

[8] ZHU J S, ZHAO Z J, ZHENG S L. Intelligent anti-jamming decision algorithm of bivariate frequency hopping pattern based on DQN with PER and Pareto[J]. International Journal of Information Technology and Web Engineering, 2022, 17(1): 1-23.

[9] 時圣苗, 劉全. 采用分類經驗回放的深度確定性策略梯度方法[J]. 自動化學報, 2022, 48(7): 1816-1823. SHI S M, LIU Q. Deep deterministic policy gradient with classified experience replay[J]. Acta Automatica Sinica, 2022, 48(7): 1816-1823.

[10] CANO L G, FERREIRA M, DA S S A, et al. Intelligent control of a quadrotor with proximal policy optimization reinforcement learning[C]//Proceedings of 2018 Latin American Robotic Symposium, 2018 Brazilian Symposium on Robotics (SBR) and 2018 Workshop on Robotics in Education (WRE). Piscataway: IEEE Press, 2018: 503-508.

[11] 張浩昱, 熊凱. 基于近端策略優化算法的四足機器人步態控制研究[J]. 空間控制技術與應用, 2019, 45(3): 53-58. ZHANG H Y, XIONG K. On gait control of quadruped robot based on proximal policy optimization algorithm[J]. Aerospace Control and Application, 2019, 45(3): 53-58.

[12] MAYER S, CLASSEN T, ENDISCH C. Modular production control using deep reinforcement learning: proximal policy optimization[J]. Journal of Intelligent Manufacturing, 2021, 32(8): 2335-2351.

[13] 舒凌洲. 基于深度強化學習的城市道路交通控制算法研究[D]. 成都: 電子科技大學, 2020. SHU L Z. Research on urban traffic control algorithm based on deep reinforcement learning[D]. Chengdu: University of Electronic Science and Technology of China, 2020.

[14] GUAN Y, REN Y G, LI S E, et al. Centralized cooperation for connected and automated vehicles at intersections by proximal policy optimization[J]. IEEE Transactions on Vehicular Technology, 2020, 69(11): 12597-12608.

[15] GU Y, CHENG Y H, CHEN C L P, et al. Proximal policy optimization with policy feedback[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2022, 52(7):4600-4610.

[16] 王鴻濤. 基于強化學習的機械臂自學習控制[D]. 哈爾濱: 哈爾濱工業大學, 2019. WANG H T. Self learning control of mechanical arm based on reinforcement learning[D]. Harbin: Harbin Institute of Technology, 2019.

[17] ZHANG L, ZHANG Y S, ZHAO X, et al. Image captioning via proximal policy optimization[J]. Image and Vision Computing, 2021, 108: 104126.

[18] LIN S Y, BELING P A. An end-to-end optimal trade execution framework based on proximal policy optimization[C]//Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence. California: International Joint Conferences on Artificial Intelligence Organization, 2020: 4548-4554.

Intelligent anti-jamming decision algorithm of bivariate frequency hopping pattern based on ET-PPO

CHEN Yibo, ZHAO Zhijin

School of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China

In order to further improve its anti-interference ability in complex electromagnetic environment, a PPO algorithm based on weighted importance sampling and eligibility traces (ET-PPO) was proposed. On the basis of the traditional frequency hopping pattern, time-varying parameters were introduced, and the bivariate frequency hopping pattern decision problem was modeled as a Markov decision problem through the construction of the state-action-reward triple. Aiming at the high variance problem of the sample update method of an actor network of the PPO algorithm, weighted importance sampling was introduced to reduce the variance, and the action selection strategy of Beta distribution was used to enhance the stability of the learning stage. Aiming at the problem of slow convergence speed of the evaluator network, the eligibility trace method was introduced, which better balanced the convergence speed and the global optimal solution. The algorithm comparison simulation results in different electromagnetic interference environments show that ET-PPO has better adaptability and stability, and has better performance against obstruction interference and sweep frequency interference.

complex electromagnetic environment, bivariate frequency hopping pattern, proximal policy optimization, eligibility trace

TN914;TP181

A

10.11959/j.issn.1000–0801.2022264

2022?06?02;

2022?09?29

國家自然科學基金資助項目(No.U19B2016)

The National Natural Science Foundation of China (No.U19B2016)

陳一波(1998? ),男,杭州電子科技大學通信工程學院碩士生,主要研究方向為認知無線電。

趙知勁(1959? ),女,博士,杭州電子科技大學通信工程學院教授、博士生導師,主要研究方向為信號處理、認知無線電技術。

猜你喜歡
動作環境策略
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
例談未知角三角函數值的求解策略
孕期遠離容易致畸的環境
我說你做講策略
環境
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
主站蜘蛛池模板: 欧美在线视频不卡| 综合色在线| 国产国产人免费视频成18| 亚洲福利视频网址| 67194在线午夜亚洲| 香蕉eeww99国产在线观看| 亚洲一欧洲中文字幕在线| 美女毛片在线| 欧美日韩国产综合视频在线观看| 日韩高清一区 | 久久综合丝袜长腿丝袜| 欧美成在线视频| 国产乱子伦视频在线播放| 精品精品国产高清A毛片| 国产精品久线在线观看| 另类综合视频| 亚洲女同一区二区| 欧美成人一区午夜福利在线| 中字无码精油按摩中出视频| 99精品福利视频| 青青青视频免费一区二区| 亚洲女同一区二区| 亚洲视频在线观看免费视频| 国产成人8x视频一区二区| 久久男人资源站| 免费女人18毛片a级毛片视频| 婷婷伊人久久| 国产网站一区二区三区| 色爽网免费视频| 国产网站一区二区三区| 国产福利观看| 国产另类视频| 国产成人午夜福利免费无码r| 久久精品国产免费观看频道| 中文字幕在线视频免费| 亚洲系列无码专区偷窥无码| 午夜精品福利影院| 国内精品91| 亚洲天堂自拍| 99爱视频精品免视看| 黄色网址手机国内免费在线观看 | 18禁色诱爆乳网站| 黄色网址免费在线| 日韩欧美国产三级| 麻豆a级片| 成人在线综合| 91精品国产91欠久久久久| 欧美成人手机在线观看网址| 亚洲欧美日韩中文字幕在线一区| 国产美女在线免费观看| 精品久久久久久久久久久| 免费一看一级毛片| 亚洲美女一区| 狠狠色丁香婷婷综合| 91青青草视频在线观看的| 六月婷婷激情综合| 久久久久久尹人网香蕉| 99在线免费播放| 国产无码精品在线| 午夜a级毛片| 久久国产热| 成年女人a毛片免费视频| 日韩麻豆小视频| 国产一区二区影院| 综合网久久| 老司国产精品视频91| 朝桐光一区二区| 欧美亚洲欧美区| 国产欧美日韩资源在线观看| 黄色一级视频欧美| 99视频只有精品| 天堂亚洲网| 亚洲福利网址| 亚洲视频欧美不卡| 天堂亚洲网| 国产精品第页| 久热这里只有精品6| 又污又黄又无遮挡网站| 中文字幕波多野不卡一区| 日本久久久久久免费网络| 国产尤物视频在线| 人妻丰满熟妇av五码区|