999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粒子濾波的強化學習算法研究

2016-09-25 05:37:50董春利
無線互聯科技 2016年15期
關鍵詞:策略

董春利,王 莉

(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)

基于粒子濾波的強化學習算法研究

董春利,王莉

(南京交通職業技術學院 電子信息工程學院,江蘇南京211188)

文章分析了一種基于粒子濾波和強化學習的算法。該算法通過結合粒子濾波和Q-學習算法,得到一種基于粒子濾波和強化學習的機會頻譜接入算法(RLPF)。實驗結果表明,RLPF算法能夠在策略空間直接進行全局搜索,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。

強化學習;粒子濾波;策略空間;全局搜索

由于頻譜資源緊張并不是頻譜真正“物理上的稀缺”,而是傳統的靜態頻譜管理方式導致的結構性矛盾。動態頻譜接入(Dynamic Spectrum Access,DSA)被認為是一種與傳統靜態頻譜管理相反的頻譜利用方式,這使得DSA有了更廣泛的內涵,為提高頻譜資源的利用效率提供了全新的方向。認知無線電是實現DSA的關鍵技術,提供了與授權用戶(Provided User,PU)機會共享無線信道的能力[1]。

認知無線電的OSA具有認知能力,能感知當前網絡條件并且作出規劃和決策,具有對以前決策的評判和未來決策判定的學習能力。因為OSA系統中的頻譜環境總是隨時間而變化,因此在不需要信道環境的先驗知識和動態模型的前提下,亟待通過不斷與環境進行交互學習,實現優越性能的革新技術出現[2]。強化學習作為一種無模型、無監督的在線學習算法,是解決上述問題的有效途徑,近年來已經成為解決OSA問題的主流方法,得到了廣泛應用。

為了提高全局搜索能力,從而找到全局最優策略,將粒子濾波引入到機會頻譜接入,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。把強化學習的獎勵函數看作是粒子濾波的一個不恰當的概率密度函數(IPDF),是基于有限數量采樣的未知概率密度函數(PDF)的一種近似估計算法。文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。與卡爾曼濾波相比,粒子濾波適應于認知無線電OSA的非線性環境。

1 粒子濾波

(2)計算重要性權值

2 基于粒子濾波和Q-學習的機會頻譜接入算法(RLPF)

文獻[5]利用粒子濾波為一個大規模動態頻譜接入系統進行資源分配。按照每個用戶實現的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學習算法進行了性能比較,驗證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應于一般情況(非線性模型,非高斯噪聲,多模態分布)。

文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,主要借鑒粒子濾波的思想,揭示粒子濾波算法和強化學習之間的聯系,提出了一種新的強化學習算法。該算法的主要優點是在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。

定義一個策略粒子pi,數組pi=〈qi,ti,Ri,wi〉,通過運行強化學習策略π(θi)所執行的試驗τi得到粒子pi,θi是策略參數值的一個矢量,調節強化學習策略π的行為。策略粒子還存儲著評價這次試驗的獎勵函數值Ri=R(ti(p(qi)))。變量τi包含試驗期間記錄的特殊任務信息,這個信息被獎勵函數執行它的評價使用,變量ωi是該策略粒子的重要性權值,它的計算方法如下。

RLPF繼承了粒子濾波的很多優點,實現簡單,計算量小,占用內存非常低。利用函數g(R),增加每個獎勵間的相對差異,例如,函數g(R)=(1+R)2,RLPF可把執行全局隨機采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據精度和時間的要求,RLPF可顯示自適應算法的收斂速度。

RLPF作為一個全局搜索算法,因為搜索的范圍是盡可能最大的全部策略空間,一般需要多次試驗來收斂。另外,即便粒子濾波沒有收斂性的嚴格證明,在實踐中,粒子濾波的經驗已經證明,在實際應用中能獲得優異的結果。

3 實驗結果

首先在一維問題中單獨評估RLPF,它在可視化和分析中是最簡單的。圖1顯示了一個RLPF運行的例子,有多個局部最優解的一組合成的一維獎勵函數。通過RLPF生成的策略粒子由垂直灰色條紋顯示,在綠色的獎勵函數線上,相應的獎勵值由黑色圓圈顯示。使用以下的合成獎勵函數,因為它有許多局部最優:R(θ) = 1.55 + 0.3 sin(2.7θ) + 0.4 sin(4.5θ) + 0.2 sin(8.7θ) + 0.14 sin(20θ) + 0.08 sin(30θ) + 0.08 sin(50θ)。顯然可見,通過RLPF所產生的策略粒子往往集中在獎勵函數的最高峰。

圖1 一維問題中的RLPF的一個典型運行

圖2 全局策略搜索RL算法的收斂性比較

其次,比較RLPF與其他全局策略搜索RL算法的性能。很難選擇比較RLPF的基準,因為沒有任何真正意義上的基于RL算法的全局搜索策略。比較一個本地搜索RL,如策略梯度RL和RLPF是不公平的,因為局部搜索方法會容易陷入局部最優。因此作為一個基準,使用一個隨機的全局策略搜索RL算法,在策略空間上,它是基于全局隨機抽樣(Global Random Sampling, GRS)。其與RLPF的比較如圖2所示,平均超過許多運行次數,和圖1同樣的問題。平均每個算法50以上運行的結果。每輪有100個試驗。在實現的獎勵值大和獎勵值較小的變化兩個方面,RLPF輕易超過GRS。

4 結語

由于粒子濾波有進行全局搜索的能力,將粒子濾波和強化學習相結合,由此產生的RLPF算法也能夠在策略空間直接進行全局搜索,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。這項研究為OSA開辟了一個新的研究方向,未來它將會應用到更多的領域。

[1]WU J, YANG L, LIU X. Subcarrier and power allocation in OFDM based cognitive radio systems[J].4th International Conference on Intelligent Computation Technology and Automation, 2011(13):728-731.

[2]XU Y H, WANG J L, WU Q H, ET AL. Opportunistic spectrum access in unknown dynamic environment a game-theoretic stochastic learning solution[J]. IEEE Transactions on Wireless Communication, 2012(4):1380-1391.

[3]PETAR KORMUSHEV, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle filtering[J]. European Workshop on Reinforcement Learning, 2012(10):1-13.

[4]BORKAR V S, JAIN A. Reinforcement learning, particle flters and the EM algorithm[J].Information Theory and Applications Workshop, 2014(12):1-5.

[5]BEN GHORBEL M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[J].Globecom Workshops, 2014(23):219-224.

Research on reinforcement learning algorithm based on particle flter

Dong Chunli, Wang Li
(School of Electronic and Information Engineering, Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)

This paper analyzes a particle flter based on reinforcement learning algorithm. The new algorithm processed the opportunistic spectrum access algorithm based on particle flter and Q-learning algorithm by combining particle flter and Q-learning algorithm. The experimental results show that the RLPF algorithm can be directly used for global search in the strategy space, which is a signifcant improvement of traditional reinforcement learning algorithm based on the local search strategy.

reinforcement learning; particle flter; strategy space; global search

南京交通職業技術學院高層次人才科研基金項目;項目編號:No. 2013。

董春利(1964— ),男,山東青島,博士,教授;研究方向:認知無線電網絡與下一代無線泛在網絡。

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 在线观看国产精美视频| 亚洲综合婷婷激情| 亚洲 成人国产| 国模私拍一区二区三区| 免费女人18毛片a级毛片视频| 久久永久免费人妻精品| 国产综合无码一区二区色蜜蜜| 国产在线一区视频| 99激情网| 成人免费一级片| 99在线小视频| 久久久久久久97| 高清大学生毛片一级| 麻豆精品在线视频| 亚洲免费福利视频| 青青草国产精品久久久久| 成人精品视频一区二区在线| 在线五月婷婷| 亚洲精品在线91| 日韩美毛片| 日韩视频免费| 91国内在线视频| 国产精品久久久久久久久kt| 国产乱人伦AV在线A| 无码区日韩专区免费系列| 国产乱人伦AV在线A| 国产v精品成人免费视频71pao| 午夜无码一区二区三区| 高清视频一区| 精品国产成人av免费| 亚洲a级毛片| 少妇高潮惨叫久久久久久| 伊人久久婷婷| 99re这里只有国产中文精品国产精品 | 国产农村1级毛片| 成人国内精品久久久久影院| 国产精品19p| 国产精品亚洲а∨天堂免下载| 欧美日韩国产一级| 国产va在线观看| 日本精品视频一区二区 | 在线观看无码a∨| 日韩午夜伦| 国产高潮流白浆视频| 亚洲天堂网在线播放| 黄色网站在线观看无码| 精品伊人久久大香线蕉网站| 国产精品区网红主播在线观看| 久久久久久午夜精品| 91网站国产| 国产日韩欧美一区二区三区在线| 黄色片中文字幕| 美女高潮全身流白浆福利区| 原味小视频在线www国产| 亚洲无码免费黄色网址| 欧美a级在线| 日本手机在线视频| 亚洲精品桃花岛av在线| 国产一级精品毛片基地| 国产日韩久久久久无码精品| 高清乱码精品福利在线视频| 麻豆精品在线播放| a亚洲视频| 欧美天堂在线| 亚洲水蜜桃久久综合网站 | 亚洲精品久综合蜜| 国产一级无码不卡视频| 欧美精品v日韩精品v国产精品| 青青青视频91在线 | 性69交片免费看| 亚洲综合色婷婷| 欧美中文一区| 久久精品中文字幕免费| 国产av一码二码三码无码| 色天堂无毒不卡| 欧美精品导航| 91久久国产成人免费观看| 国产乱子伦无码精品小说| 国产凹凸视频在线观看| 99精品影院| 原味小视频在线www国产| 国产欧美专区在线观看|