999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粒子濾波的強化學習算法研究

2016-09-25 05:37:50董春利
無線互聯科技 2016年15期
關鍵詞:策略

董春利,王 莉

(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)

基于粒子濾波的強化學習算法研究

董春利,王莉

(南京交通職業技術學院 電子信息工程學院,江蘇南京211188)

文章分析了一種基于粒子濾波和強化學習的算法。該算法通過結合粒子濾波和Q-學習算法,得到一種基于粒子濾波和強化學習的機會頻譜接入算法(RLPF)。實驗結果表明,RLPF算法能夠在策略空間直接進行全局搜索,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。

強化學習;粒子濾波;策略空間;全局搜索

由于頻譜資源緊張并不是頻譜真正“物理上的稀缺”,而是傳統的靜態頻譜管理方式導致的結構性矛盾。動態頻譜接入(Dynamic Spectrum Access,DSA)被認為是一種與傳統靜態頻譜管理相反的頻譜利用方式,這使得DSA有了更廣泛的內涵,為提高頻譜資源的利用效率提供了全新的方向。認知無線電是實現DSA的關鍵技術,提供了與授權用戶(Provided User,PU)機會共享無線信道的能力[1]。

認知無線電的OSA具有認知能力,能感知當前網絡條件并且作出規劃和決策,具有對以前決策的評判和未來決策判定的學習能力。因為OSA系統中的頻譜環境總是隨時間而變化,因此在不需要信道環境的先驗知識和動態模型的前提下,亟待通過不斷與環境進行交互學習,實現優越性能的革新技術出現[2]。強化學習作為一種無模型、無監督的在線學習算法,是解決上述問題的有效途徑,近年來已經成為解決OSA問題的主流方法,得到了廣泛應用。

為了提高全局搜索能力,從而找到全局最優策略,將粒子濾波引入到機會頻譜接入,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。把強化學習的獎勵函數看作是粒子濾波的一個不恰當的概率密度函數(IPDF),是基于有限數量采樣的未知概率密度函數(PDF)的一種近似估計算法。文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。與卡爾曼濾波相比,粒子濾波適應于認知無線電OSA的非線性環境。

1 粒子濾波

(2)計算重要性權值

2 基于粒子濾波和Q-學習的機會頻譜接入算法(RLPF)

文獻[5]利用粒子濾波為一個大規模動態頻譜接入系統進行資源分配。按照每個用戶實現的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學習算法進行了性能比較,驗證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應于一般情況(非線性模型,非高斯噪聲,多模態分布)。

文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,主要借鑒粒子濾波的思想,揭示粒子濾波算法和強化學習之間的聯系,提出了一種新的強化學習算法。該算法的主要優點是在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。

定義一個策略粒子pi,數組pi=〈qi,ti,Ri,wi〉,通過運行強化學習策略π(θi)所執行的試驗τi得到粒子pi,θi是策略參數值的一個矢量,調節強化學習策略π的行為。策略粒子還存儲著評價這次試驗的獎勵函數值Ri=R(ti(p(qi)))。變量τi包含試驗期間記錄的特殊任務信息,這個信息被獎勵函數執行它的評價使用,變量ωi是該策略粒子的重要性權值,它的計算方法如下。

RLPF繼承了粒子濾波的很多優點,實現簡單,計算量小,占用內存非常低。利用函數g(R),增加每個獎勵間的相對差異,例如,函數g(R)=(1+R)2,RLPF可把執行全局隨機采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據精度和時間的要求,RLPF可顯示自適應算法的收斂速度。

RLPF作為一個全局搜索算法,因為搜索的范圍是盡可能最大的全部策略空間,一般需要多次試驗來收斂。另外,即便粒子濾波沒有收斂性的嚴格證明,在實踐中,粒子濾波的經驗已經證明,在實際應用中能獲得優異的結果。

3 實驗結果

首先在一維問題中單獨評估RLPF,它在可視化和分析中是最簡單的。圖1顯示了一個RLPF運行的例子,有多個局部最優解的一組合成的一維獎勵函數。通過RLPF生成的策略粒子由垂直灰色條紋顯示,在綠色的獎勵函數線上,相應的獎勵值由黑色圓圈顯示。使用以下的合成獎勵函數,因為它有許多局部最優:R(θ) = 1.55 + 0.3 sin(2.7θ) + 0.4 sin(4.5θ) + 0.2 sin(8.7θ) + 0.14 sin(20θ) + 0.08 sin(30θ) + 0.08 sin(50θ)。顯然可見,通過RLPF所產生的策略粒子往往集中在獎勵函數的最高峰。

圖1 一維問題中的RLPF的一個典型運行

圖2 全局策略搜索RL算法的收斂性比較

其次,比較RLPF與其他全局策略搜索RL算法的性能。很難選擇比較RLPF的基準,因為沒有任何真正意義上的基于RL算法的全局搜索策略。比較一個本地搜索RL,如策略梯度RL和RLPF是不公平的,因為局部搜索方法會容易陷入局部最優。因此作為一個基準,使用一個隨機的全局策略搜索RL算法,在策略空間上,它是基于全局隨機抽樣(Global Random Sampling, GRS)。其與RLPF的比較如圖2所示,平均超過許多運行次數,和圖1同樣的問題。平均每個算法50以上運行的結果。每輪有100個試驗。在實現的獎勵值大和獎勵值較小的變化兩個方面,RLPF輕易超過GRS。

4 結語

由于粒子濾波有進行全局搜索的能力,將粒子濾波和強化學習相結合,由此產生的RLPF算法也能夠在策略空間直接進行全局搜索,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。這項研究為OSA開辟了一個新的研究方向,未來它將會應用到更多的領域。

[1]WU J, YANG L, LIU X. Subcarrier and power allocation in OFDM based cognitive radio systems[J].4th International Conference on Intelligent Computation Technology and Automation, 2011(13):728-731.

[2]XU Y H, WANG J L, WU Q H, ET AL. Opportunistic spectrum access in unknown dynamic environment a game-theoretic stochastic learning solution[J]. IEEE Transactions on Wireless Communication, 2012(4):1380-1391.

[3]PETAR KORMUSHEV, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle filtering[J]. European Workshop on Reinforcement Learning, 2012(10):1-13.

[4]BORKAR V S, JAIN A. Reinforcement learning, particle flters and the EM algorithm[J].Information Theory and Applications Workshop, 2014(12):1-5.

[5]BEN GHORBEL M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[J].Globecom Workshops, 2014(23):219-224.

Research on reinforcement learning algorithm based on particle flter

Dong Chunli, Wang Li
(School of Electronic and Information Engineering, Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)

This paper analyzes a particle flter based on reinforcement learning algorithm. The new algorithm processed the opportunistic spectrum access algorithm based on particle flter and Q-learning algorithm by combining particle flter and Q-learning algorithm. The experimental results show that the RLPF algorithm can be directly used for global search in the strategy space, which is a signifcant improvement of traditional reinforcement learning algorithm based on the local search strategy.

reinforcement learning; particle flter; strategy space; global search

南京交通職業技術學院高層次人才科研基金項目;項目編號:No. 2013。

董春利(1964— ),男,山東青島,博士,教授;研究方向:認知無線電網絡與下一代無線泛在網絡。

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 亚洲精品天堂自在久久77| 特级欧美视频aaaaaa| 欧美精品黑人粗大| 亚洲欧美日韩高清综合678| 91免费精品国偷自产在线在线| 亚洲欧美日韩中文字幕在线一区| h视频在线观看网站| 中文字幕亚洲乱码熟女1区2区| 99资源在线| 91尤物国产尤物福利在线| av在线人妻熟妇| 国产激爽大片在线播放| 人人爱天天做夜夜爽| 国产aⅴ无码专区亚洲av综合网 | 波多野结衣无码视频在线观看| 国产91麻豆视频| 国产福利2021最新在线观看| 97成人在线观看| 2019年国产精品自拍不卡| 最新精品久久精品| 亚洲欧美激情小说另类| 无码av免费不卡在线观看| 就去色综合| 色亚洲激情综合精品无码视频| 国产精品美女自慰喷水| 天堂亚洲网| 国产成人h在线观看网站站| 国产精品三级专区| 亚洲一区二区成人| 蜜芽一区二区国产精品| 久久婷婷国产综合尤物精品| 伊人久久大香线蕉综合影视| 久久综合丝袜日本网| 婷婷激情亚洲| 国产精品观看视频免费完整版| 日日拍夜夜操| 成人蜜桃网| 在线播放91| 中文字幕在线看| 中国美女**毛片录像在线| 亚洲有无码中文网| 青草免费在线观看| 9久久伊人精品综合| 国产精品视频公开费视频| 天天色天天综合网| 国产福利不卡视频| 美女扒开下面流白浆在线试听| 欧美va亚洲va香蕉在线| 无码AV动漫| 日本www色视频| 日本免费精品| 免费看美女自慰的网站| 国产精品亚洲天堂| 亚洲第一色视频| 欧美福利在线| 亚洲综合激情另类专区| 毛片久久久| 久久男人资源站| 国产成人精品无码一区二| 国产欧美网站| 国产清纯在线一区二区WWW| 亚洲欧美自拍视频| 91青青草视频在线观看的| 中国特黄美女一级视频| 国产精品精品视频| 亚洲最新网址| 国产精品19p| 久久精品波多野结衣| 午夜高清国产拍精品| 国产精品浪潮Av| a在线亚洲男人的天堂试看| 亚洲侵犯无码网址在线观看| 99热这里只有精品久久免费| 黄色在线网| 免费一级无码在线网站| 亚洲国产无码有码| 国产chinese男男gay视频网| 白浆免费视频国产精品视频| 国产精选小视频在线观看| 成人在线天堂| 影音先锋丝袜制服| 国产在线一二三区|