999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粒子濾波的強化學習算法建模研究

2017-02-23 05:45:20董春利
無線互聯科技 2017年1期
關鍵詞:重要性策略

董春利,王 莉

(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)

基于粒子濾波的強化學習算法建模研究

董春利,王 莉

(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)

文章對基于粒子濾波的強化學習算法進行了建模。該算法通過結合粒子濾波和Q-學習算法,得到一種基于粒子濾波和強化學習的算法。RLPF繼承了粒子濾波的很多優點:實現簡單、計算量小、占用內存非常低、能夠在策略空間直接進行全局搜索。

強化學習;粒子濾波;策略空間;全局搜索

認知無線電的機會頻譜接入(Opportunistic Spectrum Access,OSA)具有認知能力,能感知當前網絡條件并且作出規劃和決策,具有對以前決策的評判和未來決策判定的學習能力。因為OSA系統中的頻譜環境總是隨時間而變化,因此在不需要信道環境的先驗知識和動態模型的前提下,亟待通過不斷與環境進行交互學習,實現優越性能的革新技術出現[1]。圖1所示為OSA信道選擇和接入框架,即CR觀測和接入射頻環境示意圖[2]。

圖1 CR觀測和接入射頻環境示意

強化學習作為一種無模型、無監督的在線學習算法,是解決上述問題的有效途徑,近年來已經成為解決OSA問題的主流方法,得到了廣泛應用。

為了提高全局搜索能力,從而找到全局最優策略,將粒子濾波引入到機會頻譜接入,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。把強化學習的獎勵函數看作是粒子濾波的一個不恰當的概率密度函數(IPDF),是基于有限數量采樣的未知概率密度函數(PDF)的一種近似估計算法。文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。

文獻[5]利用粒子濾波為一個大規模動態頻譜接入系統進行資源分配。按照每個用戶實現的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學習算法進行了性能比較,驗證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應于一般情況(非線性模型,非高斯噪聲,多模態分布)。

1 強化學習和粒子濾波的聯系

通過做下面的觀測,將粒子濾波和強化學習聯系起來。定義參數空間θ∈Θ,把獎勵函數R(θ)∈R看作是粒子濾波的一個不恰當的概率密度函數(IPDF)。即使獎勵函數R(θ)出現負值,也可在R(θ)中添加一個正的常數L=R(θ),從而得到一個新的非負的獎勵函數R'(θ)。R'(θ)和R(θ)是同一組優化器,優化R'(θ)也會優化R(θ)。

假設R(θ)是粒子濾波的一個IPDF,那么強化學習問題可從一個新觀點重新構建,每次試驗τ(π(θ))被看作是從這個未知IPDF的一次獨立采樣,強化學習可被看作是選擇一個有限數量采樣點的一種算法,以此獲得IPDF的數值。為了完成強化學習和粒子濾波之間的連接,可簡單地通過歸一化(除以它的積分)將IPDF轉換成PDF。

2 基于粒子濾波的強化學習算法(RLPF)建模

定義一個策略粒子pi,數組pi=〈θi,τi,Ri,ωi〉,通過運行強化學習策略π(θi)所執行的試驗τi得到粒子pi,θi是策略參數值的一個矢量,調節強化學習策略π的行為。策略粒子還存儲著評價這次試驗的獎勵函數值Ri=R(τi(π(θi)))。變量τi包含試驗期間記錄的特殊任務信息,這個信息被獎勵函數執行它的評價使用,變量ωi是該策略粒子的重要性權值,它的計算方法如下。

假定粒子集{pi}是由R(θ)定義的潛在的未知IPDF的一個近似的隱式表達。為了選擇遵循真正的IPDF分布的新粒子,可從近似分布采樣,由重要性權值變量ωi糾正它與實際分布之間的差異。

(1)策略粒子pi=被分配一個標量的重要性權值ωi,重要性權值ωi來自相應的獎勵Ri,ωi和Ri使用轉換函數ωi∝g(Ri)轉換,g(·)是任意的非負函數。將重要性權值歸一化,

(3)引入隨機變量z,在時間間隔(0,1)均勻分布,定義y=h?1(z),可知隨機變量y是按照期望的未知PDF(近似)分布的。

粒子濾波有兩種變量,相應地有兩種RLPF,分別是序貫重要性采樣(SIS)和序貫重要性重采樣(SIR)。

算法的詳細說明如下:

第3—5行,在主循環的每次迭代中,選擇exploration(執行全局隨機采樣)和exploitation(利用粒子濾波作為采樣機制選擇新的策略參數)。這個選擇是由一個用戶自定義的函數Pexplore(n)控制,它定義了在迭代次數n∈[1,N]下,RLPF算法選擇執行exploration的概率。這一機制允許用戶直接控制exploration/exploitation的取舍。實際上,開始時給exploration一個高的概率值,然后為了給exploitation優先權,把它降到最小,這樣重點就放在了策略空間中最有前途的領域。在退化情況下,當?nP Pexexpplolorere( n()n=)1=,1RLPF算法變成全局隨機采樣。

第9—20行,執行了主要的粒子濾波機制。第11—14行,計算了策略粒子的重要性權值。第15—18行,用基于逆密度函數的機制選擇粒子。第19—20行,在先前選定的粒子中,增加指數衰減噪聲來選擇新的粒子。

第22—23行,基于一次或多次試驗,評價新的策略粒子。在確定性情況下,評價每個策略粒子使用一個策略評價。在非確定性(隨機)情況下,執行策略粒子的多個評價,平均得到的回報可被用來作為預期策略回報的一個無偏估計。

RLPF繼承了粒子濾波的很多優點,實現簡單,計算量小,占用內存非常低。利用函數g( R),增加每個獎勵間的相對差異,例如,函數g( R)=(1+R)2,RLPF可把執行全局隨機采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據精度和時間的要求,RLPF可顯示自適應算法的收斂速度。

3 結語

RLPF作為一個全局搜索算法,因為搜索的范圍是盡可能最大的全部策略空間,一般需要更多次的試驗來收斂。另外,即便粒子濾波沒有收斂性的嚴格證明,在實踐中,粒子濾波的經驗已經證明,在實際應用中能獲得優異的結果。

[1]XU Y H, WANG J L, WU Q H, et al. Opportunistic spectrum access in unknown dynamic environment:a game-theoretic stochastic learning solution[J].Wireless Communication, 2012(4):1380-1391.

[2]JOUINI W, BOLLENBACH R, GUILLET M, et al. Reinforcement learning application scenario for opportunistic spectrum access[C].54th International Midwest Symposium on Circuits and Systems, 2011:1-4.

[3]PETAR K, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle fltering[C].European Workshop on Reinforcement Learning, 2012:1-13.

[4]BORKAR V S, JAIN A. Reinforcement learning, particle filters and the EM algorithm[C].Information Theory and Applications Workshop, 2014:1-5.

[5]BEN G M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[C].Globecom Workshops, 2014:219-224.

Research on modeling by reinforcement learning algorithm based on particle flter

Dong Chunli, Wang Li
(Electronic And Information Engineering College of Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)

The reinforcement learning algorithm based on particle filter is modeled . An algorithm based on particle filter and reinforcement learning is presented by combining with particle filter and Q-, RLPF inherits many advantages of the particle filter to achieve a simple small amount of calculation, very low memory, and can direct carry on global in strategy space.

reinforcement learning; particle flter; policy space; global search

南京交通職業技術學院高層次人才科研基金項目;項目編號:No. 440105001。

董春利(1964— ),男,山東青島,博士,教授;研究方向:認知無線電網絡與下一代無線泛在網絡。

猜你喜歡
重要性策略
土木工程中建筑節能的重要性簡述
“0”的重要性
基于“選—練—評”一體化的二輪復習策略
論七分飽之重要性
求初相φ的常見策略
例談未知角三角函數值的求解策略
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
我說你做講策略
論七分飽之重要性
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 国产精品观看视频免费完整版| 欧美成人手机在线观看网址| 亚洲国产系列| 中文字幕久久亚洲一区| 熟女成人国产精品视频| 亚洲最大福利网站| 国产正在播放| 无码国产伊人| 色婷婷成人网| 538国产在线| 一级毛片在线免费视频| 99久视频| 五月婷婷激情四射| 亚洲一级色| 欧美日韩国产成人高清视频| 国产欧美日韩另类精彩视频| 国产精品污污在线观看网站| 久久综合国产乱子免费| 99视频只有精品| 国产在线无码一区二区三区| 亚洲 欧美 日韩综合一区| 无码区日韩专区免费系列| 人妖无码第一页| 日本www色视频| 久久人搡人人玩人妻精品一| 国产午夜福利亚洲第一| 国产成a人片在线播放| 日韩人妻少妇一区二区| 亚洲国产在一区二区三区| 日本一区中文字幕最新在线| 成人午夜天| 激情网址在线观看| 露脸国产精品自产在线播| 亚洲精品成人福利在线电影| 91蜜芽尤物福利在线观看| 婷婷色中文网| 国产成人艳妇AA视频在线| 成人午夜视频网站| 婷婷亚洲视频| 一本久道久久综合多人| 国产导航在线| 福利小视频在线播放| 老司国产精品视频91| 日韩成人在线一区二区| 99re精彩视频| 911亚洲精品| 26uuu国产精品视频| 成年网址网站在线观看| 米奇精品一区二区三区| 成人午夜视频免费看欧美| 青草精品视频| 内射人妻无套中出无码| 亚洲综合中文字幕国产精品欧美| 精品撒尿视频一区二区三区| 国产成人AV男人的天堂| 精品91自产拍在线| 亚洲天堂在线免费| 99精品国产自在现线观看| 国产精品刺激对白在线| 久久不卡国产精品无码| 国产精品任我爽爆在线播放6080 | 亚洲精品国产乱码不卡| 亚洲无码日韩一区| 亚洲综合18p| 国产精品污视频| 国产精品漂亮美女在线观看| 97视频免费在线观看| 国产精品无码在线看| 丝袜国产一区| 538国产视频| 欧美成人国产| 中文字幕伦视频| 欧美另类精品一区二区三区| 亚洲Aⅴ无码专区在线观看q| 日韩毛片免费观看| 69国产精品视频免费| 亚洲天堂网在线播放| 久久免费观看视频| 欧美国产日韩在线观看| 久久综合伊人 六十路| 男女男免费视频网站国产| 凹凸精品免费精品视频|