999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粒子濾波的強化學習算法建模研究

2017-02-23 05:45:20董春利
無線互聯科技 2017年1期
關鍵詞:重要性策略

董春利,王 莉

(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)

基于粒子濾波的強化學習算法建模研究

董春利,王 莉

(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)

文章對基于粒子濾波的強化學習算法進行了建模。該算法通過結合粒子濾波和Q-學習算法,得到一種基于粒子濾波和強化學習的算法。RLPF繼承了粒子濾波的很多優點:實現簡單、計算量小、占用內存非常低、能夠在策略空間直接進行全局搜索。

強化學習;粒子濾波;策略空間;全局搜索

認知無線電的機會頻譜接入(Opportunistic Spectrum Access,OSA)具有認知能力,能感知當前網絡條件并且作出規劃和決策,具有對以前決策的評判和未來決策判定的學習能力。因為OSA系統中的頻譜環境總是隨時間而變化,因此在不需要信道環境的先驗知識和動態模型的前提下,亟待通過不斷與環境進行交互學習,實現優越性能的革新技術出現[1]。圖1所示為OSA信道選擇和接入框架,即CR觀測和接入射頻環境示意圖[2]。

圖1 CR觀測和接入射頻環境示意

強化學習作為一種無模型、無監督的在線學習算法,是解決上述問題的有效途徑,近年來已經成為解決OSA問題的主流方法,得到了廣泛應用。

為了提高全局搜索能力,從而找到全局最優策略,將粒子濾波引入到機會頻譜接入,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。把強化學習的獎勵函數看作是粒子濾波的一個不恰當的概率密度函數(IPDF),是基于有限數量采樣的未知概率密度函數(PDF)的一種近似估計算法。文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。

文獻[5]利用粒子濾波為一個大規模動態頻譜接入系統進行資源分配。按照每個用戶實現的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學習算法進行了性能比較,驗證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應于一般情況(非線性模型,非高斯噪聲,多模態分布)。

1 強化學習和粒子濾波的聯系

通過做下面的觀測,將粒子濾波和強化學習聯系起來。定義參數空間θ∈Θ,把獎勵函數R(θ)∈R看作是粒子濾波的一個不恰當的概率密度函數(IPDF)。即使獎勵函數R(θ)出現負值,也可在R(θ)中添加一個正的常數L=R(θ),從而得到一個新的非負的獎勵函數R'(θ)。R'(θ)和R(θ)是同一組優化器,優化R'(θ)也會優化R(θ)。

假設R(θ)是粒子濾波的一個IPDF,那么強化學習問題可從一個新觀點重新構建,每次試驗τ(π(θ))被看作是從這個未知IPDF的一次獨立采樣,強化學習可被看作是選擇一個有限數量采樣點的一種算法,以此獲得IPDF的數值。為了完成強化學習和粒子濾波之間的連接,可簡單地通過歸一化(除以它的積分)將IPDF轉換成PDF。

2 基于粒子濾波的強化學習算法(RLPF)建模

定義一個策略粒子pi,數組pi=〈θi,τi,Ri,ωi〉,通過運行強化學習策略π(θi)所執行的試驗τi得到粒子pi,θi是策略參數值的一個矢量,調節強化學習策略π的行為。策略粒子還存儲著評價這次試驗的獎勵函數值Ri=R(τi(π(θi)))。變量τi包含試驗期間記錄的特殊任務信息,這個信息被獎勵函數執行它的評價使用,變量ωi是該策略粒子的重要性權值,它的計算方法如下。

假定粒子集{pi}是由R(θ)定義的潛在的未知IPDF的一個近似的隱式表達。為了選擇遵循真正的IPDF分布的新粒子,可從近似分布采樣,由重要性權值變量ωi糾正它與實際分布之間的差異。

(1)策略粒子pi=被分配一個標量的重要性權值ωi,重要性權值ωi來自相應的獎勵Ri,ωi和Ri使用轉換函數ωi∝g(Ri)轉換,g(·)是任意的非負函數。將重要性權值歸一化,

(3)引入隨機變量z,在時間間隔(0,1)均勻分布,定義y=h?1(z),可知隨機變量y是按照期望的未知PDF(近似)分布的。

粒子濾波有兩種變量,相應地有兩種RLPF,分別是序貫重要性采樣(SIS)和序貫重要性重采樣(SIR)。

算法的詳細說明如下:

第3—5行,在主循環的每次迭代中,選擇exploration(執行全局隨機采樣)和exploitation(利用粒子濾波作為采樣機制選擇新的策略參數)。這個選擇是由一個用戶自定義的函數Pexplore(n)控制,它定義了在迭代次數n∈[1,N]下,RLPF算法選擇執行exploration的概率。這一機制允許用戶直接控制exploration/exploitation的取舍。實際上,開始時給exploration一個高的概率值,然后為了給exploitation優先權,把它降到最小,這樣重點就放在了策略空間中最有前途的領域。在退化情況下,當?nP Pexexpplolorere( n()n=)1=,1RLPF算法變成全局隨機采樣。

第9—20行,執行了主要的粒子濾波機制。第11—14行,計算了策略粒子的重要性權值。第15—18行,用基于逆密度函數的機制選擇粒子。第19—20行,在先前選定的粒子中,增加指數衰減噪聲來選擇新的粒子。

第22—23行,基于一次或多次試驗,評價新的策略粒子。在確定性情況下,評價每個策略粒子使用一個策略評價。在非確定性(隨機)情況下,執行策略粒子的多個評價,平均得到的回報可被用來作為預期策略回報的一個無偏估計。

RLPF繼承了粒子濾波的很多優點,實現簡單,計算量小,占用內存非常低。利用函數g( R),增加每個獎勵間的相對差異,例如,函數g( R)=(1+R)2,RLPF可把執行全局隨機采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據精度和時間的要求,RLPF可顯示自適應算法的收斂速度。

3 結語

RLPF作為一個全局搜索算法,因為搜索的范圍是盡可能最大的全部策略空間,一般需要更多次的試驗來收斂。另外,即便粒子濾波沒有收斂性的嚴格證明,在實踐中,粒子濾波的經驗已經證明,在實際應用中能獲得優異的結果。

[1]XU Y H, WANG J L, WU Q H, et al. Opportunistic spectrum access in unknown dynamic environment:a game-theoretic stochastic learning solution[J].Wireless Communication, 2012(4):1380-1391.

[2]JOUINI W, BOLLENBACH R, GUILLET M, et al. Reinforcement learning application scenario for opportunistic spectrum access[C].54th International Midwest Symposium on Circuits and Systems, 2011:1-4.

[3]PETAR K, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle fltering[C].European Workshop on Reinforcement Learning, 2012:1-13.

[4]BORKAR V S, JAIN A. Reinforcement learning, particle filters and the EM algorithm[C].Information Theory and Applications Workshop, 2014:1-5.

[5]BEN G M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[C].Globecom Workshops, 2014:219-224.

Research on modeling by reinforcement learning algorithm based on particle flter

Dong Chunli, Wang Li
(Electronic And Information Engineering College of Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)

The reinforcement learning algorithm based on particle filter is modeled . An algorithm based on particle filter and reinforcement learning is presented by combining with particle filter and Q-, RLPF inherits many advantages of the particle filter to achieve a simple small amount of calculation, very low memory, and can direct carry on global in strategy space.

reinforcement learning; particle flter; policy space; global search

南京交通職業技術學院高層次人才科研基金項目;項目編號:No. 440105001。

董春利(1964— ),男,山東青島,博士,教授;研究方向:認知無線電網絡與下一代無線泛在網絡。

猜你喜歡
重要性策略
土木工程中建筑節能的重要性簡述
“0”的重要性
基于“選—練—評”一體化的二輪復習策略
論七分飽之重要性
求初相φ的常見策略
例談未知角三角函數值的求解策略
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
我說你做講策略
論七分飽之重要性
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 乱系列中文字幕在线视频| aaa国产一级毛片| 日日拍夜夜嗷嗷叫国产| 欧美.成人.综合在线| 精品视频一区二区三区在线播| 四虎成人在线视频| 国产成人高清精品免费软件| 中文字幕亚洲电影| 亚洲视屏在线观看| 欧美在线一级片| 精品久久高清| 97综合久久| JIZZ亚洲国产| 国产自无码视频在线观看| 欧美97色| 亚洲欧洲日韩综合| 91成人在线观看| 成人年鲁鲁在线观看视频| 色综合天天娱乐综合网| 国产男女免费完整版视频| 午夜国产大片免费观看| 夜夜操国产| 亚洲首页国产精品丝袜| 扒开粉嫩的小缝隙喷白浆视频| 国产精品手机在线观看你懂的| 美女无遮挡拍拍拍免费视频| 米奇精品一区二区三区| 9cao视频精品| 亚洲天堂自拍| 91视频免费观看网站| 永久在线播放| 一级看片免费视频| 欧美一区二区三区不卡免费| 午夜小视频在线| 手机在线免费不卡一区二| 国产视频a| 国产91蝌蚪窝| 欧美日韩北条麻妃一区二区| 亚洲综合国产一区二区三区| 亚洲二三区| 国产成+人+综合+亚洲欧美| 国产人人干| 三上悠亚一区二区| 国产激情无码一区二区免费| 欧美特黄一免在线观看| 在线欧美一区| 亚洲精品第一在线观看视频| 精品日韩亚洲欧美高清a| 性色一区| 午夜精品久久久久久久无码软件| h视频在线播放| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产丝袜无码精品| 国产日本一线在线观看免费| 色综合中文字幕| 免费人成视网站在线不卡| 亚洲日韩国产精品综合在线观看| 亚洲精品综合一二三区在线| 99精品热视频这里只有精品7 | 国产永久免费视频m3u8| 在线观看无码av五月花| 日本午夜视频在线观看| 精品国产91爱| 日日摸夜夜爽无码| 亚洲一区二区日韩欧美gif| 国产黄在线免费观看| 久久久久国产精品熟女影院| 国产亚洲高清视频| 国产又爽又黄无遮挡免费观看| 中文天堂在线视频| 又污又黄又无遮挡网站| 欧美日韩中文国产va另类| yy6080理论大片一级久久| 最新日本中文字幕| 国产9191精品免费观看| 欧美一级爱操视频| 三区在线视频| 国内精品小视频在线| 国产在线一区视频| 国产白浆在线观看| 国产小视频在线高清播放| 中文无码精品a∨在线观看|