董春利,王 莉
(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)
基于粒子濾波的強化學習算法建模研究
董春利,王 莉
(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)
文章對基于粒子濾波的強化學習算法進行了建模。該算法通過結合粒子濾波和Q-學習算法,得到一種基于粒子濾波和強化學習的算法。RLPF繼承了粒子濾波的很多優點:實現簡單、計算量小、占用內存非常低、能夠在策略空間直接進行全局搜索。
強化學習;粒子濾波;策略空間;全局搜索
認知無線電的機會頻譜接入(Opportunistic Spectrum Access,OSA)具有認知能力,能感知當前網絡條件并且作出規劃和決策,具有對以前決策的評判和未來決策判定的學習能力。因為OSA系統中的頻譜環境總是隨時間而變化,因此在不需要信道環境的先驗知識和動態模型的前提下,亟待通過不斷與環境進行交互學習,實現優越性能的革新技術出現[1]。圖1所示為OSA信道選擇和接入框架,即CR觀測和接入射頻環境示意圖[2]。

圖1 CR觀測和接入射頻環境示意
強化學習作為一種無模型、無監督的在線學習算法,是解決上述問題的有效途徑,近年來已經成為解決OSA問題的主流方法,得到了廣泛應用。
為了提高全局搜索能力,從而找到全局最優策略,將粒子濾波引入到機會頻譜接入,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。把強化學習的獎勵函數看作是粒子濾波的一個不恰當的概率密度函數(IPDF),是基于有限數量采樣的未知概率密度函數(PDF)的一種近似估計算法。文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。
文獻[5]利用粒子濾波為一個大規模動態頻譜接入系統進行資源分配。按照每個用戶實現的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學習算法進行了性能比較,驗證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應于一般情況(非線性模型,非高斯噪聲,多模態分布)。
通過做下面的觀測,將粒子濾波和強化學習聯系起來。定義參數空間θ∈Θ,把獎勵函數R(θ)∈R看作是粒子濾波的一個不恰當的概率密度函數(IPDF)。即使獎勵函數R(θ)出現負值,也可在R(θ)中添加一個正的常數L=R(θ),從而得到一個新的非負的獎勵函數R'(θ)。R'(θ)和R(θ)是同一組優化器,優化R'(θ)也會優化R(θ)。
假設R(θ)是粒子濾波的一個IPDF,那么強化學習問題可從一個新觀點重新構建,每次試驗τ(π(θ))被看作是從這個未知IPDF的一次獨立采樣,強化學習可被看作是選擇一個有限數量采樣點的一種算法,以此獲得IPDF的數值。為了完成強化學習和粒子濾波之間的連接,可簡單地通過歸一化(除以它的積分)將IPDF轉換成PDF。
定義一個策略粒子pi,數組pi=〈θi,τi,Ri,ωi〉,通過運行強化學習策略π(θi)所執行的試驗τi得到粒子pi,θi是策略參數值的一個矢量,調節強化學習策略π的行為。策略粒子還存儲著評價這次試驗的獎勵函數值Ri=R(τi(π(θi)))。變量τi包含試驗期間記錄的特殊任務信息,這個信息被獎勵函數執行它的評價使用,變量ωi是該策略粒子的重要性權值,它的計算方法如下。
假定粒子集{pi}是由R(θ)定義的潛在的未知IPDF的一個近似的隱式表達。為了選擇遵循真正的IPDF分布的新粒子,可從近似分布采樣,由重要性權值變量ωi糾正它與實際分布之間的差異。
(1)策略粒子pi=被分配一個標量的重要性權值ωi,重要性權值ωi來自相應的獎勵Ri,ωi和Ri使用轉換函數ωi∝g(Ri)轉換,g(·)是任意的非負函數。將重要性權值歸一化,
(3)引入隨機變量z,在時間間隔(0,1)均勻分布,定義y=h?1(z),可知隨機變量y是按照期望的未知PDF(近似)分布的。
粒子濾波有兩種變量,相應地有兩種RLPF,分別是序貫重要性采樣(SIS)和序貫重要性重采樣(SIR)。


算法的詳細說明如下:
第3—5行,在主循環的每次迭代中,選擇exploration(執行全局隨機采樣)和exploitation(利用粒子濾波作為采樣機制選擇新的策略參數)。這個選擇是由一個用戶自定義的函數Pexplore(n)控制,它定義了在迭代次數n∈[1,N]下,RLPF算法選擇執行exploration的概率。這一機制允許用戶直接控制exploration/exploitation的取舍。實際上,開始時給exploration一個高的概率值,然后為了給exploitation優先權,把它降到最小,這樣重點就放在了策略空間中最有前途的領域。在退化情況下,當?nP Pexexpplolorere( n()n=)1=,1RLPF算法變成全局隨機采樣。
第9—20行,執行了主要的粒子濾波機制。第11—14行,計算了策略粒子的重要性權值。第15—18行,用基于逆密度函數的機制選擇粒子。第19—20行,在先前選定的粒子中,增加指數衰減噪聲來選擇新的粒子。
第22—23行,基于一次或多次試驗,評價新的策略粒子。在確定性情況下,評價每個策略粒子使用一個策略評價。在非確定性(隨機)情況下,執行策略粒子的多個評價,平均得到的回報可被用來作為預期策略回報的一個無偏估計。
RLPF繼承了粒子濾波的很多優點,實現簡單,計算量小,占用內存非常低。利用函數g( R),增加每個獎勵間的相對差異,例如,函數g( R)=(1+R)2,RLPF可把執行全局隨機采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據精度和時間的要求,RLPF可顯示自適應算法的收斂速度。
RLPF作為一個全局搜索算法,因為搜索的范圍是盡可能最大的全部策略空間,一般需要更多次的試驗來收斂。另外,即便粒子濾波沒有收斂性的嚴格證明,在實踐中,粒子濾波的經驗已經證明,在實際應用中能獲得優異的結果。
[1]XU Y H, WANG J L, WU Q H, et al. Opportunistic spectrum access in unknown dynamic environment:a game-theoretic stochastic learning solution[J].Wireless Communication, 2012(4):1380-1391.
[2]JOUINI W, BOLLENBACH R, GUILLET M, et al. Reinforcement learning application scenario for opportunistic spectrum access[C].54th International Midwest Symposium on Circuits and Systems, 2011:1-4.
[3]PETAR K, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle fltering[C].European Workshop on Reinforcement Learning, 2012:1-13.
[4]BORKAR V S, JAIN A. Reinforcement learning, particle filters and the EM algorithm[C].Information Theory and Applications Workshop, 2014:1-5.
[5]BEN G M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[C].Globecom Workshops, 2014:219-224.
Research on modeling by reinforcement learning algorithm based on particle flter
Dong Chunli, Wang Li
(Electronic And Information Engineering College of Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)
The reinforcement learning algorithm based on particle filter is modeled . An algorithm based on particle filter and reinforcement learning is presented by combining with particle filter and Q-, RLPF inherits many advantages of the particle filter to achieve a simple small amount of calculation, very low memory, and can direct carry on global in strategy space.
reinforcement learning; particle flter; policy space; global search
南京交通職業技術學院高層次人才科研基金項目;項目編號:No. 440105001。
董春利(1964— ),男,山東青島,博士,教授;研究方向:認知無線電網絡與下一代無線泛在網絡。