董春利,王 莉
(南京交通職業技術學院 電子信息工程學院,江蘇 南京 211188)
基于粒子濾波的強化學習算法研究
董春利,王莉
(南京交通職業技術學院 電子信息工程學院,江蘇南京211188)
文章分析了一種基于粒子濾波和強化學習的算法。該算法通過結合粒子濾波和Q-學習算法,得到一種基于粒子濾波和強化學習的機會頻譜接入算法(RLPF)。實驗結果表明,RLPF算法能夠在策略空間直接進行全局搜索,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。
強化學習;粒子濾波;策略空間;全局搜索
由于頻譜資源緊張并不是頻譜真正“物理上的稀缺”,而是傳統的靜態頻譜管理方式導致的結構性矛盾。動態頻譜接入(Dynamic Spectrum Access,DSA)被認為是一種與傳統靜態頻譜管理相反的頻譜利用方式,這使得DSA有了更廣泛的內涵,為提高頻譜資源的利用效率提供了全新的方向。認知無線電是實現DSA的關鍵技術,提供了與授權用戶(Provided User,PU)機會共享無線信道的能力[1]。
認知無線電的OSA具有認知能力,能感知當前網絡條件并且作出規劃和決策,具有對以前決策的評判和未來決策判定的學習能力。因為OSA系統中的頻譜環境總是隨時間而變化,因此在不需要信道環境的先驗知識和動態模型的前提下,亟待通過不斷與環境進行交互學習,實現優越性能的革新技術出現[2]。強化學習作為一種無模型、無監督的在線學習算法,是解決上述問題的有效途徑,近年來已經成為解決OSA問題的主流方法,得到了廣泛應用。
為了提高全局搜索能力,從而找到全局最優策略,將粒子濾波引入到機會頻譜接入,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。把強化學習的獎勵函數看作是粒子濾波的一個不恰當的概率密度函數(IPDF),是基于有限數量采樣的未知概率密度函數(PDF)的一種近似估計算法。文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。與卡爾曼濾波相比,粒子濾波適應于認知無線電OSA的非線性環境。



(2)計算重要性權值

文獻[5]利用粒子濾波為一個大規模動態頻譜接入系統進行資源分配。按照每個用戶實現的吞吐量,分析了粒子濾波算法的性能,并將粒子濾波算法與Q學習算法進行了性能比較,驗證了所提出的粒子濾波算法的有效性。與卡爾曼濾波相比,粒子濾波適應于一般情況(非線性模型,非高斯噪聲,多模態分布)。
文獻[3—4]提出了基于粒子濾波的直接策略搜索強化學習算法,主要借鑒粒子濾波的思想,揭示粒子濾波算法和強化學習之間的聯系,提出了一種新的強化學習算法。該算法的主要優點是在策略空間中具有進行全局搜索的能力,從而找到全局最優策略。
定義一個策略粒子pi,數組pi=〈qi,ti,Ri,wi〉,通過運行強化學習策略π(θi)所執行的試驗τi得到粒子pi,θi是策略參數值的一個矢量,調節強化學習策略π的行為。策略粒子還存儲著評價這次試驗的獎勵函數值Ri=R(ti(p(qi)))。變量τi包含試驗期間記錄的特殊任務信息,這個信息被獎勵函數執行它的評價使用,變量ωi是該策略粒子的重要性權值,它的計算方法如下。
RLPF繼承了粒子濾波的很多優點,實現簡單,計算量小,占用內存非常低。利用函數g(R),增加每個獎勵間的相對差異,例如,函數g(R)=(1+R)2,RLPF可把執行全局隨機采樣的努力集中到策略空間最重要的部分中。通過改變初始噪聲水平ε0和衰減因子λ,根據精度和時間的要求,RLPF可顯示自適應算法的收斂速度。
RLPF作為一個全局搜索算法,因為搜索的范圍是盡可能最大的全部策略空間,一般需要多次試驗來收斂。另外,即便粒子濾波沒有收斂性的嚴格證明,在實踐中,粒子濾波的經驗已經證明,在實際應用中能獲得優異的結果。
首先在一維問題中單獨評估RLPF,它在可視化和分析中是最簡單的。圖1顯示了一個RLPF運行的例子,有多個局部最優解的一組合成的一維獎勵函數。通過RLPF生成的策略粒子由垂直灰色條紋顯示,在綠色的獎勵函數線上,相應的獎勵值由黑色圓圈顯示。使用以下的合成獎勵函數,因為它有許多局部最優:R(θ) = 1.55 + 0.3 sin(2.7θ) + 0.4 sin(4.5θ) + 0.2 sin(8.7θ) + 0.14 sin(20θ) + 0.08 sin(30θ) + 0.08 sin(50θ)。顯然可見,通過RLPF所產生的策略粒子往往集中在獎勵函數的最高峰。

圖1 一維問題中的RLPF的一個典型運行

圖2 全局策略搜索RL算法的收斂性比較
其次,比較RLPF與其他全局策略搜索RL算法的性能。很難選擇比較RLPF的基準,因為沒有任何真正意義上的基于RL算法的全局搜索策略。比較一個本地搜索RL,如策略梯度RL和RLPF是不公平的,因為局部搜索方法會容易陷入局部最優。因此作為一個基準,使用一個隨機的全局策略搜索RL算法,在策略空間上,它是基于全局隨機抽樣(Global Random Sampling, GRS)。其與RLPF的比較如圖2所示,平均超過許多運行次數,和圖1同樣的問題。平均每個算法50以上運行的結果。每輪有100個試驗。在實現的獎勵值大和獎勵值較小的變化兩個方面,RLPF輕易超過GRS。
由于粒子濾波有進行全局搜索的能力,將粒子濾波和強化學習相結合,由此產生的RLPF算法也能夠在策略空間直接進行全局搜索,這是對傳統的基于局部搜索策略的強化學習算法的明顯改善。這項研究為OSA開辟了一個新的研究方向,未來它將會應用到更多的領域。
[1]WU J, YANG L, LIU X. Subcarrier and power allocation in OFDM based cognitive radio systems[J].4th International Conference on Intelligent Computation Technology and Automation, 2011(13):728-731.
[2]XU Y H, WANG J L, WU Q H, ET AL. Opportunistic spectrum access in unknown dynamic environment a game-theoretic stochastic learning solution[J]. IEEE Transactions on Wireless Communication, 2012(4):1380-1391.
[3]PETAR KORMUSHEV, DARWIN G, CALDWELL. Direct policy search reinforcement learning based on particle filtering[J]. European Workshop on Reinforcement Learning, 2012(10):1-13.
[4]BORKAR V S, JAIN A. Reinforcement learning, particle flters and the EM algorithm[J].Information Theory and Applications Workshop, 2014(12):1-5.
[5]BEN GHORBEL M, KHALFI B, HAMDAOUI B, et al. Resources allocation for large-scale dynamic spectrum access system using particle fltering[J].Globecom Workshops, 2014(23):219-224.
Research on reinforcement learning algorithm based on particle flter
Dong Chunli, Wang Li
(School of Electronic and Information Engineering, Nanjing Vocational Institute of Transport Technology, Nanjing 211188, China)
This paper analyzes a particle flter based on reinforcement learning algorithm. The new algorithm processed the opportunistic spectrum access algorithm based on particle flter and Q-learning algorithm by combining particle flter and Q-learning algorithm. The experimental results show that the RLPF algorithm can be directly used for global search in the strategy space, which is a signifcant improvement of traditional reinforcement learning algorithm based on the local search strategy.
reinforcement learning; particle flter; strategy space; global search
南京交通職業技術學院高層次人才科研基金項目;項目編號:No. 2013。
董春利(1964— ),男,山東青島,博士,教授;研究方向:認知無線電網絡與下一代無線泛在網絡。