幾種經(jīng)典的策略梯度算法性能對比

2014-11-07 05:00:07王輝于婧

電腦知識與技術(shù) 2014年29期

王輝　于婧

摘要：策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化，并且估算優(yōu)化指標(biāo)相對于策略參數(shù)的梯度，然后利用該梯度來調(diào)整這些參數(shù)，最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機(jī)性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實(shí)驗(yàn)平臺，對經(jīng)典GPOMDP、NAC和基于TD（[λ]）的策略梯度算法的收斂性能進(jìn)行了對比分析。

關(guān)鍵詞：強(qiáng)化學(xué)習(xí)；策略梯度；收斂性；仿真實(shí)驗(yàn)

中圖分類號：TP181 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2014）29-6937-05

Abstract：The classical gradient policy function is based on direct policy searching method， in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP， NAC and TD（[λ]） experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD（[λ]） algorithm by help of value functions is superior to the others.

Key words： reinforcement learning； policy gradient； convergence； simulation experiments

強(qiáng)化學(xué)習(xí)可以分為基于值函數(shù)方法和策略梯度方法[1]。基于值函數(shù)的算法，不需要顯性表示學(xué)習(xí)客體（agent）的行為策略，而是通過不停地更新狀態(tài)動作對的累計(jì)期望回報(bào)來得到最優(yōu)值函數(shù)。在估計(jì)所得的最優(yōu)值函數(shù)基礎(chǔ)上，在整個狀態(tài)、動作空間內(nèi)，使用貪心算法來確定當(dāng)前狀態(tài)遷移時所需的最優(yōu)動作。

值函數(shù)方法常用于對確定性策略的求解過程中，對于隨機(jī)性策略的處理仍存在很大困難，比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù)，并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法，策略梯度方法能夠同時處理確定性策略和隨機(jī)性策略，并且在理論上能夠保證收斂。

策略[π]決定了Agent在當(dāng)前環(huán)境狀態(tài)下對動作的選擇，動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。……

登錄APP查看全文

電腦知識與技術(shù) 2014年29期

電腦知識與技術(shù)的其它文章

使用用例建模進(jìn)行軟件需求分析研究

基于B/S和C/S混合模式的網(wǎng)上考試系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

簡述基于H3C之OSPF協(xié)議數(shù)通實(shí)驗(yàn)配置步驟

基于無線傳感器網(wǎng)絡(luò)的原油儲罐遠(yuǎn)程監(jiān)測系統(tǒng)

使用Sniffer軟件透視TCP/IP協(xié)議的安全