王輝 于婧
摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標(biāo)相對于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機(jī)性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實(shí)驗(yàn)平臺,對經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進(jìn)行了對比分析。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);策略梯度;收斂性;仿真實(shí)驗(yàn)
中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)29-6937-05
Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.
Key words: reinforcement learning; policy gradient; convergence; simulation experiments
強(qiáng)化學(xué)習(xí)可以分為基于值函數(shù)方法和策略梯度方法[1]。基于值函數(shù)的算法,不需要顯性表示學(xué)習(xí)客體(agent)的行為策略,而是通過不停地更新狀態(tài)動作對的累計(jì)期望回報(bào)來得到最優(yōu)值函數(shù)。在估計(jì)所得的最優(yōu)值函數(shù)基礎(chǔ)上,在整個狀態(tài)、動作空間內(nèi),使用貪心算法來確定當(dāng)前狀態(tài)遷移時所需的最優(yōu)動作。
值函數(shù)方法常用于對確定性策略的求解過程中,對于隨機(jī)性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法,策略梯度方法能夠同時處理確定性策略和隨機(jī)性策略,并且在理論上能夠保證收斂。
策略[π]決定了Agent在當(dāng)前環(huán)境狀態(tài)下對動作的選擇,動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。……