999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

幾種經(jīng)典的策略梯度算法性能對比

2014-11-07 05:00:07王輝于婧
電腦知識與技術(shù) 2014年29期

王輝 于婧

摘要:策略梯度函數(shù)是基于直接策略搜索的方法。它把策略參數(shù)化,并且估算優(yōu)化指標(biāo)相對于策略參數(shù)的梯度,然后利用該梯度來調(diào)整這些參數(shù),最后可以獲得局部最優(yōu)或者局部最優(yōu)策略。所以這樣得到的策略可以是隨機(jī)性策略也可是確定性策略。通過自主開發(fā)的Gridworld策略梯度實(shí)驗(yàn)平臺,對經(jīng)典GPOMDP、NAC和基于TD([λ])的策略梯度算法的收斂性能進(jìn)行了對比分析。

關(guān)鍵詞:強(qiáng)化學(xué)習(xí);策略梯度;收斂性;仿真實(shí)驗(yàn)

中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)29-6937-05

Abstract:The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD([λ]) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD([λ]) algorithm by help of value functions is superior to the others.

Key words: reinforcement learning; policy gradient; convergence; simulation experiments

強(qiáng)化學(xué)習(xí)可以分為基于值函數(shù)方法和策略梯度方法[1]。基于值函數(shù)的算法,不需要顯性表示學(xué)習(xí)客體(agent)的行為策略,而是通過不停地更新狀態(tài)動作對的累計(jì)期望回報(bào)來得到最優(yōu)值函數(shù)。在估計(jì)所得的最優(yōu)值函數(shù)基礎(chǔ)上,在整個狀態(tài)、動作空間內(nèi),使用貪心算法來確定當(dāng)前狀態(tài)遷移時所需的最優(yōu)動作。

值函數(shù)方法常用于對確定性策略的求解過程中,對于隨機(jī)性策略的處理仍存在很大困難,比如在使用線性函數(shù)逼近器面對連續(xù)狀態(tài)、動作空間環(huán)境時不能保證收斂[2]。策略梯度方法需要顯式地表示策略函數(shù),并且能夠沿著策略梯度下降的方向持續(xù)改善和優(yōu)化策略函數(shù)的參數(shù)向量。該方法能夠最終逼近約束環(huán)境下的最優(yōu)解。相對于值函數(shù)方法,策略梯度方法能夠同時處理確定性策略和隨機(jī)性策略,并且在理論上能夠保證收斂。

策略[π]決定了Agent在當(dāng)前環(huán)境狀態(tài)下對動作的選擇,動作選擇后Agent按照某種概率分布遷移到下一個狀態(tài)。……

登錄APP查看全文

主站蜘蛛池模板: 久久先锋资源| 99精品伊人久久久大香线蕉| 久夜色精品国产噜噜| 红杏AV在线无码| 久久久久青草线综合超碰| 日本不卡在线播放| 中文字幕在线永久在线视频2020| 制服丝袜一区| 成人日韩欧美| 无码一区中文字幕| 无码精品国产VA在线观看DVD| 国产成人综合网在线观看| 国产三级a| 亚洲成网777777国产精品| a级毛片网| 欧美无专区| 国产女人在线视频| 亚洲AⅤ无码国产精品| 97视频精品全国免费观看| 国产不卡网| 欧美精品影院| 欧美精品二区| 不卡的在线视频免费观看| 99在线观看国产| 午夜精品一区二区蜜桃| 伊人久久综在合线亚洲2019| 91精品在线视频观看| 国产欧美日韩视频怡春院| 日本免费a视频| 亚洲高清中文字幕| 亚洲熟妇AV日韩熟妇在线| 九九热精品视频在线| 免费又黄又爽又猛大片午夜| 精品国产91爱| 婷婷久久综合九色综合88| 东京热av无码电影一区二区| 免费一级α片在线观看| 丁香亚洲综合五月天婷婷| 精品91自产拍在线| 亚洲va在线∨a天堂va欧美va| 日韩a在线观看免费观看| 精品夜恋影院亚洲欧洲| 亚洲欧美在线综合图区| 亚洲婷婷丁香| 国语少妇高潮| 丁香综合在线| 欧美 国产 人人视频| 蝌蚪国产精品视频第一页| 为你提供最新久久精品久久综合| 亚洲欧美日韩视频一区| 在线亚洲精品福利网址导航| 国产黄网永久免费| 久久伊伊香蕉综合精品| 成·人免费午夜无码视频在线观看| 精品国产网| 狠狠五月天中文字幕| 欧美精品在线免费| 无码网站免费观看| 成人午夜在线播放| 亚洲Aⅴ无码专区在线观看q| 美女免费黄网站| 亚洲国产欧洲精品路线久久| 91外围女在线观看| 人妻精品全国免费视频| 亚洲男人天堂2018| 91高清在线视频| 免费看美女自慰的网站| 国产美女精品在线| 精品無碼一區在線觀看 | 婷婷午夜天| 亚洲日韩国产精品无码专区| 亚洲天堂久久| 欧美天天干| 久久久久久国产精品mv| av大片在线无码免费| 亚洲一区免费看| 欧美成人看片一区二区三区| 亚洲视频二| 日本欧美一二三区色视频| 中文成人在线视频| 青青操国产视频| 国产精品无码作爱|