999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

馬爾可夫決策問題的關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法

2016-05-14 09:37:41白塵
中國管理信息化 2016年7期

白塵

[摘 要] 針對傳統(tǒng)強化學(xué)習(xí)算法的維數(shù)災(zāi)難問題,首先提出了用于識別關(guān)鍵狀態(tài)的“決策收益率”概念及其估算方法,然后借鑒學(xué)習(xí)范圍擴展的思想,以經(jīng)典Q-Learning學(xué)習(xí)算法為基礎(chǔ),提出了關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法(Critical States Prioritized Learning,CSPL)。最后本文實現(xiàn)了機器人尋徑實驗,并比較了CSPL算法與Q-Learning算法的實驗結(jié)果。

[關(guān)鍵詞] 馬爾可夫決策;關(guān)鍵狀態(tài);決策收益率;關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 07. 092

[中圖分類號] TP311 [文獻標(biāo)識碼] A [文章編號] 1673 - 0194(2016)07- 0198- 05

1 引 言

馬爾可夫決策過程(Markov Decision Process,MDP)模型被廣泛用于描述通訊網(wǎng)絡(luò)、金融工程、制造系統(tǒng)和人工智能等領(lǐng)域的序貫決策問題[1]。強化學(xué)習(xí)算法(Reinforcement Learning,RL)是MDP問題的一類重要解決方法[2]。在解決復(fù)雜MDP問題時,傳統(tǒng)強化學(xué)習(xí)算法面臨著“維數(shù)災(zāi)難”問題,即隨著狀態(tài)空間和行為空間維數(shù)增大,算法的學(xué)習(xí)空間和學(xué)習(xí)時間呈指數(shù)增長[3]。

維數(shù)災(zāi)難問題的常用解決方法是分層強化學(xué)習(xí)(Hierarchical Reinforcement Learning)[4]和學(xué)習(xí)范圍擴展(Learning Scale Extension)[5]。分層強化學(xué)習(xí)將原有決策問題分解為由多個子任務(wù)構(gòu)成的層次結(jié)構(gòu)以提高整體效率,但是構(gòu)建層次結(jié)構(gòu)需要依賴大量先驗知識;學(xué)習(xí)范圍擴展是通過學(xué)習(xí)狀態(tài)空間結(jié)構(gòu)信息以擴大一次學(xué)習(xí)所影響的狀態(tài)范圍,若學(xué)習(xí)范圍設(shè)定不合理,需要耗費大量運算時間和空間記憶額外信息。兩種解決方法的實用性較低。

本文針對傳統(tǒng)強化學(xué)習(xí)算法的維數(shù)災(zāi)難問題,提出了一種新的思路:優(yōu)先學(xué)習(xí)對整體決策效果影響較大的“關(guān)鍵狀態(tài)”,從而提高復(fù)雜狀態(tài)空間下的整體決策效率。本文首先提出“決策收益率”的概念和估計方法,解決了“如何識別關(guān)鍵狀態(tài)”的問題;然后提出“逆向?qū)W習(xí)”的方法,解決了“如何優(yōu)先學(xué)習(xí)關(guān)鍵狀態(tài)”的問題;并借鑒學(xué)習(xí)范圍擴展的思想,以經(jīng)典Q-Learning學(xué)習(xí)算法[6]為基礎(chǔ),提出了關(guān)鍵狀態(tài)優(yōu)先學(xué)習(xí)算法。

主站蜘蛛池模板: 3344在线观看无码| 91无码视频在线观看| 99热6这里只有精品| 久久久噜噜噜| 色综合成人| 国产精品免费电影| 成人日韩欧美| 日韩欧美中文在线| 国产精品亚洲片在线va| 国产亚洲精品91| 成年人国产视频| 国产免费福利网站| 精品剧情v国产在线观看| 国产99在线| 午夜三级在线| 亚洲黄色视频在线观看一区| 最新日韩AV网址在线观看| 国产精品无码作爱| 欧美A级V片在线观看| 日韩a级片视频| 韩国自拍偷自拍亚洲精品| 国产成人午夜福利免费无码r| 91久久天天躁狠狠躁夜夜| 亚洲视频一区| 5555国产在线观看| 色婷婷成人| 国产在线观看成人91| 国产精品理论片| 国产亚洲视频在线观看| 国产精品永久在线| 少妇精品在线| 免费一级α片在线观看| 热久久国产| 2020国产免费久久精品99| 亚洲美女久久| 高清久久精品亚洲日韩Av| 亚洲色欲色欲www网| 青青草国产一区二区三区| 亚洲国产成人精品一二区| 国产人碰人摸人爱免费视频| 国产成人8x视频一区二区| 狠狠v日韩v欧美v| 精品成人一区二区三区电影| 欧美一级色视频| 人禽伦免费交视频网页播放| 干中文字幕| 毛片a级毛片免费观看免下载| 欧美日韩一区二区三区四区在线观看| 狠狠五月天中文字幕| 亚洲一区二区在线无码| 亚洲综合色吧| 狠狠亚洲五月天| 欧美在线中文字幕| 国产成人综合久久精品尤物| 国产亚洲精品97AA片在线播放| 玖玖精品在线| 欧美精品不卡| 十八禁美女裸体网站| 国产精品视频久| 天天色天天操综合网| 欧美爱爱网| 美女高潮全身流白浆福利区| 欧美午夜在线播放| 色婷婷电影网| 国产欧美日韩专区发布| 波多野结衣无码AV在线| 一级做a爰片久久毛片毛片| 国产精品视频3p| 欧美成人综合在线| 亚洲第一极品精品无码| 亚洲成人动漫在线观看 | 欧美福利在线播放| 国产欧美日韩va另类在线播放 | 国产另类视频| 黄色网页在线观看| 国产午夜福利在线小视频| 亚洲天堂日本| 在线观看91香蕉国产免费| 狠狠色丁婷婷综合久久| 国产视频入口| 久久综合伊人 六十路| 久久无码高潮喷水|