999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法

2022-02-16 11:02:40李艷斌陳蘇逸杜宇峰
關(guān)鍵詞:深度動(dòng)作價(jià)值

暢 鑫,李艷斌,田 淼,陳蘇逸,杜宇峰,趙 研

(1.中國(guó)電子科技集團(tuán)公司 第五十四研究所,石家莊 050081;2.河北省電磁頻譜認(rèn)知與管控重點(diǎn)實(shí)驗(yàn)室,石家莊 050081;3.電子科技大學(xué) 信息與通信工程學(xué)院,成都 611731)

0 引言

用數(shù)學(xué)方法尋找最優(yōu)策略的研究既古老又新穎,最早可以追溯到20世紀(jì)50年代初,美國(guó)數(shù)學(xué)家貝爾曼(R.Bellman)等人在研究多階段決策過(guò)程的優(yōu)化問(wèn)題時(shí),提出了著名的最優(yōu)化原理,從而創(chuàng)立了動(dòng)態(tài)規(guī)劃。然后隨著時(shí)代發(fā)展,這個(gè)領(lǐng)域逐漸出現(xiàn)了蒙特卡羅法、時(shí)序差分法等優(yōu)秀的算法,解決了許多動(dòng)態(tài)規(guī)劃所不能解決的問(wèn)題。在傳統(tǒng)強(qiáng)化學(xué)習(xí)時(shí)代,最為杰出和經(jīng)典的就是Q學(xué)習(xí)(Q-learning)算法。Q-learning采用表格記錄狀態(tài)-動(dòng)作對(duì)價(jià)值,即Q值的方法探索最優(yōu)策略,這也成為了后續(xù)深度強(qiáng)化學(xué)習(xí)算法中基于價(jià)值(value-based)分支的基石[1]。然而,在現(xiàn)實(shí)中的許多情況下,問(wèn)題所包含的狀態(tài)空間和動(dòng)作空間都非常大,比如將一些連續(xù)狀態(tài)離散化后形成的狀態(tài)空間,這就使得借助表格存儲(chǔ)Q值的方法難以為繼。

幸運(yùn)的是,隨著計(jì)算機(jī)算力的飛速發(fā)展,在強(qiáng)化學(xué)習(xí)中引入深度學(xué)習(xí)來(lái)解決連續(xù)狀態(tài)空間問(wèn)題成為了可能。但人們很快就發(fā)現(xiàn),使用神經(jīng)網(wǎng)絡(luò)這樣的非線性函數(shù)逼近動(dòng)作價(jià)值函數(shù)的強(qiáng)化學(xué)習(xí)算法都是不穩(wěn)定甚至不收斂的。這就是所謂的“離線學(xué)習(xí)-函數(shù)逼近-自舉檢驗(yàn)”不可能三角(deadly triad issue),意思是強(qiáng)化學(xué)習(xí)無(wú)法同時(shí)使用這3種數(shù)學(xué)方法,否則將導(dǎo)致算法的不穩(wěn)定甚至不收斂。造成這種情況的原因主要有3點(diǎn):1)連續(xù)的狀態(tài)之間的相關(guān)性;2)動(dòng)作價(jià)值函數(shù)的微小變化可能導(dǎo)致策略的突變并顯著地改變數(shù)據(jù)分布;3)動(dòng)作價(jià)值函數(shù)與收斂目標(biāo)之間的相關(guān)性。

2015年,Mnih及其同事提出的DQN通過(guò)采用經(jīng)驗(yàn)回放(experience replay)和目標(biāo)網(wǎng)絡(luò)(target networks)技術(shù)解決了不穩(wěn)定的問(wèn)題,在2 600多個(gè)雅達(dá)利游戲上達(dá)到了人類(lèi)玩家的水平,帶來(lái)了深度強(qiáng)化學(xué)習(xí)的浪潮[2]。此后,對(duì)DQN的各種改進(jìn)技術(shù)不斷涌現(xiàn)。文獻(xiàn)[3]提出了優(yōu)先經(jīng)驗(yàn)回放(prioritized experience replay),能讓重要的經(jīng)驗(yàn)被更頻繁地利用,從而提升強(qiáng)化學(xué)習(xí)的效率。文獻(xiàn)[4]于2016年提出的深度雙Q網(wǎng)絡(luò)(DDQN,double deep Q network),解決了過(guò)度估計(jì)的問(wèn)題。同年,文獻(xiàn)[5]向DQN加入了競(jìng)爭(zhēng)結(jié)構(gòu)(dueling architecture),提升了DQN的學(xué)習(xí)效率。這種帶有競(jìng)爭(zhēng)結(jié)構(gòu)的DQN叫做競(jìng)爭(zhēng)深度Q網(wǎng)絡(luò)(Dueling DQN,dueling deep Q network)。除了上述提到的基于DQN的改進(jìn),深度強(qiáng)化學(xué)習(xí)領(lǐng)域還產(chǎn)生了更多的不同的技術(shù)路徑[6-15]。

DQN及其衍生的強(qiáng)化學(xué)習(xí)算法已經(jīng)能算得上是非常強(qiáng)大的算法了,在許多領(lǐng)域,如簡(jiǎn)單的2D游戲的表現(xiàn)都超出常人。然而,這種優(yōu)秀表現(xiàn)往往只停留在人為指定規(guī)則的環(huán)境中,如大多數(shù)棋牌和游戲等領(lǐng)域。DQN在現(xiàn)實(shí)問(wèn)題中仍然有著難以落地的問(wèn)題。這是因?yàn)樵谶^(guò)去的強(qiáng)化學(xué)習(xí)算法研究中,我們通常默認(rèn)環(huán)境的狀態(tài)我們是可以完全獲取的。但是在現(xiàn)實(shí)世界中,我們顯然沒(méi)有棋牌和游戲中那樣的上帝視角,我們對(duì)環(huán)境的狀態(tài)的獲取是通過(guò)觀測(cè)(observation)得來(lái)的。而觀測(cè),或者說(shuō)測(cè)量,必然會(huì)有信息誤差甚至損失,從而使得無(wú)法通過(guò)觀測(cè)獲得完全的狀態(tài)。這時(shí),以馬爾可夫決策過(guò)程為基本假設(shè)的DQN的性能自然就會(huì)受到較大的影響。

為了解決上述問(wèn)題,文獻(xiàn)[16]提出了DRQN,在DQN的基礎(chǔ)上將其第一個(gè)全連接層改為了相同大小的LSTM層,解決了現(xiàn)實(shí)環(huán)境部分觀測(cè)的問(wèn)題。為了解決強(qiáng)化學(xué)習(xí)與反饋神經(jīng)網(wǎng)絡(luò)參數(shù)更新之間的矛盾,Matthew Hausknecht和Peter Stone又提出了序列自舉更新和隨機(jī)自舉更新2種與之配套的參數(shù)更新方式。在部分觀測(cè)的馬爾科夫環(huán)境,DRQN相比DQN有著明顯的提升。

然而,深度強(qiáng)化學(xué)習(xí)在狀態(tài)空間維度大的環(huán)境中仍然面臨著難以收斂的問(wèn)題。考慮到大多數(shù)環(huán)境中的狀態(tài)在時(shí)間上都具有一定的相關(guān)性,若能讓神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)提取時(shí)間維度上的特征,則有可能改善強(qiáng)化學(xué)習(xí)在時(shí)間相關(guān)場(chǎng)景的學(xué)習(xí)效率。區(qū)別于以上研究,本文在DRQN的基礎(chǔ)上展開(kāi)研究,探究在時(shí)間維度上引入一維卷積對(duì)強(qiáng)化學(xué)習(xí)性能的影響,并設(shè)計(jì)了仿真實(shí)驗(yàn)與DQN的性能進(jìn)行對(duì)比。

1 基于一維卷積循環(huán)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法

1.1 深度強(qiáng)化學(xué)習(xí)基礎(chǔ)

現(xiàn)實(shí)中許多決策問(wèn)題都可以通過(guò)建模成由5個(gè)參數(shù)(S,A,P,R,γ)描述的馬爾可夫決策過(guò)程(MDP,markov decision process)來(lái)進(jìn)行研究[1,17]。這5個(gè)參數(shù)分別為狀態(tài)空間S、動(dòng)作空間A、狀態(tài)轉(zhuǎn)移概率函數(shù)P、獎(jiǎng)賞函數(shù)R和衰減因子γ,在馬爾可夫決策過(guò)程中的每一個(gè)時(shí)刻t,智能體都會(huì)觀察一個(gè)狀態(tài)st∈S然后選擇一個(gè)動(dòng)作at∈A,這個(gè)過(guò)程將決定下一個(gè)時(shí)刻的狀態(tài)st~P(st,at)并收到一個(gè)獎(jiǎng)賞rt~R。

1992年由Watkins和Dayan提出的Q-learning通過(guò)在給定狀態(tài)s下對(duì)動(dòng)作a的長(zhǎng)期回報(bào)進(jìn)行預(yù)測(cè)來(lái)解決馬爾可夫決策問(wèn)題[1]。這樣的長(zhǎng)期動(dòng)作回報(bào)叫做Q值。某個(gè)動(dòng)作a的Q值越高,意味著在當(dāng)前狀態(tài)下選擇該動(dòng)作所獲得的長(zhǎng)期收益的期望越大。在Q-learning中,Q值通過(guò)下式迭代更新:

(1)

Q-learning偽代碼。

輸出:動(dòng)作價(jià)值函數(shù)Q

對(duì)所有狀態(tài)s∈S,a∈A(s),隨機(jī)初始化Q,其中終止?fàn)顟B(tài)的動(dòng)作價(jià)值為0

對(duì)每個(gè)回合:

初始化狀態(tài)s

對(duì)回合中的每個(gè)時(shí)間步長(zhǎng):

使用基于Q的策略,如ε-貪心算法,選擇狀態(tài)s對(duì)應(yīng)的動(dòng)作a

執(zhí)行動(dòng)作a,觀察到r,s

s←s′

直到狀態(tài)s是終止?fàn)顟B(tài)

直到所有回合結(jié)束

許多現(xiàn)實(shí)問(wèn)題的狀態(tài)空間顯然都是連續(xù)的,為了讓強(qiáng)化學(xué)習(xí)在這些問(wèn)題上得以運(yùn)用,需要借助一種強(qiáng)大的函數(shù)擬合器代替Q-learning中的表格。而神經(jīng)網(wǎng)絡(luò)顯然就是這樣的強(qiáng)大函數(shù)擬合器。

(2)

輸出:關(guān)于動(dòng)作價(jià)值函數(shù)Q的神經(jīng)網(wǎng)絡(luò)初始化經(jīng)驗(yàn)池D

初始化在線動(dòng)作價(jià)值網(wǎng)絡(luò)Q的參數(shù)θ為隨機(jī)數(shù)

對(duì)每個(gè)回合:

初始化狀態(tài)s1

對(duì)回合中的每個(gè)時(shí)間步長(zhǎng)t:

根據(jù)ε-貪心算法選擇動(dòng)作

執(zhí)行動(dòng)作at,觀測(cè)獎(jiǎng)賞rt和下一個(gè)狀態(tài)st+1

將經(jīng)驗(yàn)(st,at,rt,st+1)存入經(jīng)驗(yàn)池D

//經(jīng)驗(yàn)回放

D隨機(jī)采樣一批次的經(jīng)驗(yàn)(sj,aj,rj,sj+1)

反向傳播[yj-Q(sj,aj;θ)]2,并用梯度下降法更新θ

//周期性更新目標(biāo)網(wǎng)絡(luò)

直到狀態(tài)st是終止?fàn)顟B(tài)

直到所有回合結(jié)束

在現(xiàn)實(shí)的環(huán)境中,智能體往往很難獲得完整的狀態(tài)。換句話說(shuō),現(xiàn)實(shí)世界的環(huán)境通常不嚴(yán)格符合馬爾可夫性[16]。部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP,partially observable markov decision process)對(duì)觀測(cè)與真實(shí)狀態(tài)之間的聯(lián)系進(jìn)行了數(shù)學(xué)建模,因而能更好地描述現(xiàn)實(shí)環(huán)境的動(dòng)態(tài)性[18]。POMDP在MDP的基礎(chǔ)上引入了觀測(cè)空間Ω與條件觀測(cè)概率函數(shù)O,并將智能體對(duì)環(huán)境的一次感知定義為觀測(cè)o∈Ω。觀測(cè)與真實(shí)狀態(tài)之間有著某種聯(lián)系,這種聯(lián)系通過(guò)概率描述,即o~O(s)。如此,POMDP就可以被6個(gè)參數(shù)(S,A,P,R,Ω,O)描述,分別表示狀態(tài)空間、動(dòng)作空間、狀態(tài)轉(zhuǎn)移概率函數(shù)、獎(jiǎng)賞函數(shù),以及相對(duì)于MDP新增加的觀測(cè)空間Ω與條件觀測(cè)概率函數(shù)O。顯然,當(dāng)觀測(cè)o與狀態(tài)s一一對(duì)應(yīng)時(shí),POMDP就變?yōu)榱薓DP。2017年Matthew Hausknecht和Peter Stone提出的DRQN對(duì)DQN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了修改,將其第一個(gè)全連接層改為了相同大小的LSTM層。

因?yàn)橐肓擞洃浤芰Γ沟蒙窠?jīng)網(wǎng)絡(luò)能更好地對(duì)抗由于觀測(cè)帶來(lái)的信息不完整。DRQN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 DRQN結(jié)構(gòu)示意圖[16]

1.2 算法結(jié)構(gòu)

本文在DQN的基礎(chǔ)上構(gòu)建了一個(gè)深度強(qiáng)化學(xué)習(xí)系統(tǒng),如圖2所示。

圖2 深度強(qiáng)化學(xué)習(xí)系統(tǒng)示意圖

與大多數(shù)強(qiáng)化學(xué)習(xí)系統(tǒng)一樣,從宏觀層面上看,本文所構(gòu)建的系統(tǒng)同樣為環(huán)境與智能體進(jìn)行交互的閉環(huán)系統(tǒng)。在每個(gè)步長(zhǎng)里,智能體需要從環(huán)境獲取當(dāng)前步長(zhǎng)的狀態(tài)和獎(jiǎng)賞,并選擇一個(gè)動(dòng)作反作用到環(huán)境中。

具體到內(nèi)部結(jié)構(gòu),智能體主要由4個(gè)部分組成,分別為經(jīng)驗(yàn)池、在線動(dòng)作價(jià)值網(wǎng)絡(luò)、目標(biāo)動(dòng)作價(jià)值網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)優(yōu)化器。在每個(gè)步長(zhǎng)里,經(jīng)驗(yàn)池會(huì)將這一步長(zhǎng)的狀態(tài)、動(dòng)作、獎(jiǎng)賞以及下一步長(zhǎng)的狀態(tài)組合成一條經(jīng)驗(yàn)儲(chǔ)存起來(lái),并隨機(jī)選擇一個(gè)批次的經(jīng)驗(yàn)供神經(jīng)網(wǎng)絡(luò)訓(xùn)練使用;在線動(dòng)作價(jià)值網(wǎng)絡(luò)會(huì)根據(jù)當(dāng)前步長(zhǎng)的狀態(tài)選擇一個(gè)動(dòng)作;神經(jīng)網(wǎng)絡(luò)優(yōu)化器會(huì)計(jì)算代價(jià)函數(shù),并將其計(jì)算結(jié)果反向傳播給在線動(dòng)作價(jià)值網(wǎng)絡(luò),優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)。在設(shè)定好的參數(shù)復(fù)制周期到來(lái)之時(shí),目標(biāo)動(dòng)作價(jià)值網(wǎng)絡(luò)會(huì)復(fù)制在線動(dòng)作價(jià)值網(wǎng)絡(luò)的參數(shù)并更新自身的參數(shù)。

1.3 偽代碼

一維卷積循環(huán)網(wǎng)絡(luò)的偽代碼與DQN的偽代碼形式基本一致,但因?yàn)榘薒STM層,需要對(duì)經(jīng)驗(yàn)回放部分進(jìn)行修改,使其變?yōu)殡S機(jī)自舉更新(bootstrapped random updates)[16]。下面為一維卷積循環(huán)網(wǎng)絡(luò)的偽代碼。

一維卷積循環(huán)網(wǎng)絡(luò)偽代碼。

輸出:關(guān)于動(dòng)作價(jià)值函數(shù)Q的神經(jīng)網(wǎng)絡(luò)初始化經(jīng)驗(yàn)池D

初始化在線動(dòng)作價(jià)值網(wǎng)絡(luò)Q的參數(shù)θ為隨機(jī)數(shù)

對(duì)每個(gè)回合:

初始化狀態(tài)s1

對(duì)回合中的每個(gè)時(shí)間步長(zhǎng)t:

根據(jù)ε-貪心算法選擇動(dòng)作

執(zhí)行動(dòng)作at,觀測(cè)獎(jiǎng)賞rt和下一狀態(tài)st+1

將經(jīng)驗(yàn)(st,at,rt,st+1)存入經(jīng)驗(yàn)池D中本回合的位置

//經(jīng)驗(yàn)回放

隨機(jī)選取一個(gè)序列長(zhǎng)度seq_len

從經(jīng)驗(yàn)池D隨機(jī)選取若干個(gè)回合的數(shù)據(jù)

從選取的回合數(shù)據(jù)中隨機(jī)選取若干個(gè)時(shí)間點(diǎn),并取出長(zhǎng)度為seq_len的經(jīng)驗(yàn)序列

反向傳播[yj-Q(sj,aj;θ)]2,并用梯度下降法更新θ

//周期性更新目標(biāo)網(wǎng)絡(luò)

直到狀態(tài)st是終止?fàn)顟B(tài)

直到所有回合結(jié)束

2 一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)

為了在圖像作為輸入的Atari游戲環(huán)境上進(jìn)行測(cè)試,DQN與DRQN的神經(jīng)網(wǎng)絡(luò)都包含了二維卷積層。通常情況下,如果輸入不為圖像,而僅僅是特征向量,DQN與DRQN所使用的神經(jīng)網(wǎng)絡(luò)將不會(huì)包含卷積層。然而,卷積層的特征提取能力不僅可以應(yīng)用于提取圖像特征,也可以應(yīng)用于提取時(shí)間維度上的特征[19]。因此,本文探究了將卷積層的時(shí)間維度特征提取能力應(yīng)用于深度強(qiáng)化學(xué)習(xí)的可能性。

圖2系統(tǒng)中的在線動(dòng)作價(jià)值網(wǎng)絡(luò)與目標(biāo)動(dòng)作價(jià)值網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,在DRQN所用神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了一維卷積層,稱為一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)。一維卷積層將在時(shí)間維度上對(duì)輸入的數(shù)據(jù)進(jìn)行卷積,并提取其在時(shí)間維度上的特征。實(shí)驗(yàn)表明這樣做能提高神經(jīng)網(wǎng)絡(luò)的特征提取能力和擬合能力,從而提高智能體的決策水平,使得智能體在與時(shí)序相關(guān)的環(huán)境中有更好的表現(xiàn)。

圖3 一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖

2.1 一維卷積層

為了解決深度強(qiáng)化學(xué)習(xí)在狀態(tài)空間維度大的環(huán)境中的快速收斂問(wèn)題,本文用到了一維卷積層來(lái)提取狀態(tài)在時(shí)間維度上的特征。設(shè)輸入為X∈RN×Cin×Lin,輸出為Y∈RN×Cout×Lout,則一維卷積層的數(shù)學(xué)表達(dá)式為:

(3)

式(3)中,符號(hào)★為互相關(guān)運(yùn)算,N為一個(gè)批次訓(xùn)練數(shù)據(jù)的大小,Cin和Cout分別為輸入和輸出數(shù)據(jù)的通道數(shù),Lin和Lout分別為輸入和輸出數(shù)據(jù)的長(zhǎng)度,kernel_size表示一維卷積核大小。α∈RCout×Cin×kernel_size為該層的一維卷積核,β∈RCout為該層的偏置項(xiàng)。

2.2 LSTM層

LSTM層是一種循環(huán)神經(jīng)網(wǎng)絡(luò),能給神經(jīng)網(wǎng)絡(luò)帶來(lái)記憶能力。一般地,LSTM層的輸入為某一特征向量的時(shí)間序列x∈RN×Lin×Hin。為簡(jiǎn)單起見(jiàn),假設(shè)一個(gè)批次只包含1條數(shù)據(jù)且該特征向量只包含1個(gè)特征,即x∈RLin。由此可知x=[x1,x2,…,xt,…,xLin]T,則對(duì)于x中的任意一個(gè)時(shí)刻的元素xt,LSTM層的數(shù)學(xué)表達(dá)式為:

(4)

式(4)中,符號(hào)⊙表示哈達(dá)瑪積,N為一個(gè)批次訓(xùn)練數(shù)據(jù)的大小,Lin為時(shí)間序列在時(shí)間維度上的長(zhǎng)度,Hin為時(shí)間數(shù)列包含的特征數(shù)。it、ft、gt和ot分別被稱為t時(shí)刻的輸入門(mén)(input gates)、遺忘門(mén)(forget gates)、元胞門(mén)(cell gates)和輸出門(mén)(output gates)。ct和ht分別被稱為t時(shí)刻的元胞狀態(tài)(cell states)和隱藏狀態(tài)(hidden states)。

2.3 全連接層

全連接層是神經(jīng)網(wǎng)絡(luò)最經(jīng)典的組成部件。按照經(jīng)典的形式,設(shè)全連接層的輸入為特征向量X∈RN×Hin,輸出為Y∈RN×Hout,則全連接層的數(shù)學(xué)表達(dá)式為:

Y[i,:]=σ(X[i,:]A+b)

(5)

其中:σ為某一非線性激活函數(shù),常用的有sigmoid函數(shù)和ReLU函數(shù)等。N為一個(gè)批次訓(xùn)練數(shù)據(jù)的大小,Hin和Hout分別為輸入和輸出數(shù)據(jù)的特征數(shù)。A∈RHin×Hout為該層的權(quán)重,b∈R1×Hout為該層的偏置項(xiàng)。

2.4 神經(jīng)網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)

具體地,以在MountainCar-v0環(huán)境中時(shí)為例。在訓(xùn)練階段,深度強(qiáng)化學(xué)習(xí)訓(xùn)練器會(huì)在每個(gè)訓(xùn)練步長(zhǎng)從經(jīng)驗(yàn)池提取一個(gè)批次的經(jīng)驗(yàn)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),一個(gè)批次包含512條訓(xùn)練數(shù)據(jù);每條訓(xùn)練數(shù)據(jù)皆為時(shí)間序列,序列長(zhǎng)度在每個(gè)訓(xùn)練步長(zhǎng)開(kāi)始前隨機(jī)選擇;序列中每個(gè)時(shí)刻都包含小車(chē)當(dāng)時(shí)的位置和速度信息。訓(xùn)練數(shù)據(jù)首先會(huì)被視為通道數(shù)為2的一維向量輸入進(jìn)一維卷積層,用于提取時(shí)間維度上的特征;然后被視為特征數(shù)為2的時(shí)間序列輸入進(jìn)LSTM層,增強(qiáng)對(duì)數(shù)據(jù)時(shí)間相關(guān)性的利用;最后將訓(xùn)練數(shù)據(jù)展開(kāi)為一維向量輸入到全連接層得到最終對(duì)每個(gè)動(dòng)作價(jià)值的估計(jì)。為了加快收斂速度,在每一層后還加入了批歸一化處理(batch normalization)。神經(jīng)網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)如圖4所示。

圖4 神經(jīng)網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)

在測(cè)試階段,神經(jīng)網(wǎng)絡(luò)的輸入為由當(dāng)前時(shí)刻小車(chē)的位置和速度組成的狀態(tài)信息,為特征數(shù)為2的一維向量,輸出每個(gè)動(dòng)作價(jià)值的估計(jì)。

3 實(shí)驗(yàn)驗(yàn)證與分析

為了驗(yàn)證本文所提出的在時(shí)間維度上引入一維卷積層的有效性,設(shè)計(jì)仿真實(shí)驗(yàn)在Open AI Gym提供的MountainCar-v0環(huán)境下測(cè)試其性能,并在使用相同超參數(shù)的情況下與DQN的性能進(jìn)行對(duì)比。

在MountainCar-v0環(huán)境中,一輛小車(chē)處于兩個(gè)山峰之間的一條一維軌道上,如圖5所示。小車(chē)的目標(biāo)是到達(dá)右邊的山峰上,可是由于馬力不足,小車(chē)必須學(xué)會(huì)積攢能量才能完成這一目標(biāo)。

圖5 MountainCar-v0環(huán)境示意圖[20]

具體地,在MountainCar-v0環(huán)境中,神經(jīng)網(wǎng)絡(luò)輸入的狀態(tài)信息為小車(chē)的位置和速度,組成特征數(shù)為2的一維向量,輸出的動(dòng)作為小車(chē)的前進(jìn)方向,共有向左、向右和空擋3種選擇。

在測(cè)試中,學(xué)習(xí)率為0.01,衰減因子為0.9,探索度為0.1;目標(biāo)網(wǎng)絡(luò)更新周期為100,經(jīng)驗(yàn)池大小為4 096,一個(gè)批次包含512條訓(xùn)練數(shù)據(jù),即batch size=512,訓(xùn)練數(shù)據(jù)序列長(zhǎng)度在1~32中隨機(jī)選擇。深度強(qiáng)化學(xué)習(xí)超參數(shù)總結(jié)如表1所示。

表1 深度強(qiáng)化學(xué)習(xí)超參數(shù)表

下面首先給出一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)獲取的總獎(jiǎng)賞隨訓(xùn)練輪次的變化曲線。在MountainCar-v0環(huán)境中,獎(jiǎng)賞設(shè)定為當(dāng)前時(shí)刻小車(chē)所具有的能量,即小車(chē)動(dòng)能與勢(shì)能之和。在具體代碼實(shí)現(xiàn)中,設(shè)pt和vt為當(dāng)前時(shí)刻小車(chē)的位置和速度,則獎(jiǎng)賞rt的定義如下:

rt=abs(pt+0.6)+10×abs(vt)

(6)

DQN與一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)在MountainCar-v0環(huán)境中獲取總獎(jiǎng)賞的表現(xiàn)如圖6與圖7所示。

圖6 DQN的總獎(jiǎng)賞隨訓(xùn)練輪次的變化

圖7 一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的總獎(jiǎng)賞隨訓(xùn)練輪次的變化

圖6與圖7分別為DQN和一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的總獎(jiǎng)賞變化曲線。其中淺色部分表示原始數(shù)據(jù),深色部分是平滑濾波后的結(jié)果。對(duì)比兩者的總獎(jiǎng)賞變化曲線,可以看出一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)相比DQN有著明顯的提升。首先,在收斂過(guò)程中,一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的總獎(jiǎng)賞曲線斜率更大,上升速度更快,這說(shuō)明一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)相比DQN有著更高的收斂效率;其次,更為突出的是,從最終達(dá)到的總獎(jiǎng)賞來(lái)看,一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的策略所獲取的總獎(jiǎng)賞比DQN明顯高出一部分,大約為10分。

圖8與圖9分別為DQN和一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)所作出動(dòng)作選擇的平均動(dòng)作價(jià)值的變化曲線。其中淺色部分表示原始數(shù)據(jù),深色部分是平滑濾波后的結(jié)果。

圖9 一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的平均動(dòng)作價(jià)值隨著訓(xùn)練輪次的變化

圖8 DQN的平均動(dòng)作價(jià)值隨著訓(xùn)練輪次的變化

可以看出在平均動(dòng)作價(jià)值收斂的穩(wěn)定性上,一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)相比DQN有著明顯的提升。通過(guò)觀察圖8和圖9中淺色部分的原始數(shù)據(jù)可以發(fā)現(xiàn),DQN的平均動(dòng)作價(jià)值曲線波動(dòng)較大,說(shuō)明收斂過(guò)程不穩(wěn)定;一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的平均動(dòng)作價(jià)值曲線波動(dòng)較小,說(shuō)明收斂過(guò)程相對(duì)穩(wěn)定。

結(jié)合DQN和一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練歷史進(jìn)行對(duì)比分析,不難發(fā)現(xiàn)一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)在最終結(jié)果還是收斂速度上都要優(yōu)于DQN。這是因?yàn)長(zhǎng)STM層賦予了一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)記憶性,使其可以利用更多的歷史信息來(lái)輔助決策,并削弱POMDP的影響,從而讓一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間相關(guān)的環(huán)境中最終獲得的總獎(jiǎng)賞超過(guò)DQN。同時(shí),LSTM層之前的一維卷積層在訓(xùn)練的過(guò)程中在時(shí)間維度上進(jìn)行特征提取,使得整個(gè)一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)相比DQN有著更快的收斂速度以及穩(wěn)定性。故相比于DQN簡(jiǎn)單的全連接結(jié)構(gòu),一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)在狀態(tài)空間維度大且狀態(tài)之間在時(shí)間上相關(guān)的環(huán)境中有著更好的表現(xiàn)。

4 結(jié)束語(yǔ)

在使用深度強(qiáng)化學(xué)習(xí)解決現(xiàn)實(shí)問(wèn)題時(shí),許多問(wèn)題所構(gòu)造的環(huán)境都存在著狀態(tài)空間維度大且狀態(tài)之間在時(shí)間上相關(guān)的特征。如果能夠利用好狀態(tài)在時(shí)間上的相關(guān)性就可以有效提升神經(jīng)網(wǎng)絡(luò)在大維度狀態(tài)空間中的收斂效率。就本文所提出的一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),LSTM層的引入使得其擁有了一定的記憶能力,而一維卷積層的加入則讓其在具備記憶能力的基礎(chǔ)上有了更強(qiáng)的特征提取能力,進(jìn)而可以更高效地處理時(shí)間維度上的信息。這使得改進(jìn)后的算法能在MountainCar-v0這樣與時(shí)序相關(guān)的環(huán)境中能夠得到得到更高的總回報(bào)。同時(shí),一維卷積層還增加了神經(jīng)網(wǎng)絡(luò)的擬合能力以及穩(wěn)定性,使得深度強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程更加平穩(wěn)。

猜你喜歡
深度動(dòng)作價(jià)值
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
動(dòng)作描寫(xiě)要具體
畫(huà)動(dòng)作
動(dòng)作描寫(xiě)不可少
一粒米的價(jià)值
“給”的價(jià)值
非同一般的吃飯動(dòng)作
主站蜘蛛池模板: 久久婷婷五月综合色一区二区| 无码专区在线观看| 69视频国产| 亚洲综合久久一本伊一区| 国产成人无码久久久久毛片| 精品久久久久久久久久久| 亚洲精品成人7777在线观看| 4虎影视国产在线观看精品| 老熟妇喷水一区二区三区| 国产成年女人特黄特色毛片免| 成人免费网站在线观看| 免费可以看的无遮挡av无码| 国产青榴视频| 国产精品久久久久婷婷五月| 国产成人亚洲综合a∨婷婷| 亚洲欧洲日产国产无码AV| 日本亚洲欧美在线| 四虎综合网| 手机精品福利在线观看| JIZZ亚洲国产| 六月婷婷综合| 国产在线麻豆波多野结衣| 性视频久久| 熟女成人国产精品视频| 欧美精品在线观看视频| 国产在线精品99一区不卡| 久久香蕉国产线| 亚洲欧美国产五月天综合| 日韩资源站| 国产亚洲精久久久久久无码AV| 欧美人人干| a毛片基地免费大全| 美女潮喷出白浆在线观看视频| 久久黄色一级视频| 国产精品永久在线| 岛国精品一区免费视频在线观看 | 国产成人h在线观看网站站| 四虎综合网| 91麻豆精品视频| 99国产精品免费观看视频| 亚洲午夜18| 波多野结衣一区二区三区AV| 亚洲人网站| 免费人成在线观看视频色| 国产欧美日韩免费| 无码精油按摩潮喷在线播放 | 国产成在线观看免费视频| 国产精品青青| 91丝袜乱伦| 一级福利视频| 国产三级毛片| 最新国产精品第1页| 女人18毛片一级毛片在线 | 国产精品.com| 99热国产在线精品99| 中文字幕欧美日韩高清| 国产成人区在线观看视频| 亚洲第一页在线观看| 亚洲国产成人精品青青草原| 亚洲日韩Av中文字幕无码| 黄色网在线| 久久国语对白| 亚洲国产AV无码综合原创| 国产97公开成人免费视频| 国产无码网站在线观看| 人妻无码一区二区视频| 宅男噜噜噜66国产在线观看| 日本一区中文字幕最新在线| 午夜精品影院| 色噜噜狠狠狠综合曰曰曰| 欧美午夜精品| 亚洲视频二| 国产鲁鲁视频在线观看| 天天婬欲婬香婬色婬视频播放| 97视频免费在线观看| 国产打屁股免费区网站| 九九久久精品免费观看| av免费在线观看美女叉开腿| 欧美成人午夜在线全部免费| 毛片国产精品完整版| 特级毛片8级毛片免费观看| 成人一级黄色毛片|