999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

增強型深度確定策略梯度算法

2018-12-19 08:34:10陳建平何超劉全吳宏杰胡伏原傅啟明
通信學(xué)報 2018年11期
關(guān)鍵詞:深度動作策略

陳建平,何超,劉全,吳宏杰,胡伏原,傅啟明

?

增強型深度確定策略梯度算法

陳建平1,2,3,4,何超1,2,3,劉全5,吳宏杰1,2,3,4,胡伏原1,2,3,4,傅啟明1,2,3,4

(1. 蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009;2. 蘇州科技大學(xué)江蘇省建筑智慧節(jié)能重點實驗室,江蘇 蘇州 215009; 3. 蘇州科技大學(xué)蘇州市移動網(wǎng)絡(luò)技術(shù)與應(yīng)用重點實驗室,江蘇 蘇州 215009; 4. 蘇州科技大學(xué)蘇州市虛擬現(xiàn)實智能交互及應(yīng)用技術(shù)重點實驗室,江蘇 蘇州 215009;5. 蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

針對深度確定策略梯度算法收斂速率較慢的問題,提出了一種增強型深度確定策略梯度(E-DDPG)算法。該算法在深度確定策略梯度算法的基礎(chǔ)上,重新構(gòu)建兩個新的樣本池——多樣性樣本池和高誤差樣本池。在算法執(zhí)行過程中,訓(xùn)練樣本分別從多樣性樣本池和高誤差樣本池按比例選取,以兼顧樣本多樣性以及樣本價值信息,提高樣本的利用效率和算法的收斂性能。此外,進(jìn)一步從理論上證明了利用自模擬度量方法對樣本進(jìn)行相似性度量的合理性,建立值函數(shù)與樣本相似性之間的關(guān)系。將E-DDPG算法以及DDPG算法用于經(jīng)典的Pendulum問題和MountainCar問題,實驗結(jié)果表明,E-DDPG具有更好的收斂穩(wěn)定性,同時具有更快的收斂速率。

深度強化學(xué)習(xí);樣本排序;自模擬度量;時間差分誤差

1 引言

強化學(xué)習(xí)的基本思想是通過最大化智能體(agent)從環(huán)境中獲得的累計獎賞值,以學(xué)習(xí)完成目標(biāo)的最優(yōu)策略[1]。依據(jù)策略表示方法和求解的不同,可以將強化學(xué)習(xí)方法分為3類:“評論家”算法,該算法利用值函數(shù)對策略進(jìn)行評估,最終利用最優(yōu)值函數(shù)求解最優(yōu)策略;“行動者”算法,該算法利用類似啟發(fā)式搜索的方法從策略空間中找出最優(yōu)策略;“行動者—評論家”算法,行動者部分用于動作的選取,評論家部分用于評估動作的好壞,利用值函數(shù)信息指導(dǎo)策略的搜索[2]。然而對于上述任意一類算法,在學(xué)習(xí)過程中,都需要人工設(shè)定狀態(tài)表示方法,而通過深度學(xué)習(xí)方法,可以實現(xiàn)狀態(tài)特征的自動學(xué)習(xí),以實現(xiàn)“端到端”的任務(wù)學(xué)習(xí)。目前,深度學(xué)習(xí)作為在機器學(xué)習(xí)領(lǐng)域的一個研究熱點,已經(jīng)在圖像分析、語音識別、視頻分類、自然語言處理等領(lǐng)域獲得令人矚目的成就。深度學(xué)習(xí)的基本思想是通過多層的網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換,組合低層特征,形成抽象的、易于區(qū)分的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[3]。深度學(xué)習(xí)模型通常由多層的非線性運算單元組合而成,將較低層的輸出作為更高一層的輸入,通過這種方式自動地從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)抽象的特征表示[4-5]。

谷歌的DeepMind團(tuán)隊將深度學(xué)習(xí)和強化學(xué)習(xí)結(jié)合起來,提出深度強化學(xué)習(xí)方法,并將深度強化學(xué)習(xí)應(yīng)用于圍棋問題。2016年,Alpha Go[6]在人機圍棋比賽中以4:1戰(zhàn)勝圍棋大師李世石,而新版的Alpha Zero[7]可以不需要任何歷史棋譜知識,不借助任何人類先驗知識,僅利用深度強化學(xué)習(xí)進(jìn)行自我對弈,最終能以100:0的戰(zhàn)績完勝Alpha Go。目前,深度強化學(xué)習(xí)已經(jīng)成為人工智能領(lǐng)域的研究熱點。Mnih等[8-9]將卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的Q學(xué)習(xí)[10]算法相結(jié)合,提出了深度Q網(wǎng)絡(luò)(DQN, deep Q-network)模型。DQN將未被處理過的像素點(原始圖像)作為輸入,通過樣本池存儲歷史經(jīng)驗樣本,同時利用經(jīng)驗回放打破樣本間的聯(lián)系,以避免網(wǎng)絡(luò)參數(shù)的震蕩。但是DQN只能解決離散的、低維的動作空間問題,將DQN應(yīng)用到連續(xù)動作領(lǐng)域最簡單的做法是將連續(xù)動作離散化,但是這會導(dǎo)致離散動作的數(shù)量隨動作維度的增加而呈指數(shù)型增長,同時對連續(xù)動作進(jìn)行簡單的離散化會忽略動作域的結(jié)構(gòu),然而在很多情況下,動作域的結(jié)構(gòu)對于問題的求解是非常重要的,因此,目前基于DQN算法提出了很多關(guān)于DQN的變體。Hasselt等[11]在雙重Q學(xué)習(xí)算法[12]的基礎(chǔ)上提出了深度雙重Q網(wǎng)絡(luò)(DDQN, deep double Q-network)算法。Schaul等[13]在DDQN的基礎(chǔ)上提出了一種基于比例優(yōu)先級采樣的深度雙Q網(wǎng)絡(luò)(double deep Q-network with proportional prioritization)等。然而,這些改進(jìn)的算法都不能夠很好地解決連續(xù)動作空間問題。在連續(xù)動作空間中,策略梯度是常用的方法,它通過不斷計算策略期望總獎賞關(guān)于策略參數(shù)的梯度來更新策略參數(shù),最終收斂于最優(yōu)策略[14]。因此,在解決深度強化學(xué)習(xí)問題時,可以采用深度神經(jīng)網(wǎng)絡(luò)表示策略,并利用策略梯度方法求解最優(yōu)參數(shù)。此外,在求解深度強化學(xué)習(xí)問題時,基于策略梯度的算法能夠直接優(yōu)化策略的期望總獎賞,并以端對端的方式直接在策略空間中搜索最優(yōu)策略。因此,與DQN及其改進(jìn)算法相比,基于策略梯度的深度強化學(xué)習(xí)方法適用范圍更廣,策略優(yōu)化的效果也更好。Lillicrap等[15]將DPG(deterministic policy gradient)算法[16]與DQN相結(jié)合,提出了DDPG(deep deterministic policy gradient)算法。DDPG可用于解決連續(xù)動作空間的強化學(xué)習(xí)問題。實驗表明,DDPG不但在一系列連續(xù)動作空間的任務(wù)中表現(xiàn)穩(wěn)定,而且求得最優(yōu)解所需要的時間步也遠(yuǎn)低于DQN,但是DDPG需要大量的樣本數(shù)據(jù),且算法的收斂速度也有待提高。

本文在DDPG算法的基礎(chǔ)上提出了增強型深度確定策略梯度(E-DDPG, enhanced deep deterministic policy gradient)算法。針對DDPG算法收斂速度慢的問題,E-DDPG算法在原始樣本池的基礎(chǔ)上構(gòu)建了兩個樣本池——高誤差樣本池和多樣性樣本池。高誤差樣本池將TD(temporal-difference)error作為啟發(fā)式信息對樣本進(jìn)行排序,以提高誤差較大的樣本的選取概率。同時,多樣性樣本池利用自模擬度量方法度量樣本間的距離,在原始樣本池的基礎(chǔ)上,選擇低相似樣本,以提高樣本池中樣本的多樣性,提高算法的執(zhí)行效率。在算法學(xué)習(xí)過程中,訓(xùn)練樣本將分別從高誤差樣本池和多樣性樣本池按比例選取,以兼顧樣本多樣性以及樣本價值信息,提高樣本的利用效率和算法的收斂性能。實驗結(jié)果表明,與DDPG算法相比,E-DDPG算法具有更快的收斂速度以及更好的收斂穩(wěn)定性。

2 相關(guān)理論

2.1 馬爾可夫決策過程

式(1)也被稱作Bellman公式。

式(2)被稱作最優(yōu)Bellman公式。

2.2 深度確定策略梯度算法

在隨機策略中,策略梯度取決于狀態(tài)和動作,而在確定策略中,策略梯度僅取決于狀態(tài)。因此,與隨機策略梯度算法相比,確定策略梯度算法收斂需要的樣本相對較少。

其中,有

值得注意的是,確定策略梯度算法缺少對環(huán)境的探索,而DDPG算法通過引入隨機噪聲來完成策略探索。通過添加隨機噪聲,使動作的選擇具有一定的隨機性,以完成一定程度的策略探索,具體如式(6)所示。

2.3 自模擬度量與狀態(tài)之間的距離

為了度量MDP中狀態(tài)的關(guān)系,自模擬關(guān)系被Givan等[17]引入MDP中。簡而言之,如果兩個狀態(tài)滿足自模擬關(guān)系,那么這兩個狀態(tài)就共享相同的最優(yōu)值函數(shù)以及最優(yōu)動作。

從定義1可以得出,任意兩個狀態(tài)要么滿足自模擬關(guān)系,要么不滿足自模擬關(guān)系。這種度量方法過于苛刻,且限制其使用的范圍。Ferns等[18]提出了一種可用于衡量兩個狀態(tài)之間遠(yuǎn)近關(guān)系的自模擬度量方法(bisimulation metric)。

計算兩個狀態(tài)距離的算法如算法1所示。

算法1 狀態(tài)之間距離度量算法

5) end for

7) end for

3 增強型深度確定策略梯度算法

3.1 樣本池的構(gòu)建

同時,為了保證選取樣本的多樣性,引入自模擬度量方法。從原始樣本池0和高誤差樣本池2中隨機選取的樣本,可能存在很多近似樣本,甚至是重復(fù)樣本,這會降低算法的執(zhí)行效率。因此,考慮間隔個情節(jié),利用算法1計算出原始樣本池0中樣本之間的距離,將低相似性樣本放入多樣性樣本池1,以保證所選擇樣本的多樣性。此后,算法1將分別從多樣性樣本池1和高誤差樣本池2按一定比例選取樣本,進(jìn)行學(xué)習(xí),同時兼顧樣本多樣性以及高價值樣本信息,進(jìn)一步提高算法的執(zhí)行效率。

3.2 行動者—評論家網(wǎng)絡(luò)參數(shù)更新

3.3 E-DDPG算法

根據(jù)3.1節(jié)和3.2節(jié)的介紹,下面給出詳細(xì)的E-DDPG算法的流程,如算法2所示。

算法2 E-DDPG算法

2) for= 1 todo

4) 利用自模擬度量方法,將低相似性樣本放入多樣性樣本池1

5) 獲得初始觀察狀態(tài)1

6) for= 1 todo

14) else

21) end if

22) end if

23) end if

24) end for

25) end if

26) end for

3.4 關(guān)于多樣性樣本池的分析

證畢。

因此,利用自模擬度量方法計算樣本間的距離,利用該距離確定樣本間的相似性可以進(jìn)一步反映樣本在值函數(shù)空間中的相似性。從參數(shù)更新的角度而言,在算法學(xué)習(xí)過程中,高相似性的樣本具有較低的價值,而低相似性的樣本將提高算法的更新效率,進(jìn)而加快算法收斂速度。

3.5 關(guān)于高誤差樣本池的分析

在強化學(xué)習(xí)中,從歷史樣本池中進(jìn)行均勻采樣,可能會導(dǎo)致較多的更新集中在某一些低價值的樣本上,如果將更新集中在某些特殊的樣本上,則會使算法的更新更加高效。在均勻采樣訓(xùn)練的過程中,會浪費大量時間和計算資源進(jìn)行很多無用的更新,隨著學(xué)習(xí)的不斷進(jìn)行,有用的更新區(qū)域不斷增加,但是與將更新集中在高價值的樣本上相比,學(xué)習(xí)的效率和效果差了很多。在連續(xù)狀態(tài)空間中,這種非集中式搜索的效率將會非常低下。

本文以TD error作為啟發(fā)式信息,將訓(xùn)練中高價值的樣本挑選出來構(gòu)建高誤差樣本池,在接下來的訓(xùn)練中,通過提高這些高價值樣本的選取概率,進(jìn)而更快地獲得有用的更新區(qū)域。由于關(guān)于TD error的閾值是人為設(shè)置的,若僅僅從高誤差樣本池2中選取訓(xùn)練樣本,可能導(dǎo)致錯過部分高價值樣本,因此,算法同時也從多樣性樣本池中選擇一定比例的樣本。實驗結(jié)果表明,該方法可以提高算法的收斂速度。

4 實驗結(jié)果分析

4.1 Pendulum問題

1)實驗描述

為了驗證算法的有效性,本文將DDPG算法和E-DDPG算法用于經(jīng)典Pendulum問題。圖1給出了Pendulum問題的示意。

圖1 Pendulum問題的示意

一個倒立的鐘擺,擺桿繞中間轉(zhuǎn)軸隨機擺動。agent的任務(wù)是學(xué)習(xí)到一個策略,使擺桿保持豎直。本文實驗環(huán)境是OpenAI gym,狀態(tài)是三維的,其中,二維表示鐘擺的位置,一維表示鐘擺的速度。狀態(tài)可以表示為

動作是一維的,表示對鐘擺的作用力,取值范圍為[?2,2]。動作可以表示為

獎賞函數(shù)可以表示為

其中,等于式(9)的計算值的概率是0.1,等于0的概率是0.9。

2) 實驗設(shè)置

實驗運行硬件環(huán)境為Inter(R) Xeon(R) CPU E5-2660處理器、NVIDIA GeForce GTX 1060顯卡、16 GB內(nèi)存;軟件環(huán)境為Windows 10操作系統(tǒng)、python 3.5、TensorFlow_GPU-1.4.0。

在該實驗中,DDPG算法收斂需要8.1 h,未引入自模擬度量的E-DDPG算法收斂需要5.2 h,而引入自模擬度量的E-DDPG算法收斂僅需要2.4 h。

3) 實驗分析

DDPG算法、E-DDPG算法應(yīng)用于經(jīng)典的Pendulum問題上的性能比較(在實驗過程中,每個算法都獨立執(zhí)行3 000個情節(jié))如圖2所示,各種算法在不同情節(jié)下,目標(biāo)任務(wù)達(dá)到終止?fàn)顟B(tài)時的總回報值(回報值是通過目標(biāo)任務(wù)從開始狀態(tài)達(dá)到終止?fàn)顟B(tài)時總的獎賞值)。其中,橫坐標(biāo)是情節(jié)數(shù),縱坐標(biāo)是算法執(zhí)行10次的平均回報值。從圖2可以看出,E-DDPG算法在300個情節(jié)時基本收斂。DDPG算法雖然在400個情節(jié)時取得較高的回報值,但是還在震蕩并沒有收斂,直到1 200個情節(jié)才收斂。因為E-DDPG算法引入了TD error,加大了對具有更高價值的樣本的選取概率,同時因為采用自模擬度量方法更新多樣性樣本池1,使選取的訓(xùn)練樣本多樣性得到保證,從而進(jìn)一步加快算法的收斂速度。此外,從圖2還可以看出,兩種算法在收斂后,E-DDPG算法每個情節(jié)的回報值震蕩的幅度比DDPG算法的震蕩幅度更小,這充分說明E-DDPG算法的穩(wěn)定性比DDPG算法更好。

圖2 Pendulum問題中兩種算法的性能比較

引入自模擬度量E-DDPG算法、未引入自摸E-DDPG算法和DDPG算法進(jìn)行的實驗對比,結(jié)果如圖3所示,其中,設(shè)置自模擬度量間隔的情節(jié)數(shù)=30。從圖3可以看出,沒有引入自模擬度量方法的E-DDPG算法在700個情節(jié)算法才收斂,引入自模擬度量方法的E-DDPG算法在300個情節(jié)算法就收斂,而DDPG算法在1 200個情節(jié)才收斂。因為自模擬度量方法使訓(xùn)練的樣本具有更好的多樣性,提高了訓(xùn)練的效率,從而加快了訓(xùn)練的速度。

圖3 Pendulum問題中E-DDPG算法是否引入自模擬度量方法與DDPG算法的實驗對比

圖4 Pendulum問題中E-DDPG算法不同TD Error和DDPG算法的實驗對比

圖5 Pendulum問題中E-DDPG算法不同樣本選取比例和DDPG算法的實驗對比

4.2 MountainCar問題

1) 實驗描述

為了驗證算法的有效性,本文將DDPG算法和E-DDPG算法用于經(jīng)典的MountainCar問題。圖6給出了MountainCar問題的示意。

圖6 MountainCar問題的示意

曲面表示一個帶有坡度的路面,小車處在坡底,由于動力不足,小車無法直接加速沖上坡頂,因此必須通過前后加速借助慣性到達(dá)坡頂,即圖6中右側(cè)“星”形標(biāo)記的位置。本文實驗的環(huán)境是OpenAI gym,狀態(tài)是二維的,其中,一維表示位置,另一維表示速度,狀態(tài)可以表示為

動作是一維的,表示小車的加速度,取值范圍為[?1,1]。動作可以表示為

在情節(jié)開始時,給定小車一個隨機的位置和速度,然后進(jìn)行交互學(xué)習(xí)。當(dāng)小車到達(dá)目標(biāo)位置(圖6中的“星”形位置)或當(dāng)前執(zhí)行的時間步超過1 000時,情節(jié)結(jié)束,并開始一個新的情節(jié)。當(dāng)小車到達(dá)目標(biāo)位置時,立即獎賞是100;其他情況下,小車的立即獎賞滿足

2)實驗設(shè)置

實驗運行硬件環(huán)境為Inter(R) Xeon(R) CPU E5-2660處理器、NVIDIA GeForce GTX 1060顯卡、16 GB內(nèi)存;軟件環(huán)境為Windows 10操作系統(tǒng)、python 3.5、TensorFlow_GPU-1.4.0。

在本實驗中,DDPG算法收斂需要7.5 h,未引入自模擬度量的E-DDPG算法收斂需要4.7 h,而引入自模擬度量的E-DDPG算法收斂僅需要1.6 h。

3) 實驗分析

DDPG算法、E-DDPG算法應(yīng)用于經(jīng)典的MountainCar問題上的性能比較(在實驗過程中,每個算法都獨立執(zhí)行2 000個情節(jié))如圖7所示,各個算法在不同情節(jié)下,目標(biāo)任務(wù)達(dá)到終止?fàn)顟B(tài)時總的回報值(回報值是通過目標(biāo)任務(wù)從開始狀態(tài)達(dá)到終止?fàn)顟B(tài)時總的獎賞值)。其中,橫坐標(biāo)是情節(jié)數(shù),縱坐標(biāo)是算法執(zhí)行10次的平均回報值。從圖7可以看出,E-DDPG算法在120個情節(jié)基本收斂。DDPG算法雖然在220個情節(jié)時取得較高的回報值,但是還在震蕩并沒有收斂,直到780個情節(jié)才收斂。

圖7 MountainCar問題中兩種算法的性能比較

E-DDPG算法是否引入自模擬度量方法進(jìn)行的實驗對比如圖8所示,其中,設(shè)置自模擬度量間隔的情節(jié)數(shù)=30。從圖8可以看出,沒有引入自模擬度量方法的E-DDPG算法在470個情節(jié)算法才收斂,引入自模擬度量方法的E-DDPG算法在120個情節(jié)算法就收斂了,而DDPG算法在780個情節(jié)才收斂。這是因為自模擬度量方法使訓(xùn)練的樣本具有更好的多樣性,提高了訓(xùn)練的效率,從而加快了訓(xùn)練的速度。實驗表明,自模擬度量方法能夠加快算法的收斂速度。

圖8 MountainCar問題中E-DDPG算法是否引入自模擬度量方法的實驗比較

圖9 MountainCar問題中E-DDPG算法不同TD Error和DDPG算法的實驗比較

圖10 MountainCar問題中E-DDPG算法不同樣本選取比例和DDPG算法的實驗比較

5 結(jié)束語

本文針對DDPG算法在大規(guī)模狀態(tài)動作空間中存在收斂速度較慢的問題,提出了E-DDPG算法。該算法在深度確定策略梯度算法的基礎(chǔ)上,重新構(gòu)建兩個新的樣本池——多樣性樣本池和高誤差樣本池。其中,多樣性樣本池主要利用自模擬度量方法對原始樣本池中的樣本相似性進(jìn)行度量,選擇低相似性樣本,并在學(xué)習(xí)過程中持續(xù)更新;高誤差樣本池主要通過計算時間差分誤差對所選擇的訓(xùn)練樣本進(jìn)行排序,選擇具有高價值的高誤差樣本,以提高后續(xù)參數(shù)更新的有效性。將算法應(yīng)用到Pendulum問題,從算法性能角度與DDPG算法進(jìn)行比較。實驗結(jié)果表明,E-DDPG算法比DDPG算法收斂速度更快,同時算法的穩(wěn)定性也更好。針對TD error閾值和多樣性樣本池與高誤差樣本池訓(xùn)練樣本比例等參數(shù)的人工設(shè)置不同,對算法性能的影響分別進(jìn)行了實驗。實驗結(jié)果表明,雖然TD error閾值選取和樣本選取比例不同會導(dǎo)致E-DDPG算法性能不一樣,但是與DDPG算法相比還是有較好的效果。

本文主要以Pendulum問題和MountainCar問題作為實驗平臺驗證算法性能,從實驗結(jié)果可以看出,算法具有較好的收斂性和穩(wěn)定性。但是E-DDPG算法中TD error的選取和樣本比例的選取都是人工設(shè)置的,且不同的設(shè)置參數(shù)會對算法收斂性和穩(wěn)定性產(chǎn)生不同的影響。因此,接下來的工作是進(jìn)一步分析如何設(shè)置TD error和樣本選取比例,讓算法可以獲得最好的收斂性和穩(wěn)定性,使算法具有更強的通用性。

[1] SUTTON R S, BARTO G A. Reinforcement learning: an introduction[M]. Cambridge: MIT press, 1998.

[2] 朱斐, 劉全, 傅啟明, 等. 一種用于連續(xù)動作空間的最小二乘行動者-評論家方法[J]. 計算機研究與發(fā)展, 2014, 51(3): 548-558. ZHU F, LIU Q, FU Q M. A least square actor-critic approach for continuous action space[J]. Journal of Computer Research and Development, 2014, 51(3): 548-558.

[3] 孫志軍, 薛磊, 許陽明, 等. 深度學(xué)習(xí)研究綜述[J]. 計算機應(yīng)用研究, 2012, 29(8): 2806-2810. SUN Z J, XUE L, XU Y M, et al. Overview of deep learning[J]. Application Research of Computers, 2012, 29(8): 2806-2810.

[4] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[5] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

[6] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

[7] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354-359.

[8] MNIH V, KAVUKCUOFLU K, SILVER D, et al. Playing atari with deep reinforcement learning[C]//Workshops at the 26th Neural Information Processing Systems. 2013.

[9] MNIH V, KAVUKCUOFLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

[10] WATKINS C J C H. Learning from delayed rewards[J]. Robotics and Autonomous Systems, 1989, 15(4): 233-235.

[11] VAN H V, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C]//The AAAI Conference on Artificial Intelligence. 2016.

[12] HASSELT H V. Double Q-learning[C]//The Advances in Neural Information Processing Systems. 2010.

[13] SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay[C]//The 4th International Conference on Learning Representations. 2016: 322-355.

[14] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[J]. Advances in Neural Information Processing Systems, 2000, 12: 1057-1063.

[15] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C]//The 4th International Conference on Learning Representations. 2015.

[16] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//The International Conference on Machine Learning. 2014.

[17] GIVAN R, DEAN T, GREIG M. Equivalence notions and model minimization in Markov decision processes[J]. Artificial Intelligence, 2003, 147(1-2): 163-223.

[18] FERNS N, PANANGADEN P, PRECUP D. Metrics for finite markov decision processes[C]//The 20th Conference on Uncertainty in Artificial Intelligence. 2004.

Enhanced deep deterministic policy gradient algorithm

CHEN Jianping1,2,3,4, HE Chao1,2,3, LIU Quan5, WU Hongjie1,2,3,4, HU Fuyuan1,2,3,4, FU Qiming1,2,3,4

1. Institute of Electronics and Information Engineering, Suzhou University of Science and Technology, Suzhou 215009, China 2. Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency, Suzhou University of Science and Technology, Suzhou 215009, China 3. Suzhou Key Laboratory of Mobile Networking and Applied Technologies, Suzhou University of Science and Technology, Suzhou 215009, China 4. Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou, Suzhou University of Science and Technology, Suzhou 215009, China 5. School of Computer Science and Technology, Soochow University, Suzhou 215006, China

With the problem of slow convergence for deep deterministic policy gradient algorithm, an enhanced deep deterministic policy gradient algorithm was proposed. Based on the deep deterministic policy gradient algorithm, two sample pools were constructed, and the time difference error was introduced. The priority samples were added when the experience was played back. When the samples were trained, the samples were selected from two sample pools respectively. At the same time, the bisimulation metric was introduced to ensure the diversity of the selected samples and improve the convergence rate of the algorithm. The E-DDPG algorithm was used to pendulum problem. The experimental results show that the E-DDPG algorithm can effectively improve the convergence performance of the continuous action space problems and have better stability.

deep reinforcement learning, sample ranking, bisimulation metric, temporal difference error

TP391

A

10.11959/j.issn.1000?436x.2018238

陳建平(1963?),男,江蘇南京人,博士,蘇州科技大學(xué)教授,主要研究方向為大數(shù)據(jù)分析與應(yīng)用、建筑節(jié)能、智能信息處理。

何超(1993?),男,江蘇徐州人,蘇州科技大學(xué)碩士生,主要研究方向為強化學(xué)習(xí)、深度學(xué)習(xí)、建筑節(jié)能。

劉全(1969?),男,內(nèi)蒙古牙克石人,博士,蘇州大學(xué)教授、博士生導(dǎo)師,主要研究方向為智能信息處理、自動推理與機器學(xué)習(xí)。

吳宏杰(1977?),男,江蘇蘇州人,博士,蘇州科技大學(xué)副教授,主要研究方向為深度學(xué)習(xí)、模式識別、生物信息。

胡伏原(1978?),男,湖南岳陽人,博士,蘇州科技大學(xué)教授,主要研究方向為模式識別與機器學(xué)習(xí)。

傅啟明(1985?),男,江蘇淮安人,博士,蘇州科技大學(xué)講師,主要研究方向為強化學(xué)習(xí)、深度學(xué)習(xí)及建筑節(jié)能。

2018?03?22;

2018?08?01

傅啟明,fqm_1@126.com

國家自然科學(xué)基金資助項目(No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055, No.61672371, No.61602334, No.61502323);江蘇省自然科學(xué)基金資助項目(No.BK20140283);江蘇省重點研發(fā)計劃基金資助項目(No.BE2017663);江蘇省高校自然科學(xué)研究基金資助項目(No.13KJB520020);蘇州市應(yīng)用基礎(chǔ)研究計劃工業(yè)部分基金資助項目(No.SYG201422)

The National Natural Science Foundation of China (No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055, No.61672371, No.61602334, No.61502323), The Natural Science Foundation of Jiangsu Province (No.BK20140283), The Key Research and Development Program of Jiangsu Province (No.BE2017663), High School Natural Foundation of Jiangsu Province (No.13KJB520020), Suzhou Industrial Application of Basic Research Program Part (No.SYG201422)

猜你喜歡
深度動作策略
深度理解一元一次方程
例談未知角三角函數(shù)值的求解策略
我說你做講策略
深度觀察
深度觀察
深度觀察
動作描寫要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
畫動作
動作描寫不可少
主站蜘蛛池模板: 欧美 亚洲 日韩 国产| 一级毛片不卡片免费观看| 天堂网亚洲系列亚洲系列| 国产成年女人特黄特色毛片免 | 国产精品亚洲一区二区三区z| 2021无码专区人妻系列日韩| 亚洲男人天堂2020| 日本不卡在线视频| 欧美a网站| 色婷婷成人| 亚洲欧美激情小说另类| 午夜小视频在线| 久久精品日日躁夜夜躁欧美| 91外围女在线观看| 亚洲人成网站色7799在线播放| 中文字幕资源站| 国产高清不卡视频| 欧美一区二区福利视频| 伊人网址在线| 国产理论一区| 成年人国产网站| 免费国产好深啊好涨好硬视频| 99资源在线| 99尹人香蕉国产免费天天拍| 国产一在线| 亚洲品质国产精品无码| 亚洲成综合人影院在院播放| 国产精品yjizz视频网一二区| 性网站在线观看| 一级片免费网站| 国产不卡网| 精品一区二区三区水蜜桃| 免费人成网站在线观看欧美| 亚洲精品无码AV电影在线播放| 午夜精品福利影院| 2019年国产精品自拍不卡| 青草国产在线视频| 5555国产在线观看| 国产精品理论片| 亚洲色成人www在线观看| 亚洲欧洲AV一区二区三区| 成人国产免费| 亚洲国产精品无码AV| 亚洲丝袜第一页| 国产免费一级精品视频| 日韩av无码精品专区| 97久久免费视频| 日本不卡在线| 97一区二区在线播放| 亚洲天堂网在线视频| 色爽网免费视频| 午夜影院a级片| 国产欧美日韩一区二区视频在线| 欧美 国产 人人视频| 精品日韩亚洲欧美高清a| 波多野结衣无码中文字幕在线观看一区二区 | 国产无码制服丝袜| 久996视频精品免费观看| 99色亚洲国产精品11p| 亚洲第一页在线观看| 99久久精品国产麻豆婷婷| 久久亚洲国产视频| 国产天天射| 亚洲浓毛av| 日本草草视频在线观看| 美女高潮全身流白浆福利区| 国产玖玖视频| 国产日韩欧美一区二区三区在线| 免费在线a视频| 国产日韩欧美一区二区三区在线| 99ri精品视频在线观看播放| 久久永久精品免费视频| 亚洲中文制服丝袜欧美精品| 亚洲天堂啪啪| 国产18在线播放| 激情爆乳一区二区| 干中文字幕| lhav亚洲精品| 午夜一级做a爰片久久毛片| 国产精品成人免费视频99| 日韩高清中文字幕| 国产精品女同一区三区五区|