999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互信息最大化的意圖強(qiáng)化學(xué)習(xí)方法的研究

2022-12-31 00:00:00趙婷婷吳帥楊夢(mèng)楠陳亞瑞王嫄楊巨成
計(jì)算機(jī)應(yīng)用研究 2022年11期

摘 要:強(qiáng)化學(xué)習(xí)主要研究智能體如何根據(jù)環(huán)境作出較好的決策,其核心是學(xué)習(xí)策略。基于傳統(tǒng)策略模型的動(dòng)作選擇主要依賴于狀態(tài)感知、歷史記憶及模型參數(shù)等,其智能體行為很難受到控制。然而,當(dāng)人類(lèi)智能體完成任務(wù)時(shí),通常會(huì)根據(jù)自身的意愿或動(dòng)機(jī)選擇相應(yīng)的行為。受人類(lèi)決策機(jī)制的啟發(fā),為了讓強(qiáng)化學(xué)習(xí)中的行為選擇可控,使智能體能夠根據(jù)意圖選擇動(dòng)作,將意圖變量加入到策略模型中,提出了一種基于意圖控制的強(qiáng)化學(xué)習(xí)策略學(xué)習(xí)方法。具體地,通過(guò)意圖變量與動(dòng)作的互信息最大化使兩者產(chǎn)生高相關(guān)性,使得策略能夠根據(jù)給定意圖變量選擇相關(guān)動(dòng)作,從而達(dá)到對(duì)智能體的控制。最終,通過(guò)復(fù)雜的機(jī)器人控制仿真任務(wù)Mujoco驗(yàn)證了所提方法能夠有效地通過(guò)意圖變量控制機(jī)器人的移動(dòng)速度和移動(dòng)角度。

關(guān)鍵詞:強(qiáng)化學(xué)習(xí);互信息;意圖控制;近端策略優(yōu)化算法

中圖分類(lèi)號(hào):TP181 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2022)11-020-3327-06

doi:10.19734/j.issn.1001-3695.2022.03.0168

Intention based reinforcement learning by information maximization

Zhao Tingting,Wu Shuai,Yang Mengnan,Chen Yarui,Wang Yuan,Yang Jucheng

(College of Artificial Intelligence,Tianjin University of Science amp; Technology,Tianjin 300457,China)

Abstract:Reinforcement learning studies how an agent makes decisions through the interaction with the unknown environment,its core is to learn the policy.The action selection of traditional policy model mainly depends on state perception,historical memory and model parameters,which are difficult to control.However,when human fulfill a task,they usually make decisions according to their own intention or motivation.Inspired by the human decision-making mechanism,in order to make the behavior selection mechanism controllable and enable the agent to choose the action according to the intention,this paper proposed to incorporate the intention variable to the policy model and obtain an intention motivated reinforcement learning method.More specifically,the proposed method maximized the mutual information between the intention variables and the actions,so that the policy could select the action related to the intention variable.Finally,the effectiveness of the proposed intention-motivated control was demonstrated through the complex Mujoco environment in simulated robot control task.

Key words:reinforcement learning(RL); mutual information; intentional control; proximal policy optimization

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61976156);天津市企業(yè)科技特派員項(xiàng)目(20YDTPJC00560)

作者簡(jiǎn)介:趙婷婷(1986-),女,內(nèi)蒙古赤峰人,副教授,碩導(dǎo),主要研究方向?yàn)闄C(jī)器學(xué)習(xí)算法、強(qiáng)化學(xué)習(xí)及機(jī)器人控制;吳帥(1996-),男,山東青島人,碩士,主要研究方向?yàn)橹悄苄畔⑻幚恚粭顗?mèng)楠(1999-),女,河南許昌人,碩士研究生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí);陳亞瑞(1982-),女(通信作者),河北邢臺(tái)人,副教授,碩導(dǎo),主要研究方向?yàn)楦怕蕡D模型、機(jī)器學(xué)習(xí)及近似推理等(yrchen@tust.edu.cn);王嫄(1989-),女,山西萬(wàn)榮人,副教授,碩導(dǎo),主要研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)及自然語(yǔ)言處理等;楊巨成(1980-),男,湖北天門(mén)人,教授,博導(dǎo),主要研究方向?yàn)閳D像處理、生物識(shí)別、模式識(shí)別及神經(jīng)網(wǎng)絡(luò)等.

0 引言

強(qiáng)化學(xué)習(xí)(RL)[1是一種通過(guò)與環(huán)境交互和試錯(cuò)進(jìn)行學(xué)習(xí)的學(xué)習(xí)范式2,3,其目標(biāo)是找到一個(gè)最優(yōu)策略,使智能體能夠得到最大的期望累積獎(jiǎng)勵(lì)。隨著深度神經(jīng)網(wǎng)絡(luò)的加入,深度強(qiáng)化學(xué)習(xí)在機(jī)器人4、游戲5~7、自然語(yǔ)言處理8等領(lǐng)域取得了突破性進(jìn)展。

一般來(lái)說(shuō),強(qiáng)化學(xué)習(xí)的算法可以分為基于值函數(shù)的方法[9、基于策略的方法10和演員—評(píng)論家(actor-critic,AC)架構(gòu)[11三種類(lèi)型。基于價(jià)值的方法首先估計(jì)值函數(shù),然后根據(jù)所學(xué)習(xí)到的值函數(shù)貪婪地選擇令值函數(shù)大的動(dòng)作[12,主要適用于解決離散狀態(tài)動(dòng)作空間的問(wèn)題13。然而,由于價(jià)值函數(shù)的極端非凸性,使其很難通過(guò)在每個(gè)時(shí)間步最大化值函數(shù)來(lái)選擇動(dòng)作。此外,值函數(shù)的微小變化可能會(huì)導(dǎo)致策略發(fā)生重大改變14,這對(duì)于脆弱的物理系統(tǒng)(如機(jī)器人)來(lái)說(shuō)是不穩(wěn)定的。針對(duì)基于值函數(shù)方法的局限性,基于策略的方法直接對(duì)策略建模,適用于解決具有連續(xù)狀態(tài)動(dòng)作空間的決策任務(wù),可以確保物理系統(tǒng)的穩(wěn)定性,適合解決復(fù)雜智能控制系統(tǒng)的決策控制問(wèn)題,因此在機(jī)器人領(lǐng)域得到了廣泛應(yīng)用[15。另一方面,actor-critic框架結(jié)合了基于值函數(shù)的方法和基于策略的方法,其中,actor扮演策略這一角色,用于控制智能體生成動(dòng)作,而critic則根據(jù)值函數(shù)評(píng)估智能體動(dòng)作的好壞,并指導(dǎo)actor對(duì)策略進(jìn)行改進(jìn)。基于actor-critic框架的方法可解決包括離散動(dòng)作空間及連續(xù)動(dòng)作空間在內(nèi)的各種決策問(wèn)題,此類(lèi)算法的核心是基于策略的方法。

在基于策略方法的框架中,智能體依據(jù)使累積獎(jiǎng)勵(lì)最大化的最優(yōu)策略選擇動(dòng)作,策略通常被定義為當(dāng)前狀態(tài)或經(jīng)驗(yàn)歷史與策略參數(shù)的函數(shù)[16。然而,作為人類(lèi)智能體,人們通常會(huì)根據(jù)給定的情景,根據(jù)自己的意圖或動(dòng)機(jī)采取適當(dāng)?shù)男袆?dòng),在這種情況下,獎(jiǎng)勵(lì)最大化將不再是實(shí)現(xiàn)目標(biāo)任務(wù)的唯一標(biāo)準(zhǔn)和最重要問(wèn)題。在當(dāng)前深度強(qiáng)化學(xué)習(xí)框架中,策略在選擇動(dòng)作時(shí)不受任何限制,可能會(huì)生成不恰當(dāng)?shù)膭?dòng)作。因此,強(qiáng)化學(xué)習(xí)領(lǐng)域亟待設(shè)計(jì)一種能夠使行動(dòng)選擇機(jī)制更類(lèi)似于人類(lèi)的方法,使智能體的動(dòng)作選擇可控。對(duì)此,本文提出一種基于互信息最大化的意圖強(qiáng)化學(xué)習(xí)模型,使得智能體能夠根據(jù)符合給定情況的意圖變量選擇更合適的行為。

在深度強(qiáng)化學(xué)習(xí)中,與本文所提意圖控制機(jī)制最相似的方法是好奇心驅(qū)動(dòng)方法,在這種方法中,當(dāng)外在環(huán)境獎(jiǎng)勵(lì)稀少時(shí),智能體無(wú)法對(duì)環(huán)境進(jìn)行充分的探索,這時(shí)好奇心被表達(dá)為內(nèi)在獎(jiǎng)勵(lì)來(lái)驅(qū)動(dòng)、指導(dǎo)智能體進(jìn)行更多的探索[17,18。實(shí)現(xiàn)對(duì)智能體控制的一種方法是將意圖因素嵌入到獎(jiǎng)勵(lì)函數(shù)當(dāng)中,如好奇心驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)方法19,智能體會(huì)在獎(jiǎng)勵(lì)函數(shù)的指導(dǎo)下選擇期望的動(dòng)作,從而達(dá)到控制的目的。例如,圖1中機(jī)器人的控制任務(wù)是學(xué)會(huì)走路,機(jī)器人只要向前移動(dòng),環(huán)境就會(huì)反饋給智能體正的獎(jiǎng)勵(lì)。在傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架中,策略模型經(jīng)過(guò)大量的訓(xùn)練后,機(jī)器人能夠?qū)W會(huì)向前移動(dòng),但移動(dòng)速度無(wú)法控制。如果任務(wù)要求機(jī)器人快速移動(dòng),只能將影響機(jī)器人快速移動(dòng)的因素嵌入到獎(jiǎng)勵(lì)函數(shù)中,在這樣設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)下獲得的最優(yōu)策略將會(huì)控制機(jī)器人盡可能快地移動(dòng)。然而,學(xué)習(xí)到的策略模型無(wú)法直接泛化到緩慢移動(dòng)的任務(wù)。要想讓機(jī)器人能夠緩慢移動(dòng),則需重新設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),將影響機(jī)器人慢速移動(dòng)的因素嵌入獎(jiǎng)勵(lì)函數(shù)中,重新訓(xùn)練模型。因此,這種通過(guò)將影響任務(wù)的因素嵌入到獎(jiǎng)勵(lì)函數(shù)的方法學(xué)習(xí)到的策略只能夠用于特定任務(wù),失去了策略的普遍性。另外,正確定義獎(jiǎng)勵(lì)函數(shù)是深度強(qiáng)化學(xué)習(xí)領(lǐng)域中的一大挑戰(zhàn)[20

InfoGAN利用互信息對(duì)隱變量進(jìn)行約束[21,通過(guò)最大化隱變量與生成模型之間的互信息,使得兩者具備高度相關(guān)性,從而生成具有可解釋性的圖像。本文借鑒了InfoGAN的思想,利用互信息對(duì)表示意圖的隱變量進(jìn)行約束,通過(guò)最大化意圖變量與動(dòng)作之間的互信息,使得兩者產(chǎn)生緊密聯(lián)系,給定策略模型一個(gè)意圖值,策略會(huì)選擇與該意圖相關(guān)的動(dòng)作,從而達(dá)到控制的目的。通過(guò)本文方法,智能體可以通過(guò)設(shè)置不同的意圖值選擇不同的行為動(dòng)作來(lái)實(shí)現(xiàn)不同的目標(biāo),而無(wú)須再訓(xùn)練。對(duì)于訓(xùn)練好的策略模型,如果任務(wù)要求機(jī)器人慢速移動(dòng),給智能體設(shè)置一個(gè)較小的意圖值,機(jī)器人會(huì)受到這個(gè)意圖值的影響,選擇與這個(gè)意圖值對(duì)應(yīng)的移動(dòng)慢的動(dòng)作,從而使機(jī)器人實(shí)現(xiàn)緩慢向前移動(dòng)的任務(wù),如圖1(a)所示;如果要求機(jī)器人快速移動(dòng),給智能體設(shè)置一個(gè)較大的意圖值,機(jī)器人在較大意圖值的控制下快速移動(dòng),如圖1(b)所示。目前,利用現(xiàn)有的深度強(qiáng)化學(xué)習(xí)模型無(wú)法直接實(shí)現(xiàn)上述任務(wù),而引入意圖變量可以控制機(jī)器人在不同的情況下選擇更符合任務(wù)要求的動(dòng)作,從而使智能體能夠處理更復(fù)雜的任務(wù)。圖2比較了實(shí)現(xiàn)意圖控制的兩種不同方式,即將控制因素嵌入到獎(jiǎng)勵(lì)函數(shù)中,以及本文所提基于意圖控制的強(qiáng)化學(xué)習(xí)模型。由此可見(jiàn),當(dāng)部署環(huán)境發(fā)生變化時(shí),本文模型可以直接應(yīng)用,而無(wú)須重新訓(xùn)練,具有普遍性。

為了讓智能體的動(dòng)作選擇可控,本文首次提出基于意圖控制的強(qiáng)化學(xué)習(xí)模型。具體地,本文將表示意圖信息的隱變量加入到策略模型中,從而得到具有意圖的、可控的策略。文中的意圖可定義為希望智能體達(dá)到某種目的的方式或打算,為了在強(qiáng)化學(xué)習(xí)框架下實(shí)現(xiàn)意圖控制,本文將意圖量化用數(shù)字表示,在不同的環(huán)境任務(wù)下,意圖變量具有不同的物理含義。

本文的主要貢獻(xiàn)是提出了全新的基于意圖控制的策略模型,在傳統(tǒng)深度強(qiáng)化學(xué)習(xí)目標(biāo)的基礎(chǔ)上,引入了意圖變量和智能體動(dòng)作之間的互信息最大化,并推導(dǎo)了能夠有效優(yōu)化的目標(biāo)互信息的下界。本文所提模型是一個(gè)通用模型,可以應(yīng)用到任意強(qiáng)化學(xué)習(xí)算法中。最后,通過(guò)Mujoco[22的機(jī)器人控制任務(wù)驗(yàn)證了所提算法的有效性和準(zhǔn)確性。

1 相關(guān)工作

在深度強(qiáng)化學(xué)習(xí)領(lǐng)域,與意圖控制相關(guān)的研究甚少,根據(jù)對(duì)已有工作研究的了解,本文是首次在深度強(qiáng)化學(xué)習(xí)領(lǐng)域提出意圖控制的工作。基于好奇心驅(qū)動(dòng)的研究是該領(lǐng)域的一個(gè)熱門(mén)話題[23,其本質(zhì)上與意圖控制的機(jī)制相似,都屬于對(duì)智能體動(dòng)作的控制。

對(duì)于諸多強(qiáng)化學(xué)習(xí)任務(wù),環(huán)境反饋的獎(jiǎng)勵(lì)稀疏,智能體在探索的過(guò)程中難以獲得正獎(jiǎng)勵(lì),從而導(dǎo)致智能體學(xué)習(xí)進(jìn)度緩慢甚至出現(xiàn)無(wú)法進(jìn)行有效學(xué)習(xí)的現(xiàn)象。為解決這一問(wèn)題,一種有效方法是為智能體創(chuàng)造一個(gè)內(nèi)在獎(jiǎng)勵(lì),使得智能體獲得更加密集的獎(jiǎng)勵(lì),從而引導(dǎo)智能體進(jìn)行學(xué)習(xí)。通過(guò)獲得額外的獎(jiǎng)勵(lì)驅(qū)動(dòng),鼓勵(lì)智能體對(duì)陌生的環(huán)境進(jìn)行更多的探索,這種內(nèi)在的獎(jiǎng)賞被稱為好奇心。好奇心驅(qū)動(dòng)是一類(lèi)鼓勵(lì)策略探索方法的統(tǒng)稱,主要通過(guò)策略鼓勵(lì)智能體對(duì)未知環(huán)境進(jìn)行探索,從而獲得更多的獎(jiǎng)勵(lì)。

魯成祥[24在現(xiàn)有的好奇心驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)框架基礎(chǔ)上,借鑒情感心理在人類(lèi)行為決策中的角色,通過(guò)將智能體感知到的狀態(tài)映射為情感維度,提出了一種將量化的情感模型作為好奇心驅(qū)動(dòng)的方法。內(nèi)在情感在外界獎(jiǎng)勵(lì)信號(hào)的基礎(chǔ)上提供附加補(bǔ)充獎(jiǎng)勵(lì),內(nèi)在情感與具體的任務(wù)無(wú)關(guān),好奇心通過(guò)評(píng)價(jià)狀態(tài)和動(dòng)作的新奇程度來(lái)控制智能體對(duì)陌生或熟悉環(huán)境的探索偏好。Bougie等人[25將好奇心描述為智能體預(yù)測(cè)自己對(duì)任務(wù)的認(rèn)知的能力,提出一種端到端的好奇心機(jī)制,該機(jī)制利用好奇心鼓勵(lì)智能體在稀疏獎(jiǎng)勵(lì)的環(huán)境中進(jìn)行更多探索,進(jìn)一步提高數(shù)據(jù)效率和智能體的泛化能力。好奇心驅(qū)動(dòng)探索,通常通過(guò)動(dòng)力學(xué)模型的預(yù)測(cè)誤差來(lái)估計(jì)下一個(gè)狀態(tài)的新穎性。然而,這些方法通常受到其動(dòng)力學(xué)模型容量的限制。對(duì)此,Li等人[26提出一種基于深度強(qiáng)化學(xué)習(xí)的隨機(jī)好奇心驅(qū)動(dòng)模型,該模型使用具有固定權(quán)重的目標(biāo)網(wǎng)絡(luò)來(lái)保持動(dòng)態(tài)模型的穩(wěn)定性,并創(chuàng)造更合適的內(nèi)在獎(jiǎng)勵(lì)。除了能夠激勵(lì)智能體探索環(huán)境外,好奇心機(jī)制還可以用于其他方面,如Han等人[27認(rèn)為自適應(yīng)學(xué)習(xí)系統(tǒng)中推薦策略的設(shè)計(jì)側(cè)重于利用當(dāng)前可用的信息為學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)指導(dǎo)。作為人類(lèi)行為的關(guān)鍵動(dòng)機(jī),好奇心本質(zhì)上是探索知識(shí)和尋求信息的動(dòng)力。在強(qiáng)化學(xué)習(xí)框架內(nèi)提出的基于好奇心驅(qū)動(dòng)的推薦策略,為人類(lèi)提供高效且令人愉快的個(gè)性化學(xué)習(xí)路徑。綜上,基于好奇心驅(qū)動(dòng)的方法通常會(huì)在原有環(huán)境外在獎(jiǎng)勵(lì)的基礎(chǔ)上額外增加一個(gè)內(nèi)在獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)。因此,設(shè)計(jì)一個(gè)有效的且契合任務(wù)的內(nèi)在獎(jiǎng)勵(lì)函數(shù)是該領(lǐng)域的一個(gè)重要問(wèn)題。

與本文所提的意圖控制最相關(guān)的研究是InfoRL[28,該算法在傳統(tǒng)強(qiáng)化學(xué)習(xí)框架中加入隱變量,通過(guò)最大化隱變量與動(dòng)作的互信息可以獲得多個(gè)接近最優(yōu)路徑的近似路徑,從而以不同的方式實(shí)現(xiàn)相同任務(wù)。InfoRL與好奇心驅(qū)動(dòng)方法類(lèi)似,同樣在原有環(huán)境獎(jiǎng)勵(lì)的基礎(chǔ)上,額外增加了一個(gè)內(nèi)在獎(jiǎng)勵(lì)使得獎(jiǎng)勵(lì)更密集,以控制智能體動(dòng)作的選擇。然而,由于獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)極具挑戰(zhàn),需要大量的先驗(yàn)知識(shí)及專家知識(shí),這種通過(guò)增加獎(jiǎng)勵(lì)函數(shù)來(lái)控制任務(wù)的方法在實(shí)踐中并不實(shí)用。因此,本文擬擯棄增加額外獎(jiǎng)勵(lì)函數(shù)的方法[29,利用意圖變量與動(dòng)作之間的互信息最大化,使兩者產(chǎn)生關(guān)聯(lián),從而通過(guò)意圖變量控制智能體的動(dòng)作選擇。

互信息是信息論和機(jī)器學(xué)習(xí)中廣泛使用的一種度量標(biāo)準(zhǔn),用于量化一對(duì)隨機(jī)變量之間共享的信息量[30。互信息最大化31在無(wú)監(jiān)督表征學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)中有很好的表現(xiàn),得到廣泛應(yīng)用。Kim等人[32提出了一種用于多智能體強(qiáng)化學(xué)習(xí)的互信息最大化框架,使多個(gè)智能體能夠通過(guò)調(diào)整動(dòng)作之間的互信息來(lái)調(diào)節(jié)累積收益進(jìn)而學(xué)會(huì)協(xié)調(diào)行為。Zhao等人[33將目標(biāo)狀態(tài)和可控狀態(tài)之間的互信息描述為一個(gè)內(nèi)在的目標(biāo),用于鼓勵(lì)智能體控制其環(huán)境。可見(jiàn),互信息最大化已被廣泛地應(yīng)用于深度強(qiáng)化學(xué)習(xí)中以實(shí)現(xiàn)不同的目標(biāo)。本文主要研究利用互信息最大化實(shí)現(xiàn)意圖控制的可行性。

綜上所述,雖然強(qiáng)化學(xué)習(xí)中關(guān)于智能體行為的可控性已有了一定的研究成果,但解決實(shí)際應(yīng)用中的現(xiàn)實(shí)問(wèn)題仍存在局限性。本文將根據(jù)實(shí)際應(yīng)用需求,提出一種基于意圖控制的策略模型,為實(shí)際應(yīng)用中智能體的控制問(wèn)題提供一種有效的方法。

2 基于互信息最大化的意圖強(qiáng)化學(xué)習(xí)方法

2.1 強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí)

強(qiáng)化學(xué)習(xí)任務(wù)通常由馬爾可夫決策過(guò)程(Markov decision process,MDP)來(lái)描述,由(S,A,PT,r,γ)表示,其中S表示維度為l的連續(xù)狀態(tài),A表示動(dòng)作集合,PT(s′,s,a)表示由于動(dòng)作a的選擇,從當(dāng)前狀態(tài)s轉(zhuǎn)移到下一個(gè)狀態(tài)s′的概率,p1(s)表示初始狀態(tài)的概率,r(s,a,s′)表示在狀態(tài)s采取動(dòng)作a轉(zhuǎn)移到下一個(gè)狀態(tài)s′的瞬時(shí)獎(jiǎng)賞,0lt;γlt;1是未來(lái)獎(jiǎng)勵(lì)的折現(xiàn)因子。π(a|s,θ)表示參數(shù)為θ的隨機(jī)策略,它代表在給定狀態(tài)s的條件下采取動(dòng)作a的條件概率密度,h=[s1,a1,…,sT,aT]是長(zhǎng)度為T(mén)的路徑,累積獎(jiǎng)勵(lì)(即未來(lái)獎(jiǎng)勵(lì)的折現(xiàn)之和)R(h)表示為

期望累積獎(jiǎng)勵(lì)關(guān)于參數(shù)θ可定義為

其中:p(h|θ)=p(s1)∏Tt=1p(st+1|st,at)π(at|st,θ)表示在給定模型參數(shù)θ的條件下,每條路徑h出現(xiàn)的概率。

強(qiáng)化學(xué)習(xí)的核心是找到最優(yōu)策略參數(shù)θ*使期望累積獎(jiǎng)勵(lì)J(θ)最大化:

本文針對(duì)連續(xù)動(dòng)作空間決策問(wèn)題展開(kāi)研究,基于策略的方法是解決連續(xù)動(dòng)作問(wèn)題的有效方法。近端策略優(yōu)化算法(proximal policy optimization,PPO)[34是深度強(qiáng)化學(xué)習(xí)中最經(jīng)典的策略梯度算法,該算法在原始目標(biāo)函數(shù)中引入了限制新舊策略概率密度比的正則項(xiàng),更易于實(shí)現(xiàn),且數(shù)據(jù)利用效率更高。因此,PPO算法在復(fù)雜智能系統(tǒng)的決策控制問(wèn)題中得到廣泛應(yīng)用,其目標(biāo)函數(shù)是:

其中:rt(θ)=πθ(at|st)/πθold(at|st)表示新舊策略的概率比;At表示優(yōu)勢(shì)函數(shù)。本文將PPO算法與基于意圖控制的策略相結(jié)合得到基于意圖控制的策略學(xué)習(xí)方法(intention-PPO),并在此算法框架上驗(yàn)證所提出的基于意圖控制的策略模型的效果。

2.2 互信息基本概念

對(duì)于隨機(jī)變量X和Y,如果其聯(lián)合分布為p(X,Y),邊緣概率分布為p(x)和p(y),則隨機(jī)變量X和Y的互信息(mutual information)可以定義為

互信息I(X;Y)是衡量隨機(jī)變量X和Y之間相互依賴程度的度量[35,可以用熵的形式表示:

互信息I(X;Y)表示給定隨機(jī)變量Y后關(guān)于變量X的不確定度的削弱程度。互信息越大,說(shuō)明變量X和Y的關(guān)系越密切。本文通過(guò)最大化意圖變量與動(dòng)作之間的互信息,讓意圖與動(dòng)作產(chǎn)生依賴關(guān)系,從而使智能體可以通過(guò)意圖變量選擇相應(yīng)的動(dòng)作。

2.3 基于互信息最大化的意圖強(qiáng)化學(xué)習(xí)算法

為了讓智能體在選擇動(dòng)作時(shí)受到控制,本文在傳統(tǒng)強(qiáng)化學(xué)習(xí)的策略模型中引入一個(gè)表示意圖信息的隱變量,得到基于意圖控制的策略模型,即π(a|s,z,θ),其中變量z表示意圖變量。為了生成與意圖變量有關(guān)的動(dòng)作,本文采用了信息論正則化方法。具體地,通過(guò)最大化意圖變量z和動(dòng)作a之間的互信息,即最大化Is,θ(Z;A)的值,讓意圖變量與智能體動(dòng)作之間建立起依賴關(guān)系。意圖變量與智能體動(dòng)作之間的互信息是關(guān)于狀態(tài)s和策略模型參數(shù)θ的函數(shù),意圖變量分布Z是獨(dú)立于狀態(tài)s和策略模型參數(shù)θ的,通過(guò)信息論的正則化思想修改傳統(tǒng)強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù),得到

其中:J(θ)是傳統(tǒng)強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù);Is,θ(Z;A)表示意圖變量與智能體動(dòng)作的互信息;λ≥0是正則化參數(shù)。所提基于意圖控制的強(qiáng)化學(xué)習(xí)模型可以在增加獎(jiǎng)勵(lì)預(yù)期收益的同時(shí),實(shí)現(xiàn)對(duì)智能體動(dòng)作的控制。

在此目標(biāo)函數(shù)下,求解的主要任務(wù)轉(zhuǎn)換為如何最大化Is,θ(Z;A)。根據(jù)互信息熵的定義,可以得到

由于p(a,z|s,θ)=p(z)π(a|s,z,θ),意圖變量Z與智能體動(dòng)作A的互信息Is,θ(Z;A)可表示為

值得注意的是,只有在本文基于意圖控制的強(qiáng)化學(xué)習(xí)模型中,才能將聯(lián)合分布p(a,z|s,θ)分解為p(z)π(a|s,z,θ),也只有在這種情況下,才能使用互信息最大化進(jìn)行約束學(xué)習(xí)。否則,p(a,z|s,θ)需分解成p(z|a)π(a|s,z,θ),而用p(z|a)去求解互信息最大化很難計(jì)算,意圖控制也很難為智能體所實(shí)現(xiàn)。因此,所提出的互信息最大化正則項(xiàng)專為本文基于意圖控制的策略模型而設(shè)計(jì),不能直接應(yīng)用于傳統(tǒng)的強(qiáng)化學(xué)習(xí)策略模型。

顯然,由于在計(jì)算互信息Is,θ(Z;A)時(shí)必須要用到p(z|a)分布,而該分布很難計(jì)算,導(dǎo)致無(wú)法直接計(jì)算出意圖變量與智能體動(dòng)作之間的互信息Is,θ(Z;A)。因此,為了避免計(jì)算p(z|a)分布,本文定義一個(gè)神經(jīng)網(wǎng)絡(luò)G(z|a,φ)作為p(z|a)的近似。然后,用G(z|a,φ)替代p(z|a)計(jì)算意圖變量與動(dòng)作的互信息,從而能夠更簡(jiǎn)單地求出互信息的近似值:

由于H(Z)是一個(gè)常數(shù),在優(yōu)化過(guò)程中可以忽略不計(jì)。互信息Is,θ(Z;A)的近似值簡(jiǎn)化為

最后,可以使用蒙特卡羅方法36很容易地估計(jì)出Is,θ(Z;A)。基于互信息最大化的意圖強(qiáng)化學(xué)習(xí)模型的目標(biāo)函數(shù)為

其中:θπ和φG是策略和G網(wǎng)絡(luò)的參數(shù)。所提方法的架構(gòu)如圖3所示。在此模型中,有兩部分需要學(xué)習(xí):a)包含意圖的策略網(wǎng)絡(luò);b)G網(wǎng)絡(luò),即p(z|a)的近似分布G(z|a,φ)。

基于意圖的強(qiáng)化學(xué)習(xí)模型的目標(biāo)是找到最佳的策略參數(shù)θ*和G網(wǎng)絡(luò)參數(shù)φ*,最大化累積獎(jiǎng)勵(lì)及互信息:

策略和G網(wǎng)絡(luò)的參數(shù)θπ和φG通過(guò)梯度上升法更新:

其中:ε是一個(gè)小的正數(shù)。

基于上述推導(dǎo),只需要討論策略模型和G網(wǎng)絡(luò)的具體模型結(jié)構(gòu)以及目標(biāo)函數(shù)的優(yōu)化問(wèn)題即可實(shí)現(xiàn)本文算法。為了實(shí)現(xiàn)本文所提框架,理論上可以采用任何基于策略的強(qiáng)化學(xué)習(xí)算法。由于PPO算法的靈活性和良好的性能,本文將在PPO算法上實(shí)現(xiàn)基于意圖控制的策略模型,并進(jìn)行驗(yàn)證。本文將意圖控制模型與PPO算法相結(jié)合得到基于意圖控制的策略學(xué)習(xí)算法,即Intention-PPO算法,其詳細(xì)步驟見(jiàn)算法1。

算法1 基于意圖控制的策略學(xué)習(xí)算法

輸入:狀態(tài)s,意圖變量z。

輸出:當(dāng)前狀態(tài)下智能體選擇的動(dòng)作a。

a)初始化策略和G網(wǎng)絡(luò)的參數(shù)θ0和φ0

b)智能體與環(huán)境互動(dòng)采樣數(shù)據(jù)

for i=1 to N:

從意圖分布中采樣意圖變量:zi~p(z)

for t=1 to K:

智能體生成動(dòng)作:at~πθ(zi,st

環(huán)境反饋獎(jiǎng)勵(lì)以及下一個(gè)狀態(tài):st+1,rt~env(at

生成z′i:z′i~G(z′i|at,φi

end for

end for

c)更新策略和G網(wǎng)絡(luò)參數(shù):

θi+1←θi,φi+1←φi

3 實(shí)驗(yàn)結(jié)果與分析

本章通過(guò)機(jī)器人仿真平臺(tái)Mujoco的兩個(gè)復(fù)雜的機(jī)器人控制任務(wù)驗(yàn)證本文算法的有效性,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。

3.1 基于意圖控制的機(jī)器人移動(dòng)速度實(shí)驗(yàn)

3.1.1 實(shí)驗(yàn)環(huán)境

首先,根據(jù)Mujoco中的Walker2d-v2環(huán)境創(chuàng)建一個(gè)動(dòng)作行為不受任何因素控制的環(huán)境。Walker2d-v2環(huán)境如圖4所示,動(dòng)作和狀態(tài)空間分別是6維和17維,其任務(wù)是讓一個(gè)二足機(jī)器人學(xué)會(huì)走路,機(jī)器人只能在X軸方向前進(jìn)或后退。在這個(gè)環(huán)境中,獎(jiǎng)勵(lì)函數(shù)被設(shè)計(jì)為使機(jī)器人盡可能快地在X方向移動(dòng),獎(jiǎng)勵(lì)函數(shù)如下:

其中:xt表示t時(shí)刻智能體在X方向的位置;dt表示兩個(gè)時(shí)間步之間的時(shí)間。由式(15)可見(jiàn),此環(huán)境將速度因素嵌入到獎(jiǎng)勵(lì)函數(shù)中,機(jī)器人移動(dòng)的速度越快,環(huán)境反饋給的獎(jiǎng)勵(lì)值就越多,此機(jī)器人只能完成快速移動(dòng)的任務(wù)。

為了消除獎(jiǎng)勵(lì)函數(shù)對(duì)智能體移動(dòng)速度的影響,實(shí)現(xiàn)對(duì)智能體移動(dòng)速度的控制,本文設(shè)計(jì)了新的獎(jiǎng)勵(lì)函數(shù),使機(jī)器人以不同速度在X方向上移動(dòng)時(shí)可以獲得相同的獎(jiǎng)勵(lì),具體如下:

其中:xt表示t時(shí)刻智能體在X方向的位置;本實(shí)驗(yàn)中d設(shè)置為0.003,表示機(jī)器人的移動(dòng)距離。在此任務(wù)中,智能體能夠以任意的速度移動(dòng),動(dòng)作選擇不受外界因素的控制。

3.1.2 比較算法

本實(shí)驗(yàn)中,主要比較以下方法:

a)PPO。原始PPO算法,沒(méi)有加入意圖變量。

b)InfoRL-PPO。文獻(xiàn)[25]利用隱變量與動(dòng)作的互信息最大化,以發(fā)現(xiàn)多個(gè)接近最優(yōu)路徑的近似路徑。InfoRL必須通過(guò)在原獎(jiǎng)勵(lì)函數(shù)的基礎(chǔ)上添加外部獎(jiǎng)勵(lì)函數(shù)來(lái)修改獎(jiǎng)勵(lì)功能,以控制智能體的行動(dòng)。獎(jiǎng)勵(lì)函數(shù)被修改為:renvironment(s,a)+λrposterior(a,c),其中:renvironment(s,a)是智能體采取行為從環(huán)境反饋的獎(jiǎng)勵(lì),rposterior(a,c)是反映動(dòng)作和隱變量c之間關(guān)系的外部獎(jiǎng)勵(lì)。

c)Intention-PPO。在PPO算法上實(shí)現(xiàn)本文基于意圖控制的策略模型。

3.1.3 實(shí)驗(yàn)設(shè)計(jì)

在算法的具體實(shí)踐過(guò)程中,路徑長(zhǎng)度T為1 024,熵的正則化系數(shù)λ=0.01,值函數(shù)的損失系數(shù)η=0.05,獎(jiǎng)勵(lì)折扣因子γ=0.99,截?cái)嘁蜃应?0.2。實(shí)驗(yàn)在32個(gè)環(huán)境下并行運(yùn)行,采用Adam[37進(jìn)行優(yōu)化,學(xué)習(xí)率α=0.02。策略模型由全連接神經(jīng)網(wǎng)絡(luò)組成,具有3個(gè)隱藏層,每層有256個(gè)神經(jīng)單元。G網(wǎng)絡(luò)同樣是一個(gè)全連接的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)具有2個(gè)隱藏層,每層64個(gè)神經(jīng)單元。輸入動(dòng)作,輸出意圖變量。在訓(xùn)練過(guò)程中,用不同的隨機(jī)種子在32個(gè)環(huán)境中產(chǎn)生32個(gè)路徑樣本用于訓(xùn)練。意圖變量從[-1,1]的均勻分布中隨機(jī)抽樣,每條路徑都是在同一個(gè)意圖變量控制下生成。

實(shí)驗(yàn)中,將策略在每個(gè)回合獲得的累積獎(jiǎng)勵(lì)值作為評(píng)價(jià)策略性能的指標(biāo)。此外,本節(jié)實(shí)驗(yàn)主要驗(yàn)證意圖變量與機(jī)器人速度之間的關(guān)系,給定策略不同的意圖值,觀測(cè)機(jī)器人移動(dòng)速度的變化。

3.1.4 結(jié)果分析

對(duì)上述三種對(duì)比算法進(jìn)行10次實(shí)驗(yàn),每次模型訓(xùn)練中,模型參數(shù)都會(huì)迭代更新1 500次。對(duì)于本文所提出的Intention-PPO,意圖變量是從[-1,1]的均勻分布中隨機(jī)采樣的,InfoRL-PPO中的隱變量遵循相同的操作。最終PPO、InfoRL-PPO、Intention-PPO訓(xùn)練的策略獲得的平均累積獎(jiǎng)勵(lì)值隨著迭代次數(shù)的變化曲線如圖5所示。

圖5描述了三種比較算法的策略學(xué)習(xí)過(guò)程,通過(guò)學(xué)習(xí)曲線可見(jiàn),PPO算法波動(dòng)范圍小,收斂速度快,但隨著迭代次數(shù)的增加,PPO算法的策略模型陷入局部最優(yōu)問(wèn)題,獲得的累積獎(jiǎng)勵(lì)逐漸減少,這也是目前多數(shù)強(qiáng)化學(xué)習(xí)方法經(jīng)常會(huì)遇到的問(wèn)題。Intention-PPO在初始階段性能提升緩慢的主要原因是訓(xùn)練初始階段意圖變量和動(dòng)作之間沒(méi)有相關(guān)性,因此最初的動(dòng)作選擇很難獲得環(huán)境反饋的獎(jiǎng)勵(lì)值。隨著策略模型的更新迭代,意圖變量和智能體動(dòng)作選擇產(chǎn)生緊密聯(lián)系,智能體可以根據(jù)意圖變量選擇相應(yīng)的動(dòng)作,使獎(jiǎng)勵(lì)值趨于穩(wěn)定,且采取有意圖的行為在一定程度上能夠避免陷入條件較差的局部最優(yōu)問(wèn)題。此外,由于意圖變量是從分布中隨機(jī)采樣的,智能體在每個(gè)狀態(tài)下根據(jù)不同的意圖變量選擇不同的動(dòng)作來(lái)探索環(huán)境,導(dǎo)致Intention-PPO的獎(jiǎng)勵(lì)函數(shù)曲線的波動(dòng)幅度不如PPO算法穩(wěn)定。值得注意的是,本文的創(chuàng)新點(diǎn)在于基于意圖變量的動(dòng)作選擇,而并非在于算法的性能提升方面。然而,上述實(shí)驗(yàn)結(jié)果依然表明,與原始PPO算法相比,本文所提出的Intention-PPO的穩(wěn)定性和性能并沒(méi)有因?yàn)橐鈭D變量的引入而降低。另外,從圖5還可以看出,即使InfoRL通過(guò)增加一個(gè)額外的獎(jiǎng)勵(lì)函數(shù)的方式,使環(huán)境獎(jiǎng)勵(lì)更加密集,更易于控制動(dòng)作選擇,但其性能仍然低于本文方法。

Intention-PPO算法訓(xùn)練的策略模型收斂后,本文通過(guò)改變意圖變量的大小觀察策略的動(dòng)作選擇,驗(yàn)證意圖變量與動(dòng)作之間的關(guān)系。首先通過(guò)使用Intention-PPO算法訓(xùn)練模型與上述環(huán)境交互生成長(zhǎng)度為1 024的路徑數(shù)據(jù),其中,意圖變量來(lái)自列表[-1,-0.5,0,0.5,1]。策略在同一個(gè)意圖變量的控制下會(huì)生成20條路徑,利用生成的路徑數(shù)據(jù),驗(yàn)證意圖變量與動(dòng)作的關(guān)系。通過(guò)觀測(cè)生成路徑,發(fā)現(xiàn)意圖變量能夠控制智能體的移動(dòng)速度。實(shí)驗(yàn)中,在每個(gè)意圖變量的控制下,計(jì)算智能體移動(dòng)的平均速度,繪制的意圖變量與智能體移動(dòng)速度關(guān)系的曲線圖如圖6所示。

通過(guò)圖6的曲線變化可見(jiàn),隨著意圖變量的增大,智能體傾向于選擇移動(dòng)速度快的動(dòng)作。這說(shuō)明通過(guò)最大化意圖變量與動(dòng)作的互信息,可以讓意圖變量與動(dòng)作產(chǎn)生聯(lián)系,通過(guò)更改意圖變量的大小,智能體的動(dòng)作選擇也隨之改變。在該任務(wù)中,意圖變量控制的是智能體的移動(dòng)速度,數(shù)值大的意圖變量對(duì)應(yīng)著智能體的快速移動(dòng)。為了更好地觀察這一現(xiàn)象,本文還測(cè)試了在意圖變量的控制下智能體在一個(gè)路徑內(nèi)移動(dòng)的距離,不同意圖變量控制的移動(dòng)距離結(jié)果如圖7所示。意圖變量的值越大,智能體移動(dòng)的距離就越遠(yuǎn),這也進(jìn)一步說(shuō)明意圖變量的值越大,智能體越傾向于選擇移動(dòng)快的動(dòng)作。

通過(guò)以上結(jié)果可以得出,在該任務(wù)中,意圖變量控制智能體的移動(dòng)速度,互信息最大化可以讓意圖變量與動(dòng)作產(chǎn)生緊密聯(lián)系。意圖變量的值越大,策略越傾向于選擇移動(dòng)快的動(dòng)作。給定策略一個(gè)較大的意圖變量,策略會(huì)選擇移動(dòng)快的動(dòng)作;給定策略一個(gè)較小的意圖變量,策略會(huì)選擇移動(dòng)慢的動(dòng)作。因此,本文所提基于意圖控制的策略模型具有較強(qiáng)的泛化能力,智能體只需要通過(guò)改變意圖變量的大小,便可實(shí)現(xiàn)在快速和慢速移動(dòng)任務(wù)之間的轉(zhuǎn)換,不需要重新訓(xùn)練策略模型。

3.2 基于意圖控制的機(jī)器人移動(dòng)角度實(shí)驗(yàn)

強(qiáng)化學(xué)習(xí)中,機(jī)器人控制任務(wù)的訓(xùn)練難度高,主要是因?yàn)榄h(huán)境中大規(guī)模、高維度的狀態(tài)和動(dòng)作空間。本節(jié)將在更復(fù)雜、狀態(tài)和動(dòng)作維度更高的機(jī)器人控制任務(wù)Ant-v2中進(jìn)一步驗(yàn)證基于意圖控制的策略學(xué)習(xí)算法的有效性及性能。

3.2.1 實(shí)驗(yàn)環(huán)境

在該實(shí)驗(yàn)中,本文根據(jù)Mujoco中的Ant-v2環(huán)境創(chuàng)建一個(gè)智能體移動(dòng)方向不受任何因素影響的環(huán)境。Ant-v2環(huán)境如圖8所示,其動(dòng)作空間和狀態(tài)空間分別是8維和111維,其任務(wù)是讓一個(gè)四足機(jī)器人學(xué)會(huì)走路,這個(gè)機(jī)器人被允許朝著任何方向移動(dòng),但是只有在X軸方向移動(dòng)時(shí),才能夠獲得環(huán)境反饋的正獎(jiǎng)勵(lì),在其他方向移動(dòng)時(shí)獲得的獎(jiǎng)勵(lì)值為0。在Ant-v2這個(gè)環(huán)境中,獎(jiǎng)勵(lì)函數(shù)被設(shè)計(jì)為使機(jī)器人盡可能快地在X軸方向移動(dòng),獎(jiǎng)勵(lì)函數(shù)如下:

其中:xt表示t時(shí)刻智能體在X方向的位置;dt表示兩個(gè)時(shí)間步之間的時(shí)間。Ant-v2環(huán)境的獎(jiǎng)勵(lì)函數(shù)與Walker2d-v2環(huán)境的獎(jiǎng)勵(lì)函數(shù)相同,都是為了讓智能體盡可能快地在X軸方向移動(dòng)而設(shè)計(jì)的。不同的是在Walker2d-v2環(huán)境中機(jī)器人只能沿著X軸移動(dòng)且狀態(tài)維度只有17維,而在Ant-v2環(huán)境中,機(jī)器人可以朝著任意方向移動(dòng),狀態(tài)維度是111維。

根據(jù)Ant-v2環(huán)境所給定的獎(jiǎng)勵(lì)函數(shù)可知,智能體傾向于選擇在X軸方向上移動(dòng)快的動(dòng)作。為了消除獎(jiǎng)勵(lì)函數(shù)對(duì)智能體移動(dòng)方向的影響,本文設(shè)計(jì)了新的獎(jiǎng)勵(lì)函數(shù),使機(jī)器人可以朝著任何方向移動(dòng),即機(jī)器人在任何方向上移動(dòng)時(shí)均可獲得獎(jiǎng)勵(lì),具體如下:

其中:pt=(xt,yt)表示t時(shí)刻智能體的位置;dt表示智能體從位置pt移動(dòng)到pt+1花費(fèi)的時(shí)間。在此任務(wù)中,智能體能夠朝著任意的方向移動(dòng),動(dòng)作選擇不受外界因素的控制。

3.2.2 比較算法

本節(jié)實(shí)驗(yàn)所比較的模型與3.1節(jié)實(shí)驗(yàn)相同,比較了PPO和InfoRL-PPO以及Intention-PPO。

3.2.3 實(shí)驗(yàn)設(shè)計(jì)

本實(shí)驗(yàn)中,路徑長(zhǎng)度為1 024,熵的正則化系數(shù)λ=0.02,值函數(shù)的損失系數(shù)為η=0.05,折扣因子γ=0.99,截?cái)嘞禂?shù)ε=0.2。實(shí)驗(yàn)在16個(gè)環(huán)境下并行運(yùn)行,采用Adam進(jìn)行優(yōu)化,學(xué)習(xí)率α=0.02。策略模型和G網(wǎng)絡(luò)的設(shè)置與3.1節(jié)相同。本次實(shí)驗(yàn)中意圖變量從[0,10]隨機(jī)抽樣而不是從[0,1],因?yàn)锳nt-v2環(huán)境的狀態(tài)維度是111維,意圖變量的值太小,很難通過(guò)互信息最大化與動(dòng)作產(chǎn)生關(guān)聯(lián)。

本實(shí)驗(yàn)除了驗(yàn)證策略的性能之外,還需要驗(yàn)證意圖變量與機(jī)器人移動(dòng)角度的關(guān)系,即給定策略不同的意圖值,觀測(cè)機(jī)器人移動(dòng)角度變化。

3.2.4 結(jié)果分析

PPO、InfoRL-PPO、Intention-PPO訓(xùn)練的策略獲得的平均累積獎(jiǎng)勵(lì)值隨著迭代次數(shù)的變化曲線如圖9所示。

從圖9中三條曲線的變化可以看出,Intention-PPO的性能要優(yōu)于PPO和InfoRL-PPO,但是由于需要通過(guò)互信息最大化令意圖變量與動(dòng)作產(chǎn)生聯(lián)系,所以Intention-PPO在初始階段收斂速度慢。

為了測(cè)試意圖變量與智能體移動(dòng)角度的關(guān)系,本文從[0,10]均勻采樣,用訓(xùn)練好的Intention-PPO模型與環(huán)境互動(dòng),每個(gè)意圖變量生成10條長(zhǎng)度為1 024的路徑。根據(jù)收集的路徑計(jì)算機(jī)器人在不同意圖變量控制下行為軌跡與X軸的角度均值,如圖10所示。

圖10表明隨著意圖變量的增大,機(jī)器人移動(dòng)的角度也隨之增大。這說(shuō)明即使在更高維的狀態(tài)環(huán)境中,通過(guò)意圖變量與動(dòng)作的互信息最大化也會(huì)讓意圖變量與動(dòng)作產(chǎn)生聯(lián)系,在意圖變量的控制下,智能體會(huì)傾向于選擇與移動(dòng)方向有關(guān)的動(dòng)作。本實(shí)驗(yàn)中,意圖變量控制的是機(jī)器人的移動(dòng)方向,當(dāng)策略模型選擇數(shù)值大的意圖變量時(shí),機(jī)器人會(huì)選擇朝著與X軸角度大方向移動(dòng);當(dāng)策略模型選擇數(shù)值小的意圖變量時(shí),機(jī)器人會(huì)朝著與X軸角度小的方向移動(dòng)。為了更方便觀察意圖與移動(dòng)角度的關(guān)系,本文繪制了機(jī)器人在不同意圖變量控制下的移動(dòng)軌跡,結(jié)果如圖11所示。通過(guò)比較在不同意圖變量控制下機(jī)器人移動(dòng)軌跡,能夠更直觀地看出,隨著意圖變量的增大,機(jī)器人的移動(dòng)方向與X軸的角度也增大了。

上述實(shí)驗(yàn)結(jié)果表明,本文方法能夠通過(guò)意圖變量控制智能體的動(dòng)作選擇。

4 結(jié)束語(yǔ)

本文針對(duì)深度強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中智能體難以有效控制的問(wèn)題,提出了一種基于互信息最大化的意圖強(qiáng)化學(xué)習(xí)方法。該方法能夠通過(guò)意圖變量,控制智能體的動(dòng)作選擇。所提方法通過(guò)重新定義強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù),規(guī)避了額外的內(nèi)在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)問(wèn)題,并通過(guò)變分思想避免了復(fù)雜度高的計(jì)算推斷過(guò)程,提高了算法實(shí)用性。當(dāng)環(huán)境任務(wù)更改時(shí),所提方法可以通過(guò)更改意圖變量的值更改策略的動(dòng)作選擇,模型泛化能力強(qiáng)。另外,在高維動(dòng)作、狀態(tài)環(huán)境中,本文方法仍然可以利用互信息最大化訓(xùn)練意圖變量與動(dòng)作的相關(guān)性,算法適應(yīng)性強(qiáng)。

目前,在不同的任務(wù)中意圖信息的物理解釋需要通過(guò)改變意圖值觀察智能體的一系列特征去發(fā)現(xiàn),并且在實(shí)驗(yàn)中意圖值的設(shè)定是以路徑為單位。在未來(lái)工作中,將研究如何讓智能體自己去尋找每個(gè)狀態(tài)對(duì)應(yīng)的意圖信息,從而在不同任務(wù)中根據(jù)當(dāng)前情況自適應(yīng)地調(diào)整意圖值,期望通過(guò)這種方式加快智能體的學(xué)習(xí)速度及環(huán)境適應(yīng)能力。

綜上,本文方法能夠通過(guò)意圖變量控制智能體的動(dòng)作選擇,有效解決在實(shí)際應(yīng)用中,智能體動(dòng)作選擇不規(guī)范,難以完成預(yù)期目標(biāo)的問(wèn)題。所提算法能夠讓智能體選擇與意圖變量相關(guān)的動(dòng)作,從而高效完成指定任務(wù)。

參考文獻(xiàn):

[1]Sutton R S.Learning to predict by the methods of temporal differences[J].Machine Learning,1988,3(1):9-44.

[2]何立,沈亮,李輝,等.強(qiáng)化學(xué)習(xí)中的策略重用:研究進(jìn)展[J].系統(tǒng)工程與電子技術(shù),2022,44(3):884-899.(He Li,Shen Liang,Li Hui,et al.The policy reuse in reinforcement learning:research progress[J].Systems Engineering and Electronics,2022,44(3):884-899.)

[3]孔松濤,劉池池,史勇,等.深度強(qiáng)化學(xué)習(xí)在智能制造中的應(yīng)用展望綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(2):49-59.(Kong Songtao,Liu Chichi,Shi Yong,et al.A survey on the application of deep reinforcement learning in intelligent manufacturing[J].Computer Engineering and Applications,2021,57(2):49-59.)

[4]Ibarz J,Tan J,F(xiàn)inn C,et al.How to train your robot with deep reinforcement learning:lessons we have learned[J].The International Journal of Robotics Research,2021,40(4-5):698-721.

[5]Rajeswaran A,Mordatch I,Kumar V.A game theoretic framework for model based reinforcement learning[EB/OL].(2020).https://arxiv.org/abs/2004.07804.

[6]Yang Yaodong,Wang Jun.An overview of multi-agent reinforcement learning from game theoretical perspective[EB/OL].(2020).https://arxiv.org/abs/2011.00583.

[7]Goldwaser A,Thielscher M.Deep reinforcement learning for general game playing[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.2020:1701-1708.

[8]Naeem M,Rizvi S T H,Coronato A.A gentle introduction to reinforcement learning and its application in different fields[J].IEEE Access,2020,8:209320-209344.

[9]Liu Quan,Zhai Jianwei,Zhang Zongzhang,et al.A survey on deep reinforcement learning[J].Chinese Journal of Computers,2018,41(1):1-27.

[10]Liu Jianwei,Gao Feng,Luo Xionglin.Survey of deep reinforcement learning based on value function and policy gradient[J].Chinese Journal of Computers,2019,42(6):1406-1438.

[11]Konda V,Tsitsiklis J.Actor-critic algorithms[J].Neural Information Processing Systems,1999,12:1008-1014.

[12]Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:a survey[J].Artificial Intelligence Research,1996,4:237-285.

[13]Tesauro G.TD-gammon,a self-teaching backgammon program,achieves master level play[J].Neural Computation,1994,6(2):215-219.

[14]Sutton R S,McAllester D,Singh S,et al.Policy gradient methods for reinforcement learning with function approximation[M]//Solla S,Leen T,Miiller K.Advances in Neural Information Processing Systems.[S.l.]:MIT Press,1999:1057-1063.

[15]Ng A Y,Jordan M I.PEGASUS:a policy search method for large MDPs and POMDPs[EB/OL].(2013).https://arxiv.org/abs/1301.3878.

[16]Ha D,Schmidhuber J.World models[EB/OL].(2018).https://arxiv.org/abs/1803.10122.

[17]Lopes M,Lang T,Toussaint M,et al.Exploration in model-based reinforcement learning by empirically estimating learning progress[C]//Proc of the 25th International Conference on Neural Information Processing Systems.2012:206-214.

[18]Still S,Precup D.An information-theoretic approach to curiosity-driven reinforcement learning[J].Theory in Biosciences,2012,131(3):139-148.

[19]劉朝陽(yáng),穆朝絮,孫長(zhǎng)銀.深度強(qiáng)化學(xué)習(xí)算法與應(yīng)用研究現(xiàn)狀綜述[J].智能科學(xué)與技術(shù)學(xué)報(bào),2020,2(4):314-326.(Liu Chaoyang,Mu Chaoxu,Sun Changyin.A survey of deep reinforcement learning algorithm and its application[J].Chinese Journal of Intelligent Science and Technology,2022,2(4):314-326.)

[20]Ziebart B D,Maas A,Bagnell J A,et al.Maximum entropy inverse reinforcement learning[C]//Proc of the 23rd National Conference on Artificial Intelligence.2008:1433-1438.

[21]Chen Xi,Duan Yan,Houthooft R,et al.InfoGAN:interpretable representation learning by information maximizing generative adversarial nets[C]//Proc of the 30th International Conference on Neural Information Processing Systems.2016:2180-2188.

[22]Todorov E,Erez T,Tassa Y.Mujoco:a physics engine for model-based control[C]//Proc of IEEE IROS.Piscataway,NJ:IEEE Press,2012:5026-5033.

[23]Oudeyer P Y,Kaplan F.What is intrinsic motivation?A typology of computational approaches[J].Frontiers in Neurorobotics,2007,1:6.

[24]魯成祥.基于動(dòng)機(jī)的強(qiáng)化學(xué)習(xí)及其應(yīng)用研究[D].曲阜:曲阜師范大學(xué),2016.(Lu Chengxiang.Motivation based reinforcement lear-ning and its application[D].Qufu:Qufu Normal University,2016.)

[25]Bougie N,Ichise R.Skill-based curiosity for intrinsically motivated reinforcement learning[J].Machine Learning,2020,109(3):493-512.

[26]Li Jing,Shi Xinxin,Li Jiehao,et al.Random curiosity-driven exploration in deep reinforcement learning[J].Neuro Computing,2020,418:139-147.

[27]Han Ruijian,Chen Kani,Tan Chunxi.Curiosity-driven recommendation strategy for adaptive learning via deep reinforcement learning[J].British Journal of Mathematical and Statistical Psychology,2020,73(3):522-540.

[28]Hayat A,Singh U,Namboodiri V P.InfoRL:interpretable reinforcement learning using information maximization[EB/OL].(2019).https://arxiv.org/abs/1905.10404.

[29]Oudeyer P Y,Kaplan F,Hafner V V.Intrinsic motivation systems for autonomous mental development[J].IEEE Trans on Evolutionary Computation,2007,11(2):265-286.

[30]Jaynes E T.Information theory and statistical mechanics[J].Physical Review,1957,106(4):620.

[31]Linsker R.Self-organization in a perceptual network[J].IEEE Computer,1988,21(3):105-117.

[32]Kim W,Jung W,Cho M,et al.A maximum mutual information framework for multi-agent reinforcement learning[EB/OL].(2020).https://arxiv.org/abs/2006.02732.

[33]Zhao Rui,Gao Yang.Mutual information-based state-control for intrinsically motivated reinforcement learning[EB/OL].(2020).https://arxiv.org/abs/2002.01963.

[34]Schulman J,Wolski F,Dhariwal P,et al.Proximal policy optimization algorithms[EB/OL].(2017).https://arxiv.org/abs/1707.06347.

[35]Kinney J B,Atwal G S.Equitability,mutual information,and the maximal information coefficient[J].Proceedings of the National Academy of Sciences,2014,111(9):3354-3359.

[36]Metropolis N,Ulam S.The Monte Carlo method[J].Journal of the American Statistical Association,1949,44(247):335-341.

[37]Kingma D P,Ba J.Adam:a method for stochastic optimization[EB/OL].(2014).https://arxiv.org/abs/1412.6980.

主站蜘蛛池模板: 亚洲无码免费黄色网址| 高h视频在线| 4虎影视国产在线观看精品| 日本一区二区三区精品国产| 欧美区国产区| 欧美五月婷婷| 久久久久亚洲av成人网人人软件| 男人天堂伊人网| 久久9966精品国产免费| 欧美亚洲国产视频| 久久久久亚洲AV成人人电影软件| 在线精品亚洲一区二区古装| 国产不卡国语在线| 国产精品久久久久久影院| 日本人又色又爽的视频| 色屁屁一区二区三区视频国产| 欧美综合中文字幕久久| 伊人婷婷色香五月综合缴缴情| 日本福利视频网站| 久久这里只有精品2| 精品久久777| 欧美不卡在线视频| 午夜小视频在线| 国产原创第一页在线观看| 香蕉色综合| 中文字幕永久在线看| 麻豆a级片| 午夜视频在线观看区二区| 久久婷婷六月| 91精品伊人久久大香线蕉| 久久久久久尹人网香蕉| 国产人人干| 2021国产v亚洲v天堂无码| 日韩人妻精品一区| 国产精品性| 亚洲床戏一区| 国产在线精品99一区不卡| 精品亚洲麻豆1区2区3区| 欧美五月婷婷| 国产微拍一区| jizz在线免费播放| 狂欢视频在线观看不卡| 国产成人午夜福利免费无码r| 久久国产亚洲偷自| 欧美天堂久久| 人妻中文字幕无码久久一区| 精品無碼一區在線觀看 | 亚洲男女天堂| 成年免费在线观看| 欧美成人aⅴ| 国产精品三级专区| 国产成人综合网| 亚洲欧美日韩另类在线一| 日韩高清在线观看不卡一区二区| 无码精品一区二区久久久| 色综合综合网| 欧美人与性动交a欧美精品| 免费在线不卡视频| 亚洲美女高潮久久久久久久| 日本欧美一二三区色视频| 欧美一区二区啪啪| 久久96热在精品国产高清| 日韩欧美国产另类| 久久综合结合久久狠狠狠97色| 98超碰在线观看| 色视频久久| 精品视频福利| 91成人试看福利体验区| 亚洲国产精品日韩av专区| 亚洲欧洲日韩久久狠狠爱| 久久久久青草大香线综合精品| 国产不卡国语在线| 一级片免费网站| 色网站免费在线观看| 国产内射一区亚洲| 高清精品美女在线播放| 91人妻日韩人妻无码专区精品| 国产av剧情无码精品色午夜| 国产精品男人的天堂| 精品久久久久成人码免费动漫| 国产呦视频免费视频在线观看| 欧美亚洲激情|