






摘要:調(diào)頭任務(wù)是自動駕駛研究的內(nèi)容之一,大多數(shù)在城市規(guī)范道路下的方案無法在非規(guī)范道路上實施。針對這一問題,建立了一種車輛掉頭動力學(xué)模型,并設(shè)計了一種多尺度卷積神經(jīng)網(wǎng)絡(luò)提取特征圖作為智能體的輸入。另外還針對調(diào)頭任務(wù)中的稀疏獎勵問題,結(jié)合分層強化學(xué)習(xí)和近端策略優(yōu)化算法提出了分層近端策略優(yōu)化算法。在簡單和復(fù)雜場景的實驗中,該算法相比于其他算法能夠更快地學(xué)習(xí)到策略,并且具有更高的掉頭成功率。
關(guān)鍵詞:分層強化學(xué)習(xí);汽車掉頭;稀疏獎勵;近端策略優(yōu)化
中圖分類號:TP181文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2022)10-019-3008-05
doi:10.19734/j.issn.1001-3695.2022.03.0127
Research on autonomous vehicle U-turn problem based on hierarchical reinforcement learning
Cao Jie,Shao Zixuan,Hou Liang
(Dept.of Computer amp; Communication,Lanzhou University of Technology,Lanzhou 730050,China)
Abstract:The U-turn task is one of the contents of autonomous driving research,and most of the solutions under the standard roads in cities cannot be implemented on non-standard roads.Aiming at solving this problem,this paper established a vehicle U-turn dynamical model and designed a multi-scale convolutional neural network to extract feature maps as the input of the agent.In addition,for the sparse reward problem in the U-turn task,this paper proposed a hierarchical proximal policy optimization algorithm that combined hierarchical reinforcement learning and proximal policy optimization algorithm.In experiments with simple and complex scena-rios,this algorithm learns policies faster and has a higher success rate of U-turn compared to other algorithms.
Key words:hierarchical reinforcement learning;car U-turn;sparse rewards;proximal policy optimization
0引言
隨著經(jīng)濟不斷發(fā)展,人們對自動駕駛車輛的要求也逐步提高。現(xiàn)有的自動駕駛車輛已經(jīng)能夠在城市道路和高速公路上行駛,它通過地圖數(shù)據(jù)與全球定位系統(tǒng)(global positioning system,GPS)定位信號或者車載攝像頭來獲取車輛位置,通過識別道路上的路面標(biāo)記、交通標(biāo)志以及交通信號燈來作出正確的決策。但在一些地下停車場、小區(qū)車道等路況復(fù)雜的空間場景,GPS信號較弱,同時缺乏路面標(biāo)記以及交通輔助信息,自動駕駛車輛往往難以應(yīng)對此類場景。傳統(tǒng)的自動駕駛系統(tǒng)[1~3]在設(shè)計過程中被分解為多個子系統(tǒng),通過子系統(tǒng)之間的相互配合來完成自動駕駛?cè)蝿?wù),并在一些復(fù)雜場景中設(shè)計大量的子模塊輔助車輛進(jìn)行自動駕駛,這樣的設(shè)計使得自動駕駛技術(shù)非常復(fù)雜,維護(hù)成本高昂。近些年,人工智能技術(shù)[4~6]發(fā)展迅猛,尤其是強化學(xué)習(xí)[7~13]展現(xiàn)出了巨大的潛力。強化學(xué)習(xí)分為基于模型的強化學(xué)習(xí)方法[7,8]和無模型的強化學(xué)習(xí)方法[9~12]。它是一種學(xué)習(xí)、預(yù)測、決策的方法框架,也是一種致力于實現(xiàn)通用智能解決復(fù)雜問題的方式。但是傳統(tǒng)的強化學(xué)習(xí)方法在一些獎勵稀疏[14~17]問題上表現(xiàn)較差,針對該問題,一些研究人員提出使用分層強化學(xué)習(xí)[17~20]的方法來解決。
強化學(xué)習(xí)在自動駕駛領(lǐng)域也有大量的應(yīng)用[21~25],在駕駛車輛的過程中,駕駛員需要時刻注意車輛周圍的環(huán)境情況,不斷根據(jù)周圍環(huán)境的變化作出決策,而深度強化學(xué)習(xí)技術(shù)能解決端到端的感知與決策問題,越來越多的學(xué)者開始將深度強化學(xué)習(xí)應(yīng)用到自動駕駛領(lǐng)域。
Li等人[21]為尋找具有風(fēng)險意識且能夠使得風(fēng)險最小的自動駕駛決策策略,提出了一種基于深度強化學(xué)習(xí)的變道決策框架。Peng等人[22]通過給十字路口的一部分自動駕駛車輛設(shè)計一個利他的獎勵功能,來提高整個交叉路口的通行效率。Wang等人[23]基于強化學(xué)習(xí)的端到端自動駕駛模型提出了一種異步監(jiān)督學(xué)習(xí)方法,以解決在真實環(huán)境中訓(xùn)練該模型的初始性能較差的問題。Kim等人[24]利用強化學(xué)習(xí)對現(xiàn)有的自動駕駛模型進(jìn)行了修正和改進(jìn),提出了一種自動駕駛預(yù)測模型,減少了訓(xùn)練時間并提高了駕駛表現(xiàn)。Kendall等人[26]首次演示了深度強化學(xué)習(xí)在自動駕駛中的應(yīng)用,他們的模型能夠使用單一的單眼圖像作為輸入,在少量的訓(xùn)練集中學(xué)習(xí)車道跟隨策略。相比于傳統(tǒng)的自動駕駛技術(shù),深度強化學(xué)習(xí)技術(shù)不用設(shè)計繁多的任務(wù)模塊,可以模擬人的駕駛行為,從端到端解決自動駕駛問題。但自動駕駛車輛應(yīng)當(dāng)能夠應(yīng)對生活中出現(xiàn)的各類場景,能夠在各種情況下完成自動駕駛?cè)蝿?wù)。除了高速公路以及城市道路,自動駕駛車輛也應(yīng)當(dāng)能夠在一些不規(guī)范道路,如小區(qū)車道、停車場車道等道路上進(jìn)行自動駕駛。目前城市道路場景(如提高十字路口通行效率、超車、跟車等行為)以及高速公路場景的自動駕駛已經(jīng)存在比較多的研究,然而在其他場景下,自動駕駛?cè)蝿?wù)仍需要作出一些工作,比如在此類道路進(jìn)行一些掉頭、轉(zhuǎn)彎等行為。當(dāng)在此類地區(qū)進(jìn)行自動駕駛時,可以使用車輛傳感器對道路環(huán)境進(jìn)行觀測,然后通過車載計算機計算出最佳行進(jìn)路線,最后車輛根據(jù)車載計算機規(guī)劃出來的路線完成自動駕駛?cè)蝿?wù)。
本文使用深度強化學(xué)習(xí)技術(shù),針對一些缺乏自動駕駛輔助信息的場景,建立了馬爾可夫決策過程(Markov decision process,MDP)模型,提出了一種自動駕駛車輛在不規(guī)范車道下的掉頭方法。考慮到車載攝像頭難以應(yīng)對全天候工作,視頻圖像信息容易受到對抗樣本的攻擊等問題[27,28],因此采用激光雷達(dá)傳感器進(jìn)行采集信息作為輸入。
本文主要的貢獻(xiàn)點在于:
a)本文提出一個在不規(guī)則車道場景下的車輛掉頭MDP模型,用做不規(guī)范道路下的自動駕駛?cè)蝿?wù)。
b)一種多尺度融合卷積神經(jīng)網(wǎng)絡(luò)被用做提取狀態(tài)值特征的任務(wù),取得了很好的效果。
c)針對車輛調(diào)頭任務(wù)獎勵問題提出一種分層近端策略優(yōu)化算法(hierarchical proximal policy optimization,HPPO),其效果在簡單與復(fù)雜場景中得到驗證。
1強化學(xué)習(xí)
為了更好地解決車輛掉頭問題,先將其抽象為馬爾可夫決策過程,然后使用強化學(xué)習(xí)的方法來解決這一問題。MDP包含的幾個重要元素為(S,A,R,γ),其中S代表環(huán)境狀態(tài),A代表智能體的動作,R代表環(huán)境的回報。一次完整的狀態(tài)轉(zhuǎn)換可以表示為:t時刻的環(huán)境狀態(tài)為st,在智能體執(zhí)行動作at后環(huán)境狀態(tài)轉(zhuǎn)變?yōu)閟t+1,同時環(huán)境反饋給智能體rt的獎勵,這一系列狀態(tài)、動作、獎勵的軌跡定義為τ,如式(1)所示。
τ=(s0,a0,r0,s1,a1,r1,…,s|T|,a|T|,r|T|)(1)
其中:|T|代表決策序列的長度。強化學(xué)習(xí)的最終目標(biāo)是通過智能體與環(huán)境不斷交互得到最大累計獎勵rtotal,如式(2)所示。
rtotal=∑|T|t=0rt(2)
在智能體與環(huán)境不斷交互的過程中,為了獲取最高獎勵,智能體通過學(xué)習(xí)選取價值最優(yōu)的策略(動作),可通過如Q價值函數(shù)表示,如式(3)所示。
Qπ(s,a)=Eπ{Gt|St=s,At=a}(3)
其中:Gt表示t時刻的狀態(tài)到達(dá)最終狀態(tài)的累計獎勵。Q值用于評判動作的好壞,狀態(tài)的好壞使用V值來評判,并且V價值函數(shù)可基于Q價值函數(shù)值來計算,如式(4)所示。
Vπ(s)=∑a∈Aπ(a|s)Qπ(s,a)(4)
其中:π(a|s)表示智能體的策略,即在狀態(tài)s下選擇動作a的概率。表演家—評論家(actor-critic)算法融合了基于價值的方法與基于策略的方法,它使用表演家(actor)網(wǎng)絡(luò)學(xué)習(xí)策略,又通過評論家(critic)網(wǎng)絡(luò)估計的價值函數(shù)進(jìn)行策略更新,解決了基于策略的方法的高方差問題,并且更容易處理連續(xù)行為。它是一種近似的策略梯度,其梯度計算如式(5)所示。
θJ(θ)≈Euclid Math TwoEApπθ[θlog πθ(s,a)Qω(s,a)](5)
其中:ω表示評論家網(wǎng)絡(luò)更新的動作值函數(shù);θ表示表演家網(wǎng)絡(luò)以評論家網(wǎng)絡(luò)所指導(dǎo)的方向更新策略參數(shù)。
近端策略優(yōu)化(proximal policy optimization,PPO)算法是基于表演家—評論家框架的算法,它在基于置信域的策略優(yōu)化(trust region policy optimization,TRPO)算法的基礎(chǔ)上進(jìn)行了改進(jìn),優(yōu)化了更新參數(shù)的方式。近端策略優(yōu)化算法采用階段代理目標(biāo)函數(shù)來控制策略的更新,它將新舊策略的比值限制在一個范圍內(nèi),通過控制這個范圍的大小來限制更新的幅度。近端策略優(yōu)化算法的目標(biāo)函數(shù)如式(6)所示。
JCLIP(θ~)=Euclid Math TwoEApst~ρπθ,at~πθ[min(kt(θ~),
clip(kt(θ~),1-ε,1+ε))AEuclid ExtrazBpθ(s,a)](6)
其中:ε是用于度量新策略與老策略之間偏差程度的超參數(shù);clip(kt(θ~),1-ε,1+ε)將重要性采樣權(quán)重限制在(1-ε,1+ε)內(nèi);kt(θ~)表示新舊策略的比值,如式(7)所示。
kt(θ~)=πθ(a,s)πθ-(a,s)(7)
但是單層結(jié)構(gòu)的強化學(xué)習(xí)算法在應(yīng)對一些獎勵稀疏的問題時,常常難以發(fā)揮出其優(yōu)越的性能。分層強化學(xué)習(xí)通過將問題分解為一組短期子問題來加速稀疏獎勵任務(wù)中的學(xué)習(xí)。分層表演家—評論家(hierarchical actor-critic,HAC)算法是第一個成功地在具有連續(xù)狀態(tài)和動作空間的任務(wù)中并行學(xué)習(xí)三級層次結(jié)構(gòu)的框架,它通過設(shè)計的三種轉(zhuǎn)換,并行訓(xùn)練多個層級。本文通過在馬爾可夫決策過程中增加一組目標(biāo)G,構(gòu)建了通用馬爾可夫決策過程(universal Markov decision process,UMDP),所以通用馬爾可夫決策過程包含的元素為(S,G,A,R,γ),其中G是目標(biāo)集合,它的Q值與V值計算如式(8)(9)所示。
Qπ(s,g,a)=Eπ[∑∞n=0γnRt+n+1|st=s,gt=g,at=a](8)
Vπ(s,g)=Eπ[∑∞n=0γnRt+n+1|st=s,gt=g](9)
其中:g∈G是整個回合的目標(biāo)。每一層級的狀態(tài)、動作集合以及最底層的動作空間均與原始空間相同,低一層智能體通過s×g→A來最大化價值函數(shù)。分層近端策略優(yōu)化算法采用分層表演家—評論家算法的框架,在分層機制的基礎(chǔ)上,利用近端策略優(yōu)化算法來更新表演家網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)。
2車輛掉頭動態(tài)模型建立
由于目前的自動駕駛算法訓(xùn)練平臺,如開放賽車模擬器(open racing car simulator,TORCS)、Air Sim、Carla等都無法自定義場景,且難以二次開發(fā)。所以解決自動駕駛車輛的掉頭問題,首先要針對場景建立模型與仿真環(huán)境,最后選用合適的強化學(xué)習(xí)算法進(jìn)行求解。模型選用車輛的位置與轉(zhuǎn)彎角度作為狀態(tài),選擇車輛的轉(zhuǎn)彎角度作為動作,車輛每一時刻的位置可根據(jù)上一時刻的位置計算得到。
xt+1=xt+∫v sin(θ+Δθ)dt
yt+1=yt+∫v cos(θ+Δθ)dt(10)
其中:Δθ表示動作執(zhí)行后,汽車轉(zhuǎn)彎角度的變化量。最后構(gòu)建獎勵函數(shù)R來建立車輛動力模型,獎勵函數(shù)如式(11)所示。
R=r=0車輛正常行駛
r=10-αAcount車輛成功掉頭
r=-10車輛觸碰邊界(11)
獎勵函數(shù)設(shè)計的好壞直接影響算法的收斂與否以及算法的收斂速度。由于仿真車輛在掉頭過程中所做的動作難以判定好壞,所以將仿真車輛行駛時刻的獎勵設(shè)置為0。當(dāng)仿真車輛觸碰邊界時,給智能體一個較大的負(fù)獎勵,促使其盡量避免觸碰邊界;當(dāng)仿真車輛成功掉頭時,給它一個正獎勵,并減去掉頭過程中使用的動作總數(shù)Acount與參數(shù)α的乘積,經(jīng)過反復(fù)實驗,最終取α為0.1。
將車輛的位置與轉(zhuǎn)彎角度信息進(jìn)行卷積操作后輸入特征提取網(wǎng)絡(luò),然后將狀態(tài)特征輸入智能體,智能體經(jīng)過處理后輸出動作信息給環(huán)境,然后環(huán)境給智能體反饋獎勵信號,模型原理如圖1所示。
本文針對所建立的模型構(gòu)建了虛擬仿真環(huán)境,地圖的大小設(shè)置為400×600,以左下角為原點,在這張地圖中,淺色部分是不可行駛區(qū)域,灰色部分是可行駛區(qū)域,黑色直線表示場景邊界。
設(shè)定車輛在掉頭過程中的速度是恒定的,車輛在掉頭過程中不能在不可行駛區(qū)域行駛。車輛掉頭仿真環(huán)境如圖2所示。
根據(jù)仿真環(huán)境的大小、形狀和車輛的動態(tài)特性,以及一個規(guī)則的車輛不能碰撞仿真環(huán)境的邊緣等因素,獎勵值的定義規(guī)則如下:
a)當(dāng)0+Llt;ylt;300-L,并且xlt;100+L,xgt;300-L時,表示車輛行駛到了不可行駛區(qū)域,此時r=-10,學(xué)習(xí)過程結(jié)束并重新開始。
b)當(dāng)300+Llt;ylt;600-L,并且xlt;0+L或xgt;400-L時,表示車輛撞到了地圖的左右邊界,此時r=-10,學(xué)習(xí)過程結(jié)束并重新開始。
c)當(dāng)0+Llt;xlt;400-L,并且ylt;0+L或ygt;600-L時,表示車輛撞到了地圖的上下邊界,此時r=-10,學(xué)習(xí)過程結(jié)束并重新開始。
d)當(dāng)0+Llt;ylt;100-L,并且100+Llt;xlt;300-L時,車輛到達(dá)目的地,r=10-αAcount。
e)其他情況,仿真車輛被認(rèn)為在模擬場景中行駛,r=0。
在建立第一個環(huán)境時,由于車輛可行駛區(qū)域較大,在訓(xùn)練過程中,仿真車輛不用倒車也可以實現(xiàn)掉頭行為,所以為了增加實驗難度,讓自動駕駛車輛能夠適應(yīng)更多的復(fù)雜環(huán)境,第二個實驗縮小了仿真車輛用于轉(zhuǎn)彎掉頭的可行駛區(qū)域,此時仿真車輛必須在轉(zhuǎn)彎過程中進(jìn)行倒車才能完成掉頭任務(wù),增加掉頭難度后的仿真環(huán)境如圖3所示。
環(huán)境改進(jìn)后,此時獎勵值的定義規(guī)則如下:
a)當(dāng)0+Llt;ylt;400-L,并且xlt;100+L,xgt;300-L時,表示車輛行駛到了不可行駛區(qū)域,此時r=-10,學(xué)習(xí)過程結(jié)束并重新開始。
b)當(dāng)400+Llt;ylt;600-L,并且xlt;0+L或xgt;400-L時,表示車輛撞到了地圖的左右邊界,此時r=-10,學(xué)習(xí)過程結(jié)束并重新開始。
c)當(dāng)0+Llt;xlt;400-L,并且ylt;0+L或ygt;600-L時,表示車輛撞到了地圖的上下邊界,此時r=-10,學(xué)習(xí)過程結(jié)束并重新開始。
d)當(dāng)0+Llt;ylt;100-L,并且100+Llt;xlt;300-L時,車輛到達(dá)目的地,r=10-αAcount。
e) 其他情況,車輛被認(rèn)為在模擬場景中行駛,r=0。
在強化學(xué)習(xí)中,獎勵函數(shù)對智能體的訓(xùn)練至關(guān)重要,其承擔(dān)了類似于監(jiān)督學(xué)習(xí)中數(shù)據(jù)標(biāo)簽的作用。一方面,由于剛開始訓(xùn)練時,智能體采用隨機策略,導(dǎo)致智能體獲取獎勵難度較大,所以剛開始訓(xùn)練智能體時得到的獎勵相對稀疏;另一方面,稀疏獎勵廣泛存在于一些強化學(xué)習(xí)任務(wù)之中。如在機械臂抓取任務(wù)中,機械臂要完成一系列復(fù)雜的動作才能成功抓取目標(biāo),獲得最終獎勵,中間任何一個動作導(dǎo)致實驗失敗都無法獲取最終獎勵,但除去導(dǎo)致機械臂抓取任務(wù)失敗的少部分動作外,該過程中的其他動作很難判定其好壞,也很難給與這些動作確定的獎勵;在飛行器導(dǎo)航任務(wù)中,只有當(dāng)飛行器成功到達(dá)指定位置或撞毀在障礙物上時才能獲得最終獎勵或懲罰,飛行過程中飛行器所做的一系列調(diào)整飛行姿勢的動作都很難設(shè)定獎勵;還有圍棋等強化學(xué)習(xí)任務(wù)都屬于稀疏獎勵問題,在使用深度強化學(xué)習(xí)解決實際問題時經(jīng)常面臨著該問題,它會大大降低算法的迭代速度,甚至?xí)?dǎo)致算法難以收斂。仿真環(huán)境中的獎勵示意圖如圖4所示。
在仿真環(huán)境中,淺灰色部分代表不可行使區(qū)域,灰色部分代表可行駛區(qū)域。在可行駛區(qū)域內(nèi)部,仿真車輛駛?cè)氚咨姆娇虼淼竭_(dá)目標(biāo)區(qū)域,此時獲得獎勵,虛線代表仿真環(huán)境的邊界,當(dāng)仿真車輛在行駛過程中碰到虛線,代表此回合訓(xùn)練失敗,此時獲得懲罰;在其他情況下,即仿真車輛行駛在灰色可行駛區(qū)域,未進(jìn)入目標(biāo)區(qū)域也未觸碰仿真環(huán)境邊界,獎勵為零。由獎勵示意圖可觀察到,沒有獎勵或懲罰狀態(tài)的數(shù)量要遠(yuǎn)遠(yuǎn)超過有獎勵狀態(tài)的數(shù)量,在實驗中,有確定獎勵的狀態(tài)非常稀疏。
3分層近端策略優(yōu)化算法
很多傳統(tǒng)的強化學(xué)習(xí)算法采用同策略的方式一邊與環(huán)境交互,一邊進(jìn)行學(xué)習(xí),這樣大大降低了智能體的學(xué)習(xí)速度。近端策略優(yōu)化算法通過重要性采樣將同策略改進(jìn)為異策略,提高了智能體的學(xué)習(xí)速度,重要性采樣公式如式(12)所示。
Ex~p[f(x)]=Ex~q[f(x)p(x)q(x)](12)
通過智能體與環(huán)境的交互可以得到軌跡τ,然后使用評論家網(wǎng)絡(luò)計算出優(yōu)勢函數(shù)G,用于評判所選動作相比于其他動作的優(yōu)勢,優(yōu)勢函數(shù)如式(13)所示。
Gt=rt+γrt+1+γ2rt+1+…+γNrt+N-vs(t)(13)
經(jīng)過反復(fù)實驗,將γ設(shè)置為0.9。在實驗中,智能體的網(wǎng)絡(luò)與優(yōu)勢網(wǎng)絡(luò)除了輸出層,其他部分都使用相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每個步驟的回報可按式(14)計算:
Rt=Gt+v(st)(14)
有了優(yōu)勢函數(shù),就可以使用梯度搜索來調(diào)整網(wǎng)絡(luò)參數(shù)θ,搜索的目的是將式(15)目標(biāo)函數(shù)J(θ)最大化。
J(θ)=min(pt(θ)Gt,clip(pt(θ),1-ε,1+ε)Gt)(15)
近端策略優(yōu)化算法網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
具有層次結(jié)構(gòu)的智能體能夠?qū)娀瘜W(xué)習(xí)問題分解成更小的子問題,具有加速學(xué)習(xí)的潛力,所以使用分層強化學(xué)習(xí)的思想來解決該問題。將智能體的控制分為高層與低層,高層智能體進(jìn)行低層智能體學(xué)習(xí)目標(biāo)的設(shè)定,它對多個時間步t執(zhí)行一次決策,高層智能體學(xué)習(xí)的動力是外部的稀疏獎勵;低層智能體通過學(xué)習(xí)完成高層智能體給定的目標(biāo),在每一時間步t作出決策,低層智能體的驅(qū)動力是內(nèi)部獎勵,如圖6所示。
智能體的高層與低層都是由近端策略優(yōu)化算法組成,高層智能體觀測原始狀態(tài),通過計算價值函數(shù)Q2=(st,gt;θ2)來最大化外部獎勵,低層智能體中的表演家網(wǎng)絡(luò)接受狀態(tài)與當(dāng)前目標(biāo),通過計算價值函數(shù)Q1=(st,at;θ1,gt)來求解預(yù)測目標(biāo),當(dāng)且僅當(dāng)目標(biāo)達(dá)成時,評論家網(wǎng)絡(luò)才會給出正向激勵。
當(dāng)每一回合結(jié)束,或目標(biāo)g達(dá)成時,低層智能體表演家網(wǎng)絡(luò)停止,然后高層智能體選擇一個新的g,重復(fù)該過程。使用深度學(xué)習(xí)框架為高層智能體與低層智能體學(xué)習(xí)策略,使用式(16)來估計低層智能體的Q函數(shù)。
Q*1(s,a,g)=maxπag E[∑∞t′=tγt′-trt′|st=s,at=a,gt=g,πag](16)
在高層智能體的策略里面,g是智能體在狀態(tài)s與策略πag下的目標(biāo),同樣用式(17)來估計高層智能體的Q函數(shù)。
Q*2(s,g)=maxπg(shù)E[∑t+Nt′=tft′+γ maxg′Q*2(st+N,g′)|st=s,gt=g,πg(shù)](17)
其中:N代表低層智能體到達(dá)當(dāng)前目標(biāo)所使用的時間步;g′表示在狀態(tài)st+N時智能體的目標(biāo);πg(shù)是當(dāng)前策略的目標(biāo)。
使用參數(shù)為θ的非線性函數(shù)近似表示Q*=(s,g)≈Q(s,g;θ),Q1、Q2可以通過最小化其損失函數(shù)L1(θ1)與L2(θ2)得到,Q1的損失函數(shù)可以使用式(18)表示:
L1(θ1,i)=E(s,a,g,r,s′)~(y1,i-Q1(s,a;θ1,i,g))2(18)
其中:i代表訓(xùn)練迭代數(shù);θ1,i-1在上一次迭代中保持固定;y1,i表示通過上一狀態(tài)以及其目標(biāo)得到的Q值。損失函數(shù)L2的原理與上式相同。在訓(xùn)練過程中,智能體首先與環(huán)境進(jìn)行交互采集軌跡數(shù)據(jù),并將交互得到的軌跡數(shù)據(jù)存儲在經(jīng)驗池中,等存儲了足夠的數(shù)據(jù)后,智能體開始在經(jīng)驗池中隨機抽取一定量的數(shù)據(jù)一邊交互一邊學(xué)習(xí),表演家網(wǎng)絡(luò)進(jìn)行策略的更新,評論家網(wǎng)絡(luò)進(jìn)行價值的更新,更新過程如圖7所示。
4實驗
在真實環(huán)境中,當(dāng)可掉頭區(qū)域較大時,車輛通過在前進(jìn)過程中多次旋轉(zhuǎn)方向盤調(diào)整車身的位置,從而完成掉頭任務(wù),這對應(yīng)場景1。但在可掉頭區(qū)域較小時,車輛需要通過增加倒車行為來完成轉(zhuǎn)彎過程,這對應(yīng)場景2。
4.1參數(shù)設(shè)定
在實際情況中,由于車載攝像機的一部分局限性,實驗選擇使用激光雷達(dá)來探測掉頭過程中車輛在環(huán)境中的位置以及車輛在環(huán)境中的姿勢。按照實際的比例,在實驗的仿真環(huán)境中建立一個車寬40、車長60的仿真車輛。然后在仿真車輛的正前方、正后方、正左方、正右方設(shè)置四個仿真雷達(dá),通過它們探測的數(shù)據(jù)計算車輛在仿真環(huán)境的坐標(biāo)與車輛的轉(zhuǎn)彎角度,在實驗中,使用這兩個量作為智能體的狀態(tài)。一般的小型車輛最大轉(zhuǎn)彎角度都在45°左右,將汽車轉(zhuǎn)彎角度離散化為五個選項,每個選項為18°,使用其作為智能體的動作。
在場景1中,由于可用于仿真車輛掉頭的車輛可行駛區(qū)域較大,所以車輛能夠在不倒車的情況下使用轉(zhuǎn)彎動作完成掉頭。但在場景2中,由于實驗縮小了仿真車輛在轉(zhuǎn)彎過程中的車輛可行駛區(qū)域,車輛無法僅通過前進(jìn)完成掉頭任務(wù),所以針對第2個場景,實驗2在實驗1的基礎(chǔ)上又增加了五個倒車動作,分別對應(yīng)前五個角度的反方向。
在仿真環(huán)境中,實驗通過仿真車輛的雷達(dá)獲得車輛位置,以及車輛的旋轉(zhuǎn)角度,將其作為算法的輸入,然后輸出車輛在下一時刻的旋轉(zhuǎn)角度,在反復(fù)進(jìn)行多次實驗后,取γ為0.9,此時算法能獲得相對較高的獎勵。實驗中模型的參數(shù)如表1所示。表1中,仿真車輛在仿真環(huán)境中的坐標(biāo)用(x,y)表示,它包含在仿真環(huán)境Dxy中,仿真車輛在仿真環(huán)境中的車身姿勢用θ表示,它的范圍包含在前進(jìn)動作空間As與倒車動作空間Ab中。MDP參數(shù)如表1所示。
4.2實驗
實驗采用了HAC、PPO、AC、DQN與本文HPPO來測試車輛在初始角度不同時能否訓(xùn)練有效的轉(zhuǎn)彎策略,實驗結(jié)果如圖8所示,橫坐標(biāo)為訓(xùn)練回合數(shù),縱坐標(biāo)為累計獎勵。
從結(jié)果可以看出,在場景1中,由于實驗難度較低,使用分層結(jié)構(gòu)的HPPO算法能夠在5 000回合左右實現(xiàn)調(diào)頭任務(wù),同樣具有分層結(jié)構(gòu)的HAC算法也在10 000回合左右的時候?qū)崿F(xiàn)了調(diào)頭任務(wù)。其他三種算法在20 000回合都無法達(dá)到目標(biāo)。
使用分層思想改進(jìn)的HPPO算法相比于其他算法,不僅能夠收斂,而且能夠以較快的速度進(jìn)行收斂,這表明了在所有算法中,HPPO具有較好的性能。為了避免偶然性因素,訓(xùn)練好的智能體在進(jìn)行50次仿真后成功掉頭的幾率以及平均累計回報如表2所示。
在場景2中,為了增加掉頭的難度,減少了仿真車輛在仿真環(huán)境的可行駛區(qū)域,在該場景下各個算法的表現(xiàn)如圖9所示。
從結(jié)果可以看出,隨著訓(xùn)練的不斷進(jìn)行,非分層機制的算法得到的平均獎勵在-9左右,始終無法得到更高的獎勵。但相比于傳統(tǒng)算法,HPPO算法能夠獲得的獎勵在不斷增加,這說明智能體很好地學(xué)習(xí)了駕駛技能,也表示HPPO算法能夠使車輛更加快速安全地完成轉(zhuǎn)彎任務(wù)。
同樣地,為了避免偶然性因素,訓(xùn)練好的智能體在復(fù)雜環(huán)境下進(jìn)行50次仿真后成功掉頭的幾率以及平均累計回報如表3所示。
4.3討論
經(jīng)過訓(xùn)練后的智能體完全掌握了自動駕駛車輛的掉頭任務(wù),且都能在兩種掉頭場景使用較少的動作成功掉頭,自動駕駛車輛的掉頭軌跡如圖10所示。
如圖10左圖所示,在場景1中,由于仿真車輛的轉(zhuǎn)彎區(qū)域較大,所以在訓(xùn)練完成后,車輛僅使用前進(jìn)轉(zhuǎn)彎動作就完成了掉頭任務(wù);如圖10右圖所示,相比左圖場景1中的仿真車輛行駛軌跡,場景2的仿真車輛行駛軌跡明顯更為復(fù)雜。這是因為場景2縮小了仿真車輛的轉(zhuǎn)彎區(qū)域,導(dǎo)致轉(zhuǎn)彎難度變大,所以在訓(xùn)練完成后,仿真車輛除了使用前進(jìn)轉(zhuǎn)彎動作以外,還使用了倒車動作,學(xué)習(xí)了更多回合才完成了掉頭任務(wù)。如圖10所示,仿真車輛的軌跡中實心圓形所在的點表示仿真車輛的掉頭起點,實心五角星所在的點表示仿真車輛的掉頭終點。
5結(jié)束語
本文針對自動駕駛車輛的掉頭問題,首先建立了一個適用于強化學(xué)習(xí)的馬爾可夫決策過程模型,根據(jù)實際情形下的車輛掉頭問題,設(shè)計了兩個場景;然后針對該模型出現(xiàn)的稀疏獎勵問題采用分層的思想進(jìn)行解決,提出了一個分層近端策略優(yōu)化算法,設(shè)計了合理的獎勵函數(shù)。實驗證明,相比于其他傳統(tǒng)的強化學(xué)習(xí)算法,改進(jìn)后的算法能夠在車輛掉頭時為車輛設(shè)計更安全快速的掉頭策略。
在未來的工作中,考慮自動駕駛汽車其他的小場景問題,旨在適用于更多的場景。
參考文獻(xiàn):
[1]Badue C,Guidolini R,Carneiro R V,et al.Self-driving cars:a survey[EB/OL].(2019-10-02).https://arxiv.org/abs/1901.04407.
[2]Qian Lilin,F(xiàn)u Hao,Li Xiaohui,et al.Toward autonomous driving in highway and urban environment:HQ3 and IVFC 2017[C]//Proc of IEEE Intelligent Vehicles Symposium.Piscataway,NJ:IEEE Press,2018:1854-1859.
[3]Paden B,Cˇáp M,Yong S Z,et al.A survey of motion planning and control techniques for self-driving urban vehicles[J].IEEE Trans on Intelligent Vehicles,2016,1(1):33-55.
[4]Russell S,Norvig P.Artificial intelligence:a modern approach[M].[S.l.]:Pearson,1995.
[5]Schmidhuber J.Deep learning in neural networks:an overview[J].Neural Networks,2015,61:85-117.
[6]Sutton R,Barto A.Reinforcement learning:an introduction[M].[S.l.]:MIT press,1998.
[7]Gu Shixiang,Lillicrap T,Sutskever I,et al.Continuous deep Q-lear-ning with model-based acceleration[C]//Proc of International Confe-rence on Machine Learning.2016:2829-2838.
[8]Feinberg V,Wan A,Stoica I,et al.Model-based value estimation for efficient model-free reinforcement learning[EB/OL].(2018-02-28).https://arxiv.org/abs/1803.00101.
[9]Mnih V,Kavukcuoglu K,Silver D,et al.Playing atari with deep reinforcement learning[EB/OL].(2013-12-19).https://arxiv.org/abs/1312.5602.
[10]Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control through deep reinforcement learning[J].Nature,2015,518:529-533.
[11]Van Hasselt H,Guez A,Silver D.Deep reinforcement learning with double Q-learning[C]//Proc of the 30th AAAI Conference on Artificial Intelligence.2016:2094-2100.
[12]Schaul T,Quan J,Antonoglou I,et al.Prioritized experience replay[EB/OL].(2016-02-25).https://arxiv.org/abs/1511.05952.
[13]劉全,翟建偉,章宗長,等.深度強化學(xué)習(xí)綜述[J].計算機學(xué)報,2018,41(1):1-27.(Liu Quan,Zhai Jianwei,Zhang Zongzhang,et al.A review of deep reinforcement learning[J].Journal of Compu-ter Science,2018,41(1):1-27.)
[14]Chevtchenko S F,Ludermir T B.Combining STDP and binary networks for reinforcement learning from images and sparse rewards[J].Neural Networks,2021,144:496-506.
[15]Riedmiller M,Hafner R,Lampe T,et al.Learning by playing solving sparse reward tasks from scratch[C]//Proc of the 35th International Conference on Machine Learning.2018:4344-4353.
[16]Ren H,Ben-Tvi P.Advising reinforcement learning toward scaling agents in continuous control environments with sparse rewards[J].Engineering Applications of Artificial Intelligence,2020,90:103515.
[17]Jiang Nan,Jin Sheng,Zhang Changshui.Hierarchical automatic curri-culum learning:converting a sparse reward navigation task into dense reward[J].Neurocomputing,2019,360:265-278.
[18]Shen Chenyang,Chen Liyuan,Jia Xun.A hierarchical deep reinforcement learning framework for intelligent automatic treatment planning of prostate cancer intensity modulated radiation therapy[J].Physics in Medicine amp; Biology,2021,66(13):134002.
[19]Frans K,Ho J,Chen Xi,et al.Meta learning shared hierarchies[EB/OL].(2017-10-26).https://arxiv.org/abs/1710.09767.
[20]彭志平,李紹平.分層強化學(xué)習(xí)研究進(jìn)展[J].計算機應(yīng)用研究,2008,25(4):974-978.(Peng Zhiping,Li Shaoping.Research progress of hierarchical reinforcement learning[J].Application Research of Computers,2008,25(4):974-978.)
[21]Li Guofa,Yang Yifan,Li Shen,et al.Decision making of autonomous vehicles in lane change scenarios:deep reinforcement learning approaches with risk awareness[J].Transportation Research Part C:Emerging Technologies,2022,134:103452.
[22]Peng B,Keskin M F,Kulcsár B,et al.Connected autonomous vehicles for improving mixed traffic efficiency in unsignalized intersections with deep reinforcement learning[J].Communications in Transportation Research,2021,1:100017.
[23]Wang Yunpeng,Zheng Kunxian,Tian Daxin,et al.Pre-training with asynchronous supervised learning for reinforcement learning based autonomous driving[J].Frontiers of Information Technology amp; Electronic Engineering,2021,22:673-686.
[24]Kim J H,Huh J H,Jung S H,et al.A study on an enhanced autonomous driving simulation model based on reinforcement learning using a collision prevention model[J].Electronics,2021,10(18):2271.
[25]張明恒,呂新飛,萬星,等.基于WGAIL-DDPG(λ)的車輛自動駕駛決策模型[J].大連理工大學(xué)學(xué)報,2022,62(1):77-84.(Zhang Mingheng,Lyu Xinfei,Wan Xing,et al.Vehicle autonomous driving decision model based on WGAIL-DDPG(λ)[J].Journal of Dalian University of Technology,2022,62(1):77-84.)
[26]Kendall A,Hawke J,Janz D,et al.Learning to drive in a day[C]//Proc of International Conference on Robotics and Automation.Pisca-taway,NJ:IEEE Press,2019:8248-8254.
[27]Rasheed I,Hu Fei,Zhang Lin.Deep reinforcement learning approach for autonomous vehicle systems for maintaining security and safety using LSTM-GAN[J].Vehicular Communications,2020,26:100266.
[28]Deng Yao,Zhang Tiehua,Lou Guannan,et al.Deep learning-based autonomous driving systems:a survey of attacks and defenses[J].IEEE Trans on Industrial Informatics,2021,17(12):7897-7912.
收稿日期:2022-03-09;修回日期:2022-05-03
作者簡介:曹潔(1966-),女,安徽宿州人,教授,博導(dǎo),碩士,主要研究方向為人工智能;邵紫旋(1996-),男,甘肅平?jīng)鋈耍T士研究生,主要研究方向為強化學(xué)習(xí)、智能交通系統(tǒng);侯亮(1976-),男(通信作者),甘肅蘭州人,博士研究生,主要研究方向為智能信息處理、智能交通(zxuanshao@163.com).