基于分層強化學(xué)習(xí)的自動駕駛車輛掉頭問題研究

2022-12-31 00:00:00曹潔邵紫旋侯亮

計算機應(yīng)用研究 2022年10期

摘要：調(diào)頭任務(wù)是自動駕駛研究的內(nèi)容之一，大多數(shù)在城市規(guī)范道路下的方案無法在非規(guī)范道路上實施。針對這一問題，建立了一種車輛掉頭動力學(xué)模型，并設(shè)計了一種多尺度卷積神經(jīng)網(wǎng)絡(luò)提取特征圖作為智能體的輸入。另外還針對調(diào)頭任務(wù)中的稀疏獎勵問題，結(jié)合分層強化學(xué)習(xí)和近端策略優(yōu)化算法提出了分層近端策略優(yōu)化算法。在簡單和復(fù)雜場景的實驗中，該算法相比于其他算法能夠更快地學(xué)習(xí)到策略，并且具有更高的掉頭成功率。

關(guān)鍵詞：分層強化學(xué)習(xí)；汽車掉頭；稀疏獎勵；近端策略優(yōu)化

中圖分類號：TP181文獻(xiàn)標(biāo)志碼：A

文章編號：1001-3695（2022）10-019-3008-05

doi：10.19734/j.issn.1001-3695.2022.03.0127

Research on autonomous vehicle U-turn problem based on hierarchical reinforcement learning

Cao Jie，Shao Zixuan，Hou Liang

（Dept.of Computer amp; Communication，Lanzhou University of Technology，Lanzhou 730050，China）

Abstract：The U-turn task is one of the contents of autonomous driving research，and most of the solutions under the standard roads in cities cannot be implemented on non-standard roads.Aiming at solving this problem，this paper established a vehicle U-turn dynamical model and designed a multi-scale convolutional neural network to extract feature maps as the input of the agent.In addition，for the sparse reward problem in the U-turn task，this paper proposed a hierarchical proximal policy optimization algorithm that combined hierarchical reinforcement learning and proximal policy optimization algorithm.In experiments with simple and complex scena-rios，this algorithm learns policies faster and has a higher success rate of U-turn compared to other algorithms.

Key words：hierarchical reinforcement learning；car U-turn；sparse rewards；proximal policy optimization

0引言

隨著經(jīng)濟不斷發(fā)展，人們對自動駕駛車輛的要求也逐步提高。現(xiàn)有的自動駕駛車輛已經(jīng)能夠在城市道路和高速公路上行駛，它通過地圖數(shù)據(jù)與全球定位系統(tǒng)（global positioning system，GPS）定位信號或者車載攝像頭來獲取車輛位置，通過識別道路上的路面標(biāo)記、交通標(biāo)志以及交通信號燈來作出正確的決策。但在一些地下停車場、小區(qū)車道等路況復(fù)雜的空間場景，GPS信號較弱，同時缺乏路面標(biāo)記以及交通輔助信息，自動駕駛車輛往往難以應(yīng)對此類場景。傳統(tǒng)的自動駕駛系統(tǒng)［1～3］在設(shè)計過程中被分解為多個子系統(tǒng)，通過子系統(tǒng)之間的相互配合來完成自動駕駛?cè)蝿?wù)，并在一些復(fù)雜場景中設(shè)計大量的子模塊輔助車輛進(jìn)行自動駕駛，這樣的設(shè)計使得自動駕駛技術(shù)非常復(fù)雜，維護(hù)成本高昂。近些年，人工智能技術(shù)［4～6］發(fā)展迅猛，尤其是強化學(xué)習(xí)［7～13］展現(xiàn)出了巨大的潛力。強化學(xué)習(xí)分為基于模型的強化學(xué)習(xí)方法［7，8］和無模型的強化學(xué)習(xí)方法［9～12］。它是一種學(xué)習(xí)、預(yù)測、決策的方法框架，也是一種致力于實現(xiàn)通用智能解決復(fù)雜問題的方式。但是傳統(tǒng)的強化學(xué)習(xí)方法在一些獎勵稀疏［14～17］問題上表現(xiàn)較差，針對該問題，一些研究人員提出使用分層強化學(xué)習(xí)［17～20］的方法來解決。

強化學(xué)習(xí)在自動駕駛領(lǐng)域也有大量的應(yīng)用［21～25］，在駕駛車輛的過程中，駕駛員需要時刻注意車輛周圍的環(huán)境情況，不斷根據(jù)周圍環(huán)境的變化作出決策，而深度強化學(xué)習(xí)技術(shù)能解決端到端的感知與決策問題，越來越多的學(xué)者開始將深度強化學(xué)習(xí)應(yīng)用到自動駕駛領(lǐng)域。

Li等人［21］為尋找具有風(fēng)險意識且能夠使得風(fēng)險最小的自動駕駛決策策略，提出了一種基于深度強化學(xué)習(xí)的變道決策框架。Peng等人［22］通過給十字路口的一部分自動駕駛車輛設(shè)計一個利他的獎勵功能，來提高整個交叉路口的通行效率。Wang等人［23］基于強化學(xué)習(xí)的端到端自動駕駛模型提出了一種異步監(jiān)督學(xué)習(xí)方法，以解決在真實環(huán)境中訓(xùn)練該模型的初始性能較差的問題。Kim等人［24］利用強化學(xué)習(xí)對現(xiàn)有的自動駕駛模型進(jìn)行了修正和改進(jìn)，提出了一種自動駕駛預(yù)測模型，減少了訓(xùn)練時間并提高了駕駛表現(xiàn)。Kendall等人［26］首次演示了深度強化學(xué)習(xí)在自動駕駛中的應(yīng)用，他們的模型能夠使用單一的單眼圖像作為輸入，在少量的訓(xùn)練集中學(xué)習(xí)車道跟隨策略。相比于傳統(tǒng)的自動駕駛技術(shù)，深度強化學(xué)習(xí)技術(shù)不用設(shè)計繁多的任務(wù)模塊，可以模擬人的駕駛行為，從端到端解決自動駕駛問題。但自動駕駛車輛應(yīng)當(dāng)能夠應(yīng)對生活中出現(xiàn)的各類場景，能夠在各種情況下完成自動駕駛?cè)蝿?wù)。除了高速公路以及城市道路，自動駕駛車輛也應(yīng)當(dāng)能夠在一些不規(guī)范道路，如小區(qū)車道、停車場車道等道路上進(jìn)行自動駕駛。目前城市道路場景（如提高十字路口通行效率、超車、跟車等行為）以及高速公路場景的自動駕駛已經(jīng)存在比較多的研究，然而在其他場景下，自動駕駛?cè)蝿?wù)仍需要作出一些工作，比如在此類道路進(jìn)行一些掉頭、轉(zhuǎn)彎等行為。當(dāng)在此類地區(qū)進(jìn)行自動駕駛時，可以使用車輛傳感器對道路環(huán)境進(jìn)行觀測，然后通過車載計算機計算出最佳行進(jìn)路線，最后車輛根據(jù)車載計算機規(guī)劃出來的路線完成自動駕駛?cè)蝿?wù)。

本文使用深度強化學(xué)習(xí)技術(shù)，針對一些缺乏自動駕駛輔助信息的場景，建立了馬爾可夫決策過程（Markov decision process，MDP）模型，提出了一種自動駕駛車輛在不規(guī)范車道下的掉頭方法。考慮到車載攝像頭難以應(yīng)對全天候工作，視頻圖像信息容易受到對抗樣本的攻擊等問題［27，28］，因此采用激光雷達(dá)傳感器進(jìn)行采集信息作為輸入。

本文主要的貢獻(xiàn)點在于：

a）本文提出一個在不規(guī)則車道場景下的車輛掉頭MDP模型，用做不規(guī)范道路下的自動駕駛?cè)蝿?wù)。

b）一種多尺度融合卷積神經(jīng)網(wǎng)絡(luò)被用做提取狀態(tài)值特征的任務(wù)，取得了很好的效果。

c）針對車輛調(diào)頭任務(wù)獎勵問題提出一種分層近端策略優(yōu)化算法（hierarchical proximal policy optimization，HPPO），其效果在簡單與復(fù)雜場景中得到驗證。

1強化學(xué)習(xí)

為了更好地解決車輛掉頭問題，先將其抽象為馬爾可夫決策過程，然后使用強化學(xué)習(xí)的方法來解決這一問題。MDP包含的幾個重要元素為（S，A，R，γ），其中S代表環(huán)境狀態(tài)，A代表智能體的動作，R代表環(huán)境的回報。一次完整的狀態(tài)轉(zhuǎn)換可以表示為：t時刻的環(huán)境狀態(tài)為st，在智能體執(zhí)行動作at后環(huán)境狀態(tài)轉(zhuǎn)變?yōu)閟t+1，同時環(huán)境反饋給智能體rt的獎勵，這一系列狀態(tài)、動作、獎勵的軌跡定義為τ，如式（1）所示。

τ=（s0，a0，r0，s1，a1，r1，…，s|T|，a|T|，r|T|）（1）

其中：|T|代表決策序列的長度。強化學(xué)習(xí)的最終目標(biāo)是通過智能體與環(huán)境不斷交互得到最大累計獎勵rtotal，如式（2）所示。

rtotal=∑|T|t=0rt（2）

在智能體與環(huán)境不斷交互的過程中，為了獲取最高獎勵，智能體通過學(xué)習(xí)選取價值最優(yōu)的策略（動作），可通過如Q價值函數(shù)表示，如式（3）所示。

Qπ（s，a）=Eπ{Gt|St=s，At=a}（3）

其中：Gt表示t時刻的狀態(tài)到達(dá)最終狀態(tài)的累計獎勵。Q值用于評判動作的好壞，狀態(tài)的好壞使用V值來評判，并且V價值函數(shù)可基于Q價值函數(shù)值來計算，如式（4）所示。

Vπ（s）=∑a∈Aπ（a|s）Qπ（s，a）（4）

其中：π（a|s）表示智能體的策略，即在狀態(tài)s下選擇動作a的概率。表演家—評論家（actor-critic）算法融合了基于價值的方法與基于策略的方法，它使用表演家（actor）網(wǎng)絡(luò)學(xué)習(xí)策略，又通過評論家（critic）網(wǎng)絡(luò)估計的價值函數(shù)進(jìn)行策略更新，解決了基于策略的方法的高方差問題，并且更容易處理連續(xù)行為。它是一種近似的策略梯度，其梯度計算如式（5）所示。

θJ（θ）≈Euclid Math TwoEApπθ［θlog πθ（s，a）Qω（s，a）］（5）

其中：ω表示評論家網(wǎng)絡(luò)更新的動作值函數(shù)；θ表示表演家網(wǎng)絡(luò)以評論家網(wǎng)絡(luò)所指導(dǎo)的方向更新策略參數(shù)。

近端策略優(yōu)化（proximal policy optimization，PPO）算法是基于表演家—評論家框架的算法，它在基于置信域的策略優(yōu)化（trust region policy optimization，TRPO）算法的基礎(chǔ)上進(jìn)行了改進(jìn)，優(yōu)化了更新參數(shù)的方式。近端策略優(yōu)化算法采用階段代理目標(biāo)函數(shù)來控制策略的更新，它將新舊策略的比值限制在一個范圍內(nèi)，通過控制這個范圍的大小來限制更新的幅度。近端策略優(yōu)化算法的目標(biāo)函數(shù)如式（6）所示。

JCLIP（θ～）=Euclid Math TwoEApst～ρπθ，at～πθ［min（kt（θ～），

clip（kt（θ～），1-ε，1+ε））AEuclid ExtrazBpθ（s，a）］（6）

其中：ε是用于度量新策略與老策略之間偏差程度的超參數(shù)；clip（kt（θ～），1-ε，1+ε）將重要性采樣權(quán)重限制在（1-ε，1+ε）內(nèi)；kt（θ～）表示新舊策略的比值，如式（7）所示。

kt（θ～）=πθ（a，s）πθ-（a，s）（7）

但是單層結(jié)構(gòu)的強化學(xué)習(xí)算法在應(yīng)對一些獎勵稀疏的問題時，常常難以發(fā)揮出其優(yōu)越的性能。分層強化學(xué)習(xí)通過將問題分解為一組短期子問題來加速稀疏獎勵任務(wù)中的學(xué)習(xí)。分層表演家—評論家（hierarchical actor-critic，HAC）算法是第一個成功地在具有連續(xù)狀態(tài)和動作空間的任務(wù)中并行學(xué)習(xí)三級層次結(jié)構(gòu)的框架，它通過設(shè)計的三種轉(zhuǎn)換，并行訓(xùn)練多個層級。本文通過在馬爾可夫決策過程中增加一組目標(biāo)G，構(gòu)建了通用馬爾可夫決策過程（universal Markov decision process，UMDP），所以通用馬爾可夫決策過程包含的元素為（S，G，A，R，γ），其中G是目標(biāo)集合，它的Q值與V值計算如式（8）（9）所示。

Qπ（s，g，a）=Eπ［∑∞n=0γnRt+n+1|st=s，gt=g，at=a］（8）

Vπ（s，g）=Eπ［∑∞n=0γnRt+n+1|st=s，gt=g］（9）

其中：g∈G是整個回合的目標(biāo)。每一層級的狀態(tài)、動作集合以及最底層的動作空間均與原始空間相同，低一層智能體通過s×g→A來最大化價值函數(shù)。分層近端策略優(yōu)化算法采用分層表演家—評論家算法的框架，在分層機制的基礎(chǔ)上，利用近端策略優(yōu)化算法來更新表演家網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)。

2車輛掉頭動態(tài)模型建立

由于目前的自動駕駛算法訓(xùn)練平臺，如開放賽車模擬器（open racing car simulator，TORCS）、Air Sim、Carla等都無法自定義場景，且難以二次開發(fā)。所以解決自動駕駛車輛的掉頭問題，首先要針對場景建立模型與仿真環(huán)境，最后選用合適的強化學(xué)習(xí)算法進(jìn)行求解。模型選用車輛的位置與轉(zhuǎn)彎角度作為狀態(tài)，選擇車輛的轉(zhuǎn)彎角度作為動作，車輛每一時刻的位置可根據(jù)上一時刻的位置計算得到。

xt+1=xt+∫v sin（θ+Δθ）dt

yt+1=yt+∫v cos（θ+Δθ）dt（10）

其中：Δθ表示動作執(zhí)行后，汽車轉(zhuǎn)彎角度的變化量。最后構(gòu)建獎勵函數(shù)R來建立車輛動力模型，獎勵函數(shù)如式（11）所示。

R=r=0車輛正常行駛

r=10-αAcount車輛成功掉頭

r=-10車輛觸碰邊界（11）

獎勵函數(shù)設(shè)計的好壞直接影響算法的收斂與否以及算法的收斂速度。由于仿真車輛在掉頭過程中所做的動作難以判定好壞，所以將仿真車輛行駛時刻的獎勵設(shè)置為0。當(dāng)仿真車輛觸碰邊界時，給智能體一個較大的負(fù)獎勵，促使其盡量避免觸碰邊界；當(dāng)仿真車輛成功掉頭時，給它一個正獎勵，并減去掉頭過程中使用的動作總數(shù)Acount與參數(shù)α的乘積，經(jīng)過反復(fù)實驗，最終取α為0.1。

將車輛的位置與轉(zhuǎn)彎角度信息進(jìn)行卷積操作后輸入特征提取網(wǎng)絡(luò)，然后將狀態(tài)特征輸入智能體，智能體經(jīng)過處理后輸出動作信息給環(huán)境，然后環(huán)境給智能體反饋獎勵信號，模型原理如圖1所示。

本文針對所建立的模型構(gòu)建了虛擬仿真環(huán)境，地圖的大小設(shè)置為400×600，以左下角為原點，在這張地圖中，淺色部分是不可行駛區(qū)域，灰色部分是可行駛區(qū)域，黑色直線表示場景邊界。

設(shè)定車輛在掉頭過程中的速度是恒定的，車輛在掉頭過程中不能在不可行駛區(qū)域行駛。車輛掉頭仿真環(huán)境如圖2所示。

根據(jù)仿真環(huán)境的大小、形狀和車輛的動態(tài)特性，以及一個規(guī)則的車輛不能碰撞仿真環(huán)境的邊緣等因素，獎勵值的定義規(guī)則如下：

a）當(dāng)0+Llt;ylt;300-L，并且xlt;100+L，xgt;300-L時，表示車輛行駛到了不可行駛區(qū)域，此時r=-10，學(xué)習(xí)過程結(jié)束并重新開始。

b）當(dāng)300+Llt;ylt;600-L，并且xlt;0+L或xgt;400-L時，表示車輛撞到了地圖的左右邊界，此時r=-10，學(xué)習(xí)過程結(jié)束并重新開始。

c）當(dāng)0+Llt;xlt;400-L，并且ylt;0+L或ygt;600-L時，表示車輛撞到了地圖的上下邊界，此時r=-10，學(xué)習(xí)過程結(jié)束并重新開始。

d）當(dāng)0+Llt;ylt;100-L，并且100+Llt;xlt;300-L時，車輛到達(dá)目的地，r=10-αAcount。

e）其他情況，仿真車輛被認(rèn)為在模擬場景中行駛，r=0。

在建立第一個環(huán)境時，由于車輛可行駛區(qū)域較大，在訓(xùn)練過程中，仿真車輛不用倒車也可以實現(xiàn)掉頭行為，所以為了增加實驗難度，讓自動駕駛車輛能夠適應(yīng)更多的復(fù)雜環(huán)境，第二個實驗縮小了仿真車輛用于轉(zhuǎn)彎掉頭的可行駛區(qū)域，此時仿真車輛必須在轉(zhuǎn)彎過程中進(jìn)行倒車才能完成掉頭任務(wù)，增加掉頭難度后的仿真環(huán)境如圖3所示。

環(huán)境改進(jìn)后，此時獎勵值的定義規(guī)則如下：

a）當(dāng)0+Llt;ylt;400-L，并且xlt;100+L，xgt;300-L時，表示車輛行駛到了不可行駛區(qū)域，此時r=-10，學(xué)習(xí)過程結(jié)束并重新開始。

b）當(dāng)400+Llt;ylt;600-L，并且xlt;0+L或xgt;400-L時，表示車輛撞到了地圖的左右邊界，此時r=-10，學(xué)習(xí)過程結(jié)束并重新開始。

c）當(dāng)0+Llt;xlt;400-L，并且ylt;0+L或ygt;600-L時，表示車輛撞到了地圖的上下邊界，此時r=-10，學(xué)習(xí)過程結(jié)束并重新開始。

d）當(dāng)0+Llt;ylt;100-L，并且100+Llt;xlt;300-L時，車輛到達(dá)目的地，r=10-αAcount。

e）其他情況，車輛被認(rèn)為在模擬場景中行駛，r=0。

在強化學(xué)習(xí)中，獎勵函數(shù)對智能體的訓(xùn)練至關(guān)重要，其承擔(dān)了類似于監(jiān)督學(xué)習(xí)中數(shù)據(jù)標(biāo)簽的作用。一方面，由于剛開始訓(xùn)練時，智能體采用隨機策略，導(dǎo)致智能體獲取獎勵難度較大，所以剛開始訓(xùn)練智能體時得到的獎勵相對稀疏；另一方面，稀疏獎勵廣泛存在于一些強化學(xué)習(xí)任務(wù)之中。如在機械臂抓取任務(wù)中，機械臂要完成一系列復(fù)雜的動作才能成功抓取目標(biāo)，獲得最終獎勵，中間任何一個動作導(dǎo)致實驗失敗都無法獲取最終獎勵，但除去導(dǎo)致機械臂抓取任務(wù)失敗的少部分動作外，該過程中的其他動作很難判定其好壞，也很難給與這些動作確定的獎勵；在飛行器導(dǎo)航任務(wù)中，只有當(dāng)飛行器成功到達(dá)指定位置或撞毀在障礙物上時才能獲得最終獎勵或懲罰，飛行過程中飛行器所做的一系列調(diào)整飛行姿勢的動作都很難設(shè)定獎勵；還有圍棋等強化學(xué)習(xí)任務(wù)都屬于稀疏獎勵問題，在使用深度強化學(xué)習(xí)解決實際問題時經(jīng)常面臨著該問題，它會大大降低算法的迭代速度，甚至?xí)?dǎo)致算法難以收斂。仿真環(huán)境中的獎勵示意圖如圖4所示。

在仿真環(huán)境中，淺灰色部分代表不可行使區(qū)域，灰色部分代表可行駛區(qū)域。在可行駛區(qū)域內(nèi)部，仿真車輛駛?cè)氚咨姆娇虼淼竭_(dá)目標(biāo)區(qū)域，此時獲得獎勵，虛線代表仿真環(huán)境的邊界，當(dāng)仿真車輛在行駛過程中碰到虛線，代表此回合訓(xùn)練失敗，此時獲得懲罰；在其他情況下，即仿真車輛行駛在灰色可行駛區(qū)域，未進(jìn)入目標(biāo)區(qū)域也未觸碰仿真環(huán)境邊界，獎勵為零。由獎勵示意圖可觀察到，沒有獎勵或懲罰狀態(tài)的數(shù)量要遠(yuǎn)遠(yuǎn)超過有獎勵狀態(tài)的數(shù)量，在實驗中，有確定獎勵的狀態(tài)非常稀疏。

3分層近端策略優(yōu)化算法

很多傳統(tǒng)的強化學(xué)習(xí)算法采用同策略的方式一邊與環(huán)境交互，一邊進(jìn)行學(xué)習(xí)，這樣大大降低了智能體的學(xué)習(xí)速度。近端策略優(yōu)化算法通過重要性采樣將同策略改進(jìn)為異策略，提高了智能體的學(xué)習(xí)速度，重要性采樣公式如式（12）所示。

Ex～p［f（x）］=Ex～q［f（x）p（x）q（x）］（12）

通過智能體與環(huán)境的交互可以得到軌跡τ，然后使用評論家網(wǎng)絡(luò)計算出優(yōu)勢函數(shù)G，用于評判所選動作相比于其他動作的優(yōu)勢，優(yōu)勢函數(shù)如式（13）所示。

Gt=rt+γrt+1+γ2rt+1+…+γNrt+N-vs（t）（13）

經(jīng)過反復(fù)實驗，將γ設(shè)置為0.9。在實驗中，智能體的網(wǎng)絡(luò)與優(yōu)勢網(wǎng)絡(luò)除了輸出層，其他部分都使用相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，每個步驟的回報可按式（14）計算：

Rt=Gt+v（st）（14）

有了優(yōu)勢函數(shù)，就可以使用梯度搜索來調(diào)整網(wǎng)絡(luò)參數(shù)θ，搜索的目的是將式（15）目標(biāo)函數(shù)J（θ）最大化。

J（θ）=min（pt（θ）Gt，clip（pt（θ），1-ε，1+ε）Gt）（15）

近端策略優(yōu)化算法網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

具有層次結(jié)構(gòu)的智能體能夠?qū)娀瘜W(xué)習(xí)問題分解成更小的子問題，具有加速學(xué)習(xí)的潛力，所以使用分層強化學(xué)習(xí)的思想來解決該問題。將智能體的控制分為高層與低層，高層智能體進(jìn)行低層智能體學(xué)習(xí)目標(biāo)的設(shè)定，它對多個時間步t執(zhí)行一次決策，高層智能體學(xué)習(xí)的動力是外部的稀疏獎勵；低層智能體通過學(xué)習(xí)完成高層智能體給定的目標(biāo)，在每一時間步t作出決策，低層智能體的驅(qū)動力是內(nèi)部獎勵，如圖6所示。

智能體的高層與低層都是由近端策略優(yōu)化算法組成，高層智能體觀測原始狀態(tài)，通過計算價值函數(shù)Q2=（st，gt；θ2）來最大化外部獎勵，低層智能體中的表演家網(wǎng)絡(luò)接受狀態(tài)與當(dāng)前目標(biāo)，通過計算價值函數(shù)Q1=（st，at；θ1，gt）來求解預(yù)測目標(biāo)，當(dāng)且僅當(dāng)目標(biāo)達(dá)成時，評論家網(wǎng)絡(luò)才會給出正向激勵。

當(dāng)每一回合結(jié)束，或目標(biāo)g達(dá)成時，低層智能體表演家網(wǎng)絡(luò)停止，然后高層智能體選擇一個新的g，重復(fù)該過程。使用深度學(xué)習(xí)框架為高層智能體與低層智能體學(xué)習(xí)策略，使用式（16）來估計低層智能體的Q函數(shù)。

Q*1（s，a，g）=maxπag E［∑∞t′=tγt′-trt′|st=s，at=a，gt=g，πag］（16）

在高層智能體的策略里面，g是智能體在狀態(tài)s與策略πag下的目標(biāo)，同樣用式（17）來估計高層智能體的Q函數(shù)。

Q*2（s，g）=maxπg(shù)E［∑t+Nt′=tft′+γ maxg′Q*2（st+N，g′）|st=s，gt=g，πg(shù)］（17）

其中：N代表低層智能體到達(dá)當(dāng)前目標(biāo)所使用的時間步；g′表示在狀態(tài)st+N時智能體的目標(biāo)；πg(shù)是當(dāng)前策略的目標(biāo)。

使用參數(shù)為θ的非線性函數(shù)近似表示Q*=（s，g）≈Q（s，g；θ），Q1、Q2可以通過最小化其損失函數(shù)L1（θ1）與L2（θ2）得到，Q1的損失函數(shù)可以使用式（18）表示：

L1（θ1，i）=E（s，a，g，r，s′）～（y1，i-Q1（s，a；θ1，i，g））2（18）

其中：i代表訓(xùn)練迭代數(shù)；θ1，i-1在上一次迭代中保持固定；y1，i表示通過上一狀態(tài)以及其目標(biāo)得到的Q值。損失函數(shù)L2的原理與上式相同。在訓(xùn)練過程中，智能體首先與環(huán)境進(jìn)行交互采集軌跡數(shù)據(jù)，并將交互得到的軌跡數(shù)據(jù)存儲在經(jīng)驗池中，等存儲了足夠的數(shù)據(jù)后，智能體開始在經(jīng)驗池中隨機抽取一定量的數(shù)據(jù)一邊交互一邊學(xué)習(xí)，表演家網(wǎng)絡(luò)進(jìn)行策略的更新，評論家網(wǎng)絡(luò)進(jìn)行價值的更新，更新過程如圖7所示。

4實驗

在真實環(huán)境中，當(dāng)可掉頭區(qū)域較大時，車輛通過在前進(jìn)過程中多次旋轉(zhuǎn)方向盤調(diào)整車身的位置，從而完成掉頭任務(wù)，這對應(yīng)場景1。但在可掉頭區(qū)域較小時，車輛需要通過增加倒車行為來完成轉(zhuǎn)彎過程，這對應(yīng)場景2。

4.1參數(shù)設(shè)定

在實際情況中，由于車載攝像機的一部分局限性，實驗選擇使用激光雷達(dá)來探測掉頭過程中車輛在環(huán)境中的位置以及車輛在環(huán)境中的姿勢。按照實際的比例，在實驗的仿真環(huán)境中建立一個車寬40、車長60的仿真車輛。然后在仿真車輛的正前方、正后方、正左方、正右方設(shè)置四個仿真雷達(dá)，通過它們探測的數(shù)據(jù)計算車輛在仿真環(huán)境的坐標(biāo)與車輛的轉(zhuǎn)彎角度，在實驗中，使用這兩個量作為智能體的狀態(tài)。一般的小型車輛最大轉(zhuǎn)彎角度都在45°左右，將汽車轉(zhuǎn)彎角度離散化為五個選項，每個選項為18°，使用其作為智能體的動作。

在場景1中，由于可用于仿真車輛掉頭的車輛可行駛區(qū)域較大，所以車輛能夠在不倒車的情況下使用轉(zhuǎn)彎動作完成掉頭。但在場景2中，由于實驗縮小了仿真車輛在轉(zhuǎn)彎過程中的車輛可行駛區(qū)域，車輛無法僅通過前進(jìn)完成掉頭任務(wù)，所以針對第2個場景，實驗2在實驗1的基礎(chǔ)上又增加了五個倒車動作，分別對應(yīng)前五個角度的反方向。

在仿真環(huán)境中，實驗通過仿真車輛的雷達(dá)獲得車輛位置，以及車輛的旋轉(zhuǎn)角度，將其作為算法的輸入，然后輸出車輛在下一時刻的旋轉(zhuǎn)角度，在反復(fù)進(jìn)行多次實驗后，取γ為0.9，此時算法能獲得相對較高的獎勵。實驗中模型的參數(shù)如表1所示。表1中，仿真車輛在仿真環(huán)境中的坐標(biāo)用（x，y）表示，它包含在仿真環(huán)境Dxy中，仿真車輛在仿真環(huán)境中的車身姿勢用θ表示，它的范圍包含在前進(jìn)動作空間As與倒車動作空間Ab中。MDP參數(shù)如表1所示。

4.2實驗

實驗采用了HAC、PPO、AC、DQN與本文HPPO來測試車輛在初始角度不同時能否訓(xùn)練有效的轉(zhuǎn)彎策略，實驗結(jié)果如圖8所示，橫坐標(biāo)為訓(xùn)練回合數(shù)，縱坐標(biāo)為累計獎勵。

從結(jié)果可以看出，在場景1中，由于實驗難度較低，使用分層結(jié)構(gòu)的HPPO算法能夠在5 000回合左右實現(xiàn)調(diào)頭任務(wù)，同樣具有分層結(jié)構(gòu)的HAC算法也在10 000回合左右的時候?qū)崿F(xiàn)了調(diào)頭任務(wù)。其他三種算法在20 000回合都無法達(dá)到目標(biāo)。

使用分層思想改進(jìn)的HPPO算法相比于其他算法，不僅能夠收斂，而且能夠以較快的速度進(jìn)行收斂，這表明了在所有算法中，HPPO具有較好的性能。為了避免偶然性因素，訓(xùn)練好的智能體在進(jìn)行50次仿真后成功掉頭的幾率以及平均累計回報如表2所示。

在場景2中，為了增加掉頭的難度，減少了仿真車輛在仿真環(huán)境的可行駛區(qū)域，在該場景下各個算法的表現(xiàn)如圖9所示。

從結(jié)果可以看出，隨著訓(xùn)練的不斷進(jìn)行，非分層機制的算法得到的平均獎勵在-9左右，始終無法得到更高的獎勵。但相比于傳統(tǒng)算法，HPPO算法能夠獲得的獎勵在不斷增加，這說明智能體很好地學(xué)習(xí)了駕駛技能，也表示HPPO算法能夠使車輛更加快速安全地完成轉(zhuǎn)彎任務(wù)。

同樣地，為了避免偶然性因素，訓(xùn)練好的智能體在復(fù)雜環(huán)境下進(jìn)行50次仿真后成功掉頭的幾率以及平均累計回報如表3所示。

4.3討論

經(jīng)過訓(xùn)練后的智能體完全掌握了自動駕駛車輛的掉頭任務(wù)，且都能在兩種掉頭場景使用較少的動作成功掉頭，自動駕駛車輛的掉頭軌跡如圖10所示。

如圖10左圖所示，在場景1中，由于仿真車輛的轉(zhuǎn)彎區(qū)域較大，所以在訓(xùn)練完成后，車輛僅使用前進(jìn)轉(zhuǎn)彎動作就完成了掉頭任務(wù)；如圖10右圖所示，相比左圖場景1中的仿真車輛行駛軌跡，場景2的仿真車輛行駛軌跡明顯更為復(fù)雜。這是因為場景2縮小了仿真車輛的轉(zhuǎn)彎區(qū)域，導(dǎo)致轉(zhuǎn)彎難度變大，所以在訓(xùn)練完成后，仿真車輛除了使用前進(jìn)轉(zhuǎn)彎動作以外，還使用了倒車動作，學(xué)習(xí)了更多回合才完成了掉頭任務(wù)。如圖10所示，仿真車輛的軌跡中實心圓形所在的點表示仿真車輛的掉頭起點，實心五角星所在的點表示仿真車輛的掉頭終點。

5結(jié)束語

本文針對自動駕駛車輛的掉頭問題，首先建立了一個適用于強化學(xué)習(xí)的馬爾可夫決策過程模型，根據(jù)實際情形下的車輛掉頭問題，設(shè)計了兩個場景；然后針對該模型出現(xiàn)的稀疏獎勵問題采用分層的思想進(jìn)行解決，提出了一個分層近端策略優(yōu)化算法，設(shè)計了合理的獎勵函數(shù)。實驗證明，相比于其他傳統(tǒng)的強化學(xué)習(xí)算法，改進(jìn)后的算法能夠在車輛掉頭時為車輛設(shè)計更安全快速的掉頭策略。

在未來的工作中，考慮自動駕駛汽車其他的小場景問題，旨在適用于更多的場景。

參考文獻(xiàn)：

［1］Badue C，Guidolini R，Carneiro R V，et al.Self-driving cars：a survey［EB/OL］.（2019-10-02）.https：//arxiv.org/abs/1901.04407.

［2］Qian Lilin，F(xiàn)u Hao，Li Xiaohui，et al.Toward autonomous driving in highway and urban environment：HQ3 and IVFC 2017［C］//Proc of IEEE Intelligent Vehicles Symposium.Piscataway，NJ：IEEE Press，2018：1854-1859.

［3］Paden B，Cˇáp M，Yong S Z，et al.A survey of motion planning and control techniques for self-driving urban vehicles［J］.IEEE Trans on Intelligent Vehicles，2016，1（1）：33-55.

［4］Russell S，Norvig P.Artificial intelligence：a modern approach［M］.［S.l.］：Pearson，1995.

［5］Schmidhuber J.Deep learning in neural networks：an overview［J］.Neural Networks，2015，61：85-117.

［6］Sutton R，Barto A.Reinforcement learning：an introduction［M］.［S.l.］：MIT press，1998.

［7］Gu Shixiang，Lillicrap T，Sutskever I，et al.Continuous deep Q-lear-ning with model-based acceleration［C］//Proc of International Confe-rence on Machine Learning.2016：2829-2838.

［8］Feinberg V，Wan A，Stoica I，et al.Model-based value estimation for efficient model-free reinforcement learning［EB/OL］.（2018-02-28）.https：//arxiv.org/abs/1803.00101.

［9］Mnih V，Kavukcuoglu K，Silver D，et al.Playing atari with deep reinforcement learning［EB/OL］.（2013-12-19）.https：//arxiv.org/abs/1312.5602.

［10］Mnih V，Kavukcuoglu K，Silver D，et al.Human-level control through deep reinforcement learning［J］.Nature，2015，518：529-533.

［11］Van Hasselt H，Guez A，Silver D.Deep reinforcement learning with double Q-learning［C］//Proc of the 30th AAAI Conference on Artificial Intelligence.2016：2094-2100.

［12］Schaul T，Quan J，Antonoglou I，et al.Prioritized experience replay［EB/OL］.（2016-02-25）.https：//arxiv.org/abs/1511.05952.

［13］劉全，翟建偉，章宗長，等.深度強化學(xué)習(xí)綜述［J］.計算機學(xué)報，2018，41（1）：1-27.（Liu Quan，Zhai Jianwei，Zhang Zongzhang，et al.A review of deep reinforcement learning［J］.Journal of Compu-ter Science，2018，41（1）：1-27.）

［14］Chevtchenko S F，Ludermir T B.Combining STDP and binary networks for reinforcement learning from images and sparse rewards［J］.Neural Networks，2021，144：496-506.

［15］Riedmiller M，Hafner R，Lampe T，et al.Learning by playing solving sparse reward tasks from scratch［C］//Proc of the 35th International Conference on Machine Learning.2018：4344-4353.

［16］Ren H，Ben-Tvi P.Advising reinforcement learning toward scaling agents in continuous control environments with sparse rewards［J］.Engineering Applications of Artificial Intelligence，2020，90：103515.

［17］Jiang Nan，Jin Sheng，Zhang Changshui.Hierarchical automatic curri-culum learning：converting a sparse reward navigation task into dense reward［J］.Neurocomputing，2019，360：265-278.

［18］Shen Chenyang，Chen Liyuan，Jia Xun.A hierarchical deep reinforcement learning framework for intelligent automatic treatment planning of prostate cancer intensity modulated radiation therapy［J］.Physics in Medicine amp; Biology，2021，66（13）：134002.

［19］Frans K，Ho J，Chen Xi，et al.Meta learning shared hierarchies［EB/OL］.（2017-10-26）.https：//arxiv.org/abs/1710.09767.

［20］彭志平，李紹平.分層強化學(xué)習(xí)研究進(jìn)展［J］.計算機應(yīng)用研究，2008，25（4）：974-978.（Peng Zhiping，Li Shaoping.Research progress of hierarchical reinforcement learning［J］.Application Research of Computers，2008，25（4）：974-978.）

［21］Li Guofa，Yang Yifan，Li Shen，et al.Decision making of autonomous vehicles in lane change scenarios：deep reinforcement learning approaches with risk awareness［J］.Transportation Research Part C：Emerging Technologies，2022，134：103452.

［22］Peng B，Keskin M F，Kulcsár B，et al.Connected autonomous vehicles for improving mixed traffic efficiency in unsignalized intersections with deep reinforcement learning［J］.Communications in Transportation Research，2021，1：100017.

［23］Wang Yunpeng，Zheng Kunxian，Tian Daxin，et al.Pre-training with asynchronous supervised learning for reinforcement learning based autonomous driving［J］.Frontiers of Information Technology amp; Electronic Engineering，2021，22：673-686.

［24］Kim J H，Huh J H，Jung S H，et al.A study on an enhanced autonomous driving simulation model based on reinforcement learning using a collision prevention model［J］.Electronics，2021，10（18）：2271.

［25］張明恒，呂新飛，萬星，等.基于WGAIL-DDPG（λ）的車輛自動駕駛決策模型［J］.大連理工大學(xué)學(xué)報，2022，62（1）：77-84.（Zhang Mingheng，Lyu Xinfei，Wan Xing，et al.Vehicle autonomous driving decision model based on WGAIL-DDPG（λ）［J］.Journal of Dalian University of Technology，2022，62（1）：77-84.）

［26］Kendall A，Hawke J，Janz D，et al.Learning to drive in a day［C］//Proc of International Conference on Robotics and Automation.Pisca-taway，NJ：IEEE Press，2019：8248-8254.

［27］Rasheed I，Hu Fei，Zhang Lin.Deep reinforcement learning approach for autonomous vehicle systems for maintaining security and safety using LSTM-GAN［J］.Vehicular Communications，2020，26：100266.

［28］Deng Yao，Zhang Tiehua，Lou Guannan，et al.Deep learning-based autonomous driving systems：a survey of attacks and defenses［J］.IEEE Trans on Industrial Informatics，2021，17（12）：7897-7912.

收稿日期：2022-03-09；修回日期：2022-05-03

作者簡介：曹潔（1966-），女，安徽宿州人，教授，博導(dǎo)，碩士，主要研究方向為人工智能；邵紫旋（1996-），男，甘肅平?jīng)鋈耍T士研究生，主要研究方向為強化學(xué)習(xí)、智能交通系統(tǒng)；侯亮（1976-），男（通信作者），甘肅蘭州人，博士研究生，主要研究方向為智能信息處理、智能交通（zxuanshao@163.com）．

計算機應(yīng)用研究2022年10期

計算機應(yīng)用研究的其它文章: 應(yīng)用于材料圖像分割的Graph-UNet; 基于Transformer的圖像分類網(wǎng)絡(luò)MultiFormer; 基于群智感知的街景變化檢測方法; 基于多尺度殘差網(wǎng)絡(luò)的單應(yīng)估計方法; 融合IMU去除運動模糊的改進(jìn)光流匹配算法; 面向WSI的乳腺病理亞型分類研究