摘要:利用深度強化學習(deepreinforcementlearning,DRL)技術實現自動駕駛決策已成為國內外研究熱點,現有研究中的車輛交通流缺乏隨機性與真實性,同時自動駕駛車輛在環境中的有效探索具有局限性。因此利用TD3算法進行自動駕駛車輛在無信號交叉口下的右轉駕駛決策研究,首先在Carla仿真平臺中開發無信號交叉口的訓練與測試場景,并添加交通流管理功能,提高系統訓練和測試隨機性。其次,為了提高自動駕駛車輛的探索性,對TD3算法中的Actor網絡進行改進,為目標動作添加OU噪聲。最后使用通行成功率和平均通行時間評估指標評價自動駕駛行為決策。結果表明,在不同交通流場景下,改進后的TD3算法通行成功率與基于DDPG算法控制的車輛相比平均提升6.2%,與基于規則的AEB模型相比平均提升23%。改進后的TD3算法不僅能夠探索更多可能,而且其通行決策表現更加突出。
關鍵詞:深度強化學習;自動駕駛;無信號交叉口;駕駛決策;獎勵函數
中圖分類號:V323.19文獻標志碼:A
文章編號:1001-3695(2023)05-028-1468-05
0引言
隨著現代技術的進步,學者對自動駕駛領域的研究也逐步深入,進而有望改變人們現有的生活方式,例如減少交通事故、避免交通擁堵和提高能源效率等[1]。由于交通環境復雜,自動駕駛車輛(autonomousvehicle,AV)如何高效實現決策是目前自動駕駛研究最具挑戰的問題之一。尤其在無信號燈的交叉路口,受限于人類駕駛意圖的不明確性和車輛之間通信的問題,導致在實現決策和控制模塊時難度增大。早期的自動駕駛決策是基于規則的方法,如決策樹模型、有限狀態機法[2]等,基于規則的決策方法具有邏輯清晰、針對性強等優點,但僅適用于事先設定的場景,面對較復雜的交通場景時,狀態劃分變得煩瑣且狀態轉移條件也更為復雜。隨著深度學習和強化學習在圖像處理、路徑規劃等研究方向取得的優異成果,研究者將兩者結合衍生出深度強化學習方法并應用于自動駕駛領域,通過自動駕駛車輛與環境的交互反復試錯來學習最優策略,同時反復更新策略提高性能。
近年來,深度強化學習已成為自動駕駛決策與控制的一項關鍵技術。Kamran等人[3]和Isele等人[4]在交叉路口使用基于深度Q網絡(DQN)的導航策略避免與其他車輛碰撞,提升了通行成功率。由于DQN只適用于離散動作空間,但實現自動駕駛的預期效果是輸出連續高維的方向盤轉向角和加速度值等。隨著對深度強化學習的進一步研究,DeepMind[5]團隊首次提出了深度確定性策略梯度(DDPG)算法,解決了高維連續動作空間問題,DDPG算法中包含Actor和Critic兩個網絡,Actor網絡用來生成使獎勵值最大的動作,Critic網絡用來評估該狀態下選取動作的好壞。DDPG算法及其改進算法廣泛應用于自動駕駛領域。張斌等人[6]在TORCS平臺上通過將傳感器獲得的感知信息輸入到模型中,直接輸出加速、剎車等駕駛動作實現基于DDPG算法的端到端駕駛決策模型[7]。Hubmann等人[8]在不確定其他車輛駕駛行為的情況下,將預測駕駛行為可能性添加到優化策略中,并針對不同的道路布局和車輛數量在線解決問題。Cai等人[9]提出一種基于Carla[10]模擬器提供的真實世界的道路地圖作為自動駕駛基準。由于DDPG算法存在過估計值等問題,TD3算法應運而生,裴曉飛等人[11]基于TD3算法構建自動駕駛汽車換道決策模型,實現在復雜交通環境下安全、流暢的換道行為。Zhang等人[12]通過Dual-cneteredCritic、平滑Group目標網絡和延遲策略降低了神經網絡逼近的過估計的方差,提高了算法的有效性和泛化能力。Qian等人[13]提出一種基于規劃特征的決策方法,利用拓撲路徑的特點解決決策層與路徑規劃層的一致性。
交叉路口是城市道路交通中最常見的場景之一,也是自動駕駛車輛決策和控制的難點。早期在DARPA城市挑站賽(DUC)中,獲勝者Boss使用基于規則的行為生成機制預定義駕駛規則[14],使Boss能夠檢查車輛的加速能力和空間距離,判斷匯入目標車道或通過十字路口是否安全。在DUC中排名第二的Junior[15]同樣是基于手動定義的規則,由于實現簡單、可追溯等優點,該框架被廣泛應用于許多自動駕駛平臺。智能駕駛員模型(IDM)[16]由于其參數數量少以及能用統一的模型描述交通流的不同狀態等特點常用于實現自動駕駛跟馳模型。Zhou等人[17]提出一種基于協作IDM的自動駕駛控制器達到AV在高速入口匝道合并車輛的目的。然而,上述研究皆假設速度恒定,未考慮周圍車輛對AV行為的影響,且基于規則的自動駕駛決策存在局限性。Wei等人[18]通過模擬人類駕駛行為提出構建自動駕駛模型的綜合方法,將其應用于高速公路自動駕駛中得到最佳速度曲線。Song等人[19]提出一種感知其他車輛駕駛意圖的決策算法,為車輛可能通行的路線劃分碰撞區域,預測未知車輛通行意圖。以上研究只針對于社會車輛數量少且固定的情況,未考慮到交通流控制問題。Wang等人[20]提出一種交叉口通行權機制,將自動駕駛車輛執行左轉、直行和右轉操作進行通行權優先級設置。考慮了周圍社會車輛發生碰撞的情況,但由于設置優先級使得交通環境失去隨機性。在深度強化學習算法中,獎勵機制影響算法收斂度和最終訓練結果。Knox等人[21]針對自動駕駛的獎勵設計問題,開發了八個簡單的健全性檢查來識別獎勵函數中的缺陷。健全性檢查適用于過去自動駕駛強化學習工作的獎勵功能,揭示了自動駕駛獎勵設計中幾乎普遍存在的缺陷。
總的來說,在無信號交叉路口對于場景和獎勵函數的設計仍然存在可完善的部分。為進一步還原現實世界中無信號交叉口下的復雜交通情景,本文的主要工作如下:a)在Carla平臺中為交叉路口場景開發強化學習訓練環境,添加社會車輛交通流管理功能,提高訓練和測試過程中交通流的隨機性;b)針對高斯噪聲時序不相關,在慣性系統中原地振蕩易被平均的問題,利用更適用于時間離散化粒度較小的OU噪聲達到探索更多可能的效果,提高了算法的探索能力和穩定性;c)針對獎勵函數過于單一導致強化訓練陷入局部最優,通過事件定義獎勵函數有效提高訓練質量,并定義了一種通行成功率指標,該指標能夠有效評價自動駕駛車輛在強化學習后行為決策的性能。
1系統模型
1.1系統框架
系統模型框架如圖1所示。本文將除自動駕駛車輛之外的其他車輛稱之為社會車輛(socialvehicle,SV)。首先AV在交叉路口場景中與SV交互,環境根據當前狀態和選取的動作通過獎勵函數返回即時獎勵,實現駕駛決策的目標是最大化累積獎勵值。本文利用TD3算法進行強化學習訓練。TD3算法基于Actor-Critic(AC)框架,適用于高維連續動作空間,相比于同AC框架的DDPG算法,TD3算法作出以下幾個方面的改進:
a)TD3算法使用兩個評估動作值函數的神經網絡(圖1中兩個Critic網絡)及與之相對應的目標神經網絡(圖1中兩個Target網絡),兩個神經網絡獨立評估輸入的狀態—動作對,取兩個估計值中的較小值用于計算TDerror避免過估計問題。
b)相較于Critic動作值函數參數的單步更新,Actor網絡參數的更新頻率更低,更新頻率通常為2,該方法可以降低近似動作值函數的方差。
c)通過在計算目標動作值函數的目標動作上添加服從正態分布的噪聲以提高算法的魯棒性。
高斯噪聲具有獨立且時序不相關的特點,前后兩個動作之間只是通過狀態使其獨立,但在高維連續動作空間中,理想的探索應是自相關的且下一步的噪聲受上一步噪聲的影響(即具有馬爾可夫性),而OU噪聲能夠圍繞均值正向或反向探索一段距離,有利于在一個方向上的探索,因此對Actor網絡進行改進,為其產生的action添加OU噪聲以提高探索效率和算法穩定性。神經網絡整體的結構設計相同。如圖2所示,以Actor網絡為例,將SV的狀態向量輸入到64×64的編碼器中,并將編碼器的輸出向量與AV的狀態向量作為全連接層FC的輸入,通過計算得到加速或減速動作。
1.2場景設計
使用Carla模擬器中的Town03地圖布置場景,如圖3所示。其中橙色車輛為自動駕駛決策車輛,藍色車輛為社會車輛。紅線為十字路口邊界,自動駕駛車輛能否成功通行無信號交叉口以其車身全部超過此線為一次任務完成,紫線表示社會車輛交通流路線,綠線表示自動駕駛車輛根據車道標識產生的全部路線,所有車輛都遵循固定的路線。本文主要討論自動駕駛車輛在無信號交叉口右轉通行的情況。
1.2.1訓練場景
在訓練場景中,社會車輛的行為模型遵循兩個原則:a)將其加速至目標速度后保持不變;b)社會車輛采用自動緊急制動(AEB)系統對潛在沖突作出反映。AEB系統會檢測前方一定范圍內的障礙物,一旦檢測到就會進行緊急制動直到碰撞檢測解除,隨后再加速至目標速度。Carla中SV的行為模型可由內置的Autopilot功能實現。Autopilot是一個基于規則的自動駕駛框架,包括導航、規劃和控制模塊,該功能通過隨機規劃路線控制SV通行交叉口,由布爾開關控制是否開啟該功能以避免與其他車輛發生碰撞。本實驗中關閉所有SV的Autopilot功能實現相對更隨機的交通流。采用一組可調的動力學參數(交通流中每輛車的目標速度v和相鄰車輛之間的間隔距離d)進行實例化。在訓練過程中同一交通流中每輛車所對應的目標速度和間隔距離是不同的,提出了一種基于Ornstein-Uhlenbeck(OU)過程的動力學參數生成方法,OU過程為整個交通流生成一系列動力學參數,并將參數依次賦予交通流中每一輛社會車輛。OU過程的隨機微分方程為
1.2.2測試場景
測試場景與訓練場景相同,但不同之處在于確定性測試中同一交通流相鄰社會車輛之間的間隔距離是固定的,如圖4所示,目標速度值v在[10,40]km/h均勻采樣,間隔距離d在[15,50]m內均勻采樣,步長均為2。除確定性測試外,另外提出用于評估AV駕駛決策的隨機性測試,在隨機性測試中,社會車輛的速度和間隔距離隨機,且關閉了防碰撞功能,提供了更隨機的交通流。
1.3右轉駕駛決策
1.3.1定義狀態空間
在無信號交叉口場景下,研究難點在于自動駕駛車輛與社會車輛之間的交互。本實驗使用AV和SV在Carla地圖中顯示位置變化的坐標值表示狀態。其中,自動駕駛車輛狀態向量定義Se=[ve,l],ve表示AV車輛的速度,l為一個三維的one-hot向量用于表示自動駕駛車輛的當前位置。SV的狀態向量定義為SV=[vi,x,vi,y,xi,yi,cos(θi),sin(θi)],vi,x,vi,y表示社會車輛i在x和y二維方向上的速度,xi,yi表示社會車輛i的卡笛爾坐標,θ表示自動駕駛車輛坐標系下的航向角。整體狀態空間由AV和周圍5輛社會車輛組成,將這6個狀態向量連接到一個33維向量中并將其作為強化學習的輸入狀態向量。
1.3.2定義動作空間
在強化學習中將自動駕駛車輛的加速度作為控制動作,動作空間定義為二維連續向量a=[a0,a1],其中a0和a1分別表示正向加速度(即加速運動)和反向加速度(即減速運動),通過用a′=a0-a1向量進行速度跟蹤,并將其控制在[0,9]m/s內作為自動駕駛車輛的目標速度,動作噪聲表達式為
1.3.3獎勵函數
獎勵函數影響到深度強化學習是否能夠收斂并取得預期效果,合適的獎勵有利于AV學習到良好的行為策略。根據文獻[21]將獎勵函數設置為Rfinal=Rt+Re,其中Rt表示每一個時間步長的獎勵,Re表示一個回合結束后的最終獎勵。訓練過程中各個事件的獎勵定義為
2仿真與分析
本章首先定義了評估自動駕駛性能的指標,隨后介紹了實驗的相關超參數設置,最后在設定場景下進行深度強化學習訓練并對其訓練后的行為策略進行測試,記錄相關指標的平均值。
2.1評估指標
自動駕駛車輛在仿真環境中進行有限回合次數的訓練,訓練效果的好壞需要通過一些指標來描述,許多指標可用于衡量自動駕駛車輛的行為,安全性和通行時間是最常見的性能指標。本實驗將通行成功率和平均通行時間作為衡量自動駕駛車輛在該算法框架下的性能評估指標。其中通行成功率定義為
2.2超參數設置
本文利用PyCharm作為開發工具,使用TensorFlow進行深度學習,總訓練回合數目為10000,其中帶有OU噪聲的回合數為2000。訓練過程中主要超參數如表1所示。
2.3結果與分析
本實驗在訓練AV時,通過對圖4中兩種不同情景進行右轉—直行交通流、右轉—左轉交通流與兩個交通流同時參與的三組訓練,并在確定性測試和隨機測試中,利用基于規則的自動緊急制動(AEB)模型和同為AC框架的DDPG算法與改進后的TD3算法進行比較。
2.3.1訓練結果
無信號交叉口下右轉任務的強化學習曲線如圖5所示。從圖中可以看到,右轉任務在2000回合內快速收斂,5000回合內收斂至穩定狀態,自動駕駛車輛在面對單一交通流的情況下能夠保持較高的穩定性,但面對兩個交通流同時參與訓練的情況時有輕微波動,造成輕微波動的原因在于兩個不同方向的交通流混合訓練,相較于單一交通流來說情況更為復雜,對于AV學習也有一定的難度。
以右轉—直行交通流為例,使用高斯噪聲的TD3算法與改進后的TD3算法在5000回合內目標動作探索曲線如圖6所示。基于OU噪聲的動作能夠朝某個方向探索更多可能,基于高斯噪聲的動作獨立不相關,雖然也能夠探索更多可能但造成前后速度不連貫,不符合實際車輛在時序上的連貫性。
2.3.2測試結果
a)確定性測試。在確定性測試中,將TD3算法與基于規則AEB模型和DDPG算法分別對訓練的三組場景進行比較。AEB模型的核心是碰撞時間TTC。TTC定義為
DDPG算法能夠解決連續高維動作空間問題,借鑒了DQN的經驗回放機制打破訓練數據的相關性,在每次更新replaybuffer時,Actor和Critic網絡會隨機抽取一部分樣本進行優化,減少訓練過程中的不穩定性。由于同一個網絡參數頻繁地進行梯度更新以及被用于計算網絡梯度導致學習過程不穩定,DDPG算法通過創建兩個目標網絡,通過softupdate的方式對目標網絡參數更新,從而很大程度上提高了訓練的穩定性。而TD3算法在DDPG算法穩定的基礎上,解決了過估計值等問題,本研究中通過增加噪聲使得TD3算法在目標動作上能夠探索更多可能。基于DDPG算法實現的AV與TD3算法的狀態空間、動作空間與獎勵函數相同。實驗結果如表2所示,改進后的TD3算法通行成功率明顯高于AEB模型,相較于DDPG算法有所提升,且基于TD3算法訓練的模型通行成功率均接近90%,平均通行時間低于AEB模型和DDPG算法下的決策。
b)隨機測試。在隨機測試中,交通流的動力學參數是從一個區間中均勻采樣的,避免交通流過于密集。因此,與確定性測試相比,AV在每項任務上的成功率更高。隨機測試結果如表3所示,基于TD3算法的AV在成功率和平均時間方面均優于AEB模型和DDPG算法,改進后TD3算法整體成功率在90%以上。基于規則的方法由于其輸入有限,無法在交叉口檢測與SV交通流的潛在碰撞,從而導致通行成功率低的現象。基于TD3算法訓練的自動駕駛車輛具有良好的適應新環境的能力。
3結束語
本文研究自動駕駛車輛在無信號交叉口右轉通行的駕駛決策。首先在Carla平臺搭建仿真環境并構建社會車輛行為模型,有效提高車流隨機性;之后將獎勵通過事件定義,有效提高策略收斂速度;最后對駕駛策略進行評估。實驗結果表明,在隨機車流的情況下,使用改進后的TD3算法訓練得到的駕駛策略,在通行成功率、平均通行時間方面相較于基于規則的AEB模型和基于DDPG算法的策略都有顯著優勢。在自動駕駛領域中換道操作同樣重要,因此在下一步工作中實現換道決策,綜合考慮原車道與目標車道的狀態,通過對車輛進行橫向控制和縱向控制實現換道動作。
參考文獻:
[1]HoelCJ,Driggs-CampbellK,WolffK,etal.Combiningplanninganddeepreinforcementlearningintacticaldecisionmakingforautonomousdriving[J].IEEETransonIntelligentVehicles,2019,5(2):294-305.
[2]段續庭,周宇康,田大新,等.深度學習在自動駕駛領域應用綜述[J].無人系統技術,2021,4(6):1-27.(DuanXuting,ZhouYukang,TianDaxin,etal.Areviewofdeeplearningapplicationsinautonomousdriving[J].UnmannedSystemsTechnology,2021,4(6):1-27.
[3]KamranD,LopezCF,LauerM,etal.Risk-awarehigh-leveldecisionsforautomateddrivingatoccludedintersectionswithreinforcementlearning[C]//ProcofIEEEIntelligentVehiclesSymposium.Piscata-way,NJ:IEEEPress,2020:1205-1212.
[4]IseleD,RahimiR,CosgunA,etal.Navigatingoccludedintersectionswithautonomousvehiclesusingdeepreinforcementlearning[C]//ProcofIEEEInternationalConferenceonRoboticsandAutomation.Piscataway,NJ:IEEEPress,2018:2034-2039.
[5]SilverD,LeverG,HeessN,etal.Deterministicpolicygradientalgorithms[C]//Procofthe31stInternationalConferenceonMachineLearning.2014:387-395.
[6]張斌,何明,陳希亮,等.改進DDPG算法在自動駕駛中的應用[J].計算機工程與應用,2019,55(10):264-270.(ZhangBin,HeMing,ChenXiliang,etal.ApplicationofimprovedDDPGalgorithminautomaticdriving[J].ComputerEngineeringandApplications,2019,55(10):264-270).
[7]歐陽卓,周思源,呂勇,等.基于深度強化學習的無信號燈交叉路口車輛控制[J].計算機科學,2022,49(3):46-51.(OuyangZhuo,ZhouSiyuan,LyuYong,etal.Vehiclecontrolatno-signalintersectionbasedondeepreinforcementlearning[J].ComputerScience,2022,49(3):46-51).
[8]HubmannC,BeckerM,AlthoffD,etal.Decisionmakingforautonomousdrivingconsideringinteractionanduncertainpredictionofsurroundingvehicles[C]//ProcofIEEEIntelligentVehiclesSympo-sium.Piscataway,NJ:IEEEPress,2017:1671-1678.
[9]CaiPanpan,LeeY,LuoYuanfu,etal.Summit:asimulatorforurbandrivinginmassivemixedtraffic[C]//ProcofIEEEInternationalConferenceonRoboticsandAutomation.Piscataway,NJ:IEEEPress,2020:4023-4029.
[10]DosovitskiyA,RosG,CodevillaF,etal.Carla:anopenurbandrivingsimulator[C]//Procofthe1stConferenceonRobotLearning.2017:1-16.
[11]裴曉飛,莫爍杰,陳禎福,等.基于TD3算法的人機混駕交通環境自動駕駛汽車換道研究[J].中國公路學報,2021,34(11):246-254.(PeiXiaofei,MoShuojie,ChenZhenfu,etal.LanechangeofhumanmachinehybriddrivingautonomousvehicleintrafficenvironmentbasedonTD3algorithm[J].ChinaJournalofHighwayandTransport,2021,34(11):246-254.
[12]ZhangFengjiao,LiJie,LiZhi.ATD3-basedmulti-agentdeepreinforcementlearningmethodinmixedcooperation-competitionenvironment[J].Neurocomputing,2020,411:206-215.
[13]QianLilin,XuXin,ZengYujun,etal.Deep,consistentbehavioraldecisionmakingwithplanningfeaturesforautonomousvehicles[J].Electronics,2019,8(12):1492.
[14]BuehlerM,IagnemmaK,SinghS.Autonomousdrivinginurbanenvironments:bossandtheurbanchallenge[J].JournalofFieldRobo-tics,2008,25(8):425-466.
[15]MontemerloM,BeckerJ,BhatS,etal.Junior:theStanfordentryintheurbanchallenge[M]//TheDARPAUrbanChallenge:AutonomousVehiclesinCityTraffic,GeorgeAirForceBase.Berlin:Springer,2009:91-123.
[16]TreiberM,KestingA,ThiemannC.Trafficflowdynamics:data,modelsandsimulation[M].Berlin:Springer,2013.
[17]ZhouMofan,QuXiaobo,JinSheng.Ontheimpactofcooperativeautonomousvehiclesinimprovingfreewaymerging:amodifiedintelligentdrivermodel-basedapproach[J].IEEETransonIntelligentTransportationSystems,2017,18(6):1422-1428.
[18]WeiJunqing,DolanJM,LitkouhiB.Apredictionandcostfunction-basedalgorithmforrobustautonomousfreewaydriving[C]//ProcofIEEEIntelligentVehiclesSymposium.Piscataway,NJ:IEEEPress,2010:512-517.
[19]SongWeilong,XiongGuangming,ChenHuiyan.Intention-awareautonomousdrivingdecision-makinginanuncontrolledintersection[J].MathematicalProblemsinEngineering,2016,2016:articleID1025349.
[20]WangFeng,ShiDongjie,LiuTeng,etal.Decision-makingatunsigna-lizedintersectionforautonomousvehicles:left-turnmaneuverwithdeepreinforcementlearning[EB/OL].(2022-12-21).http://doi.org/10.48550/arxiv.2008.06595.
[21]KnoxWB,AllieviA,BanzhafH,etal.Reward(mis)designforautonomousdriving[EB/OL].(2022-03-11).http://doi.org/10.48550/arxiv.2104.13906.