詹吟霄, 劉瀟, 梁軍
(浙江大學 工業控制技術國家重點實驗室,杭州 310058)
近年來,為提高駕乘的舒適性和安全性,對智能車輛自動駕駛系統的研發顯著加速。自動駕駛系統的結構從上至下可分為感知模塊、決策規劃模塊和控制模塊[1]。其中,決策模塊負責各種離散的駕駛任務分解,如跟車、換道、超車等宏觀指令的產生。同時,決策模塊是上層感知與下層規劃控制模塊間的重要橋梁,它利用感知信息做出行為決策,并為下層規劃控制提供目標引導。作為自動駕駛系統的“大腦”,先進的決策模塊為安全、高效的自動駕駛提供了強有力的保障。
目前,智能車輛決策系統主要由基于規則、基于博弈論和基于學習的3類方法實現[2-5]。基于規則法是利用專家經驗、交通規則等建立決策規則庫,智能車輛則根據駕駛場景匹配合適的行為策略。其中,有限狀態機(Finite State Machine,FSM)是一種常見的基于規則的決策方法,它由有限個狀態組成,當前狀態接收事件,并產生相應的動作,引起狀態的轉移[6]。但此類事先確定場景-規則的方法無法應對環境中的不確定性。此外,有限狀態機法均需人為劃分狀態并制定狀態轉移規則,因而存在規則完備性的固有問題[7]。
基于博弈論法是將車輛的換道決策視為一種使自身利益最大的非合作博弈行為。該方法充分考慮具有博弈沖突車輛的行為交互,在解決換道沖突的過程中有較好的表現效果。KITA 等[8]首次將博弈論法引入到車輛匝道匯入場景中,換道車輛與目標車道車輛通過互相預測對方行為選擇最佳決策。張妙然[9]利用信號傳遞博弈融合不同駕駛員的特性,設計了不同場景下不同風格駕駛員的收益函數,提出了一個混合交通流中的換道決策機制。但此類方法的博弈矩陣制定存在問題,車輛的決策組合制定通常是不完整的,無法將各類換道情況包含在內,適用條件有限,在突發情況或極端工況下,難以保證正常使用[10]。
基于學習法是通過適當的學習方式從數據中優化行駛策略,根據實時環境信息匹配合理的駕駛動作,主要以模仿學習(Imitation Learning,IL)[11-12],強化學習(Reinforcement Learning,RL)[13]為代表。BOJARSKI 等[14]基于卷積神經網絡(Convolutional Neural Networks,CNN),對車載視覺傳感器的圖像數據進行模仿,學習決策控制,并在不同道路場景中進行了測試。宋威龍[15]將復雜的行為決策問題分解為橫、縱向決策兩個子問題,針對縱向決策,建立了基于部分可觀測馬爾科夫過程(Partially Observable Markov Decision Process,POMDP) 的決策模型,使智能車輛能考慮道路中其他車輛的駕駛意圖,以便安全有效地行駛。PAN Yunpeng等[16]提出了一種端到端的模仿學習系統。該方法通過模擬配備先進傳感器的模型預測控制器,訓練了一種深度神經網絡控制策略,將原始高維觀測值映射到連續的轉向和油門指令。但模仿學習方法需要大量的數據支持,存在模型訓練成本高、泛化能力差等不足[17]。
強化學習是一種解決序貫決策問題的方法,可在與環境在線交互過程中習得優化策略。深度強化學習(Deep Reinforcement Learning,DRL)是強化學習與深度神經網絡相結合的一種學習方法[18],近年來已在諸多領域得到迅速發展,如游戲(Atari Games and Go)[19-20]、機器人控制[21]和股票交易[22-23]。眾多學者也將該項技術應用到無人駕駛領域,如MIRCHEVSKA 等[24]使用深度Q 網絡(Deep Q-Network,DQN)法進行智能車輛高速場景換道行為決策,在仿真環境下證明了該方法性能優于傳統的基于規則法;MO Shuojie 等[25]在SUMO 環境下,利用雙深度Q 網絡(Double Deep Q-Network,DDQN)法對智能車輛的縱向速度和換道決策進行學習。但是,這些方法在策略學習過程中存在高偏差、學習效率低等缺點[26]。同時,安全性是所有自動駕駛系統開發的第一要義。而強化學習法的核心思想是通過與環境的交互探索以期獲得最大的獎勵,但不一定保證學習或執行階段的安全,即智能體可能會執行不安全的操作。
因此,本文提出了一種基于深度強化學習與風險矯正的智能車輛決策模型。主要工作包括以下4項:
1)利用Highway-env[27]環境搭建高速交通環境,并采用強化學習中的近端策略優化算法(Proximal Policy Optimization,PPO)[28]構建智能車輛決策模型,輸出離散動作空間下的自動駕駛決策指令;
2)在模型框架中引入自注意力安全機制,使目標車輛能過濾行駛中的復雜信息,重點關注與決策指令存在潛在風險的相關車輛;
3)為了進一步提高學習和執行階段的安全性,本文增加了風險矯正模塊,以降低在復雜交通環境下智能車輛執行危險行為的風險;
4)通過仿真驗證本文決策模型的有效性。
本文決策研究的整體框架,如圖1 所示。決策模型將仿真環境中的車輛行駛信息作為輸入,通過自注意力安全機制驅動的深度強化學習模塊學習駕駛策略,并利用風險矯正模塊矯正決策動作,從而指導智能車輛在高速駕駛環境中更安全地行駛。在模型的狀態空間中須包含智能車輛駕駛過程中的運動學信息,即包括自身狀態以及周圍環境信息。本文選取了5 個特征量作為狀態空間,并建立了由5種駕駛決策指令構成的動作空間,結合風險矯正模塊,智能車輛可以根據指令執行不同的駕駛操作。最后,決策模型在獎勵函數的引導下進行優化策略探索學習。

圖1 決策研究整體框架
強化學習的基礎模型為馬爾科夫決策過程(Markov Decision Processes,MDP),它常被定義為一個五元組M=(S,A,P,R,γ)。其中,S 和A分別為狀態和動作;P為狀態轉移概率函數P(s′|s,a);R:S × A →R為當前狀態-動作對下的獎勵值;γ定義為折扣因子,用來衡量未來獎勵在當前狀態下的累計獎勵中的權重。強化學習的最終目標是尋找一個最優策略π*,使智能體在其指引下所獲累計獎勵最大。
PPO 算法是一種基于演員-評論家(Actor-Critic,AC)框架的強化學習算法,它不僅具有適應性強,訓練穩定等特點,并且相較于之前的置信域策略優化[29](Trust Region Policy Optimization,TRPO)算法更易于實現。因此,本文采用PPO 算法作為智能車輛決策模塊的決策算法。
為了使算法在采樣數量減少的情況下也可以達到較好的訓練效果,PPO算法引入了比例項r(θ)來描述新舊策略之間的差異,如式(1)所示。
在此基礎上的目標函數為:
式中:π(a|s)為策略在狀態s下選擇動作a的概率;θ為策略參數;為t時刻的優勢函數;ε為超參數,表示Clip 的截斷范圍。Clip 函數的引入限制了策略的更新幅度。此外,本文采用一種廣義優勢估計(Generalized Advantage Estimator,GAE)來估算優勢函數,其計算式為:
式中:V(st)為值函數;rt為獎勵函數。γ一般取0.99,而λ取0.95~1。PPO 算法提出的目標函數可以在多回合訓練中以小數量樣本迭代更新,解決了策略梯度中步長難以確認和更新差異過大的問題。
使用深度強化學習法解決車輛的換道決策問題,首先需要定義狀態空間S。通常情況下,目標車輛的狀態可以由其運動學信息,如位置、速度和航向角描述[30-32]。同時,為了運用自注意力安全機制表征不同個體間的交互關系,狀態空間的描述還應包含周圍車輛關于本車的相對運動狀態。
因此,智能車輛所處的高速道路環境可以由一系列車輛狀態向量s表示,如式(4)所示。
目標車輛和周圍車輛的狀態向量分別為s0和si,如式(5)~(6)所示。
本文的研究場景為同向三車道的高速公路,為覆蓋較復雜的行駛情況,選取目標車輛相鄰兩車道距離最近的各3 輛車,以及目標車輛和前后距離最近的2 輛車,共計9 輛車構成狀態空間。其次,相比普通公路其路面鋪設質量較好,車速變化較為緩慢,所以假設車身和懸架系統都是剛性系統,并忽略車輛在垂直方向的運動,認為車輛是一個在二維平面上的運動物體,可使用自行車模型的狀態量來描述車輛的當前狀態。
因此,本文中N= 8,s1,2,…,8為目標車輛周圍的8 輛車。狀態空間如圖2 所示,圖中,S0由目標車輛的絕對運動信息構成;x0,y0為目標車輛在環境中的橫縱坐標;,為橫向速度和縱向速度;φ0為車身航向角;Δxi,Δyi為臨近車輛與目標車輛之間的相對橫縱距離;,為橫縱速度差;φi為車身航向角。如果周圍車輛不足8 輛,則將空缺si中的Δxi,Δyi設置為較大值,,設置為較小值,φi=φ0。

圖2 狀態空間表示
深度強化學習算法的動作空間A 由自動駕駛車輛的所有決策指令構成,如式(7)所示。
本文共定義了5 種駕駛行為,即車輛向左側換道a0= LC_Left,右側換道a1= LC_Right,直行加速a2= LK_Up,直行減速a3= LK_Down 和保持當前駕駛狀態a4= LK。
自注意力機制(Self-attention Mechanism)是一種將內部信息觀察和外部信息觀察相對齊,以增加局部特征表達準確度的注意力方法[33-34]。該項機制能自動學習數據間的特征,無需人工標注,降低了對外部信息的依賴。基于此特性,本節提出了一種自注意力安全機制,并將其結合到提出的行為決策模型中。自注意力安全機制可使目標車輛過濾無用信息,并重視與車輛行駛軌跡存在潛在碰撞風險的周圍車輛,從而使模型可以作出避免碰撞并且保持安全行駛的行為決策。
本節自注意力安全機制采用的是基于transformer 框架[35]的multi-head 結構,與之不同的是本文只計算目標車輛對應分支的輸出,如圖3 所示。首先,將目標車輛和周圍車輛的狀態變量si∈R1×5輸入相同的編碼器(Encoder),得到對應的嵌入量ei∈R1×dx(Embedding),編碼器通常為多個相同的規范化操作和共享權重的多層感知機(MLP)。之后所有車輛的嵌入量共同傳入多頭注意力層(Muti-Head Attention)。

圖3 自注意力安全機制網絡結構
圖4 展示了目標車輛分支中一個注意力頭(Ego-attention Head)的工作原理[36]:為了篩選當前環境中可能會對本車行駛造成影響的周圍車輛,首先,目標車輛的嵌入量e0通過線性映射Lq∈Rdx×dk, 生成一個查詢單元(Query) Q =[q0]∈R1×dk。其次,將查詢單元與一組鍵值單元(Key)K =[k0,…,kN]∈RN×dk進行比較。這些鍵值單元包含每輛車的描述性特征ki,是不同車輛的嵌入量ei用共享參數的線性映射Lk∈Rdx×dk計算得到。最后,為評估查詢單元和鍵值之間的相似性,對Q 和K 進行點積運算q0kTi。將計算結果按1/dk進行縮放,其中dk是鍵值單元的維度,并應用softmax 函數歸一化,獲得對應表征單元(Value)V =[v0,…,vN]的權重。其中,v0∈R1×dv也使用共享線性映射Lv∈Rdk×dv進行計算。特別注意,K和V 的值是由當前駕駛環境中所有車輛計算而來,而查詢單元Q 僅由目標車輛生成。綜上所述,每個注意力頭的注意力向量,如式(8)所示。

圖4 目標車輛自注意力頭的結構
式中:o為單個注意力頭輸出的注意力向量。
多個不同頭的注意力向量堆疊形成注意力矩陣M∈Rn×dv,其中n為注意力頭的數量。
所有注意力頭的輸出最終與一個多層感知機相連接,產生的張量可被視為輸入信息添加到基于強化學習的行為決策模型中。通過引入自注意力安全機制,可使決策模型更關注決策目標車輛的行駛安全性,有效減少訓練過程中的碰撞風險。
通過改變優化指標和在執行階段采用行為矯正是兩種較常見的提高強化學習安全性能的方法[37]。僅修改模型的目標函數,會使智能體的行為策略變得更謹慎,但仍無法保證其不執行危險行為。而驗證行為的安全性并對風險行為進行矯正,可以確保智能體在執行過程中的安全。因此,本文在PPO 算法的輸出層后新增風險矯正模塊,對可能產生的風險決策行為進行矯正,從而保證模型在探索和執行階段的安全性。
深度強化學習算法的輸出是自動駕駛車輛的決策指令。本文將PPO 算法產生的決策指令輸入風險矯正模塊中,判斷當前決策是否存在與周圍車輛發生碰撞的可能。某個高速行駛場景中的風險矯正案例,如圖5 所示。圖中,綠色矩形為目標車輛,藍色矩形表示周圍車輛。在圖5a時刻,目標車輛做出向左車道換道的決策。通過行駛軌跡預測,對駕駛風險進行評估,判斷目標車輛與前車有碰撞的風險,如圖5b 所示。因此,矯正模塊會對決策指令進行矯正:停止向左換道的行為并判斷當前車道的行車狀態。由于當前車道前車與目標車輛距離較遠,所以目標車輛可選擇加速行駛超過左側車輛,如圖5c所示。

圖5 風險矯正場景
在運行過程中,目標車輛需實時與當前車道的前后車輛保持安全的行車距離。在本文中,理想的行車間距如式(9)~(10)所示[38]。
式中:vf為后車速度;δ為通信時延;δ·vf(t)為因通信延遲導致決策發生變化前,后車繼續行駛的距離。δ取值大小應按照實際通信情況而定,較大的數值會使決策模型偏于保守,通行效率降低,反之則偏于激進,增加碰撞風險,本研究將其設為20 ms。Gmin為預先設定的最小安全距離,防止車輛低速行駛時(如前方道路擁堵vf≈0,Gsafe≈0)與前車間距過近。其取值大小可按駕駛者偏好設定,但不宜過小,僅在極限狀況下生效,對決策模型性能的影響較小,本研究將其定義為3 m。dp和df則分別表示前、后車輛的制動能力。
同時,在產生換道決策時,也要兼顧換道目標道路上的行車安全,對車輛規劃的駕駛軌跡進行安全性評估也是矯正模塊中的重要環節。如果換道動作的未來軌跡與臨近車輛的距離不在安全范圍內,則應保持車道選擇合適速度維持安全距離。
然而,如何對車輛未來的行駛軌跡進行有效預測是一個挑戰。本文仍采用較傳統的假設[39-40],即車輛在縱向保持當前速度勻速直線運動,后續會嘗試運用更加先進的軌跡預測技術。車輛的縱向軌跡可被定義為:
式中:xt,分別為當前采樣時刻車輛的縱坐標和縱向速度。風險矯正模塊通過對車輛駕駛決策的評估,對危險行為進行矯正,使車輛始終接收和執行更加安全的決策指令。
深度強化學習在獎勵函數的引導下進行優化策略探索學習,如何設計獎勵函數尤為關鍵。本文中的獎勵函數R包括3 項,它們反映了效率、安全及最優目標車道。設計的目標是在避免與周圍車輛發生碰撞的前提下,智能車輛可以在安全的車道上盡可能快地行駛。模型的獎勵函數可分為瞬時獎勵和動作獎勵,瞬時獎勵項定義為:
式中:rcollision∈{0,1}為智能車輛的碰撞情況;vmin,vmax分別為高速允許通行的最低速度和最高速度,本文的速度范圍為[20,30] m/s。vsv為智能車輛的行駛速度。Flane為最優車道項,其函數定義為:
式中:lane_id為車道編號。在本文的環境中,車道編號自右及左逐次為1、2、3 車道。最優目標車道項的目的是規范智能車輛盡量不要占用最右側車道,應保持中間車道或超車道行駛,而在同向三車道的場景下,車輛在中間車道遇險時相對擁有更多的換道選擇,因此,在中間車道行駛的獎勵值更高。ω1,ω2和ω3分別為3 項的系數,依據試驗經驗,取值為0.5、0.1 和1。同時,為避免過多的換道行為對交通環境造成不利影響,獎勵函數會增加懲罰項RLC= -0.1。特別注意,雖然風險矯正模塊已將危險決策進行糾正,但獎勵函數上仍需要體現該錯誤決策所帶來的危險,因此,設置該錯誤決策的懲罰項Ra= -0.1。當輸入風險矯正模塊的決策行為是安全無需矯正的,則該懲罰項為0。Ra需區別于瞬時獎勵中懲罰發生碰撞后果的rcollision項。
綜合上述影響駕駛決策行為的瞬時獎勵和動作獎勵項,最終的獎勵函數為:
此外,MNIH 等[41]指出,獎勵的規范化在DRL 中有加快收斂的作用。為方便與其他方法比較,本文將獎勵函數的值規范化在[0,1]區間內。
Highway-env 是一個輕量級的自動駕駛決策仿真環境。本文利用該環境建立一個三車道高速駕駛場景,其中包括采用自動決策系統的目標車輛(Subject Vehicle,SV)及其周圍的行駛車輛。目標車輛中配置一個模擬激光雷達傳感器,可以在目標車輛周邊感知車輛駕駛信息,包括左右前方、正前方、正后方和左右后方的車輛。傳感器的感知范圍為150 m。仿真環境及車輛的主要參數信息見表1。

表1 仿真環境及車輛主要參數說明
在仿真環境中,行為決策模型輸出的5 種駕駛行為由獨立的底層連續控制器實現。縱向控制器為比例控制器,其車輛加速度控制量如式(15)所示。
式中:a為車輛加速度控制量;v為車輛速度;vr為目標速度;Kp為控制器比例增益。動作a2,a3,a4在執行層面的區別在于vr不同。橫向控制器為結合了逆向運動學模型中非線性因素的比例-微分控制器,其位置控制計算和航向控制計算分別如式(16)~(17)所示。
式中:vlat,r為橫向速度指令;Δlat為車輛與車道中線的橫向距離;Δφr為應用橫向速度指令的航向變化;φL為車道線的航向;φr為跟隨車道線航向和位置的車輛目標航向;φ˙r為偏航角速度指令;δ為前輪轉角控制量。動作a0,a1的區別在于Δlat和φL的不同。
為體現環境的隨機性,周圍車輛在場景中的原始位置為隨機給定。同時,為了更好地模擬真實的高速環境,周圍車輛的駕駛行為不會一成不變,而是根據實時的駕駛信息自主決策。本文采用智能行駛模型[42](Intelligent Driver Model,IDM)和最小化變道引起的整體制動(Minimizing Overall Braking Induced by Lane Changes,MOBIL)模型[43]對周圍車輛實行行為決策和控制。
本文利用Highway-env 搭建了三車道動態高速駕駛仿真環境,將每次仿真的最大時長設置為40 s,并對每個模型進行20 萬次訓練。為了驗證自注意力安全機制對決策安全性能的提升,本章節同時設計了3 種不同結構的深度強化學習決策模型(PPO_attention、PPO_CNN、PPO_mlp),模型的結構信息見表2。

表2 決策模型網絡結構
同時,為了不影響智能體的探索過程,在訓練過程中,沒有將風險矯正模塊連接至決策模型的輸出端,該模塊只在測試階段與基于自注意力機制的PPO 決策算法相結合形成智能車輛安全決策模型(PPO_safe)。試驗定義安全率為無碰撞仿真次數與仿真次數之比,3個模型在訓練過程中每階段(2 048次仿真)的安全率和累積獎勵值,如圖6所示。

圖6 模型訓練過程中的安全率和獎勵值
由圖6a 可知,自注意力安全機制驅動的PPO_attention 模型在訓練初始就保持了較高的安全率,并在整個訓練階段始終保持在90%左右;而對比模型PPO_cnn和PPO_mlp的安全率雖然整體都呈上升趨勢,但二者的安全率分別穩定在80%和60%左右,意味著二者在訓練階段常發生碰撞事故。圖6b 是3 個決策模型的累積獎勵值,其中PPO_cnn的獎勵值最高,這是因為獎勵函數的設計鼓勵快速行駛,而該模型偏向于追求更快的行車速度,忽略行駛安全。雖然PPO_attention模型的獎勵值略低于PPO_cnn 模型,但其安全通過測試的成功率明顯高于PPO_cnn模型,同時獎勵值也優于未結合自注意力安全機制的傳統PPO_mlp模型。
為了保障智能車輛在執行階段的安全,本文將完成訓練的PPO_attention模型和風險矯正模塊相結合,并構建智能車輛安全決策模型PPO_safe。分別對4種模型進行測試,每個仿真片斷(epoch)時長為100 s,無碰撞事故發生的安全率,如圖7 所示。PPO_safe模型在測試執行階段保持了較高的安全率(99%),其安全性得到了驗證。

圖7 模型測試階段的安全率
測試執行階段中,不同模型在每個仿真周期內的平均速度和換道次數,如圖8 所示。結合圖7 可知,雖然PPO_cnn和PPO_mlp模型到達了較高的駕駛速度,換道頻率也遠大于其他對比模型,但二者的行駛安全率卻低于60%,表明其在行駛過程中容易發生事故,并不能保證行為決策的安全。雖然PPO_safe 模型的換道頻率要低于PPO_attention,但在測試中其整體速度要高于PPO_attention模型。結果表明本文提出的PPO_safe模型,在執行階段保證安全性的前提下可以做出更有效的決策,即以較少的換道行為獲得更快的駕駛速度,規避了一些無意義的換道操作,使智能車輛的行駛過程更為安全高效。

圖8 模型測試階段的平均速度和換道次數
在測試階段,試驗選擇模仿學習中的BC 模型[44]、GAIL 模型[45]和強化學習中常用的離散決策模型DQN[46]作為對比模型。模仿學習中的專家數據集由PPO_safe 模型生成,共采集了300 組決策序列作為專家數據。此外,對比模型中還包含了基于規則的MOBIL+IDM 模型和自適應巡航模型(IDM with no lane change),其模型參數與Highwayenv 中的默認參數保持一致。表3 中記錄了BC 模型、GAIL 模型、DQN 模型、MOBIL+IDM 模型、IDM 模型和已經完成訓練的PPO_safe 模型、PPO_attention 模型的安全率、平均速度和平均換道次數。由表可知,基于模仿學習的BC模型和GAIL模型的安全率并不高,凸顯了二者泛化能力較差的缺點;同時,這兩種模型并沒有出現換道決策動作,是因為專家數據集中的換道指令占比較小,而基于模仿學習的駕駛行為決策通常高度依賴于專家數據,導致模型沒有成功習得換道策略。其中,結合風險矯正模塊的PPO_safe模型的安全率最高,表明其在測試過程中發生碰撞的風險最小。同時,PPO_safe 模型的平均速度也在7 種模型中位列第2。相較于沒有換道行為的IDM 模型,PPO_safe 模型利用有限的換道操作提升了駕駛效率;反觀相對頻繁換道的PPO_attention模型,其平均速度并沒有提升。因此,在保障安全駕駛的要求下,有效的換道行為可以提升行駛速度,改善道路通行效率。

表3 各模型測試結果
最后對PPO_safe 模型的魯棒性進行試驗分析。在真實的系統運行過程中,智能車輛傳感器采集的實時信息會受到噪聲的影響。通過在狀態空間中加入不同等級標準差的高斯白噪聲(White Gaussian Noise)可模擬傳感器數據可能產生的誤差及噪聲。分別在狀態空間加入低等噪聲(1%)、中等噪聲(5%)和高等噪聲(15%),對PPO_safe 模型進行100 個仿真片斷的測試,并使用信噪比(Signal-to-Noise Ratio,SNR)衡量所有信號和噪聲平均功率的對比。3 種等級噪聲影響下的決策結果,見表4。
將表4 與表3 對比可知,在加入低等噪聲干擾時,模型的安全率不會受到明顯影響。而在中等噪聲和高等噪聲的干擾下,PPO_safe模型的安全率會下降,其換道次數也會降低,但決策系統整體上仍體現出較高的安全性能。
此外,周圍車輛駕駛意圖的不確定性也會對模型的決策產生影響。改變IDM模型的安全車頭時距(默認值為1.5 s)和MOBIL 模型的換道效益閾值(默認值為0.2 m/s2)會形成不同的縱、橫向駕駛策略。因此,向周圍車輛決策模型中的參數引入隨機擾動可以模擬駕駛意圖的不確定性。分別為IDM和MOBIL 模型的參數加上標準差為其默認值15%、20%和25%的高斯噪聲,并對PPO_safe 模型進行100 個仿真片斷測試。在3 種等級不確定性影響下,PPO_safe模型的決策表現,見表5。

表5 引入駕駛意圖不確定性后的模型測試結果
將表5 與表3 對比可知,周圍車輛駕駛意圖的不確定性并未使PPO_safe模型的安全率和平均速度顯著下降,決策系統仍表現出較高的穩定性。
上述試驗表明,本文提出的PPO_safe模型對傳感器誤差和噪聲具有良好的魯棒性,并且能較好地應對周圍車輛駕駛意圖的不確定性。
本文設計了一種基于強化學習與風險矯正的智能車輛決策模型。在行為決策框架中引入了自注意力安全機制,提高了智能車輛在復雜高速場景下決策的安全性。此外,還設計了風險矯正模塊,在執行階段對決策動作進行風險評估與矯正,保證智能車輛的駕駛安全。該模型利用目標車輛及其周圍車輛的實時駕駛信息,在每個采樣點使用深度強化學習法生成車輛決策指令。仿真結果表明,該方法相比單純的強化學習法在策略執行的安全性和學習速度上有顯著提升,且相比模仿學習和傳統基于規則的決策模型,基于強化學習和風險矯正的決策模型在復雜高速場景下具有更高的行車效率和低事故率。
雖然基于深度強化學習的決策模型能通過訓練獲得使未來回報最大化的最優策略,在每個采樣時刻根據當前實時、確定的信息做出最優決策,但是道路中其他交通參與者的駕駛行為充滿不確定性,僅從單一時刻的交通狀態難以正確辨別其他車輛的意圖,做出合理決策。未來的研究會嘗試向深度強化學習模型中引入RNN 或LSTM 等序列數據處理網絡,使決策模型能充分利用本車以及周圍車輛的歷史狀態信息。