基于深度強化學習的車輛緊急制動策略

2022-11-24 02:29:14方若愚劉國鵬朱長盛殷朝霞遲瑞豐

長春工業大學學報 2022年3期

韓玲，張暉，方若愚，劉國鵬，朱長盛，殷朝霞, 遲瑞豐

(長春工業大學機電工程學院，吉林長春 130012)

0 引言

啟發式算法自動緊急制動可在危險情況下主動采取制動措施，有效保護車輛駕駛員及其他交通參與者，是保證行車安全關鍵部分[1]。隨著汽車智能化的發展，緊急制動作為不可或缺的環節，其重要程度更加得到凸顯[2]。

近年來，自動緊急制動得到廣泛關注與研究，目前自動緊急制動方法主要分為兩類：基于建立安全時間或安全距離模型的方法和通過評估風險建立碰撞概率模型的方法。文獻[3-4]提出基于安全距離-時間模型相結合的汽車緊急制動控制策略，基于安全時間模型設計了以相鄰車輛、相鄰車輛相對速度為輸入，建立安全時間與安全距離相結合的模型，通過警報分級制動等方式確保行車安全。劉哲等[5]提出通過使用安全時間模型求解期望減速度，防止車輛碰撞。此類通過建立模型的方法在簡單路況或單一場景下通常具有良好的效果，但在動態過程中通常難以建立準確的模型，且所建立模型很難適應變化的環境。

基于評估風險的緊急制動方法也得到廣泛應用，Lee D等[6]提出通過先輕減速，隨后預測碰撞概率決定減速力度的方式，有效避免了過度減速對自車及周圍車輛可能造成的危險。孟柯等[7]通過風險預測對最危險目標碰撞態勢進行實時判斷，從而降低車輛與行人間的碰撞概率。基于風險模型的方法通過選擇碰撞概率最小的動作避免發生碰撞，然而行車過程中的風險因素是動態變化的，難以利用風險模型完全描述。

隨著算力的提升，以DQN為代表的深度強化學習方法展現了獨特的優勢，獲得了廣泛應用[8-9]，DQN通過其獨特的動作-批評結構與環境交互訓練，實現自主決策。不依賴于精確的數學模型，對解決復雜動態規劃問題有良好的表現[10]。因此，為解決緊急制動問題，提高行車過程中的安全性，首先推導DQN算法，并依據緊急制動過程建立深度強化學習環境，隨后構建基于DQN的緊急制動策略，所構建策略可通過與環境交互自主學習實現在危險情況下自主判斷剎車幅度，并且不需要針對環境建立精確復雜模型。

1 深度強化學習算法

1.1 DQN與環境交互過程

DQN與環境交互過程如圖1所示。

圖1 DQN與環境交互過程

DQN通過與環境交互探索最優策略。其交互過程為：t時刻動作網絡從環境中獲取狀態st，根據狀態計算所有動作的Q值，并選擇Q值最大的動作執行與環境交互，環境根據動作執行后產生的影響，返回獎勵值rt，批評網絡依據返回的獎勵值重新計算動作的Q值，稱為該動作的目標Q值，損失函數依據動作網絡計算得到的Q值與批評網絡計算得到的目標Q值的差距，對動作網絡進行梯度更新，批評網絡的更新依據每隔一段時間完全復制動作網絡的參數進行更新。

1.2 DQN算法

Q值作為評價動作優劣的指標與環境返回的獎勵值相關，因此，首先定義動作執行后的獎勵為

(1)

式中：Rt----t時刻動作執行后環境反饋的獎勵，由當前時刻與未來時刻獲得獎勵構成;

rt+i----當i為0時，表示當前獲得的獎勵,i大于0時，表示未來時刻獲得的獎勵;

β----折扣系數，表示未來時刻對獎勵的影響程度。

DQN策略可執行動作被預先定義好，則任一動作ax的Q值定義為

Q(st,ax)=E(Rt|s=st,a=ax)。

(2)

Q(st，ax)表示在狀態st下動作ax的Q值，則式中表示動作的Q值為動作獲得獎勵的期望值。

明確動作的Q值后，進一步明確動作網絡的輸入與輸出，動作網絡作為神經網絡只需要明確其輸入輸出即可，動作網絡表達為

V動作(ω)=maxE(Q(st,a1),(st,a2),…,(st,an)),(3)

式中：ω----網絡參數。

動作網絡在t時刻狀態st下，依據當前狀態，估計所有動作的Q值，并選擇Q值最大的動作為輸出。將式(1)代入式(2)得

E(rt+maxβ(Q(st+1,a1),Q(st+1,a2),…,

Q(st+1,an))|s=st,a=ax)。(4)

t時刻動作的Q值可由t時刻立刻獲得的即時獎勵與下一時刻動作的Q值構成。

依據式(4)，批評網絡提取動作執行后環境反饋的獎勵與估計下一時刻最優動作的Q值，計算當前時刻動作的Q值，批評網絡表示為

V批評(ω)=rt+βmaxE(Q(st+1,a1),Q(st+1,a2),

…,Q(st+1,an))，

(5)

式中：rt----動作執行后立即獲得的獎勵。

由于批評網絡所依據即時獎勵為動作執行后環境反饋，而動作網絡估計的Q值是通過預估得到，因此批評網絡計算得到的Q值被視為更接近真實值。

通過將動作網絡估計得到動作的Q值與批評網絡計算得到動作的Q值代入損失函數，根據損失函數計算結果對動作網絡進行梯度更新，令動作網絡估計得到的Q值不斷逼近批評網絡計算得到的Q值，使動作網絡具備依據環境輸入狀態選擇合適動作的能力，損失函數被定義為

L(ω)=maxE(Vcritic(ω)-Vactor(ω))2=

maxE[((rt+βmaxE(Q(st+1,a1),

Q(st+1,a2),…,Q(st+1,an)))-

(maxE(Q(st,a1),Q(st,a2),…,

Q(st,an))))2]。

(6)

DQN算法即通過動作網絡選擇合適的動作進行輸出與環境交互，批評網絡根據環境反饋重新計算動作的Q值，并通過在損失函數內對動作網絡進行更新的方式，得到最優策略，與大多數策略依據建立精確復雜的模型不同，DQN只需建立用于交互的環境模型，適應動態復雜的交通環境，且具備自主學習探索策略的能力。

2 基于DQN算法的緊急制動策略

2.1 緊急制動過程環境建模

DQN算法通過與環境交互，自主探索最優策略，因此，首先建立緊急制動過程的環境模型，模型由兩部分組成，車輛前方攝像頭獲取的圖像以及當前車速。攝像頭獲取的圖像如圖2所示。

圖2 攝像頭獲取圖像

2.2 深度強化學習元素

為建立基于提出DQN算法的緊急制動策略模型，需定義深度強化學習與環境交互時的重要元素，分別為狀態、動作和獎勵。

2.2.1 狀態

建立環境模型，模型由所有時刻車輛前方攝像頭獲取的圖像以及當前車速構成。則DQN策略由環境輸入狀態，即為當前時刻車輛前方攝像頭獲得圖像及當前時刻車速。

2.2.2 動作

DQN可執行的動作需要預先定義，因此定義剎車動作，剎車幅度為0至1.0，剎車幅度為0時，則不剎車，為1.0時表示剎車開度最大，因此定義6個動作，分別為剎車幅度0，0.2，0.4，0.6，0.8，1.0。

2.2.3 獎勵函數

獎勵函數用以反饋動作執行后的即時獎勵，獎勵函數定義為

式中：α----獎勵折扣系數，以確保未產生碰撞時獎勵為正;

d----與前方車輛距離，則產生碰撞返回一個負獎勵，而安全停止返回一個正獎勵，且與前車距離越接近5 m，則獲得獎勵越大。

2.3 基于DQN的緊急制動策略模型

基于DQN的緊急制動策略如圖3所示。

t時刻環境模型將當前車速與車前攝像頭獲取圖像作為狀態st輸入動作網絡，動作網絡根據狀態估計所有動作的Q值，并選擇其中Q值最大的動作at執行，動作執行后環境返回即時獎勵rt,并更新狀態為st+1,將st,rt,at,st+1存入經驗池中，批評網絡依據st+1,rt重新計算動作Q值，并與動作網絡估計的Q值一同輸入損失函數，根據損失函數結果梯度更新動作網絡，批評網絡的更新則通過每隔一段時間完全復制動作網絡的參數完成。

圖3 基于DQN的緊急制動策略

3 仿真與結果分析

為驗證所提出基于DQN的緊急制動策略的性能，在Carla仿真環境中進行仿真驗證，如圖4所示。

圖4 Carla仿真環境

Carla為一款開源的無人駕駛仿真軟件，可實時獲取車輛速度及車輛前置攝像頭圖像等，在Carla仿真環境中，設置兩個場景，對比基于DQN的緊急制動策略與基于專家決策的緊急制動性能。

仿真場景一如圖5所示。

圖5 仿真場景一

黑色車輛為實驗車輛，白色車輛為其他車輛，黑色車輛實驗中分別搭載訓練后的基于DQN的緊急制動策略及基于專家決策的緊急制動策略，兩車在實驗過程中以不同速度行駛，初始距離為30 m，白車于行駛過程中急剎車，觀察實驗車輛的制動情況。

兩車以不同速度行駛如圖6所示。

圖6 不同速度實驗車輛與前車相距距離

分別搭載基于DQN的緊急制動策略與搭載基于專家決策的制動策略下，前車急停后，實驗車輛停止時與前車相距距離，速度較低時，基于專家決策的方法停止后距離前車大于基于DQN的緊急制動策略；而當速度較高時，基于專家決策的方法剎車距離小于基于DQN的緊急制動策略，且當速度大于120 km/h后，基于專家決策的方法與前車發生碰撞，而基于DQN的緊急制動策略始終保持不發生碰撞，且速度較低時，停止后與前車距離維持在5 m附近，而在速度較高時，其停止后距離也大于基于專家決策的方法，且始終未產生碰撞，所提出基于DQN的緊急制動策略具有更好的安全性。

仿真場景二如圖7所示。

圖7 仿真場景二

黑色車輛為實驗車輛，白色車輛為其他車輛，實驗車輛分別搭載基于DQN的緊急制動策略與基于專家決策的緊急制動策略，當距離路口不同距離時,白色車輛以150 km/h從路口駛出，并在道路中央停止，分別在不同距離下進行20次實驗，記錄兩種方法發送碰撞的概率。

距離路口不同距離下發生碰撞概率如圖8所示。

圖8 距離路口不同距離下發生碰撞概率

在與路口相距不同距離下，實驗車輛分別搭載兩種方法發生碰撞的概率，基于DQN的緊急制動策略最大避免碰撞的距離為6 m，而基于專家決策的緊急制動策略的最大避免碰撞距離為9 m，在最大避免碰撞距離內，車輛碰撞率為100%。隨著距離增加，兩種方法碰撞概率下降，基于DQN緊急制動策略始終保持比基于專家決策的緊急制動策略更低的碰撞率。基于DQN的緊急制動策略完全避免碰撞的最小距離為24 m，基于專家決策的緊急制動策略完全避免碰撞的最小距離為27 m，在與路口距離大于最小避免碰撞距離時，可以完全避免產生碰撞，因此基于DQN的緊急制動策略，其避免碰撞距離與完全避免碰撞距離均小于基于專家決策的緊急制動策略，且在可能產生碰撞的距離內，碰撞概率始終小于基于專家決策的緊急制動策略，驗證了所提出基于DQN的緊急制動策略的安全性。

4 結語

基于DQN設計了基于深度強化學習的緊急制動策略,所設計策略與環境自主交互學習，在不同環境下實現自動緊急制動，基于Carla仿真平臺與專家決策進行對比仿真驗證，結果表明,所提出策略具有更高安全性。