智能網聯汽車自動駕駛行為決策方法研究

2021-06-19 03:39:46徐澤洲曲大義洪家樂宋曉晨

復雜系統與復雜性科學 2021年3期

徐澤洲，曲大義，洪家樂，宋曉晨

(1.青島市城市規劃設計研究院，山東青島 266071；2.青島理工大學，山東青島 266520)

0 引言

駕駛決策是交通安全永恒的話題，車輛在交叉口的交通事故仍有發生，剖析車輛交互駕駛行為對駕駛決策具有重要的指導作用。駕駛決策是車輛在進行駕駛操作時通過實時獲取車輛之間的交通信息，做出更安全的判斷，實現車車安全交互的目的，提高行車的安全性和快速性。自動駕駛車輛通過安裝各種先進感知設備實現自動運行，減少人為產生的交通事故[1]。隨著智能網聯、車路協同技術的發展，自動駕駛技術有望代替人從“車—道路—人”的控制系統徹底分離開來，從源頭解決道路運行中的交通問題[2]。然而，由于各種實際交通運行環境復雜多變，自動駕駛仍然極具挑戰。

智能駕駛技術包括網絡導航、自主駕駛，車上的傳感器通過收集交通環境信息，進行認知計算控制相應的控制系統。自主駕駛是車輛從人工向智能的轉變，完全自動駕駛面對的是復雜多變的道路環境，無法被抽象成公式或簡單邏輯去使機器執行。對此國內外學者進行了廣泛且深入的研究，Lange等[3]通過深度強化學習方法構造深度自動編碼器，利用任務相關信息改進特征空間拓撲結構的方法成功地學習良好的控制策略，直接合成真實的圖像。Lange和Riedmiller等[4]提出深度擬和Q學習框架，嘗試對模型小車進行控制。Mnih等[5]將深度學習與強化學習方法結合進行決策與控制，給控制決策領域開啟了一種解決問題的新思路。Chae等[6]提出了一種基于深度強化學習的新型自動制動系統，當遇到碰撞風險時，所提出的自動制動系統利用傳感器獲得的障礙物信息自動決定是否在每個時間步長應用制動，而用于制動控制的策略是通過DQN方法進行計算機模擬學習，實驗表明該控制策略在各種不確定環境中表現出了理想的控制行為，避免了汽車碰撞。Sallab等[7]采用深度確定性策略梯度算法在開放賽車模擬器中訓練自動駕駛汽車決策模型，并在TORCS上進行了測試，仿真顯示在復雜的彎曲道路和其他車輛簡單交互的情況下自主機動的學習決策。Vasquez等[8]提出了一種基于深度強化學習的多目標自主制動系統，制動控制策略通過使用兩種強化學習方法(即最近策略優化和深度確定性策略梯度)的計算機模擬來學習，并仿真比較了兩種方法的效率。結果表明，該系統能夠在保持安全制動運行的同時，將對乘客舒適性的負面影響降低一半。智能網聯技術為車輛精確控制和車輛軌跡優化提供了巨大的活力，Wang等[9]對過去十年間CAV(Connected Automated Vehicle)優化研究進行總結，對CAV軌跡優化研究進行分類梳理。CAV精確控制和軌跡優化主要包括優化目標模型、場景構建、通信類型、CAV占有率及基于各種場景的現場實驗。Ubiergo等[10]將跟馳模型和排放模型結合，模擬CAV通過信號交叉口的行為，提出一種V2I環境下的速度反饋控制策略，討論車輛滲透率、交通擁堵水平、通信類型和定位精度以及跟車模型本身幾個參數對策略的影響，并進行不同場景實驗進行分析來驗證策略的效果。Yao等[11]在Ubiergo的基礎上提出一種基于軌跡優化的可變限速系統，利用V2I通信的車載設備來平滑車輛軌跡，使車輛在不同時間不同路段采用不同的速度快速通過信號控制的交叉口，減少停車次數及時間損失、提高交通流的通行效率從而降低油耗。Jiang等[12]提出了一個獨立交叉口聯網環境下AV(Automated Vehicle)生態駕駛系統，通過AV的速度分布來優化整個交通流。AV的速度通過最優控制問題求解，通過服務水平、油耗、排放等參數進行模擬評估及分析。研究表明所提出的生態駕駛系統能夠消除信號控制引起的沖擊波，并對傳統車輛的阻抗和交通的隨機性具有魯棒性。Xu等[13]提出了一種交通信號優化和車速控制的協同方法，可以同時優化交通信號配時和車速軌跡，從而提高通行效率，降低燃油消耗。Han等[14]提出一種基于車隊的軌跡優化方法，幫助車輛以最大的速度通過交叉口。該方法通過間隙反饋控制系統將車隊的軌跡優化轉化為車隊領頭車的軌跡優化問題，從而平滑車輛軌跡來減少車隊停車，實現節油、緩解交通擁堵。夏偉等[15]研究了深度強化學習方法在自動駕駛方向中的應用，通過交互式學習階段獲取到具備自動駕駛能力的策略網絡模型。范鑫磊等[16]通過深度強化學習方法使得導彈自主規避決策更好，測試結果具備一定的泛化能力。徐國艷等[17]通過采用改進的確定性策略梯度算法，定義無人車的輸入和輸出狀態，討論車輛內外約束條件，通過設計靜態和動態障礙環境進行仿真訓練生成無人車避障的最優決策行為。楊順等[18]提出了一種基于多類型傳感數據訓練自動駕駛策略的方法，采用卷積網絡對傳感數據進行特征提取并進行組合，采用組合特征學習自動駕駛策略。通過TORCS軟件仿真中設計車道跟隨任務對提出的決策方法進行驗證，仿真結果表明基于多類型傳感信息進行深度強化訓練可以取得較好的車速和車輛橫向偏移控制效果。故針對交叉口自動駕駛車輛與其他車輛直行沖突的問題，構建自動駕駛汽車行為決策模型，采用深度確定性策略梯度算法在仿真平臺上對自動駕駛行為決策進行訓練優化，探索自動駕駛汽車通過交叉口的最優決策行為，并通過非支配排序遺傳算法對比驗證此算法的穩定性，保證自動駕駛車輛的安全性和舒適性，使得駕駛決策能夠更快且策略最優。

1 行為決策方法原理

1.1 算法原理

深度確定性策略梯度算法[8](Deep Deterministic Policy Gradient，DDPG)是將深度學習神經網絡融合進DPG的策略學習方法，包括Actor網絡和Critic網絡(如圖1所示)，利用深度神經網絡逼近確定性策略μ和行為值函數Q。

圖1 DDPG算法的網絡結構及其功能

DDPG算法結合了確定性策略方法和神經網絡作為函數逼近器,故DDPG有一個行動者和批評者網絡，算法的步驟如下：

首先將當前狀態s作為輸入提供給參與者網絡,計算當前狀態的輸出動作a

a=μ(s;θμ)+Nt

(1)

其中，a為當前狀態的輸出動作值；s為當前狀態；μ為行為策略；Nt為隨機噪聲；θ為神經網絡的更新參數；θμ為演員網絡的權重。

yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)

(2)

其中,yi為下一個狀態的目標行動者和目標批評者網絡的即時報酬和輸出的總和；ri為即時獎勵；γ為折扣因子；通過最小化的yi和使用批評者網絡計算的原始Q值之間的均方差損失來更新批評網絡,即Q(si,ai|θQ)。

目標更新方式為

ω′←τω+(1-τ)ω′

(3)

θ′←τθ+(1-τ)θ′

(4)

其中,Actor當前網絡、Actor目標網絡、Critic當前網絡、Critic目標網絡參數分別為θ、θ′，ω，ω′；τ是狀態-動作的序列，為軟更新系數。

DDPG的損失函數為

(5)

其中,φ(Sj)為狀態的特征向量。

確定性策略梯度公式為

(6)

其中,πθ為采樣空間；?θπθ(s)為分值函數；m為批量梯度下降的樣本數。

1.2 算法流程

輸入：Actor當前網絡，Actor目標網絡，Critic當前網絡，Critic目標網絡參數分別為θ、θ′、ω、ω′，衰減因子γ，軟更新系數τ，批量梯度下降的樣本數m，目標Q網絡參數更新頻率C。最大迭代次數T，隨機噪音函數Nt。

輸出：最優Actor當前網絡參數θ,Critic當前網絡參數ω。具體流程如圖2所示。

圖2 DDPG算法執行流程示意圖

2 決策模型構建

2.1 交叉口駕駛行為分析

由于交叉路口處車輛的行駛方向和路線不同，可能會發生碰撞，本文以無信號十字形交叉口為例。如圖3所示，黑色的自動駕駛汽車(AV)可能會與灰色的駕駛人汽車(HV)發生碰撞，灰黑色區域是可能的沖突區域。基于車輛在不同時間穿越十字路口，本文僅考慮駕駛人車輛的影響，建立了在這些空間中發生碰撞可能的決策模型。

圖3 無信號十字型交叉口沖突示意圖

2.2 模型構建及效果評價

減少制動被認為是一種直接的節油策略，這種策略產生了一種被稱為生態駕駛的駕駛實踐，有助于駕駛員實現更平穩的速度波動。生態駕駛包括以生態友好的方式駕駛(避免駕駛中的突然速度變化，并在最佳燃油速度附近保持恒定速度，這與提高燃油經濟性和減少排放有關)，生態路線包括選擇消耗最少能源和產生最小排放水平的路線。考慮在交叉路口車輛產生碰撞的速度，引入預估通行侵入區域時間差EPET參數[19](Estimating Post Encroachment Time)，該參數是指車輛通過沖突區域中心的時間差，可以有效地評估車輛任何角度的碰撞危險，如圖4所示。自動駕駛決策系統通過傳感器感知交叉口附近車輛運行的狀態來調整車輛速度，以節省延遲、燃料和排放。如果自動駕駛車輛預測到相鄰車道即將到來的車輛狀態，則可以相應地調節車輛的速度以避免急剎車或加速，從而減少能量消耗和污染物排放。

圖4 EPET原理示意圖

其中,TAv和THv分別是AV和HV到達沖突區域的時間。較大的EPET值意味著發生碰撞的風險較小,則有：

(7)

其中,U是收益函數，更大的U代表更理想的駕駛行為;Vcri是HV的預期速度，AV和HV在通過交叉口的速度均小于交叉口限定速度[14]。定義U負數的原因是為了方便觀測模型在通行效率上的表現。

3 仿真分析與對比

3.1 仿真分析

在OpenAI Gym軟件平臺上訓練DDPG算法(見圖5)；然后在Prescan上驗證DDPG算法的可靠性(見圖6)。仿真參數設置如下：選取多車場景測試算法，設置兩輛從北向南直行的駕駛人車輛(HV)，自動駕駛車輛(AV)作為研究對象，AV由決策算法控制行駛以確保安全、無碰撞地通過交叉路口。HV和AV的長度和寬度分別為4 800mm和2 178mm，兩車通信范圍為200m，交叉路口限速60 km/h。DDPG算法中，確定性行為策略網絡和評價策略網絡具有相同的結構，它們是具有兩個隱藏層(64-64)的多層感知網絡。采用基于隨機策略梯度的獨立探索網絡為DDPG算法探索策略，加快訓練時網絡的收斂速度。

圖5 OpenAI gym仿真平臺

圖6 Prescan仿真平臺

3.2 算法對比

基于非支配排序的多目標遺傳算法[20](Non-dominated Sorting Genetic Algorithms-Ⅱ，NSGA-Ⅱ)，通過引入精英策略,擴大采樣空間，對目標種群快速非支配排序,降低了算法的計算復雜度，提高了算法的運算速度和魯棒性。

為對本文提出的算法做出一個客觀的評價，將本文提出的DDPG算法與NSGA-Ⅱ算法進行對比,在同一場景下進行了兩組實驗，其中HV1和HV2距離交叉口的初始位置分別為10m和32m(南北方向)，AV的初始位置為30m(東西方向)，設置HV1和HV2以40km/h的速度勻速行駛，如圖7a和圖7b所示。分別基于NSGA-Ⅱ算法(A組)和DDPG算法(B組)對提出的交叉口多目標優化模型進行了訓練，并測試了算法的性能，結果如圖8所示。

圖7 不同算法交叉口仿真示意圖

圖8 不同算法求解的通行效率對比

A組中，AV在t=3s之前采取減速策略以等待HV1和HV2優先通過交叉口，t=3s后，HV1和HV2駛離交叉口，AV加速通過交叉口。通行過程中，當速度低于預期速度時(t=3s之前)，獎勵值下降，而當速度高于預期速度時(t=3s之后)，獎勵值上升，整個過程中A組的總獎勵為-44.184，如圖8a所示。B組中，AV采取效率通行策略，選擇在HV1和HV2之間通過交叉口，AV在t=2s時到達沖突區域，在HV2到達沖突區域前0.5s駛離。DDPG算法能探索最優行駛策略，使AV在交叉口通行過程中保持2m/s2的加速度，整個過程的總獎勵為-18.743，明顯高于A組，如圖8b所示。可以看出，B組中AV通過交叉口的時間相較于A組減少了1.5 s，加速度變化更小，這意味著DDPG算法能有效減少交叉口擁堵，提高通行效率。具體數據對比如表1所示。

表1 不同算法的效果評價

為了比較DDPG算法和NSGA-Ⅱ算法的穩定性，設置一組對比實驗，自動駕駛車輛(AV)的初始速度從30km/h至55km/h之間隨機選取。建立只有AV的單車場景，然后用訓練好的DDPG算法為AV生成最佳行駛策略，同樣將NSGA-Ⅱ算法設置為對比組，對同一交叉口通行任務進行10次重復實驗，結果如圖9所示。結果顯示，NSGA-Ⅱ算法用于求解該問題時，每次實驗都需要重新探索最優策略，因此在相同的車輛初始速度下，每次實驗的總獎勵都是完全不同的，而DDPG算法在同一初始速度下不需要重復探索最優策略，性能更穩定，因此DDPG算法的總獎勵平均值明顯高于NSGA-Ⅱ算法。值得一提的是，當初始速度超過50km/h時，發生碰撞的可能性大大增加，兩種算法的總獎勵平均值均下降。

圖9 DDPG和NSGA-Ⅱ算法穩定性對比

4 結語

通過對智能網聯汽車決策方法進行優化設計使得車輛應對復雜交通場景可以更加靈活安全，對比多目標遺傳算法，可以減少交叉口的沖突，提高通行效率。但智能網聯車輛在城市交叉口的決策過程通常受“人—車—路(環境)”的影響，受限于篇幅，本研究未考慮行人，非機動車，道路結構類型和交通流密度對車輛決策的影響。將來會研究和討論這些因素的影響，并考慮駕駛員與車輛之間的交互作用，以進一步改善真實道路下的智能車輛行為決策模型。