





















摘 要:為了解決車輛縱向速度規劃任務中規劃器不易收斂以及在多場景之間切換時穩定性差的問題,基于多層感知機設計了車輛縱向速度規劃器,構建了結合優先經驗回放機制和課程學習機制的深度確定性策略梯度算法。該文設計了仿真場景進行模型的訓練和測試,并對深度確定性策略梯度(DDPG)、結合優先經驗回放機制的深度確定性策略梯度(PER-DDPG)、結合優先經驗回放機制和課程學習機制的深度確定性策略梯度(CLPER-DDPG)3種算法進行對比實驗,并在園區內的真實道路上進行實車實驗。結果表明:相比于DDPG算法,CLPER-DDPG算法使規劃器的收斂速度提高了56.45%,距離差均值降低了16.61%,速度差均值降低了15.25%,沖擊度均值降低了18.96%。此外,當實驗場景的環境氣候和傳感器硬件等參數發生改變時,模型能保證在安全的情況下完成縱向速度規劃任務。
關鍵詞:自動駕駛;縱向速度規劃;深度確定性策略梯度(DDPG)算法;課程學習機制;優先經驗回放機制
Vehicle longitudinal speed planning based on deep reinforcement learning CLPER-DDPG
Abstract: To solve the problems of planner convergence difficulty in vehicle longitudinal speed planning and stability issues during scenario transitions, a planner was designed using a multilayer perceptron, incorporating the Deep Deterministic Policy Gradient (DDPG) algorithm with Prioritized Experience Replay (PER) and Curriculum Learning (CL). The simulation scenarios were designed for model training and testing, as well as comparative experiments among the three algorithms of DDPG, DDPG with Prioritized Experience Replay (PER-DDPG), and DDPG with both Prioritized Experience Replay and Curriculum Learning (CLPER-DDPG). Real-vehicle experiments were also carried out on actual roads within the Park. The results show that the CLPER-DDPG algorithm, comparing with the DDPG algorithm, the convergence speed of the planner is improved by 56.45%, the mean distance error is reduced by 16.61%, the mean speed error is decreased by 15.25%, and the mean jerk is lowered by 18.96%. Furthermore, when the parameters of environmental conditions and sensor hardware in the experimental scenarios are changed, the model could ensure that the longitudinal speed planning task will be completed safely.
Key words: autonomous driving; longitudinal velocity planning; deep deterministic policy gradient (DDPG) algorithm; curriculum learning mechanism; prioritized experience replay mechanism
合理的車輛縱向速度規劃有助于提高車輛控制的精確性、車輛行駛的高效性和駕乘體驗的舒適性,是輔助駕駛系統的重要組成部分。車輛縱向控制一般是指控制器采用特定控制方法來調整車輛的縱向運動狀態,通過間接或直接的手段對車輛縱向速度進行控制[1],其可分為上層車輛縱向速度規劃和下層車輛底盤控制。本文研究的對象是車輛縱向速度規劃,與底盤相關的車速跟隨和控制算法并不在本文的研究范圍之內。
傳統縱向速度規劃算法的設計往往與場景特征和動力學約束相關,能夠在保證安全性的同時,提供舒適的駕乘體驗,但在面對愈發復雜和多元化的道路交通,以及非結構化的場景時,通用的規劃算法難以達到最優的規控效果。為了解決這一問題,有諸多文獻提供了解決方法:一方面,可對不同場景分別設計縱向速度規劃算法,蘆勇等[2]分別針對定速巡航和跟車巡航設計了可在量產車上進行大規模部署的算法,李旭等[3]針對定速巡航和切入場景的切換提出了一種變權重的縱向速度規劃策略,張德兆等 針對靠近目標車輛和超越目標車輛時的2種模式設計了基于零期望加速度曲線的切換策略;另一方面,為了在不同情況下均能滿足最優性, ZHOU Yang等[5]設計了一種基于固定時差的隨機最優策略,相比于確定性反饋的策略,其在環境干擾較為嚴重的情況下具有更穩定的表現效果。從類人的角度出發,可能會更好地解決上述問題,CHU Hongqing等[6]設計了可根據不同駕駛風格進行自動調整的自適應巡航策略;韓天園等[7]結合駕駛負荷分配模型和彎道智能駕駛人模型,提出了一種由類人決策層與協同控制層組成的雙層彎道自適應巡航控制策略。此外,針對非結構化道路, 李涵等[8]以車輛平穩性為基本原則,提出了一種基于分段勻加速模型的全局速度規劃方法。
上述文獻有效解決了傳統縱向速度規劃算法在復雜道路交通場景中遇到的部分問題,但在不同場景之間進行切換時,規劃效果容易受到傳感器檢測精度、人為設定切換條件、切換時策略平穩性等方面的影響。在面對更加復雜的城市擁堵道路和車速較高的高速道路,快速響應且連續切換的縱向速度規劃策略會更加適合。機器學習,尤其是深度學習和強化學習,被廣泛應用于車輛自動駕駛的感知、預測、規劃、決策與控制等各子任務上 [9-10]。目前,有部分研究將機器學習應用于解決車輛縱向速度規劃問題。LI Guoqiang 等 [11]針對跟馳場景提出了一種基于強化學習的最優控制策略,允許在沒有前瞻速度信息的情況下對不同駕駛狀態進行連續的在線學習;朱冰等 [12] 利用 Gauss 過程算法構建了前車縱向速度變化隨機過程模型,并提出了一種能夠考慮前車運動隨機性的跟馳策略。
在深度強化學習中,深度確定性策略梯度(de ep deterministic policy gradient,DDPG)算法被廣泛應用,但在解決縱向速度規劃問題時存在以下問題:設備性能、環境氣候等客觀因素的噪聲均會直接影響模型訓練過程的收斂性和穩定性;當多場景混合形成了復雜工況時,場景之間邊界可能不明顯,難以人為區分場景進行訓練和優化。為了解決以上問題,本文結合優先經驗回放機制[13-14]和課程學習機制[15-16],針對車輛縱向速度規劃場景進行改進,構建了結合優先經驗回放機制和課程學習機制的深度確定性策略梯度(DDPG with both prioritized experience replay and curriculum learning, CLPER-DDPG)策略算法,提高車輛縱向速度規劃(簡稱規劃器,下同)的收斂速度;在仿真平臺上設計多場景連續變化的訓練與測試場景,并進行實車實驗,證明了算法的有效性和該規劃器的穩定性;通過改變仿真場景中的傳感器參數和天氣環境,驗證了該規劃器的魯棒性。
1"" 相關工作
1.1"" 深度強化學習算法
強化學習算法是從生物適應生存環境過程受到的啟發,智能體以不斷試錯的方式與周圍環境進行交互,獲取對狀態空間 s 的探知,生成離散或連續的動作 a,得到對應的獎勵值,并通過最大化累計獎勵的方式對策略 π 進行優化。值函數 [17] 常被用于直觀地評估智能體所生成動作的價值,在狀態空間 s下采取動作 a 獲得的累計獎勵期望越高,那么對應動作的價值越大。在 t 時刻時,基于策略 π,可用如式 (1) 和式(2) 所示的狀態價值函數 V (s) 和狀態動作值函數 Q (s, a) 進行價值
評估,其中 Rt 為當前時刻的累計獎勵。
Vπ(s) = E[Rt | s0 = s]," ""(1)
Qπ(s, a) = E[Rt | s0 = s, a0 = a]." ""(2)
在大多數情況下,動作 a 與狀態 s 之間存在較為明顯的線性或非線性關系。在解決實際工程問題時,可將優化后的策略 π 離散化,并以表格的方式進行存儲和使用。對于連續性較強的規控系統,可使用神經網絡代替策略 π 或值函數,π 以提高智能體對高維連續狀態空間的探知能力。DeepMind 團隊 [18] 提出了深度 Q 網絡 (deep Q-network,DQN),創新性地將卷積神經網絡與 Q-Learning 結合起來,并在游戲測試中達到了類人的水平。
1.2"" 深度確定性策略梯度算法
DeepMind 團隊 [19] 在 DQN 算法上進行改進,通過深度神經網絡對狀態動作值函數和確定性的策略進行逼近,提出了 DDPG 算法。該算法不僅能夠有效解決高維度連續動作空間的問題,還可以很好地解決值函數的收斂問題。DDPG 算法使用 Actor-Critic 算法架構,深度神經網絡由 Actor 網絡、Critic 網絡、Target- Actor 網絡和 Target-Critic 網絡組成。另外,算法內部加入 OU 噪聲(Ornstein-Uhlenbeck,Nt) 增加模型對環境的探索能力,并使用經驗回放池通過離線策略的方法進行神經網絡的訓練。
Actor 網絡使用參數 θ μ 表征當前的確定性策略,通過如式(3) 所示的方法進行參數優化;Critic 網絡使用 θ Q 表征對當前 Q 值的估計,通過最小化式 (4) 所示的損失函數的方式進行參數優化。
絡訓練的穩定性。其中,η 為軟更新系數。
1.3"" 優先經驗回放機制
優先經驗回放機制以每一個樣本的時間差分 (temporal difference,TD) 絕對值 |δ| 作為評價樣本價值的指標,如式 (7) 所示。對于第 i 份樣本,|δ| 值越大,該樣本具有的價值越高,其優先級越高。在采樣時基于|δi| 計算采樣概率 Pi,如式 (8) 所示。其中,α 為超參數,用于控制采樣時對優先樣本的關注度,α = 0 時為均勻策略采樣,α = 1 時為貪婪策略采樣。
為了消除優先經驗回放機制對樣本分布帶來的影響,本文在式(4)中引入了重要性采樣權重ω,可改為如式(9)所示。
其中:D為經驗回放池的大小;β為超參數,決定了優先經驗回放機制對收斂結果的影響程度,β = 1時優先經驗回放機制對收斂結果無影響。
1.4"" 課程學習機制
在本文中,訓練及驗證需要在仿真環境中進行,通過仿真的激光雷達傳感器獲取主車周圍的點云數據,并通過點云數據獲得目標車的距離和車速等相關信息。在這些數據的產生、處理和傳輸的方式和流程中,存在噪聲、波動以及異常數據,使算法的收斂速度變慢,智能體學習到有用知識的難度增大,需要耗費更多的時間來完成訓練。
課程學習是機器學習中的一種訓練策略,其模仿人類由簡至繁的學習過程,主張應該讓模型先從簡單的數據樣本開始學習,然后逐漸進階地學習更為復雜的數據樣本和知識,提高訓練速度。
2"" 細節設計
2.1"" 狀態空間設計
綜合已有的部分文獻 [2-4] 以及日常駕駛中常見的情況,本文將車輛縱向速度規劃場景作如下區分:跟馳場景、定速巡航場景、切入 / 切出場景和啟停場景。各場景內均考慮當前受控車輛為主車輛,主車輛所在道路的正前方第1 臺車輛為目標車輛。本文只進行車輛縱向速度規劃,動作空間 A 可直接定義為主車輛的目標車速 vtar,并基于固定車間時距 τ 的安全距離模型(constant time headway,CTH)和目標車輛橫向切入百分比 p 對狀態空間 s 進行如式 (10)—(12) 建模。
其中:vego為主車輛車速;voth為目標車輛車速;drea目標車輛與主車輛之間的距離;τ為車間時距;d0表示最小安全距離;Wa和W分別為目標車車身在主車輛所在車道前進方向的橫向寬度和目標車輛總橫向寬度。本文設定τ為3 s,d0為10 m。
綜上,狀態空間 s 由主車與目標車之間的距離差 Δd、速度差Δv 和車身百分比 p 組成。需要注意的是,對于定速巡航場景,本文將這 3 個狀態量都設定為 0進行表征。
本文將通過仿真器API所獲取的主車輛和目標車輛的位置和速度數據,稱為理想數據;將通過仿真傳感器獲取的點云數據和組合慣性導航數據,并以此為基礎所計算主車輛和目標車輛的位置和速度數據,稱為仿真數據。本文發現,在仿真數據和理想數據之間,voth存在較大的偏差,drea偏差相對較小,vego偏差最小。按照偏差大小進行過渡與排序,可設計如表1所示的進階式學習策略,總計有4個訓練階段。
2.2"" 神經網絡結構設計
在本文使用的算法框架中,Critic 網絡與 Target- Critic 網絡結構相同,Actor 網絡與 Target-Actor 網絡結構相同。Actor 網絡即為規劃器。
Critic 網絡和 Actor 網絡的模型結構分別如圖 1 所示。本文以全連接層(fully connected layers,FC)作為基本結構設計各網絡架構,各層網絡基本采用線性整流函數(recti?ed linear unit,ReLU) 作為激活函數,而 Actor 網絡輸出層采用雙曲正切函數(hyperbolic tangent function,Tanh) 作為激活函數,將其值域映射至(-1, 1)的范圍內,代表了主車輛的目標車速在整個場景中縱向車速限制區間或期望定速巡航速度區間的程度。 需要注意的是,v'tar 即為 Critic 網絡對 vtar 的估計值。
2.3"" 獎勵函數設計
設計優秀的獎勵函數可以提升網算法的訓練效率。本文所設計的獎勵函數包含了基礎獎勵和細化獎勵。細化獎勵由相近數量級的過程獎勵、安全獎勵和完成獎勵組成,如圖 2 所示。
基礎獎勵rb由s、vego、期望巡航車速vcru、縱向加速度a和權重系數 [ζ1, ζ2, ζ3, ζ4] 組成,如式(13)所示。在跟馳場景中,p = 1,rb由a、Δd和Δv決定;在定速巡航場景中,p = 0,r 由a、v 和v 決定;在切入/切出場景中,p在區間(0, 1)內變化,rb的側重點在跟馳場景和定速巡航場景之間隨著目標車輛切入/切出程度而進行轉變。基于此,rb可引導模型的側重點在不同場景下自由切換。
過程獎勵 r 是與Δd 相關的分段函數,主要用以評估當前跟車距離的合理性。當Δd 超過 50 m 時,說明主車輛已遠遠落后目標車輛,目標車輛對主車輛的影響幾乎為零;因此,rp 取最小并終止訓練過程。過程獎勵函數如式 (14) 所示。
完成獎勵 ra 是與當前回合所經歷的時間步驟 k 相關的線性函數,目的是引導模型盡量完整地完成車輛的縱向速度規劃任務。需要注意的是,當主車輛完整地走完一個訓練回合,ra = 0 ;當發生碰撞事故或者Δd超過 50 m 導致訓練過程終止時,ra 如式 (15) 所示。
r = -2×10 (1 200 -"k)." ""(15)
安全獎勵 rs 與是否發生碰撞相關。若兩車不發生碰撞,r = 0 ;當兩車發生碰撞事故使得訓練過程終止時,rs 如式 (16) 所示。
r = -2×10 ." ""(16)
在訓練過程中,各場景內環境隨機因素較多,過大的獎勵數值可能會使得網絡參數變化劇烈,導致收斂變慢甚至發散。本文對總獎勵函數設置縮聚因子 χ,使得梯度的數量級減小,訓練過程中更加穩定。綜上所述,總獎勵函數 r 如式 (17) 所示。
rs = χ(rb + rp + ra + rs)." ""(17)
2.4"" 超參數設計
本文所涉及的超參數如表 2 所示。
2.5"" CLPER-DDPG 策略算法設計
綜上,為引入優先經驗回放機制并結合課程學習機制的DDPG深度強化學習策略算法(CLPER-DDPG)。其偽代碼如表3所示。
3"" 仿真實驗
本文使用自動駕駛仿真軟件LGSV L Simulator和自動駕駛框架Autoware.AI進行聯合仿真。LGSVL Simulator部署于Windows 10 系統的計算機,其搭載了 Intel Core i7-8700K和NVIDIA RTX 2080 Ti; Autoware. AI與深度強化學習模塊部署于 Ubuntu 18.04 系統的計算機,其搭載了Intel Core i9-9900KF和NVIDIA RTX 2060。2臺服務器之間通過TCP/IP 協議進行通信。
3.1"" 仿真訓練場景設計
本文所設計的仿真訓練時序場景為如圖 3 所示的單向三車道,每條車道寬 3.75 m,總共包含 4 個階段,主車輛和目標車輛的初始速度分別為 25 、10 m / s。 Step1 為切入階段,目標車輛保持 10 m / s 的車速,采用五次多項式曲線進行換道;Step2 為跟馳階段;Step3 為切出階段,目標車輛保持 20 m / s 的車速,采用五次多項式曲線進行換道;Step4 為定速巡航階段。
3.2"" 不同學習策略對比
針對圖3 所示的仿真訓練場景,本文將DDPG 算法、 PER-DDPG 算法和本文構建的 CLPER-DDPG 算法所獲取的累計獎勵值進行對比,如圖 4 所示。
從圖4可以看出,PER和CL對 DDPG算法有明顯的改進。DDPG算法收斂效果一般,在第49回合之前累計獎勵曲線變化不明顯,在第62回合時能夠收斂到較高的獎勵值,但隨著訓練回合次數的增加,累計獎勵波動較大,并有減小的趨勢。PER-DDPG算法累計獎勵收斂效果較好,在第52回合時能夠收斂到較高獎勵值,收斂速度比DDPG算法提高了16.13%,PER的引入改善了經驗回放時對高價值數據的利用效果。CLPER- DDPG算法累計獎勵收斂效果最好,在第27回合時能夠收斂到較高的獎勵值,收斂速度比PER-DDPG算法提高了48.08%,比DDPG算法提高了56.45%,并能夠穩定地維持較高的獎勵值。DDPG、PER-DDPG、CLPER- DDPG 這3種算法所能達到的最高累計獎勵值分別為-5.41×106、-6.04×106和-1.87×106,單獨的PER對DDPG算法的最大累計獎勵值提升不明顯,但可有效抑制訓練過程中累計獎勵的波動,而結合CL可以有效提高算法的學習效果。因此,CLPER-DDPG算法在訓練時具有收斂快、收斂后累計獎勵穩定、波動小以及所能達到的最高累計獎勵高的特點。
3.3"" 仿真測試場景設計
為了驗證所訓練的規劃器在各種縱向速度規劃場景下的穩定性和在不同場景之間切換的有效性,本文設計了如圖5所示的仿真測試時序場景,其各場景的出現順序和持續時間與圖3所示的仿真訓練時序場景不同。該場景總共包含5個階段,主車輛和目標車輛的初始速度分別為25、10 m/ s。Step1為跟馳階段;Step2為切出階段,目標車輛保持20 m/ s的車速,采用五次多項式曲線進行換道;Step3為切入階段,目標車輛保持20 m/s的車速,采用五次多項式曲線進行換道;Step4為跟馳階段,目標車輛保持20 m/ s的車速勻速行駛;最后,目標車輛勻減速至0 m/s。
在此基礎上,本文設計了如表 4 所示的對照組。相比于仿真測試時原本的各狀態參數( 原始組 ),激光雷達組只改變了激光雷達的硬件參數,模擬不同型號激光雷達之間的差異性,天氣環境組只改變了光照、降雨、風速等參數,模擬不同時間和環境之間的差異性。
3.4"" 實驗結果分析
在不同仿真環境下,速度差 Δv 和距離差Δd 曲線如圖 6 所示。本文發現,在定速巡航階段中,天氣環境所引起的地面附著系數變化會影響主車輛的行車距離,進而影響目標車輛切入時的初始 Δd,主要體現在時序區間 [500, 520] s 內。從圖 6 中的原始組對應的曲線可知,仿真測試場景下主車輛與目標車輛之間能保持較為穩定的速度跟隨和距離保持,在切入場景中能及時調整安全的跟車距離。
不同對照組與原始參數組在 Δv 和Δd 上的平均偏差,如表 5 所示。為了便于分析,本文在對 Δd 的平均偏差進行分析時,屏蔽了[402, 518] s 范圍( 定速巡航場景)的數據。相比較于激光雷達組,天氣環境組中二者的偏差值相對較大,Δd 平均偏差增長了42.65%,Δv平均偏差增長了2.97%。本文認為,產生這個現象的原因在于天氣環境組中地面附著系數產生了較大的變化,與底盤相關的車速跟隨和控制算法受到了較大影響,進而導致Δv 和Δd 的平均偏差增大。在不同的對照組內,縱向速度規劃效果存在明顯的偏差,但均能夠順利完成縱向速度規劃任務,規劃器具有一定的魯棒性。
對于相同的仿真訓練場景和模型結構,DDPG 和 CLPER-DDPG 這 2 種不同算法所訓練的規劃器在相同仿真測試場景中的表現如表6 所示。相比于DDPG 算法, CLPER-DDPG 算法獲得了更好的結果,Δd 均值降低了16.61%,Δv 均值降低了15.25%,沖擊度均值可控制在 5.36 m / s3 以內,降低了18.96%。
4"" 實車實驗
本文以廣汽傳祺 GE3 純電動汽車作為實車實驗車輛( 主車輛 ),并有另一實驗人員按照一定規律駕駛汽車作為目標車輛,該 2 輛車與仿真實驗中的車輛車型相近,均為 SUV 型,具有相似的車輛動力學特性。主車輛搭載了128 線程車載激光雷達傳感器、GNSS 組合慣性定位導航系統等硬件設備。實驗場地為廣東省廣州市天河區華南理工大學五山校區的一條直線道路,長度約 400 m。受限于實驗場地的大小和安全性,本文對各個場景只設計了單獨的實驗。實驗車輛和實驗場地如圖 7 所示。
本文對跟馳、定速巡航、切入/切出和啟停4個場景分別進行了實車實驗,由于篇幅有限,此處只對切入/切出場景的結果進行展示和分析。
在切入場景中,主車輛首先以 20 km / h 的期望巡航車速行駛一段時間,隨后目標車輛以 10 km / h 左右的車速從左側車道平順地切入至主車輛的前方,并在主車輛所在的車道內保持直線行駛。其兩車之間的Δv和Δd 如圖 8 所示。
從圖8中可知,目標車輛在10.3~17.7 s的時間內進行了切入,并在切入之后保持了6.6 s左右的直線行駛。實驗結果數據表明,主車輛并未因為目標車輛的切入發生劇烈的速度波動,而是利用最小安全距離d0作為緩沖,緩慢降低其車速,縮小與目標車輛之間的速度差距,并合理控制安全的跟車距離。當目標車輛開始切入時,其車身百分比隨時間增加,縱向速度規劃策略將關注的重心從定速巡航逐步轉移至切入場景,并在3.5 s之后逐步轉移至跟馳場景,保持較好的速度跟隨,最大速度差為 2.996 km / h。
在切出場景中,目標車輛以 10 km / h 左右的車速在主車輛前方道路上直線行駛一段距離,隨后保持該車速平順地切出至左邊車道,并不再切入。兩車之間的 Δv 和Δd 如圖 9 所示。
從圖 9 中可知,目標車輛先保持 18.7 s 的直線行駛,并在 18.7~21.2 s 的時間內進行了切出。實驗結果數據表明:主車輛在初始階段快速進行速度調整,并保持良好的跟馳狀態;在目標車輛切出前,主車輛穩定地跟隨目標車輛進行行駛,其 Δv 和Δd 得到有效控制;此外,目標車輛的車速波動對主車輛的車速規劃影響被有效控制,兩車最大速度差為1.20 km / h;當目標車輛切出時,主車輛車速規劃主動降低,保持安全的跟車距離;隨著目標車輛車身百分比 p 的減小,算法將關注的重心逐步放到定速巡航場景中。
5"" 結""" 論
本文結合課程學習機制和優先經驗回放機制的優點,設計結合了優先經驗回放機制和課程學習機制的深度確定性策略梯度(CLPER-DDPG)深度強化學習策略算法,在仿真環境中對車輛縱向控制速度規劃器進行訓練,并在實車環境中進行驗證,為深度強化學習在車輛縱向控制算法中的應用提供了一種解決方案,并得到如下結論:
本文對訓練數據的波動情況進行分析,制定了進階式學習計劃,使訓練過程中的數據從理想數據向仿真數據進行平穩過渡,并使用優先經驗回放機制提高訓練過程對高價值樣本的利用率。試驗結果表明,相比于深度確定性策略梯度(DDPG),CLPER-DDPG算法可將訓練時長縮短 56.45%。
相比于DDPG算法,CLPER-DDPG算法所訓練的規劃器具有更好的表現效果,能更好地實現對目標車輛的距離跟隨和速度跟隨,距離差(Δd)均值為2.06 m,降低了16.61%,速度差(Δv)均值為1.067 m / s,降低了15.25%,沖擊度均值可控制在5.36 m / s3以內,降低了18.96%。
當激光雷達硬件或天氣環境發生改變時,主車輛對目標車輛的狀態檢測與估計存在波動,進而影響規劃器效果。相比于激光雷達硬件參數,天氣環境發生增長了42.65%,Δv 平均偏差增長了2.97%,但均能夠順利完成縱向速度規劃任務,規劃器具有一定的魯棒性。在未來的研究中,可基于本文所有構建的車輛縱向速度規劃器,同時考慮主車輛附近多個目標車輛的運動狀態,結合主車輛的動力學特性,使用更先進的深度強化學習算法,在復雜道路交通場景內構建車輛縱向控制器,直接實現對主車輛的速度跟隨與車輛控制。此外,可從全局多車方面考慮不同車輛的縱向速度規劃之間的協同,并設定碰撞邊界,提高多車場景的車輛通行效率和安全性。