999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于橫縱向聯合控制的多目標優化車輛跟馳研究

2022-12-31 00:00:00李孟凡秦文虎云中華
計算機應用研究 2022年8期

摘要:為解決車輛在擁堵環境中因車速波動較大所帶來的跟馳平穩性較差、跟蹤無效或不安全等問題,提出了基于車輛模型和深度強化學習的多目標優化跟馳方案。首先基于車輛橫縱向動力學建立車輛跟馳模型,然后根據車間距誤差、速度誤差、橫向偏差及相對偏航角等,利用深度確定性策略梯度算法得到跟馳車的加速度和轉向角,以更平穩安全地控制跟馳車輛。經NGSIM公開駕駛數據集進行測試與驗證,該方案可有效地提升跟馳車輛的穩定、舒適與安全性,對保證交通安全和提升道路通行能力具有重要意義。

關鍵詞:車輛跟馳; 橫縱向聯合控制; 深度確定性策略梯度; NGSIM

中圖分類號:TP391文獻標志碼:A

文章編號:1001-3695(2022)08-028-2409-05

doi:10.19734/j.issn.1001-3695.2021.12.0687

Multi-objective optimal car-following model with lateral and longitudinal control

Li Mengfan, Qin Wenhu, Yun Zhonghua

(School of Instrument Science amp; Engineering, Southeast University, Nanjing 210096, China)

Abstract:Due to the large fluctuations and poor stability of the vehicle in the congested environment, it is difficult to track the vehicle in front of it in time. This paper developed a multi-objective optimal car following algorithm. The algorithm used a vehicle lateral and longitudinal dynamic model and deep reinforcement learning to establish a car-following model. Then, according to the vehicle distance difference, speed difference, lateral deviation, and relative yaw angle, the deep deterministic strategy gradient algorithm obtained the acceleration and steering angle of the following vehicle. Therefore, the algorithm could control the following car more smoothly and safely. After testing and verificating with the NGSIM driving data set, the results show that this method can effectively improve the stability, comfort, and safety of car following. It can promote traffic safety and improve road capacity.

Key words:car following; lateral and longitudinal control; deep deterministic policy gradient; NGSIM

0引言

車輛跟馳是重要的自動駕駛輔助技術,能夠減輕駕駛員的駕駛負擔,提高駕駛舒適性,減少交通安全事故。但在交通擁堵狀況中由于車輛頻繁加減速,跟馳效果較差,所以低速跟馳研究得到了廣泛關注[1]。

以往的自動駕駛跟馳模型多為理論驅動,主要在車輛跟馳行為基礎上,以數學、物理學模型表達跟馳過程中的各種狀態,建立符合駕駛經驗的車輛跟馳模型。首個跟馳模型由Pipes[2]提出,其假設跟馳車速度與車間距成正比,根據車間距決策跟馳車速度,建立車輛跟馳模型。之后,基于交通流異質性、人類因素、道路因素等陸續提出了基于安全距離、心理生理、刺激反應以及元胞自動機等車輛跟馳模型,但理論驅動跟馳模型難以綜合考慮上述各種影響因素,模型預測精度較差,在描述復雜車輛跟馳行為時不夠準確。

得益于智能交通的發展,大規模高精度車輛軌跡數據為基于數據驅動的車輛跟馳提供了研究基礎,通過對車輛軌跡數據的統計分析,挖掘出有關駕駛行為規律,建立對應的擬合關系,從而實現車輛的有效跟馳[3]。目前,數據驅動車輛跟馳模型有基于模糊邏輯、支持向量回歸、人工神經網絡、深度強化學習模型等。其中深度強化學習跟馳模型[4]是近年的研究熱點,如卷積神經網絡、遞歸神經網絡、長短時記憶神經網絡等方法逐步應用于車輛跟馳研究中。Zhu等人[5]利用深度強化學習得到了車輛跟馳策略,建立了從跟馳速度、相對速度、車間距到跟馳加速度的仿人映射模型。Pan等人[6]基于逆強化學習對真實駕駛數據分析后,獲取了人類駕駛員的駕駛特征,設計了獎勵函數,得到了更加自然的跟馳駕駛行為。朱冰等人[7]基于近端策略優化算法建立了車輛跟馳控制策略及基于雙前車跟馳結構的主車縱向控制架構,實現了車輛跟馳控制。模型預測控制[8](model predictive control,MPC)多應用于跟馳場景中,Hu等人[9]開發了一種基于MPC的控制器來優化車速和發動機扭矩,在確保跟馳安全的同時實現更好的燃油經濟性和更少的廢氣排放。Mao等人[10]基于MPC算法,設計了可以在線更新權重系數的多目標優化方法,實現了更好的跟馳跟蹤性能和穩定性。與其他模型相比,深度強化學習車輛跟馳模型能夠通過不斷地學習適應不同的駕駛環境,具有更好的泛化能力,有助于開發與人類駕駛行為更相似的自主駕駛算法和交通流模型。

駕駛員在跟車行駛時,意識到車輛偏離期望軌跡時,通常會通過降低速度和增大跟車距離,以減小橫向控制風險和縱向事故風險[11]。車輛在曲率變化的道路上行駛時,若模型對橫向控制不足,會影響車輛的操縱穩定性。通常的跟馳研究大多考慮了縱向加速度決策而忽略了橫向路徑跟蹤,且主要集中于對人類駕駛行為的模擬而忽略了對駕駛行為的優化。本文基于車輛橫縱向聯合控制并考慮安全性、舒適性,利用深度強化學習算法得到同時決策加速度和轉向角的車輛跟馳模型,使車輛有效地跟隨前車行駛。

1車輛動力學模型

在跟馳車輛的運動控制中,首先需建立車輛動力學模型,該研究根據轉向和牽引系統,簡化轉向系統,直接輸入前輪轉角作為跟馳車方向盤轉角,基于車輛橫向運動、橫擺運動以及縱向運動,建立車輛的三自由度動力學模型如下[12]:

x=vy+(Fxfcos δ-Fyfsin δ+Fxr)/m

y=-vx+(Fxfsin δ+Fyfcos δ+Fyr)/m

=((Fxfsin δ+Fyfcos δ)lf-Fyrlr)/Iz (1)

圖1為車輛動力學模型。圖中XOY是地面參考坐標系,xoy是車輛坐標系;vx、vy是車輛質心的縱向和側向速度;φ是車輛橫擺角;是車輛橫擺角速度;δ為前輪轉向角;lf是汽車質心到前輪的距離;lr是汽車質心到后輪的距離;lz是車輛繞鉛垂軸的轉動慣量;Fxf和Fyf分別是前輪所受縱向力和側向力;Fxr和Fyr分別是后輪所受的作用力。

前后輪胎的側向力與側偏角近似成線性關系[13]。式(2)中αf、αr分別為前輪側偏角和后輪側偏角;Cf、Cr分別為車輛前輪胎轉彎剛度和后輪胎轉彎剛度[12]。

Fyf=2Cfαf=2Cf(δ-lf+vyvx)Fyr=2Crαr=2Crlr-vyvx (2)

由式(1)(2)即可得到車輛的縱向加速度x、橫向加速度y和橫擺角加速度。

2基于DDPG車輛跟馳決策算法

深度確定性策略梯度算法具有深度神經網絡的特征提取能力和強化學習的決策優勢,且適用于具有離散輸入、連續輸出的跟馳決策問題,因此,本文基于深度確定性策略梯度算法建立了車輛跟馳總體策略,如圖2所示。

在擁堵路段中,跟馳車輛的加速度a和轉向角δ通常受前車運動狀態所影響,因而需要基于前車狀態來建立跟馳車輛的控制策略。在采集到前后車輛的速度差、相對距離及后車橫向偏差、相對偏航角之后,利用深度確定性策略梯度算法,將車輛跟馳問題轉換為特定獎勵函數下的馬爾可夫決策過程,并通過深度強化學習agent與車輛跟馳環境交互迭代學習,得到跟馳車輛的橫縱向控制策略,也就是跟馳車輛的加速度和轉向角,以此來調整跟馳車輛的運動狀態,實現對跟馳車的最優控制[14]。

2.1DDPG算法原理

深度強化學習包含不斷觀察和獎勵并與環境互動的智能體(agent),以及因agent所采取的行動而發生變化的環境兩部分。深度Q網絡適用于具有少量離散輸出的模型,但在連續動作空間中有可能決策失敗。該研究利用在連續控制領域中表現良好的深度確定性策略梯度(DDPG)算法[15],來學習actor和critic網絡,將用于決策加速度和轉向角的跟馳車作為agent,其主要目標是最大化獎勵函數。actor網絡主要負責策略的生成,即根據跟馳車和前車的速度、相對速度以及相對距離來輸出跟馳車的加速度,根據橫向偏差和相對偏航角得到跟馳車方向盤的轉角。critic網絡則負責策略的改進,根據狀態—動作對來輸出Q(st,at),并按性能改進方向來更新actor的策略參數。

圖3的actor和critic的網絡架構由輸入層、輸出層和包含多個神經元的隱藏層所構成。DDPG首先初始化緩沖區,包括actor、critic網絡參數θμ、θQ以及actor、critic相應的目標網絡權重參數θμ′、θQ′,然后在每個訓練周期中,根據actor的策略at=μ(s|θμ)+Nt計算跟馳車的加速度和轉向角,接下來觀察獎勵值rt和下一時刻狀態值st+1,在得到獎勵函數和狀態值后利用critic網絡對當前狀態st所采取的動作at進行評估,根據損失函數L來更新critic的網絡參數θQ,并使用策略梯度來更新actor的網絡參數θμ,最后根據actor和critic網絡權重的更新方向來更新目標網絡權重θμ′和θQ′,以此過程來不斷優化actor和critic網絡,直到收斂。在這個過程中,DDPG算法[15]的優化目標為

a=arg maxa=μ(s|θμ)+NtQ(s,a|θQ)(3)

critic網絡依據損失函數式(4)來更新θQ。

yt=rt+γQ′(st+1,μ′(st+1|θμ′)|θQ′)

L=E(Q(st,at)|θQ)-yt)2 (4)

actor網絡使用策略梯度式(5)來更新θμ。

θμJ≈aQ(s,a|θQ)|st,μ(st)θμμ(st|θμ)|st(5)

在k次優化后,采用策略式(6)來更新actor和critic的目標網絡參數θμ′和θQ′。

θμ′←τθμ+(1-τ)θμ′

θQ′←τθQ+(1-τ)θQ′ (6)

2.2車輛跟馳誤差

跟馳車在跟隨前車運動過程中,需要依據前車行駛狀態和行駛軌跡來規劃跟馳車的控制策略。為了跟蹤前車速度和行駛軌跡,表征跟馳車和前車之間的位置、速度及行駛軌跡之間的關系,使跟馳車保持一定的安全距離并沿期望路徑行駛,建立橫縱向聯合控制的車輛跟馳誤差模型,如圖4所示。

在車輛縱向運動中,跟馳車需根據車輛速度和與前車的距離決策其加速度,從而安全、有效地跟隨前車行駛。微觀駕駛員行為的安全距離模型[16]為

dsafe=λ1(v2follow-v2lead)+tRT×v+d0(7)

其中:參數λ1由車輛的最大制動能力決定;tRT是恒定車頭時距(s),一般為駕駛員反應時間;v是跟馳車速度(m/s);d0是跟馳車車速為零時的最小安全距離(m)。因車輛在跟馳行駛過程中前車和后車速度差異小,將λ1(v2follow-v2lead)項忽略,故基于固定車間時距算法[16]設計安全距離模型,如式(8)所示。

dsafe=tRT×v+d0(8)

根據兩車的相對運動關系,結合車間相對速度和車間距誤差定義車輛跟馳縱向模型式(9),以直觀反映跟隨模式下跟馳車和前車的行駛狀態。

ev=vfollow-vleaded=dreal-dsafe (9)

其中:ev為跟馳車速度vfollow和前車速度vlead之間的差值;ed為實際距離dreal與安全跟車距離dsafe之間的差值。

在車輛橫向運動中,跟馳車需要根據與行駛軌跡間的相對位置關系來獲取橫向速度和橫擺角速度,并通過調整車輛轉向角來保證有效地進行橫向跟蹤,減小橫向偏差和相對偏航角[17]。

y=vy+vxeφφ=-d=-kdvx (10)

其中:ey為橫向位置偏差;eφ為偏航角誤差;kd為跟馳軌跡曲率。

2.3獎勵函數設計

在強化學習中,獎勵是環境對智能體動作的反饋和評估動作好壞的信號,通常為標量。在跟馳車橫縱向聯合控制中,需要用獎勵函數來決定橫向軌跡的跟隨和縱向速度的控制。

跟馳控制問題可轉換為以跟蹤性、安全性和舒適性[5]等多個目標的優化問題。為了使跟馳車盡可能接近目標路徑,同時保持更好的速度響應和穩定的加速行為,使用縱向速度誤差ev、距離誤差ed、橫向偏差ey、加速度a和轉向角δ作為獎勵函數的特征。另外還需考慮相對速度小于零、跟馳速度過小以及橫向偏差過大所造成的異常情況給予模型懲罰m。因此設計獎勵函數式(11)。

rtotal=rfollow+rcomfortable+rsafe+m(11)

為了有效地跟蹤前車,基于縱向速度誤差和橫向偏差設計獎勵函數式(12),以實現縱向速度跟蹤和橫向路徑跟蹤。跟馳速度誤差和橫向偏差越小,rfollow將越大,而當橫向偏差小于0.1 m、跟馳速度誤差小于1 m/s時進行正向獎勵H,以更精準地進行路徑跟蹤與速度跟蹤。

rfollow=-(ω1e2v+ω2e2y)+H(12)

針對舒適性,基于加速度和轉向角設計獎勵函數式(13)。跟馳加速度和轉向角越小,橫縱向的跟馳將會越穩定,舒適性也越好。

rcomfortable=-(ω3a2+ω4δ2)(13)

針對安全性,基于安全距離誤差設計獎勵函數式(14)。

rsafe=-ω5e2d(14)

另外,設置終止條件為|ey|gt;1,vlt;0.5,dlt;0,當觸及終止條件時給模型懲罰m,以防止橫向偏差過大、跟馳速度過小,避免碰撞。

3實驗結果與分析

3.1模型訓練

基于DDPG的跟馳車橫縱向聯合控制的重點是模型特征選擇和融合。由于使用駕駛員視角的視覺圖像作為模型輸入的可解釋性太差,甚至導致神經網絡無法學習到有用信息,所以本模型使用環境的特征向量Xinput作為模型輸入。

Xinput=(∫ev, ev,v,∫ey,ey,y, ∫eφ,eφ,φ)(15)

該模型根據當前的策略輸出跟馳車的加速度a和轉向角δ,并更新其位置和速度。同時,環境更新前車的狀態并返回當前步驟的獎勵及更新策略。

網絡訓練步驟如下:

a)依據動作空間、狀態空間及獎勵函數,設計跟馳問題的深度強化學習要素;

b)初始化actor-critic網絡,重置環境;

c)從環境中獲取觀測量s0,計算初始動作a0=μ(s0),然后將初始動作設置為當前動作(a←a0),將當前的觀測值設置為初始觀測值(s←s0);

d)將動作a應用到環境中,獲取下一時刻的觀測值s′和獎勵r,然后從經驗集中學習(s,a,r,s′),計算下一時刻的動作a′=μ(s′),最后將(a←a′)來更新當前的動作,將(s←s′)來更新當前的觀測值;

e)以此循環,當達到終止條件,訓練終止。

DDPG算法的超參數如表1所示。

圖5為訓練跟馳模型中的獎勵變化趨勢,該訓練從跟馳數據集中選取了40個跟馳事件的數據進行訓練,其中紅色曲線為各訓練回合的平均獎勵值,藍色曲線為每個訓練回合的獎勵值,黃色曲線為每個回合開始時,critic網絡對折扣長期獎勵的估計(見電子版)。平均獎勵越高,跟馳的效果越好。實驗經歷3 548個回合的訓練,從圖5中可明顯看出,在約1 400個回合時,獎勵函數逐步收斂。

在圖5中,最后100個回合的獎勵值如圖6所示,可以看出該算法穩定有效。

3.2模型測試

利用MATLAB/Simulink搭建跟馳控制仿真系統,建立整車動力學模型,整車動力學參數如表2所示。

基于著名的NGSIM真實駕駛員跟馳駕駛數據集對跟馳控制策略進行測試與驗證,從I-80路段的車輛軌跡數據中提取1 341個跟馳事件,每個跟馳事件包含前車速度、跟馳車速度、兩車相對速度以及兩車相對間距,持續時間在15 s以上。表3為某一個跟馳事件的部分數據。

調整加速度和轉向角,使跟馳車跟隨前車沿著曲率變化道路行駛,在滿足安全距離、速度、加速度和轉向角的限制條件下,計算最優跟馳動作。另外根據車輛動力學物理限制,設置跟馳車加速度a和轉向角δ范圍[5]如式(16)所示。

-3 m/s2≤a≤2 m/s2-0.5 rad≤δ≤0.5 rad (16)

從1 341對跟馳對數據中,隨機選擇一組跟馳數據驗證本文所提跟馳決策方案,并與MPC跟馳方案進行對比。實驗中的車輛間距、速度及加速度變化如圖7~9所示。設置前車和跟馳車的初始車間距為15 m,跟馳車縱向速度為6.7 m/s,前車縱向速度為6.1 m/s。圖7為跟車間距圖,可以看出,跟馳車和前車的車距始終保持相對穩定,DDPG算法的跟車距離整體上比人類駕駛員和MPC決策的距離小,實現了高效跟馳。

圖8為前車速度、真實駕駛員跟馳速度、DDPG算法所決策的跟馳速度、MPC算法所決策的跟馳速度。從圖中可以看出,前車經歷了先加速再減速然后勻速行駛的過程,而DDPG算法在跟隨行駛中的速度變化更加穩定。

圖9為跟馳車加速度曲線圖。可以看出,跟馳車通過合理調整加速度,有效地調整了車速與間距,且保持了較為平穩的加速度。

為評價本文算法的跟馳效果,采用平均絕對誤差式(17)作為模型評價指標。

MAD=(∑ni=1|yi-i|)/n(17)

其中:yi為單個觀測值;i為算數平均值。表4給出了DDPG算法、MPC算法和真實駕駛員實測值的平均絕對誤差。

從表4可以看出,DDPG算法的加速度平均絕對誤差最小,實現了更加平穩舒適的跟馳效果;DDPG算法的速度誤差相對于人類駕駛員和MPC算法都有所降低,算法跟馳有效且具有較強的自適應能力,能夠保持更加穩定的行駛速度;DDPG算法決策的跟車間距平均絕對誤差比真實駕駛員小,故DDPG算法的決策效果更加穩定且能保持較小的車距。

圖10為前車行駛的道路軌跡曲率,圖11為橫向控制實驗結果。其中,跟馳車的初始橫向偏差設置為0.2 m,初始偏航角設置為-0.1 rad。跟馳車通過控制轉向角,使得偏航角誤差快速減小,由于道路軌跡曲率不斷變化,故跟馳車不斷微調轉向角,使橫向偏差和相對偏航角較小,DDPG和MPC算法的橫向控制效果基本一致。

為了評價跟馳模型的預測性能,選取加速度變化率(jerk)來評價跟馳舒適性,選取車頭時距(time headway,THW)評價跟馳安全性和有效性。跟馳行駛中的車頭時距通常保持在1~4 s,車頭時距越小,跟蹤越緊,跟馳效率越高,但若低于1 s則容易發生碰撞,而大于4 s則通常不屬于跟馳行駛。

jerk=∑nt=0|ΔaΔt|

thw=1n∑nt=0d1n∑nt=0v

(18)

從表5可以看出,DDPG算法所決策跟馳車的加速度變化率比真實駕駛員決策的加速度變化率小,可保證車輛跟馳的舒適性,避免頻繁加減速帶來的不適感。另外,跟馳車的車頭時距保持在了1~4 s的安全車頭時距范圍內,比真實駕駛員和MPC算法決策的車頭時距更小,跟馳效率更高。

為驗證多種跟馳工況下的實驗效果,另外在NGSIM數據集中隨機選擇一個跟馳事件,實驗結果如圖12~15和表6、7所示。可以看出,在該跟馳事件下,DDPG算法決策的加速度及其變化率更小,跟馳車速度更加穩定,車頭時距保持在1~4 s,依然實現了更加舒適、穩定和安全地跟馳。

4結束語

本文基于車輛三自由度動力學模型并結合橫縱向聯合控制,搭建了一種車輛跟馳控制模型,然后基于深度強化學習DDPG算法建立了決策模型對跟馳車的加速度和轉向角進行決策,以確保跟馳車輛的行駛安全有效和舒適。實驗利用人類駕駛數據集NGSIM對模型進行了訓練測試與評估,并與MPC跟馳控制算法相比較,結果表明本文方法在保證安全的情況下,跟馳距離和加速度變化率更小,比人類駕駛員表現更佳,對保證交通安全和提升道路通行能力具有較大意義。

目前,跟馳控制功能相對獨立,如將車輛跟馳控制與車道保持輔助系統和車道變換輔助系統相結合,將實現更高層次的自動駕駛控制。

參考文獻:

[1]Saifuzzaman M, Zheng Zuduo. Incorporating human-factors in car-following models: a review of recent developments and research needs [J]. Transportation Research Part C: Emerging Technologies, 2014, 48: 379-403.

[2]Pipes L A. An operational analysis of traffic dynamics [J]. Journal of Applied Physics, 1953, 24(3): 274-281.

[3]張蘭芳, 朱佩玄, 楊旻皓, 等. 基于數據驅動的城市地下快速路跟馳行為模型構建 [J]. 同濟大學學報: 自然科學版, 2021, 49(5): 661-669. (Zhang Lanfang, Zhu Peixuan, Yang Minhao, et al. Modeling of car-following behavior on urban underground expressways based on data-driven methods [J]. Journal of Tongji University: Natural Science, 2021, 49(5): 661-669.)

[4]羅穎, 秦文虎. 基于IDM與RBFNN的組合型車輛低速跟馳模型 [J]. 計算機應用研究, 2019, 37(8): 2354-2357,2380. (Luo Ying, Qin Wenhu. Combination low-speed car-following model based on IDM and RBFNN [J]. Application Research of Computers, 2019, 37(8): 2354-2357,2380.)

[5]Zhu Meixin, Wang Yinhai, Pu Ziyuan, et al. Safe, efficient, and comfortable velocity control based on reinforcement learning for auto-nomous driving [J]. Transportation Research Part C: Emerging Technologies, 2020, 117: 102662.

[6]Pan Feng, Bao Hong. Preceding vehicle following algorithm with human driving characteristics [J]. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering, 2021, 235(7): 1825-1834.

[7]朱冰, 蔣淵德, 趙健, 等. 基于深度強化學習的車輛跟馳控制 [J]. 中國公路學報, 2019, 32(6): 53-60. (Zhu Bing, Jiang Yuande, Zhao Jian, et al. A car-following control algorithm based on deep reinforcement learning [J]. China Journal of Highway and Transport, 2019, 32(6): 53-60.)

[8]Camacho E F, Alba C B. Model predictive control [M]. [S.l.]:Springer Science amp; Business Media, 2013.

[9]Hu Xiaosong, Zhang Xiaoqian, Tang Xiaolin, et al. Model predictive control of hybrid electric vehicles for fuel economy, emission reductions, and inter-vehicle safety in car-following scenarios [J]. Energy, 2020, 196: 117101.

[10]Mao Jin, Yang Lei, Hu Yuanbo, et al. Research on vehicle adaptive cruise control method based on fuzzy model predictive control [J]. Machines, 2021, 9(8): 160.

[11]Muhrer E, Vollrath M. The effect of visual and cognitive distraction on driver’s anticipation in a simulated car following scenario [J]. Transportation Research Part F: Traffic Psychology and Beha-viour, 2011, 14(6): 555-566.

[12]許芳, 張君明, 胡云峰, 等. 智能車輛路徑跟蹤橫縱向耦合實時預測控制器 [J]. 吉林大學學報: 工學版, 2021, 51(6): 2287-2294. (Xu Fang, Zhang Junming, Hu Yunfeng, et al. Lateral and longitudinal coupling real-time predictive controller for intelligent vehicle path tracking [J]. Journal of Jilin University: Engineering and Technology Edition, 2021, 51(6): 2287-2294.)

[13]Wang Hong, Huang Yanjun, Khajepour A, et al. Crash mitigation in motion planning for autonomous vehicles [J]. IEEE Trans on Intelligent Transportation Systems, 2019, 20(9): 3313-3323.

[14]Zhu Meixin, Wang Xuesong, Wang Yinhai. Human-like autonomous car-following model with deep reinforcement learning [J]. Transportation Research Part C: Emerging Technologies, 2018, 97: 348-368.

[15]Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning [EB/OL]. (2019-07-05). http://doi.org/10.48550/arxiv.1509.02971.

[16]Puan O C, Mohamed A, Idham M K, et al. Drivers behaviour on expressways: headway and speed relationships [C]//Proc of IOP Conference Series: Materials Science and Engineering.[S.l.]: IOP Publishing, 2019: 012071.

[17]Wang Yulei, Ding Haitao, Yuan Jinxin, et al. Output-feedback triple-step coordinated control for path following of autonomous ground vehicles [J]. Mechanical Systems and Signal Processing, 2019, 116: 146-159.

收稿日期:2021-12-27;修回日期:2022-02-28基金項目:江蘇現代農業產業關鍵技術創新資助項目(CX(20)2013);江蘇省重點研發計劃資助項目(BE2019311)

作者簡介:李孟凡(1995-),女,江蘇連云港人,碩士,主要研究方向為智能駕駛、汽車安全、儀器儀表;秦文虎(1969-),男(通信作者),江蘇泰州人,教授,博導,主要研究方向為汽車電子、傳感器測控技術、虛擬現實(qinwenhu@seu.edu.cn);云中華(1983-),男,河南洛陽人,博士研究生,主要研究方向為儀器儀表、傳感器技術、信號處理.

主站蜘蛛池模板: 国产成人高清精品免费5388| 影音先锋丝袜制服| 国产成人久久777777| 无码啪啪精品天堂浪潮av| 欧美啪啪精品| 91丝袜在线观看| 国产福利在线免费观看| 欧美一级视频免费| 91无码人妻精品一区二区蜜桃| 欧美一区精品| 欧美成人一区午夜福利在线| 欧美一级视频免费| 国产又粗又爽视频| 欧美日韩中文国产| 在线播放91| 无码人妻免费| 亚洲天堂福利视频| 最新日韩AV网址在线观看| 好吊日免费视频| 国产高清国内精品福利| 亚洲天堂成人在线观看| 免费高清a毛片| 澳门av无码| 狠狠综合久久| 日韩一区二区在线电影| 国产精品亚洲一区二区三区z| 国产美女人喷水在线观看| v天堂中文在线| 无码 在线 在线| 亚洲国产成人久久77| 内射人妻无套中出无码| 国产美女丝袜高潮| 色135综合网| 青草精品视频| 97se亚洲综合在线天天| 精品国产成人av免费| 片在线无码观看| 99久久免费精品特色大片| 中文字幕va| 国产男人天堂| 欧美激情福利| 久久综合干| 呦女亚洲一区精品| 欧美精品啪啪| 91久草视频| 亚洲精品国产乱码不卡| 国产免费精彩视频| 青草视频久久| 欧美三级自拍| 97人人做人人爽香蕉精品| 在线人成精品免费视频| 91久久偷偷做嫩草影院精品| 天天爽免费视频| 精品自窥自偷在线看| 国产女人18毛片水真多1| 成人国产精品网站在线看| 国产swag在线观看| 国产精品视屏| 亚洲国产91人成在线| 久久精品中文字幕免费| 亚洲福利视频网址| 亚洲成人www| 日本人又色又爽的视频| 亚洲青涩在线| 亚洲va在线∨a天堂va欧美va| 26uuu国产精品视频| 欧美精品高清| 国产成人久视频免费| 无码免费视频| 在线免费看黄的网站| 欧美有码在线| AV网站中文| 91美女视频在线观看| 欧美色伊人| 国产精品真实对白精彩久久 | 亚洲视频色图| 中文字幕天无码久久精品视频免费| 国产精品内射视频| 国产欧美精品午夜在线播放| 中文成人无码国产亚洲| 无码在线激情片| 男人天堂伊人网|