999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學(xué)習(xí)的車輛自主避撞決策控制模型

2021-07-03 02:51:18李文禮張友松石曉輝
關(guān)鍵詞:動作策略模型

李文禮,張友松,韓 迪,錢 洪,石曉輝

(重慶理工大學(xué) 汽車零部件先進制造技術(shù)教育部重點實驗室,重慶400054,中國)

目前,常見的車輛主動避撞控制包括基于規(guī)則的方法和基于學(xué)習(xí)的方法[1-2]。基于規(guī)則的控制主要基于安全距離或安全時間模型,結(jié)合車輛縱向運動學(xué)特性搭建相應(yīng)的減速度控制器;基于學(xué)習(xí)的控制方法利用感知信息直接輸出控制指令,以近似車輛安全狀態(tài)與加/減速度的關(guān)系。由于車輛行駛環(huán)境是動態(tài)復(fù)雜的,控制方法無法涵蓋避撞過程中所有工況,使得基于規(guī)則的控制方法在設(shè)計過程中難以將所有狀態(tài)的映射關(guān)系抽象成數(shù)學(xué)公式,因此這種控制方法在靈活性和泛化性上存在局限。

為了更好地使車輛學(xué)習(xí)駕駛環(huán)境并做出最佳避撞決策控制,H. Chae等[3]提出一種基于深度Q網(wǎng)絡(luò)(deep Q-network, DQN)算法自動制動系統(tǒng),用于學(xué)習(xí)最佳制動決策避免車輛和行人之間的碰撞。但該系統(tǒng)在預(yù)設(shè)的觸發(fā)點上啟動制動決策輸出離散的減速度,難以較準(zhǔn)確做出決策及無法保證舒適性。

李國法等[4]提出一種基于深度強化學(xué)習(xí)的交叉路口自動駕駛決策框架,利用DQN算法獲得關(guān)于安全性和效率的最佳駕駛策略,輸出離散化減速度控制車輛減速。雖DQN算法提高了處理高維狀態(tài)空間的能力,但只能輸出離散動作。因深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法采用確定性策略、融合DQN算法優(yōu)勢,解決連續(xù)狀態(tài)空間與連續(xù)動作空間的問題[5]。

XIONG Xi等[6]提出了一種自動駕駛和防撞系統(tǒng),結(jié)合深度強化學(xué)習(xí)和基于安全的控制,利用DDPG算法可以在穩(wěn)定的環(huán)境中學(xué)習(xí)駕駛策略。徐國艷等[7]提出一種基于DDPG的無人車智能避障方法,利用車輛側(cè)向加速度和交通規(guī)則約束實現(xiàn)轉(zhuǎn)向和加速連續(xù)輸出,經(jīng)過足夠的訓(xùn)練回合,無人車能夠安全行駛到達目的地。車輛駕駛操作的自然性和安全性是乘員舒適性主要影響因素。

R. Vasquez等[8]利用近端策略優(yōu)化(proximal policy optimization,PPO)和DDPG算法來學(xué)習(xí)制動控制策略,仿真結(jié)果表明該系統(tǒng)能夠在保持安全制動操作的同時將沖擊度的影響減少了50%。但PPO算法是一種在線策略算法[9],需要海量采樣才能學(xué)習(xí)策略。

本文利用深度強化學(xué)習(xí)方法,設(shè)計了以目標(biāo)物的相對位置、相對速度和自車上一時刻控制量作為狀態(tài)空間,自車減速度作為動作空間,并基于車輛縱向運動學(xué)特性的安全性、舒適性和效率因素為多目標(biāo)獎勵函數(shù),建立了端到端的車輛自主避撞決策模型。通過MATLAB/ Simulink構(gòu)建系統(tǒng)交互訓(xùn)練模型,并建立了前車靜止(car to car stationary, CCRs)和前車制動(car to car braking, CCRb)場景對決策模型的性能進行測試,同時驗證了該控制模型的有效性和泛化性。

1 強化學(xué)習(xí)及場景概述

1.1 強化學(xué)習(xí)

強化學(xué)習(xí)主要是學(xué)習(xí)如何將環(huán)境映射到對應(yīng)的動作,獲得最大化收益的行為策略。智能體與環(huán)境之間的交互過程常常用Markov決策過程(Markov decision process, MDP)進行建模,MDP由元組〈S,A,p,R,γ〉組成,其中:S為狀態(tài),A為動作,p為狀態(tài)轉(zhuǎn)移概率,R為獎勵函數(shù),γ為折扣因子。使用T步折扣累積獎賞

深度強化學(xué)習(xí)將感知抽象特征的深度學(xué)習(xí)與自適應(yīng)決策的強化學(xué)習(xí)相結(jié)合,實現(xiàn)了從原始高維數(shù)據(jù)的抽象感知到直接控制輸出的端到端系統(tǒng)框架[11]。DDPG算法中構(gòu)建了包括主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò):

1) 初始化參數(shù)后,主網(wǎng)絡(luò)中演員網(wǎng)絡(luò)(actor network, Anet)根據(jù)當(dāng)前狀態(tài)si隨機探索選擇動作ai,并與環(huán)境進行交互生成下一狀態(tài)si+1和獎勵值ri,將產(chǎn)生的樣本數(shù)據(jù)儲存于樣本池(si,ai,ri,si+1);

2) 當(dāng)樣本池存儲一定數(shù)量的樣本數(shù)據(jù)后,采集樣本池中小批量樣本數(shù)據(jù)對主網(wǎng)絡(luò)訓(xùn)練,根據(jù)策略梯度算法更新Anet的參數(shù)θμ、最小化損失函數(shù)更新評論家網(wǎng)絡(luò)(critic network, Cnet)參數(shù)θQ;

3) 對目標(biāo)演員網(wǎng)絡(luò)(target actor network, T-Anet)和目標(biāo)評論家網(wǎng)絡(luò)(target critic network, T-Cnet)參數(shù)θμ'、θQ'采用滑動平均的方式進行軟更新[12],其邏輯結(jié)構(gòu)如圖1所示。

1.2 車輛危險碰撞場景

影響汽車安全駕駛重要因素之一是交通參與者違規(guī)或緊急行為,如車輛突然制動或強行超車、行人橫穿或加速穿越,如圖2所示描述該典型危險場景。圖2中:

危險場景①為:前車(LV)突然制動,如果自車(FV)無法有效制動,或因猛踩剎車使車輛猛烈搖晃導(dǎo)致乘員不適;

圖1 DDPG算法的邏輯結(jié)構(gòu)

危險場景②為:前車強行變道,自車與前車之間狀態(tài)由并行行駛轉(zhuǎn)變?yōu)橥嚨佬旭偅攒嚧嬖谖茨芗皶r觀測前車駕駛行為的改變導(dǎo)致潛在沖突。

危險場景③為:人行道上行人突然橫穿馬路,自車存在未及時觀測到行人狀態(tài)的改變,繼續(xù)保持當(dāng)前行駛狀態(tài)而導(dǎo)致交通事故發(fā)生;

危險場景④為:在建筑物遮擋行人突然加速通過人行橫道,自車未能合理制動停車。

因此為避免交通事故,通過車載傳感器實時收集數(shù)據(jù),并使用通信技術(shù)與周圍的車輛交互獲取行駛狀態(tài)信息,提前檢測到可能引起事故的威脅,從而執(zhí)行適當(dāng)?shù)闹苿邮管囕v停車。

圖2 典型潛在危險交通場景

1.3 制動過程分析

針對圖2所示的危險場景分析,結(jié)合現(xiàn)實駕駛情況在駕駛員收到危險信息后將會采取制動措施,其制動過程主要分為反應(yīng)階段、制動器建壓階段及持續(xù)制動階段。對于自動駕駛車輛或智能車反應(yīng)階段時間t1= 0,因此在整個制動過程中車輛行駛距離為

式中:v(t0)為開始制動時的速度;t2為制動力增長階段持續(xù)的時間;amax為制動期間的最大減速度。

突然猛踩剎車導(dǎo)致車輛猛烈的晃動將會給人體帶來極大的不適,制動時給乘員帶來的不適不僅與加速/減速有關(guān),而且還與加速度變化導(dǎo)致的沖擊度有關(guān)。由車輛加速度變化導(dǎo)致的沖擊度[13]為

式中:a(k)為k時刻加速度;Δts為時間間隔。

2 基于深度強化學(xué)習(xí)車輛自主避撞模型

2.1 Markov決策過程建模

利用DDPG算法實現(xiàn)端到端的車輛自主避撞決策,以自車先進傳感器獲取當(dāng)前行車環(huán)境信息和本車狀態(tài)信息作為觀測狀態(tài),輸出期望動作指令。之后自車跟據(jù)當(dāng)前觀測狀態(tài)決策出車輛運動的行為動作,同時得到當(dāng)前狀態(tài)下執(zhí)行動作后的回報值并進入下一個狀態(tài),不斷迭代學(xué)習(xí)到最優(yōu)的自主制動策略。為使深度強化學(xué)習(xí)最佳的自主制動策略學(xué)習(xí),基于行車安全、駕乘舒適和行駛效率3個原則來設(shè)計狀態(tài)、動作空間和獎勵函數(shù)。

為提高自主避撞決策模型的泛化性,依據(jù)圖2典型危險場景的共性等效為自車以隨機初速度接近縱向靜止目標(biāo)物(object,ob)自主采取制動措施的在線訓(xùn)練場景,其中自車初始位置為(x,y,)0,目標(biāo)物信息為(x,y)ob,i如圖3所示。

圖3 在線訓(xùn)練場景

在決策模型訓(xùn)練過程中,自車與目標(biāo)物之間距離drel,i、自車的減速度aFV,i以及自車的行駛速度vFV,i。根據(jù)縱向運動學(xué)特性[14],自車與目標(biāo)物之間關(guān)系式為:

式中:sFV,i為自車行駛距離;sFV,b_p(i)為自車制動距離;引入一階慣性環(huán)節(jié)消除時滯影響,系統(tǒng)增益K= 1,時間常數(shù)τd= 0.5。

2.1.1 狀態(tài)空間

狀態(tài)空間是自車用來確定將會發(fā)生什么的信息,包括環(huán)境狀態(tài)和自車狀態(tài),而且狀態(tài)不僅要能全面地表征車輛在某一時刻下的特征,同時也與算法中深度神經(jīng)網(wǎng)絡(luò)收斂直接相關(guān)。自車中傳感器能夠獲取i時刻目標(biāo)物的狀態(tài)信息(x,y)ob,i,同時獲取自車的行駛狀態(tài)信息(x,y,v,a)FV,i,然后將自車和目標(biāo)物之間相對距離drel,i、自車速度vFV,i及上自車加(減)速度aFV,i-1作為狀態(tài)空間s,DDPG Agent在i時刻接收到當(dāng)前時刻狀態(tài)si,輸出動作并得到獎勵值,此時狀態(tài)改變?yōu)閟i+1。其狀態(tài)空間定義為

2.1.2 動作空間

動作空間是自車所執(zhí)行的動作指令,在圖2所示危險場景中主要研究當(dāng)自車識別判斷出危險場景,能夠?qū)崿F(xiàn)自主制動的目的,所有只對自車進行縱向控制設(shè)計。DDPG Agent輸出動作ad(i)由策略μ決定,其策略μ為狀態(tài)s映射到每個動作的概率s→P(ai),由于采用的DDPG算法其輸出為連續(xù)性的動作,則動作空間定義為:

其中:ad(i) = [-8,0]為制動水平,當(dāng)ad(i) = 0代表勻速行駛;當(dāng)ad(i) = -8代表硬制動。在深度強化學(xué)習(xí)中為探索出最優(yōu)動作,篩選出更好的策略避免執(zhí)行動作陷入局部最優(yōu)。通過對隨機采樣過程引入噪聲模型Ni,從而計算當(dāng)前時間步的動作,其表達式為:

2.1.3 獎勵函數(shù)

獎勵函數(shù)引導(dǎo)深度神經(jīng)網(wǎng)絡(luò)參數(shù)的調(diào)整方向,使輸出的動作能夠讓自車按照期望指令執(zhí)行。根據(jù)避撞控制目標(biāo)為獎勵函數(shù)提供設(shè)計原則,首先自車能夠在潛在危險場景執(zhí)行正確的動作,而且能夠在目標(biāo)物之前停下來,需滿足安全性原則;其次自車在上述制動過程中目標(biāo)是決策出最優(yōu)的控制動作并進行平穩(wěn)控制,防止輸出動作在最大與最小值之間頻繁切換形成點剎狀態(tài),給乘員造成較大壓迫感及乘坐不舒適,需滿足舒適性原則;之后上述執(zhí)行制動行為不應(yīng)過早執(zhí)行而造成停車距離過于保守,導(dǎo)致乘員過早處于緊張狀態(tài),需滿足行駛效率設(shè)計;最后根據(jù)上述避撞控制的設(shè)計原則優(yōu)先級來確定獎勵函數(shù)具體結(jié)構(gòu)。

1) 為安全性獎勵函數(shù)。若當(dāng)前回合周期內(nèi)自車未采取制動或制動時間過晚,將導(dǎo)致碰撞發(fā)生,也即當(dāng)前時刻自車與目標(biāo)物之間相對距離drel,i小于安全距離dth。為了描述發(fā)生碰撞情況下應(yīng)給予自車相應(yīng)懲罰,反映碰撞的嚴(yán)重程度,因此安全性獎勵函數(shù)rs表達式:

2) 為舒適性獎勵。若在當(dāng)前回合周期內(nèi)自車采取制動措施,該過程減速度出現(xiàn)突變或變化過大,將帶給乘員很大的慣性沖擊。為了反映自車在制動過程能夠平穩(wěn)的制動,乘員獲得較好的乘坐舒適性,因此舒適性獎勵函數(shù)rc表達式:

3) 為行駛效率獎勵。若當(dāng)前回合周期內(nèi)自車與目標(biāo)物之間距離較遠(yuǎn),此時自車采取制動行為導(dǎo)致過早剎車,造成自車停車距離過于保守。為了描述自車行駛效率,因此行駛效率獎勵函數(shù)re表達式:

綜上分析,最終自車的多目標(biāo)獎勵函數(shù)r表達式:

上述3部分的獎勵函數(shù)中α、m、β、η、p、ε、q代表權(quán)重參數(shù),其值分別為0.2、20、0.1、0.1、0、0.1、5;跟據(jù)相關(guān)實驗研究[15]選取期望加速度aep= 4 m/s2、期望沖擊度的jep= 2 m/s3。一直低于0.1 m/s,則訓(xùn)練回合終止。

事件4,獎勵無提升。如果車輛在100個步長內(nèi)獎勵不增長,則訓(xùn)練回合終止。

2.1.4 終止條件

2.2 基于DDPG的決策控制模型

仿真過程中可能存在車輛卡滯、累積多個步長獎勵不增長等情況,避免學(xué)習(xí)到局部最優(yōu)策略。若訓(xùn)練過程中發(fā)生以下至少一項事件,則回合結(jié)束進入下一回合并重置環(huán)境狀態(tài)。

事件1,發(fā)生碰撞。自車未進行有效制動,不滿足安全距離限制,則訓(xùn)練回合終止。

事件2,過早停車。自車過早制動而停車,即自車與目標(biāo)物相離較遠(yuǎn),則訓(xùn)練回合終止。

事件3,車輛卡滯。如果車輛在20個步長內(nèi)速度

如何在設(shè)定的潛在碰撞危險場景中自主避撞,并滿足避撞安全需求同時兼顧平穩(wěn)制動,設(shè)計了基于DDPG自主避撞控制決策模型,總體結(jié)構(gòu)如圖4所示。

對于該模型在每個時間步長之前,已從車輛傳感器系統(tǒng)和車輛通信中獲取自車和環(huán)境信息,即獲得初始狀態(tài)s1,之后主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)中Actor產(chǎn)生減速度、Critic估計動作的Q值(即在狀態(tài)si下執(zhí)行動作ai預(yù)計獲得的價值),并更新相應(yīng)網(wǎng)絡(luò)參數(shù),連續(xù)迭代最終輸出制動策略。因使用數(shù)據(jù)訓(xùn)練避撞控制模型,采用多層全連接層(fully connected layer,F(xiàn)C)來設(shè)計Actor與Critic網(wǎng)絡(luò)結(jié)構(gòu)。首先Actor網(wǎng)絡(luò)中輸入為i時刻狀態(tài),然后依次經(jīng)過隱藏層FC_1和FC_2,其中各個隱藏層之間通過Relu激活函數(shù),最后輸出層為減速度,使用tanh激活函數(shù)。Critic網(wǎng)絡(luò)輸入i時刻狀態(tài)再經(jīng)過隱藏層FC_1和FC_2得到特征ls,然后i時刻動作集ai作為輸入到另一個隱藏層FC_4得到特征la,此時將特征ls、la經(jīng)add層逐級相加融合得到特征lsa,最后經(jīng)輸出層輸出Q值。其中隱藏層之間通過Relu激活函數(shù),特征ls、la傳遞至add層沒有激活函數(shù)及輸出的Q值也無激活函數(shù)。

圖4 基于DDPG自主避撞決策模型

3 仿真與分析

3.1 仿真設(shè)置

為驗證所提基于深度強化學(xué)習(xí)的自主避撞決策方法的有效性和泛化性,利用MATLAB/Simulink實驗平臺,選取Simulink中Agent模塊并構(gòu)建模塊化環(huán)境,仿真頻率設(shè)置為10 Hz。在訓(xùn)練過程中,目標(biāo)物的位置固定為(100,0),自車的初始位置固定、隨機初始速度,共訓(xùn)練了400回合,其主要參數(shù)如表1所示。

表1 主要訓(xùn)練參數(shù)

3.2 模型訓(xùn)練分析

在深度強化學(xué)習(xí)中,通常使用回合獎勵和平均獎勵來反映訓(xùn)練的收斂水平和學(xué)習(xí)效果,圖5描繪了該控制模型訓(xùn)練過程的獎勵值變化。在訓(xùn)練過程初期,獎勵值連續(xù)波動有時增大或減小,且幅度較大(約600),此時智能體從零開始學(xué)習(xí),未針對特定狀態(tài)而采取特定動作的經(jīng)驗,僅隨機選擇動作以完成廣泛探索。隨著訓(xùn)練回合次數(shù)的增加,獎勵曲線波動幅度逐漸減小,表明智能體能夠較好的探索和利用動作進行學(xué)習(xí)。但在178回合時(約1 754.9)突然波動很大,此時智能體探索過大出現(xiàn)減速度連續(xù)階躍變化,然而在200回合 (約52)之后獎勵值波動幅度越來越小,迭代次數(shù)增加獎勵值慢慢趨于收斂,大約在270回合后,曲線波動非常小,說明該算法已經(jīng)收斂,智能體成功學(xué)習(xí)到有效自主避撞策略并最大化長期獎勵值。

3.3 模型測試分析

圖5 訓(xùn)練過程中獎勵值

為驗證決策模型的有效性和泛化性、客觀評估其性能,參考中國新車評價規(guī)程(China New Car Assessment Program,C-NCAP)測試場景,選取了CCRs和CCRb場景。在C-NCAP中,CCRs場景表示自車以一定速度朝前方靜止的車輛勻速移動,測試中自車的速度分別為20、30、40 km/h;CCRb場景表示自車和前車間設(shè)置一定的初始距離以相同的速度50 km/h保持勻速移動,之后前車以4 m/s2制動,測試中2車間距分別為12、40 m。

圖6表示CCRs測試場景下自車自主避撞過程中相對距離、自車速度、減速度及沖擊度的變化曲線。

圖6 前車靜止(CCRs)場景測試結(jié)果

自車以20 km/h行駛的整個自主避撞過程中,期望加速度占比為100%、期望沖擊度占比為98.39%;以30 km/h行駛的整個自主制動過程中,期望加速度占比為100%、期望沖擊度占比為87.72%。以40 km/h行駛的整個自主制動過程中,期望加速度占比為72.55%、期望沖擊度占比為56.86%。仿真結(jié)果表明,初始距離為60 m的條件下包含訓(xùn)練場景的測試工況,設(shè)計的決策模型能夠有效的自主避撞決策,并兼顧良好的舒適性。

圖7表示CCRb測試場景下自車自主避撞過程中相對距離、速度、自車減速度及沖擊度的變化曲線。

圖7 前車制動(CCRb)場景測試結(jié)果

在自車與前車相距12 m行駛中,該系統(tǒng)認(rèn)為當(dāng)前時刻處于極度危險狀態(tài),自車立即開始以最大減速度進行制動,自車在整個自主制動過程中期望加速度占比為11.54%、期望沖擊度占比為38.46%;在自車與前車相距40 m行駛中,自車開始以0.65 m/s2的減速度準(zhǔn)備制動,前車在2.47 s停車時,此時相距21.06 m,然后自車加速度繼續(xù)增大,整個自主制動過程中期望加速度占比為83.33%、期望沖擊度占比為65.15%。仿真結(jié)果表明,在與訓(xùn)練場景不同的測試工況下,設(shè)計的決策模型依然能夠有效的自主避撞。

根據(jù)文獻[16] 制動避撞試驗分析為保證駕駛員及乘客舒適度的極限值減速度amax= 0.6g、沖擊度jmax= 10 m/s-3。因此統(tǒng)計了CCRs測試場景20、30、40、60、80 km/h和CCRb測試場景12、40 m的舒適性能,如圖8所示。從圖8中知所設(shè)計的決策模型在各場景下車輛控制性能基本都滿足舒適度要求,當(dāng)車輛以高速{CCRs(60)或CCRs(80)}行駛時,其車輛減速超過極限值主要集中制動中期(持續(xù)時間約為1.5 s、2.3 s);對于CCRb(12)場景決策模型認(rèn)為該場景極度危險,立即執(zhí)行硬制動持續(xù)超過極限值的時間約為1.5 s。

圖8 舒適性能

為進一步直觀分析所提方法自主避撞決策性能,結(jié)合選取的各場景的制動性能特征設(shè)計了模糊控制器[17]實現(xiàn)自主避撞決策,以車輛相對距離及相對速度為輸入、制動減速度為輸出的模糊控制器,其中圖9為模糊控制器的輸入輸出變量曲面圖、圖10為模糊控制器的輸入輸出隸屬度圖。

設(shè)計緊急場景為自車以30 m距離接近目標(biāo)對象,其仿真結(jié)果如圖11所示,其中DDPG策略的方法均能實現(xiàn)自主避撞,而模糊控制(FUZZY)策略在車速為60 km/h測試場景中發(fā)生碰撞。DDPG策略中制動減速度更加平滑,滿足安全性同時兼顧舒適性要求。

根據(jù)對比實驗,統(tǒng)計了制動過程中制動開始時刻t0和終了時刻ts、減速度初值|a0|、減速度峰值|a|max、沖擊度峰值|j|max、最小間距dmin的指標(biāo)。前車靜止場景的控制性能如表2所示。

圖9 變量曲面圖

圖10 變量隸屬度圖

圖11 仿真結(jié)果對比

表2 前車靜止場景的控制性能比較

除自車以20 km/h場景外,其它測試場景停車時刻的沖擊度均超過極限值,且模糊控制策略比DDPG策略更大。對于制動時間,在自車分別以20、30、40 km/h行駛中,DDPG策略相比模糊控制策略減少了0.43%、7.84%、26.97%;對于最小間距,自車分別以20、30 km/h行駛中,DDPG策略相比模糊控制策略減小了55.67%、10.54%,而在自車以40 km/h行駛中,DDPG策略相比模糊控制策略增加了56.29%,但模糊控制策略中最小間距低于設(shè)定閾值19%。

4 結(jié) 論

本文基于深度確定性策略梯度(DDPG)算法,設(shè)計了車輛自主避撞決策算法,利用Markov決策過程分析狀態(tài)空間、動作空間及獎勵函數(shù),確定了以目標(biāo)物的相對位置、相對速度和自車上一時刻控制量作為狀態(tài)空間,輸入系統(tǒng)模型中直接輸出剎車駕駛動作,并根據(jù)車輛運動學(xué)特性考慮了安全性、舒適性和行駛效率等因素,將獎勵函數(shù)進行模塊化設(shè)計,實現(xiàn)了端到端的車輛自主避撞決策控制。利用中國新車評價規(guī)程C-NCAP中前車靜止(CCRs)和前車制動(CCRb)測試場景對設(shè)計的控制模型進行了仿真試驗。

試驗結(jié)果表明:本文設(shè)計的基于DDPG的自主避撞方法,能夠合理地自主避免碰撞,且在制動過程中減速度變化較為平滑、提高了駕乘人員的舒適性,并且穩(wěn)定性和泛化性優(yōu)于模糊控制。

參考文獻 (References)

[1] 陳虹, 郭露露, 宮洵, 等. 智能時代的汽車控制[J]. 自動化學(xué)報, 2020, 46(7): 1313-1332.

CHEN Hong, GUO Lulu, GONG Xun, et al. Automotive control in intelligent era [J].Acta Automatica Sinica,2020, 46(7): 1313-1332. (in Chinese)

[2] Kuuttis, Bowden R, JIN Yaochu, et al. A survey of deep learning applications to autonomous vehicle control [J].IEEE Transa Intell Transp Syst,2021, 22(2): 712-733.

[3] Chae H, Kang C M, Kim B D, et al. Autonomous braking system via deep reinforcement learning [C]// 2017 IEEE 20th Int'l Conf Intel Transp Syst (ITSC). Yokohama, Japan: IEEE, 2017: 1-6.

[4] LI Guofa, LI Shengbo, LI Shen, et al. Deep reinforcement learning enabled decision-making for autonomous driving at intersections [J].Automotive Innovation,2020(3): 374-385.

[5] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning [J].Computer Sci,2015, 8(6): 187.

[6] XIONG Xi, WANG Jianqiang, ZHANG Fang, et al. Combining deep reinforcement learning and safety-based control for autonomous driving [Z/OL]. (2020-11-10) , https://arxiv.org/abs/1612.00147v1. arXiv preprint arXiv: 1612.00147, 2016.

[7] 徐國艷, 宗孝鵬, 余貴珍, 等. 基于DDPG的無人車智能避障方法研究[J]. 汽車工程, 2019, 41(2): 206-212.

XU Guoyan, ZONG Xiaopeng, YU Guizhen, et al. A research on intelligent obstacle avoidance of unmanned vehicle based on DDPG algorithm [J].Automotive Engineering,2019, 41(2): 206-212. (in Chinese)

[8] Vasquez R, Farooq B. Multi-objective autonomous braking system using naturalistic dataset [C]// 2019 IEEE Intel Transp Syst Conf (ITSC). Auckland, New Zealand: IEEE, 2019: 4348-4353.

[9] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms [Z/OL]. (2020-11-10), https://arxiv.org/abs/1707.06347. arXiv preprint arXiv: 1707.06347v2, 2017.

[10] 李國法, 陳耀昱, 呂辰, 等. 智能汽車決策中的駕駛行為語義解析關(guān)鍵技術(shù)[J]. 汽車安全與節(jié)能學(xué)報, 2019, 10(4): 391-412.

LI Guofa, CHEN Yaoyu, LV Chen, et al. Key technique of semantic analysis of driving behavior in decision making of autonomous vehicles [J].J Autom Safe Energ, 2019, 10(2): 391-412. (in Chinese)

[11] 李升波, 關(guān)陽, 侯廉, 等. 深度神經(jīng)網(wǎng)絡(luò)的關(guān)鍵技術(shù)及其在自動駕駛領(lǐng)域的應(yīng)用[J]. 汽車安全與節(jié)能學(xué)報, 2019, 10(2): 119-145.

LI Shengbo, GUAN Yang, HOU Lian, et al. Key technique of deep neural network and its applications in autonomous driving [J].J Autom Safe Energ, 2019, 10(2): 119-145. (in Chinese)

[12] ZHU Meixin, WANG Yinhai, PU Ziyuan, et al. Safe, eff icient, and comfortable velocity control based on reinforcement learning for autonomous driving [J].Transp Res Part C:Emerging Tech,2020, 117,102662.

[13] 朱冰, 蔣淵德, 趙健, 等. 基于深度強化學(xué)習(xí)的車輛跟馳控制[J]. 中國公路學(xué)報, 2019, 32(6): 54-60.

ZHU Bing, JIANG Yuande, ZHAO Jiao, et al. A carfollowing control algorithm based on deep reinforcement learning [J].Chin J Highway Transp,2019, 32(6): 54-60. (in Chinese)

[14] 朱敏, 陳慧巖. 考慮車間反應(yīng)時距的汽車自適應(yīng)巡航控制策略[J]. 機械工程學(xué)報, 2017, 53(24): 144-150.

ZHU Mi, CHEN Huiyan. Strategy for vehicle adaptive cruise control considering the reaction headway [J].J Mech Engi,2017, 53(24): 144-150. (in Chinese)

[15] Bae I, Moon J, Seo J. Toward a comfortable driving experience for a self-driving shuttle bus [J].Electronics,2019, 8(9): 943.

[16] 張春雷. 基于駕駛員避撞行為的追尾避撞控制策略研究[D]. 鎮(zhèn)江: 江蘇大學(xué), 2017.

ZHANG Chunlei. The rear-end collision avoidance control strategy study based on drivers' avoidance behavior [D]. Zhenjiang: Jiangsu University, 2017. (in Chinese)

[17] 鄭剛, 俎兆飛, 孔祚. 基于駕駛員反應(yīng)時間的自動緊急制動避撞策略[J]. 重慶理工大學(xué)學(xué)報: 自然科學(xué)版, 2020, 34(12): 45-52.

ZHENG Gang, ZU Zhaofei, KONG Zuo. The collision avoidance strategy of automatic emergency braking system considering the response time of the driver [J].J Chongqing Univ of Tech: Nat Sci,2020, 34(12): 45-52. (in Chinese)

猜你喜歡
動作策略模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
例談未知角三角函數(shù)值的求解策略
我說你做講策略
動作描寫要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
畫動作
動作描寫不可少
3D打印中的模型分割與打包
主站蜘蛛池模板: 无码福利日韩神码福利片| 999精品在线视频| 一区二区三区四区日韩| 日韩一级二级三级| 亚洲第一网站男人都懂| 日韩免费毛片视频| 亚洲国产清纯| 免费观看亚洲人成网站| 国产99免费视频| 毛片在线区| 国产99免费视频| 欧美色伊人| 成人午夜网址| 欧美啪啪网| 青青国产在线| 亚洲一区二区在线无码| 欧美成人综合视频| 久久中文字幕2021精品| 亚洲欧美精品日韩欧美| 日韩在线欧美在线| 中文字幕 91| 五月婷婷导航| 亚洲日韩精品欧美中文字幕 | 亚洲视频三级| 青青草原国产免费av观看| 中文字幕在线欧美| 国产电话自拍伊人| 亚洲色图欧美视频| 91久久夜色精品| 亚洲国产AV无码综合原创| 一区二区无码在线视频| 国产精品福利尤物youwu| 四虎免费视频网站| 在线观看国产黄色| 亚洲—日韩aV在线| 日本在线欧美在线| 91精品免费高清在线| 欧美、日韩、国产综合一区| 91视频精品| 亚洲精品成人福利在线电影| 国产精品漂亮美女在线观看| 久久综合结合久久狠狠狠97色| 日韩精品一区二区三区免费| 国产成人精品一区二区不卡| 免费国产一级 片内射老| 伊人久久综在合线亚洲2019| 香蕉精品在线| 全部免费特黄特色大片视频| 色久综合在线| 欧美日韩国产成人高清视频| 久久久黄色片| 婷婷亚洲综合五月天在线| 香蕉视频国产精品人| 亚洲AV一二三区无码AV蜜桃| 99久久精品无码专区免费| 国产小视频免费| 黄色片中文字幕| 免费观看无遮挡www的小视频| 国产成人1024精品下载| 精品欧美日韩国产日漫一区不卡| 亚洲天堂久久| 国产精欧美一区二区三区| 国产美女在线免费观看| 国产精品亚洲专区一区| 亚洲女同一区二区| 99ri国产在线| 国产福利拍拍拍| 免费国产小视频在线观看| 伊大人香蕉久久网欧美| 极品国产一区二区三区| 欧美精品在线看| a天堂视频| 日韩国产欧美精品在线| 丁香六月综合网| 国产成人永久免费视频| 狠狠色香婷婷久久亚洲精品| 日本91在线| 伊人久久综在合线亚洲2019| 亚洲婷婷六月| 精品无码一区二区在线观看| 欧美三级视频网站| 综合色亚洲|