999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的車輛緊急制動策略

2022-11-24 02:29:14方若愚劉國鵬朱長盛殷朝霞遲瑞豐
長春工業大學學報 2022年3期
關鍵詞:動作環境策略

韓 玲,張 暉,方若愚,劉國鵬,朱長盛,殷朝霞, 遲瑞豐

(長春工業大學 機電工程學院, 吉林 長春 130012)

0 引 言

啟發式算法自動緊急制動可在危險情況下主動采取制動措施,有效保護車輛駕駛員及其他交通參與者,是保證行車安全關鍵部分[1]。隨著汽車智能化的發展,緊急制動作為不可或缺的環節,其重要程度更加得到凸顯[2]。

近年來,自動緊急制動得到廣泛關注與研究,目前自動緊急制動方法主要分為兩類:基于建立安全時間或安全距離模型的方法和通過評估風險建立碰撞概率模型的方法。文獻[3-4]提出基于安全距離-時間模型相結合的汽車緊急制動控制策略,基于安全時間模型設計了以相鄰車輛、相鄰車輛相對速度為輸入,建立安全時間與安全距離相結合的模型,通過警報分級制動等方式確保行車安全。劉哲等[5]提出通過使用安全時間模型求解期望減速度,防止車輛碰撞。此類通過建立模型的方法在簡單路況或單一場景下通常具有良好的效果,但在動態過程中通常難以建立準確的模型,且所建立模型很難適應變化的環境。

基于評估風險的緊急制動方法也得到廣泛應用,Lee D等[6]提出通過先輕減速,隨后預測碰撞概率決定減速力度的方式,有效避免了過度減速對自車及周圍車輛可能造成的危險。孟柯等[7]通過風險預測對最危險目標碰撞態勢進行實時判斷,從而降低車輛與行人間的碰撞概率。基于風險模型的方法通過選擇碰撞概率最小的動作避免發生碰撞,然而行車過程中的風險因素是動態變化的,難以利用風險模型完全描述。

隨著算力的提升,以DQN為代表的深度強化學習方法展現了獨特的優勢,獲得了廣泛應用[8-9],DQN通過其獨特的動作-批評結構與環境交互訓練,實現自主決策。不依賴于精確的數學模型,對解決復雜動態規劃問題有良好的表現[10]。因此,為解決緊急制動問題,提高行車過程中的安全性,首先推導DQN算法,并依據緊急制動過程建立深度強化學習環境,隨后構建基于DQN的緊急制動策略,所構建策略可通過與環境交互自主學習實現在危險情況下自主判斷剎車幅度,并且不需要針對環境建立精確復雜模型。

1 深度強化學習算法

1.1 DQN與環境交互過程

DQN與環境交互過程如圖1所示。

圖1 DQN與環境交互過程

DQN通過與環境交互探索最優策略。其交互過程為:t時刻動作網絡從環境中獲取狀態st,根據狀態計算所有動作的Q值,并選擇Q值最大的動作執行與環境交互,環境根據動作執行后產生的影響,返回獎勵值rt,批評網絡依據返回的獎勵值重新計算動作的Q值,稱為該動作的目標Q值,損失函數依據動作網絡計算得到的Q值與批評網絡計算得到的目標Q值的差距,對動作網絡進行梯度更新,批評網絡的更新依據每隔一段時間完全復制動作網絡的參數進行更新。

1.2 DQN算法

Q值作為評價動作優劣的指標與環境返回的獎勵值相關,因此,首先定義動作執行后的獎勵為

(1)

式中:Rt----t時刻動作執行后環境反饋的獎勵,由當前時刻與未來時刻獲得獎勵構成;

rt+i----當i為0時,表示當前獲得的獎勵,i大于0時,表示未來時刻獲得的獎勵;

β----折扣系數,表示未來時刻對獎勵的影響程度。

DQN策略可執行動作被預先定義好,則任一動作ax的Q值定義為

Q(st,ax)=E(Rt|s=st,a=ax)。

(2)

Q(st,ax)表示在狀態st下動作ax的Q值,則式中表示動作的Q值為動作獲得獎勵的期望值。

明確動作的Q值后,進一步明確動作網絡的輸入與輸出,動作網絡作為神經網絡只需要明確其輸入輸出即可,動作網絡表達為

V動作(ω)=maxE(Q(st,a1),(st,a2),…,(st,an)),(3)

式中:ω----網絡參數。

動作網絡在t時刻狀態st下,依據當前狀態,估計所有動作的Q值,并選擇Q值最大的動作為輸出。將式(1)代入式(2)得

E(rt+maxβ(Q(st+1,a1),Q(st+1,a2),…,

Q(st+1,an))|s=st,a=ax)。(4)

t時刻動作的Q值可由t時刻立刻獲得的即時獎勵與下一時刻動作的Q值構成。

依據式(4),批評網絡提取動作執行后環境反饋的獎勵與估計下一時刻最優動作的Q值,計算當前時刻動作的Q值,批評網絡表示為

V批評(ω)=rt+βmaxE(Q(st+1,a1),Q(st+1,a2),

…,Q(st+1,an)),

(5)

式中:rt----動作執行后立即獲得的獎勵。

由于批評網絡所依據即時獎勵為動作執行后環境反饋,而動作網絡估計的Q值是通過預估得到,因此批評網絡計算得到的Q值被視為更接近真實值。

通過將動作網絡估計得到動作的Q值與批評網絡計算得到動作的Q值代入損失函數,根據損失函數計算結果對動作網絡進行梯度更新,令動作網絡估計得到的Q值不斷逼近批評網絡計算得到的Q值,使動作網絡具備依據環境輸入狀態選擇合適動作的能力,損失函數被定義為

L(ω)=maxE(Vcritic(ω)-Vactor(ω))2=

maxE[((rt+βmaxE(Q(st+1,a1),

Q(st+1,a2),…,Q(st+1,an)))-

(maxE(Q(st,a1),Q(st,a2),…,

Q(st,an))))2]。

(6)

DQN算法即通過動作網絡選擇合適的動作進行輸出與環境交互,批評網絡根據環境反饋重新計算動作的Q值,并通過在損失函數內對動作網絡進行更新的方式,得到最優策略,與大多數策略依據建立精確復雜的模型不同,DQN只需建立用于交互的環境模型,適應動態復雜的交通環境,且具備自主學習探索策略的能力。

2 基于DQN算法的緊急制動策略

2.1 緊急制動過程環境建模

DQN算法通過與環境交互,自主探索最優策略,因此,首先建立緊急制動過程的環境模型,模型由兩部分組成,車輛前方攝像頭獲取的圖像以及當前車速。攝像頭獲取的圖像如圖2所示。

圖2 攝像頭獲取圖像

2.2 深度強化學習元素

為建立基于提出DQN算法的緊急制動策略模型,需定義深度強化學習與環境交互時的重要元素,分別為狀態、動作和獎勵。

2.2.1 狀態

建立環境模型,模型由所有時刻車輛前方攝像頭獲取的圖像以及當前車速構成。則DQN策略由環境輸入狀態,即為當前時刻車輛前方攝像頭獲得圖像及當前時刻車速。

2.2.2 動作

DQN可執行的動作需要預先定義,因此定義剎車動作,剎車幅度為0至1.0,剎車幅度為0時,則不剎車,為1.0時表示剎車開度最大,因此定義6個動作,分別為剎車幅度0,0.2,0.4,0.6,0.8,1.0。

2.2.3 獎勵函數

獎勵函數用以反饋動作執行后的即時獎勵,獎勵函數定義為

式中:α----獎勵折扣系數,以確保未產生碰撞時獎勵為正;

d----與前方車輛距離,則產生碰撞返回一個負獎勵,而安全停止返回一個正獎勵,且與前車距離越接近5 m,則獲得獎勵越大。

2.3 基于DQN的緊急制動策略模型

基于DQN的緊急制動策略如圖3所示。

t時刻環境模型將當前車速與車前攝像頭獲取圖像作為狀態st輸入動作網絡,動作網絡根據狀態估計所有動作的Q值,并選擇其中Q值最大的動作at執行,動作執行后環境返回即時獎勵rt,并更新狀態為st+1,將st,rt,at,st+1存入經驗池中,批評網絡依據st+1,rt重新計算動作Q值,并與動作網絡估計的Q值一同輸入損失函數,根據損失函數結果梯度更新動作網絡,批評網絡的更新則通過每隔一段時間完全復制動作網絡的參數完成。

圖3 基于DQN的緊急制動策略

3 仿真與結果分析

為驗證所提出基于DQN的緊急制動策略的性能,在Carla仿真環境中進行仿真驗證,如圖4所示。

圖4 Carla仿真環境

Carla為一款開源的無人駕駛仿真軟件,可實時獲取車輛速度及車輛前置攝像頭圖像等,在Carla仿真環境中,設置兩個場景,對比基于DQN的緊急制動策略與基于專家決策的緊急制動性能。

仿真場景一如圖5所示。

圖5 仿真場景一

黑色車輛為實驗車輛,白色車輛為其他車輛,黑色車輛實驗中分別搭載訓練后的基于DQN的緊急制動策略及基于專家決策的緊急制動策略,兩車在實驗過程中以不同速度行駛,初始距離為30 m,白車于行駛過程中急剎車,觀察實驗車輛的制動情況。

兩車以不同速度行駛如圖6所示。

圖6 不同速度實驗車輛與前車相距距離

分別搭載基于DQN的緊急制動策略與搭載基于專家決策的制動策略下,前車急停后,實驗車輛停止時與前車相距距離,速度較低時,基于專家決策的方法停止后距離前車大于基于DQN的緊急制動策略;而當速度較高時,基于專家決策的方法剎車距離小于基于DQN的緊急制動策略,且當速度大于120 km/h后,基于專家決策的方法與前車發生碰撞,而基于DQN的緊急制動策略始終保持不發生碰撞,且速度較低時,停止后與前車距離維持在5 m附近,而在速度較高時,其停止后距離也大于基于專家決策的方法,且始終未產生碰撞,所提出基于DQN的緊急制動策略具有更好的安全性。

仿真場景二如圖7所示。

圖7 仿真場景二

黑色車輛為實驗車輛,白色車輛為其他車輛,實驗車輛分別搭載基于DQN的緊急制動策略與基于專家決策的緊急制動策略,當距離路口不同距離時,白色車輛以150 km/h從路口駛出,并在道路中央停止,分別在不同距離下進行20次實驗,記錄兩種方法發送碰撞的概率。

距離路口不同距離下發生碰撞概率如圖8所示。

圖8 距離路口不同距離下發生碰撞概率

在與路口相距不同距離下,實驗車輛分別搭載兩種方法發生碰撞的概率,基于DQN的緊急制動策略最大避免碰撞的距離為6 m,而基于專家決策的緊急制動策略的最大避免碰撞距離為9 m,在最大避免碰撞距離內,車輛碰撞率為100%。隨著距離增加,兩種方法碰撞概率下降,基于DQN緊急制動策略始終保持比基于專家決策的緊急制動策略更低的碰撞率。基于DQN的緊急制動策略完全避免碰撞的最小距離為24 m,基于專家決策的緊急制動策略完全避免碰撞的最小距離為27 m,在與路口距離大于最小避免碰撞距離時,可以完全避免產生碰撞,因此基于DQN的緊急制動策略,其避免碰撞距離與完全避免碰撞距離均小于基于專家決策的緊急制動策略,且在可能產生碰撞的距離內,碰撞概率始終小于基于專家決策的緊急制動策略,驗證了所提出基于DQN的緊急制動策略的安全性。

4 結 語

基于DQN設計了基于深度強化學習的緊急制動策略,所設計策略與環境自主交互學習,在不同環境下實現自動緊急制動,基于Carla仿真平臺與專家決策進行對比仿真驗證,結果表明,所提出策略具有更高安全性。

猜你喜歡
動作環境策略
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
例談未知角三角函數值的求解策略
孕期遠離容易致畸的環境
我說你做講策略
環境
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
主站蜘蛛池模板: 99re免费视频| 狠狠色成人综合首页| 国产香蕉97碰碰视频VA碰碰看| 国产乱视频网站| 亚洲黄色激情网站| 十八禁美女裸体网站| 日韩欧美国产三级| 午夜福利在线观看成人| 久久久精品国产SM调教网站| 国产精品久久久免费视频| 国产精品林美惠子在线播放| 人妻丰满熟妇啪啪| 欧美亚洲国产日韩电影在线| 91成人在线免费视频| 亚洲毛片在线看| 国产精品欧美激情| 免费高清自慰一区二区三区| 国产原创自拍不卡第一页| 成人免费一级片| 国内精品久久人妻无码大片高| 欧美成人国产| 天堂网亚洲系列亚洲系列| 国产激情无码一区二区三区免费| 亚洲精品老司机| 91福利免费| 狠狠色噜噜狠狠狠狠奇米777| 精品国产免费观看一区| 国产精品伦视频观看免费| 久久天天躁狠狠躁夜夜躁| 国产欧美日韩另类精彩视频| 男女男免费视频网站国产| 无码电影在线观看| 亚洲人人视频| 午夜小视频在线| 久久精品无码一区二区日韩免费| 亚洲熟女中文字幕男人总站| 亚洲精品国产自在现线最新| 欧美激情成人网| 国产丝袜精品| 久久中文无码精品| 日韩小视频在线观看| 欧美日韩在线观看一区二区三区| 国产高清色视频免费看的网址| 国产经典在线观看一区| 亚洲AⅤ波多系列中文字幕| 国产网友愉拍精品视频| 99国产精品一区二区| 99资源在线| 国产成人a毛片在线| 久久久久无码精品| 欧美啪啪网| 国产美女无遮挡免费视频| 夜夜拍夜夜爽| 久久永久视频| 香蕉99国内自产自拍视频| 国产av无码日韩av无码网站| 亚洲无码视频一区二区三区| 亚洲综合在线最大成人| 国产欧美精品午夜在线播放| 亚洲国产成人无码AV在线影院L| 女人爽到高潮免费视频大全| 亚洲男人天堂久久| 精品国产网| 国产在线一区二区视频| 亚洲精品在线91| 狠狠色丁婷婷综合久久| aaa国产一级毛片| 久久无码av一区二区三区| 亚洲精品第一页不卡| 国产成人高清精品免费5388| 黄色网址免费在线| 91最新精品视频发布页| 久久久久人妻一区精品色奶水| 无码精品福利一区二区三区| 无码视频国产精品一区二区| 1024你懂的国产精品| 黑人巨大精品欧美一区二区区| 精品在线免费播放| 免费观看国产小粉嫩喷水| 在线看片中文字幕| 欧洲亚洲欧美国产日本高清| 国产精品三级专区|