999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Dueling DDQN的無人車換道決策模型

2022-03-26 07:05:08張鑫辰劉元盛謝龍洋
東北師大學報(自然科學版) 2022年1期
關鍵詞:環境模型

張鑫辰,張 軍,劉元盛,謝龍洋

(1.北京聯合大學北京市信息服務工程重點實驗室,北京 100101;2.北京聯合大學機器人學院,北京 100101)

0 引言

無人駕駛可以提高汽車的利用效率以及通行能力,同時也可以減少因駕駛員疲勞而導致的交通事故[1].而無人車的換道決策問題是無人駕駛中復雜且最具挑戰性的問題之一[2-3].無人車的換道決策方法主要分為基于規則型和基于學習型的方法.

基于規則型的方法有Gipps[4]、CORSIM[5]模型等,這些模型的最終輸出一般為換道或不換道的二元結果,而基于規則型換道決策方法的局限性在于難以覆蓋所有工況,難以處理復雜道路場景.

隨著無人駕駛決策技術的不斷發展,對于無人車換道決策技術的研究逐漸由基于規則型的方法向學習型的方法轉化.其中,學習型的決策方法分為基于機器學習和基于強化學習的方法.基于機器學習的常用方法有深度神經網絡[6-7]、高斯和隱馬爾可夫混合模型[8]、貝葉斯決策[9-10]、隨機森林[11]、支持向量機[12]等,雖然這些方法與基于規則的模型相比可以在更多的道路場景中使用,但往往需要較為龐大的先驗數據集作為訓練集進行模型訓練,同時這些模型在較復雜的道路駕駛場景中對突發情況的處理有所欠缺.

在基于強化學習的換道決策研究中,文獻[13-15]提出了基于DQN(Deep Q Network)的換道決策模型,在高速公路場景下進行了建模.該方法與基于機器學習和基于規則換道模型相比,在面對道路突發情況的處理上有了較大的提升.但是基于DQN的換道模型中的目標網絡存在著過估計的問題,這種問題的存在使得模型在選擇動作時往往會得到次優的結果,同時模型會收斂到局部最優值,導致最終無法得到最優的換道決策策略.因此,本文建立基于競爭結構(Dueling Architecture)的雙深度Q網絡(Dueling Double Deep Q Network)算法的無人車換道決策模型,首先將無人車動作的選擇和評估分別用不同的網絡來實現,并將Q網絡分為僅與狀態S相關的價值函數(Value Function)部分和同時與狀態S和動作A相關的優勢函數(Advantage Function)部分.通過實驗結果表明,該模型可以使無人車在較復雜的道路上以更高的速度行駛,通過與DQN以及DDQN模型對比,驗證了提出模型的魯棒性和合理性.

1 換道決策模型的構建

1.1 Dueling DDQN模型

Dueling DDQN算法在DDQN算法[16-17]的基礎上加入競爭結構,將Q網絡分為兩部分,分別為價值函數和優勢函數,即

(1)

其中:s為狀態值,a為動作值,V(s;θ,β)為價值函數,A(s,a;θ,α)為優勢函數,|A|為動作的個數,a′為所有可以采取的動作,θ為公共部分的網絡參數,α和β分別為價值函數和優勢函數各自的網絡參數.

Dueling DDQN由兩個結構相同網絡參數不同的神經網絡組成,分別為評估網絡和目標網絡.評估網絡和目標網絡的參數分別用θ和θ-表示,評估網絡被用作估計無人車最佳動作價值函數的函數逼近器,即

Q(s,a;θ)≈Q*(s,a).

(2)

其中:Q*(s,a)為最佳動作價值函數.它定義當無人車處于狀態s,采取某種動作a并遵循最佳策略π*時的最大期望值.將t時刻無人車的狀態值st,采取的動作值at,從環境返回的獎勵值rt,以及下一個t+1時刻的狀態值st+1作為經驗值et存儲在記憶庫Dt中用于訓練評估網絡,即:

et=(st,at,rt,st+1);

(3)

Dt={e1,e2,…,et}.

(4)

在第i次迭代時,評估網絡首先從記憶庫中抽取批量大小為M的序列,使用隨機梯度下降的方法通過調整網絡參數θi來最小化貝爾曼方程的誤差,定義Li(θi)為第i次迭代的損失函數:

(5)

結合實驗中采用的換道決策模型,整體的網絡架構如圖1所示.

圖1 整體網絡框架

1.2 基于Dueling DDQN的無人車換道決策模型構建

本文采用圖1所示的網絡框架構建無人車換道決策模型.無人車在行駛過程中的換道決策問題可以描述為馬爾可夫決策過程(Markov Decision Process),該過程可由一組狀態空間S,一組動作空間A,以及獎勵函數R來具體描述.圖2描述了無人車在行駛的過程中與環境進行交互的過程.

圖2 無人車與環境交互過程

無人車在行駛過程中首先獲取當前環境下的觀測狀態sp,然后無人車采取動作ap,獲得獎勵rp,經過1 s后,無人車進入下一個狀態sp+1,其中p為當前回合的執行步數.重復上述迭代過程,直至一個回合結束.定義具體的狀態空間、動作空間以及獎勵函數如下:

狀態空間定義:以無人車感知范圍內最近的6輛環境車相對于無人車的距離和速度,以及無人車自身的速度作為狀態空間,即

S={vego,s1,s2,…,s6}.

(6)

式中vego表示無人車的速度值,s1~s6表示環境車輛的狀態值.其中s={exist,x,y,vx,vy},exist表示是否存在該車輛,若存在,exist=1,反之,exist=0.x表示環境車輛相對于無人車的橫向位置,y表示環境車輛相對于無人車的縱向位置,vx表示環境車輛相對于無人車的橫向速度,vy表示環境車輛相對于無人車的縱向速度.

動作空間定義為

A={left,right,keep,lower,faster}.

(7)

式中:left表示無人車向左換道,right表示無人車向右換道,keep表示無人車保持原車道行駛并保持速度不變,lower表示無人車保持原車道并以-1.25 m/s2的加速度減速行駛,faster表示無人車保持原車道同時以1.25 m/s2的加速度加速行駛.

獎勵函數定義:為了避免強化學習中的稀疏獎勵問題,同時使無人車可以學習到最佳的駕駛策略,設置獎勵函數.

為使無人車避免碰撞,設置碰撞懲罰函數為

rp-collision=-1.

(8)

為防止無人車因避免碰撞而過于保守的行駛,設置速度獎勵函數為

(9)

其中rhigh-velocity為速度獎勵因子,設為0.25,vmax和vmin分別為無人車行駛時可達到的最高速度(30 m/s)和最低速度(20 m/s),vego為無人車的當前速度.

為避免無人車頻繁的改變車道(無人車為避免碰撞而換道除外),設置換道懲罰函數為

rp-lanechange=-0.01.

(10)

若無人車在一個步長內未發生碰撞,設置單步獎勵函數為

rp-step=0.01.

(11)

若無人車在整個回合行駛過程中未發生碰撞,設置成功獎勵函數為

rsuccess=0.5.

(12)

故總獎勵函數為

(13)

式中T為本回合執行總步數.

2 仿真環境搭建

2.1 仿真道路環境搭建

實驗中選用高速場景為仿真實驗場景.共分為4個主車道,仿真道路總長為800 m,高速公路仿真實驗場景如圖3所示,其他道路環境參數設定如表1所示.

圖3 實驗場景示意圖

表1 道路環境參數設定

2.2 仿真車輛環境搭建

采用IDM(Intelligent Driver Model)[18]對環境車輛縱向動力學進行仿真,環境車輛之間的狀態關系滿足:

(14)

(15)

其中:amax表示最大加速度,v表示車輛當前速度,vd表示期望速度,δ表示加速指數,Δv表示同車道當前車輛與前車的速度差,d*(v,Δv)為期望最小間距,d0表示最短車輛間距,T表示期望車頭時距,b表示期望減速度.該模型可以模擬車輛的跟隨行為,同時在高速公路上為車輛產生所需的加速度.

采用MOBIL(Minimizing Overall Braking Induced By Lane Change)[18]對環境車輛橫向動力學進行仿真,環境車輛的加速度關系滿足:

(16)

(17)

Δa>Δath.

(18)

實驗中采用的主車道環境車輛最高速度為40 m/s,環境中車輛數為10輛,在車道1至車道4隨機分配每輛環境車的位置,且車輛縱向初始間距為30 m.無人車的長度和寬度與環境車輛一致.假設無人車的感知范圍為車輛前后距離各150 m,左右距離各8 m.其他仿真車輛環境參數如表2所示.

表2 仿真車輛環境參數設定

3 結果與分析

本文采用Python3.7搭建道路仿真環境,使用PyTorch搭建神經網絡框架.仿真實驗中訓練和測試使用的計算機配置為Ubuntu16.04LTS系統,i7-8750H處理器,16 GB內存.設置訓練最大回合數為20 000,單回合最大執行步數為20.假設車輛在實驗過程中均保持在可行使區域內行駛.回合終止條件為無人車單回合執行步數達到最大或無人車在行駛過程中與環境車輛發生碰撞.實驗中采用的網絡參數如表3所示.

表3 Dueling DDQN網絡參數設定

3.1 模型訓練及結果分析

訓練過程中主要研究在無人車進行換道決策時,是否可以根據周圍車輛環境的變化做出應對的策略.定義若無人車在一個回合內未與環境車輛發生碰撞,即為一次成功.無人車在前i個回合獲得的平均獎勵定義為

(19)

其中Rt為在無人車第t個回合內獲得的獎勵值.

無人車在前i個回合獲得的平均速度定義為

(20)

其中vt為在無人車第t個回合內獲得的平均速度.

分別使用Dueling DDQN、 DDQN、DQN模型進行訓練,且3種算法的網絡參數、狀態空間、動作空間、獎勵函數均保持一致.通過分析換道決策成功率、模型得到的平均獎勵以及無人車平均速度來描述模型訓練的結果如圖4—6所示.

圖4 訓練過程中換道決策成功率對比 圖5 訓練過程中平均獎勵值對比

圖6 訓練過程中平均速度對比

由圖4可知,在訓練開始階段,3種模型的換道決策成功率均由0開始不斷增加,隨著訓練回合數的增長,基于Dueling DDQN的換道模型成功率在訓練5 000回合左右達到基本穩定,而DDQN和DQN算法在10 000回合左右達到基本穩定.在訓練回合結束時,Dueling DDQN換道模型成功率最高,為84.39%,DDQN次之,為 83.59%,DQN最低,為 81.40%.

由圖5—6,可知,在平均獎勵方面,Dueling DDQN、DDQN、DQN分別在訓練回合結束后獲得4.47,4.37,4.28的平均獎勵值.而在無人車平均速度方面,Dueling DDQN、 DDQN、 DQN分別在訓練回合結束后可達到29.05,28.79以及28.77 m/s的平均速度.

綜上所述,在模型的訓練過程中,Dueling DDQN模型較DDQN和DQN相比可獲得更高的平均獎勵值,且在保持更高的換道成功率的前提下,提升了無人車的行駛速度.

3.2 模型測試及結果分析

在模型測試過程中,針對不同條件下的道路環境,通過改變環境車輛的橫向模型(MOBIL)中的禮貌系數p、環境車輛初始間距以及環境車輛的數目來模擬不同車輛環境的道路場景,其他道路與車輛環境參數保持不變.其中禮貌系數p∈[0,1],p越小,說明環境車輛的駕駛風格越激進,環境車輛初始間距以及環境車輛的數目的變化用來模擬不同道路環境的車流密度.通過改變上述3個參數值來設置3個不同車輛環境的道路場景,分別使用Dueling DDQN、DDQN、DQN算法訓練的模型在3個不同的道路場景中測試.設定每個場景的測試回合數為1 000,場景設置及測試過程的具體描述如下.

3.2.1 模型測試場景(1)

測試場景(1)采用與模型訓練時相同的道路場景,即3個參數分別為:禮貌系數p=1,環境車輛初始間距為30 m,環境車輛數為10輛.分別從換道決策成功率、模型得到的平均獎勵、無人車平均速度來描述在此場景中模型測試的結果.Dueling DDQN、DDQN、 DQN模型的換道決策成功率隨回合數變化趨勢如圖7所示,前1 000個測試回合的成功率、平均獎勵以及平均速度如表4所示.

您說像他這樣,我怎么敢把大事兒交給他辦?他自己也挺苦惱:“國家的事兒不歸我想,家里的事兒全被你想了,我還能想點兒啥?”

圖7 場景(1)換道決策成功率對比

表4 場景(1)模型測試對比結果

由圖7和表4可知,Dueling DDQN的換道決策成功率較DDQN和DQN分別高出1.7%和3.9%,同時在平均獎勵和平均速度方面,Dueling DDQN模型均高于DDQN和DQN.3種模型在1 000次測試回合中成功的回合次數分別為Dueling DDQN成功936次,DDQN成功919次,DQN成功897次.在這些未發生碰撞的回合中,Dueling DDQN一個回合獲得的獎勵值小于5.0的有4次,DDQN有19次,DQN有25次,這些回合獲得獎勵值較低的原因是由于無人車為避免碰撞而采取了過于保守的駕駛動作,使得無人車在一定的步長內均保持較低的速度行駛,進而導致在一個回合內獲得的速度獎勵值較低,由此可見,Dueling DDQN成功但保守駕駛的回合次數較少,說明此模型可以通過狀態空間的變化和獎勵函數反饋過程更好的理解道路環境的變化,采取更優的動作值.由此可見,在場景(1)的測試過程中,Dueling DDQN模型的表現更好.

3.2.2 模型測試場景(2)

測試場景(2)采用比場景(1)更復雜的道路場景,即3個參數分別為:禮貌系數p=0.5,環境車輛初始間距為20 m,環境車輛數為15輛.分別從換道決策成功率、模型得到的平均獎勵、無人車平均速度來描述在此場景中模型測試的結果.3種模型的換道決策成功率隨回合數變化趨勢如圖8所示,前1 000個測試回合的成功率、平均獎勵以及平均速度如表5所示.

表5 場景(2)模型測試對比結果

由圖8和表5可知,Dueling DDQN的換道決策成功率較DDQN和DQN分別高出3.4%和5.1%,同時在平均獎勵和平均速度方面,Dueling DDQN模型均高于DDQN和DQN.在此場景中模型測試結果與場景(1)相比,每個算法的測試成功率、平均獎勵、平均速度均有所下降,但Dueling DDQN成功率的下降幅度最小,說明Dueling DDQN對復雜場景的適應性更強.場景(2)中3種模型平均獎勵下降的原因是因為隨著換道成功率的下降,無人車發生碰撞的次數增多,導致獲得碰撞懲罰函數的次數增加,同時獲得的單步獎勵函數也隨之減少,平均速度的下降也使得無人車獲得速度獎勵函數減少,最終導致平均獎勵下降.

圖8 場景(2)換道決策成功率對比

3.2.3 模型測試場景(3)

測試場景(3)采用最復雜的道路場景,即3個參數分別為:禮貌系數p=0,環境車輛初始間距為10 m,環境車輛數為20輛.分別從換道決策成功率、模型得到的平均獎勵、無人車平均速度來描述在此場景中模型測試的結果.3種模型的換道決策成功率隨回合數變化趨勢如圖9所示,前1 000個測試回合的成功率、平均獎勵以及平均速度如表6所示.

圖9 場景(3)換道決策成功率對比

表6 場景(3)模型測試對比結果

由圖9和表6可知,Dueling DDQN的換道決策成功率較DDQN和DQN分別高出9.7%和23.8%,同時在平均獎勵方面,Dueling DDQN模型高于DDQN和DQN.雖然在平均速度方面DQN模型較Dueling DDQN高0.18 m/s,但是由于換道成功率較低,所以DQN模型無法保證在換道成功率較高的前提下提高無人車的速度.且在無人車發生碰撞的回合中,每個算法的單回合步數比例(單回合步數最大為20)分布如表7所示.

表7 場景(3)無人車碰撞單回合步數比例分布對比結果

由表7可知,DQN和DDQN在發生碰撞的回合中,分別有48.87%和45.70%的碰撞發生在前10個步長內,而Dueling DDQN有16.98%的碰撞發生在前10個步長內,說明在每個測試回合的開始階段,DQN和DDQN對復雜的道路場景的適應性較低,無法準確地根據無人車當前所處環境進行合理的決策,DQN和DDQN算法的碰撞分布在前10個步長內的百分比分別是Dueling DDQN的2.88倍和2.69倍,說明Dueling DDQN算法在測試回合的開始階段,可以根據當前所處環境使無人車做出合理的動作,且Dueling DDQN在復雜的道路場景中仍然可以保持較高的換道成功率.

3.2.4 不同場景之間的對比

場景(3)和場景(1)的測試結果相比,Dueling DDQN算法成功率下降9.5%,而DDQN和DQN算法分別下降17.5%和29.4%,Dueling DDQN算法無人車換道決策成功率的下降幅度最低,說明Dueling DDQN換道模型與DDQN和DQN模型相比,更適合在復雜的道路場景中使用.

綜上所述,在3種車輛環境不同的測試場景中,Dueling DDQN在保證換道成功率的情況下,平均獎勵和平均速度方面均高于DDQN和DQN,可見Dueling DDQN的模型性能更好.因為DDQN模型在增加了競爭結構后,在評估網絡更新的時候,由于存在一個狀態下的優勢函數之和為0的限制,所以網絡在更新時會優先更新價值函數,導致當每次模型的價值函數被更新時,在一個狀態下所有的Q值均被更新,進而使得Dueling DDQN模型可以更好地理解外部的狀態環境,同時提高了模型的魯棒性和適用性.

4 結論

本文針對高速公路下無人駕駛車的換道決策問題,提出了基于Dueling DDQN的無人車換道決策模型,同時與DQN和DDQN模型進行了對比.實驗結果表明,Dueling DDQN模型在無人車換道決策成功率上均高于DQN與DDQN,同時可以在保證成功率的前提下,更大幅度的提高無人車的行駛速度,進而提高通行效率.通過在不同車輛環境的道路場景下進行測試,Dueling DDQN模型在3種道路場景下可保持較高的換道決策成功率,表明此模型的魯棒性更好,且在更復雜的道路場景下的適用性更強.

猜你喜歡
環境模型
一半模型
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
環境
孕期遠離容易致畸的環境
3D打印中的模型分割與打包
主站蜘蛛池模板: 天堂网亚洲系列亚洲系列| 国产91导航| 国产在线97| 丁香五月婷婷激情基地| 国产精品浪潮Av| 国产免费久久精品99re丫丫一| 欧美一级黄片一区2区| 日本人又色又爽的视频| 免费无码网站| 日韩国产黄色网站| 国产91在线免费视频| 国产综合精品一区二区| 亚洲愉拍一区二区精品| 国产精品女在线观看| 国产区免费| 国产屁屁影院| 精品久久蜜桃| 亚洲二三区| 天天综合亚洲| 巨熟乳波霸若妻中文观看免费| 欧美a级在线| 日本妇乱子伦视频| 在线精品欧美日韩| 成人午夜网址| 一区二区偷拍美女撒尿视频| 波多野结衣亚洲一区| 毛片a级毛片免费观看免下载| 亚洲三级片在线看| 欧美激情网址| 五月婷婷综合在线视频| 日本高清免费一本在线观看| 色播五月婷婷| 国产大全韩国亚洲一区二区三区| 国产精品一区不卡| 亚洲国产一区在线观看| 国产成人无码Av在线播放无广告| a毛片免费看| 国产国模一区二区三区四区| 欧美色视频在线| 国产午夜一级毛片| 青青草原偷拍视频| 又黄又爽视频好爽视频| 精久久久久无码区中文字幕| 亚洲精品欧美日本中文字幕| 996免费视频国产在线播放| 国产精品午夜福利麻豆| 亚洲精品人成网线在线 | 九九热精品在线视频| 尤物特级无码毛片免费| 午夜性爽视频男人的天堂| 国产精品一区二区久久精品无码| 午夜毛片免费看| 久久久波多野结衣av一区二区| 亚洲欧洲日韩国产综合在线二区| 欧美久久网| 四虎在线观看视频高清无码 | 久久综合五月| 欧美日韩一区二区三| 欧美日本中文| 亚洲欧洲日本在线| 亚洲国产日韩欧美在线| 色哟哟色院91精品网站| 国产高清国内精品福利| 亚洲国产精品国自产拍A| 日本国产精品一区久久久| 国产福利一区在线| 波多野结衣视频网站| 国产成人精品综合| 亚洲av无码久久无遮挡| 无码中文字幕精品推荐| 中文国产成人久久精品小说| 正在播放久久| 欧美在线一二区| 中文字幕伦视频| 亚洲天堂久久新| 黄色网址手机国内免费在线观看| 一级毛片免费观看不卡视频| 日韩毛片视频| 国产精品一线天| 67194在线午夜亚洲| 国产免费怡红院视频| 天天色天天综合网|