999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構融合特征的深度強化學習自動駕駛決策方法*

2022-11-09 02:34:00石朝俠王燕清
計算機與數字工程 2022年9期
關鍵詞:深度融合方法

馮 天 石朝俠 王燕清

(1.南京理工大學計算機科學與工程學院 南京 210094)(2.南京曉莊學院信息工程學院 南京 211171)

1 引言

國家統計局發布的中華人民共和國2019年國民經濟和社會發展統計公報[1]顯示,截至年末,全國民用汽車保有量26150萬輛,比上年末增加2122萬輛,伴隨而來的道路交通問題也日益凸顯。資料顯示,中國道路交通事故萬車死亡人數已達1.80人。很大數量的交通事故是由于駕駛員的失誤造成的,自動駕駛技術的應用,很可能讓這類交通事故大幅減少。英偉達、谷歌、特斯拉、百度等著名科技企業在自動駕駛技術上均已展開了大量的研究,現階段已有少量自動駕駛車輛進行測試。美國電氣和電子工程師協會(IEEE)預測,截止至2040年,全球75%的新增汽車都會是自動駕駛汽車[2]。然而現階段,研究出在城市環境下能夠完全自主應對各種復雜交通場景的自動駕駛技術仍然是一項巨大的挑戰。

迄今為止,已經存在一些基于深度學習[3~7]或者基于強化學習[8~10]的自動駕駛方法。基于深度學習的方法使用大量人類駕駛員的駕駛數據訓練神經網絡[4],通過大量數據尋求駕駛環境與駕駛員動作的映射關系,進而學習自動駕駛技術。這種方法不僅需要極大數量的駕駛數據而且缺乏對特殊情況的學習,有較大的應用難度。基于強化學習的自動駕駛方法可以利用自主探索環境得到的經驗持續學習優化。但是,這種方法對于自動駕駛這種高輸入維度且動作空間連續的情況難以有效進行。加之神經網絡解釋性的缺乏[5],僅基于深度學習的自動駕駛算法一直沒有突破性進展。

LeCun等[11]在2005年已經開始探索卷積網絡在自動駕駛方面的應用。Hinton等[12]在2006年提出了深度信念網絡(Deep Belief Networks),為深度學習方法開啟了一個新的方向。Krizhevsky[13]等在ImageNet Large Scale Visual Recognition Challenge 2013(ILSVRC 2013)中使用卷積神經網絡取得了突出的成績。2016年,Bojarski等[3]提出使用深度卷積網絡進行自動駕駛研究的方案。DeepMind團隊[4]提出的affordance機制改進了自動駕駛研究的方案。隨著深度學習方法的進一步使用,研究者們嘗試將強化學習與之結合。其中,Mnih等[14]提出的DQN(Deep Q-Network)算法實現了在離散空間上從感知到動作的端到端算法,算法在一些游戲場景中表現已優于人類。DeepMind團隊在2016年結合演員-評論家(Actor Critic)算法[15],將DQN算法改進為深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[16],實現了連續空間上的控制輸出。CARLA[17]自動駕駛仿真平臺提供了數據收集、實驗設置、方案驗證等功能,是一個優秀的綜合仿真平臺。受到前人工作的啟發,本文提出一種深度強化學習自動駕駛決策方法:首先基于適量駕駛數據預訓練圖像降維網絡,然后將降維后得到的圖像特征和車輛狀態特征進行異構融合作為強化學習的輸入,接著通過為自動駕駛量身定制的獎勵函數有效引導學習,并結合經驗池回放技術和目標網絡技術。最后,分別測試了異構融合架構下和未經融合直接輸入架構下自動駕駛的學習曲線。

2 基于強化學習的方法

強化學習通過智能體與環境不斷進行交互,用獎勵或者懲罰信號試錯式的學習狀態和動作之間的某種映射規則的方法。其框架如圖1所示。

圖1 強化學習基本框架

在強化學習過程中,智能體基于某種決策方式在狀態st下做出動作at并與環境交互,獲得環境反饋改變狀態到達st+1并獲得獎勵rt,如此反復產生一系列狀態、動作、獎勵鏈,直到達到終止條件。智能體希望通過不斷探索環境來優化決策以最大化得到的獎勵。下面介紹一些典型的強化學習算法。

2.1 DQN算法

DQN算法是傳統強化學習算法Q-Learning與深度學習方法的結合,強化學習的過程可模式化為馬爾科夫決策過程(Markov Decision Process,MDP),其中包含狀態S,動作A,獎勵R和衰減系數γ,狀態的改變和獎勵僅取決于上一步的狀態和動作。

在DQN之前,Q-learning算法是通過構造一個Q表來存儲狀態-動作對的價值,進而可以根據這些價值做決策。學習的目的是求出期望累計獎勵最大的策略,其形式為式(1):

DQN使用深度神經網絡來擬合函數以替代Q表,學習時通過時序差分算法最小化目標Q值和當前Q網絡輸出之間的差距來更新參數θ的值。如式(2)所示:

DQN算法只適用于離散動作空間,對于自動駕駛這種連續空間并不直接適用。

2.2 DDPG算法

DDPG是將深度神經網絡融合進Deterministic Policy Gradient(DPG)的學習算法。DPG通過確定性動作函數at=μ(st|θμ)直接選擇動作,DDPG在其基礎上分別采用策略網絡和價值Q網絡作為策略函數μ(st|θμ)和價值Q(st,at|θμ)函數的模擬,然后使用深度學習的方法按照式(3)、(4)、(5)分別更新網絡。

同時,DDPG保留了DQN的使用過的經驗池回放技術和目標網絡技術來降低學習過程中的波動,進一步使得學習過程收斂。經驗池回放技術是將系統探索環境得到的數據存儲起來,然后隨機采樣樣本更新深度神經網絡的參數。目標網絡技術通過拷貝原始網絡為目標網絡,根據延遲因子τ來軟更新在線網絡和目標網絡的參數以穩定學習過程,更新方式如式(6)和式(7)所示。

3 基于異構融合特征的深度強化學習自動駕駛決策方法

3.1 圖像降維網絡

強化學習難以在高輸入維度且動作空間連續的情況下有效學習,為了降低輸入狀態維度,我們使用模仿學習方法預先學習駕駛數據,訓練圖像降維網絡[7]。

網絡輸入為來自前向攝像頭分辨率為88*200的RGB圖像image,通過8層卷積網絡和2層全連接網絡,最終輸出2維車輛控制信號,分別為方向盤控制量s和加減速控制量a,網絡結構見圖2。

圖2 圖像降維網絡結構圖

網絡的損失函數L定義為兩個預測控制信號量s和a的L2損失和,如式(8):

待訓練結束后固定網絡參數并去掉網絡最末端輸出層,這樣得到從88*200*3維圖像image映射為512維度圖像特征fimg的降維網絡,此圖像降維網絡將作為我們強化學習的部分輸入。

3.2 異構融合特征強化學習網絡

DDPG算法分別使用策略網絡和價值Q網絡來模擬策略函數μ(st|θμ)和價值Q(st,at|θμ)函數,兩者均為多層全連接網絡。

為了提高系統對整體環境的感知,我們將對車輛描述的5維狀態特征:當前方向盤控制量s、當前加減速控制量a、歸一化速度v、人行道跨越rr、車道跨越ro,記為車輛狀態特征fagt,與圖像狀態fimg異構融合后合并輸入強化學習網絡。

策略網絡和價值Q網絡的結構如圖3、圖4所示。

圖3 策略網絡結構

圖4 價值Q網絡結構

3.3 獎勵函數設計

我們針對自動駕駛場景量身定制了獎勵模塊。獎勵模塊分為6個部分:速度獎勵ra,方向盤約束懲罰rs,人行道跨越懲罰rr,車道跨越懲罰ro,碰撞懲罰rd以及靜態懲罰rc,最終結果為這6個部分的數值總和,如式(9)所示。

速度獎勵ra定義為

其中v的單位為km/h,本實驗環境下vmax取值為10。

方向盤約束懲罰rs定義為

其中s為方向盤控制量,取值空間為[-1,1],本實驗環境下λs取值為30。

人行道跨越懲罰rr、車道跨越懲罰ro觸發條件分別為當發生人行道跨越、發生車道跨越時,觸發后獎勵數值均定義為-100。

碰撞懲罰rd觸發條件為當發生任何碰撞時,觸發后獎勵數值定義為-100,并且會終止此次實驗場景。

靜態懲罰rc觸發條件為當速度小于0.1m/s時,觸發后獎勵數值定義為-5,若持續2s內保持此狀態,也將終止此次實驗場景。

3.4 方法更新流程

方法更新過程和DDPG算法流程相似。首先預訓練圖像降維網絡,然后通過降維的圖像特征和車輛狀態特征異構融合作為輸入狀態,經驗池采樣更新網絡,方法整體架構見圖5。算法流程如下:

圖5 異構融合特征的深度強化學習自動駕駛決策方法

4 實驗設置

4.1 仿真環境介紹

為了更好地訓練并測試自動駕駛決策方法,本文選擇了CARLA開源自動駕駛仿真環境。CARLA是一款新穎的自動駕駛仿真軟件,其基于Unreal Engine 4引擎提供了三維可視畫面,城市環境資源(包含城市地圖和符合動力學的汽車與行人),多種類的傳感器,高仿真的光照與天氣以及符合物理動力學規律的車輛模型。

CARLA采用了服務器-客戶端架構。服務器負責仿真相關內容:傳感器渲染、物理計算、世界狀態及其車輛的更新等。客戶端由一組客戶端模塊組成,控制場景中車輛的邏輯,服務器與客戶端之間的聯系通過CARLA API實現。

4.2 仿真環境設置

CARLA仿真平臺的時間步長設置為0.1s,訓練天氣設置為干凈的中午、有積水的中午、下雨的中午、干凈的黃昏、下雨的黃昏5種天氣隨機選擇,設置仿真環境中其他動態車輛數為20,動態行人數為40。訓練過程中,車輛會從83個起初坐標中隨機選擇,持續行進直到達到終止條件,城市的地圖和仿真環境如圖6所示。

圖6 城市地圖及仿真環境

4.3 訓練參數設置

訓練過程中,模型輸入都進行歸一化,方向盤控制量s為[-1,1],加減速控制量a為[-1,1],其他訓練參數設置如表4所示。

表4 訓練參數設置

5 結果與分析

為了公平地評估異構融合特征方法,選擇將相同的輸入信息不經過異構融合,直接輸入強化學習網絡以便對比。兩種方法在訓練過程中所獲得的平均獎勵值曲線如圖7所示。

圖7 學習曲線

圖7中黑色虛線是直接輸入特征在訓練過程中所得到的平均獎勵值曲線,黑色實線是異構融合特征方法在訓練過程中的平均獎勵值曲線。從圖中可以看出,在訓練前期,隨著訓練的進行,車輛所獲得的獎勵值在不斷地上升,之后保持穩定,說明了車輛很好地學習到了駕駛技術。異構融合特征方法學習曲線上升更快,相對穩定后的平均獎勵值也更高,表5記錄了兩種方法達到穩定所需要的迭代次數,所需的時間以及穩定后的平均獎勵值。

表5 訓練信息

根據圖7和表5可知,異構融合特征方法的學習速度較快,可以很快地學習并穩定到一個較優的獎勵值,所需要的時間也有所減少。圖8為訓練過程中出現的場景,隨著訓練的進行,車輛從完全無法駕駛開始逐步學會了沿道路穩定行駛,路口轉向以及一定程度的障礙物避讓,體現了方法的穩定性與魯棒性。

圖8 訓練過程中的場景

6 結語

提出了一種基于異構融合特征的深度強化學習自動駕駛決策方法。首先通過模仿學習預訓練圖像降維網絡,然后將圖像特征和車輛狀態特征異構融合并輸入DDPG算法框架中,結合針對自動駕駛場景量身定制的獎勵模塊有效學習。實驗結果顯示,本文所提出的方法能夠有效且快速學習駕駛技術。同時,算法在復雜城市環境下保持了較高的穩定性與魯棒性,具有很好的應用潛力。

猜你喜歡
深度融合方法
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
深度理解一元一次方程
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
深度觀察
深度觀察
深度觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 国产精品福利在线观看无码卡| 亚洲人视频在线观看| 国产毛片不卡| 91成人试看福利体验区| 亚洲国产天堂在线观看| 中文字幕色在线| 欧美亚洲国产精品第一页| 中国丰满人妻无码束缚啪啪| 在线精品亚洲一区二区古装| 美女被操91视频| 91人妻日韩人妻无码专区精品| 欧美亚洲香蕉| 中文字幕久久精品波多野结| 色有码无码视频| 岛国精品一区免费视频在线观看| 99视频在线免费观看| 一级毛片免费播放视频| 精品午夜国产福利观看| 91在线一9|永久视频在线| 亚洲美女久久| 色婷婷在线播放| 毛片卡一卡二| 亚洲最大综合网| 成人福利在线观看| 日本五区在线不卡精品| 性视频久久| 亚洲中字无码AV电影在线观看| 人妻丰满熟妇αv无码| 小蝌蚪亚洲精品国产| 国产高清又黄又嫩的免费视频网站| 国产永久在线观看| 蜜臀AVWWW国产天堂| 久久a级片| 天天色综合4| 久久狠狠色噜噜狠狠狠狠97视色| 精品久久国产综合精麻豆| 亚洲第一成年人网站| 国产超碰在线观看| 久久精品丝袜| 一区二区三区四区精品视频 | 国产丝袜啪啪| 777国产精品永久免费观看| 一本视频精品中文字幕| 91精品久久久无码中文字幕vr| 亚洲欧美一区二区三区图片| 亚洲欧洲日产无码AV| 97在线视频免费观看| 午夜日本永久乱码免费播放片| 一本大道香蕉久中文在线播放| 日本在线欧美在线| 久久天天躁夜夜躁狠狠| 六月婷婷激情综合| 国产黄在线观看| AⅤ色综合久久天堂AV色综合| 久久永久视频| 婷婷五月在线| 亚洲欧美精品一中文字幕| 欧美午夜网| 无码中文AⅤ在线观看| 91精品国产一区自在线拍| 中文字幕首页系列人妻| 九九九精品成人免费视频7| 亚洲经典在线中文字幕| 久草视频精品| 又黄又爽视频好爽视频| 久久天天躁狠狠躁夜夜2020一| 婷婷亚洲天堂| 日韩无码视频专区| 亚洲视屏在线观看| 久久一本日韩精品中文字幕屁孩| 亚洲视屏在线观看| 欧美精品成人| 久久人搡人人玩人妻精品一| 国产精品无码久久久久久| 亚洲熟女中文字幕男人总站| 国产亚洲精品无码专| 国产成人精品第一区二区| 国模私拍一区二区三区| 国产成本人片免费a∨短片| 亚洲日韩精品伊甸| 国产乱人伦精品一区二区| 国产91久久久久久|