999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)的自動駕駛技術(shù)研究

2021-01-15 09:22:04楊霄李曉婷
關(guān)鍵詞:深度策略

◆楊霄 李曉婷

基于深度強(qiáng)化學(xué)習(xí)的自動駕駛技術(shù)研究

◆楊霄 李曉婷

(北方自動控制技術(shù)研究所軍種指控系統(tǒng)研發(fā)部 山西 030000)

傳統(tǒng)的自動駕駛行為決策算法需要人為設(shè)定復(fù)雜的規(guī)則,從而導(dǎo)致車輛決策時間長、決策效果不佳、對于新的環(huán)境不具有適應(yīng)性,而強(qiáng)化學(xué)習(xí)作為近年來機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的主要方法之一,車輛僅通過與環(huán)境交互便可以學(xué)習(xí)到合理、有效的策略。本文基于DDPG((Deep Deterministic Policy Gradient)算法,通過設(shè)計合理的獎勵函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略,在Carla模擬器中實現(xiàn)指定路線的自動駕駛。

自動駕駛;深度強(qiáng)化學(xué)習(xí);行為決策

自動駕駛汽車(Autonomous Car)是指一類能夠自我感知環(huán)境、規(guī)劃路徑并對實時路況進(jìn)行合理決策的智能汽車[1]。行為決策模塊是自動駕駛汽車的“大腦”,受到傳統(tǒng)車企乃至相關(guān)高校的高度關(guān)注[2]。強(qiáng)化學(xué)習(xí)在20世紀(jì)80年代已經(jīng)興起,但隨著問題的復(fù)雜度逐漸增大,傳統(tǒng)的表格式強(qiáng)化學(xué)習(xí)已經(jīng)難以解決龐大的狀態(tài)空間和搜索空間,因此,利用深度神經(jīng)網(wǎng)絡(luò)擬合Q值或輸出行為策略的深度強(qiáng)化學(xué)習(xí)被提出,并在策略游戲、直升機(jī)特技表演、火電廠控制等領(lǐng)域取得了極大的成功,其中,DDPG算法在目前的深度強(qiáng)化學(xué)習(xí)算法中應(yīng)用是最廣的[3-4]。本文基于DDPG算法,通過設(shè)計合理的獎勵函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略,在Carla模擬器中實現(xiàn)指定路線的自動駕駛。

1 行為決策

根據(jù)現(xiàn)代決策理論的發(fā)展,可以將行為決策理論分為理性決策理論和行為決策理論,理性決策理論在20世紀(jì)80年代之前一直處于主導(dǎo)地位,之后隨著行為科學(xué)研究的興起,行為決策理論逐步發(fā)展壯大。

行為決策理論是一個多學(xué)科交叉的研究領(lǐng)域,旨在探討“人們實際是怎樣決策的”以及“這樣決策的根據(jù)是什么”,目前,關(guān)于機(jī)器人的行為決策理論較為成熟,從機(jī)器人學(xué)科的角度來看,無人駕駛汽車可以看作是一種移動輪式機(jī)器人,因此移動機(jī)器人的行為決策方法也可以應(yīng)用在無人駕駛汽車中[5]。

無人駕駛行為決策的目標(biāo)是對可能出現(xiàn)的駕駛的道路環(huán)境都給出一個合理的、實時的行為策略,核心任務(wù)是消化上層規(guī)劃模塊的輸出軌跡點(diǎn),通過一系列結(jié)合自身屬性和外界物理因素的動力學(xué)計算,轉(zhuǎn)換成對汽車控制的油門、剎車、方向盤信號[4,6-7]。

2 深度強(qiáng)化學(xué)習(xí)

隨機(jī)性策略梯度算法被廣泛應(yīng)用于解決大型空間或者連續(xù)動作空間的強(qiáng)化學(xué)習(xí)問題中,直到2014年,效力于谷歌公司旗下Deepmind實驗室的David Silver提出確定性策略梯度理論,不僅從數(shù)學(xué)上證明了確定性策略梯度的存在,同時提出確定性策略梯度算法(Deterministic Policy Gradient,DPG)。DDPG便是深度神經(jīng)網(wǎng)絡(luò)與DPG算法結(jié)合的產(chǎn)物,實現(xiàn)端到端的學(xué)習(xí)。

2.1 確定性策略

隨機(jī)性策略:

確定性策略:

確定性策略的動作是確定的,避免了隨機(jī)性策略需要在高維空間頻繁采樣的問題,有效提高決策的效率。

2.2 DPG算法

2.3 DDPG算法

DQN是強(qiáng)化學(xué)習(xí)中第一個將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物,通過神經(jīng)網(wǎng)絡(luò)的引入,使智能體可以從高維視頻像素中直接學(xué)習(xí)控制策略的方法,但是,DQN對于連續(xù)動作問題便顯得無能為力,而DPG算法可以有效解決動作空間連續(xù)問題,DDPG結(jié)合DQN與DPG,實現(xiàn)了從原始數(shù)據(jù)中進(jìn)行端到端學(xué)習(xí)。

算法框架如圖1:

圖1 DDPG算法框架

其中:

參數(shù)更新采用了一種更新目標(biāo)網(wǎng)絡(luò)的有效方式:滑動平均(soft-update),可以大大提高學(xué)習(xí)的穩(wěn)定性:

3 訓(xùn)練細(xì)節(jié)

3.1 行為決策

根據(jù)接口定義,通過調(diào)整油門(throttle)、方向盤(steer)、剎車(brake)信號實現(xiàn)自動駕駛車輛的控制(表1)。

表1 行為決策

3.2 深度卷積網(wǎng)絡(luò)

(1)預(yù)處理,原始輸入圖像為RGB圖像,這樣不僅浪費(fèi)算力,還導(dǎo)致深度卷積網(wǎng)絡(luò)的計算時間較長,因此,將RGB圖像編碼成單通道的灰度圖像。

(2)深度卷積網(wǎng)絡(luò)結(jié)構(gòu)如表2。

表2 深度卷積網(wǎng)絡(luò)

3.3 獎勵函數(shù)

經(jīng)過對比訓(xùn)練,設(shè)計復(fù)合獎勵函數(shù)如下:

3.4 探索策略

本文通過給確定性策略添加噪聲N來構(gòu)建行為策略,保證智能體可以高效的探索:

式中,選擇隨機(jī)噪聲。

4 實驗

4.1 仿真環(huán)境

Carla作為一款專業(yè)的自動駕駛模擬環(huán)境,提供多元化的Python接口實現(xiàn)地圖切換、傳感器信號切換、汽車控制等[4-8]。

4.2 實驗環(huán)境

實驗環(huán)境為ubuntu18.04操作系統(tǒng)、256G內(nèi)存、Tesla V100顯卡*(4)Carla 0.9.2、python 3.7。

訓(xùn)練7000個回合,每個回合500步。

4.3 實驗結(jié)果

(1)獎勵

圖2 獎勵

由圖可以看出,DDPG算法引導(dǎo)的自動駕駛車輛經(jīng)過大約3000個回合后,獎勵逐漸趨于穩(wěn)定。

(2)指定路線成功率

測試選擇20條不同的路線,每條路線測試5次,成功率如表3所示:

表3 成功率

5 結(jié)語

本文采用深度強(qiáng)化學(xué)習(xí)的方法,通過設(shè)計合理的獎勵函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略,實現(xiàn)車輛指定路線的自動駕駛。同時,通過測試回放發(fā)現(xiàn),車輛在包含環(huán)島路況的路線時效果欠佳,未來的工作,將針對此進(jìn)行算法優(yōu)化和改進(jìn)。

[1]王鑫鵬,陳志軍,吳超仲,熊盛光.考慮駕駛風(fēng)格的智能車自主駕駛決策方法[J].交通信息與安全,2020,38(02):37-46.

[2]張一弛. 自動駕駛汽車縱向控制的強(qiáng)化學(xué)習(xí)算法研究[D].吉林大學(xué),2020.

[3]劉偲.基于深度強(qiáng)化學(xué)習(xí)的自動駕駛研究[J].自動化應(yīng)用,2020(05):57-59.

[4]方川. 基于深度強(qiáng)化學(xué)習(xí)的無人駕駛車道保持決策的研究[D].南京大學(xué),2019.

[5]朱向陽. 基于深度強(qiáng)化學(xué)習(xí)的無人駕駛決策控制研究[D].湖南大學(xué),2019.

[6]Daniel Casini, Alessandro Biondi, Giorgio Buttazzo. Timing isolation and improved scheduling of deep neural networks for real‐time systems. 2020, 50(9):1760-1777.

[7]李志航.基于深度遞歸強(qiáng)化學(xué)習(xí)的無人自主駕駛策略研究[J].工業(yè)控制計算機(jī),2020,33(04):61-63.

[8]吳俊塔. 基于集成的多深度確定性策略梯度的無人駕駛策略研究[D].中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院),2019.

猜你喜歡
深度策略
基于“選—練—評”一體化的二輪復(fù)習(xí)策略
深度理解一元一次方程
求初相φ的常見策略
例談未知角三角函數(shù)值的求解策略
我說你做講策略
深度觀察
深度觀察
深度觀察
深度觀察
高中數(shù)學(xué)復(fù)習(xí)的具體策略
主站蜘蛛池模板: 久久亚洲AⅤ无码精品午夜麻豆| 亚洲天堂成人在线观看| 国产日韩欧美精品区性色| 成人a免费α片在线视频网站| 青青草一区| 爱爱影院18禁免费| 天天爽免费视频| 欧美高清三区| 尤物亚洲最大AV无码网站| 在线无码九区| 久久大香香蕉国产免费网站| a免费毛片在线播放| 欧美成人精品在线| 伦伦影院精品一区| 人妻一本久道久久综合久久鬼色| 日韩一二三区视频精品| 亚洲人成网站在线播放2019| 免费播放毛片| 青青极品在线| 国产成人久久777777| 人妻少妇乱子伦精品无码专区毛片| 玖玖精品视频在线观看| 暴力调教一区二区三区| 亚洲av无码专区久久蜜芽| av在线手机播放| 国内自拍久第一页| 免费国产高清视频| 亚洲日产2021三区在线| 永久在线精品免费视频观看| 亚洲精品无码不卡在线播放| 午夜少妇精品视频小电影| 国产精品13页| 午夜毛片免费看| 伊人久久婷婷| 国产成人一区| 91精品伊人久久大香线蕉| 伦精品一区二区三区视频| 国产成人综合网在线观看| 国产成人夜色91| 国产精品成| 亚洲另类色| 亚洲 日韩 激情 无码 中出| 午夜三级在线| 99国产精品国产高清一区二区| 国产精品自在线天天看片| 4虎影视国产在线观看精品| 亚洲天堂色色人体| 国产精品女同一区三区五区| 久久国产精品国产自线拍| 国产精品无码一二三视频| 五月丁香伊人啪啪手机免费观看| 欧美视频二区| 国产色婷婷视频在线观看| 国产精品男人的天堂| 激情五月婷婷综合网| 成年女人a毛片免费视频| 欧美亚洲激情| 日韩毛片免费视频| 玖玖免费视频在线观看| 国产免费怡红院视频| 国产av一码二码三码无码| 亚洲成人www| 99精品伊人久久久大香线蕉| 国产成人精品高清在线| 欧美成人a∨视频免费观看 | 国产成人盗摄精品| 亚洲伊人天堂| 国产亚洲男人的天堂在线观看| 国产成人亚洲无吗淙合青草| 97国产精品视频自在拍| 亚洲成人黄色网址| 97国产在线播放| 91精品人妻互换| 久久这里只有精品免费| 成人日韩精品| 亚洲人成在线免费观看| 国产小视频a在线观看| 激情网址在线观看| 亚洲中文字幕无码爆乳| 国产婬乱a一级毛片多女| 中国一级特黄大片在线观看| 青青国产视频|