基于深度強(qiáng)化學(xué)習(xí)的自動駕駛技術(shù)研究

2021-01-15 09:22:04楊霄李曉婷

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2021年1期

關(guān)鍵詞：深度策略

◆楊霄李曉婷

◆楊霄李曉婷

（北方自動控制技術(shù)研究所軍種指控系統(tǒng)研發(fā)部山西 030000）

傳統(tǒng)的自動駕駛行為決策算法需要人為設(shè)定復(fù)雜的規(guī)則，從而導(dǎo)致車輛決策時間長、決策效果不佳、對于新的環(huán)境不具有適應(yīng)性，而強(qiáng)化學(xué)習(xí)作為近年來機(jī)器學(xué)習(xí)和智能控制領(lǐng)域的主要方法之一，車輛僅通過與環(huán)境交互便可以學(xué)習(xí)到合理、有效的策略。本文基于DDPG（（Deep Deterministic Policy Gradient）算法，通過設(shè)計合理的獎勵函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略，在Carla模擬器中實現(xiàn)指定路線的自動駕駛。

自動駕駛；深度強(qiáng)化學(xué)習(xí)；行為決策

自動駕駛汽車（Autonomous Car）是指一類能夠自我感知環(huán)境、規(guī)劃路徑并對實時路況進(jìn)行合理決策的智能汽車[1]。行為決策模塊是自動駕駛汽車的“大腦”，受到傳統(tǒng)車企乃至相關(guān)高校的高度關(guān)注[2]。強(qiáng)化學(xué)習(xí)在20世紀(jì)80年代已經(jīng)興起，但隨著問題的復(fù)雜度逐漸增大，傳統(tǒng)的表格式強(qiáng)化學(xué)習(xí)已經(jīng)難以解決龐大的狀態(tài)空間和搜索空間，因此，利用深度神經(jīng)網(wǎng)絡(luò)擬合Q值或輸出行為策略的深度強(qiáng)化學(xué)習(xí)被提出，并在策略游戲、直升機(jī)特技表演、火電廠控制等領(lǐng)域取得了極大的成功，其中，DDPG算法在目前的深度強(qiáng)化學(xué)習(xí)算法中應(yīng)用是最廣的[3-4]。本文基于DDPG算法，通過設(shè)計合理的獎勵函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略，在Carla模擬器中實現(xiàn)指定路線的自動駕駛。

1 行為決策

根據(jù)現(xiàn)代決策理論的發(fā)展，可以將行為決策理論分為理性決策理論和行為決策理論，理性決策理論在20世紀(jì)80年代之前一直處于主導(dǎo)地位，之后隨著行為科學(xué)研究的興起，行為決策理論逐步發(fā)展壯大。

行為決策理論是一個多學(xué)科交叉的研究領(lǐng)域，旨在探討“人們實際是怎樣決策的”以及“這樣決策的根據(jù)是什么”，目前，關(guān)于機(jī)器人的行為決策理論較為成熟，從機(jī)器人學(xué)科的角度來看，無人駕駛汽車可以看作是一種移動輪式機(jī)器人，因此移動機(jī)器人的行為決策方法也可以應(yīng)用在無人駕駛汽車中[5]。

無人駕駛行為決策的目標(biāo)是對可能出現(xiàn)的駕駛的道路環(huán)境都給出一個合理的、實時的行為策略，核心任務(wù)是消化上層規(guī)劃模塊的輸出軌跡點(diǎn)，通過一系列結(jié)合自身屬性和外界物理因素的動力學(xué)計算，轉(zhuǎn)換成對汽車控制的油門、剎車、方向盤信號[4，6-7]。

2 深度強(qiáng)化學(xué)習(xí)

隨機(jī)性策略梯度算法被廣泛應(yīng)用于解決大型空間或者連續(xù)動作空間的強(qiáng)化學(xué)習(xí)問題中，直到2014年，效力于谷歌公司旗下Deepmind實驗室的David Silver提出確定性策略梯度理論，不僅從數(shù)學(xué)上證明了確定性策略梯度的存在，同時提出確定性策略梯度算法（Deterministic Policy Gradient，DPG）。DDPG便是深度神經(jīng)網(wǎng)絡(luò)與DPG算法結(jié)合的產(chǎn)物，實現(xiàn)端到端的學(xué)習(xí)。

2.1 確定性策略

隨機(jī)性策略：

確定性策略：

確定性策略的動作是確定的，避免了隨機(jī)性策略需要在高維空間頻繁采樣的問題，有效提高決策的效率。

2.2 DPG算法

2.3 DDPG算法

DQN是強(qiáng)化學(xué)習(xí)中第一個將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物，通過神經(jīng)網(wǎng)絡(luò)的引入，使智能體可以從高維視頻像素中直接學(xué)習(xí)控制策略的方法，但是，DQN對于連續(xù)動作問題便顯得無能為力，而DPG算法可以有效解決動作空間連續(xù)問題，DDPG結(jié)合DQN與DPG，實現(xiàn)了從原始數(shù)據(jù)中進(jìn)行端到端學(xué)習(xí)。

算法框架如圖1：

圖1 DDPG算法框架

其中：

參數(shù)更新采用了一種更新目標(biāo)網(wǎng)絡(luò)的有效方式：滑動平均（soft-update），可以大大提高學(xué)習(xí)的穩(wěn)定性：

3 訓(xùn)練細(xì)節(jié)

3.1 行為決策

根據(jù)接口定義，通過調(diào)整油門（throttle）、方向盤（steer）、剎車（brake）信號實現(xiàn)自動駕駛車輛的控制（表1）。

表1 行為決策

3.2 深度卷積網(wǎng)絡(luò)

（1）預(yù)處理，原始輸入圖像為RGB圖像，這樣不僅浪費(fèi)算力，還導(dǎo)致深度卷積網(wǎng)絡(luò)的計算時間較長，因此，將RGB圖像編碼成單通道的灰度圖像。

（2）深度卷積網(wǎng)絡(luò)結(jié)構(gòu)如表2。

表2 深度卷積網(wǎng)絡(luò)

3.3 獎勵函數(shù)

經(jīng)過對比訓(xùn)練，設(shè)計復(fù)合獎勵函數(shù)如下：

3.4 探索策略

本文通過給確定性策略添加噪聲N來構(gòu)建行為策略，保證智能體可以高效的探索：

式中，選擇隨機(jī)噪聲。

4 實驗

4.1 仿真環(huán)境

Carla作為一款專業(yè)的自動駕駛模擬環(huán)境，提供多元化的Python接口實現(xiàn)地圖切換、傳感器信號切換、汽車控制等[4-8]。

4.2 實驗環(huán)境

實驗環(huán)境為ubuntu18.04操作系統(tǒng)、256G內(nèi)存、Tesla V100顯卡*（4）Carla 0.9.2、python 3.7。

訓(xùn)練7000個回合，每個回合500步。

4.3 實驗結(jié)果

（1）獎勵

圖2 獎勵

由圖可以看出，DDPG算法引導(dǎo)的自動駕駛車輛經(jīng)過大約3000個回合后，獎勵逐漸趨于穩(wěn)定。

（2）指定路線成功率

測試選擇20條不同的路線，每條路線測試5次，成功率如表3所示：

表3 成功率

5 結(jié)語

本文采用深度強(qiáng)化學(xué)習(xí)的方法，通過設(shè)計合理的獎勵函數(shù)、深度卷積網(wǎng)絡(luò)、探索策略，實現(xiàn)車輛指定路線的自動駕駛。同時，通過測試回放發(fā)現(xiàn)，車輛在包含環(huán)島路況的路線時效果欠佳，未來的工作，將針對此進(jìn)行算法優(yōu)化和改進(jìn)。

[1]王鑫鵬，陳志軍，吳超仲，熊盛光.考慮駕駛風(fēng)格的智能車自主駕駛決策方法[J].交通信息與安全，2020，38（02）：37-46.

[2]張一弛. 自動駕駛汽車縱向控制的強(qiáng)化學(xué)習(xí)算法研究[D].吉林大學(xué)，2020.

[3]劉偲.基于深度強(qiáng)化學(xué)習(xí)的自動駕駛研究[J].自動化應(yīng)用，2020（05）：57-59.

[4]方川. 基于深度強(qiáng)化學(xué)習(xí)的無人駕駛車道保持決策的研究[D].南京大學(xué)，2019.

[5]朱向陽. 基于深度強(qiáng)化學(xué)習(xí)的無人駕駛決策控制研究[D].湖南大學(xué)，2019.

[6]Daniel Casini， Alessandro Biondi， Giorgio Buttazzo. Timing isolation and improved scheduling of deep neural networks for real‐time systems. 2020， 50（9）：1760-1777.

[7]李志航.基于深度遞歸強(qiáng)化學(xué)習(xí)的無人自主駕駛策略研究[J].工業(yè)控制計算機(jī)，2020，33（04）：61-63.

[8]吳俊塔. 基于集成的多深度確定性策略梯度的無人駕駛策略研究[D].中國科學(xué)院大學(xué)（中國科學(xué)院深圳先進(jìn)技術(shù)研究院），2019.