基于強化學(xué)習(xí)的換道模型研究

2021-07-05 12:00:18黃幸文郝海明張水潮俞思寧

電子技術(shù)與軟件工程 2021年10期

關(guān)鍵詞：方向模型

黃幸文郝海明張水潮俞思寧

（寧波工程學(xué)院建筑與交通學(xué)院浙江省寧波市 315211）

1 概述

換道是車輛行駛的核心功能，也是自動駕駛車輛的基礎(chǔ)模塊，現(xiàn)狀的換道模型研究可以劃分為兩類，一類是換道決策模型[1‐3]，研究車輛在行駛過程中，駕駛員決定是否換道的決策過程；一類是換道控制模型[4‐6]，當確定換道后，怎么操控車輛，讓車輛安全、平順地完成換道任務(wù)。

現(xiàn)狀換道控制研究主要采用最優(yōu)化控制的方法建模并求解換道軌跡，對車載設(shè)備的計算功能要求非常高，而且，在求解的過程中，車輛狀態(tài)在持續(xù)改變，且最優(yōu)化求解需要一定的時間，所以車輛實際上是以新的行駛狀態(tài)執(zhí)行舊的最優(yōu)解，運行效率受到一定的影響。為了有效解決這個問題，本研究采用強化學(xué)習(xí)的方法構(gòu)建車輛換道模型，AI智能體。強化學(xué)習(xí)的運用分兩個部分，學(xué)習(xí)階段和執(zhí)行階段。學(xué)習(xí)階段是一個尋優(yōu)過程，需要充足的時間，由路測單元提前完成，即AI 智能體根據(jù)路段的實際情況，隨機選取車輛的初始位置，通過試錯法校準深度神經(jīng)網(wǎng)絡(luò)的參數(shù)，完成參數(shù)標定后，存儲神經(jīng)網(wǎng)絡(luò)模型；執(zhí)行階段僅僅根據(jù)輸入?yún)?shù)計算輸出，計算工作量非常小，由車輛完成，當車輛行駛到該路段時，由路測單元將神經(jīng)網(wǎng)絡(luò)模型模型通過I2V 設(shè)備傳輸給車載單元，車輛可根據(jù)換道的需求使用模型。

2 控制優(yōu)化模型

本研究所選用的環(huán)境為直道的換道，假設(shè)道路有兩個車道，假設(shè)車輛沿著道路方向的速度不變，只控制車輛垂直道路方向的位置、速度，所采取的控制變量為車輛在垂直道路方向的加速度ay(t)。

2.1 約束條件

本問題的約束條件有三個，分別為加速度、速度、車輛位置的約束。

（1）車輛的控制變量為車輛在垂直道路方向的加速度ay(t)。車輛的加速度必須滿足車輛的機械性能，任意時刻加速度的大小要在最大加速度amax與最小減速度‐dmax的范圍內(nèi)，

式中ay(t)為車輛在垂直道路方向的加速度隨時間的函數(shù)，amax表示車輛在垂直道路方向的最大加速度，‐dmax表示車輛在垂直道路方向的最小減速度，amax和dmax都是正數(shù)。

（2）車輛的速度是加速度的一階積分，在任意時刻，車輛的速度必須小于車輛和道路所能允許的最大速度vmax，由于此處的速度為車輛垂直于道路方向的速度，所以，既可以為正值也可以為負值，在任意一個時刻，車輛的速度必須滿足，

式中v(0)為車輛在初始時刻在垂直于道路方向的速度。

（3）為了保證車輛的安全性，任意時刻，車輛必須在道路內(nèi)行駛，即車輛的位置不可以到道路邊線之外。

式中Lu為道路左側(cè)的邊界，Ld道路右側(cè)的邊界，s(t)為車輛在第t 時在垂直于道路方向所處的位置，

2.2 初始條件

初始條件為車輛沿道路方向的位置、速度、加速度以及車輛垂直于道路方向的位置、速度、加速度。由于本研究主要控制車輛的縱向運動，所以，車輛沿道路方向的速度為固定的值，即加速度為0。初始時刻垂直于道路方向的位置、速度和加速度可以在有效的取值區(qū)間內(nèi)任意給定。

2.3 目標函數(shù)

（1）根據(jù)研究的目的不同，優(yōu)化目標有多種。最常用的一種研究模型是希望車輛在換道的過程中車輛的位置盡可能位于目標車道，即希望換道過程中，實際的軌跡和目標車道之間的誤差越小越好，

式中abs[?]為求絕對值函數(shù)，Y 為目標車道的道路中心線，s(t)為車輛在任意時刻在垂直于道路方向的位置。

（2）在完成換道的基礎(chǔ)上，也可同時降低車輛的油耗，即eco‐driving 方式。這個研究方向是目前CAV 研究方向最熱門的研究，它的目的是降低車輛行駛的油耗并順帶提高車輛行駛的舒適性。油耗通常為車輛速度與加速的函數(shù)，

式中Wp,qand Mp,q為油耗模型的參數(shù)。

追求油耗最低的前提是車輛完成換道行為，所有這類優(yōu)化問題為雙目標優(yōu)化，為了便于求解，采用加權(quán)的方式將雙目標優(yōu)化轉(zhuǎn)換為單目標優(yōu)化，

式中1>γ ≥0 為油耗的權(quán)重系數(shù)，γ 越大表示越追求油耗的最低，γ 越小，表示越追求換道的效率，當γ=0 時，目標函數(shù)（6）等價于目標函數(shù)（4）。

（3）車輛行駛的平穩(wěn)性也是智能駕駛車輛需要保障的一個目標，即保證乘客的舒適性。通常，我們使用加速度反映車輛的平穩(wěn)性，加速度越小，車輛運行越平穩(wěn)，

式中|?|為絕對值函數(shù)。

此處也需要采用加權(quán)的方法將雙目標轉(zhuǎn)換為單目標，

式中1>γ ≥0 為油耗的權(quán)重系數(shù)，γ 越大表示越追求速度的平穩(wěn)性，γ 越小，表示越追求通行效率，當γ=0 時，目標函數(shù)（8）等價于目標函數(shù)（4）。

3 Deep Q Learning模型

3.1 Deep Q Learning概述

Deep Q Learning 的理論基礎(chǔ)為馬爾可夫決策過程，馬爾可夫決策過程是為多步驟決策最優(yōu)化建模的有效工具[7]。AI 智能體的學(xué)習(xí)過程包含兩個模塊，一個為嘗試模塊，在初始狀態(tài)st，智能體根據(jù)初始化的深度神經(jīng)網(wǎng)絡(luò)選擇一個行為at，并傳入環(huán)境模擬器，環(huán)境變量根據(jù)實際問題生成下一個狀態(tài)st+1與回報rt。智能體在嘗試中不斷的收集基礎(chǔ)數(shù)據(jù)(st, at, rt, st+1)，并將這些數(shù)據(jù)存入記憶庫中。另一個為學(xué)習(xí)模塊，學(xué)習(xí)模塊是一個神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)的輸入為當前時刻的狀態(tài)st，輸出為每個行為a 的Q 值，Q?(st, ak)，表示從當前狀態(tài)st選擇第K 個行為ak所期望的最大收益值，? 為模型的參數(shù)。根據(jù)深度學(xué)習(xí)所建立的理論，當Q?(st, ak)訓(xùn)練至收斂后，即可實現(xiàn)最優(yōu)策略，也就是所求解問題的最優(yōu)解。通過多種模型的比較，本研究最終選用換道學(xué)習(xí)效率最好的Dueling deep network structure (DDQN)模型。

3.2 狀態(tài)轉(zhuǎn)移設(shè)計

狀態(tài)轉(zhuǎn)移主要完成車輛速度和位置的改變，由于交通仿真采用離散的行駛，且仿真的步長T 非常小，為0.05 秒，因此對狀態(tài)轉(zhuǎn)移做了簡化，即忽略行駛距離計算中加速度的那一項，y 方向的狀態(tài)轉(zhuǎn)移為：

3.3 約束條件設(shè)計

加速度的取值為離散值，在最大值與最小值間，均勻取樣。加速的最大值與最小值分別為，1 和‐1，加速度的取值點為11 個。

速度必須在最大速度與最小速度之間，在實現(xiàn)過程中，車輛在Y 方向的正負方向向均可運行，但是要求不超過車輛在Y 方向的最大值，1。

安全約束，Lu

本研究的道路環(huán)境為單向2 車道，道路邊界線的值分別為10和18 米。此外，道路長度為90 米，若車輛在X 軸方向的位置達到90 米，說明車輛成功的運行了一個周期，本次仿真完成。

3.4 目標函數(shù)設(shè)計

3.4.1 最快換道模型

優(yōu)化目標是以回報函數(shù)的形式呈現(xiàn)的，在2.3 節(jié)采用最優(yōu)化技術(shù)建立跟車模型時，優(yōu)化目標是車輛在運行過程中，車輛的位置于目標車道中線越接近越好，但是求解需要采用離散的時間，因此，需要將目標函數(shù)調(diào)整為：

因為在Deep Q Learning 算法中，若回報的值不大于0，且最高的回報值為0，學(xué)習(xí)效果最高。所以，上述目標需要改寫為求最大值的函數(shù)：

因此，在每一步操作中，回報函數(shù)為，

3.4.2 eco‐driving 模型

為了降低車輛的油耗與尾氣排放，需要將油耗函數(shù)考慮進來，若取γ=0.5 則優(yōu)化目標為，

3.4.3 soft‐driving 模型

采用eco‐driving 模型回報函數(shù)的設(shè)計方法，設(shè)計soft‐driving模型的回報函數(shù)為，

4 數(shù)值實驗

4.1 最快換道模型

首先測試第一個目標函數(shù)，即最快換道實驗。經(jīng)過5 萬步的訓(xùn)練，約5 分鐘，駕駛智能體即可完成換道任務(wù)，運行之后的Y 方向的速度和位置曲線如圖1所示。

圖1：最快換道模運算結(jié)果

根據(jù)位置曲線，車道換道的曲線還比較順利，但是根據(jù)速度曲線，我們發(fā)現(xiàn)速度波動曲線具有鋸齒化的現(xiàn)象，這主要是用于智能體的神經(jīng)網(wǎng)絡(luò)模型比較小，導(dǎo)致模型的誤差比較大導(dǎo)致的。解決辦法有兩個，一個是增大神經(jīng)網(wǎng)絡(luò)的規(guī)模，二是采用soft driving 的模式，增加加速度變動的成本。

4.2 eco-driving模型

eco‐driving 模型經(jīng)過5 萬步的訓(xùn)練，約5 分鐘，運行之后的Y方向的速度和位置曲線如圖2所示。根據(jù)位置曲線，車道換道的曲線還比較順利，但是根據(jù)速度曲線，速度的曲線較最快換道模型的速度曲線平滑。

圖2：eco-driving 換道模運算結(jié)果

4.3 soft-driving模型

soft‐driving 模型經(jīng)過5 萬步的訓(xùn)練，約5 分鐘，收斂之后的智能體可以很好地完成換道任務(wù)。運行之后的Y 方向的速度和位置曲線如圖3所示。雖然運行成功，但是運行的速度曲線波動仍然很大，說明加速度的權(quán)重對于強化學(xué)習(xí)的影響很大，需要精心的調(diào)試，才可以得到期望的結(jié)果。

圖3：soft-driving 換道模運算結(jié)果

5 結(jié)論

經(jīng)典換道控制模型通常采用傳統(tǒng)的最優(yōu)化建模與求解算法計算最優(yōu)換道軌跡，在線優(yōu)化的方法對車載設(shè)備的計算要求非常高，且尋優(yōu)過程需要花費時間，將導(dǎo)致實際執(zhí)行換道存在誤差，為應(yīng)對這兩項缺陷，本研究采用車聯(lián)網(wǎng)的框架，設(shè)計了基于強化學(xué)習(xí)的換道控制模型。首先，采用最優(yōu)化建模的方法設(shè)計換道控制模型的約束條件、初始條件和目標函數(shù)。其次，面向Deep Q Learning 的算法及需求，根據(jù)車輛的運動規(guī)律設(shè)計狀態(tài)轉(zhuǎn)移方法，將約束條件內(nèi)嵌到仿真器中，根據(jù)目標函數(shù)設(shè)計回報函數(shù)。最后，通過數(shù)值試驗驗證三種模型的有效性。研究顯示，強化學(xué)習(xí)換道模型具有可作自動駕駛車輛換道控制模塊的潛力。