張興龍 陸 陽 李文璋 徐 昕
作為智能駕駛中的一個重要模塊,運動控制器通過控制剎車、油門、檔位、方向盤等執行機構使車輛安全、平穩地跟蹤參考路徑.智能車輛在行駛中主要涉及兩種運動形式: 縱向運動和側向運動.為了簡化控制器的設計,通常將運動進行解耦并分別設計縱向和側向控制器.與縱向控制中的舒適性、平滑性控制需求不同,跟蹤精度是側向控制器的核心考量.由于車輛本身是一個復雜的高階非線性系統,同時又受到行駛環境的影響,因此如何提高跟蹤精度是運動控制中的難題[1-3].本文主要針對智能車輛的高精度側向控制問題開展研究.
目前,常見的側向控制方法包括比例-積分-微分(Proportional-integral-derivative,PID)控制方法[4-8]、模糊控制方法[9-12]、反饋控制方法[13-16]、模型預測控制(Model predictive control,MPC)方法、基于強化學習(Reinforcement learning,RL)的控制方法.在上述方法中,PID 的優勢在于不需要對車輛進行建模,控制器的魯棒性較強、容易實現,但難以保證性能指標的最優性;模糊控制器可以推理并產生專家行為,但是由于駕駛環境的復雜性導致了基于駕駛員行為的模糊規則較難制定.
典型的反饋控制器根據智能車輛與參考路徑之間的幾何關系計算出航向偏差與側向偏差,并計算出方向盤轉角直接用于轉向控制.根據選取的路徑參考點與車輛位置之間的關系,可以分為單點跟蹤法、預瞄距離法、Stanley 法、點跟蹤法[13]和預瞄距離法[14-15],具有算法簡單、易于實現的特點,但預瞄距離的選取完全依賴于設計者的經驗;Stanley方法[16]由美國斯坦福大學的無人車隊率先提出,該方法適用于較低的車速,并且要求參考軌跡的曲率具有連續性.
將MPC 方法用于車輛運動控制的研究成果頗多[17-24].在上述成果中,Falcone 等[18]提出了基于連續線性化模型的MPC 運動控制器,仿真的結果表明,連續線性化的MPC 設計方法能夠降低計算代價.Carvalho 等[19]研究了采用局部線性化MPC 的局部路徑規劃算法,并對非線性的避障邊界進行了線性化和凸逼近處理.Beal 等[20]考慮了車輛的處理極限,通過引入摩擦力圓來分配車輛的縱向與側向加速度,使車輛在控制過程中最大程度地利用地面摩擦力.在計算車輛與參考路徑之間的航向與側向偏差時需要求出車輛在參考路徑上的投影點,計算過程十分復雜.Liniger 等[21]提出一種模型預測輪廓控制(Model predictive contouring control,MPCC)的側向運動方法,該方法通過估計投影點的位置來計算側向偏差,一定程度上降低了計算復雜度.Kabzan 等[22]基于輸入輸出數據構建了賽車的非參數化動力學模型,然后采用MPC 方法同時控制賽車的速度與轉向.Ostafew 等[23]采用高斯過程回歸構建移動機器人的非參數化模型,并設計了魯棒的非線性MPC 算法,實現機器人在越野環境下的避障與跟蹤控制.總的來說,基于MPC 方法的車輛運動控制器一般需要采用數值計算的方法實時求解一個開環控制序列,其性能可能會受到模型準確度的影響.另外,在線計算復雜度也是一個無法回避的問題.
近年來,由于其高效求解優化問題的能力和自適應學習能力,強化學習和近似動態規劃方法(Approximate dynamic programming,ADP)廣泛應用于機器人決策與控制算法的設計[25-26].Oh 等[27]采用對偶啟發式(Dual heuristic programming,DHP) 方法設計了車輛側向控制器.楊慧媛等[28]針對輪式移動機器人的跟蹤控制問題,提出了一種學習型PID 控制方法,以優化機器人的跟蹤偏差為目標,采用DHP 算法實時調整PID 參數以提高路徑跟蹤精度.連傳強等[29]提出一種基于核特征的DHP(Kernel-based DHP,KDHP)算法,并設計了車輛側向運動控制器,通過在城市道路、高速公路等駕駛環境下的仿真測試證明了基于KDHP 算法的有效性.黃振華等[30]設計了基于同步迭代的DHP(Synchronous iterative DHP,SI-DHP)算法的車輛側向運動控制器.
為了解決強化學習算法學習效率低的問題,Lian 等[31]針對輪式移動機器人對象提出了一種基于滾動時域的對偶啟發式規劃方法(Receding horizon DHP,RH-DHP).仿真結果表明,RH-DHP 算法在控制效果上優于傳統DHP 和MPC 的控制效果,并且相比于MPC 具有更短的運算時間.但是上述方法還存在以下三個方面的問題: 1) 其執行器-評價器網絡需要將時間作為額外的輸入信號,增加了網絡設計的復雜度;2)該工作沒有分析執行器-評價器學習算法的收斂性以及在此基礎上的閉環穩定性;3)該方法僅在小型輪式仿真平臺中進行了驗證,目前,尚未見到其在實際智能車輛平臺中進行應用驗證的相關報道.
最近,也有一些重要的工作采用深度學習和深度強化學習基于圖像或狀態信息設計控制器實現車輛的側向控制[32-34].這類方法的主要優點是利用深度網絡來提高強化學習或監督學習的特征表示能力,訓練過程中完全由數據驅動,不需要動力學模型信息.其不足之處在于: 1) 由于深度網絡過于復雜,一般只能離線訓練控制策略用于在線部署,其控制性能容易受訓練樣本數量和分布的影響;2) 針對深度網絡學習的收斂性和魯棒性等理論特性分析仍是目前學術界需要解決的一個重要難點問題.
由上述問題驅動,本文針對智能車輛的高精度側向控制問題,提出了一種基于滾動時域強化學習的側向控制方法.首先構建了智能車動力學四階偏差模型.車輛的轉向控制量由前饋和反饋兩部分構成.前饋控制量由參考路徑的曲率以及偏差模型直接計算得出;而反饋控制量通過采用本文提出的滾動時域強化學習(Receding horizon RL,RHRL)算法求解最優跟蹤控制問題得到.有別于傳統基于強化學習的最優控制方法,RHRL 采用滾動時域優化機制,將無限時域的最優控制問題轉化為一系列有限時域的啟發式動態規劃(Heuristic dynamic programming,HDP)問題進行求解.與已有的有限時域執行器-評價器學習算法[31,35]不同,在每個預測時域,我們采用時間獨立型執行器-評價器結構在線學習逼近最優值函數和控制函數.與MPC 方法求解開環控制序列不同,該方法學習得到的策略是一個顯式狀態反饋控制律,具有離線直接部署和在線學習部署的能力.此外,本文從理論上分析了提出的RHRL 算法在每個預測時域內的收斂性和閉環穩定性.最后,基于RHRL 算法進行了側向控制的大量的仿真對比實驗和實車驗證.在結構化城市道路下的仿真和實車實驗結果表明,RHRL 算法在仿真和實驗中的控制性能均優于預瞄控制;在仿真測試中,其控制性能與MPC 相當并在計算效率方面具有優勢,與最近流行的軟執行器-評價器(Soft actor-critic,SAC) 算法和深度確定性策略梯度(Deep deterministic policy gradient,DDPG)算法相比,控制性能更好,且具有更低的樣本復雜度和更高的學習效率.在鄉村砂石道路下的實驗結果表明,RHRL 具有較強的路面適應能力和較好的控制性能.
需要強調的是,與最近發展的基于深度學習和深度強化學習的方法[32-34]相比,本文提出的RHRL算法采用簡單的網絡結構,計算效率更高,可以在線同步訓練和部署,具有較強的環境適應能力;而且,RHRL 算法通過引入滾動時域優化思想來提高強化學習的實時學習效率和穩定性.更重要地,我們分析證明了RHRL 中執行器-評價器學習算法的收斂性以及閉環穩定性,并在實際平臺中進行了應用驗證.實驗結果證明了RHRL 算法的有效性.
本文的結構如下:第1 節首先介紹智能駕駛車輛的側向動力學模型和控制問題描述;第2 節主要介紹基于滾動時域強化學習的車輛側向控制算法及其收斂性分析;第3 節和第4 節分別給出仿真和實驗驗證結果以及本文的結論.
本文符號定義如下: 對于一個普適變量z∈Rp,定義 Δz(l+1)=z(l+1)-z(l),其中l是離散時間指針;定義=zTQz,其中矩陣Q∈Rp×p.在一個預測時域 [k,k+N] 內,采用變量z簡化表示z(l),其中時間指針l∈[k,k+N -1],采用z+表示其下一個時間步的變量值,也就是z+=z(l+1);采用zf表示其預測時域 [k,k+N] 的終端變量值z(k+N).對于一個關于變量x的函數f(x),定義 ▽f(x) 為其關于x的梯度.給定一個矩陣B ∈Rp×p,采用λmin(B)表示B的最小特征值.
由于車輛本身的運動較為復雜并且在運動過程中還要受到環境因素的影響,為了降低建模工作的難度,將原來車輛的四輪側向模型簡化為如圖1 所示的二自由度側向模型,即自行車模型.

圖1 智能車輛二自由度側向模型Fig.1 Two-degree-of-freedom lateral model of intelligent vehicle
根據牛頓運動定律,車輛的運動滿足如下動力學方程
其中,vx和vy分別表示在車體坐標系XOY下車輛的縱向與橫向速度,φ表示車輛的偏航角,φ˙ 表示車輛的橫擺角速度,δf表示前輪的偏轉角,m和Iz分別表示車身的質量以及繞z軸的轉動慣量,lf和lr分別表示質心到車輛前后軸的距離,Fyf和Fyr分別表示車輛前輪與后輪的側向輪胎力.
假設車輛行駛中輪胎側滑角很小,輪胎的側向力可以按照式(2)近似計算:
其中,Cf和Cr分別表示車輛前后輪的側偏剛度.
考慮車體坐標系與全局坐標系的相對位置關系,可以得到如下方程:
選取Z=[X,Y,φ,,vy] 作為系統的狀態變量,前輪偏轉角δf作為控制量,聯立式(1)~ (3),可以得到車輛的動力學方程
在進行跟蹤控制時,有必要描述車輛與期望路徑之間的相對位置關系,如圖2 所示,P點表示車輛處于當前位置時距離道路中心線的最近點,我們稱其為道路投影點.記P(Xp,Yp,φd,κ) 為投影點處的道路信息,其中,Xp,Yp是投影點P的全局坐標;φd是P的切線與X軸的夾角,也稱為道路的方向;κ是P點處道路的曲率.

圖2 側向誤差模型Fig.2 Lateral error model
從投影點P到車輛質心之間的距離稱為側向偏差ey,并且規定沿著行進方向車輛位于道路中心線左側時ey >0;車輛位于道路中心線右側時ey <0.因此,側向偏差可以表示為ey=-(XXp)sin(φd)+(Y -Yp)cos(φd).定義車輛的航向偏差eφ為航向與道路方向之差,即eφ=φ-φd.ey和eφ對時間的一階導數為
其中,w=.假設在運動過程中車輛的縱向速度vx保持不變且不出現側滑現象,車輛的參考路徑的期望橫擺角速度是恒定的,那么當車輛穩定跟蹤期望道路時的側向加速度為ay=.假設航向偏差eφ較小,根據小角度定理,有 sin(eφ)≈eφ,cos(eφ)≈1,那么,側向偏差對時間的二階導數可以表示為
其一階導數可以近似表示為
將式(6)和式(7)代入式(1)[36]和式(2)中,得
給定一個采樣周期 Δt,可以離散化得到式(8)的離散時間模型為
其中,A=I+ΔtAc,B1=ΔtBc1,B2=ΔtBc2,k是離散時間指針.在控制過程中,由于前輪轉角所對應的執行機構有限幅,因此我們假設反饋控制量滿足輸入約束|,其中表示前輪最大偏轉角.

圖3 智能車側向控制框圖Fig.3 Lateral control diagram of intelligent vehicle
本節詳細給出基于滾動時域強化學習的側向控制算法.我們首先設計智能車輛有限時域側向控制問題的性能指標,在此基礎上給出滾動時域強化學習算法的主要思想和基于執行器-評價器的設計實現及其收斂性分析.
對于系統偏差模型(9),我們將控制量拆分成前饋量uf加反饋量ub的形式,即u=uf+ub(如圖3 所示).前饋控制量是車輛處于穩態行駛中的期望控制量.當車輛穩定跟蹤參考路徑時,有e(k)=e(k+1)=0 成立,而且ub=0,可以求得前饋控制量uf,使得
其中,wd的值也可以通過wd=vxκ計算得到.
由于在任意當前時刻k,uf可以很容易求解得到,我們假設uf在整個預測時域 [k,k+N] 保持恒定不變,那么需要求解的反饋控制量ub應滿足以下約束條件
其中,代價函數L(e(l),ub(l))=eT(l)Qe(l)+R(ub(l))2,Q ∈R4×4是正定矩陣,R是正實數,預測時域終端的代價函數為
其中,F=A+B1K,K∈R1×4是反饋增益矩陣,滿足F是Schur 穩定的.
注 1.需要強調的是,另一種供選擇的設計方法是將計算得到的前饋控制量用作整體控制量的參考信號,由此可以設計一個新的代價函數L(e(l),u(l))=eT(l)Qe(l)+R(u(l)-uf(l))2.與本文中的設計不同,這里整體控制量u變成了待優化的變量,其通過優化得到的控制量可以直接應用到系統中.
首先,根據式(12),對任意l∈[k,k+N -1],可以將值函數表示成差分形式,即
其中,V(e(k+N))=Vf(e(k+N)).在第l個預測時刻,定義V*(e(l)) 為最優值函數,給出上述有限時域優化控制問題的HJB 方程,即
以及最優控制策略
實際上,由于存在控制約束,通過式(16)和式(17)很難求解得到V*和u*的解析解.原則上,可以通過值迭代的方法近似求解其值函數和控制策略的最優解.對任意l∈[k,k+N -1],給定初始值V0(e(l))=0,迭代步數i=0,1,2···,需要重復求解如下兩個步驟,直至Vi+1(e(l))-V i(e(l))→0.
1 ) 策略更新
2 ) 值更新
引理 1.基于上述算法步驟(18a) 和(18b),V i(e(l))≤V i+1(e(l)),且V∞(e(l))→V *(e(l)),l ∈[k,k+N].
證明.參見文獻[37].
本節采用執行器-評價器結構來實現上述有限時域值函數迭代算法.在已有的有限時域強化學習控制算法中[31,35],預測時域內的值函數被認為是一個時間依賴函數.因此,在設計執行器和評價器時不僅需要把時間作為額外輸入信號,而且還會因此增加網絡結構的復雜度.接下來將證明,對于線性系統而言,值函數V(e(l)) 在一定條件下是一個與時間無關的函數.
假設1 (控制策略).存在一個控制策略ub(e)=Γ(v(e)),使得系統(9)在控制策略u=uf+ub驅動下是漸近穩定的,其中,Γ (v(e)) 是一個連續函數,使得ub(e)∈Ub,?v(e)∈R.
注 2.上述假設條件實際上是系統(9)可鎮定性的另一種表現形式.本文所述的動力學模型(9)是可控的,因此肯定存在連續函數ub(e)∈Ub,使得式(9) 在控制策略u=uf+ub驅動下是漸近穩定的.因此,上述假設條件是合理的.
我們定義Xf為控制律ub=Ke ∈Ub下的一個控制不變集,由此得到定理1.
定理1 (時間獨立值函數).如果預測時域N的取值滿足: 在任意預測時域 [k,k+N] 內,對于任意初始狀態e(k)∈R4,系統(9) 在控制策略u(e(l)),l ∈[k,k+N -1] 驅動下的終端狀態e(k+N)∈Xf,那么,存在控制策略ub(e(l))∈Ub,使得V(e(l)),?l ∈[k,k+N -1]是與時間無關的函數.
證明.1)對于e(k)∈Xf的情況,根據Xf的定義,存在控制律ub=Ke=Γ(Ke)∈Ub,使得未來任意時刻的狀態量都滿足x(l)∈Xf.據此,可以求解得到
2 )對于e(k)∈/Xf的情況,根據假設1,存在一個控制策略ub=Γ(v(e)) 和有限的預測步長N,使得e(k+N)∈Xf.特別地,令v=Ke,則
其中,ub=Γ(v(e)).
因此,存在一個與時間無關的值函數和策略.
受此啟發,我們采用時間獨立的執行器-評價器結構來實現上述有限時域值函數迭代過程.首先,設計一個評價器網絡來逼近值函數
其中,ef=e(k+N) 可隨機在0 點附近取值.通過最小化Ec(l)=(E(l))2+可以得到評價器網絡權重的更新規則為
其中,ηc >0 是評價器網絡的學習率.
接下來,為了處理控制約束,我們構造執行器網絡為
其中,ηa >0 是執行器網絡的學習率.
下面給出采用執行器-評價器實現上述有限時域強化學習算法的主要步驟.
步驟 1.初始化權值和,并獲取初始狀態Z(0).
步驟 2.在t=kΔt時刻,根據狀態Z(t) 找到投影點P,并計算出偏差狀態e(t).
步驟 3.?l ∈[k,k+N -1],重復步驟 3.1~ 3.3:
步驟 3.1.根據式(10)和式(22),分別計算出uf(l) 和(l).
步驟 3.2.根據式(21) 和式(24),更新(l)和(l).
步驟 3.3.根據式(10) 和式(22),計算u(l)=uf(l)+(l),并應用到預測模型,得到e(l+1).
步驟 4.根據式(10)和式(22),分別計算uf(k)和(e(k)).
步驟 5.在時間周期 [kΔt,(k+1)Δt] 將控制量u(t)=u(kΔt) 作用到智能車上,并更新系統狀態Z((k+1)Δt).
步驟 6.設定k←k+1,基于滾動時域優化策略,重復操作步驟2~ 5.
本節給出上述滾動時域強化學習算法在每個預測時域 [k,k+N -1] 內的收斂性分析.首先,可以將(局部)最優值函數和控制策略表示成網絡的形式,即
其中,Wc和Wa是權值矩陣,κc和κa是重構誤差.
假設2 (網絡重構誤差).
假設3 (持續激勵).存在正實數q1,q2,q1<q2,使得
更進一步地,如果κc,m,c,m,κa,m →0,那么和ξa將漸近收斂至 0.
證明.定義如下Lyapunov 函數
類似地,ΔLa(l+1) 可以表示為
注 3.定理2 的結論表明,可以通過增加執行器和評價器的基函數節點數使得u能夠以任意小誤差收斂至.因此,在假設1 成立的前提下,如果選擇預測時域N足夠大[38],使得系統(9)在預測時域 [k,k+N-1]內由控制策略(k|k)(k+N-1|k)驅動下滿足終端狀態e(k+N)∈Xf,那么,在下一個預測時域 [k+1,k+N],u*b(k+1|k)(k+N-1|k),Ke(k+N|k)是一個可行的控制策略.我們定義由上述可行策略產生的損失函數為V f(k+1|k),并參考文獻[39]的證明思路,可得V f(k+1|k)-V *(k|k)≤-L(e(k|k),ub(k|k)).由于Ke(k+N|k) 是次最優的,我們可以得出V *(k+1|k+1)-V *(k|k)≤V f(k+1|k)-V *(k|k)≤-L(e(k|k),ub(k|k)),從而可以借助李雅普諾夫穩定性分析得到閉環系統的穩定性.對上述分析的詳細推導過程可以參考文獻[37-39],由于篇幅限制,這里不再贅述.至于學習逼近得到的策略存在較大誤差的情況,我們將在以后的研究中借助魯棒MPC[40-41]的思想進一步分析和證明.
在本節中通過仿真和實車實驗驗證本文提出的RHRL 算法的控制性能.
在控制器設計中車輛的相關參數設置如表1 所示,本文在如圖4 所示的道路環境下進行了仿真實驗,圖4 中,黑色實線表示道路邊界,黑色點劃線表示道路中心線,紅色實線表示期望的參考路徑,藍色邊框表示初始位置下的智能車輛.

表1 車輛動力學參數Table 1 The parameters of the vehicle dynamics

圖4 參考路徑Fig.4 Reference path
在仿真驗證實驗中,主要對比了軟執行器-評價器(SAC)算法[42]、深度確定性策略梯度(DDPG)[43]、HDP 方法(執行器-評價器結構與本文相同)、純點預瞄方法[44]和MPC 控制方法.在采用SAC 和DDPG 算法訓練前,利用本文構建的模型(9)生成100 萬個動作-狀態 (u,e) 的數據對(即樣本)用于離線訓練.SAC 訓練過程中的所有參數設置與文獻[42] 保持一致,其訓練中使用的樣本數量級為40 萬個.DDPG 算法訓練時的參數設置與文獻[43]保持一致,訓練中使用的樣本數量級為40 萬個.在仿真實驗中,分別采用SAC 和DDPG 算法進行了5 次重復訓練,每次訓練的輪數為2 000.在訓練完成后,我們利用5 次訓練得到的執行器網絡分別生成控制策略用于直接控制系統(9),并選取性能表現最好的一組數據與RHRL 對比.由于HDP 對比算法的執行器-評價器結構與本文相同,其控制器參數設置、仿真測試設計與RHRL 算法保持一致;其權值訓練方式為增量式、訓練輪數為30.對于純點預瞄方法,根據文獻[44],可以得到相應的控制器表達式為δ(t)=arctan(2(lf+lr)sin(θ(t))/ld),其中,ld是控制器的預瞄距離,一般與車速相關,仿真實驗中設置ld=0.55vx;θ(t) 是車身和預瞄點之間的夾角.在離散時間MPC 控制器中,我們設置參數Q,R與RHRL 算法保持一致.在縱向速度vx分別為 3 0 km/h 和 5 0 km/h 下,智能車在運行過程中的側向誤差和航向角偏差結果如圖5 和圖6 所示,其均方根誤差(Root mean square error,RMSE)如表2 所示.仿真結果顯示,本文提出的RHRL 與MPC 相比,跟蹤控制性能相當,但在采用的Inter(R) Core (TM) i7-7700HQ CPU @2.80 GHz 筆記本中,MPC (采用QuadProg 求解器)平均計算時間為0.0397 s,而RHRL 的平均計算時間為0.0160 s.另外,RHRL 算法的控制性能在30 km/h 和50 km/h下優于預瞄控制、HDP、SAC 和DDPG.RHRL 算法的性能表現之所以優于深度強化學習算法SAC和DDPG,其原因在于RHRL 算法采用了滾動時域優化機制來提升學習效率,并在每個預測時域利用模型信息產生預測;而且,RHRL 算法的實現方式是在線同步增量式學習和部署.

表2 各控制器的均方根誤差對比Table 2 The RMSE comparison among all the controllers

圖5 30 k m/h 下智能車跟蹤控制側向偏差對比Fig.5 Comparison of lateral tracking error of intelligent vehicles under vx=30 km/h

圖6 50 k m/h 下智能車跟蹤控制側向偏差對比Fig.6 Comparison of lateral tracking error of intelligent vehicles under vx=50 km/h
為了更進一步驗證RHRL 在實際車輛系統控制問題中的有效性,我們利用紅旗E-HS3 智能駕駛平臺(如圖7 所示)首先在城市場景中進行實車實驗.在實驗設計中,采用離線仿真訓練得到的權值作為初始權值.其他參數設置,如學習率、基函數等與仿真實驗相同.在實驗過程中,RHRL 算法以50 Hz 的工作頻率,通過在線學習不斷優化策略以適應動態路面環境.RHRL 算法的在線增量式學習部署過程實現方式如下.在每個學習(計算)時刻,根據車輛裝配的衛星和慣性組合導航系統(如圖7所示)實時測量得到車輛狀態信息對(X,Y,vx,vy,φ,w),由此在車載計算機(工控機)中計算當前誤差狀態信息e.在此基礎上,將求解得到的e的值作為初始狀態值,利用預測模型(9)在當前預測時域內實時更新執行器和評價器的權值.接下來,通過學習得到的執行器權值和前饋控制量求解得到當前的控制量u,也就是車輛前輪轉角.據此,可以利用前輪轉角和方向盤轉角的經驗比例關系計算得到當前時刻方向盤的期望轉角為uw=15u,也就是車輛的控制量.在后面的每個采樣時刻,通過不斷重復上述步驟實現整個學習控制過程.

圖7 紅旗E-HS3 智能駕駛平臺Fig.7 Hongqi E-HS3 intelligent driving platform
在實車實驗中,還與純點預瞄控制方法進行了對比,純點預瞄控制的參數設置與仿真實驗中相同.對純點預瞄方法進行測試時,采用恒定的期望車輛速度,為20 km/h;而對RHRL 算法進行測試時,令車輛始終跟蹤當前期望的動態參考速度,平均速度達到約30 km/h,最高速度達到38.988 km/h.圖8 為兩種方法在用于控制實車后所生成的路徑圖;圖9 展示了RHRL 和純點預瞄方法下紅旗E-HS3的車輛側向偏差.實車實驗結果表明,RHRL 算法的控制性能優于純點預瞄控制算法.

圖8 基于RHRL 和純點預瞄方法的紅旗E-HS3 行駛路徑Fig.8 Path of Hongqi E-HS3 vehicle controlled by RHRL and pure pursuit methods

圖9 RHRL 與純點預瞄方法的車輛實測側向偏差對比Fig.9 Comparison of experimental lateral tracking error of the RHRL and pure pursuit methods
需要指出的是,預瞄方法由于采用的是動態預瞄距離的方法,因此在車輛起步階段由于慣導和較大側向偏差的情況下,智能車會產生較大的側向偏差,而RHRL 卻可以快速優化,具有較小的側向跟蹤控制誤差.
為了驗證本文提出的算法對路面的適應能力,我們還在鄉村起伏砂石路面上進行了控制性能的驗證,其測試場景如圖10 所示.車輛首先從C點出發,經過B點所在的直角彎,再行駛至終點A.在從B至A段的行駛過程中,車輛首先要經過一個明顯的下坡,在終點附近需要經過一個狹窄的通道(由路樁鋪設構成).車輛在初始位置C點由靜止狀態出發,在行駛中平均速度為4.19 m/s,最高速度為4.94 m/s.實驗中車輛在不同行駛階段的狀態如圖10 所示,其表明車輛能夠在起伏砂石路面上實現平穩的轉彎和下坡,而且還實現了狹窄通道下的高精度控制(如圖11 所示).

圖10 鄉村砂石道路地圖和車輛行駛中各階段狀態Fig.10 The route map in the country sand and gravel road,and the status of different stages in the control process
提出了一種基于滾動時域強化學習的智能駕駛車輛側向控制算法.該算法將強化學習與滾動時域優化機制融合,把無限時域自學習優化問題轉化為一系列有限時域優化問題,并通過執行器-評價器算法進行求解.該設計思想通過滾動時域機制提高了強化學習算法的學習效率;與MPC 相比,采用執行器-評價器的優化方式能夠提高計算效率.因此,本文提出的RHRL 可以看作是一種介于強化學習和MPC 之間的控制算法.此外,與大多數已有的有限時域執行器-評價器學習算法不同,本文提出的RHRL 采用時間獨立的網絡結構,降低了網絡的設計和在線計算復雜度,而且本文還從理論上分析了其在每個預測時域內的收斂性以及閉環系統的穩定性.在仿真場景中與典型傳統算法和深度強化學習算法的對比實驗結果驗證了RHRL 算法的有效性.另外,從結構化道路場景中的實驗結果可以看出,即使在變速控制條件下,RHRL 依然比恒速條件下的純點預瞄控制方法具有更好的控制性能.從鄉村起伏砂石道路中的實際實驗結果可以看出,RHRL具有良好的路面適應能力和控制性能.