999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DRL 的四輪獨立驅動電動車輛的側向車速估計

2022-07-17 07:42:54鄭陽俊帥志斌李建秋蓋江濤李國輝
汽車安全與節能學報 2022年2期
關鍵詞:深度

鄭陽俊,賀 帥,帥志斌,*,李建秋,蓋江濤,李 勇,張 穎,李國輝

(1.中國北方車輛研究所,北京100072,中國;2.汽車安全與節能國家重點實驗室(清華大學),北京100084,中國)

車輛關鍵運動狀態的測量和估計一直是車輛動力學領域的研究熱點[1]。在車輛的平面運動狀態中,縱向車速、側向車速、橫擺角速度是影響車輛操控性能和行駛穩定性的關鍵。量產車上安裝的慣性測量單元(inertial measurement unit, IMU)等傳感器能夠對縱向加速度、側向加速度、橫擺角速度等進行較為精確的測量,縱向車速也可通過車輪轉速進行估計,而側向車速的測量難度較大,難以通過量產車上安裝的傳感器進行準確的實時測量[2]。雖然車載GPS (全球定位系統,global positioning system)模塊能對縱向車速、側向車速等運動狀態進行測量,但受限于地形、天氣等因素,通常難以保證持續良好的GPS 衛星信號質量,存在不穩定因素,并且量產車的GPS 模塊數據更新速率較低,獲取的車速難以用于車輛動力學相關的強實時控制。因此,通過傳感器獲取的有限的車輛狀態信息,對車輛側向車速或質心側偏角進行估計,是汽車行業一直以來廣泛關注的研究和應用領域。

已有許多圍繞車輛側向車速和質心側偏角精確估計的研究工作,并形成了行之有效的估計方法[3],包括:Kalman 濾波器(Kalman filter, KF)及其變種(擴展KF、無跡KF、容積KF、聯邦KF 等)、模糊邏輯觀測器、神經網絡和深度學習等方法。金賢建提出了一種基于雙容積KF 的車輛質心速度和質心側偏角觀測方法[4]。樊東升基于聯邦KF 實現對車輛速度和路面附著系數的聯合估計[5]。肖峰設計了基于無跡KF 的車輛橫擺角速度和質心側偏角估計方法[6]。施樹明提出了一種基于模糊邏輯的車輛質心側偏角估計方法[7]。

除了廣泛采用的KF 算法以外,神經網絡也被嘗試應用于車輛運動狀態的實時估計上。張鳳嬌提出了一種基于深度學習的極限工況下車輛狀態估計方法[8]。汪?提出了一種基于深度學習的車輛關鍵狀態平行估計方法[9]。Ribeiro 采用時延神經網絡實現了對輪胎—路面附著情況的實時估計[10]。

近年來,在車輛控制領域,深度強化學習(deep reinforcement learning, DRL)技術也得到了應用。目前針對DRL 的應用研究主要集中在混合動力車輛的能量管理、自動駕駛車輛的路徑規劃等領域。HAN Xuefeng 采用double DQN 算法進行混合動力履帶車輛的能量管理[11]。李文禮采用深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法實現了車輛自主避撞決策控制[12]。

也有學者利用強化學習方法進行車輛系統的狀態估計和參數辨識。高洪森將DRL 與KF 算法相結合,提出了一種鋰離子電池SOC(荷電狀態,state of charge)估計方法[13]。Kim T. 利用基于模型的強化學習算法進行輪胎參數的辨識,并在此基礎上進行路徑跟蹤控制[14]。WANG Pengyue 利用分布式強化學習算法對智能交通系統中車輛的不確定性進行估計[15]。

本文基于DRL 的范式,結合深度神經網絡,設計了一種基于DDPG 算法的四輪獨立電驅動車輛側向車速估計方法。通過對神經網絡、獎勵函數、訓練場景等的合理設計,所訓練得到的智能體,可望對車輛側向車速進行準確的估計。

1 深度強化學習

1.1 問題描述

車輛的側向車速需要基于車載傳感器易于測量的狀態量,通過設計專門的狀態觀測器或估計算法進行計算得到。目前的估計方法主要包括2 類:

1)基于模型的估計方法。如圖1a 所示。常規車載傳感器易于測量的狀態量包括:車輛的縱向加速度ax、側向加速度ay、橫擺角速度γ,各車輪轉速ni,方向盤轉角δ等。大多數估計方法都是基于上述測量信號,并結合車輛動力學模型設計觀測器(如Kalman 濾波器),進行車輛狀態的估計。

2)數據驅動的估計方法。即本文所采用的方法,如圖1b 所示。基于四輪獨立電驅動車輛中易于獲取的可測量狀態量,在狀態量中增加了各車輪轉矩Ti,結合深度神經網絡的非線性擬合能力和強化學習的高效訓練模式,設計并訓練出能夠對車輛側向車速進行準確估計的策略。

圖1 2 種車輛狀態估計算法比較

對于四輪獨立電驅動車輛,由于其各車輪的輸出轉矩Ti可以獨立、精確地控制,帶來了2 方面的影響:

1) 各個車輪的輸出轉矩能夠用來作為狀態觀測器的輸入,更多的可測量信號為狀態估計提供了更多的信息和數據源,同時也為估計算法的設計提供了更大的自由度[16];

2) 由于各車輪轉矩的獨立控制,導致行駛工況的多樣性、復雜性、非線性等特征更加顯著,容易超出傳統觀測模型的適用范圍,給基于模型的估計方法帶來了新的挑戰。

因此,基于數據驅動的估計方法在估計效果上更具潛力。

1.2 深度強化學習

深度強化學習(DRL)是機器學習的一個分支,它一方面基于深度神經網絡實現復雜非線性數據關系的擬合,另一方面又采用強化學習的范式對其中的若干個深度神經網絡的參數進行訓練;因此可以認為是深度學習和強化學習的結合。DRL 的優勢在于,其通過探索試錯和獎勵函數的機制,能夠快速地實現神經網絡超參數的高效學習和訓練優化。

DRL 的基本架構如圖2 所示。

圖2 深度強化學習的基本架構

2 基于深度強化學習范式的側向車速估計方法設計

2.1 基于深度強化學習的側向車速估計架構

本研究基于DRL 的范式對四輪獨立電驅動車輛側向車速進行估計,其總體架構如圖3 所示,主要包括智能體(Agent)和環境(Environment)2 部分。智能體從環境中獲得的狀態量包括:車輛縱向加速度ax、車輛側向加速度ay、方向盤轉角δ、車輛橫擺角速度γ、各車輪轉速ni、各車輪的驅動轉矩Ti。

圖3 基于深度強化學習范式的側向車速估計架構

上述車輛狀態量也即DRL 中的狀態空間,即

狀態的選取主要考慮2 方面因素:能夠表征車輛行駛過程中的關鍵動力學狀態;在量產車中通過常規的車載傳感器和控制器容易進行測量或直接計算。

“智能體”是用于對側向車速進行估計的主體,其內部包含估計策略,基于傳感器可測量的車輛狀態量,通過深度神經網絡對車輛的側向車速進行估計。同時,其內部的深度強化學習算法又能根據輸入的可測量狀態量、輸出的車速估計值、估計誤差評價函數所反饋的獎勵值對估計策略進行訓練和更新,使其估計精度得到不斷提高。

“環境”的主體是用于提供數據驅動的車輛動力學模型(或裝有專業測量設備的試驗樣車),其主要作用是通過大量的行駛場景(模型仿真或實車測試)為智能體提供足夠的訓練數據來源,并將其輸出的車速估計值與仿真模型內部輸出的(或專業設備測量得到的)車速真實值進行對比,生成獎勵值反饋給智能體,供其進行策略的學習和更新。

“動作”(action)在深度強化學習的控制應用中是指智能體根據輸入狀態和內部策略,對外界環境做出的反應。對于本研究中的狀態估計問題,智能體的對外輸出動作則是其對車輛側向車速的估計值v?v,因此對動作的定義為

2.2 深度強化學習DRL 算法選取

近年來,已衍生出一些適合不同應用場景需求的DRL算法,如:深度Q網絡 (deepQnetwork,DQN)算法、近端策略優化(proximal policy optimization,PPO)算法、深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法等。本研究中的狀態和動作都是連續變量,因此選取DDPG 算法作為DRL 智能體的算法。

DDPG 算法的核心是Actor 網絡和Critic 網絡[17]。Actor 網絡負責基于當前的狀態空間輸入計算出當前的動作,并輸出至環境;Critic 網絡根據狀態和動作進行Q值的計算;基于Critic 網絡計算的Q值和環境反饋的獎勵值,對Actor 網絡和Critic 網絡的參數進行調整和更新。DDPG 算法的主體架構如圖4 所示。

圖4 DDPG 算法的主體架構框圖

在實際應用的DDPG 算法中,Actor 網絡和Critic網絡各有2 個,分別為當前網絡和目標網絡,此外,DDPG 算法還借鑒了DQN 算法的經驗回放功能,通過使用經驗池可以提高訓練效果。

2.3 Actor 網絡與Critic 網絡設計

深度神經網絡的設計是決定深度強化學習效果的關鍵。本研究采用DDPG 算法構建深度強化學習智能體,需要對其中的Actor 網絡和Critic 網絡進行設計,如圖5 所示。

圖5 Actor 網絡與Critic 網絡設計

輸入層:在Actor 網絡和Critic 網絡的輸入層,首先需要對輸入的變量值進行歸一化處理,以提高網絡的計算精度和訓練效率。由于網絡的輸入都是車輛行駛過程中的狀態量,其取值范圍都是能夠根據車輛的行駛極限進行預先估算的,因此基于各變量的合理取值上下限對其進行歸一化處理。Actor 網絡的輸入為可通過常規車載傳感器觀測的行駛狀態量,Critic 網絡的輸入包含兩部分,第一部分是觀測的行駛狀態量,第二部分是Actor 網絡輸出的動作量,也即其對側向車速的估計值。

全連接層:神經網絡的主體部分是全連接層(包含激活函數層),在Actor 網絡的設計中共采用了4 個全連接層,每個全連接層內含有48 個節點。在Critic 網絡的設計中,狀態量和動作量的路徑中各采用了2 個全連接層,在通過加法層的整合運算后,又加入了2 個全連接層,每個全連接層也都含有48 個節點。

循環神經網絡層:循環神經網絡(recurrent neural network, RNN)是以序列數據為輸入,在序列的演進方向進行遞歸的神經網絡。RNN 的記憶性使其在對序列的非線性特征進行學習時能獲得較好的效果,因此適用于本研究中采用非線性狀態方程進行描述的車輛動力學特性。基于RNN 的上述優勢,在Actor 網絡和Critic 網絡中分別加入一個循環神經網絡層,每個層中含有100 個節點。

縮放層:在Actor 網絡的最后需要加入一個縮放層,根據側向車速的實際可能取值范圍對神經網絡的輸出值進行縮放,其主要參數包括縮放層的增益和偏置。

2.4 獎勵函數設計

獎勵函數的作用是對智能體輸出動作的作用效果進行評估,計算出獎勵值反饋至智能體,指導其內部的策略更新和各個深度神經網絡的參數調節。獎勵函數的設計對智能體的訓練效果影響很大,結合不同應用需求的具體情況,對獎勵函數進行合理的選取設置,是充分發揮深度強化學習優勢和提升學習效果的關鍵。在本研究所針對的應用中,獎勵函數的目的是評估智能體對側向車速估計的準確度,所設計的獎勵函數為

其中:v?y是智能體對側向車速的估計值,vy是訓練過程中獲取的側向車速的真實值。vy可以來自于車輛動力學仿真模型,也可以來自試驗樣車上的專業測試儀器。

2.5 算法訓練流程

在完成上述架構搭建、算法選取、神經網絡設計、獎勵函數設計之后,即可按照所選取的算法流程進行訓練,本文DDPG 算法的核心訓練流程如下。

首先,采用一組隨機參數Φ對Critic 網絡Q進行初始化,并用同樣的參數Φt=Φ對Target Critic 網絡Qt進行初始化;其次,采用一組隨機參數θ對Actor網絡π進行初始化,并用同樣的參數θt=θ對Target Actor 網絡πt進行初始化;

開始訓練,在每一個訓練時間步長中重復如下步驟1—8,直至訓練結束:

步驟1:對于當前的觀測S,利用Actor 網絡π計算出對vy的估計值v?y=π(S)+N,其中N是噪聲模型生成的隨機噪聲;

步驟2:輸出估計值v?y,觀察計算的獎勵值R和下一個觀測值S’;

步驟3:將經驗(S,v?y,R,S’)存入經驗池Buffer;

步驟4:從經驗池Buffer 中隨機選取出M個經驗(Si,v?yi,Ri,Si’),i= 1, 2, …,M;

步驟5:對選取出的每個經驗(Si,v?yi,Ri,Si’),計算其價值函數yi=Ri+γ Qt(Si’,πt(Si’|θt)|Φt);

步驟6:通過最小化來更新Critic 網絡Q的參數;

步驟7:通過采用策略梯度(policy gradient)算法,來更新Actor 網絡π的參數;

步驟8:采用平滑更新算法,來分別更新Target Critic 網絡Qt的參數Φt和Target Actor 網絡πt的參數θt。

3 仿真驗證與對比分析

3.1 仿真與訓練

為了驗證本研究所提出的上述方法的有效性,在Matlab/Simulink 軟件中搭建了仿真環境和深度強化學習算法。車輛模型基于Matlab/Simulink 中Vehicle Dynamics Blockset 工具箱所提供的Muscle Car 模型進行搭建,車輛在無限大的水平地面上進行多個片段的反復訓練。車輛模型和仿真場景如圖6 所示,車輛的主要參數如表1 所示。

圖6 用于訓練的車輛模型和仿真場景

表1 車輛模型的主要參數

在訓練學習階段中,每個訓練片段持續10 s,車輛從靜止開始加速,采用不同的駕駛員方向盤轉角δ和車輪輸出轉矩的組合作為車輛模型的輸入,對智能體進行訓練。δ的輸入包括150°的δ恒定值輸入、斜率為30 (°)/s 且最大值為150°的δ斜坡輸入、以及不同幅值和頻率的δ正弦波輸入,δ正弦波輸入信號的幅值和頻率特征如表2 所示,從δ到前輪轉角的傳動比為20。4 個車輪的輸出轉矩Ti分別在{50, 100, 150, 200 } Nm這4 個值中進行選取并隨機組合。在本研究的訓練中,受限于訓練樣本變量維度和仿真算力的約束,將不考慮整車質量的變化,而將其視為一個定值。

表2 訓練過程中的方向盤轉角輸入信號

訓練過程中的主要參數設置如表3 所示。

表3 訓練過程的主要參數

訓練的結束條件設置為:最近100 次訓練片段得到的累計獎勵平均值不小于閾值-100,即認為此時對側向車速估計的準確度達到了要求。該閾值的選取基于式(3)中對獎勵值的計算公式:將能夠容忍的最大估計誤差值所對應的獎勵值,乘以單個訓練片段中設置的最大步長數,即作為用于判斷訓練過程是否結束的累計獎勵平均值的閾值。

某個訓練過程的獎勵值(reward)隨訓練片段次數(N)變化關系如圖7 所示。在經過630 次訓練之后,累計獎勵平均值達到了設置閾值,此時認為訓練過程完成。

圖7 仿真訓練過程中獎勵值的變化趨勢

3.2 效果對比與分析

完成訓練之后,智能體中的Actor 網絡(或稱之為估計策略網絡)即可用于對側向車速進行實時估計。采用不在訓練場景數據庫中的全新的仿真場景驗證其對側向車速的估計效果,選用的是Vehicle Dynamics Blockset 工具箱中的雙車道變換場景,如圖8 所示。

圖8 用于驗證估計效果的雙車道變換仿真場景

車輛以40 km/h 的初速度向前加速,當車速達到60 km/h 時開始進行雙車道變換操作。

采用擴展Kalman 濾波(extended Kalman filtering,EKF)算法作為對照組。EKF 是在車輛狀態觀測中廣泛應用的估計方法,可處理車輛模型中的輪胎非線性等因素。

在雙車道變換場景中的側向車速(vy)估計結果對比如圖9 所示。

圖9 雙車道變換下的側向車速估計效果驗證

由圖9 可知:智能體(Agent)在經過訓練之后,其估計策略網絡能夠對車輛行駛過程中的側向車速進行較為準確的估計。在車輛加速行駛和雙車道變換的大部分過程中,估計值和真實值均較為接近,只在車道變換過程的后半部分存在一定的估計誤差,且總體估計精度優于EKF 方法的估計值。

圖9中2 種算法的估計誤差的最大值和均方根(RMS)值如表4 所示。

由表4 可知:深度強化學習算法的最大估計誤差比EKF 算法減小了40%,估計誤差的RMS 比EKF 算法減小了58%。

表4 仿真工況中2 種算法的估計誤差比較

3.3 算法應用的實時性探討

如前所述,在完成了訓練過程之后,只需將智能體中的Actor 網絡部署到實車控制器中,即可實現對側向車速的估計。因此,影響算法實時性的主要是Actor網絡在控制器中的運算時長。以本文研究中設計的Actor 網絡為例,其主要的運算量集中在4 個全連接層(每個全連接層包含48 個神經元節點)和1 個循環神經網絡層(包含100 個節點)。

以全連接層的計算為例,一個全連接層中每個節點的輸出值y=σ(wx+b),其中:σ(·)是激活函數,x是上一層所有節點的輸出值組成的向量(維度為48×1),w是權重系數向量,b是偏置值。因此完成單個節點的計算輸出需要進行48 次浮點乘法運算和48 次浮點加法運算,以及1 次激活函數的運算;完成4 個全連接層中的所有節點的計算輸出大約需要進行4×48×48 次乘法運算,4×48×48 次加法運算,以及4×48 次激活函數的運算。而循環神經網絡層的計算量通常比普通的全連接層更大。

因此,對于傳統的嵌入式控制器和單片機來說,進行深度神經網絡的實時計算是存在難度的,需要具有并行運算能力的高算力平臺(如GPU 和FPGA),才能較好地實現基于深度神經網絡的估計算法的實時運行,這也是未來研究工作的方向之一。此外,從降低計算量的角度考慮,增加全連接層的層數比增加每個全連接層中的節點數更具性價比。

4 結 論

本文基于深度強化學習的范式,設計了四輪獨立電驅動車輛的側向車速估計方法。結合深度神經網絡的非線性擬合能力和強化學習的訓練模式,以易于測量的車輛行駛狀態量為輸入,通過對獎勵函數、神經網絡、訓練場景的合理設計,實現了對車輛側向車速的估計功能。

仿真結果表明:在經過充分的行駛場景訓練之后,與擴展Kalman 濾波方法比較,本文智能體中的估計策略網絡的估計誤差降低了40%,誤差的均方根降低了58%。因而,本方法提高了四輪獨立電驅動車輛側向車速的估計精度,不僅能夠實現對車輛側向車速的準確估計,還可以應用于對其他車輛動力學狀態的實時估計。

猜你喜歡
深度
深度理解不等關系
四增四減 深度推進
深度理解一元一次方程
深度觀察
深度觀察
深度觀察
深度觀察
芻議深度報道的深度與“文”度
新聞傳播(2016年10期)2016-09-26 12:14:59
提升深度報道量與質
新聞傳播(2015年10期)2015-07-18 11:05:40
微小提議 深度思考
主站蜘蛛池模板: 精品精品国产高清A毛片| 高潮毛片免费观看| 国产精品亚洲一区二区三区在线观看| 色综合天天综合中文网| 欧美午夜精品| 四虎永久免费地址在线网站| 欧美一区二区三区国产精品| 国产清纯在线一区二区WWW| 欧美在线导航| 国产精品对白刺激| 国产在线精彩视频二区| 天堂在线www网亚洲| 欧美激情视频二区| 91精品国产综合久久不国产大片| 亚洲有码在线播放| 九色最新网址| 91麻豆国产在线| 亚洲香蕉久久| 国产午夜无码专区喷水| 国产一国产一有一级毛片视频| 在线毛片免费| 国产性生大片免费观看性欧美| 97在线观看视频免费| 日本人妻丰满熟妇区| 亚洲另类国产欧美一区二区| 国产美女无遮挡免费视频网站| 国产乱人激情H在线观看| 小说区 亚洲 自拍 另类| 第一页亚洲| 国产精品13页| 欧美日韩一区二区在线免费观看| 国产精品亚洲片在线va| 国产极品美女在线| 免费国产高清精品一区在线| 久久久久久久蜜桃| 九九视频免费在线观看| 久操线在视频在线观看| 91在线日韩在线播放| 一级一毛片a级毛片| 老司机精品一区在线视频| 永久天堂网Av| 欧美怡红院视频一区二区三区| 久久人午夜亚洲精品无码区| 日韩东京热无码人妻| 一本一道波多野结衣av黑人在线| 国产呦精品一区二区三区下载| 韩国自拍偷自拍亚洲精品| 91麻豆国产视频| 免费观看成人久久网免费观看| 国产在线视频自拍| 97在线观看视频免费| 人人91人人澡人人妻人人爽| 无码日韩人妻精品久久蜜桃| 欧美.成人.综合在线| 日韩精品一区二区三区免费在线观看| 婷婷在线网站| 她的性爱视频| 久久久久久久久18禁秘| 日日摸夜夜爽无码| 黄片一区二区三区| 91破解版在线亚洲| 国产精品免费电影| 在线不卡免费视频| 国产精品亚洲五月天高清| 国产成人乱无码视频| 亚洲精品国产成人7777| 国产精品xxx| yy6080理论大片一级久久| 国产十八禁在线观看免费| 成人福利在线观看| 一级毛片免费高清视频| 亚洲欧洲日产国码无码av喷潮| 国产精品第三页在线看| 国产精品综合久久久| 国产精品va免费视频| 国产91精品调教在线播放| 亚洲精品午夜天堂网页| 日韩成人在线网站| 2021国产v亚洲v天堂无码| 婷婷中文在线| 免费在线看黄网址| 久久综合色天堂av|