999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的插電式柴電混合動力汽車多目標優化控制策略

2021-01-18 03:59:48隗寒冰賀少川
關鍵詞:控制策略發動機動作

隗寒冰,賀少川

(重慶交通大學 機電與車輛工程學院,重慶 400074)

0 引 言

氮氧化物(NOx)是車用柴油機排放的主要污染物[1],為滿足國家標準GB 17691—2018《重型柴油車污染物排放限值及測量方法(中國第六階段)》中規定的NOx排放低于0.4 g/km限制要求,選擇性催化還原(selective catalytic reduction,SCR)后處理技術被認為是進一步降低NOx排放的必要技術路線之一。插電式柴電混合動力汽車(plug-in hybrid electric vehicles,PHEV)工作模式切換過程中由于發動機頻繁啟停導致的發動機排氣溫度和進氣流速波動較大,從而導致SCR催化器效率降低和排放惡劣,冷啟動階段這種性能下降更為明顯。因此制定優化的整車控制策略在保證燃油經濟性的條件下有效降低NOx排放,實現發動機油耗及后處理系統綜合優化控制具有十分重要的意義。

整車控制策略作為插電式混合動力汽車關鍵技術之一,已經得到了廣泛研究[2]。基于規則的控制策略因其算法簡單、實時性好的優點在工程中被大量采用[3-4],然而策略制定需要大量實驗和專家經驗,無法適應工況變化,不能充分發揮插電式混合動力汽車的節能潛力。最優控制策略利用優化算法求解最小化目標函數,可以實現整車能量最佳分配[5-7],此類策略計算資源占用大,執行效率不高,實時應用受到限制。基于學習的控制策略利用歷史或實時數據進行學習應用,可以根據不同的行駛工況對控制策略參數進行自調整,優化車輛運行以適應不同的駕駛工況[8-9],但仍依賴專家經驗和精確的系統模型。近年來,作為人工智能、機器學習和自動控制領域研究熱點之一的強化學習在混合動力控制策略中開始得到了應用[10],如:T. LIU等[11]提出馬爾科夫概率轉移矩陣在線更新方法,并結合Q-learning算法應用于混合動力汽車能量管理問題,其效果與動態規劃接近;Y. HU等[12]使用Q-learning算法在線優化模糊控制器參數,對不同駕駛工況都表現出較好的實時性與燃油經濟性;針對Q-learning算法采用二維查值表存儲最優值時,面臨高維度或連續狀態導致“維度災難”,且訓練難以收斂等問題,J. D. WU等[13]采用深度強化學習利用神經網絡擬合最優值函數。

筆者提出基于深度強化學習的油耗與排放多目標綜合優化控制策略,采用深度Q網絡(deep Q-learning network,DQN)算法通過學習和探索的方式獲得最優控制策略,該策略以需求功率、蓄電池SOC和SCR溫度為狀態變量、以電機最優輸出功率為輸出變量,能實現從運行工況到電機執行端對端的學習與控制。最后將仿真測試結果與動態規劃(dynamic programming,DP)策略進行對比分析,證明所提出控制策略的有效性。

1 插電式柴電混合動力系統建模

以ISG型單軸并聯式插電式柴電混合動力汽車為研究對象,其整車動力系統結構如圖1。動力系統主要由柴油機、動力電池、濕式離合器、ISG電機、換擋離合器、5檔AMT自動變速器等部分組成,后處理系統采用SCR。電機安裝采用P2構型,實現制動能量回收和高效率聯合驅動等功能。整車通過CAN總線實現各控制器之間的數據通信與車輛狀態監控,整車各部件相關參數如表1。

表1 整車各部件性能參數Table 1 Performance parameters of the vehicle’s components

圖1 PHEV整車動力系統Fig. 1 PHEV powertrain system

1.1 整車縱向動力學模型

忽略車輛橫向動力學影響,假設整車質量集中作用在重心上,根據車輛行駛過程中受到的滾動阻力Ff、空氣阻力Fw、坡度阻力Fi和加速阻力Fj,其驅動力平衡方程為:

(1)

式中:M為汽車質量;g為重力加速度;f為滾動阻力系數;α為道路坡度;CD為空阻系數;A為汽車迎風面積;v為車速;δ為汽車旋轉質量換算系數。

不考慮坡度因素即α=0,在給定車速v下由車輛驅動力平衡方程計算出車輛需求功率和車輪轉速分別為:

(2)

(3)

式中:r為車輪半徑。

1.2 動力電池模型

動力電池工作時內部具有復雜的非線性變化過程,筆者忽略溫度對電池特性的影響,建立一階內阻電池模型,如圖2。

圖2 電池內阻模型Fig. 2 Battery internal resistance model

電池電流I如式(4):

(4)

電池SOC如式(5):

(5)

式中:V為電池端電壓;R為電池內阻。

1.3 發動機模型

在混合動力系統控制策略研究中,發動機模型不考慮復雜的燃燒過程和動態響應過程,只關心輸入輸出映射關系,能準確有效的反應發動機穩態特性即可。因此利用發動機油耗和排放臺架實驗得到發動機轉矩、轉速和燃油消耗量及NOx排放的關系,通過插值發動機臺架試驗穩態數據建立發動機油耗和NOx排放數值模型如圖3、圖4,其表達式為:

圖3 發動機燃油消耗Fig. 3 Fuel consumption for engine

圖4 發動機NOx排放Fig. 4 NOx emission for engine

(6)

(7)

式中:geng為發動機瞬時燃油消耗率;gNOx為發動機出口瞬時NOx排放率;Teng為發動機轉矩;ωeng為發動機轉速;mfuel為發動機燃油消耗質量;mNOx為發動機出口NOx排放質量。

1.4 后處理系統模型

SCR后處理系統常采用釩基或沸石基作為催化劑,在一定溫度條件下SCR噴射NH3與尾氣中的NOx發生催化還原反應生成N2。SCR催化器轉化效率對溫度十分敏感,插電式混合動力汽車工作模式切過程中由于發動機頻繁啟停引起的發動機排氣溫度和進氣流速波動明顯,從而導致SCR催化器催化效率降低和排放惡劣[14]。

遵循Eley-Rideal機理[15-16],假設SCR催化器中廢氣為不可壓縮等熵流動,只考慮催化器與廢氣的對流換熱以及與周圍環境的輻射散熱,建立SCR催化器反應溫度模型為:

(8)

式中:TSCR為SCR催化器溫度;Mexh為發動機出口廢氣流速;CSCR為催化層比熱容;h為熱傳遞系數;Tamb為發動機環境溫度;Teng為發動機出口溫度;Cexh為廢氣比熱容。

2 基于DQN的多目標優化控制策略

2.1 強化學習基本原理

強化學習基本思想是智能體通過與環境之間的相互作用進行不斷學習,從而實現一系列最優決策,以得到最大化累計獎勵[17],基本原理如圖5。

圖5 強化學習示意Fig. 5 Schematic of reinforcement learning

學習者和決策者為智能體,在每個時間步長t(t=0,1,2,3…),智能體觀測到環境的狀態為st(st∈S),根據觀測到的環境狀態和當前策略做出決策,然后選擇最優動作at(at∈A)。環境接收動作后進入新的狀態st+1,并給出對應的獎勵rt+1,智能體依據得到的獎勵大小,不斷學習改進其行為策略,以便獲取最大累積獎勵。整個過程為狀態到行動的轉換,如式(9):

Ht=s0,a0,s1,a1,…,st-1,at-1,st

(9)

定義從t時刻開始的累計獎勵如式(10):

R(st,at)+γR(st+1,at+1)+γ2R(st+2,at+2)+…

(10)

式(10)簡化如式(11):

Rt+γRt+1+γ2Rt+2+…

(11)

式中:γ為獎勵衰減因子;Rt為獎勵回報函數。

強化學習的目標是智能體通過完成一系列動作獲得最大化期望回報,定義如式(12):

E[Rt+γRt+1+γ2Rt+2+…]

(12)

由于當前動作執行時,未來動作和狀況不可知,因此引入狀態-動作值函數估計在已知當前狀態s下,按照某種策略ε行動產生的預計未來回報。基于策略ε的狀態-動作值函數定義為:

Q(s,a)=Eε[Rt+γRt+1+γ2Rt+2+…|st=s,at=a]

(13)

簡化為:

Q(s,a)=Eε[Rt+γQ(st+1,at+1)|st=s,at=a]

(14)

Q(s,a)表示每個狀態下的預計未來回報,基于狀態-動作值函數定義則將強化學習目標最大化期望回報轉化為最優策略ε*,使每一個狀態的價值最大化:

ε*=argmaxεQ(s,a),?s,a

(15)

2.2 基于強化學習的控制策略問題建模

控制策略本質是求解帶約束的優化問題,即在滿足循環工況下駕駛員需求功率、動力總成各部件物理約束情況下,求出最優策略使得整車油耗和排放的綜合指標最小化。

基于2.1節強化學習理論基礎,選取電機輸出功率Pm為控制變量,需求功率、電池SOC和SCR溫度為狀態變量,將目標函數定義為帶折扣的累計回報:

(16)

式中:γ為獎勵衰減因子,以保證性能指標函數的收斂,γ∈[0,1];R(t)為每個時間步長t內由控制變量引起的獎勵回報函數,由油耗、排放和SOC懲罰項的加權和組成,定義如式(17)~式(19):

R(t)=ω1Rfuel(t)+ω2Remis(t)+ω3(SOC-0.4)

(17)

(18)

(19)

系統控制變量表示為:

U(t)=Pmot(t)

(20)

系統狀態變量表示為:

S(t)=[Preq(t),SOC(t),TSCR(t)]

(21)

系統滿足的物理約束條件為:

式中:SOCmax和SOCmin為電池SOC限值;TSCR,max和TSCR,min為催化器溫度安全限值;Pmot,max和Pmot,min為ISG電機功率限值;Peng,max和Peng,min為發動機功率限值;Tmot,max和Tmot,min為ISG電機轉矩限值;Teng,max和Teng,min為發動機轉矩限值。

系統邊界條件為:

基于強化學習理論將整車油耗和排放量的綜合指標最小化問題轉化為尋找最優控制策略ε*對應的控制動作序列。因此定義最優狀態-動作值函數Q*(s,a):

Q*(s,a)=maxεE[Jt|st=s,at=a]

(22)

式中:ε是將狀態映射到動作的策略,可進一步簡化為:

Q*(s,a)=maxεE[Rt+γQ*(st+1,at+1)|st=s,

at=a]

(23)

最優狀態-動作值函數Q*(s,a)對應的控制量為最優控制動作U*。由式(23)可以看出,最優狀態-動作值函數遵循貝爾曼最優性原理,因此可以采用動態規劃算法求解以上問題。

2.3 基于DQN算法的控制策略問題求解

實際車輛系統呈現高維連續特征,采用動態規劃求解需要進行離散化,當問題規模較大時動態規劃算法將帶來維度災難。深度強化學習將深度學習和強化學習相結合形成深度Q-learning網絡,深度學習提供學習機制,強化學習為深度學習提供學習目標,使得深度強化學習具備解決復雜控制問題的能力[19],因此可應用于插電式混合動力汽車能量管理問題中。筆者提出的基于深度強化學習的插電式混合動力汽車多目標優化控制策略原理如圖6。

圖6 控制策略原理Fig. 6 Principle of control strategy

基于深度強化學習的控制策略采用深度神經網絡來擬合最優狀態-動作值函數Q*(s,a),即:

Q(s,a,ω)≈Q*(s,a)

(24)

式中:ω為神經網絡的參數。

為使DQN算法在訓練過程中進行充分學習到更加優化的策略,利用ε貪心算法以概率ε選取最優Q值對應的控制動作,以1-ε的概率隨機選取控制動作。然后采用經驗回放方法將每個時間步長t內智能體探索環境得到的經驗數據,即對應的狀態-動作序列存儲到經驗池Dt={e1,e2,…,et}中,如式(25)。最后從經驗池中隨機抽取樣本訓練深度神經網絡,這樣不僅消除時間數據序列之間的相關性, 也使得網絡更新更有效率。

et=(st,at,rt,st+1)

(25)

式中:st為當前狀態;at為智能體根據當前狀態采取的動作;rt為執行動作后的獎勵;st+1為下一時刻的狀態。

DQN算法使用兩個結構完全相同參數不同的神經網絡進行策略的學習與改進,其中Qtarget網絡用于計算目標Q值,網絡參數不需要迭代更新;Qeval網絡用于估計當前狀態下最優Q值并產生最優的控制動作,且擁有最新的網絡參數。每隔一定步長,將Qeval網絡參數復制給Qtarget網絡,即采用延時更新減少目標Q值和當前估計Q值的相關性,增加算法穩定性。

DQN算法通過最小化損失函數來進行迭代更新。損失函數定義為目標Q值與最優估計Q值之差的平方:

Q(st,at,ω)]2}

(26)

搭建的Q網絡采用5層全連接神經網絡如圖7,其包含3個隱含層,神經元個數分別為20、50、100,并使用ReLU(rectified linear unit)激活函數;輸入層神經元個數為3,主要取決于定義的狀態變量數;輸出層使用線性激活函數,每個輸出代表一個控制動作,共45個控制動作,使用梯度下降優化函數來最小化損失函數。

圖7 神經網絡架構Fig. 7 Neural network architecture

基于DQN的多目標優化控制策略算法流程如下:

步驟1:初始化。經驗池可存儲狀態-動作對數量N、Qeval網絡權重參數ω、Qtarget網絡權重參數ω-=ω。

步驟2:For episode=1:M do

步驟3:獲取初始狀態Preq(0),SOC(0),TSCR(0)。

步驟4:Fort=1:T do

步驟5:以概率ε選取最優Q值對應的控制動作at,否則隨機選取控制動作at。

步驟6:執行at得到立即獎勵rt,并觀測系統下一時刻狀態st+1。

步驟7:將經驗數據et=(st,at,rt,st+1)存儲到經驗池D中。

步驟8:從經驗池中隨機抽取n個樣本(st,at,rt,st+1)。

步驟9:if當前狀態為終止狀態si+1:

yi=ri

else:

步驟10:梯度下降法更新Qeval網絡權重,損失函數為[yi-Q(si,ai;ω)]2。

步驟11:隔C步將Qeval網絡參數復制給Qtarget網絡。

步驟12:End for。

步驟13:End for。

為了加快網絡訓練速度,將輸入數據進行歸一化處理,通過式(27)、式(28),將Preq和TSCR范圍壓縮到[0,1]:

(27)

(28)

3 仿真分析

筆者將DQN算法應用于插電式柴電混合動力汽車的能量管理控制策略問題,進行油耗與排放多目標綜合優化。為了驗證控制策略的有效性,選取NEDC工況對DQN算法進行離線訓練和在線仿真測試,并將仿真結果與DP算法進行對比分析。動態規劃算法不依賴近似計算求極值,能夠得到全局最優解,故被廣泛用于混合動力汽車控制策略算法評價。DQN算法的相關參數設置如表2。

表2 DQN算法參數Table 2 DQN algorithm parameters

圖8為DQN算法在離線訓練過程中的平均損失曲線,在迭代開始時刻損失值快速下降,隨著訓練不斷進行,平均損失逐漸減小,說明了算法能迅速收斂。圖9 為平均累積Q值變化曲線,其反應了每個狀態下智能體獲得的累計折扣回報,能夠穩定的反映算法性能[20]。可以看出隨著迭代次數的增加,網絡不斷調整對Q值的過高或過低估計,最終逐漸趨于穩定并收斂。

圖8 訓練平均誤差損失Fig. 8 Average training error loss

圖9 平均累積Q值Fig. 9 Average cumulative Q-value

圖10為DQN和DP兩種控制策略對應的SOC曲線變化情況,初值SOC均為0.8。可見兩種策略下SOC下降曲線軌跡基本一致,說明DQN能夠得到DP全局最優解的近似解。前800 s為ECE工況車輛需求功率較低,電機主要提供輔助動力,SOC下降趨勢平緩,800 s后隨車輛需求功率變大,電機工作時間變長,SOC快速下降,工況結束時刻均維持在0.42左右。DP控制策略下SOC曲線偏低,主要由采用離散化的狀態,每個工況點強迫SOC落在定義好的狀態網格上的誤差導致。

圖10 DQN和DP控制策略的SOC曲線Fig. 10 SOC curve of DQN and DP control strategy

圖11和圖12為電機功率分配和電機工作效率MAP圖。由于訓練數據樣本本身存在不穩定性,造成訓練得到控制策略具有波動性,引起DQN控制策略下的電機功率輸出在部分地方出現較大的跳動。從電機工作效率MAP圖可以看出,DQN控制策略下對應的電機工作點分布相對較為分散,但總體效率與DP控制策略基本相當,進一步說明DQN算法通過訓練能夠獲得優化的控制策略。

圖11 電機功率分配Fig. 11 Motor power distribution

圖12 電機工作點在效率MAP圖分布Fig. 12 Distribution of motor load in the efficiency MAP

圖13和圖14為SCR催化器溫度變化曲線和轉化效率曲線。由圖13可知,SCR催化器溫度變化分為快速升溫和溫度保持兩個階段。在快速升溫階段,SCR催化器溫度快速升高以提高轉化效率,降低SCR催化器出口NOx排放量,DP控制策略下在221 s 內達到起燃溫度,DQN控制策略下的起燃時間為248 s,起燃速度與DP控制策略接近;進入溫度保持階段,SCR催化器在最佳工作溫度350 ℃附近上下波動,此時轉化效率高達93%,在900 s時由于高需求功率導致SCR催化器溫度不斷升高,轉化效率下降13%,但在兩種策略控制作用下又逐漸回歸穩定,在此階段DP和DQN控制策略下的SCR催化器溫度變化基本一致。

圖13 SCR溫度變化對比Fig. 13 Comparison of SCR temperature variation

圖14 SCR催化器轉化效率Fig. 14 Conversion efficiency of SCR catalytic converter

圖15和圖16為兩種策略下的發動機工作點在油耗MAP圖和NOx排放MAP圖上的分布情況。為了平衡最優燃油經濟性與最低NOx排放之間的trade-off關系,以犧牲部分油耗為代價,減少發動機出口NOx排放量,因此兩種策略下發動機均未完全在最優的經濟區域內工作。在此情況下,DP控制策略得到的燃油消耗量為2.331 L/100 km,DQN控制策略燃油消耗量為2.615 L/100 km,為對應DP控制策略油耗的87.82%。在NOx排放方面,DP控制策略下的NOx排放量為0.181 g/km,DQN控制策略下的NOx排放量為0.2275 g/km,為對應 DP控制策略NOx排放量的74.31%。

圖15 發動機工作點在油耗MAP圖分布Fig. 15 Distribution of engine load in the fuel consumption MAP

圖16 發動機工作點在NOx排放MAP圖分布Fig. 16 Distribution of engine load in the NOx emission MAP

DP控制策略和DQN控制策略對比結果如表3。由表3可以看出,筆者提出的基于深度強化學習的多目標優化控制策略可以實現較好的控制效果,兩種控制策略下的SCR起燃時間只相差27 s。整車燃油經濟性方面,DQN控制策略的油耗為2.623 L/100 km,為DP控制策略對應油耗的89.82%;NOx排放方面,DQN控制策略下的SCR出口NOx排放量為0.2275 g/km,為DP控制策略對應NOx排放的74.31%,結果證明了筆者所提控制策略的有效性。

表3 兩種控制策略下仿真結果對比Table 3 Comparison of simulation results of two control strategies

4 結 論

1)為實現插電式柴電混合動力汽車油耗與排放的多目標綜合優化,基于強化學習理論給出了多目標函數定義,并提出了基于DQN算法的多目標優化控制策略;

2)在NEDC工況下進行離線訓練得到最優的電機功率分配序列,實現了以需求功率、SOC和SCR溫度為狀態變量,以電機最優功率為輸出變量的控制策略;

3)仿真結果表明,基于深度強化學習的多目標優化控制策略取得了較好效果,燃油消耗為2.623 L/100 km,SCR催化器出口NOx排放為0.227 5 g/km,與DP控制策略相比,分別下降10.12%和25.69%,具有實時在線應用的潛力。

猜你喜歡
控制策略發動機動作
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
發動機空中起動包線擴展試飛組織與實施
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
動作描寫要具體
畫動作
動作描寫不可少
容錯逆變器直接轉矩控制策略
非同一般的吃飯動作
新一代MTU2000發動機系列
主站蜘蛛池模板: 色香蕉影院| 四虎在线观看视频高清无码 | 国产精品30p| 国产黑丝视频在线观看| 亚洲精品国产首次亮相| 国产欧美性爱网| 91激情视频| 亚洲欧美天堂网| 中文国产成人久久精品小说| 国产麻豆精品在线观看| 精品一区二区三区水蜜桃| 综合网久久| 国产精女同一区二区三区久| 欧美在线一二区| 国产欧美在线观看一区| 久久久噜噜噜| 精品午夜国产福利观看| 亚洲无线一二三四区男男| 欧美日本在线播放| 老司机午夜精品网站在线观看| 中文毛片无遮挡播放免费| 亚洲成人高清在线观看| 中文字幕人成人乱码亚洲电影| 91精品啪在线观看国产| 国产十八禁在线观看免费| 无码一区中文字幕| 国产呦精品一区二区三区网站| 国产一级精品毛片基地| 欧美日韩中文国产| 日本一区二区三区精品国产| 毛片免费视频| 97超级碰碰碰碰精品| 国产成人艳妇AA视频在线| av性天堂网| 亚洲福利片无码最新在线播放| 国产日韩AV高潮在线| 91久久偷偷做嫩草影院电| 欧美精品亚洲二区| 在线国产欧美| 国产成人综合日韩精品无码不卡| 久久精品视频亚洲| 国产黄色视频综合| 日本人又色又爽的视频| 77777亚洲午夜久久多人| 国产亚洲美日韩AV中文字幕无码成人 | 福利小视频在线播放| 亚洲资源在线视频| 久久这里只精品国产99热8| 国产精品白浆无码流出在线看| 久久综合色播五月男人的天堂| 五月婷婷丁香色| 国产精品污污在线观看网站| 凹凸精品免费精品视频| 最新国产午夜精品视频成人| 中文字幕人成人乱码亚洲电影| 国产精品任我爽爆在线播放6080| 人妖无码第一页| 亚洲中文字幕23页在线| 国产精品亚洲精品爽爽| 伊人成色综合网| 狠狠干欧美| 日本高清有码人妻| 亚洲一区二区三区中文字幕5566| 亚洲天堂啪啪| 国产精品成人免费综合| 欧美在线三级| 久久国产高清视频| av性天堂网| 青青国产视频| 欧美性色综合网| 操操操综合网| 亚洲欧美极品| 亚洲欧洲自拍拍偷午夜色| 久久精品人人做人人| 国产免费怡红院视频| 欧美亚洲香蕉| 亚洲午夜国产片在线观看| 高清码无在线看| 精品人妻无码中字系列| 韩日午夜在线资源一区二区| 国产你懂得| 免费三A级毛片视频|