唐香蕉,滿興家,羅少華,邵杰



摘要: 為實現混合動力系統在電池荷電狀態(state of charge,SOC)平衡以及動力性約束下的經濟性提升,提出了基于偏好強化學習的混合動力能量管理策略,該策略將能量管理問題建模為馬爾科夫決策過程,采用深度神經網絡建立輸入狀態值到最優動作控制輸出的函數映射關系。與傳統的強化學習控制算法相比,偏好強化學習算法無需設定回報函數,只需對多動作進行偏好判斷即可實現網絡訓練收斂,克服了傳統強化學習方法中回報函數加權歸一化設計難題。通過仿真試驗和硬件在環驗證了所提出能量管理策略的有效性和可行性。結果表明,與傳統強化學習能量管理策略相比,該策略能夠在滿足混合動力車輛SOC平衡和動力性約束下,提升經濟性4.6%~10.6%。
關鍵詞: 混合動力汽車;能量管理;偏好強化學習;優化控制;電池荷電狀態(SOC);控制策略
DOI: 10.3969/j.issn.1001-2222.2024.03.010
中圖分類號:U469.72文獻標志碼: B文章編號: 1001-2222(2024)03-0058-08
混合動力能量管理策略通過對發動機和動力電池功率的調控及分配,可以優化能源利用,提高系統的燃油經濟性,是混合動力汽車(hybrid electric vehicle,HEV)的核心關鍵技術[1-3]。
基于規則的控制是HEV最常用的能量管理策略,該控制方法具有運算量低、易于實現的優點[4]。但其規則及邏輯的設計極度依賴工程經驗,且設計出的控制策略通常僅針對某一具體工況(如NEDC/WLTC等),缺乏對實車復雜工況的自適應能力。另外,因為規則控制沒有將整車能量管理轉化為規范的最優控制問題,策略不具有最優性。
由于HEV的能量管理問題隸屬于優化問題范疇,近年來各種優化算法在能量管理策略研究中得到廣泛應用,如動態規劃算法[5]、粒子群算法[6]、遺傳算法[7]、凸優化算法[8]等。但上述優化方法均缺乏自學習能力,一定程度削弱了求解控制策略的最優性和自適應性。近年來,基于強化學習的方法在能量管理領域日益受到重視[9-11]。C.Liu等[12]運用強化學習Q-Learning算法為某一插電式HEV設計了功率分配策略。T.Liu等[13]針對混合動力履帶車輛提出了一種基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)強化學習的控制策略,并論證了策略的自適應性、最優性以及學習能力。但上述傳統強化學習的控制效果嚴重依賴于回報函數的設計,而回報函數的設計需要兼顧系統經濟性、動力性約束以及動力電池荷電狀態(state of charge,SOC)平衡,傳統方法需要依賴經驗對不同性能函數進行加權,一定程度增大了強化學習回報函數的設計難度。而近年來提出的偏好強化學習[14]不依賴于回報函數的設計,通過在備選動作集合中根據偏好(即控制目標)選擇推薦動作,即可對控制參數進行反饋調整,已經在機器人控制[15]、金融管理[16]等領域取得一定成功應用。
基于偏好強化學習已經在控制領域表現出的強大應用潛力,本研究提出一種基于偏好強化學習的混合動力系統能量管理策略,以需求扭矩、車速、動力電池SOC為輸入,發動機扭矩為控制輸出,通過偏好強化學習調整控制策略參數,建立狀態輸入到控制輸出的最優映射,并通過與傳統深度強化學習(Q-Learning和DDPG)算法進行對比,驗證算法的有效性。
1混合動力車輛建模
研究對象是一款單軸并聯式混合動力客車,其混合動力系統如圖1所示,主要硬件組成包括發動機、離合器、電機、動力電池和變速系統。電機直接連接在自動離合器的輸出和變速器的輸入之間,從而實現了減速時的再生制動和高效的電動機輔助操作。另外,發動機可以通過自動離合器與傳動系統分離實現純電動驅動。表1列出了該車輛的部分關鍵參數。
下面從需求輸出端出發,通過向動力源輸入端倒推的方式建立整車驅動力平衡模型。根據車輛動力學,車輪的角速度ωw和車輪處的需求扭矩Tw可以表示為
ωw=vrw,(1)
Tw=rwρ2Afcdv2+frmgcosα+mgsinα+
Jtotrwdvdt。(2)
式中:v為車速;rw為車輪半徑;ρ為空氣密度;Af為迎風面積;cd為空氣阻力系數;fr為滾動阻力系數;m為汽車整備質量;g為重力常數;α為道路坡度;Jtot為車輛總慣性矩。
從車軸倒推至變速箱可得變速箱輸入處的角速度ωin和需求扭矩Tin:
ωin=ωwRg,(3)
Tin=Tw+Tloss(ωw,ge)R(ge)η(ge)(Tw+Tloss≥0)
Tw+Tloss(ωw,ge)R(ge)η(ge)(Tw+Tloss<0)。(4)
式中:Tloss為由摩擦引起的額外損失;R(ge)為從變速箱輸入到車輪的總傳動比;η(ge)為從變速箱輸入到車輪處的總傳輸效率。相應的變速箱擋位ge可以通過如下換擋進程計算:
ge(k+1)=5ge(k)+q(k)>5
1ge(k)+q(k)<1
ge(k)+q(k)otherwise。(5)
式中:q(k)為變速箱擋位控制指令,只能取離散值1,0和-1,分別代表降擋、保持不變和升擋。
根據驅動力平衡條件,可得:
Tin=Te+Tm。(6)
式中:Te和Tm分別表示發動機和電機的扭矩。
另外,由于驅動電機的功率來自于動力電池,因此滿足如下功率平衡方程:
Pm=PbηDC/ACsgn(Pm)。(7)
式中:Pm為驅動電機的輸入功率;Pb為動力電池的輸出功率;ηDC/AC為逆變器的效率;sgn為符號函數,sgn(+)=1,sgn(-)=-1。
1.1發動機模型
發動機模型重點關注發動機的燃油消耗率fuel,如圖2所示,發動機燃油消耗率是發動機轉速ne和發動機扭矩Te的函數,通過在圖2中插值,可以根據發動機的轉速和扭矩來計算發動機的瞬時油耗。
1.2電機模型
本研究采用的電機模型如下[17]:
Em=RmIm+LmdImdt+Eb。(8)
式中:Em,Im分別為電機的電壓和電流;Eb,Rm,Lm分別為反電動勢、電樞電阻和電樞電感,并且
Eb=Kvnm,(9)
Tm=KTIm。(10)
式中:Kv,KT均為電機常數;nm為電機轉速;Tm為電機扭矩。
進一步,電機的輸入功率Pm可以表示為
Pm=Tmnmη(Tm,nm),驅動狀態
TmnmηTm,nm,制動狀態。(11)
式中:η為電機效率。電機效率MAP如圖3所示,效率可由電機扭矩和轉速通過插值獲得。
1.3動力電池模型
本研究針對動力電池采用二階RC等效電路模型[18],如圖4所示。該模型由3個模塊組成:開路電壓(open circuit voltage,OCV)模塊、內部電阻R0模塊和RC網絡模塊,其中Vt為端電壓,VOCV為開路電壓,V1和V2分別表示RC網絡1和RC網絡2的電壓,I為電流(充電為正,放電為負),R0為歐姆內阻,R1和R2為極化內阻,C1和C2為極化電容。
根據基爾霍夫電壓和電流定律,電壓V1和V2滿足以下規則:
V·i=-ViRiCi+ICi。(12)
端電壓Vt如式(13)所示:
Vt=VOCV+R0I+V1+V2。(13)
動力電池的輸出功率可表示為
Pb=IVt。(14)
在10%~100%SOC范圍內,以10%SOC為間隔,在間隔點SOC位置進行脈沖電流放電試驗,獲得脈沖放電電壓,從而對二階動力電池模型參數進行標定,標定結果如圖5所示。
電池SOC取決于可用容量和電流,可以表示為
SOCt=SOCt0+∫tt0βIτQdt。(15)
式中:SOC(t)和SOC(t0)分別為在時間t和t0的SOC值;β為充電/放電效率;Q為最大可用容量。假設采樣時間為ΔT,通過離散化式(13)、式(14)以及式(15)得到以下結果:
V1k=exp-ΔTR1C1V1k-1+
R1Ik1-exp-ΔTR1C1,(16)
V2k=exp-ΔTR2C2V2k-1+
R2Ik1-exp-ΔTR2C2,(17)
SOCk=SOCk-1+βtQIk。(18)
式(16)至式(18)構成了動力電池二階RC模型的數學表示,描述了動力電池的動態響應特性。
2基于偏好強化學習的能量管理策略設計
偏好強化學習是一種先進的強化學習算法,它使用人類或機器學習模型提供的偏好信息來指導智能體的學習過程。相比于傳統的強化學習方法,偏好強化學習可以在復雜的環境下更高效地學習[19]。
偏好強化學習的基本組成包括(S,A,μ,δ,γ,ρ),其中S為狀態空間,A為動作空間,μ(S)為初始狀態分布,δ為馬爾科夫狀態概率轉移模型δ(s′|s,a),γ為折扣因子,ρ為偏好概率。
偏好強化學習的目標是從一個偏好關系的集合中學習一個最優策略。偏好關系可以表示為一個偏序關系,即一個優于關系(“”),它表示一個狀態或行為比另一個狀態或行為更受歡迎。在偏好強化學習中,偏序關系可以表示為一個偏好函數。具體地,假設一條采樣的軌跡可以表示為
τ=s0,a0,s1,a1,…sn-1,an-1,sn。(19)
ρ(τiτj)定義為給定軌跡(τiτj)下,τiτj的概率,智能體可以接收到一個偏好集合:
ζ=ζi=τi1τi2i=1,2,…N。(20)
并且假設偏好是嚴格偏好,即有
ρτiτj=1-ρτjτi。(21)
對于強化學習智能體而言,目標是在一個給定的集合ζ中找到一個策略π*,能夠最大化偏好選擇。因此τ1τ2∈ζ需要滿足的條件是:
τ1τ2Prτ1>Prπτ2。(22)
其中:
Prπτ=μs0∏τt=0πat∣stδst+1∣st,at。(23)
基于軌跡的最大化偏好問題可以描述為
τ1τ2π*=
argmaxπPrπτ1-Prπτ2。(24)
可以定義一個最小化偏好損失函數:
Lπ,τ1τ2=-Prπτ1-Prπτ2。(25)
在有多個偏好相互比較的關系下,損失函數可以表示為
Lπ,ζ=Lπ,ζ0,Lπ,ζ1,…Lπ,ζn。(26)
權重加和的方式則為
π,ζ=∑Ni=1αiLπ,ζi。(27)
本研究采用近似策略分布來獲得能夠最大化軌跡偏好的策略,策略流程如表2所示。
基于偏好強化學習的混合動力能量管理策略框架如圖6所示,具體施流程如下。
1) 確定偏好強化學習的狀態空間S和動作空間A。本研究以駕駛員處獲取的需求扭矩Tw、動力系統狀態車速v和動力電池SOC作為強化學習狀態變量,構成狀態空間S=[Tw,v,SOC],以發動機扭矩Te作為動作變量,構成動作空間A=Te。
2) 確定偏好強化學習的網絡架構。本研究采用深度神經網絡構建以系統狀態s為輸入、以動作變量發動機扭矩Te的概率分布為輸出的策略模型。
3) 基于獎勵偏好對網絡進行訓練。系統根據深度神經網絡輸出的動作變量概率分布,隨機采樣獲得執行動作,將其輸入到混合動力系統模型獲得下一時刻狀態參數,然后通過將采樣動作值與動態規劃(dynamic programming,DP)確定的最優動作序列(在DP算法中以燃油經濟性為目標生成最優動作序列,同時加入SOC終止值與目標平衡SOC相等的約束,保證動力電池工作在最佳SOC區間)進行相似度比較,生成偏好排序,最后將偏好選擇反饋給強化學習的策略網絡,以實現網絡參數的最優化迭代更新。
3仿真驗證
模型的正確性是能量管理策略開發的前提條件。為了驗證模型的正確性,將采集的車輛實際車速作為目標工況輸入建立的混合動力車輛模型進行仿真,比對仿真數據和實際數據以判斷模型的準確性。圖7示出了車速跟隨和動力電池電壓的仿真數據與實車數據的對比結果。由圖可知在目標工況跟隨方面,所建立的車輛模型可以很好地跟隨實車速度,平均誤差為0.12 km/h,模型精度較高;在動力電池電壓跟隨方面,由于實車環境存在多種環境噪聲影響,且動力電池表現出高動態性特征,仿真數據與實車數據存在一定的誤差,但總體的變化趨勢相同,平均誤差為3.13 V。故所建模型可以作為能量管理策略開發和硬件在環試驗的模型基礎。
為了驗證所提出方法的有效性,根據圖7a所示采集的車速工況曲線對偏好強化學習策略網絡進行訓練。為了保證策略的泛化性能,需要設定不同的SOC初始值。因為本研究的混合動力車輛在訓練中加入了SOC終止值與目標平衡SOC(這里取0.6)相等的約束,較少工作在較高SOC和較低SOC區間,所以選擇在0.55,0.60和0.65 3種靠近平衡SOC值的情況下進行仿真。為了驗證所提出能量管理策略的優越性,將其與傳統強化學習Q-Learning和DDPG控制策略進行對比。Q-Learning和DDPG采用和偏好強化學習相同的狀態空間、動作空間以及馬爾科夫狀態概率轉移模型,但需要設計回報函數。由于本研究以經濟性為目標,因此在Q-Learning和DDPG中采用的回報函數r為
r(st,a(t))=fuelt+φSOCt-SOCsust2。(28)
式中:SOCsust為期望維持的平衡SOC;φ為折算系數,其值通過等效能量法確定,用于將每一時刻SOC與SOCsust的偏離值折算到等效油耗,從而保證動力電池工作在最佳區間。傳統強化學習的目標是通過最大化累計回報獲得最優策略,即
πEMS=argmaxa(t)∈A∑N-1t=0r(s(t),a(t))Ts。(29)
式中:N為訓練工況的總步長;Ts為采樣周期(本研究中為1 s)。
表3列出了偏好強化學習與傳統強化學習策略的對比結果,其中油耗Fuelc的計算方法如下:
Fuelc=∑N-1t=0fueltTs+φSOCend-SOCsust。(30)
式中:SOCend為測試工況結束時的電池SOC;折算系數φ用于將工況結束時SOC與平衡值的偏移量折算至等效油耗,使不同算法的比較更加公平。
從表3中的等效油耗Fuelc可以看出,偏好強化學習的燃油消耗最少,說明所提出的策略具有良好的節能效果,與另外兩種常用的強化學習算法相比,節能率提升4.6%~10.6%。
為了進一步比較不同算法的差異,圖8示出了不同初始SOC下,不同算法的SOC變化曲線。由于傳統強化學習在回報函數中增加了SOC平衡約束,結束時刻的SOC與平衡值偏離較小。偏好強化學習通過在動態規劃算法中考慮SOC的平衡偏好,同樣可以實現SOC平衡性約束,并且在結束時刻偏好強化學習的SOC與平衡SOC值偏離更?。◤谋?可以看出,3種不同初始SOC狀態下,結束時刻偏好強化學習的SOC偏離目標平衡值均為0.01,而Q-Learning和DDPG偏離值為0.02~0.03),說明了偏好強化學習訓練過程的有效性。
另外,從圖8中可以看出,Q-Learning算法與另外兩種強化學習算法的SOC變化差異較大,這是由于Q-Learning算法需要對能量管理中的狀態量和控制量進行離散化處理,導致引入了離散化精度誤差,而偏好強化學習和DDPG通過深度神經網絡直接構建從連續狀態量到連續控制量的非線性映射,避免了離散化誤差,因此優化效果更好。從表3還可以看出,Q-Learning算法在3種初始SOC下的等效油耗均為最高。
為了進一步說明控制策略的最優性,圖9示出了DP和偏好強化學習兩種策略下發動機的工作點分布(起始SOC為60%)。從圖9可以看出,兩者的工作點均主要分布在燃油消耗率曲線的最優等高線上,DP和偏好強化學習的平均燃油消耗率分別為221 g/(kW·h)和226 g/(kW·h)。特別地,由于DP獲得的是全局最優解,因此DP的工作點均沿著最優等高線分布,偏好強化學習對應的發動機工作點分布主要也沿最優等高線分布,同時也存在部分沿次優等高線分布的情況。
4硬件在環驗證
基于混合動力系統的RTLab模型以及MotoTron控制器,建立完整的硬件在環仿真平臺,如圖10所示。在該硬件在環平臺中,采用偏好強化學習策略作為控制策略,MotoTron控制器接受RT-LAB傳遞的需求扭矩、車速以及電池SOC信號,根據控制策略輸出最優發動機扭矩。RT-LAB接受MotoTron控制器發送的發動機扭矩控制信號,同時輸出系統狀態信號。
圖11示出了硬件在環仿真工況下發動機工作點的分布。從圖11可以看出,絕大部分發動機工作點仍沿著最優等高線方向的最佳位置分布。計算表明,該工況下的平均燃油消耗為229 g/(kW·h),略高于仿真工況下的結果。
表4對比了硬件在環試驗中3種強化學習控制策略的平均燃油消耗,可以看出,偏好強化學習在硬件在環試驗中仍然具有最佳的燃油經濟性。
5結束語
面向混合動力車輛,提出了基于偏好強化學習的能量管理策略。該策略在保證車輛動力性及SOC平衡的約束范圍內,以最小化燃油消耗率為目標,獲得了混合動力系統的最佳控制策略。驗證表明:在仿真工況下,相比于傳統的能量管理控制策略(即DDPG和Q-Learning),所提出的控制策略可以實現4.6%~10.6%經濟性的提高;在硬件在環試驗中,所提出的控制策略仍然取得了較為理想的性能表現。
參考文獻:
[1]楊亞聯,石小峰.混聯式混合動力汽車工況預測能量管理研究[J].機械設計與制造,2020,10:276-280.
[2]嚴陳希,耿文冉,黃明宇,等.基于工況識別的混合動力汽車能量管理策略[J].機械設計與制造,2022,3:24-29.
[3]Hu B,Li J.A deployment-efficient energy management strategy for connected hybrid electric vehicle based on offline reinforcement learning[J].IEEE Transactions on Industrial Electronics,2021,69(9):9644-9654.
[4]羅勇,褚清國,隋毅,等.P0+P3構型插電式混合動力汽車能量管理策略[J].車用發動機,2023(3):73-81.
[5]Lee H,Song C,Kim N,et al.Comparative analysis of energy management strategies for HEV:Dynamic programming and reinforcement learning[J].IEEE Access,2020,8:67112-67123.
[6]Chen S Y,Hung Y H,Wu C H,et al.Optimal energy management of a hybrid electric powertrain system using improved particle swarm optimization[J].Applied Energy,2015,160:132-145.
[7]Min D,Song Z,Chen H,et al.Genetic algorithm optimized neural network based fuel cell hybrid electric vehicle energy management strategy under start-stop condition[J].Applied Energy,2022,306:118036.
[8]Hadj-Said S,Colin G,Ketfi-Cherif A,et al.Convex Optimization for Energy Management of Parallel Hybrid Electric Vehicles[J].Ifac Papersonline,2016,49(11):271-276.
[9]Cao J,Xiong R.Reinforcement Learning-based Real-time Energy Management for Plug-in Hybrid Electric Vehicle with Hybrid Energy Storage System[J].Energy Procedia,2017,142:1896-1901.
[10]Zhou J,Xue Y,Xu D,et al.Self-learning energy management strategy for hybrid electric vehicle via curiosity-inspired asynchronous deep reinforcement learning[J].Energy,2022,242:122548.
[11]Hu D,Zhang Y.Deep Reinforcement Learning Based on Driver Experience Embedding for Energy Management Strategies in Hybrid Electric Vehicles[J].Energy Technology:Generation,Conversion,Storage,Distribution,2022(6):10.
[12]Liu C,Murphey Y L.Power management for plug-in hybrid electric vehicles using reinforcement learning with trip information[C]//2014 IEEE Transportation Electrification Conference and Expo.New York:IEEE Computer Society,2014.
[13]Liu T,Hu X,Li S E,et al.Reinforcement learning optimized look-ahead energy management of a parallel hybrid electric vehicle[J].IEEE/ASME transactions on mechatronics,2017,22(4):1497-1507.
[14]Liu Y,Datta G,Novoseller E,et al.Efficient Preference-Based Reinforcement Learning Using Learned Dynamics Models[J].arXiv preprint arXiv:2301.04741,2023.
[15]Lee K,Smith L,Dragan A,et al.B-pref:Benchmarking preference-based reinforcement learning[J].arXiv preprint arXiv:2111.03026,2021.
[16]Xu N,Kamra N,Liu Y.Treatment recommendation with preference-based reinforcement learning[C]//2021 IEEE international conference on big knowledge (ICBK).New York:IEEE Computer Society,2021:1-8.
[17]孔澤慧,樊杰.基于深度強化學習的分布式電驅動車輛扭矩分配策略[J].汽車技術,2022(2):36-42.
[18]Xie Y,Wang S,Fernandez C,et al.Improved gray wolf particle filtering and high-fidelity second-order autoregressive equivalent modeling for intelligent state of charge prediction of lithium-ion batteries[J].International journal of energy research,2021,45(13):19203-19214.
[19]Zhang G,Kashima H.Learning state importance for preference-based reinforcement learning[J].Machine Learning,2023,113:1885-1901.
Hybrid Power Energy Management Strategy Based on Preferring?Reinforcement Learning
TANG Xiangjiao1,MAN Xingjia1,LUO Shaohua2,SHAO Jie1
(1.Shanghai General Motors Wuling,Liuzhou545000,China;2.China Automotive Engineering Research Institute Co.,Ltd.,Chongqing401122,China)
Abstract: To enhance the economy of hybrid power system under SOC balance and power constraints, a hybrid power energy management strategy was proposed based on the preferring reinforcement learning. The strategy treated the energy management problem as a Markov decision process and adopted a deep neural network to learn and build the nonlinear mapping from the input states to the optimal control inputs. Compared with the traditional reinforcement learning algorithm, the preferring reinforcement learning did not require the setting of a reward function and only needed to make preference judgments on multiple actions to achieve the convergence of network training, which overcame the design difficulty of weighting normalization in reward function. The effectiveness and feasibility of the proposed energy management strategy were verified through simulation experiments and hardware-in-the-loop tests. The results show that compared with traditional reinforcement learning energy management strategies, the proposed strategy can improve the economy by 4.6% to 10.6% while maintaining the SOC balance and power constraints of hybrid power vehicle.
Key words: hybrid electric vehicle;energy management;preferring reinforcement learning;optimal control;SOC;control strategy
[編輯: 姜曉博]