張 松,王坤羽,楊 蓉,黃 偉
(1.廣西玉柴機器股份有限公司,玉林 537005;2.廣西大學 機械工程學院,南寧 530004)
混合動力系統能量管理策略可以大致分為基于規則的控制策略、基于優化的控制策略及基于學習的控制策略3類[1]。基于規則的控制策略因其具有可靠、高效的特點,已廣泛應用于實車控制系統中,但其規則的制定主要依賴于專家經驗,面對復雜多變的行駛工況很難保證規則的最優性[2]。基于優化的控制策略可分為全局優化策略和實時優化策略,常見的全局優化策略如動態規劃策略(dynamic programming, DP)[3]具有前后統籌性,可以獲得全局最優解,但需要預知行駛工況且計算量龐大,并不適用于實車實時控制,常作為離線對比標準[4]。鑒于此,研究人員提出了實時優化策略,如依托于極小值原理的等效燃油消耗最小策略(equivalent consumption minimization strategy, ECMS)[5],通過求解成本函數的瞬時最優解來進行動力分配。相比于DP,ECMS計算量大幅度降低,但相比于規則控制仍對控制器的算力有較高要求。此外,基于優化的控制策略通常需要對連續型控制變量作離散化處理,使控制變量失去了本身連續性的優勢。綜上,基于規則的能量管理策略和基于優化的能量管理策略存在著高效性、最優性、適應性不可兼具的問題。
面對上述難題,學習型能量管理策略成為最具潛力的解決方案,尤其是基于深度強化學習(deep reinforcement learning, DRL)的能量管理策略。深度Q網絡(deepQ-network, DQN)是首個應用于混合動力能量管理的DRL算法,仿真結果也證明了其控制效果與全局優化相當[6]。文獻[7]中將DQN應用于串聯式混合動力構型,證明了DRL策略面對不同工況具有很強的適應性。但DQN策略只能面向離散控制,為實現DRL策略的連續控制,文獻[8]中將深度確定性策略梯度(deep deterministic policy gradients, DDPG)引入混合動力能量管理,有效避免了控制變量離散化帶來的離散誤差。文獻[9]中進一步引入遷移學習,以普銳斯車型的DDPG策略為基礎,通過遷移學習加速了另外3類車型DDPG算法的收斂速度。然而,廣受研究人員青睞的DQN和DDPG算法均存在價值過高估計、穩定性差、調參困難等缺陷,有必要研究更多先進DRL算法在混合動力能量管理中的應用。此外,目前在混合動力公交車上應用DRL策略的研究還相對較少,而這類車型具有路線單一、駕駛風格固定、每日行駛里程較長等特點,且這些特點都十分利于DRL策略的實施。
本文中將探究先進的DRL算法在混合動力公交車(hybrid electirc bus, HEB)能量管理中的應用。針對控制變量的離散控制,采用解決DQN價值高估問題的雙深度Q網絡(double deepQ-learning, DDQN)算法[10];而針對控制變量的連續控制,使用相比于DDPG價值估計更準確、穩定性更強的雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradients, TD3)算法[11]。同時,為提高DDQN和TD3策略的學習效率,用優先級經驗回放的記憶庫形式對策略進行優化。最后,以DP策略作為基準,評估了DDQN和TD3策略的有效性。
某款雙行星排混合動力公交車的主要參數如表1所示,其構型簡圖如圖1所示。該車的動力驅動系統主要包括柴油機、電池組、電機MG1、電機MG2及雙行星排(P1和P2)。

表1 某型混合動力公交車樣車參數

圖1 雙行星混合動力系統構型
前行星排P1作為功率分流機構,其太陽輪、行星架分別與MG1、柴油機相連。后行星排P2作為MG2的減速機構,其齒圈固定在機架上。前行星排P1的齒圈與后行星排P2的行星架相連,最終將動力經主減速器傳遞到驅動輪上。
不計系統內部的轉動慣量和摩擦損失,根據柴油機、電機與前后行星排的連接關系,可推算出雙行星排耦合機構輸出轉速轉矩的關系,如式(1)、式(2)所示。
(1)
(2)
式中,ωout為輸出軸的轉速;Tout為輸出軸的轉矩;ωe、ωMG1、ωMG2分別為柴油機、電機MG1、電機MG2的轉速;i1、i2分別為前后行星排特征系數;Te、TMG2分別為柴油機、電機MG2的轉矩。
采用后向建模,忽略道路坡度,可得整車需求功率Preq,如式(3)所示。
(3)
式中,m為車輛質量;δ為質量系數;CD為空氣阻力系數;A為迎風面積;v(t)為車速;g為重力系數;ζ為滾動阻力系數。
本文中對柴油機、電機的建模忽略了其復雜的瞬態響應和物理化學變化,僅根據相應的臺架試驗數據建立準靜態仿真模型。此外,基于柴油機萬有特性對柴油機的工作點進行了優選,即將每個轉速下油耗最低的轉矩點逐一連線,提取出柴油機最優工作曲線,如圖2所示。

圖2 柴油機最優工作曲線
在能量管理問題中,電池荷電狀態(state of charge, SOC)是最重要的狀態變量之一。基于試驗數據建立電池等效Rint模型,其SOC與開路電壓關系如圖3所示。

圖3 電池電壓隨SOC變化曲線
強化學習問題通常以馬爾可夫決策過程(Markov decision process, MDP)為理論框架進行建模[12],MDP包括智能體、環境兩個要素和S、A、T、r、λ這5個元組。其中,S為狀態變量集合;A為動作變量集合;T為狀態轉移函數;r為獎勵函數,r(st,at) 表示在狀態st執行at可獲得的立即獎勵;λ∈[0,1),為獎勵折扣因子。在MDP中,智能體與環境始終處于循環交互。首先,智能體感知當前狀態st∈S并從A中選擇at;環境接收at后,根據r反饋給智能體立即獎勵rt;最后,環境根據T轉移到下一狀態st+1,完成一次交互。同時,智能體會在交互中根據rt不斷調整策略函數π,π(a|s)是從狀態s∈S映射到動作a∈A的概率分布,是智能體選擇動作的根據。而智能體的最終目標是尋找最優策略π*,使智能體在任意時間步長、任意狀態都能獲得最大長期累積獎勵Rt,即:
(4)
為尋找π*,許多強化學習算法采用行為值函數Qπ(st,at)也稱Q值來評估策略π的優劣,其貝爾曼方程如式(5)所示。
Qπ(st,at)=r(st,at)+λEπ[Qπ(st+1,at+1)]
(5)
式中,Eπ為期望;at+1為下一時刻動作。
混合動力系統DRL能量管理問題轉為MDP進行求解,可將整車控制器視為智能體,將整車動力系統和行駛工況視為環境,而控制器的目標是尋找最優控制策略。此外,還需對狀態、動作及獎勵進行定義。
狀態定義:綜合考慮整車動力系統、行駛工況及混合動力公交車的特性,本文將歸一化后的加速度、車速、電池荷電狀態、剩余行駛里程作為狀態變量。
動作定義:就雙行星排動力耦合系統而言,柴油機與車輪解耦,需同時對柴油機轉速、轉矩進行控制。為提高模型學習效率,減小動作探索空間,僅將柴油機轉速作為動作變量,使柴油機運行在上述最優工作曲線上[1]。同時,在下文的DDQN策略中,需要對柴油機轉速離散化處理,本研究中采用等間隔離散。
獎勵定義:就非插電式混合動力系統而言,其控制目標為在保持SOC的同時使燃油消耗最小化。因此,本文中的獎勵函數由燃油消耗項和電量波動懲罰項組成。t時刻的立即獎勵RHEB(t)如式(6)所示。
RHEB(t)=αmfuel(t)+β[QSOCref-QSOC(t)]2
(6)
式中,mfuel(t)為t時刻柴油機燃油消耗率;QSOCref為期望SOC;QSOC(t)為t時刻SOC;α為燃油消耗項系數;β為電量波動懲罰項系數。
MDP中還需加入必要的約束條件,避免柴油機、電機、電池出現不合理的工作點,約束不等式如式(7)所示。
(7)
式中,QSOCmax、QSOCmin分別為電池SOC上下限;Ibatmax、Ibatmin分別為電流上下限;Tmmax、Tmmin分別為電機轉矩上下限;Temax為柴油機最大轉矩;ωemax、ωemin分別為柴油機轉速上下限;ωmmax、ωmmin分別為電機轉速上下限。
DDQN是一種以DQN[13]為基礎,面向離散動作控制的無模型DRL算法。DDQN在一定程度上緩解了DQN價值高估的問題,提高了算法的穩定性。DDQN中使用兩個結構相同的神經網絡來近似行為值函數Qπ(st,at),即通過估計Q網絡來計算Q值,通過目標Q網絡來計算目標Q值。其中,估計Q網絡根據時序差分誤差(temporal difference error, TD-error)來構造損失函數L(θ),并以最小化L(θ)來更新網絡權值θ,如式(8)所示。
(8)
式中,n為訓練集樣本量;TDDQNk為k樣本的TD-error;θ′為目標Q網絡權值。
而目標Q網絡采用延遲更新的方法,即每經過Tr次迭代,將估計Q網絡的參數θ復制給目標Q網絡的θ′。
為降低訓練樣本間的相關性,DDQN采用經驗回放機制(experience replay, ER),即將MDP中的交互樣本(st,at,rt,st+1)存入經驗緩沖區,并通過隨機采樣來獲取訓練樣本,但ER并不利于算法的高效學習。本文中采用優先級經驗回放機制(prioritized experience replay, PER),根據每條樣本的TD-error決定其被采樣的概率,定義j樣本的采集概率P(j)如式(9)所示。
(9)
式中,p為樣本TD-error的絕對值;η∈[0,1],用于調節隨機性程度。
為消除因PER中樣本分布不同而造成的模型更新偏差,需要使用重要性采樣方法,在訓練樣本前增加更新權重,定義j樣本的更新權重?j,如式(10)所示。
?j=(C·P(j))-Ψ/maxi?i
(10)
式中,C為PER中樣本容量;Ψ∈[0,1],為超參數。
由此建立DDQN能量管理策略,訓練代碼流程如下:(1) 初始化估計Q網絡權值θ、目標Q網絡權值θ′=θ、θ′更新頻率Tr、最大訓練步長Emax、最大單次探索步長Smax、訓練集樣本量N、PER經驗緩沖區M、貪婪率ε0、折扣因子λ。(2) for循環(episode =1∶Emax)。(3) 初始化狀態st。(4) for循環(step=1∶Smax)。(5) 當隨機概率ε大于ε0時,從A中隨機選擇動作at,否則根據式(11)選擇at。
(11)
(6) 執行at,獲得立即獎勵rt及新狀態st+1。(7) 將樣本(st,at,rt,st+1)存入M,若為初始樣本,采集概率為1,否則根據式(9)計算采集概率。(8) 從M中采樣N個訓練樣本,并根據式(10)計算每個樣本的更新權重?j,j=1,2,…,N。(9) 根據式(8)計算每個訓練樣本的時序差分誤差TDDQNj,j=1,2,…,N,并根據式(9)更新其在M中的樣本采集概率。(10) 最小化式(12)中的L(θ)來更新Q網絡權值。
(12)
(11) 每間隔Tr步更新目標Q網絡權值θ′=θ。(12) 將新狀態轉為當前狀態st=st+1。(13) 判斷終止條件結束step循環。(14) 判斷終止條件結束episode循環。
TD3是一種以DDPG為基礎并采用演員-評論家(Actor-Critic)框架的連續控制無模型DRL算法。TD3由Actor部分和Critic部分組成,其中Actor部分用于近似策略函數π,由Actor網絡及其目標網絡組成;而Critic部分用于近似行為值函數Qπ(st,at),由兩個Critic網絡及其相對應的目標網絡組成。為減小Actor-Critic的高估偏差,TD3使用截斷雙Q學習來構造TD-error,并通過最小化損失函數L(τi)來更新Critic網絡參數,如式(13)所示。
(13)


(14)
為進一步減小Critic網絡的更新方差,Actor網絡的更新頻率要低于Critic網絡,而目標網絡則采用式(15)延遲軟更新的方式。
(15)
式中,γ為目標網絡軟更新權重,通常γ遠小于1以保證目標網絡權值變化平緩。

(16)
(11) 每間隔Tr步,根據式(14)利用策略上升更新Actor網絡權值,根據式(15)更新目標網絡權值。(12) 將新狀態轉為當前狀態st=st+1。(13) 判斷終止條件結束step循環。(14) 判斷終止條件結束episode循環。
通過仿真分析對研究進行驗證。首先,基于Python搭建HEB能量管理深度強化學習訓練環境;然后基于PyTorch分別搭建DDQN和TD3能量管理策略控制模型;最后以C-WTVC循環為目標工況進行整車經濟性仿真試驗。模型的初始SOC設為0.6,SOC上下限設為0.5和0.7。為驗證DDQN和TD3策略的有效性,將DP策略作為基準與所研究策略進行對比分析。
DDQN中估計Q網絡和目標Q網絡的結構完全一致,其隱藏層均采用3層全連接層,每層神經元個數分別為300、200、100。其參數經調試后確定學習率為0.000 5,獎勵折扣因子為0.95,記憶庫容量為1×105,樣本集數量為64,貪婪率從0.55逐步增加到0.95。而TD3中,Actor部分和Critic部分共6個神經網絡均采用3層全連接層的隱藏層結構,每層神經元個數分別為200、100、50。其參數經調試后確定Actor網絡學習率為0.001,Critic網絡學習率為 0.000 5,獎勵折扣因子為0.95,動作噪聲為0.1,目標動作噪聲為0.2,記憶庫容量為2×105,樣本集數量為64。根據以上設置,分別使用DDQN和TD3策略進行1 000次能量管理策略學習。圖4為DDQN和TD3策略的獎勵曲線收斂情況。由圖4可以看出,在學習150次之后DDQN和TD3策略都開始收斂,總獎勵值趨于穩定,表明DDQN和TD3算法對混合動力系統能量管理具有較好的適用性。

圖4 DDQN和TD3策略的獎勵曲線
圖5顯示了DP、DDQN及TD3這3種策略下的SOC軌跡。從圖5中可以看出3種策略均未出現電池過充、過放現象,終止時刻也均實現了SOC平衡。同時也可以看出,與DP策略全局統籌的SOC軌跡相比,DDQN和TD3策略更傾向于利用制動回收模式補充電量的特點來尋找一個SOC平衡點,尤其是TD3策略幾乎全程都處于電量維持狀態。

圖5 DP、TD3、DDQN策略的SOC軌跡
C-WTVC工況包括城市循環、公路循環及高速循環3個階段。圖6~圖8為C-WTVC工況不同階段3種策略下驅動模式分布圖。圖9為不同循環階段下,3種策略的混合驅動模式占比情況。由圖6~圖9分析可知,在城市循環階段,3種策略均傾向于純電驅動,尤其是DDQN策略,其混合驅動模式占比僅為32%。在公路循環階段,3種策略均傾向于混合驅動,DP策略混合驅動占比最高,傾向于行車充電來保證下一階段高速低轉矩工況可以純電驅動,而DDQN和TD3策略則沒有DP策略的預見性,傾向于通過混合驅動維持電量在平衡點附近。在高速循環階段,TD3和DP策略較為相似,均選擇高轉矩時混合驅動,低轉矩時純電驅動;而DDQN策略由于前期SOC平衡在較低值,不得不通過混合驅動來提高電量,混合驅動模式占比高達88%。總體來看,DDQN和TD3策略在驅動模式的控制邏輯上與DP策略表現出較強的相似性,3種策略下純電驅動模式均主要分布于低速和較低轉矩區間,而混合驅動模式則主要分布于高速和較高轉矩區間。

圖6 DP策略不同階段驅動模式分布

圖7 DDQN策略不同階段驅動模式分布

圖8 TD3策略不同階段驅動模式分布

圖9 DP、DDQN及TD3策略不同階段混合驅動模式占比
3種策略百公里油耗如表2所示,DDQN和TD3策略的百公里油耗分別為19.51 L和19.48 L。

表2 3種策略下整車能耗對比
3種策略下柴油機工作點分布如圖10所示,不同區間下柴油機轉速占比如圖11所示。由 圖10(a) 可以看出,TD3策略可以對本文中的控制變量(柴油機轉速)進行連續控制,相比需要對變量離散化處理的優化算法而言具有一定優勢。由 圖11 可知,為獲得低油耗,DDQN和TD3策略下輸出的柴油機轉速分布區間和DP策略大致相同,這也使得DDQN和TD3策略的經濟性均達到了DP策略的93%。

圖10 DP、DDQN及TD3策略下柴油機工作點

圖11 DP、DDQN、TD3策略下柴油機轉速分布
(1) DDQN和TD3策略均以較快的速度實現了自適應收斂,表明DDQN和TD3算法在混合動力系統能量管理問題中具有較強的適用性。
(2) DDQN和TD3策略的驅動模式控制邏輯與DP策略較為相似,總體上表現為低速和較低轉矩時純電驅動,高速和較高轉矩時混合驅動。
(3) DDQN和TD3策略下的柴油機工作點分布情況與DP策略大致相同,3種策略下柴油機均主要工作于中低轉速高效區間,且TD3策略可以對本文中的控制變量即柴油機轉速進行連續控制。
(4) DDQN和TD3策略的百公里油耗分別為19.51 L和19.48 L,經濟性均達到了DP策略的93%,表明了DDQN和TD3策略的有效性。