陶發(fā)展,盧泓鑫,付主木,孫昊琛,馬浩翔
(河南科技大學(xué) a.信息工程學(xué)院; b.河南省機(jī)器人與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,河南 洛陽 471023)
近年來,新能源汽車由于能夠有效緩解傳統(tǒng)內(nèi)燃機(jī)汽車造成的環(huán)境污染和能源短缺問題而被廣大學(xué)者深入研究。其中,在新能源汽車中燃料電池混合電動汽車(fuel cell hybrid electric vehicle, FCHEV)以長續(xù)航、零污染以及填充燃料時間短等優(yōu)點(diǎn)被認(rèn)為是未來發(fā)展的首選[1-2]。面對混合動力汽車復(fù)雜的拓?fù)浣Y(jié)構(gòu),合理的能量管理策略在燃料經(jīng)濟(jì)性和整車動力性方面起著舉足輕重的作用[3]。
近十年來,伴隨著能量管理策略研究的不斷深入,一條相對清晰的脈絡(luò)也逐漸形成,即從基于規(guī)則的策略[4-5]到基于優(yōu)化的策略[6-7],再到如今基于學(xué)習(xí)的策略[8-12]。其中,基于學(xué)習(xí)的策略以其強(qiáng)大的實(shí)時自學(xué)習(xí)能力逐漸被廣大的研究者關(guān)注。文獻(xiàn)[13]提出了一種基于Q-learning算法的混合動力電動履帶車(hybrid electric track vehicle,HETV)自適應(yīng)能量管理方法,結(jié)果表明,與隨機(jī)動態(tài)規(guī)劃相比,基于強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)的方法在最優(yōu)性方面有顯著提高,能夠有效減少計算時間。文獻(xiàn)[14]提出了一種FCHEV分層Q-learning算法,該算法采用自適應(yīng)模糊濾波器實(shí)現(xiàn)總功率需求的頻率解耦,并利用等效消耗最小策略(equivalent consumption minimization strategy, ECMS)的思想在全局學(xué)習(xí)和實(shí)時實(shí)現(xiàn)之間找到折衷。結(jié)果表明,由于Q-learning的特性,所提出的方法可以顯著提高計算效率和燃油經(jīng)濟(jì)性,提高動力源的壽命,而學(xué)習(xí)狀態(tài)-動作空間是離散的。然而,值得注意的是,在現(xiàn)實(shí)場景中,狀態(tài)-動作空間通常是連續(xù)的,但隨著狀態(tài)-動作空間的維數(shù)不斷增加,Q-learning將面臨一個名為維數(shù)詛咒的棘手問題[15]。為了解決這一問題,文獻(xiàn)[16]引入了深度Q-learning (deep Q-learning, DQL)算法,與基于Q-learning的能量管理策略(energy management strategy, EMS)相比,獲得了更好的燃油經(jīng)濟(jì)性。考慮到DQL算法無法求解具有連續(xù)動作變量的環(huán)境管理問題,文獻(xiàn)[17]進(jìn)一步研究了具有處理連續(xù)狀態(tài)-動作空間優(yōu)化問題的深度確定性策略梯度(deep deterministic policy gradient, DDPG)優(yōu)化算法,并引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制。實(shí)驗(yàn)結(jié)果表明:所提策略在計算時間和燃料消耗方面均明顯優(yōu)于動態(tài)規(guī)劃(dynamic programming, DP)。文獻(xiàn)[18-19]針對不同的目標(biāo),分別考慮了歷史累積的駕駛信息和地形信息,提出了一種改進(jìn)的DDPG算法來獲得最優(yōu)EMS。結(jié)果表明:前者能在最優(yōu)參考軌跡下有效實(shí)現(xiàn)電池荷電狀態(tài)(state of charge, SoC)的合理下降,而后者與DP相比,能顯著減少發(fā)動機(jī)啟停時間,提高燃油經(jīng)濟(jì)性。
由于DDPG訓(xùn)練的是一種確定性策略,即對每一個狀態(tài)都只有唯一對應(yīng)的最優(yōu)動作,這就導(dǎo)致DDPG在面臨諸多干擾的實(shí)際運(yùn)行中缺乏魯棒性。針對這個問題,相關(guān)研究者在深度強(qiáng)化學(xué)習(xí)中引入最大熵的概念,提出了軟執(zhí)行者-評論者(soft actor-critic, SAC)算法。基于此,本文提出一種基于功率分層框架的改進(jìn)SAC能量管理策略。針對復(fù)雜多干擾的駕駛工況,首先,利用自適應(yīng)模糊濾波器對需求功率進(jìn)行頻率解耦,將其中的高頻功率交由超級電容來吸收/提供,這樣可以為燃料電池和鋰電池的正常運(yùn)行提供良好的環(huán)境;其次,設(shè)計基于SAC的能量管理策略,并利用基于ECMS的思想構(gòu)造SAC的獎勵函數(shù);同時,為提高SAC的訓(xùn)練效果和收斂性能,引入基于啟發(fā)式的經(jīng)驗(yàn)回放機(jī)制;最后,進(jìn)行仿真與試驗(yàn)驗(yàn)證。
本文研究對象的拓?fù)浣Y(jié)構(gòu)如圖1所示,其中,燃料電池作為主動力源提供車輛所需功率,而超級電容和鋰電池則作為輔助動力源,用于保護(hù)燃料電池和恢復(fù)制動能量,從而達(dá)到提升車輛整體性能的目的。此外,本文研究對象的各部件參數(shù)如表1所示。

圖1 3能量源燃料電池混合電動汽車的拓?fù)浣Y(jié)構(gòu)

表1 研究對象各部件參數(shù)
為保護(hù)燃料電池和鋰電池免受峰值功率的影響,以及降低深度強(qiáng)化學(xué)習(xí)算法的動作空間維數(shù),本節(jié)首先利用自適應(yīng)模糊濾波完成對車輛需求功率的分層處理,即把車輛需求功率中的高頻正功率交由超級電容進(jìn)行負(fù)責(zé),而剩余的中低頻正功率則交由燃料電池和鋰電池共同負(fù)責(zé);然后,通過將需求功率視作連續(xù)的馬爾可夫問題,建立馬爾可夫決策過程框架;最后,利用SAC優(yōu)化算法進(jìn)行求解,以實(shí)現(xiàn)提高燃料電池運(yùn)行效率、提升整車燃料經(jīng)濟(jì)性以及延長鋰電池使用壽命的目的。
雖然燃料電池具有高能量密度的優(yōu)點(diǎn),但是功率密度低的缺點(diǎn)也很明顯。因此,為了給燃料電池提供良好的“工作條件”,本文采用功率解耦將需求功率中峰值功率進(jìn)行分離,并合理利用超級電容的高功率密度特性,提高車輛的整體動態(tài)性能,其中濾波器的傳遞函數(shù)G(s)可以表示為:
(1)
其中:μf是可調(diào)頻率,由模糊推理系統(tǒng)(fuzzy inference system,FIS)根據(jù)需求功率Pdemand和綜合電荷狀態(tài)SoCESS進(jìn)行調(diào)整。模糊規(guī)則如表2所示,其中N, P, S, M, B, Z分別表示負(fù),正,小,中,大,零,均用以表示偏差變化的幅度。

表2 模糊規(guī)則
本文采用基于隨機(jī)性策略的SAC優(yōu)化算法對功率解耦后的中低頻功率進(jìn)行處理,同時,利用車輛的真實(shí)數(shù)據(jù)通過最鄰近法和最大似然估計法計算不同速度下的轉(zhuǎn)移概率矩陣[14]。為了合理地對多目標(biāo)優(yōu)化問題進(jìn)行運(yùn)算,本文利用基于等效消耗最小的思想構(gòu)建SAC中的獎勵機(jī)制,以總等效氫耗最小為優(yōu)化目標(biāo)進(jìn)行構(gòu)建獎勵函數(shù),具體表示如下[20]:
(2)
其中:Htotal(t)為車輛總瞬時等效氫耗,HFC(t)為燃料電池的直接氫耗,HBAT(t)為鋰電池的等效氫耗,HUC(t)為超級電容的等效氫耗,L/100 km;λFC、λBAT和λUC分別為燃料電池、鋰電池以及超級電容的懲罰系數(shù);ΔSoCBAT當(dāng)前鋰電池SoC與參考SoC的偏差;SoCref為鋰電池的參考SoC值。結(jié)合實(shí)際平臺的相關(guān)參數(shù),所構(gòu)建的獎勵機(jī)制具體約束如下[14]
(3)
其中:SoCBAT(t)和SoCUC(t)分別為鋰電池和超級電容在t時刻下的SoC值;SoCBAT, ch和SoCBAT, disch分別為鋰電池的充電速率和放電速率,C;PFC.min和PFC.max分別為燃料電池的最小輸出功率和最大輸出功率,W;PFC(t)和PBAT(t)分別為燃料電池和鋰電池在t時刻下的輸出功率,W;Pdemand(t)為車輛在行使過程中t時刻下的需求功率,W。以上的約束條件均是基于已有試驗(yàn)平臺所獲得[14]。
基于式(2),并結(jié)合本文的優(yōu)化目標(biāo),則SAC優(yōu)化算法的獎勵函數(shù)R可以設(shè)置為:
R=-[Htotal(t)+β(ΔSoCBAT)2],
(4)
其中:β為調(diào)整系數(shù),主要作用是使Htotal(t)和(ΔSoCBAT)2處于相同量級。
值得注意的是,傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法以累計獎勵期望最大作為自身的學(xué)習(xí)目標(biāo),即:
(5)
其中:E[·]為期望運(yùn)算;γ為獎勵的折扣系數(shù);π(sk)為在狀態(tài)sk下所執(zhí)行的策略;R(sk,π(sk))為在狀態(tài)sk下執(zhí)行策略π(sk)后所獲得的獎勵值。
本文所使用的基于隨機(jī)性策略的SAC算法則是在原本的基礎(chǔ)上引入最大熵的概念,不僅要累計期望最大,同時還要求策略每次輸出動作的熵值最大。
(6)
其中:H(π(·|sk))為動作的熵值,其目的是為了讓動作隨機(jī)化,以實(shí)現(xiàn)SAC算法的核心思想,即不遺落任何一個有用的動作;α為權(quán)重系數(shù),本文取值為0.2。
基于隨機(jī)性策略的SAC算法框架中一共包含5個網(wǎng)絡(luò):1個策略網(wǎng)絡(luò)、2個狀態(tài)價值網(wǎng)絡(luò)以及2個動作價值網(wǎng)絡(luò)。各個網(wǎng)絡(luò)間的更新公式詳見文獻(xiàn)[21]。本文算法框架如圖2所示。

圖2 算法框架圖
由于SAC算法是一種基于隨機(jī)策略的深度強(qiáng)化學(xué)習(xí)算法,與基于確定性策略的DDPG算法相比,在探索性和魯棒性方面具有一定的優(yōu)勢,但是隨機(jī)策略也給網(wǎng)絡(luò)收斂帶來了巨大的挑戰(zhàn)。這是因?yàn)樵诰W(wǎng)絡(luò)訓(xùn)練初期,偶爾的幾次糟糕經(jīng)驗(yàn)就足以讓網(wǎng)絡(luò)訓(xùn)練失敗,這就使得網(wǎng)絡(luò)訓(xùn)練初期對于經(jīng)驗(yàn)回放區(qū)的經(jīng)驗(yàn)要求比較嚴(yán)格。然而,傳統(tǒng)的SAC并沒有對經(jīng)驗(yàn)回放進(jìn)行特別處理,就會導(dǎo)致SAC在訓(xùn)練時非常容易失敗。
針對傳統(tǒng)SAC經(jīng)驗(yàn)回放區(qū)中經(jīng)驗(yàn)良莠不齊的缺點(diǎn),本文提出一種基于啟發(fā)式的經(jīng)驗(yàn)回放機(jī)制,即利用實(shí)驗(yàn)室的研究平臺,并根據(jù)平臺以往訓(xùn)練的歷史數(shù)據(jù),通過對數(shù)據(jù)進(jìn)行篩選、整理和分析,將狀態(tài)所對應(yīng)的策略進(jìn)行合理的區(qū)分,即在網(wǎng)絡(luò)訓(xùn)練時針對某一個狀態(tài),當(dāng)SAC的隨機(jī)策略給出一個明顯不合理的策略,這時基于啟發(fā)式的經(jīng)驗(yàn)回放就會禁止這樣的經(jīng)驗(yàn)進(jìn)入經(jīng)驗(yàn)回放區(qū),并重新指定SAC再給出一個合理的策略,這樣就使得網(wǎng)絡(luò)在訓(xùn)練初期經(jīng)驗(yàn)回放區(qū)中的經(jīng)驗(yàn)質(zhì)量得到了有效的保證,進(jìn)一步提高了網(wǎng)絡(luò)的收斂速度和優(yōu)化效果。
將改進(jìn)SAC策略與傳統(tǒng)SAC策略進(jìn)行對比測試,即通過在網(wǎng)絡(luò)收斂性能和算法優(yōu)化能力上進(jìn)行對比,以表明所提改進(jìn)算法在離線優(yōu)化過程中的優(yōu)勢。圖3為兩種策略的對比曲線。圖3a為不同策略的損失曲線對比圖,圖3b為不同策略下的獎勵曲線對比圖。可以明顯觀察到,在相同的迭代次數(shù)下,傳統(tǒng)SAC策略由于隨機(jī)策略的不確定性,會在一定程度上影響算法的收斂性能,這一點(diǎn)在圖3a中有明顯的體現(xiàn),即在迭代次數(shù)為300×2 000和900×2 000左右時,傳統(tǒng)SAC策略的平均損失曲線明顯受到了嚴(yán)重的波動。雖然后續(xù)網(wǎng)絡(luò)的收斂性能有所好轉(zhuǎn),并趨于收斂,但是從圖3b中可以觀察到傳統(tǒng)SAC策略的獎勵曲線并沒有得到明顯改善。而引入啟發(fā)式經(jīng)驗(yàn)回放機(jī)制后,可以顯著觀察到網(wǎng)絡(luò)的收斂性能和優(yōu)化效果都得到有效保證。這也進(jìn)一步說明引入啟發(fā)式經(jīng)驗(yàn)回放可以提高算法的收斂性能和優(yōu)化能力。

(a) 損失曲線對比圖
本節(jié)將通過以下4種典型駕駛工況進(jìn)行測試仿真以驗(yàn)證所提改進(jìn)SAC策略的有效性:城市測功機(jī)行駛計劃(urban dynamometer driving schedule,UDDS)、高速公路燃油經(jīng)濟(jì)性測試(highway fuel economy test,HWFET)、新標(biāo)歐洲循環(huán)測試 (new european driving cycle,NEDC)、西弗吉尼亞郊區(qū)循環(huán)工況(West Virginia University suburban cycle,WVUSUB)。需要注意的是基于試驗(yàn)平臺先前研究以及各項(xiàng)性能測試統(tǒng)計,本文鋰電池和超級電容的初始SoC值將統(tǒng)一設(shè)置為0.7[14]。
圖4為所提能量管理策略在UDDS工況下的仿真結(jié)果圖。圖4a為UDDS工況信息。圖4b為所提策略在UDDS工況下3能量源的功率分配圖,可以明顯看出車輛在急加/減速的情況下產(chǎn)生的峰值功率主要由超級電容來承擔(dān)/吸收,這給燃料電池和鋰電池提供了良好的運(yùn)行環(huán)境,這也從側(cè)面驗(yàn)證了引入超級電容的有效性和必要性。圖4c為傳統(tǒng)SAC策略與改進(jìn)SAC策略在UDDS工況下的燃料電池輸出功率對比圖,可以明顯發(fā)現(xiàn)本文所提改進(jìn)SAC策略在燃料電池輸出功率的波動幅度方面要明顯優(yōu)于傳統(tǒng)SAC策略,這也說明啟發(fā)式經(jīng)驗(yàn)回放機(jī)制能夠避免“不佳”的經(jīng)驗(yàn)影響算法的訓(xùn)練,進(jìn)而有效提升所得策略的最優(yōu)性。同時,從圖4c中也可以發(fā)現(xiàn),與傳統(tǒng)SAC策略相比,車輛在低速區(qū)(0~20 km/h)行駛時改進(jìn)SAC策略更傾向于讓燃料電池盡可能多的承擔(dān)需求功率,以避免燃料電池輸出功率波動幅度過大,同時也能夠有效提高燃料電池的運(yùn)行效率。圖4d為兩種策略在UDDS工況下燃料電池的運(yùn)行效率對比圖,可以從圖中發(fā)現(xiàn)相較于傳統(tǒng)的SAC策略,所提改進(jìn)SAC策略在車輛需求功率波動劇烈的情況下依舊能夠較好地保持燃料電池的運(yùn)行效率。需要注意的是,在圖4c中所提策略在燃料電池的輸出功率方面存在小范圍的波動,這是因?yàn)榛赟AC的策略在針對某一運(yùn)行狀態(tài)時給出的是一個包含最優(yōu)策略的集合,因此會產(chǎn)生些許的功率波動,但這些輕微的功率波動都在可以接受的范圍內(nèi)。

(a) UDDS工況信息
為進(jìn)一步驗(yàn)證改進(jìn)SAC策略在延長鋰電池使用壽命方面的有效性,本文以傳統(tǒng)SAC策略作為對比測試組。圖5為傳統(tǒng)SAC策略與改進(jìn)SAC策略在UDDS工況下鋰電池SoC的對比圖,從圖5中可以明顯發(fā)現(xiàn): 相較于傳統(tǒng)SAC策略,本文所提策略的SoC變化更為穩(wěn)定,特別在600 s后尤為明顯。并且在鋰電池初始SoC值設(shè)置為0.7的前提下,改進(jìn)SAC策略的SoC值最終下降到0.59,平均電量消耗為每600 s消耗6.9%,而基于傳統(tǒng)的SAC策略鋰電池最終SoC值下降到0.58,平均電量消耗為每600 s消耗7.5%。基于以上的分析,可以發(fā)現(xiàn)改進(jìn)SAC策略能夠通過合理協(xié)調(diào)燃料電池與鋰電池的功率輸出,實(shí)現(xiàn)在燃料電池運(yùn)行效率保持在高效率區(qū)間的同時,有效延長鋰電池的使用壽命。
通過對上述仿真結(jié)果的分析,可以明顯地觀察到本文所提出改進(jìn)SAC策略能夠?qū)崿F(xiàn)對燃料電池混合電動汽車的能量管理,并且能夠在保證燃料電池運(yùn)行效率的基礎(chǔ)上,合理降低鋰電池的能量效率。同時,為驗(yàn)證改進(jìn)SAC策略在燃料經(jīng)濟(jì)性的最優(yōu)性,本文利用傳統(tǒng)SAC策略作為對比組在4種典型駕駛工況下進(jìn)行測試驗(yàn)證。具體數(shù)據(jù)詳見表3所示。

圖5 UDDS工況下兩種策略鋰電池SoC對比圖

表3 典型駕駛工況下燃料經(jīng)濟(jì)性對比
從表3中可以發(fā)現(xiàn): 與傳統(tǒng)SAC策略相比,改進(jìn)SAC策略在四種典型駕駛工況測試下燃料經(jīng)濟(jì)性平均提升了6.4%,同時,改進(jìn)SAC策略也能夠有效延長鋰電池的使用壽命。值得注意的是,四種典型駕駛工況中UDDS、HWFET與WVUSUB相較于HWFET而言提升較為明顯,這主要是因?yàn)橄噍^于HWFET,其余3種駕駛工況更為復(fù)雜且多變,甚至包含許多極端工況,這也進(jìn)一步驗(yàn)證了所提策略在極端駕駛工況下的有效性和最優(yōu)性。
為合理驗(yàn)證本文所提改進(jìn)策略的適用性和實(shí)時性,本文利用以測功機(jī)、燃料電池系統(tǒng)、超級電容、鋰電池及集控系統(tǒng)等構(gòu)成的試驗(yàn)平臺進(jìn)行臺架試驗(yàn)。同時將在LabVIEW的開發(fā)環(huán)境下將所提策略設(shè)置在集控系統(tǒng)上,具體試驗(yàn)平臺及集控系統(tǒng)如圖6所示。

圖6 試驗(yàn)平臺實(shí)物圖
圖7為試驗(yàn)測試工況的結(jié)果。其中,圖7a為試驗(yàn)工況信息。為更直觀的表現(xiàn)出燃料電池運(yùn)行效率的變化,引入了燃料電池的效率-功率關(guān)系圖,如圖7b所示。圖7c為傳統(tǒng)SAC策略與改進(jìn)SAC策略在試驗(yàn)測試工況下燃料電池輸出功率對比圖,可以明顯發(fā)現(xiàn)無論是燃料電池輸出功率的穩(wěn)定性還是輸出功率的波動幅度,改進(jìn)SAC策略都要顯著優(yōu)于傳統(tǒng)SAC策略,并且在車輛行駛在低速區(qū)(0~20 km/h)時,改進(jìn)SAC策略傾向于讓燃料電池承擔(dān)輸出功率,在穩(wěn)定燃料電池輸出功率的同時,也能夠有效保證燃料電池的高效運(yùn)行。圖7d為兩種策略下燃料電池運(yùn)行效率的對比圖,可以明顯發(fā)現(xiàn)改進(jìn)SAC策略的燃料電池運(yùn)行效率幾乎一直運(yùn)行在高效率區(qū)間(0.5~0.6),并且在車輛需求功率急劇變化(900~1 100 s)時,燃料電池在超級電容和鋰電池的協(xié)助下依舊可以保持在高效率區(qū)間運(yùn)行。圖7e為兩者策略下鋰電池SoC的對比圖,可以發(fā)現(xiàn)相較于傳統(tǒng)SAC策略,改進(jìn)SAC策略鋰電池SoC始終保持緩慢下降的趨勢,并且其電量消耗為每600 s消耗6.9%。需要注意的是在圖7e中由于超級電容承擔(dān)/吸收大量峰值功率的原因,致使超級電容的SoC波動較大,但這屬于正常可接受范圍。

(a) 試驗(yàn)工況信息

(d) 燃料電池效率對比圖
鑒于研究對象的3種能量源(燃料電池、鋰電池和超級電容)之間工作特性各異,本文設(shè)計基于頻率解耦的功率分層框架與改進(jìn)SAC的能量管理策略,并基于等效消耗最小策略的思想搭建SAC優(yōu)化算法的獎勵函數(shù),同時引入啟發(fā)式經(jīng)驗(yàn)回放機(jī)制提升SAC算法的收斂性能和優(yōu)化能力。與傳統(tǒng)SAC策略相比,所提改進(jìn)SAC策略能夠在保證燃料電池高效運(yùn)行的同時,有效延長鋰電池的使用壽命,并且在燃料經(jīng)濟(jì)性方面提升了6.4%。
值得注意的是,本文僅是通過合理降低鋰電池的能量消耗實(shí)現(xiàn)延長鋰電池的使用壽命,而并沒有對鋰電池的性能退化進(jìn)行精確建模。因此,如何合理量化鋰電池的性能退化程度,并將其納入到能量管理策略框架的搭建中,這將是未來的工作重點(diǎn)之一。