尹燕莉,張鑫新,潘小亮,詹 森,黃學江,王福振
(1.重慶交通大學 機電與車輛工程學院,重慶400074,中國;2.重慶長安汽車股份有限公司,重慶401120,中國;3.包頭北奔重型汽車有限公司,包頭014000,中國)
燃料電池混合動力汽車由于能夠實現零排放,并且效率高,瞬時響應快,被認為是新能源汽車的理想車型。研究燃料電池混合動力汽車的能量管理問題,對于燃料電池汽車的發展具有重要意義。
近年來,能量管理系統作為混合動力汽車的核心,已在油-電混合動力汽車上得到了廣泛的研究和應用,呈現出由基于規則[1-3]向基于全局優化[4-7]和基于瞬時優化[8]的發展趨勢。研究中學者們也將能量管理應用到燃料電池汽車上,比如WANG Yujie[9]等提出了基于規則的控制策略,雖然該策略減少了燃料電池的功率波動,但基于規則的控制策略通常依靠經驗值獲得,優化效果有待進一步提高。SUN Haochen[8]等針對3 個動力源的燃料電池汽車,提出了改進的等效燃料消耗最小算法,提高了算法的計算效率,但是基于瞬時優化的控制策略不能保證在整個運行工況內的最優。XU Liangfei[10]等通過改進動態規則(dynamic programming,DP)算法,雖然能夠在已知工況下獲得真正意義上的全局最優解,但是計算量大,計算時間長,使得全局優化的實用性降低,通常只作為評價其他策略的標準。與此同時,也有學者通過智能算法對燃料電池汽車的能量管理問題進行研究,WU Xiaohua[11]等采用凸優化方法對插電式燃料電池汽車(plug-in fuel-cell electric vehicles,PFCEV)的動力源進行優化 ;林歆悠[12]等提出了行駛里程自適應的的控制策略,通過自適應的等效系數來維持PFCEV 的動力電池荷電狀態(state of charge,SOC)平衡;但上述研究大多數都是針對插電式燃料電池汽車,對于以燃料電池為主要動力源、蓄電池為輔助動力源的功率混合型燃料電池汽車研究較少。
等效因子作為影響整車燃油經濟性和維持蓄電池SOC 平衡的重要因素,決定著不同能量源的使用傾向,不少學者對等效因子的確定和優化開展了深入研究。S.Barsali[13]等將發動機的油耗和蓄電池耗費電能的等效油耗統一起來,作為解決實時優化問題的目標函數,提出了恒等效因子的控制策略,并指出等效因子是研究等效燃油消耗最小控制策略的關鍵;ZHENG Qing[14]等考慮到實時優化控制的局限性,通過動態規劃算法在不同工況下對等效因子進行優化求解,與基于規則的控制策略進行對比,表明所提出的等效因子具有良好的控制效果。上述基于等效因子的能量管理策略大多是針對油電式混合動力汽車,而對于燃料電池汽車以經濟性為目標的控制策略,早期的研究多是只考慮燃料電池的耗氫量,沒有引入等效耗氫量的概念,對經濟性的評價并不全面。隨著研究的不斷深入,目前大多數針對燃料電池汽車的能量管理策略都將等效耗氫量考慮在目標函數中,但并沒有對燃料電池消耗的氫量與蓄電池電量消耗和補償的能量等效轉化平衡機理進行深入研究。
因此,本文將以燃料電池為主要動力源、蓄電池為輔助動力源的燃料電池混合動力汽車作為研究對象,基于FCHEV 動力源能量流動平衡機理,構建蓄電池電能轉換為等效耗氫量的等效因子模型,提出基于能量流動平衡機理等效因子的Q 學習算法的能量管理策略,將離線優化和實時應用相結合,離線獲得最優動力源輸出功率,再根據實際工況信息對燃料電池和蓄電池的輸出功率進行實時分配,獲得較好的優化效果,減少等效氫消耗量,提高燃料經濟性,同時維持SOC 平衡。
燃料電池汽車的動力系統結構如圖1 所示,整車主要參數如表1 所示。

表1 整車主要參數

圖1 燃料電池汽車動力系統結構
FCHEV 的能量管理問題,動力系統的功率平衡關系表示為

其中:Pm為電動機需求功率;Pfc為燃料電池輸出功率;ηDC為DC/DC 轉換器效率;Pbat為蓄電池輸出功率。
整車驅動時,駕駛循環只考慮車輛的空氣阻力、加速阻力、滾動阻力,未考慮坡度的影響,因此需求功率Preq、車輪處的轉矩Tw可表示為:

其中:A為迎風面積;v為車速;m為整車質量;g為重力加速度;CD、f、δ分別為空氣阻力因數、滾動阻力因數、旋轉質量換算系數;Fa為加速阻力;Fw為空氣阻力;Ff為滾動阻力;r為車輪半徑。
電動機轉矩Tm和轉速nm為:

其中:ηi為傳動系機械效率;i為主減速比;nw為車輪處的轉速。
電動機功率為

其中:ηm電動機效率,ηm是關于nm和Tm的函數,用實驗數據獲得的電動機效率MAP 圖如圖2 所示。

圖2 電動機效率MAP 圖
研究中選用的燃料電池是Advisor 汽車仿真軟件中的FC_ANL50H2 準靜態氫消耗模型[15-16],耗氫率和效率-輸出功率的關系曲線如圖3 所示。

圖3 燃料電池效率和耗氫率曲線
由圖3 可見,燃料電池的輸出功率在10~40 kW 時,燃料電池處在高效率區內,可獲得更高的工作效率,進而可減少氫的消耗。研究中認為燃料電池運行穩定,燃料電池的氫耗量mfc由燃料電池的功率和對應的效率確定,表示為

其中:Pfc為燃料電池的輸出功率;EH2為氫氣低熱值,EH2=120 kJ/g;ηfc為燃料電池的效率。
采用12Ah 的鋰電池,通過開路電壓與內阻串聯的方式,建立Rint 的等效電路,如圖4 所示。忽略溫度對電池組的影響,蓄電池的充放電內阻,開路電壓只與SOC 有關。

圖4 Rint 等效電路
總線電壓Ub根據Rint 等效電路計算得到,Ub可表示為

其中:Ub為總線電壓;Uocv為蓄電池組開路電壓;Ib為蓄電池電流;Rb為蓄電池內阻。
在蓄電池輸出功率Pbat、內阻Rb、開路電壓Uocv已知的情況下,蓄電池組電流Ib按式(9)計算。

蓄電池的荷電狀態SOC 可表示為

其中,Cb為蓄電池的容量。
蓄電池的瞬時充放電效率ηb可表示為:

將式(9)帶入式(11)得到:

由于車輛實際行駛過程中行駛工況的隨機性,需求功率難以準確預測。Q 學習算法不依賴于已知模型,在處理復雜的系統優化問題時有明顯的優勢。因此,本文基于Q 學習算法,對FCHEV 動力系統動力源的輸出功率進行優化分配,以尋求整個行駛過程中能量消耗最小化。
以車速v、需求功率Preq、SOC 作為狀態變量,燃料電池的輸出功率Pfc、蓄電池的輸出功率Pbat作為動作。由于單純地將燃料電池系統消耗的氫氣或者直接將蓄電池消耗的電能與耗氫量簡單相加作為衡量燃料電池汽車經濟性的標準,都不能真實地反映FCHEV能量的來源和使用的本質,因此,綜合考慮FCHEV 的燃料經濟性和維持SOC 的平衡,選定每一時刻氫氣的實際消耗量mfc和蓄電池等效耗氫量mbat之和,以及引入SOC 懲罰函數作為回報函數,將需求功率轉移概率作為狀態轉移概率。上述各變量表示為:

其中,s為狀態變量;v為車速;Preq為整車需求功率;a為動作變量;Pbat蓄電池輸出功率;Pfc為燃料電池輸出功率;r為回報函數,為關于狀態和動作的函數;mfc為氫氣的消耗量;mbat為蓄電池的等效耗氫量;β為權重系數;SOC(t)為某一時刻蓄電池的荷電狀態值;SOCref為蓄電池荷電狀態的參考值。
為保證燃料電池汽車各部件能夠正常工作,需要對以下參數進行約束:

其中:vmin、vmax分別為最低車速和最高車速;Pbat,min、Pbat,max分別為蓄電池的最小功率和最大功率;Pfc,min、Pfc,max分別為燃料電池的最小功率和最大功率;ΔPfc,min、ΔPfc,max分別為燃料電池輸出功率的變化率下限值和上限值;SOCmin、SOCmax分別為蓄電池荷電狀態的最小值和最大值。
2.2.1 目標函數的建立
Q 學習算法是將狀態-動作的累計回報的最小值作為優化的目標函數,可表示為

其中:π為策略,即在每個狀態s下,指定動作a的概率。即根據已知的狀態,由策略就能得到下一時刻的動作。γ為折扣因子,γ∈[0,1]。
將目標函數轉化為Bellman 方程的形式

其中:Q*為最優Q值;P(s,a,s’)為轉移概率矩陣,s′和a′為下一時刻的狀態和動作。
由公式(16)可知,求解目標函數的關鍵在于對回報函數和狀態轉移概率的獲得。
2.2.2 耗氫量及等效因子的求解
為了綜合反映FCHEV 動力源的瞬時能量消耗水平,需要將燃料電池消耗的氫量與蓄電池耗電量歸為統一的能耗指標。等效因子就是將蓄電池消耗的電能轉化為耗氫量的轉換系數,通過引入等效因子,將蓄電池提供給燃料電池汽車的能量轉換為等效氫量,使得蓄電池的能量與燃料電池系統與氫氣消耗量統一起來度量總的能量消耗。根據蓄電池放電和充電過程中能量轉換的本質來構建充放電時等效因子模型。
當蓄電池處于放電狀態時,SOC 值減小,為了維持SOC 的平衡,需要燃料電池對能量進行補充。圖5為蓄電池放電時能量流動的等效模型圖。其中,Pwh為傳動車輪的功率;Pdc為轉換器的輸出功率;虛線部分表示未來時刻的能量流動路線,在未來某一時刻,燃料電池對蓄電池進行充電,增大燃料電池系統輸出功率,通過DC/DC 轉換器將電能傳遞給蓄電池,對蓄電池的電量進行補償,使得SOC 值增大,來維持SOC 平衡。

圖5 蓄電池放電時能量流等效模型
蓄電池放電時,由于補償充電過程在未來狀態下進行,燃料電池的工作效率、DC/DC 轉換器效率和蓄電池的充電效率未知,因此,上述3 種效率都取均值。蓄電池放電能量與燃料電池補充的能量滿足式(17)所示關系:

其中:Ebat為蓄電池提供的電能;Efc為燃料電池系統內部發生化學反應產生的電能;ηfc,ave為燃料電池的平均工作效率;ηdc,ave為DC/DC 轉換器的平均效率;ηchg,ave為蓄電池的平均充電效率。
根據式(17)的能量守恒關系,單位時間內蓄電池放電時的等效耗氫量mbat可表示為

其中:Pbat為蓄電池的輸出功率;ηdis為蓄電池的放電效率。
同理,蓄電池充電時能量流如圖6 所示。蓄電池處于充電狀態時,為了保持整個能量傳遞過程中的SOC 平衡,在未來時刻,蓄電池將會放電,為燃料電池汽車提供能量,即等同于未來將減少燃料電池的耗氫。其中,虛線部分表示未來時刻蓄電池消耗電能的能量流動路線。

圖6 蓄電池充電時能量流等效模型
蓄電池充電時,由于電能消耗和減少燃料電池耗氫的過程在未來狀態下進行,燃料電池的工作效率、DC/DC 轉換器效率和蓄電池的放電效率未知,因此,上述3 種效率都取均值。蓄電池能量與燃料電池消耗的能量滿足式(19)所示關系。

其中,ηdis,ave為蓄電池的平均工作效率。
根據式(19)的能量關系,單位時間內蓄電池充電過程中的等效耗氫量可表示為

其中,ηchg為蓄電池的充電效率。
將式(18)、(20)合并為

其中,λ為基于動力源能量流動平衡機理的等效因子,表示為:

2.2.3 需求功率轉移概率的求解
車輛行駛過程中,由于實際工況存在著各種不確定性,會導致整車的需求功率Preq存在著隨機性的變化,并且下一時刻的需求功率只與當前時刻的需求功率有關,而與之前的狀態無關,因此可將車輛的需求功率視為Markov 過程,基于Markov 決策過程可以得到需求功率的轉移概率矩陣。
選取城市循環+全球輕型汽車測試循環(urban dynamometer driving schedule+world light vehicle test cycle,UDDS+WLTC)工況作為求解需求功率轉移概率矩陣的歷史工況數據,將車速和需求功率進行離散化處理,得到整車需求功率時間序列如式(23)所示。

當車速為v時,由當前時刻的需求功率Pireq轉移到下一時刻需求功率Pjreq時的狀態轉移概率Pij可表示為

需求功率的轉移概率可通過最鄰近法和最大似然估計法進行求解。

其中,nij為在已知的車速v下,需求功率由Pireq轉移到的轉移次數;ni為在車速v情況下,需求功率Pireq轉移的全部次數。車速為15、35 km/h 時的需求功率轉移概率分布如圖7 所示。

圖7 不同車速的需求功率轉移概率矩陣
基于Q 學習算法的燃料電池汽車能量管理策略主要分為離線優化和Simulink 在線仿真2 大部分,邏輯框圖如圖8 所示。

圖8 基于Q 學習算法的燃料電池汽車能量管理策略邏輯框圖
2.3.1 離線優化
變量設定及狀態轉移概率矩陣的建立。在Markov決策過程中確定狀態v、動作a、回報函數r;通過利用典型行駛工況,求解需求功率的狀態轉移概率Pij,為離線優化過程做準備。
Q 學習算法迭代求解最優動作。Q 學習算法是將狀態、動作對應的Q值儲存在Q 表中,根據Q值的大小選擇回報值最小的動作,通過不斷地迭代學習,最終得到所有狀態的最優動作。Q 學習算法流程圖如圖9 所示。

圖9 Q 學習算法流程圖
該算法的關鍵步驟可分為以下4 步,分別為:
第1 步,對狀態-動作值函數Q(s,a)進行初始化處理,將Q 表中的數值全部設定為0。
第2 步,選擇動作。在探索環境的過程中,為了避免在動作的選擇過程中陷入局部最優,盡可能遍歷所有動作,使得在利用和探索過程中得到平衡。采用ε-greedy 策略作為動作策略,使得在動作的選擇過程中更傾向于選擇狀態-動作的累計回報趨向于最小值的動作。
第3 步,對策略進行改進。采用貪婪策略選擇對應最小的狀態-動作值函數Q(s′,a′)的動作a′。
第4 步,更新Q值。Q 學習算法采用一步預測的方法,對狀態-值函數進行估計,狀態-值函數的更新公式為

對上述過程進行循環迭代,將閾值設置為0.01來判斷相鄰迭代次數的Q值是否收斂,根據收斂后的Q(s,a)表,將最小的Q(s,a)值對應的動作確定為每個狀態的最優策略。通過MATLAB/Simulink 仿真平臺,建立基于Q 學習的能量管理策略仿真模型,在UDDS+WLTC 工況下進行離線仿真,對不同車速、需求功率和SOC 情況下的蓄電池、燃料電池輸出功率進行最優解的求取,圖10 為車速在15、25 km/h 時的蓄電池和燃料電池功率離線優化MAP 圖。
由圖10 可見,車速在15、25 km/h 時的蓄電池和燃料電池功率分配的趨勢相同,并且SOC 對輸出功率的分配影響不大,原因是當SOC 處于優化范圍內時,功率的分配主要受到需求功率的影響。Q學習算法在優化動作時,將時域狀態轉化為空間域,功率的分配將會影響到燃料電池汽車的工作模式。當車速低,需求功率小時,一般由蓄電池提供動力;當需求功率增大時,由燃料電池提供能量。同時,在不同車速下的需求功率范圍不同,車速越高,對應的需求功率范圍就越大。

圖10 不同車速下蓄電池和燃料電池功率優化結果
2.3.2 在線仿真
基于MATLAB/Simulink 平臺建立了FCHEV 的前向仿真模型。分別將WLTC 循環工況和西寧市某路段實際工況數據作為輸入,通過駕駛員模型獲得加速或制動踏板開度信息,根據目標車速獲得需求轉矩,由電機及其控制器得到電動機的需求功率;通過將基于Q學習算法離線優化后的燃料電池、蓄電池的輸出功率的Q 表嵌套到Simulink 在線仿真模型中,在線仿真驗證本文所提出的能量管理策略的有效性和適應性。綜合考慮當前車速、需求功率以及結合當前時刻SOC,采用在線查表的方式,得到每一時刻的蓄電池和燃料電池的輸出功率,實時的獲得最優的功率分配,將動力源的輸出功率通過電動機轉化為FCHEV 實際轉矩、轉速,通過主減速器模塊、整車動力學模塊獲得當前實際車速,并反饋給駕駛員模型,實現FCHEV 在線仿真。
選取WLTC 工況和西寧市某實際路段工況分別對本文所提出能量管理策略的有效性和適應性進行在線仿真驗證。
動態規劃 (DP)算法通過逆向求解、正向尋優2 個過程獲得全局最優的決策序列。在設計能量管理策略時,基于DP 算法的控制策略通常作為評價其他優化算法優劣性的基準[17-18],因此本文選用基于DP 的控制策略和目前應用最廣泛的基于規則的控制策略 (rule based,RB)與本文提出的基于Q 學習算法的控制策略(Q-Learning,QL)進行仿真對比,驗證本文所提方法的有效性。
圖11 為WLTC 循環工況,圖12 是WLTC 工況下不同控制策略的燃料電池和蓄電池輸出功率曲線。由圖12 可知,在相同工況下,與RB 策略相比,QL 和DP策略能夠更好地使燃料電池輸出功率維持在高效率區域,有利于提高整車的經濟性。由表2 給出了不同控制策略的百千米等效耗氫量對比結果。可以看出,本文所提QL 控制策略的等效耗氫量為0.730 kg/(100 km),與RB 策略相比,耗氫量減少了8.57%,同時能夠實現DP 策略93.59%的燃料經濟性,說明了QL 策略具有較好的經濟性,能夠實現近似全局最優的效果。

圖11 WLTC 循環工況

圖12 WLTC 工況下燃料電池和蓄電池不同控制策略的輸出功率對比

表2 WLTP 工況下燃料經濟性對比
從圖13 可以看出,基于RB 的策略下的電池SOC變化曲線下降比較明顯,終端SOC 為0.578,沒有很好的維持電池SOC 均衡。這是由于基于RB 的控制策略是通過專家經驗來設置不同模式之間的切換規則,所設置的規則只是單一的將動力部件的工作點處于經濟性較好的范圍內,只追求經濟性,對于SOC 的變化范圍并未考慮?;赒L 的策略終端SOC 為0.594,十分接近初始值,表明SOC 在合理范圍內波動,能夠維持SOC 均衡,防止過充過放,延長電池使用壽命。究其原因在于基于QL 策略的回報函數中綜合考慮了耗氫量和維持SOC 均衡,利用Q 學習算法來計算得到最優累計回報值對應的動作,該最優動作能在保證SOC 波動不致過大的情況下,最大限度的提高燃油經濟性。以上對比結果證明了基于QL 的策略在維持SOC 平衡和提高燃料經濟性方面具有較好的控制效果,驗證了本文所提控制策略的有效性。

圖13 WLTC 工況下的SOC 變化軌跡圖
在UDDS+WLTC 工況下離線優化后,選取西寧市某路段作為實際工況,根據離線Q 表進行在線仿真,對比3 種算法(即基于動力源能量流動平衡機理的等效因子的動態規劃算法(λvar-DP)、基于平衡機理的等效因子的Q 學習算法的控制策略(λvar-Q)、基于恒等效因子的Q 學習算法控制策略(λcv-Q))的仿真結果,以驗證本文所提λvar-Q 控制策略的工況適應性。
圖14a 為西寧市某段實際工況,其主要包括城市工況和郊區工況2 部分,圖14b、圖14c 為基于3 種控制策略的蓄電池與燃料電池的功率分配曲線。表3 中列出了在西寧某路段實際工況下不同控制策略的燃料經濟性對比數據。

圖14 實際工況下不同控制策略蓄電池和燃料電池輸出功率對比

表3 西寧某路段實際工況下燃料經濟性對比
基于λvar-DP 策略與基于λvar-Q 策略進行對比,蓄電池的功率分配存在差異,燃料電池輸出功率基本相同。主要是因為在城市工況,由于車速較低且存在頻繁啟停,蓄電池提供能量的次數增多,不同控制策略在動作的選擇上存在差異,導致蓄電池的輸出功率不同;在郊區工況下,車速較高且需求功率大,此時燃料電池處于高效率區域,由燃料電池單獨驅動可獲得更好地經濟性,因此2 種策略都傾向于燃料電池單獨驅動。由表3可知基于λvar-Q 策略的100 km 等效耗氫量為0.953 kg,能夠獲得較好的經濟性,與離線優化工況下的耗氫量相近,驗證了本文所提基于λvar-Q 策略的適應性。
基于λvar-Q 策略與基于λcv-Q 策略進行對比,由表3 可知基于λcv-Q 策略100 km 耗氫量為0.971 kg,本文所提基于λvar-Q 策略的100 km 耗氫量為0.952 kg,耗氫量降低2.02%。耗氫量存在差異的原因主要是不同等效因子對蓄電池的功率分配做出了調節。蓄電池的充放電效率會遠遠大于燃料電池的效率,在恒等效因子控制策略中對于能量的分配會更傾向于蓄電池提供能量,因此,從圖15 可見,在蓄電池單獨驅動或者混合驅動時,恒等效因子控制策略SOC下降趨勢更明顯,但燃料電池汽車蓄電池只是作為輔助動力源,對于能量的分配應該更多的傾向于燃料電池,由此可見本文所提出的基于λvar-Q 策略隨著動力電池的充放電效率進行了實時調整,不斷的對2 個動力源的能量分配進行權衡,從而更好地維持SOC 平衡,降低燃料的消耗,獲得更好地經濟性。

圖15 不同控制策略SOC 變化曲線
本文建立了燃料電池混合動力電動汽車能量管理的控制模型,構建了等效耗氫量最小及荷電狀態(SOC)平衡的目標函數,并詳細闡述了燃料電池耗氫量與蓄電池電量消耗和補償的能量轉化平衡機理并由此構建了等效因子模型。提出了一種基于Q 學習算法的能量管理策略,在UDDS 和WLTC 工況下,得到不同車速下的需求功率轉移概率矩陣,通過離線優化的方式獲得燃料電池和蓄電池的最優功率分配。最后在WLTC工況下進行仿真驗證,結果表明,本文所提出的控制策略能夠維持SOC 平衡,且與基于規則的控制策略相比經濟性提高了8.57%,并能夠達到DP 控制策略的93.59%的經濟性,驗證了本文控制策略的有效性。在西寧市某實際工況與動態規則(DP)和基于恒等效因子的控制策略進行對比仿真,所提的控制策略100 km 耗氫量為0.971 2 kg,與恒等效因子策略相比耗氫量減少2.02%,說明所提策略對經濟性有所提高;與基于DP控制策略的耗氫量接近,驗證了提出的基于等效因子的Q 學習算法的適應性。