改進深度Q學習的燃料電池混合動力汽車能量管理

2022-04-20 01:19:42王浩聰付主木孫昊琛陶發展宋書中

河南科技大學學報(自然科學版) 2022年4期

王浩聰，付主木,b，孫昊琛，陶發展,b，宋書中,b

(河南科技大學 a．信息工程學院; b．河南省機器人與智能系統重點實驗室，河南洛陽 471023)

0 引言

傳統內燃機汽車造成的空氣污染和能源危機問題引起人們對新能源汽車的關注，燃料電池混合動力汽車以其零污染、低噪音、續航能力強等優點被認為是最具廣闊前景的新能源汽車[1-2]。能量管理對混合動力汽車的燃料經濟性、能量源使用壽命以及整車動力性起著至關重要的作用[3-5]。近年來，在混合動力汽車研究領域中，多種能量管理系統被提出并應用[6-7]，在實施方法上可分為基于規則[8-10]、基于優化和基于學習的能量管理策略[11]。基于規則的能量管理策略計算量小，魯棒性強，但很難獲得最優功率分配。為此，基于優化的能量管理策略被提出[12-15]，其中，全局優化可以探索全局最優策略，但所需計算量大，不適合處理具有實時性的問題；局部優化具有實時性，但會受到精確車輛模型的準確性或未來行駛條件預測的影響。為解決上述能量管理策略存在的問題，基于學習的方法受到廣泛關注。其中，強化學習作為一種無模型方法，被相關研究證明為適用于探索燃料電池混合動力汽車能量管理的最優策略，具有學習能力強、適應性強、計算資源消耗少的特點[16]。

在以三能量源燃料電池混合動力汽車為對象的研究中，文獻[17]提出基于強化學習的分層能量管理策略，采用基于Q-學習與等效消耗最小策略的方法，兼顧全局優化與局部優化，在提高計算效率的同時獲得更高的燃料經濟性。Q-學習依賴查表矩陣存儲每個狀態-動作對的Q值，然而實際應用中通常需要連續或多維的狀態變量，這導致矩陣的迭代計算量急劇增加，這種由高維數據引發的“維數災難”成為Q-學習在復雜混合動力汽車能量管理優化中亟待解決的問題[18]。

針對上述問題，相關研究人員將神經網絡結構與強化學習相結合，利用其強大的非線性逼近能力來擬合Q值，解決了高位數據帶來的嚴重計算負擔[19-20]，然而深度強化學習在訓練過程中的收斂性與學習效率通常難以保證。因此，本文提出一種基于功率分層與改進深度Q學習的能量管理方法，針對車輛急加減速時的峰值功率，首先采用基于模糊控制的自適應低通濾波器將峰值功率分離，并由超級電容提供或吸收；其次，設計基于深度Q學習的下層能量管理策略，采用等效消耗最小策略設計優化目標函數，為解決深度Q學習收斂性差的問題，引入基于求和樹結構的優先經驗回放法，提高對經驗樣本的學習效率；最后，進行仿真與試驗驗證。

1 能量管理系統

在本次燃料電池混合動力汽車試驗平臺中，燃料電池作為主要能量源，用于承擔車輛的主要功率負載，超級電容與鋰電池作為功率支持裝置與儲能裝置，用于補償瞬態輸出功率并恢復制動能量，提升車輛的整體動力性，能量管理系統的拓撲結構如圖1所示。

圖1 三能量源燃料電池混合動力汽車的拓撲結構

燃料電池與直流母線通過單向直流/直流(direct current/direct current,DC/DC)變換器相連，保證燃料電池工作在高效率范圍內，超級電容與鋰電池經過雙向DC/DC變換器與直流母線連接，輔助燃料電池為車輛提供需求功率。母線與DC/交流(alternating current,AC)逆變器連接，為電機提供所需功率。

2 基于功率分層與深度Q學習的能量管理策略

對燃料電池混合動力汽車能量管理策略的優化可以被視為對馬爾科夫決策過程的求解，深度強化學習作為一種適于求解馬爾科夫問題的無模型方法，通過探索與試錯的方式來最大化累積報酬，從而搜尋在所有潛在狀態下的最優動作。在完成離線優化后，生成最優策略集，可依據當前車輛狀態的輸入獲得能量管理策略的輸出。

2.1 基于模糊濾波的功率分層設計

質子交換膜燃料電池具有高能量密度的優點，但功率密度較低，更適合工作在相對穩定的輸出條件下。為減少瞬時峰值功率的頻率，延長燃料電池的使用壽命，提高其動態性能，本文采用功率分層結構分離車輛峰值功率，由具有高功率密度特性的超級電容來提供。

表1 模糊規則

利用基于模糊控制的自適應低通濾波器對燃料電池混合動力汽車所需功率進行分層處理，模糊推理系統的輸入為車輛當前的需求功率Pdemand，以及綜合電荷狀態(state of charge, SoC)系數SoCESS[17]。模糊規則如表1所示，其中，fs為調節頻率，通過模糊推理系統所得，N, P, S, M, B, Z分別代表(負，正，小，中，大，零)。

2.2 基于深度Q學習的能量管理策略

本文采用深度Q學習算法優化功率分層后的能量管理策略，在訓練階段采用數據驅動的方法對能量管理策略進行訓練。車輛狀態的數據通過汽車電控試驗平臺進行采集，并通過馬爾可夫鏈將需求功率建模為具有已知概率密度函數的隨機變量，采用最近鄰法和最大似然估計法計算轉移概率，根據當前時刻的功率和下一時刻的功率來構造需求功率的轉移概率矩陣，轉移概率由以下公式得出：

(1)

為了避免多目標優化帶來的復雜計算問題，提出了一種基于等效消耗最小策略的獎勵評價機制，以等效氫耗最小為優化目標構建獎勵函數，等效消耗最小策略將鋰電池和超級電容的瞬時電量消耗等效為燃料電池的化學能耗，具體表示如下[21]：

minCtotal(t)=kFCCFC(t)+kBATCBAT(t)+kUCCUC(t)，

(2)

其中：minCtotal(t)為總瞬時最小氫消耗量，包括燃料電池的直接氫消耗量CFC(t)、鋰電池的等效氫消耗量CBAT(t)和超級電容的等效氫消耗量CUC(t)；kFC為使燃料電池以高效率水平運行的燃料電池效率懲罰系數；kBAT和kUC是根據鋰電池和超級電容SoC計算的等效因子。考慮實際能量源的參數，等效消耗最小策略的具體約束如下[17]：

SoC與功率的約束：

(3)

其中：SoCref為鋰電池的參考SoC；SoCBAT.ch與SoCBAT.disch為鋰電池的充放電效率；PFC.min與PFC.max為燃料電池的最小與最大輸出功率；-PBAT與PBAT為鋰電池輸出功率范圍，所有約束邊界均由燃料電池混合動力汽車試驗平臺所得[17]。

在以燃料電池混合動力汽車的燃料經濟性與鋰電池使用壽命為共同優化目標的前提下，所提出深度Q學習算法的獎勵值r通過以下公式計算：

r=Ctotal(t)+κ×(ΔSoC)2，

(4)

其中：Ctotal(t)為瞬時的氫消耗量；ΔSoC為當前鋰電池SoC與基準SoC的偏差；κ為調整系數，目的是使Ctotal(t)與(ΔSoC)2處于同一量級。

深度Q學習是一種離線訓練-在線決策的算法，所提出能量管理策略的離線訓練過程如下。

通過在所有潛在的車輛狀態s下(包括：需求功率Pdemand，車速，鋰電池與超級電容SoC，超級電容輸出功率)利用貪婪策略ε-greedy選取動作(即能量源的功率分配)，再以等效消耗最小策略為主體的獎懲機制中獲得相應狀態-動作下的獎勵值r，并采用概率轉移矩陣預測下一狀態。

深度Q學習中Q值的更新方式如下：

Q(st,a;θ)←Q(st,a;θ)+α[TargetQt-Q(st,a;θ)]；

(5)

(6)

L(θ)=E[(TargetQt-Q(st,a;θ))2]，

(7)

其中：θ為深度Q學習的網絡參數，Q(st,a;θ)為通過神經網絡逼近的當前Q值；TargetQt為目標網絡的Q值；α為學習率；γ∈[0,1]為折扣因子；估計網絡的結構與目標網絡的結構相同，且初始化權重相同，L(θ)為均方誤差函數。在完成離線訓練后，生成決策集，可實現對燃料電池混合動力汽車的實時能量管理。

2.3 基于優先經驗回放的深度Q學習改進

針對深度Q學習中傳統經驗回放方法存在抽樣隨機性較大、學習效率低、大部分樣本獎勵值為0的缺點，采用了一種更有效的經驗提取方法，通過引入求和樹結構的優先經驗回放機制，將每個經驗的優先級值視為一個葉節點，兩個節點作為一個組，向上疊加，樹根的值是所有經驗的優先級值之和。采樣時，首先劃分批次大小區間，從每個區間中隨機采樣，然后逐節點搜索采樣的經驗值，確定最終采樣數據。這種采樣方法可以在無需遍歷經驗池的情況下提取優先級高的樣本，減少計算資源的消耗，提高模型的訓練速度。經驗樣本(st,a,r,st+1)的優先級值由TD-error來表示，TD-error與經驗樣本提取概率pi由以下公式計算得出：

(8)

(9)

當|TD-error|較大時，意味著當前Q函數距離目標Q函數較遠，應進行更多更新。同時采用概率的方式提取經驗，確保即使TD-error為0的經驗也能被提取，避免網絡出現過擬合現象。

引入優先經驗回放后，改進深度Q學習的離線優化過程如下：首先，對經驗池容量、估計網絡Q和目標網絡QTarget的權重θ進行初始化；在迭代訓練時，通過貪婪策略進行動作選擇，并計算TD-error來更新估計網絡與目標網絡的權重；對于歷史樣本數據，采用基于求和樹的方式處理，優先采樣高概率的樣本。

3 仿真實驗及分析

3.1 算法收斂對比分析

圖2 Q值變化趨勢對比

本節中，將基于優先經驗回放深度Q學習與傳統深度Q學習進行比較，通過在Q值變化趨勢上的對比，表明所提出能量管理策略在離線優化過程中的優勢。圖2為兩種算法下Q值的變化趨勢對比圖。由圖2可以看出：在相同的訓練步數下，傳統深度Q學習算法下Q值的初始訓練點較高，且收斂速率較為緩慢，引入優先經驗回放機制后Q值的初始訓練點降低，且收斂程度出現顯著提高，經過10×104次迭代后趨近理想結果。這表明引入優先經驗回放機制將提升深度Q學習的收斂性。

3.2 工況測試下仿真及分析

在本節當中，所提出的能量管理策略在世界輕型車輛試驗程序(world light vehicle test procedure，WLTP)、城市測功機行駛計劃(urban dynamometer driving schedule，UDDS)、新標歐洲循環測試 (new European driving cycle，NEDC)、西弗吉尼亞郊區循環工況(West Virginia university suburban cycle，WVUSUB)4類典型工況下進行仿真，并與傳統深度Q學習進行對比以驗證其有效性。在仿真中，鋰電池和超級電容的初始值SoC被設計為0.7。

圖3為WLTP能量管理策略下燃料電池、鋰電池和超級電容的輸出功率，以及鋰電池和超級電容的SoC變化趨勢。圖3a是WLTP工況的速度變化圖，整段工況約1 800 s。圖3b為功率分配圖，從圖3b中可以看出：燃料電池工作于相對平穩的輸出環境下，輸出功率隨著車速的提升而逐漸增加。當車輛的需求功率因急加減速而出現劇烈波動時，由超級電容主要承擔或吸收這部分峰值功率，鋰電池作為燃料電池與超級電容之間的緩沖能量源，其功率波動在可接受范圍內。從圖3c可以看出：每600 s鋰電池的電量消耗約為5%。圖3d為所提出能量管理策略與基于傳統深度Q學習策略的燃料電池輸出功率對比圖，從圖3d中可以看出：所提出策略可有效提升燃料電池的工作效率。

圖4 UDDS工況下的鋰電池SoC比較

此外，為驗證所提出能量管理策略在延長鋰電池使用壽命上的有效性，本文以基于傳統深度Q學習的策略為對比。仿真結果如圖4所示。在UDDS循環工況中，本文所提出能量管理策略的SoC變化更為穩定，在初始SoC為0.7時，最終SoC下降到0.26，平均電量消耗為每600 s消耗6.4%，而基于傳統深度Q學習的策略最終SoC為0.16，平均電量消耗為每600 s消耗7.8%，所提出策略減少了電量消耗，有效延長了鋰電池的使用壽命。

上述仿真結果充分表明，所提出的能量管理策略能夠實現燃料電池混合動力汽車的能量管理，提高燃料電池工作效率，減少鋰電池電量消耗。本文將傳統深度Q學習策略作為對比方法，通過比較不同循環工況下的等效氫消耗，證明所提出方法在燃料經濟性方面的提升。

表2 燃料經濟性比較

燃料經濟性比較見表2。由表2可知：在WLTP工況條件下，本文所提出能量管理策略在燃料經濟性上與基于深度Q學習方法相比提升3.6%，在UDDS、NEDC和WVUSUB這3種典型工況下平均提升5.1%，在NEDC工況下的提升最為明顯，達到8.3%，表明本文的策略對各種工況條件都具有較好的適應性且優于傳統深度Q學習的策略。

3.3 試驗驗證

為了進一步證明本文能量管理策略的實用性和實時控制性能，本次研究采用以工控機、三相交流電機、燃料電池、鋰電池、超級電容、測功機等構成的試驗平臺進行臺架試驗。在基于LabVIEW的開發環境下，本文的能量管理策略設置在集控系統上。本次試驗平臺使用測功機模擬路面阻力，忽略空氣阻力，通過油門和剎車踏板對車速進行控制。

圖5 試驗工況的車速

圖5為試驗工況的車速。圖6為3種能量源功率分配及SoC變化圖。圖6a為燃料電池、鋰電池與超級電容的功率分配，由圖6a可以看出：在所提出策略的指導下，燃料電池混合動力汽車大部分峰值功率由超級電容提供，燃料電池的輸出平穩，且長時間工作于高效區間。而鋰電池功率波動較超級電容相對平穩，負責補償車輛剩余需求功率。圖6b為所提出策略下鋰電池與超級電容的SoC變化，其中，超級電容因提供或吸收峰值功率的緣故，導致SoC波動較大，而鋰電池的SoC呈緩慢下降趨勢，其電量消耗為每600 s消耗8.4%。

(a) 功率分配 (b) 鋰電池與超級電容SoC變化

4 結束語

(1)考慮到燃料電池、鋰電池及超級電容3種能量源各自工作特性的不同，設計基于功率分層與深度Q學習方法的能量管理策略，以等效消耗最小策略為基礎構建多目標優化函數，并引入基于求和樹結構的優先經驗回放機制用于提升深度Q學習的離線學習效率與收斂性。

(2)與基于傳統深度Q學習的能量管理策略相比，所提出的能量管理策略可提高燃料電池混合動力汽車的整車動力性，并有效延長鋰電池使用壽命，使燃料經濟性平均提升5.1%。

然而，本文設計的能量管理策略旨在滿足車輛動態性能要求和提升燃料經濟性的前提下，對3種能量源進行功率分配優化，但對能量源退化問題沒有深入研究，這將是下一步工作的重點。