基于TD3-PER的氫燃料電池混合動(dòng)力汽車能量管理策略研究*

2024-01-28 04:46:16虞志浩趙又群潘陳兵何鯤鵬李丹陽(yáng)

汽車技術(shù) 2024年1期

關(guān)鍵詞：策略

虞志浩趙又群潘陳兵,2 何鯤鵬,3 李丹陽(yáng)

（1.南京航空航天大學(xué)，南京 210016；2.安徽瑞氫動(dòng)力科技有限公司，蕪湖 241002；3.奇瑞新能源汽車股份有限公司，蕪湖 241000）

主題詞：氫燃料電池混合動(dòng)力汽車優(yōu)先經(jīng)驗(yàn)采樣雙延遲深度確定性策略梯度連續(xù)控制

1 前言

氫燃料具有高能量密度和零污染等優(yōu)點(diǎn)，以氫能源為動(dòng)力的氫燃料電池汽車受到了越來(lái)越多的關(guān)注[1]。但燃料電池存在瞬態(tài)響應(yīng)慢和無(wú)法回收制動(dòng)能量等缺點(diǎn)，通常需要結(jié)合其他電源來(lái)滿足車輛的行駛需求[1-4]。因此，有效的能量管理系統(tǒng)（Energy Management System，EMS）對(duì)不同電源能量的合理分配尤為重要。

目前，能量管理策略主要分為基于規(guī)則的能量管理策略和基于優(yōu)化的能量管理策略[5]。其中，基于規(guī)則的能量管理策略通常根據(jù)車輛行駛條件和車輛動(dòng)力系統(tǒng)設(shè)計(jì)，簡(jiǎn)單實(shí)用[6]，但一般不具有最優(yōu)性，較為依賴專家經(jīng)驗(yàn)[7]。基于貝爾曼（Bellman）理論[8]的動(dòng)態(tài)規(guī)劃（Dynamic Programming，DP）方法作為最具代表性的全局優(yōu)化算法，必須基于駕駛周期的先驗(yàn)信息進(jìn)行優(yōu)化求解，對(duì)不可預(yù)測(cè)和復(fù)雜駕駛條件的適應(yīng)性較差[9]。

隨著人工智能技術(shù)的快速發(fā)展，強(qiáng)化學(xué)習(xí)在混合動(dòng)力汽車能量管理領(lǐng)域得到了廣泛關(guān)注，因其具有自我適應(yīng)、在線學(xué)習(xí)、試錯(cuò)和自我選擇等特點(diǎn)而逐步成為氫燃料電池混合動(dòng)力汽車能量管理的一種有效方法[10-11]。Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)領(lǐng)域的著名算法，Reddy 等[12]采用Q 學(xué)習(xí)算法來(lái)保持鋰離子電池荷電狀態(tài)（State Of Charge，SOC）的穩(wěn)定性，提高了混合動(dòng)力系統(tǒng)的效率。然而，Q學(xué)習(xí)算法在連續(xù)或多維狀態(tài)空間中會(huì)大幅增加迭代計(jì)算次數(shù)。Wu等[13]進(jìn)一步將深度Q學(xué)習(xí)算法應(yīng)用于混合動(dòng)力電動(dòng)汽車的能量管理策略，與Q學(xué)習(xí)算法相比，該算法在模擬時(shí)間和收斂速度方面具有更好的性能，但其控制量需要降維和離散處理，進(jìn)而使得控制精度下降。針對(duì)控制量離散的問(wèn)題，Zhang 等[14]提出了一種基于深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）的能量管理策略，進(jìn)一步提高了燃料經(jīng)濟(jì)性，但該策略存在動(dòng)作值過(guò)優(yōu)估計(jì)的現(xiàn)象，進(jìn)而導(dǎo)致訓(xùn)練不穩(wěn)定等問(wèn)題。

針對(duì)上述問(wèn)題，同時(shí)為進(jìn)一步提高車輛燃料經(jīng)濟(jì)性、改善電池SOC 保持效果，本文提出基于優(yōu)先經(jīng)驗(yàn)采樣的雙延遲深度確定性策略梯度（Twin Delayed Deep Deterministic policy gradient with Prioritized Experience Replay，TD3-PER）氫燃料電池混合動(dòng)力汽車能量管理策略。采用雙延遲深度確定性策略梯度（Twin Delayed Deep Deterministic policy gradient，TD3）算法防止訓(xùn)練過(guò)優(yōu)估計(jì)并更精準(zhǔn)地進(jìn)行連續(xù)控制，采用優(yōu)先經(jīng)驗(yàn)采樣（Prioritized Experience Replay，PER）算法在獲得更好優(yōu)化性能的基礎(chǔ)上加速策略的訓(xùn)練。

2 氫燃料電池汽車動(dòng)力系統(tǒng)建模

本文所研究的燃料電池汽車動(dòng)力系統(tǒng)型式為并聯(lián)式，即燃料電池和鋰離子電池分別通過(guò)DC/DC變換器和DC/AC 變換器與功率總線相連，2種動(dòng)力源均可單獨(dú)為驅(qū)動(dòng)電機(jī)供電。動(dòng)力傳動(dòng)系統(tǒng)由燃料電池系統(tǒng)、鋰離子電池、驅(qū)動(dòng)電機(jī)、DC/DC變換器、DC/AC變換器、主減速器等組成，具體結(jié)構(gòu)如圖1所示，整車主要參數(shù)如表1所示。

圖1 氫燃料電池汽車動(dòng)力系統(tǒng)構(gòu)型

燃料電池系統(tǒng)在通過(guò)單向DC/DC 變換器后與總線相連，而不是直接與總線連接，避免了燃料電池系統(tǒng)電壓因負(fù)載變化受到影響，對(duì)于延長(zhǎng)燃料電池系統(tǒng)使用壽命及提高其效率具有良好的效果。通常，為降低功率相同時(shí)的電流損耗，燃料電池系統(tǒng)的輸出電壓會(huì)低于總線電壓，所以DC/DC 變換器一般為升壓變換器。在功率波動(dòng)相同時(shí)，低壓側(cè)電壓波動(dòng)更為平緩，因此有利于燃料電池系統(tǒng)工作效率的提高。而鋰電池由于其電壓波動(dòng)允許范圍較大，故可直接將其與總線并聯(lián)。此系統(tǒng)構(gòu)型兼顧了結(jié)構(gòu)簡(jiǎn)單與可靠性，具有很強(qiáng)的可控性，已得到廣泛應(yīng)用[14]，滿足本文要求。

2.1 氫燃料電池混合動(dòng)力汽車的需求功率

在工況已知時(shí)，總需求功率Pr可由車輛的動(dòng)力學(xué)平衡方程計(jì)算得出：

式中，M為整車總質(zhì)量；g、f、v分別為重力加速度、滾動(dòng)阻力系數(shù)和車速；α=0為道路坡度；ρ為空氣密度；Af為迎風(fēng)面積；CD為空氣阻力系數(shù)；δ=1 為質(zhì)量系數(shù)；a為車輛加速度；Preq、Pm、Pfc、Pbatt分別為車輛的驅(qū)動(dòng)功率、電機(jī)需求功率、燃料電池和鋰離子電池的輸出功率；ηmotor、ηfc分別為電機(jī)的效率和燃料電池的效率。

2.2 氫燃料電池系統(tǒng)模型

氫燃料電池組是燃料電池混合動(dòng)力汽車的主要?jiǎng)恿υ矗ㄟ^(guò)電化學(xué)反應(yīng)將化學(xué)能轉(zhuǎn)化為電能。受一些部件的啟動(dòng)特性和物理特性影響，氫燃料電池組在低功率范圍內(nèi)的效率較低，而在高功率范圍內(nèi)效率仍會(huì)降低。氫耗Cfc和燃料電池效率ηfc的計(jì)算方程為：

式中，Ncell為氫燃料電池組中電池的數(shù)量；M(H2)=2 g/mol為氫氣的摩爾質(zhì)量；F為達(dá)拉第常數(shù)；Istack為燃料電池電流；λ=1.05 為氫過(guò)量比；m為氫的質(zhì)量變化量；Lhv=120 mJ/kg為氫的熱值。

能量管理策略對(duì)燃料電池組的壽命具有重要影響[15]，包括催化劑損失、燃料滲透和質(zhì)子交換膜降解等方面。其中，燃料電池組降解率直接關(guān)系到電壓的衰減，Pu等[16]提出了單個(gè)燃料電池的電壓退化模型。燃料電池退化經(jīng)驗(yàn)公式為：

式中，Dfc為燃料電池退化率；t1、t2分別為高負(fù)荷、低負(fù)荷運(yùn)行時(shí)間；k1、k2、k3分別為高負(fù)荷、低負(fù)荷和負(fù)荷變化引起的退化率；Phigh、Plow分別為燃料電池組輸出功率的最大值和最小值；Pt、Pt+1分別為燃料電池組的即時(shí)輸出功率和下一時(shí)刻的輸出功率。

2.3 鋰離子電池模型

鋰離子電池具有能量密度高、自放電率低和壽命長(zhǎng)等優(yōu)點(diǎn)，是燃料電池混合動(dòng)力汽車的理想輔助電源。鋰離子電池采用Rint內(nèi)阻等效電路模型：

式中，Pbatt(t)、Voc(t)、R0、I(t)分別為鋰離子電池的功率、開路電壓、內(nèi)阻和電流；SSOC(t)為電池的荷電狀態(tài)；Q0、Q分別為鋰離子電池的初始容量和額定容量。

為了更好地反映車輛在行駛過(guò)程中的燃料消耗量，鋰離子電池當(dāng)量氫消耗量Cbatt可表示為：

式中，ηDC=0.9為DC/DC變換器效率；ΔH=240 kJ/mol為氫的低熱值；η1=0.9為鋰離子電池的放電、充電效率。

3 基于TD3-PER算法的能量管理策略設(shè)計(jì)

3.1 TD3-PER算法

TD3 是由Scott Fujimoto 等人在DDPG 算法基礎(chǔ)上改進(jìn)得到的一種用于解決連續(xù)控制問(wèn)題的在線（On-Line）異策（Off-Policy）式深度強(qiáng)化學(xué)習(xí)算法，深度強(qiáng)化學(xué)習(xí)框架如圖2所示。

圖2 深度強(qiáng)化學(xué)習(xí)框架

TD3 算法是演員-評(píng)論家（Actor-Critic，AC）框架下的一種確定性深度強(qiáng)化學(xué)習(xí)算法，其中策略網(wǎng)絡(luò)（Actor）以車輛的狀態(tài)作為輸入并根據(jù)網(wǎng)絡(luò)參數(shù)輸出控制動(dòng)作，評(píng)價(jià)網(wǎng)絡(luò)（Critic）用于評(píng)價(jià)策略網(wǎng)絡(luò)所執(zhí)行動(dòng)作的優(yōu)劣。TD3 算法能同時(shí)處理連續(xù)動(dòng)作空間和策略值函數(shù)過(guò)優(yōu)估計(jì)的問(wèn)題，圖3所示為TD3算法框架。

圖3 TD3算法框架

TD3算法中包括6個(gè)網(wǎng)絡(luò)，分別是Actor網(wǎng)絡(luò)μ(·|θμ)、Critic1 網(wǎng)絡(luò)、Critic2 網(wǎng)絡(luò)、Actor 目標(biāo)網(wǎng)絡(luò)、Critic1 目標(biāo)網(wǎng)絡(luò)、Critic2 目標(biāo)網(wǎng)絡(luò)。TD3算法建立了2個(gè)獨(dú)立的Critic網(wǎng)絡(luò)，在計(jì)算目標(biāo)值時(shí)取二者中的較小值，從而抑制網(wǎng)絡(luò)過(guò)估計(jì)問(wèn)題：

式中，Rt為t時(shí)刻即時(shí)獎(jiǎng)勵(lì)；γ為折扣因子；yt為累計(jì)獎(jiǎng)勵(lì)；St+1為(t+1)時(shí)刻狀態(tài)；A為加入噪聲后的目標(biāo)動(dòng)作。

確定性策略存在一個(gè)問(wèn)題，即會(huì)過(guò)度擬合以減小價(jià)值估計(jì)中的峰值。當(dāng)更新Critic 網(wǎng)絡(luò)時(shí)，使用確定性策略的學(xué)習(xí)目標(biāo)極易受到函數(shù)逼近誤差的影響，從而導(dǎo)致目標(biāo)估計(jì)的方差偏大，估計(jì)值不準(zhǔn)確。這種誘導(dǎo)方差可以通過(guò)正則化來(lái)減小，在實(shí)際操作時(shí)為向目標(biāo)動(dòng)作中添加服從截?cái)嗾龖B(tài)分布的噪聲ε：

式中，c為截?cái)嘀担沪覟闃?biāo)準(zhǔn)差。

將式（6）代入貝爾曼方程，計(jì)算損失函數(shù)：

式中，M為Critic網(wǎng)絡(luò)更新周期；θQk為Critic網(wǎng)絡(luò)的權(quán)重參數(shù)；At為t時(shí)刻動(dòng)作。

目標(biāo)函數(shù)為：

式中，θμ為Actor 網(wǎng)絡(luò)的權(quán)重參數(shù)；Eπ為執(zhí)行策略π得到的期望回報(bào)。

Critic 網(wǎng)絡(luò)的權(quán)重參數(shù)θQk通過(guò)梯度下降法最小化損失函數(shù)L(θQk)來(lái)更新：

式中，?為權(quán)重參數(shù)的梯度；E為期望回報(bào)。

Actor 網(wǎng)絡(luò)參數(shù)θμ的在線更新通過(guò)梯度上升法使Q值關(guān)于θμ迭代增加：

式中，N為樣本數(shù)量；π為執(zhí)行策略。

由于Actor網(wǎng)絡(luò)通過(guò)最大化累積期望回報(bào)來(lái)更新，它需要利用Critic網(wǎng)絡(luò)進(jìn)行評(píng)估。如果Critic網(wǎng)絡(luò)非常不穩(wěn)定，則Actor網(wǎng)絡(luò)也會(huì)出現(xiàn)振蕩。因此，可使Critic網(wǎng)絡(luò)的更新頻率高于Actor網(wǎng)絡(luò)的更新頻率，即等待Critic網(wǎng)絡(luò)更加穩(wěn)定后再幫助Actor網(wǎng)絡(luò)更新，通過(guò)延遲更新（Delayed Update）的方式保證Actor網(wǎng)絡(luò)的訓(xùn)練更加穩(wěn)定。

目標(biāo)網(wǎng)絡(luò)的更新采用軟更新方式，引入學(xué)習(xí)率τ，將舊的目標(biāo)網(wǎng)絡(luò)參數(shù)和新的對(duì)應(yīng)網(wǎng)絡(luò)參數(shù)進(jìn)行加權(quán)平均，然后賦值給目標(biāo)網(wǎng)絡(luò)：

為使網(wǎng)絡(luò)訓(xùn)練速度更快、效果更好，本文利用PER算法，并結(jié)合訓(xùn)練經(jīng)驗(yàn)賦予一定的權(quán)重，如在交互過(guò)程中對(duì)表現(xiàn)較差的片段賦予更高權(quán)重，使這些片段被網(wǎng)絡(luò)重新學(xué)習(xí)的概率更高，從而大幅提高模型的學(xué)習(xí)效率。本文通過(guò)時(shí)序差分誤差（Temporal Difference error，TDerror）的絕對(duì)值|σ|對(duì)片段的重要性進(jìn)行表征，|σ|越大，表示該片段的重要程度越高：

式中，Q′(St+1,At+1)為根據(jù)(t+1)時(shí)刻的狀態(tài)值St+1、動(dòng)作值A(chǔ)t+1和網(wǎng)絡(luò)參數(shù)θQ′得到的目標(biāo)Q網(wǎng)絡(luò)的Q值；Q(St,At)為根據(jù)t時(shí)刻的狀態(tài)值St、動(dòng)作值A(chǔ)t和網(wǎng)絡(luò)參數(shù)θQ得到的目標(biāo)Q網(wǎng)絡(luò)的Q值。

將經(jīng)驗(yàn)樣本依據(jù)|σ|排序，得到樣本m的序列r(m)，進(jìn)而獲得優(yōu)先級(jí)指標(biāo)Dm：

然而，直接采用上述采樣方式會(huì)造成貪婪抽樣，使得初始|σ|較小時(shí)在較長(zhǎng)時(shí)間段內(nèi)不被抽樣，以及|σ|較大時(shí)被高頻重復(fù)抽樣等問(wèn)題，繼而影響樣本多樣性。針對(duì)此問(wèn)題，本文采用貪婪抽樣與均勻采樣相結(jié)合的方式，設(shè)定經(jīng)驗(yàn)池中每個(gè)樣本m的采樣概率P(m)為：

式中，Dm為第m個(gè)樣本的優(yōu)先級(jí)指標(biāo)；α為超參數(shù)，均勻抽樣時(shí)α=0，貪婪抽樣時(shí)α=1，2 種采樣結(jié)合時(shí)α∈(0,1)；V為樣本池大小。

另一方面，使用PER 算法后，可能導(dǎo)致樣本分布改變，進(jìn)而使模型收斂到不同的值。針對(duì)此問(wèn)題，本文引入重要性采樣，使每個(gè)樣本以不同概率被選取，并在提升訓(xùn)練速度的基礎(chǔ)上，保障對(duì)梯度下降的相同影響，從而解決模型收斂的問(wèn)題。重要性采樣中樣本m的權(quán)重Wm為：

式中，N為經(jīng)驗(yàn)池中的樣本數(shù)量；β∈[0,1]為超參數(shù)，用來(lái)表征PER算法對(duì)收斂結(jié)果的影響程度，β=1時(shí)PER算法對(duì)收斂結(jié)果無(wú)任何影響。

3.2 基于TD3-PER算法的能量管理策略

本文選取車速v、車輛加速度a和電池荷電狀態(tài)SSOC作為狀態(tài)變量，即St={v,a,SSOC}，動(dòng)作變量At為燃料電池系統(tǒng)輸出功率。文獻(xiàn)[17]揭示了輸出功率波動(dòng)會(huì)極大地影響燃料電池的壽命，為了最大限度地減少氫消耗，防止鋰離子電池的過(guò)度充電和過(guò)度放電，并延長(zhǎng)燃料電池的壽命，本文將獎(jiǎng)勵(lì)函數(shù)定義為：

式中，χ、β、ω分別為氫耗量、鋰電子電池SOC維持、燃料電池系統(tǒng)輸出功率變化的權(quán)重；SSOCref為SOC 的參考值（本文取0.65）。

氫燃料電池汽車為能量管理策略中的環(huán)境，智能體根據(jù)汽車狀態(tài)St和智能體中的策略π*在每一步為車輛選擇一個(gè)動(dòng)作At，車輛反饋即時(shí)獎(jiǎng)勵(lì)Rt和下一刻狀態(tài)St+1。將(St,At,Rt,St+1)存入經(jīng)驗(yàn)池（Replay Buffer），形成歷史數(shù)據(jù)，經(jīng)驗(yàn)池的使用可以有效消除相鄰狀態(tài)間的相關(guān)性。為提高網(wǎng)絡(luò)的收斂速度和訓(xùn)練效果，采用優(yōu)先經(jīng)驗(yàn)采樣的方式從經(jīng)驗(yàn)池中抽取歷史數(shù)據(jù)在智能體的網(wǎng)絡(luò)中進(jìn)行訓(xùn)練，同時(shí)，智能體在與環(huán)境的交互中不斷調(diào)整網(wǎng)絡(luò)權(quán)重得到最優(yōu)策略π*。

4 仿真與驗(yàn)證

為了驗(yàn)證TD3-PER算法在燃料電池混合動(dòng)力車輛的燃料消耗、鋰電子電池SOC維持和減少輸出功率波動(dòng)方面的性能，在新歐洲駕駛循環(huán)（New European Driving Cycle，NEDC）工況下應(yīng)用TD3-PER 算法進(jìn)行仿真分析，并將其與基于DDPG 算法的能量管理策略進(jìn)行對(duì)比。TD3-PER算法的主要超參數(shù)如表2所示。

表2 TD3-PER算法主要超參數(shù)

在深度強(qiáng)化學(xué)習(xí)的迭代過(guò)程中，將獎(jiǎng)勵(lì)均值作為收斂標(biāo)準(zhǔn)和性能評(píng)價(jià)指標(biāo)。訓(xùn)練初期，智能體會(huì)不斷探索未知的環(huán)境以獲得更好的訓(xùn)練效果；隨著訓(xùn)練的進(jìn)行，智能體會(huì)更傾向于選擇獎(jiǎng)勵(lì)更高的動(dòng)作，使得獎(jiǎng)勵(lì)均值逐漸收斂。2 種算法的獎(jiǎng)勵(lì)均值如圖4 所示，基于TD3-PER 算法與基于DDPG 算法的能量管理策略分別在第360步和第620步左右收斂，并且TD3-PER算法的獎(jiǎng)勵(lì)均值波動(dòng)更小，訓(xùn)練效果更為穩(wěn)定。可以看出，與DDPG算法相比，TD3-PER算法具有更快的收斂速度，且訓(xùn)練效果更好。因此，TD3-PER算法可以通過(guò)較少的迭代，快速優(yōu)化燃料消耗量并緩解燃料電池堆的功率波動(dòng)。

圖4 TD3-PER算法和DDPG算法的獎(jiǎng)勵(lì)均值

NEDC 工況車速如圖5 所示，2 種策略燃料電池系統(tǒng)輸出功率、鋰離子電池輸出功率和鋰離子電池SOC的比較結(jié)果如圖6所示，不同策略下的燃料經(jīng)濟(jì)性與平均功率波動(dòng)差異對(duì)比結(jié)果如表3所示。

表3 不同策略下的燃料經(jīng)濟(jì)性與平均功率波動(dòng)對(duì)比

圖5 NEDC工況車速

圖6 TD3-PER算法和DDPG算法下燃料電池系統(tǒng)輸出功率、鋰離子電池輸出功率及鋰離子電池SOC

由表3可知，將整個(gè)循環(huán)工況氫耗總量等比例換算為百公里氫耗量后，TD3-PER策略相較于DDPG策略百公里氫耗量降低了7.56%，有效提高了燃料經(jīng)濟(jì)性。由于在設(shè)置獎(jiǎng)勵(lì)函數(shù)時(shí)將燃料電池功率變化也考慮在內(nèi)，在對(duì)策略進(jìn)行優(yōu)化時(shí)，TD3-PER算法能在保證動(dòng)力性的同時(shí)限制燃料電池功率的劇烈變化，從圖6a中可以看出，TD3-PER策略的燃料電池系統(tǒng)功率輸出相較于DDPG策略更為平緩，同時(shí)從表3的對(duì)比結(jié)果可以看出，TD3-PER策略平均功率波動(dòng)相比DDPG策略降低了6.49%，這表明基于TD3-PER算法的能量管理策略能夠有效降低動(dòng)態(tài)加載工況對(duì)燃料電池使用壽命的影響，從而提高車輛耐久性。

由圖6b可知，鋰離子電池作為二次電源，在高車輛負(fù)載和需求功率瞬時(shí)變化時(shí)可快速響應(yīng)，實(shí)現(xiàn)緩解功率波動(dòng)并延長(zhǎng)燃料電池組壽命的作用。本文在設(shè)置獎(jiǎng)勵(lì)函數(shù)時(shí)還考慮了鋰離子電池SOC的維持因子，以保證較為穩(wěn)定的鋰離子電池工作狀態(tài)。由圖6c 可以看出，TD3-PER策略的SOC曲線在整個(gè)工況區(qū)間內(nèi)波動(dòng)相較于DDPG策略更為平緩，有效抑制了鋰離子電池過(guò)充或過(guò)放，能夠提高鋰離子電池壽命。

為了驗(yàn)證不同算法在NEDC 工況下的燃料電池壽命和鋰電池壽命，本文分別以燃料電池的累積退化與鋰電池的老化作為燃料電池壽命與鋰電池壽命的評(píng)估指標(biāo)，對(duì)TD3-PER 算法和DDPG 算法下的壽命進(jìn)行了比較，結(jié)果如圖7所示。

圖7 TD3-PER算法和DDPG算法下燃料電池和鋰電池壽命

在NEDC 工況循環(huán)結(jié)束時(shí)：基于TD3-PER 算法和DDPG 算法的燃料電池累計(jì)退化分別為0.002 29%和0.002 62%，基于TD3-PER 算法的燃料電池累計(jì)退化比DDPG 算法低12.6%；基于TD3-PER 算法和DDPG 算法的鋰電池老化分別為0.018 9%和0.021 5%，基于TD3-PER算法的鋰電池老化比DDPG算法低12.1%。由此可以看出，相比于DDPG 算法，TD3-PER 算法在提高燃料電池壽命及鋰電池壽命方面表現(xiàn)更好。

5 結(jié)束語(yǔ)

本文提出了一種基于TD3-PER算法的氫燃料電池混合動(dòng)力汽車能量管理策略，并在NEDC工況下對(duì)基于TD3-PER算法的能量管理策略在燃料電池混合動(dòng)力車輛的燃料經(jīng)濟(jì)性、鋰電子電池SOC維持和減少輸出功率波動(dòng)方面的性能，得到以下結(jié)論：

a.與DDPG算法相比，TD3-PER算法能在更短的訓(xùn)練步數(shù)內(nèi)完成收斂，且訓(xùn)練效果更為穩(wěn)定，在一定程度上提高了優(yōu)化效率及效果。

b.TD3-PER 策略相較于DDPG 策略百公里氫耗量降低了7.56%，有效提高了燃料經(jīng)濟(jì)性。

c.TD3-PER策略的SOC在整個(gè)工況區(qū)間內(nèi)波動(dòng)相較于DDPG策略更為平緩，有效抑制了鋰離子電池過(guò)充或過(guò)放，提高了鋰離子電池壽命。同時(shí)，TD3-PER策略平均功率波動(dòng)相比DDPG策略降低了6.49%，表明基于TD3-PER算法的能量管理策略能夠有效降低動(dòng)態(tài)加載工況對(duì)于燃料電池使用壽命的影響，從而提高車輛耐久性。

為使TD3-PER算法更好地適應(yīng)復(fù)雜的行駛工況，下一步工作將對(duì)在線更新網(wǎng)絡(luò)參數(shù)開展研究，以進(jìn)一步提高TD3-PER算法對(duì)復(fù)雜工況的適應(yīng)性和整車燃料經(jīng)濟(jì)性。