基于強化學習的多燃燒模式混合動力能量管理策略*

2021-06-09 15:18:34范欽灝

汽車工程 2021年5期

張昊，范欽灝，王巍，黃晉，王志

（清華大學，汽車安全與節能國家重點實驗室，北京100084）

前言

高效清潔燃燒技術與混合動力技術的結合是乘用車滿足未來法規的有效途徑［1］。融合了均質混合氣壓燃著火（homogeneous charge compression ignition，HCCI）與火花點火（spark ignition，SI）的HCCI∕SI多燃燒模式混合動力系統，具有顯著的節能減排前景。即在中小負荷下利用HCCI燃燒模式的低燃油消耗率和超低排放優勢，而在大負荷下切換至傳統火花點火（SI）燃燒模式，避免發生失火和爆震等異常燃燒現象［2］，得到了國內外學者的廣泛研究。Ahn等利用HCCI∕SI多模燃燒發動機的穩態MAP建立了車輛模型，在多種循環工況下驗證了這種先進燃燒模式對整車燃油經濟性的提升［3］。Benajes等對一款搭載多燃燒模式發動機的并聯式混合動力汽車進行了仿真分析，得出隨著動力總成混合程度的提升，整車燃油消耗顯著降低的結論［4］。Gao等利用數值模擬方法研究了采用多模燃燒的混合動力系統，結果表明配備多燃燒模式發動機的混合動力總成，較配備傳統發動機的混合動力總成具有更大的節能潛力［5］。

在多模燃燒混合動力系統中，發動機在相同的功率需求下可以選擇不同的燃燒模式，其能量管理是一個多變量、強耦合的非線性時變系統。最優的能量管理策略能夠高效地控制動力系統的功率流動和發動機的燃燒模式，充分發揮HCCI∕SI多燃燒模式的優勢并提高其運行穩定性，獲得最佳的整車性能。針對搭載HCCI∕SI多燃燒模式發動機的混合動力汽車，設計與之相匹配的能量管理策略，從而優化動力總成的工作特性，是當下多燃燒模式混合動力系統亟待研究的核心技術之一。Musardo等針對多模燃燒混動系統，仿真驗證了自適應等效燃油消耗最小策略（adaptive?equivalent fuel consumption minimiation strategy，A?ECMS），證明了與燃燒模式相匹配的能量管理策略能更充分地發揮發動機節能減排潛力［6］。在此基礎上，García等將分別以油耗和排放為目標的兩種A?ECMS算法應用于多模燃燒并聯式混合動力系統中，驗證了A?ECMS在油耗和排放方面優于基于規則的控制策略，并指出需要研發適用于多模燃燒混合動力系統的專用能量管理策略［7］。需要注意的是，以上研究都假設了燃燒模式切換過程是瞬間完成的，即混動模型中忽略了切換過程產生的額外燃油和排放損失。然而，能量管理的實際效果與車輛模型準確度緊密相關，Nüesch等的研究表明HCCI∕SI燃燒模式的切換會造成瞬態燃燒和排放惡化，因此提出了一種考慮HCCI∕SI切換過程中瞬態燃油和排放損失的發動機模型［8］。同時，針對一款搭載HCCI∕SI多模燃燒的48 V輕度混合動力汽車，提出了基于燃燒模式切換懲罰的ECMS算法，通過數值模擬證明了該算法能夠有效避免燃燒模式的頻繁切換［9］。

基于規則和基于最優控制的多燃燒模式混合動力能量管理策略，通常需要建立精確的控制模型并進行標定，比如A?ECMS算法中對油電等效因子的估計模型等［10］。這加大了能量管理策略的制定難度，并且難以保證對多模燃燒發動機工況點的優化效果，而基于深度強化學習的方法可以較好地解決這一問題［11］。本文中以搭載多燃燒模式發動機的功率分流型混合動力汽車為研究對象，依據HCCI∕SI發動機臺架試驗數據和電機有限元仿真結果，建立了基于MAP的多燃燒模式混合動力汽車模型，并利用有限狀態機引入HCCI∕SI切換的瞬態油耗懲罰。定義了以燃燒模式切換頻率、油耗和SOC波動為指標的獎勵函數，提出了基于深度強化學習（deep reinforcement learning，DRL）的能量管理策略。將整車作為環境，訓練基于深度Q網絡（deep Q?network，DQN）的能量管理智能體。利用深度神經網絡對能量管理策略集進行儲存，解決了強化學習因數據存儲維數過多導致訓練困難的問題。同時，基于優先經驗回放機制，優先回放對于能量管理策略訓練更有價值的經驗，使智能體更快適應環境，提升了DRL算法的收斂速度。最后，在WLTC和NEDC工況下與基于規則的控制策略、A?ECMS策略和動態規劃結果進行仿真對比，驗證所提出策略在減少燃燒模式切換頻率和提升燃油經濟性方面的有效性。

1 多燃燒模式混合動力系統建模

本文所研究的多燃燒模式混合動力汽車的動力系統為功率分流構型，如圖1所示。主要由驅動電機、發電機、多模燃燒發動機、動力傳動機構、動力電池組、功率變換單元和相應的控制器組成，主要參數見表1。

圖1 整車動力傳動系統結構圖

表1 整車參數

1.1 發動機臺架試驗與模型

本文采用一臺4缸直噴汽油機進行了HCCI∕SI多燃燒模式的切換試驗，臺架系統如圖2所示，發動機主要參數見表2。其中，空燃比測量裝置采用ABM?10型空燃比儀，通過ECU進行閉環控制。

圖2 HCCI∕SI發動機試驗臺架示意圖

表2 試驗發動機參數

HCCI∕SI多燃燒模式發動機的臺架試驗結果如圖3所示，該萬有特性圖顯示了兩種燃燒模式的性能和運行區域。其中，HCCI采用稀薄燃燒，實現了較好的節油效果，其轉矩范圍為13～67 N·m，轉速范圍為1 300～2 700 r∕min。同時，由于其燃燒溫度低，因此NOx排放極低，而HC和CO排放則通過在富氧條件下采用三效催化器處理。SI燃燒的轉矩運行范圍為20～175 N·m，適合工作在理論空燃比附近，從而保證三效催化器高效運行。為防止頻繁切換，采用了滯回控制，圖3中的白色圓圈表示臺架試驗中兩種燃燒模式的切換點。

圖3 HCCI∕SI發動機萬有特性圖

HCCI∕SI的切換采用分步方法實現，即單獨控制節氣門和配氣相位的動作，通過損失一定程度的燃油經濟性和排放性能，換取HCCI∕SI的平穩切換。由HCCI燃燒向SI燃燒切換時，首先減小節氣門開度，然后將配氣相位由HCCI燃燒的負閥重疊（negative valve overlap，NVO）切換為正閥重疊（positive valve overlap，PVO）。當向HCCI模式切換時，則先將配氣相位切換至NVO相位，接著保持節氣門全開，避免節氣門和配氣相位對氣流影響的耦合，大幅降低控制難度。基于臺架試驗獲得的HCCI∕SI發動機萬有特性圖，建立了基于MAP的多燃燒模式發動機模型，并令發動機沿最佳燃油消耗曲線運行。同時，利用有限狀態機引入切換過程的瞬態油耗懲罰，如圖4所示，其中kp是對當前BSFC的懲罰系數，如kp=1.1表示增加10%的油耗，nc表示懲罰系數作用的發動機工作循環數。

圖4 基于有限狀態機的瞬時油耗懲罰

1.2 電機有限元分析與模型

根據電機參數在Ansys Maxwell軟件中建立了驅動電機和發電機的有限元模型，見圖5，其結構與Prius的永磁同步電機（permanent magnet synchro?nous machine，PMSM）保持一致。利用Toolkits插件導出如圖6和圖7所示電機效率特性圖，建立基于MAP數據的驅動電機和發電機模型用于整車仿真。

圖5 永磁同步電機的有限元模型

圖6 驅動電機效率特性圖

圖7 發電機效率特性圖

1.3 動力電池組模型

動力電池采用內阻-開路模型，本文忽略電池組溫升及其對電池內阻的影響，其數學模型如式（1）~式（3）所示。

式中：SOC為電池荷電狀態；S O C0為電池初始荷電狀態；C為電池組容量；t為時間；Ibat為電池組放電電流；Uoc為電池組開路電壓；Rbat為電池組內阻；Pbat為電池組功率。

1.4 整車縱向動力學模型

如圖3所示，驅動電機、發電機和發動機分別與行星齒輪的齒圈、太陽輪和行星架相連。行星齒輪將發動機的部分轉矩傳遞給發電機，其余部分轉矩用于直接驅動車輛。根據車輛行駛過程中的動力學平衡關系，以及行星齒輪的轉速、轉矩關系，建立功率分流型混合動力汽車的縱向動力學模型，如式（4）~式（7）所示。

式中：Tdem為車輛行駛的需求轉矩；TEM、TG和TICE分別為驅動電機、發電機和發動機的輸出轉矩；ωEM、ωG和ωICE分別為驅動電機、發電機和發動機的角速度；α為行星齒輪齒比；i為主減速器速比；r為車輪半徑；m為整車質量；A為車輛迎風面積；v為車輛行駛速率；t為時間；f為滾動阻力系數；γ為路面傾角；g為當地重力加速度；ρ為空氣密度；CD為空氣質量系數。

2 基于DRL的能量管理策略

Q學習是強化學習的一個分支，是一種基于價值的學習方法，包括環境與智能體兩個實體。通過使智能體在與環境交互的過程中，所做出一系列動作的回報最大，從而建立最優的動作策略集。深度Q網絡算法是深度學習和Q學習相結合的產物，它將深度神經網絡作為Q函數的近似方法，即用深度神經網絡替代傳統的Q函數。同時，DQN算法通常與經驗回放算法相結合，以降低樣本間的相關性。

2.1 DQN框架

DQN算法采用了兩個神經網絡，分別是當前值Q網絡和目標值Q?網絡。它們是兩個結構完全一致但參數不同的全連接網絡，其參數分別用θ和θ-表示，通過訓練可以建立其輸出Q值與狀態及動作之間的映射關系。定義損失函數為兩者的均方誤差并進行反向傳播，在訓練過程中對當前Q值與目標Q?值依次更新。最優策略即在狀態下選用使總體獎勵最高的一系列動作，算法基本形式如下：

式中：Q為智能體動作a t的期望價值函數，即在狀態s t下執行a t動作預計獲得的價值；r t為實際價值；t為時間步；α為學習率；γ為對未來潛在獎勵的衰減率。

DQN的損失函數定義為當前值Q網絡和目標值Q?網絡輸出的Q值之差：

在不損失經驗多樣性的前提下優先使用具有較大回報的經驗，進一步提高經驗數據的利用率，引入了排序優先經驗回放算法。定義時序誤差δ(t)、經驗優先級p t和采樣概率p(t)如下：

式中：rank(t)為時序誤差按絕對值由大到小排序后的序號；n為記憶存儲空間的大小；β為控制優先采樣的程度，取值為[0，1]，當β=0時表示均勻采樣。

2.2 狀態空間

HCCI∕SI多燃燒式混合動力系統作為環境，與能量管理智能體進行交互，反饋給智能體的狀態信息包括電池組S O C、車輛加速度acc、車速v和發動機工況點與高效區的偏離程度σ。由此定義多燃燒式混合動力系統模型的狀態空間，如式（13）所示。

式中：BSF C t為t時刻的燃油消耗率；B SFCmin為發動機最小燃油消耗率。

2.3 動作空間

針對HCCI∕SI多模燃燒的專用能量管理策略，其核心是對發動機輸出功率和燃燒模式切換的優化。當智能體收到環境的狀態反饋時，需在動作空間A中選擇一個動作，即對發動機的功率PICE和燃燒模式Mode進行調整。其中，對輸出功率調整被定義為每秒功率的變化量，并進行了離散化。輸出功率增量的上、下限分別設為5和-10 kW∕s，以減小對系統的沖擊。同時，由于本試驗發動機在HCCI燃燒模式運行的功率邊界為12 kW，因此燃燒模式的切換采用混合控制方式，輸出功率大于12 kW時直接切換為SI燃燒模式，小于該功率時則基于DRL策略進行切換控制。多燃燒模式能量管理策略的動作空間如下：

式中：ΔPICE為對發動機輸出功率的調整，kW；Mod e為燃燒模式，其定義分別如式（16）和式（17）所示。

2.4 獎勵函數

采用HCCI∕SI多燃燒模式的初衷是提高燃油經濟性，因此油耗被納入獎勵函數中。同時，由于燃燒模式的切換會造成瞬態燃燒和排放惡化，甚至導致發動機失火和爆震現象，在獎勵函數中引入燃燒模式切換指令以避免HCCI∕SI的頻繁切換。此外，為維持電池SOC在一定水平，在獎勵函數中加入了電池SOC實際值與其參考值偏差的平方項。由于以上三者均為對系統產生不利影響的指標，因此在定義獎勵函數時，將以上3個變量的系數均設置為懲罰系數，即設為負值，懲罰權重分別用a、b和c表示，如式（18）所示。

式中：r為獎勵；Fuel_con t為動作a t持續時間內的燃油消耗量；S O C_ref t為SO C參考值；Mode_swt t表示燃燒模式是否切換，如式（19）所示。

2.5 算法實現流程

基于以上定義，提出了基于DQN算法的多燃燒模式混合動力能量管理策略，如圖8所示，完整的算法實現流程如表3所示。

圖8 基于DQN的能量管理策略

表3 DQN算法偽代碼

3 驗證與討論

3.1 仿真模型設置

為驗證基于深度強化學習的能量管理策略的可行性和有效性，在Matlab∕Simulink環境中建立了搭載多燃燒模式發動機的混合動力整車仿真模型，其中電池的充放電區間為40%~80%。圖9展示了用于驗證策略的兩種典型循環工況，分別由3組WLTC工況和4組NEDC工況組成，在兩種工況下分別驗證傳統控制策略與本文算法的控制效果。驅動電機和發電機均采用矢量控制方式，考慮到當發動機輸出功率過小時，即使工作在HCCI狀態依然無法實現良好的燃油經濟性，且存在失火或爆震可能，因此兩種策略中發動機的起動功率均設置為2 kW，且沿最佳燃油消耗線運行。同時，為研究專用能量管理策略對發動機的節能效果，需保證總驅動能量僅由發動機提供，即保持兩種策略的始末SOC值均一致，本文將SOC初始值和SOC終值均控制在60%左右。

圖9 循環工況

3.2 算法參數設計與收斂分析

DQN中當前值網絡和目標值網絡的結構完全一致，其輸入層和輸出層分別與狀態變量和動作變量對應，兩個神經網絡均包含3層全連接層，各層神經元個數分別為300、150和50。參數的選擇決定了訓練的收斂效果和能量管理策略的性能，本文經對比后確定學習率α為0.001，未來獎勵衰減率γ為0.9，貪婪值ε設為0.01，訓練回合數設為500，獎勵函數的系數a、b、c在WLTC工況下分別為5，35和2 000，在NEDC工況下設為2，25和650。每回合的平均回報反映了智能體訓練進程的效果，如圖10所示，其中每回合指在3.1節的循環工況下完整訓練一次。WLTC和NEDC工況的起始平均獎勵值分別在-250和-100左右，隨訓練回合數增多，平均回報均呈上升趨勢，分別在約150和250回合時收斂，說明深度強化學習算法對多燃燒模式混動能量管理具有較好的適用性。

圖10 平均回報

3.3 電池充放電情況

在WLTC和NEDC工況下電池SOC的變化情況分別如圖11和圖12所示。其中基于規則的控制策略能夠在驅動功率較小的情況下，較好地維持SOC。而在功率需求較大時表現為將電池電量消耗至SOC下限，之后進入充電模式至SOC達到上限，在WLTC和NEDC工況下的SOC終值分別為61%和60%。A?ECMS策略基于車輛需求功率和電池SOC，利用極小值原理選擇最優的功率分配，同時，燃油等效因子的自適應調節保證了SOC的動態維持，在WLTC和NEDC工況下的SOC終值分別為63%和62%。而對于基于DRL的能量管理策略，經過訓練的智能體能夠基于狀態反饋，選擇使獎勵函數最大的功率分配。從其SOC的變化過程可以看出，該控制策略更加趨向于電驅動，在過程中選擇一定程度的SOC下降作為代價，避免發動機小功率頻繁起動，從而獲得更佳的燃油經濟性。同時，SOC值仍保持在40%以上，未造成對電池壽命的損害，在WLTC和NEDC工況下的SOC終值分別為63%和59%。

圖11 WLTC工況的SOC對比

圖12 NEDC工況的SOC對比

3.4 能量管理策略效果分析

在WLTC和NEDC工況下，規則策略、A?ECMS策略和DRL策略的發動機運行工況點分別如圖13和圖14所示。在基于規則的控制策略下，發動機輸出功率跟隨行駛功率需求，因此不可避免地工作于低效區，在WLTC和NEDC工況下的百公里油耗分別為6.0和4.7 L，兩種工況下的燃燒模式切換次數分別達到了291和136次。基于最優控制理論的A?ECMS策略明顯改善了發動機工作的效率區域，在WLTC和NEDC工況下的百公里油耗分別為5.1和4.4 L，燃燒模式切換次數分別為191和67次。與以上兩種策略相比，DRL策略能夠更好地規劃功率分配，并將發動機工作點分配到SI和HCCI燃燒模式的高效區，在兩種工況下的百公里油耗分別為4.9和4.1 L。燃燒模式切換方面，在WLTC工況下切換176次，在NEDC工況下僅切換52次。

上述3種策略的燃油消耗率分布情況如圖15所示，可以看出DRL策略能夠在不影響整車動力性能以及不引起電池過充、過放電的前提下，明顯抑制發動機在過渡區域的停留時間。表4給出了兩種工況下規則策略、A?ECMS策略、DRL策略和動態規劃的能量管理效果對比，可以看出在SOC終值基本一致的情況下，DRL能量管理策略下的油耗和燃燒模式切換次數均優于規則策略和A?ECMS策略，與動態規劃的結果相近。針對WLTC和NEDC工況，DRL策略的燃油經濟性相比規則策略分別提升18%和13%，相比A?ECMS策略分別提升8%和6%。此外，經過訓練的智能體能夠權衡燃燒模式切換的收益和代價，從而避免頻繁切換，兩種工況下相比規則策略分別減少40%和62%，相比A?ECMS分別減少了13%和15%。

圖13 WLTC工況下不同策略的發動機工作點

圖14 NEDC工況下不同策略的發動機工作點

圖15 燃油消耗率分布對比

表4 能量管理結果對比

此外，驗證了DRL策略對驅動電機的影響，在WLTC和NEDC工況下，電機的運行工況分別如圖16和圖17所示。在中、小功率情況下，電機作為主要驅動源，其輸出功率與車輛需求功率呈正相關，而在發動機高功率輸出狀態和車輛制動狀態下則進行能量回收。與電動機的匹配較好，均未出現負荷過小導致低效運行的情況或過載情況。

圖16 DRL策略的電動機工作點（WLTC）

圖17 DRL策略的電動機工作點（NEDC）

4 結論

將多燃燒模式發動機應用于油∕電混合動力汽車，是交通領域具有前景的節能減排技術路線。針對多模燃燒混合動力系統設計專用能量管理策略，是發揮高效清潔燃燒技術優勢的前提。本文中針對多模式燃燒的特性，以燃油經濟性和抑制燃燒模式頻繁切換為目標，基于深度強化學習理論優化設計了能量管理策略。

基于發動機臺架試驗和電機有限元分析，在Matlab∕Simulink環境下建立了基于MAP的混合動力汽車模型并進行了標定。將整車作為環境，訓練基于DQN的能量管理策略，并利用排序經驗優先回放策略提升了DQN算法的收斂速度。

在WLTC和NEDC工況下驗證了本文策略的效果，結果表明基于DRL的能量管理策略能在維持SOC的情況下，避免燃燒模式頻繁切換，并且充分利用中小負荷HCCI燃燒，控制效果優于規則策略和A?ECMS策略，與動態規劃的全局最優解接近。燃燒模式切換頻率降低13%以上，燃油經濟性提升6%以上。

本文提出的專用能量管理策略適用于多燃燒模式的混動系統。控制策略框架具備遷移能力，可進一步應用于其它多燃料、多燃燒模式混合動力系統的能量管理。