中圖分類號:U469.72 文獻標識碼:A DOI:10.7535/hbkd.2025yx03001
Energy management strategy for hybrid electric vehicle based on improved PPO algorithm
MA Chao, SUN Tong,CAO Lei,YANG Kun, HU Wenjing (Collgeof TransportationandVehicle Engineering,Shandong Universityof Technology,Zibo,Shandong 2550oo,China
Abstract:Inorder toimprovetheeconomyof power-split hybrid electric vehicle(HEV),alongitudinal dynamics modelof the entire HEVvehicle was established,and an energy management strategy(EMS)basedonstrategy entropy optimization withanimproved proximalpolicyoptimization(PPO)algorithmwasproposed.Thealgorithmicframework wassimplified by employing an experiencepoling mechanism based on traditional PPO algorithm,andonlyone deep neural network was used forinteractivetrainingandupdating toreducethecomplexityofparametersynchronizationinthepolicynetwork.Inorderto efectively explore theenvironmentand learnmoreeficientstrategies,thestrategyentropywasadded tothelossfunctionto promotetheintellgencetostrikeabalancebetweenexplorationandutilizationandtoavoid prematureconvergenceofstrategies tolocaloptimal solutions.TheresultsshowthattheEMS basedontheimprovedPPOalgorithmwith single-policynetwork maintains thestateof charge(SOC)of the battry more efectivelythantheEMS basedonthedual-strategy network PPO under both UDDS and NEDC driving cycle. Additionally,the equivalent fuel consumption is reduced by 8.5% and 1.4% , respectively,achieving energy-saving efectscomparable to the EMS basedon the dynamic programming (DP)algorithm. The proposed improvedPPOalgorithmcaneffectivelyenhance the fueleconomyof hybridvehiclesand provideareference for the design and development of EMS for hybrid vehicles.
Keywords:vehicleenginering;hybrid electric vehicle;energy managementstrategy;deepreinforcementlearning;proximal policy optimization
汽車保有量的迅速增長,不僅給國家能源安全帶來巨大的挑戰,環境污染問題也日益凸顯[1],而混合動力汽車(hybrid electric vehicle,HEV)被認為是減排的重要角色。HEV能夠通過適當的能量管理策略(energy management strategy,EMS),使得多個動力源的合作高效運行,從而降低燃料消耗和溫室氣體排放[2]。HEV的EMS可以分為基于規則的策略、基于優化的策略和基于學習的策略[3]。基于規則的策略是工程領域實現實時控制的最常用方法,但是高效策略的設計依賴于工程師的專業水平[4]。基于優化的策略是將能量管理構建成一個最優化問題,求解可行域中的最優解或次優解,在一定程度上提高EMS的燃油經濟性,但是在復雜的情況下難以實時求解并在線應用[5-6]。
近年來,隨著人工智能的快速發展,基于學習的方法開始應用在 HEV 的能量管理問題中[7]。LIN 等[8]首次將強化學習Q-learning算法應用到HEV的能量管理問題中,EMS問題被建模為馬爾可夫決策過程,智能體與環境進行交互學習并更新策略,不僅減少了計算時間,還提高了車輛的燃油經濟性。但是由于離散狀態的限制,Q-learning 算法很難處理高維度的問題。WU等[9]提出了一種用于EMS 的深度Q學習(deep Q-network,DQN)算法,使用深度神經網絡近似動作值函數,替代Q-learning算法中的表格存儲,解決了維數詛咒問題。WANG等[10]采用改進的參數化DQN算法,降低了 3.1% 的驅動成本,并且有效延長了電池壽命。WU等[利用深度確定性策略梯度(deep deterministic policy gradient,DDPG)開發了插電式混合動力公交車的 EMS,能夠連續輸出控制動作而不需要將動作空間離散化。LIAN等[12]將電池特性和最佳制動比油耗與DDPG策略結合,縮減了動作空間,加快了學習速度。ZHANG等[13]提出了一種近端策略優化(proximal policy optimization,PPO)算法與等效燃油最小(equivalent consumption minimization strategy,ECMS)算法相結合的自適應分層能量策略框架,解決了ECMS動態因子調節規劃問題。ZHANG等[14]將LSTM應用到PPO算法中并設計了一個局部樣本香農熵來實現對并聯電液混合動力性能參數的動態評價,提高了EMS的有效性。WANG等[15將13種基于深度強化學習的HEV能量管理算法進行比較,結果表明,基于PPO的EMS擁有最快的收斂速度,時間成本最低。目前,有很多研究將基于值函數的深度強化學習算法應用于HEV的能量管理問題中,這些算法包括Q-learning、DQN以及DDQN等,然而,由于輸出動作的離散化會導致發動機輸出的轉矩出現劇烈震蕩,這些算法并不能完全適用于連續控制動作的任務。盡管基于策略的深度強化學習算法如DDPG和PPO,解決了HEV能量管理中的這一問題,但在提高算法的探索和學習新策略的能力方面,仍可以進一步優化和提升。
基于此,本文基于改進PPO提出了一種新型的HEV的EMS。與使用2個策略網絡分別代表新舊策略的一般PPO算法不同,本文利用經驗池機制,使得整體的策略框架只需使用1個策略網絡,減少了2個策略網絡參數同步的復雜性,并簡化了整體框架結構。
二 HEV動力學建模

1.1 HEV動力系統
本文以功率分流式HEV為被控對象,動力總成配置簡圖如圖1所示,包括發動機、驅動電機(電機1)、發電機(電機2)、行星架和動力電池,整車參數如表1所示。
1.2 HEV縱向動力學
本文忽略車輛橫向動力學影響,采用后向仿真方法,無駕駛員模型,只考慮縱向動力學,能量管理系統主要處理多個動力源之間的功率分配,給定工況下車輛的功率需求由式(1)的縱向力平衡方程計算,車輛行駛阻力主要由滾動阻力、空氣阻力、坡道阻力和加速阻力組成。


式中: Preq 為車輛在行駛過程中的需求功率; Ff 為滾動阻力; Fw 為空氣阻力; Fi 為坡道阻力; Fj 為加速阻力;M 為整車質量; g 為重力加速度; f 為滾動阻力系數; θ 為道路坡度(本文不考慮道路坡度); Cd 為空氣阻力系數; ρ 為空氣密度; A 為車輛迎風面積; v 為車速; δ 為旋轉質量換算系數。
行星齒輪機構作為動力耦合裝置,其中,電機1耦合在齒圈上,太陽輪和行星架分別連接在電機2和發動機上,其中電機1和車輪驅動軸耦合,因此電機1轉速和車速存在直接耦合關系,根據行星排原理,行星齒輪組各部件的轉速和轉矩的關系見式(2)。

式中: ωs,ωr 和 ωc 分別代表太陽輪、齒圈和行星架的轉速; α 為太陽輪與齒圈的齒比; Ts,Tr 和 Tc 分別為太陽輪、齒圈和行星架的轉矩。
1.3動力系統部件模型
發動機與車輪之間無機械耦合關系,因此發動機對于任意的功率需求可以控制在對應的最優效率工作點上。本文對整車燃油經濟性進行研究,燃油消耗率與發動機轉速和轉矩的關系被簡化為二維關系[16],見式(3)。

式中
為在發動機轉矩為 Te 和轉速為 ωe 時的燃油消耗率。
在電機模型中,考慮電機功率和電機效率,可以簡化為與電機轉矩和轉速相關的函數,見式(4)。
ηmot=f(Tmot,ωmot),
式中: ηmot 為電機在轉矩為 Tmot 和轉速為 ωmot 下的效率。
本文沒有考慮電池溫度變化和電池老化,使用1個簡化電池模型,其中電池電壓、電流、電池荷電狀態等相關關系見式(5)。

式中: Pbat?Voc 和 Ibat 分別為電池的輸出功率、開路電壓和電池電流; Rint 為電池內阻;SOC為電池SOC的變化率; Qbat 為電池的額定容量。
2基于策略優化深度強化學習算法的EMS
2.1 強化學習算法原理
強化學習(reinforcement learning,RL)提供了一種框架,用于解決控制任務和決策問題,通過建立智能體來實現。在這個框架中,智能體通過與環境的交互來進行試錯學習,從而根據其所采取的行動獲得獎勵(正或者負)。這個過程利用了馬爾可夫決策過程來建模,依據馬爾可夫性質,一個動作的執行僅依賴于當前的狀態,而與過去的狀態和動作無關。在RL的循環中,輸出的是一系列的狀態、動作、獎勵以及后繼狀態。智能體的主要目標是最大化其獲得的累計獎勵,即最大化期望回報。通過這種方式,RL旨在使智能體學會在給定環境狀態下做出最優的決策。
2.2基于深度強化學習的能量管理問題描述
本文將深度強化學習算法應用于HEV的能量管理問題中,具體的訓練框架如圖2所示。

智能體在與環境的交互中學習到高效的EMS,在進行具體控制之前,首先需要定義算法的基本組成:狀態、動作、獎勵。
HEV的能耗與諸多因素有關,本文主要考慮的是車輛本身的狀態,所以選取車速、加速度和SOC。車速和加速度隱含了車輛在行駛過程中的功率需求,SOC為整個策略中的關鍵信息。算法解決的是車輛在工況下行駛過程中的功率分配問題,車輛狀態見式(6)。
S={SOC,v,a},
式中:SOC為電池荷電狀態; v 和 a 分別為車速和加速度。
為了減少動作探索的空間,降低整體算法問題的復雜性,本文選擇使用發動機最優工作曲線。基于實驗得出了發動機萬有特性數據,其萬有特性曲線如圖
3所示。在某一給定功率值,通過插值查表尋找發動機燃油消耗率最小的轉速,具體邏輯如表2偽代碼所示,從而得到發動機的最優工作曲線,如圖4所示。動作為深度強化學習中智能體的輸出,定義為發動機輸出功率[17],如式(7)所示。
A={Pe}
策略根據當前狀態可以輸出動作(發動機功 率)和插值得到發動機轉速,進而確定發動機轉矩, 見式(8)。

式中: ωe 為發動機轉速; Te 為發動機轉矩。



獎勵是強化學習算法的核心,它為智能體提供了與環境交互時的唯一反饋。智能體依據獎勵值來評估其行為的效果,進而決定最佳的行動策略。為了學習到一個有效的EMS,設計一個適當的獎勵函數尤為關鍵。本文EMS的目標是在滿足駕駛需求的前提下,盡可能實現能耗的優化提升,并保持電池SOC在合理的區間范圍內。本文同時考慮了汽車的油耗、電耗以及電池SOC的穩定,相應的獎勵函數見式(9)。

式中:
為每步的等效總燃油消耗; β 為權重系數; SOCref 為參考維持SOC,本文中設置為0.6。當每步的 等效燃油消耗越大,或者當前的SOC距離期望保持的SOC越大時,負獎勵也就越大;相反,負獎勵就越小, 策略的目標是輸出能最大化提高長期累計獎勵的動作,通過獎勵引導智能體學習到一個最優的EMS。
每步的等效總燃油消耗
是實際油耗與電能轉化的等效燃油消耗之和[18],計算公式見式(10)。

式中: Pbat 代表電池每步的輸出功率;
為每步的燃油消耗; Qlhv 為汽油低熱值。
2.3基于PPO算法的EMS
2.3.1 PPO算法
PPO算法是一種基于策略的深度強化學習算法,核心思想是通過與環境的交互學習持續優化策略,該算法能從環境中獲取豐富的數據和經驗,以提升性能。PPO算法能適應連續的動作空間,使用多個隨機梯度上升時期來執行每次的策略更新,通過不斷迭代訓練得到最優的策略。PPO算法通過一個策略比率項,來實現對策略改進的控制,確保新舊策略之間的變化不會過大,可以提高PPO算法在訓練中的穩定性,同時能夠保持較高的樣本效率。
PPO 算法用clip方法限制在訓練學習過程中策略更新的范圍[19],具體的損失函數見式(11)。

式中: πθ(at,st) 和 πθold(at,st) 分別為新舊策略; ε 為超參數,用于控制更新前后策略分布的差異范圍;
表示優勢值,使用廣義優勢估計(GAE)算法計算。GAE算法是一種改進的優勢函數估計方法,可以有效降低梯度估計的方差[20],見式(12)。

式中: V 為當前價值函數;γ為折現因子; r 為時間步 Ψt 時的獎勵;入為控制更新過程中歷史經驗的權重; δ 為時間步 Ψt 的優勢函數。
PPO算法基于Actor-Critic架構,通常包括2個策略網絡和1個價值網絡,均為深度神經網絡,其中主策略網絡負責輸出在給定狀態下動作的概率分布,智能體通過輸出的概率分布進行動作采樣以確定具體動作,實現與環境進行交互決策。而舊策略網絡存儲之前策略參數,作為在更新策略時與主策略網絡比較的基準。價值網絡用于估計給定狀態下的執行動作的長期回報,擬合GAE算法中的價值函數。
2.3.2 基于雙策略網絡PPO算法的EMS
將雙策略網絡PPO算法應用到HEV的EMS問題中,具體框架圖如圖5所示。交互環境是HEV在指定的工況中的駕駛過程,參數化的主策略網絡根據當前環境狀態——速度、加速度和SOC的輸入,輸出動作空間上的概率分布,并采樣出具體的控制動作(發動機功率)。用采樣的動作與環境進行交互以獲取下一個狀態和獎勵,也就是縱向動力學模型根據發動機功率以及當前的狀態,可以進一步推導出動力電池的輸出功率,并計算瞬時的等效燃油消耗,根據獎勵函數計算當前狀態下輸出該控制動作的獎勵,然后將當前狀態、動作、獎勵以及更新的下一步狀態存入經驗池。

通過GAE算法以及策略網絡新舊策略的比值構建損失函數更新網絡。在訓練剛開始時,基于雙策略網絡PPO算法的EMS可能出現無法平衡SOC并降低等效油耗等問題,隨著算法與環境的不斷交互,策略將累積更多的經驗,并通過學習從中提取更優的策略。具體控制交互訓練偽代碼如表3所示。


2.4基于單策略網絡改進PPO算法的EMS
2.4.1 策略熵優化
在PPO算法的基礎上,為了提高算法的性能,在損失函數中增加策略熵的構建。在信息論中,熵是一種用來衡量隨機變量不確定性的概念。熵越高,隨機變量的不確定性也就越大,在強化學習中,熵被用作一種正則化項,有助于保持策略的多樣性,防止策略過早收斂到局部最優解。通過最大化策略的熵,可以促使智能體在探索和利用之間取得平衡,從而更好地探索環境并學習到更好的策略。

式中: H 為計算策略熵;
為策略下對所有可能動作的期望。
如式(13)所示,熵代表了在給定策略下所有可能動作的期望值。當一個特定動作被選中的概率較高時,它所貢獻的信息量(即熵)較低;相反,若所有動作被選中的概率均等(即策略完全隨機),則熵達到最大值。
熵可以作為損失函數的一部分,與價值函數和策略梯度共同構成了PPO算法的優化目標。在優化損失函數的同時,讓策略熵盡可能大,可在一定程度上提高訓練效果。經過經驗調整,最終將策略熵超參數 c 設置為0.01,調整后的損失函數如式(14)所示。

2.4.2基于單策略網絡改進PPO算法的EMS框架
為了進一步簡化策略框架結構,并減少2個策略網絡參數同步的復雜性,提出了一種基于單策略網絡改進PPO算法的EMS,整個策略框圖如圖6所示。

與上述策略相同,策略網絡接受縱向動力學模型每步的速度、加速度以及SOC組成的三維狀態張量的輸入,輸出動作概率分布,并采樣發動機功率,在運行過程中,不斷進行交互并學習最優策略。
但是在基于單策略網絡改進PPO算法的EMS中,策略網絡在與環境交互的同時,將當前狀態下輸出的動作概率分布存儲到經驗池中,作為后續更新的舊策略。這意味著不再需要2個獨立的策略網絡,而是將其合并為1個單一的策略網絡。在更新過程中,單策略網絡改進PPO算法不需要在固定輪次后同步2個策略網絡的參數,而是策略網絡直接與經驗池收集的軌跡數據進行交互,并根據損失函數實時更新。經驗池機制的使用,可有效減少參數同步的復雜性,簡化PPO算法框架,進一步簡化整個EMS的框架。
此外,單策略網絡改進PPO算法在進行策略更新時,引人了策略熵作為損失函數的一部分。這可以幫助智能體在探索和利用之間取得平衡,從而更有效地優化策略網絡。
3 仿真分析
3.1 仿真參數設置
本文使用Python3.7與Pytorch環境。PPO算法中學習率決定每次更新參數的步長大小;衰減因子決定了對未來獎勵的衰減程度,其值越小智能體越注重短期獎勵;值越大越注重長期獎勵,裁剪率用來限制策略更新的幅度[20]。本文的算法超參數經過經驗調整,確保了策略的穩定性和訓練過程的有效性。在保證策略穩定和有效的基礎上,參數設置也盡可能降低訓練階段的時間復雜度。
為保證仿真實驗的一致性,單策略網絡改進PPO算法(PPO1)和雙策略網絡PPO算法(PPO2)參數設置相同,策略網絡和價值網絡的結構設置相同,由3個隱藏層構成。由于PPO算法使用雙曲正切函數作為激活函數效果更好[21],所以在仿真實驗中,PPO1和PPO2均使用雙曲正切函數作為激活函數,具體參數如表4所示。
為了更全面地得出結果,分別在UDDS工況和NEDC工況下進行仿真比較。2種策略在2個工況下均進行了100輪訓練,并使用基于動態規劃(dynamicprogramming,DP)的 EMS 作為基準對比策略,其中UDDS 工況和 NEDC 工況分別如圖7和圖8所示。



3.2 仿真結果分析
基于DP的EMS與基于PPO1和PPO2算法的EMS在UDDS工況下的電池SOC的軌跡如圖9所示。由圖可知,基于DP的EMSSOC維持效果最好,整個工況的SOC軌跡變化較為緩慢,發動機和驅動電機能很好地協調控制,始終保持在期望的SOC附近,并保持SOC的動態平衡。而對于基于PPO1和PPO2的EMS,二者的SOC軌跡變化大致相同,但是PPO1算法的維持效果比PPO2算法好,末端SOC也能達到期望SOC附近。基于PPO1和PPO2算法的EMS下的發動機工作點的分布如圖10所示。


由圖10可知,無論是PPO1算法還是PPO2算法,發動機工作點都沿著發動機最低燃油消耗率曲線,這是由于在動作的選取時,為了縮減探索的動作空間已經將控制動作限定沿著發動機最低燃油消耗率曲線進行。PPO1算法由于增加了熵機制,探索更高效策略的幾率增大,發動機工作點在高效率的工作區域的數量增加,整車的燃油經濟性也相應得到提升,不同策略的具體結果如表5所示。PPO1算法在能更好地維持SOC動態平衡的條件下,以DP為基準,整車經濟性達到了基于DP的 83.6% ,相較于基于PPO2的能量管理策略等效燃油消耗降低了 8.5% 。
基于DP的EMS與基于PPO1和PPO2算法的EMS在NEDC工況下的電池SOC的軌跡與發動機工作點結果如圖11和圖12所示。初始SOC均為0.6,同樣相比于PPO2算法,PPO1算法的SOC軌跡的變化幅度更小,有助于延長電池的使用壽命。



由表6可知,在NEDC工況下3種策略的終端SOC分別為 0.576,0.556,0.536 。相比于PPO2算法,PPO1算法也更接近期望保持的SOC值,并且EMS經濟性能達到DP的 86.2% ,EMS等效燃油消耗降低了約 1.4% 。

4結語
本文以功率分流式HEV的經濟性為研究目標,提出了一種基于單策略網絡改進PPO算法的EMS。該算法通過將舊策略分布存儲于經驗池中,簡化了算法框架,并在損失函數中引人策略熵,以增強智能體的學習能力。結果顯示,基于單策略網絡改進PPO算法的EMS在終端 SOC與期望SOC的接近程度、SOC 的動態維持能力、發動機工作點在高效區域的數量以及整體等效燃油消耗方面,均優于基于雙策略網絡PPO的EMS,并取得與基于DP算法的EMS相近的節能效果。基于單策略網絡改進PPO算法的EMS,增強了智能體的學習能力,提升了整車經濟性能,為HEV的EMS領域的研究和應用提供了參考。
本文策略僅對工況進行了仿真,未來還需將策略實際部署,進行硬件在環驗證或者實車驗證,以確保在實車中控制的有效性。
參考文獻/References:
[1]林歆悠,翟柳清,林海波.基于行駛工況的混合動力電動汽車能量管理策略研究現狀分析[J].河北科技大學學報,2016,37(5):457-463. LINXinyou,ZHAILiuqing,LINHaib.Researchstatusofhybridelectricvehicleenergy managementstrategybasedonthedrivingcycle [J].Journal of Hebei University of Science and Technology,2016,37(5):457-463.
[2]TRANDD,VFAEIPOUR M,ELBAGHDADIM,etal.Thoroughstate-of-the-artanalysisof electricandhybridvehiclepowertrains: Topologiesandintegratedenergymanagementstrategies[J].RenewableandSustainableEnergyReviews,2o.DOI:1oo6er 2019.109596.
[3]LIUTeng,TAN Wenhao,TANG Xiaolin,etal.Driving Conditions-DrivenEnergy Managementfor HybridElectric Vehicles:AReview [EB/OL].(2020-07-16)[2024-07-20].https://doi.org/10.48550/arXiv.2007.10880.
[4]GUOHongqiangAGXiangu,Liang.Stateof-hargeconsraintbasedeergmanagementstrategyofplug-inbridelectriceh cle with bus route[J].Energy Conversion and Management,2019.DOI:10.1016/j.enconman.2019.111972.
[5]PARKJ,URPHEYY,ABULMASRURM.Inteligentenergymanagementandoptiizationinaybridzedallterrinehicleith simpleon-offontroloftheinternalombustionengineJ]EEETansactiosonVehicularTechnology,016,56):58-4596.
[6]LIN Xinyou,ZHOUKuncheng,MOLiping,etal.Itellgentenergymanagementstrategybasedonanimprovedreinforcementeaing algorithmwithexplorationfactorforaplug-inPHEVJ]EEETransactionsonInteligentTransportationSystems,223(7): 8725-8735.
[7]XUDezouZEunuaCUYudanetalRecentprogressinlearngalgoritpliedinegymanagementofbidi cles:AcomprehesivevieJ.teatioalJoualofPrecisionEngineeringndaufacturingGeeechology(: 245-267.
[8]LINXue,WANG Yanzhi,BOGDANP,etal.Reinforcementlearning based power managementfor hybrid eletric vehicles[C/014 IEEE/ACM International Conference on Computer-Aided Design (ICCAD).San Jose:IEEE,2014:33-38.
[9]WUJingda,HEHongwen,ENGJiankun,etal.ContiuousreinforcementlearningofenergymanagementwithdeepQnetworkfora power split hybrid electric bus[J].Applied Energy,2018,222:799-811.
[10]WANGHaoHEHongwen,BAYunfei,etal.ParameterizeddeepQnetworkbasedenergymanagementwithbalancedenergycoomy and battery life forhybrid electric vehicles[J].Applied Energy,2022.DOI:10.1016/j.apenergy.2022.119270.
[1]WUYuankaiTANHuachun,ENGJiankun,etalDepeiforcementlearningofenergymanagementwithontiuouscontroltrategy andtraffic information foraseries-paralel plug-in hybrid electricbus[J].Applied Energy,2o19,247:454-466.
[12]LINRenzong,ENGJinkun,WUYuankai,etalRulenterposingdpeiforcementlearingasedenergymanagementstrategfor power-split hybrid electric vehicle[J].Energy,2020.DOI:10.1016/j.energy.2020.117297.
[13]ZHANGCunmei,LITaoCUIWei,etal.Proximalpolicyoptimizationasedintellgentenerymanagementforpluginhbidlectric bus consideringbatery thermal characteristic[J].World Electric VehicleJournal,2023.DOI:10.3390/wevj14020047.
[14]ZHANGZhen,ZHTiez,HONGJichaoetalEnergymanagementstrategyofovelparalelelectricydraulicridelectric vehiclebasedondeepreinforcementlearningandentropyevaluatio].JournalofCleanerProduction023.DOI:16/leo 2023.136800.
[15]WANG Hanhen,YEYiing,ZHANGJiangfengetal.Acomparativestudyof13dpreinforceentlearingbasedenergymangeet methods fora hybrid electric vehicle[J].Energy,2023.DOI:10.1016/j.energy.2022.126497.
[16]馬超,陳美奇,楊坤,等.新型適時四驅PHEV系統匹配與控制仿真[J].廣西大學學報(自然科學版),2016,41(3):684-697. MA Chao,CHENMeiqi,YANGKun,etal.Powertrainparameters designandsystemcontrolsimulationforanewtypereal time4WD PHEV[J].Journal of Guangxi University(Natural Science Edition),2o16,41(3):684-697.
[17]HUDong,XIEHui,SONG Kang,etalAnappenticeship-reinforcementlearningshemebasedonexpertdemonstrationsforergy management strategyof hybrid electricvehicles[J].Applied Energy,2023.DOI:10.1016/j.apenergy.2023.121227.
[18]高潔,馬超,楊坤,等.考慮油耗和電池壽命的EREV雙模式切換 ACC策略[J].中國科技論文,2022,17(3):326-331. GAO Jie,MA Chao,YANGKun,etal.ACC strategyof dual-mode switching EREVconsidering fuelconsumptionand baterylife[J]. China Sciencepaper,2022,17(3):326-331.
[19]SCHULMANJ,WOLSKIF,DHARIWALP,etalProximalPolicyOptimization Algorithms[EB/OL].(2017-07-20)2024-07-20]. https://arxiv.org/abs/1707.06347.
[20]SCHULMANJ,MORITZP,LEVINES,etal.High-DimensionalContinuousControlUsingGeneralized dvantageEstimationEB/O]. (2015-06-08)[2024-07-20].https://arxiv.org/abs/1506.02438.
[21]LILLICRAPTP,HUNTJJ,PRITZELA,etal.ContiuousControlwithDeepReinforcementLearningEB/OL].(2015-09-09)2024- 07-20].https://arxiv.org/abs/1509.02971.