999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

MC-Q強化學習的PHEV能量管理策略

2023-01-06 09:21:56王惠慶
汽車實用技術 2022年24期
關鍵詞:控制策略策略

王惠慶

MC-Q強化學習的PHEV能量管理策略

王惠慶

(長安大學 汽車學院,陜西 西安 710064)

插電式混合動力汽車具有節能的特點,而多動力源之間的能量管理策略對混合動力汽車能耗有很大的影響,故文章以一款在固定線路上運行的串聯插電式混合動力城市客車為例,基于以往的行駛工況,根據馬爾科夫理論,把需求功率隨時間的變化轉換為狀態轉移矩陣,用概率矩陣生成符合實際使用條件的隨機功率序列。建立Q強化學習模塊,使用得到的隨機功率序列進行訓練,實現城市客車能量分配的實時優化控制。仿真結果表明,文章所提出的強化學習能量管理算法相比于規則控制算法能明顯的優化能耗,對比動態規劃全局優化策略總能耗僅輕微增長,控制策略可實現實時應用。

插電式混合動力汽車;能量管理;強化學習;轉移概率矩陣

能量管理策略對插電式混合動力汽車(Plug- in hybrid electric vehicle, PHEV)的能耗效率有很大的影響,各國研究人員已經提出了很多的能量管理策略,包括基于規則的消耗-維持(Charge Depletion-Charge Sustaining, CD-CS)策略,基于全局優化的動態規劃和龐特里亞金最大化原理(Pontryagin's Maximum Principle, PMP)控制策略,和可實時應用的等效燃油最小化策略等。近年來,針對強化學習的研究越來越多[1],而Q學習算法作為一種用于機器學習,基于數據的與模型無關的強化學習算法,被越來越多用于混合動力汽車的能量管理策略當中[2]。但針對插電式混合動力汽車強化Q學習算法的能量管理策略研究較少,而且強化學習要求的樣本量較大,使用實際工況很難訓練出較好結果。

針對以上問題,本文基于一款固定路線運行的插電式混合動力城市客車,在傳統的Q學習算法的基礎上,用實測西安工況得到關于功率的馬爾科夫狀態轉移矩陣,生成隨機功率序列訓練Q學習矩陣,得到MC-Q能量管理算法。最終實現針對插電式混合動力汽車能量管理的實時控制,并把仿真結果與動態規劃(Dynamic Programming, DP)算法和CD-CS算法相比較。

1 整車建模及仿真工況

1.1 整車參數

本文所選取的PHEV動力系統結構如圖1所示,發動機和集成式智能啟動驅動(Integrated Starter Generator, ISG)電機共同組成發動機驅動型發電機(Engine Generator Unit, EGU)單元,與驅動電機串聯,把發動機提供的機械能轉換為電能,驅動車輛行駛,車輛可以通過外接電源為磷酸鐵鋰電池充電,該款車型整備質量為13 500 kg,輪邊減速器減速比為13.9,采用雙電機驅動,單體電池電壓為3.2 V,電池總電壓為537.6 V,總容量為180 Ah。

圖1 PHEV動力系統結構

1.2 車輛縱向動力學模型

根據汽車理論汽車行駛平衡方程[5],車輛縱向動力學模型可以表示為

式中,為總質量;為重力加速度;為滾動阻力系數;為車速;d為空氣阻力系數;為車輛迎風面積;為汽車旋轉質量換算系數;為加速度;t為傳動系統機械效率;r為車輛行駛的需求功率。

車輛需求功率和電池輸出功率b和EGU輸出功率的egu關系為

1.3 動力部件模型

對于發動機和驅動電機,根據穩態實驗建模數據,可以把它們的效率或者油耗表示為隨轉矩和轉速改變的函數,它們的效率如圖2和圖3所示。

圖2 發動機萬有特性圖

圖3 電機效率圖

1.4 仿真工況

本文依據實測得到的西安市城市工況,選擇了同一公交路線下同一時段不同日期測得的兩條速度譜,分別作為訓練工況和測試工況,兩個工況的總長度都是140.15 km,速度譜如圖4所示。

圖4 仿真工況

2 MC-Q學習算法能量管理策略構建

相比于傳統的基于Q學習算法能量管理策略,本文所提出的MC-Q學習能量管理控制算法,創新點在于訓練工況不是直接使用實測工況,而是把實測工況根據馬爾科夫理論轉換為概率轉移矩陣,依據得到的概率矩陣生成隨機工況序列,這樣可以在每一個訓練循環當中,使用符合目標車輛實際使用情況,但又完全不同的需求功率序列進行訓練,大大豐富了樣本的復雜程度,防止訓練結果過早的陷入局部收斂當中。

2.1 需求功率轉移概率矩陣

根據選擇的測試工況,基于車輛的動力學方程(1),可以計算出需求功率,而需求功率可以看成是一個馬爾科夫過程[1],后一時刻的功率只與當前時刻有關,與以往無關。對需求功率進行離散化,用最大似然法和最鄰近法求轉移概率[2]

式中,N表示離散的需求功率從P轉移到P的次數;而N表示需求功率P出現的總次數;N為下一時刻狀態數量;得到的狀態轉移概率矩陣如圖5所示。

圖5 功率轉移概率矩陣

利用Matlab使用蒙特卡洛模擬法,基于得到的轉移概率矩陣,在每一輪訓練之前生成與訓練工況長度相等的隨機功率序列,用于訓練強化學習值函數,從而大大的豐富樣本量,改善訓練結果。

2.2 Q學習算法模型

Q學習是與環境無關的基于數值迭代的動態規劃算法,把被控對象看成智能體,創建表示值函數的表,根據此時的狀態,在表中找到所對應最大值的最優動作,并計算得到下一時刻狀態s+1和與環境進行交互得到的獎勵值,之后對表進行更新。Q學習算法的核心是構建表,本文針對能量管理策略研究,以EGU單元輸出功率egu為控制變量,以需求功率r和電池荷電狀態為狀態變量

而值函數的更新公式如式(6)所示[4]

式中,為學習率,決定了此次訓練的誤差有多少要被學習,本文選擇0.012;是未來的獎勵對現在的影響因子,越大表示越注重未來的利益,本文選擇0.9。

為了防止訓練過早的陷入局部最優,使用貪心策略選擇動作,智能體以1-的概率選擇最大化值的動作,而以的概率選擇隨機動作,開始訓練時較大,之后不斷減小直到為0。

獎勵函數是衡量每一步動作優劣的關鍵,PHEV能量管理的目的,是使綜合能耗最小化,所以使用的電耗成本和油耗成本組成目標函數,獎勵函數為目標函數的倒數[7]

式中,bat為電池實際消耗的功率,因為內阻的存在,實際消耗的功率要大于需求電池功率b;f為燃氣價格,取3.7元/m3;e為電價,取0.8元/kWh;為氣體密度,取0.717 kg/m3;為重力加速度;ref是期望末值,取0.3;為權重系數,取1。

仿真過程中還要考慮動力系統物理限制,如式(9)所示

式中,m為電機輸出轉速;m為電機輸出轉矩,max和min分別對應了上下邊界。

最終,當值平均誤差收斂到期望值,或達到最大訓練循環后,訓練結束,用得到的表對測試工況進行能量分配仿真,得到最優控制序列

3 CD-CS策略與DP策略構建

3.1 CD-CS策略

CD-CS策略是一種根據工程師經驗提出的基于規則的控制策略[8],算法簡單,控制速度快,可以實現實時應用,但因為策略過于簡單,能耗效果差。

具體的控制過程為,根據電池荷電狀態來控制發動機的啟動與停止,當較高時,發動機關閉,所有的需求功率均由電池提供,直到電池的降低到最低閾值0.3,為了保證電池不要過放電,發動機啟動,按照恒定的70 kW向外輸出功率,當上升至設定的閾值上限0.35以后,發動機關閉,功率繼續由電池提供。

3.2 DP能量管理策略

動態規劃算法理論上能夠得到全局最優的控制效果,但是需要預先知道工況,所以無法實時應用,本文使用先逆向求解,在正向尋優的方法來實現。結果用來評估提出的MC-Q算法的優劣。

把電池作為狀態變量,離散化之后逆向求解每個時刻不同對應的最優控制變量egu,最后正向獲得最優控制序列,逆向遞歸方程如式(11)所示。

式中,為當前時刻;u為第個EGU功率點;x為第個離散點;為egu的集合;f(x.u)為當前狀態變量為x且控制變量為u時得到的第+1步的;e為式(7)所示的目標函數;J(x)是為x時由第步到最后一步的累計最小成本。優化過程同樣需要滿足如式(9)所示的物理約束。

4 仿真分析

圖6是仿真過程中每一輪循環后表與前一輪的偏差值,體現了訓練的收斂過程,可以看出在前100輪循環中,表的差值快速下降,即模型快速趨于收斂,又因為訓練工況是根據概率矩陣隨機生成的,所以表不會完全收斂,而是在較低的水平上下波動,防止了訓練過早的陷入局部最優,豐富了訓練結果。

圖6 Q表差值

基于前文給出的測試工況,分別使用CD-CS策略、DP策略和所提出的基于馬爾科夫鏈的Q強化學習(MC-Q)策略進行仿真比較,初始值取0.9。變化曲線如圖7所示,EGU單元輸出功率如圖8所示,表1為三種控制策略的成本對比。

圖7 SOC變化曲線對比

圖8 EGU輸出功率

表1 不同策略能耗成本對比

從變化曲線可以看出,三種控制策略最終都達到了期望的最低值0.3左右,但路徑不同。結合圖5可知,三種控制策略能量的分配過程完全不同,而DP策略因為是全局優化策略,理論上能得到最優的能量分配結果,所以能耗成本最低。而本文所提出的MC-Q策略能耗明顯的優于傳統的基于規則的CD-CS策略,總成本降低了8.1%,而相比DP策略總成本只略微增長也保持了線性下降,且可實現實時應用。

5 結論

根據仿真結果可知,本文所提出的基于馬爾科夫鏈的Q強化學習能量管理算法,相比傳統基于規則的控制策略,在140 km的西安市城市工況下,可以使電耗和能耗組成的總成本降低8元,而相比動態規劃得出的全局最優結果,能耗成本只提升了1.9元,且具有一定的魯棒性,可以根據以往工況訓練并且實現在固定線路上實時應用,具有一定的推廣意義。

[1] 尹燕莉,張劉鋒,周亞偉,等.基于Q學習的純電動重型商用車智能換擋控制策略研究[J].重慶理工大學學報(自然科學),2021,35(9):73-82.

[2] 解少博,劉通,李會靈,等.基于馬爾科夫鏈的并聯PHEB預測型能量管理策略研究[J].汽車工程,2018, 40(8):871-877,911.

[3] LIU T,WANG B,YANG C L.Online Markov Chain- based Energy Management for a Hybrid Tracked Vehicle with Speedy Q-learning[J],Energy,2018(7): 544-555.

[4] 劉騰.混合動力車輛強化學習能量管理研究[D].北京:北京理工大學,2017.

[5] 張劉鋒.基于強化學習的混合動力系統智能化控制方法研究[D].重慶:重慶交通大學,2021.

[6] 張盟陽.基于動態規劃的PHEV能耗分析[J].汽車實用技術,2021,46(16):130-133.

[7] 解少博,羅慧冉,張乾坤,等.智能網聯混合動力車輛速度規劃的多目標協同控制研究[J].汽車工程,2021, 43(7):953-961.

[8] 張思雨,史珊珊.PHEV能量管理策略研究[J].汽車實用技術,2022,47(1):186-188.

Energy Management Strategy of PHEV Based on MC-Q Reinforcement Learning

WANG Huiqing

( School of Automotive Engineering, Chang’an University, Xi’an 710064, China )

The plug-in hybrid is energy efficient, and the energy management strategy among multiple power sources has a great impact on the energy consumption of hybrid vehicles.Taking a run on a fixed line series plug-in hybrid city bus as an example, based on the previous cycles, according to markov theory, the demand for power transformation along with the change of time for the state transition matrix, the random power sequence is generated by probability matrix. Module Q reinforcement learning and training, by using the random power sequenceto realize the energy distribution of the city bus real-time optimization control. Simulation results show that the proposed reinforcement learning energy management algorithm can significantly optimize energy consump- tion compared with the rule control algorithm, and can greatly improve the time efficiency compared with dynamic programming and other global optimization strategies, and realize real-time control.

Plug-in hybrid electric vehicle; Energy management; Reinforcement learning; Transition probability matrix

U469.7

A

1671-7988(2022)24-28-05

U469.7

A

1671-7988(2022)24-28-05

10.16638/j.cnki.1671-7988.2022.024.005

王惠慶(1997—),男,碩士研究生,研究方向為新能源汽車能量管理策略與控制算法,E-mail:2421353 871@qq.com。

猜你喜歡
控制策略策略
基于“選—練—評”一體化的二輪復習策略
考慮虛擬慣性的VSC-MTDC改進下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現代企業會計的內部控制策略探討
消費導刊(2018年10期)2018-08-20 02:57:02
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
容錯逆變器直接轉矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
主站蜘蛛池模板: 国产一二视频| 亚洲精品制服丝袜二区| 久久精品66| 久久99精品久久久久纯品| 国产网站免费观看| 国产极品美女在线| 一级一级特黄女人精品毛片| 国产精品9| www.亚洲色图.com| 在线亚洲精品自拍| 国产一区二区丝袜高跟鞋| 国产av无码日韩av无码网站| 国产JIZzJIzz视频全部免费| 国产国产人在线成免费视频狼人色| 国产男女免费完整版视频| 国产a v无码专区亚洲av| 人妻夜夜爽天天爽| 国产精品久久久久久搜索| 日韩精品久久久久久久电影蜜臀| 麻豆精选在线| 国产成人亚洲精品蜜芽影院| 国产精品免费露脸视频| 久久国产亚洲偷自| 欧美综合成人| 国产裸舞福利在线视频合集| 国产精品丝袜视频| 亚洲青涩在线| 一级全黄毛片| 亚洲人成色77777在线观看| 精品人妻系列无码专区久久| 91探花国产综合在线精品| 日本伊人色综合网| 人妻一区二区三区无码精品一区| 99久久精品美女高潮喷水| 国产精品视频第一专区| 国产精品露脸视频| 久热这里只有精品6| 国产精品任我爽爆在线播放6080| 精品欧美视频| 国产人碰人摸人爱免费视频| 九色在线视频导航91| 国产99精品久久| 色婷婷电影网| 国产日韩欧美中文| 动漫精品中文字幕无码| 在线观看国产一区二区三区99| 久久久久久国产精品mv| 久久成人国产精品免费软件| 99ri国产在线| 在线va视频| 亚洲国产精品日韩av专区| 在线免费不卡视频| 亚洲成人网在线观看| 毛片手机在线看| 久久精品国产91久久综合麻豆自制| 三上悠亚在线精品二区| 精品国产aⅴ一区二区三区| www.国产福利| 久久99国产综合精品1| 国产成人精品一区二区不卡| 亚洲精品爱草草视频在线| 国产va在线观看| 亚洲国产精品不卡在线| 欧美综合中文字幕久久| 尤物亚洲最大AV无码网站| 亚洲色图欧美在线| 在线中文字幕日韩| 黄色网在线| 欧美成人a∨视频免费观看| 亚洲一区二区约美女探花| 亚洲日韩精品无码专区| 日韩午夜片| 日本人妻丰满熟妇区| 亚洲国产日韩一区| 九九热精品在线视频| 亚洲人成网线在线播放va| 国内a级毛片| 欧美区在线播放| 九色视频在线免费观看| 色窝窝免费一区二区三区| 亚洲精品无码av中文字幕| 久久综合干|