999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的軌交飛輪儲能系統(tǒng)能量管理

2025-01-31 00:00:00王寧曲建真張志強類延霄高信邁
科技創(chuàng)新與應(yīng)用 2025年2期

摘" 要:隨著城市化進程的加速和公共交通系統(tǒng)的發(fā)展,地鐵系統(tǒng)的運營效率和能源利用效率受到越來越多的關(guān)注。飛輪儲能技術(shù)憑借其高功率循環(huán)能力,為軌道交通系統(tǒng)的能源利用問題提供新的解決方案。該文采用馬爾科夫決策過程來描述單飛輪儲能系統(tǒng)的能量管理問題,并使用基于深度Q網(wǎng)絡(luò)的強化學習算法來學習最優(yōu)的充放電閾值動態(tài)調(diào)整策略。通過在Matlab/Simulink平臺搭建仿真環(huán)境,對開發(fā)的能量管理算法進行測試,并將其結(jié)果與固定充放電閾值、隨機充放電閾值策略進行對比,表明該策略在提高電能利用效率和系統(tǒng)運行穩(wěn)定性方面具有顯著效果。

關(guān)鍵詞:飛輪儲能系統(tǒng);能量管理;馬爾科夫決策過程;深度強化學習;深度Q網(wǎng)絡(luò)

中圖分類號:TP29" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2025)02-0030-05

Abstract: With the acceleration of urbanization and the development of public transportation systems, the operational efficiency and energy utilization efficiency of subway systems have attracted more and more attention. Flywheel energy storage technology provides new solutions to energy utilization problems in rail transit systems with its high-power cycle capabilities. In this paper, Markov decision process is used to describe the energy management problem of a single flywheel energy storage system, and a reinforcement learning algorithm based on deep Q network is used to learn the optimal dynamic adjustment strategy for charge and discharge thresholds. By building a simulation environment on Matlab/Simulink platform, the developed energy management algorithm is tested, and the results are compared with fixed charge and discharge threshold strategies and random charge and discharge threshold strategies, which shows that this strategy has significant effects on improving power utilization efficiency and system operation stability.

Keywords: flywheel energy storage system; energy management; Markov decision process; deep reinforcement learning; Deep Q-Network (DQN)

隨著城市化進程的加速和公共交通系統(tǒng)的發(fā)展,地鐵系統(tǒng)作為城市重要的交通工具,其運營效率和能源利用效率受到越來越多的關(guān)注。傳統(tǒng)的地鐵系統(tǒng)在能源利用方面存在一定的局限性,如制動能量回收利用不足、電網(wǎng)負載波動等問題。飛輪儲能技術(shù)的出現(xiàn)為解決這些問題提供了新的解決方案,其循環(huán)和提供高功率以及高功率梯度的能力使其非常適合頻率調(diào)節(jié)、電壓支持和功率固定等存儲應(yīng)用[1],且與電池相比,容量不會因高倍率充放電而衰減,更能適應(yīng)極端的溫度和天氣,對日常維護的要求較低[2]。飛輪儲能系統(tǒng)能夠有效地捕獲和存儲列車制動過程中產(chǎn)生的能量,并在需要時釋放能量,從而提高能源利用效率。通過優(yōu)化飛輪儲能系統(tǒng)的能量管理方法,可以提高牽引網(wǎng)的能量流動效率,優(yōu)化儲能系統(tǒng)的節(jié)能、穩(wěn)壓效果。

飛輪儲能系統(tǒng)的能量管理可以通過調(diào)整充放電閾值來實現(xiàn)。文獻[3]將充放電閾值作為一個隨牽引網(wǎng)壓和飛輪SOC變化的函數(shù),進行自適應(yīng)調(diào)整,這種能量管理策略的實現(xiàn)較為簡單,但考慮的狀態(tài)變量較少,采用的函數(shù)形式不足以擬合系統(tǒng)的特性,系統(tǒng)的節(jié)能功能仍有較大優(yōu)化空間。文獻[4]提出了一種基于多閾值的電壓-電流雙閉環(huán)控制策略,將飛輪儲能系統(tǒng)劃分了4種工作模式,以兼顧節(jié)能與穩(wěn)壓功能,此類策略同樣由于對系統(tǒng)的狀態(tài)信息利用不夠充分,難以實現(xiàn)最優(yōu)的節(jié)能與穩(wěn)壓效果。

強化學習是一種機器學習方法,其主要思想是讓智能體在動態(tài)環(huán)境中,通過嘗試不同的行為并觀察環(huán)境的反饋來學習最優(yōu)的行為策略。在強化學習中,不需要對數(shù)據(jù)進行事先標注,而是由智能體通過試錯和反饋來逐步改進自己的決策策略。通過不斷地嘗試不同的動作并根據(jù)環(huán)境的反饋進行學習,智能體逐步調(diào)整其行為策略,以獲得更高的累積獎勵。深度強化學習是一種結(jié)合了深度學習和強化學習的技術(shù),與傳統(tǒng)的強化學習方法相比,深度強化學習通過深度神經(jīng)網(wǎng)絡(luò)來學習從狀態(tài)感知數(shù)據(jù)到動作的映射,從而能夠處理更加復雜的環(huán)境和任務(wù)。深度Q網(wǎng)絡(luò)(DQN)算法是眾多深度強化學習方法中的重要代表之一。DQN算法由DeepMind團隊于2013年提出[5],旨在解決離散動作空間下的強化學習問題。DQN的核心思想是通過Q-learning算法,利用神經(jīng)網(wǎng)絡(luò)逼近Q值函數(shù),從而學習到最優(yōu)的動作策略。

基于深度強化學習的能量管理方法已經(jīng)在地面式超級電容等軌道交通用儲能系統(tǒng)中得到應(yīng)用[6-7]。在飛輪儲能系統(tǒng)能量管理中,深度強化學習可以被用來優(yōu)化系統(tǒng)的運行策略,以實現(xiàn)更高效的能量利用和更穩(wěn)定的運行。通過將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于飛輪儲能系統(tǒng)的控制策略中,系統(tǒng)可以通過訓練優(yōu)化不同工況下的充放電閾值選擇,從而提高系統(tǒng)的能量轉(zhuǎn)換效率,降低能量損耗,適應(yīng)不同的運行條件和需求,在動態(tài)環(huán)境中實現(xiàn)更好的性能表現(xiàn)。

1" 用于飛輪儲能系統(tǒng)能量管理的強化學習模型設(shè)計

本文采用馬爾科夫決策過程(Markov Decision Process, MDP)來描述單飛輪儲能系統(tǒng)的充放電閾值動態(tài)調(diào)整問題,并使用強化學習算法來學習最優(yōu)策略。以下是本文對問題中狀態(tài)、動作空間和獎勵的定義。

1.1" 狀態(tài)空間

狀態(tài)空間S定義為問題中可能的所有狀態(tài)的集合,每個時刻的狀態(tài)s是環(huán)境的一種特定觀察結(jié)果。此問題中狀態(tài)s包括儲能系統(tǒng)自身SOC、儲能系統(tǒng)所在變電所的功率P、整流機組的輸出電壓urec和電流irec。s表示為

s=[P,SOC,irec,urec]。

1.2" 動作空間

動作空間A定義為代理可以采取的所有可能動作的集合。每個動作a是代理在特定狀態(tài)下可以執(zhí)行的動作。本文采用動態(tài)調(diào)整飛輪儲能系統(tǒng)充放電閾值的方式來實現(xiàn)能量管理,在變電站的空載電壓uss0的基礎(chǔ)上,通過疊加充電閾值調(diào)整因子或減去放電閾值調(diào)整因子來得到充電閾值uc和放電閾值ud。為了方便使用DQN算法求解,本文對閾值調(diào)整因子的選擇進行了離散化。動作空間A包含所有充放電閾值選項的組合,表示為

A={[uc=uss0+kcΔu,ud=uss0+kdΔu];kc,kd∈[1,N]},

式中:Δu為充放電閾值的單位變化量。

1.3" 獎勵函數(shù)

獎勵函數(shù)r將當前狀態(tài)和代理選擇的動作映射到一個實數(shù)值,用于評估代理在特定狀態(tài)下執(zhí)行特定動作后獲得的即時反饋,獲取最大累積獎勵為代理學習的目標。本文對獎勵函數(shù)r的定義基于時間步長內(nèi)節(jié)能率和穩(wěn)壓率的加權(quán)和,并將節(jié)能率和穩(wěn)壓率截斷在[-10,1]區(qū)間內(nèi),以減少訓練過程中的梯度爆炸或梯度消失問題、加快模型的收斂速度,以及提高模型的泛化能力。為了保證算法的穩(wěn)定運行,在節(jié)能率、穩(wěn)壓率的計算中對分母極小的情況進行了特殊處理。

k時刻的獎勵函數(shù)rk的定義如下

rk=0.4min(max(ek,-10),1)+0.6min(max(vk,-10),1),

式中:ek為k時刻前時間步長ΔT內(nèi)的節(jié)能率。

式中:u、i為啟用飛輪儲能系統(tǒng)時整流機組的輸出電壓和電流;u、i為未啟用飛輪儲能系統(tǒng)時整流機組的輸出電壓和電流。

vk為k時刻前時間步長ΔT內(nèi)的穩(wěn)壓率

式中:Δu、Δu分別為啟用和未啟用飛輪儲能系統(tǒng)時整流機組的輸出電壓高于設(shè)置的電壓上限時與電壓上限的差值的絕對值,若未高于電壓上限則取零;Δu、

Δu分別為啟用和未啟用飛輪儲能系統(tǒng)時整流機組的輸出電壓低于設(shè)置的電壓下限時與電壓下限的差值的絕對值,若未低于電壓上限則取零。

2" 基于DQN的能量管理算法實現(xiàn)

本文應(yīng)用的基于DQN的能量管理算法訓練流程如圖1所示。

在DQN算法中,通過經(jīng)驗回放和目標網(wǎng)絡(luò)的設(shè)計,實現(xiàn)了對訓練樣本的高效利用和訓練過程的穩(wěn)定性提升。此外,采用了ε-greedy策略來探索動作空間,從而平衡訓練中的探索和利用。在本文中,探索概率ε隨時間指數(shù)衰減,從訓練開始時的εmax逐步衰減至80%的片段已完成時的εmax,隨后保持不變。本文選用的DQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。

在本研究中,我們使用PyTorch搭建了一個由輸入層、2個隱藏層和輸出層組成的DQN模型。網(wǎng)絡(luò)的輸入為包含4個分量的歸一化狀態(tài)向量,每個隱藏層含有64個神經(jīng)元。選擇ReLU作為激活函數(shù),并使用均方誤差(MSE)作為損失函數(shù),用于優(yōu)化網(wǎng)絡(luò)參數(shù)。本文選取Adam優(yōu)化器作為優(yōu)化算法,Adam是一種常用的自適應(yīng)學習率優(yōu)化算法,能夠自動調(diào)節(jié)學習率并針對每個參數(shù)提供不同的更新步長,具有收斂速度快、能夠有效地處理稀疏梯度和噪聲等優(yōu)點。

3" 模型訓練與測試

為了訓練實現(xiàn)的DQN模型、評估能量管理策略的性能,借助MATLAB/Simulink平臺搭建了一個仿真環(huán)境,以模擬配置有單個飛輪儲能系統(tǒng)的變電所及其整流機組,并搭建了對照組以模擬電阻制動,用于計算節(jié)能率與穩(wěn)壓率。儲能系統(tǒng)所在變電所的功率P根據(jù)港鐵屯馬線的運行圖計算得出,并實時發(fā)送給仿真系統(tǒng)。飛輪儲能系統(tǒng)的Simulink模型如圖3所示。

訓練和測試中,假設(shè)變電站的空載電壓uss0為定值1 500 V,用于計算穩(wěn)壓率的電壓上限uh設(shè)置為1 520 V,下限ul設(shè)置為1 480 V。動作空間設(shè)計中N取3,充放電閾值的單位變化量Δu設(shè)置為40 V,可選的充放電閾值共有9種組合。

深度強化學習算法的訓練參數(shù)選擇見表1。

圖4給出了基于深度強化學習的能量管理算法的學習曲線。深色曲線表示每個片段的總獎勵,淺色曲線表示片段總獎勵的移動平均值??梢杂^察到,隨著訓練片段數(shù)量的增加,總獎勵總體上呈現(xiàn)出上升趨勢,這表明DQN在不斷學習和改進其策略,逐步優(yōu)化其能量管理效果。

為了評估訓練得到的能量管理策略的性能,在仿真系統(tǒng)中對固定充放電閾值、隨機充放電閾值和基于DQN的能量管理策略進行了測試。每次測試中的仿真時間為8 000 s,對應(yīng)1 600次決策。通過將ΔT視為8 000 s,可以計算出整個時間段內(nèi)的節(jié)能率和穩(wěn)壓率,以供比較。各種能量管理策略在5次測試中的平均節(jié)能率和穩(wěn)壓率見表2。

實驗結(jié)果表明,基于DQN的能量管理策略在節(jié)能率和穩(wěn)壓率方面均優(yōu)于隨機充放電閾值和固定充放電閾值策略。具體來說,基于DQN的能量管理策略的平均節(jié)能率為36.4%,高于隨機充放電閾值的34.7%和固定充放電閾值的35.0%。這一結(jié)果表明,基于DQN的策略能夠更有效地回收利用能量,從而減少不必要的能量浪費。在穩(wěn)壓率方面,基于DQN的能量管理策略也表現(xiàn)出明顯優(yōu)勢,其穩(wěn)壓率為75.5%,高于隨機充放電閾值的73.0%和固定充放電閾值的73.7%。這一優(yōu)勢意味著基于DQN的策略能夠更好地維持系統(tǒng)電壓的穩(wěn)定,減少電壓波動對線路運行的不利影響。

4" 結(jié)論

本文提出了一種基于深度強化學習的飛輪儲能系統(tǒng)能量管理策略,通過采用馬爾科夫決策過程描述能量管理問題,并利用DQN算法來學習最優(yōu)的充放電閾值動態(tài)調(diào)整策略。在MATLAB/Simulink平臺上搭建了仿真環(huán)境,根據(jù)港鐵屯馬線的運行圖計算儲能系統(tǒng)所在變電所的功率,對能量管理策略進行了測試。結(jié)果表明,與固定充放電閾值和隨機充放電閾值策略相比,該策略不僅提高了電能利用效率,而且能夠保持系統(tǒng)的運行穩(wěn)定性。這些結(jié)果表明深度強化學習在軌道交通儲能系統(tǒng)能量管理領(lǐng)域具有廣闊的應(yīng)用前景,為未來智能交通系統(tǒng)的發(fā)展提供了有益的啟示。

參考文獻:

[1] DONGXU H, XINGJIAN D, WEN L, et al. A review of flywheel energy storage rotor materials and structures[J]. Journal of Energy Storage,2023(74):109076.

[2] RONGJIE R, YUNYU L, YEJIAN Y, et al. Study on magnetic flywheel energy storage system in urban rail transit[C]//2017 IEEE Transportation Electrification Conference and Expo, Asia-Pacific (ITEC Asia-Pacific). IEEE, 2017: 1-6.

[3] 趙思鋒,唐英偉,王賽,等.基于飛輪儲能技術(shù)的城市軌道交通再生能回收控制策略研究[J].儲能科學與技術(shù),2018,7(3):524-529.

[4] 李進.城軌交通地面飛輪儲能系統(tǒng)控制策略研究[D].北京:北京交通大學,2022.

[5] MNIH V, KAVUKCUOGLU K , SILVER D, et al.Playing atari with seep reinforcement learning[J].Computer Science, 2013.

[6] YANG Z, ZHU F, LIN F. Deep-reinforcement-learning-based energy management strategy for supercapacitor energy storage systems in urban rail transit[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(2): 1150-1160.

[7] 諸斐琴.城市軌道交通地面式超級電容儲能系統(tǒng)自適應(yīng)協(xié)調(diào)控制與容量配置綜合優(yōu)化研究[D].北京:北京交通大學,2021.

基金項目:國家重點研發(fā)項目(2023YFB4302103)

第一作者簡介:王寧(1998-),男,碩士,助理工程師。研究方向高速磁浮控制技術(shù)。

*通信作者:曲建真(1990-),男,博士,工程師。研究方向為電力電子變流器。

主站蜘蛛池模板: 国产欧美中文字幕| 人妻21p大胆| 中美日韩在线网免费毛片视频| 国产农村妇女精品一二区| 日韩精品亚洲人旧成在线| 亚洲免费毛片| 久久永久精品免费视频| 九九九国产| 亚洲成a人在线播放www| 在线观看亚洲人成网站| 久久青草视频| 欧美午夜网| 干中文字幕| 国产亚洲视频免费播放| 婷婷综合色| 日韩精品一区二区三区视频免费看| 国内熟女少妇一线天| 99re免费视频| 亚洲无码高清一区| 亚洲第一成网站| 爽爽影院十八禁在线观看| 日本三级欧美三级| 亚洲国产成人久久精品软件| 亚洲熟女中文字幕男人总站| 国产日韩精品欧美一区灰| 国产95在线 | 国产精品亚洲五月天高清| 刘亦菲一区二区在线观看| 99热这里只有精品在线播放| 国内精品自在自线视频香蕉| 青青草久久伊人| 有专无码视频| 美女国产在线| 欧美一区二区自偷自拍视频| 亚洲国产精品日韩av专区| 中文字幕在线看| 97超级碰碰碰碰精品| av手机版在线播放| 97在线观看视频免费| 5555国产在线观看| 天天摸夜夜操| 国产免费久久精品99re不卡| 日韩精品一区二区深田咏美| 91无码视频在线观看| 白浆免费视频国产精品视频| 国产视频一区二区在线观看| 日韩在线影院| av一区二区三区高清久久| 国产成人精品男人的天堂下载 | 欧美在线三级| 中文字幕有乳无码| 亚卅精品无码久久毛片乌克兰| 波多野结衣亚洲一区| 中文字幕久久波多野结衣| 国产97视频在线观看| 中日韩欧亚无码视频| 国产在线91在线电影| 日韩成人高清无码| 2019国产在线| 丁香婷婷激情综合激情| 2020久久国产综合精品swag| 国产午夜人做人免费视频| 亚洲区欧美区| 亚洲人成影视在线观看| 成人午夜久久| 国产免费高清无需播放器| 91九色最新地址| 国产一级妓女av网站| 2020国产免费久久精品99| 免费国产无遮挡又黄又爽| 久久性视频| 亚洲人成高清| 精品国产女同疯狂摩擦2| 国产在线拍偷自揄观看视频网站| 青青草91视频| 国产精品亚洲天堂| 特级aaaaaaaaa毛片免费视频| 一级黄色片网| 99热这里只有精品国产99| 精品国产亚洲人成在线| 熟妇丰满人妻| 亚洲人网站|