許冠亞 耿玲娜 邵平 趙肖旭 靳棟曼 謝添
【摘 要】文章研究了基于深度強化學習的微電網儲能調度策略,如果場景的電價方式不同,利用強化學習算法,可以將模型的自主性充分發揮出來,結合學習環境信息,確定最優調度策略。
【關鍵詞】深度強化學習;微電網;儲能調度;控制策略
【中圖分類號】TM73 【文獻標識碼】A 【文章編號】1674-0688(2019)11-0059-02
微電網屬于一種能源網絡系統,其中最重要的組成部分是儲能系統。儲能系統通過儲存和釋放多余能量,避免能源發電過程的產生波動,提高微電網運行的穩定性,微電網可以利用智能系統實現儲能調度,保障整體運行效益。
1 微電網儲能調度概述
利用微電網儲能調度工作,可以維護能源系統運行的穩定性,但是因為可再生能源比較特殊,通常因為間歇性和隨機性等特征可以加大微電網儲能調度的難度。微電網可以利用隨機優化措施,提升可再生能源發電的準確性。研究人員可以建立隨機優化的模型,設置真實的離散場景集合模式,轉化可再生能源發電的不確定性。但是在各種外界因素的影響下,微電網儲能調度單模型可能會產生各種誤差,導致調度結構不符合實際狀況[1]。
強化學習算法屬于無模型的調度方法,因此無需利用系統模型。利用強化學習算法和智能體的動態性,可以確定最優控制策略。利用深度Q值強化學習機制,智能體交互與微電網調度環境,可以確定最優儲能調度策略,科學地管理微電網儲儲能設備的能量。利用微電網系統調度模型,根據微電網儲能調度工作的特殊性,利用Q值強化學習機制,提高微電網儲能調度的科學性,再通過高仿真研究,確定各種觀測量場景中,深度Q值的性能。
2 微電網儲能調度模型
2.1 微電網結構
微電網中包括各種復雜的裝置,利用公共連接點連接配電網,需要平衡微電網的整體功率,如果設置的負荷量不滿足光伏發電需求,需要立即落實純調度策略,主要是調節微電網的電池裝置,在這一過程中需要發揮控制器的作用,也可以和主電網之間進行電能交易,這些方法都可以對于功率起到平衡作用。
2.2 電池結構
在物理條件的約束下,利用儲能調度策略,可以優化微電網充放電時間和電量,提高微電網儲能系統的安全性。電池包括閑置、充電、放電3種運行模式,利用電池容量約束和電池充放電速率約束,可以保證電池運行的穩定性。電池容量需要承受物理閑置,控制電池電量,根據要求調整電池電量,這樣可以延長電池的使用時間。綜合考慮電池使用壽命和容量等方面,科學地設置電池的充放電效率[2]。
當前,電力市場不夠穩定,需要結合電力瞬時供需,提高實時電價的科學性,維護電力系統的安全運行,電力市場需要考慮電能邊際成本再定價,提高定價的科學性。電力公司在更改實時地電價的時候,需要加強管理用戶行為,因為用戶在主動用電的過程中,已經成為電網運行的重要影響因素。用戶結合電力企業的實時電價信息,再考慮自身的用電需求,科學地調整用電狀態,合理控制用電時間和用電量,最終的目的是節省用電成本,這樣也可以提高電力企業的運營收益性。
電力企業需要科學地測量光伏發電量,在觀測過程中結合時間序列信息,科學地制定儲能調度策略,這樣可以高效利用電池,保障微電網的收益,減少電能購買量。在智能體輸入更多的有用信息,可以改善學習調度策略性能,保證電池應用的高效性,提高充放電行為的合理性,實現微電網收入的最大化。
3 實現微電網儲能調度策略
3.1 深度卷積神經網絡
利用深度卷積神經網絡可以準確獲取數據特征,同時可以獲得有效的學習時間序列信息。綜合微電網儲能系統充放電動作的時間序列,利用深度強化學習算法,可以有效處理時間序列數據。卷積神經網絡通過第一個卷積層直接輸入數據,利用卷積核濾波器獲取局部特征,通過池化采樣操作確定基礎特征。利用第二個卷積層結構,通過組合、抽象基礎特征,建立高階特征。通過非線性處理措施,通過卷積層的輸出層,確定離散化動作Q值[3]。
3.2 Q值強化學習過程
基于深度強化學習的微電網儲能調度,主要是利用儲能系統的時間序列,并且以此作為決策的主要變量條件,學習智能體環境之間實施交互學習,并且可以發出反饋信息,電力企業結合反饋信息,建立科學的調整決策。基于深度強化學習的微電網儲能調度策略,利用雙重Q網絡結構獲取相關函數,提高值函數的合理性,通過公雙重Q網絡,可以提高值函數估計工作的科學性。
4 基于深度強化學習的微電網儲能調度策略
4.1 固定電價調度策略
為了強化學習調度策略的性能,本文分析了強化學習調度策略性能。結合不同的場景,確定不同微電網儲能調度結果。如果電池核電水平初始值是不同的,微電網工作穩定性不會因此受到影響。在工作過程中不斷增加負荷消耗量,利用光伏發電方式,可以在最大限度地滿足微電網負荷要求。在工作過程中,智能體也會不斷獲取智能體觀測量,利用智能體可以控制微電網的充放電工作,保障微電網收入的最大化,提升調度策略的科學性。當獲取到更多的有效性信息時,智能體觀測就會越充分地發揮學習調度策略的性能[4]。
4.2 實時電價調度策略
在每天晚上11:00到早上的6:00,這一階段實時電價處于低價狀態,微電網在這一階段需要獲取電網電能,微電網電池在這個階段處于充電的狀態。電池核電達到90%以上,電池即可閑置。在每天的8:00~16:00,實時電價相對來說較高,智能體需要控制電池放電過程,如果實時電價比較低,電池要保持閑置。時間為19:00~21:00,實時電價比較高,電池處于持續性發電節點,如果電池核電水平達到10%,電池就要保持閑置狀態。
微電網需要綜合考慮實時電價,提高學習調度策略的靈活性,利用靈活的調度動作,提高微電網的整體效益。
4.3 CPLEX基準驗證
利用GAMS建模軟件,可以提高電網儲能調度策略的科學性,利用準確的算法,轉化微電網運行過程存在的問題,利用優化求解器解答混合整數規劃問題,再通過實時電價場景驗證。利用GAMS建立微電網模型,該模型當中需要具備全面的微電網信息,最后通過優化求解器確定最優收益。
在無干擾場景當中,無模型強化學習算法和模型最優化算法具有一定的偏差大。未來預測信息發生變化,不會影響到模型最優化算法,這種狀態不會產生任何干擾。在光伏發電預測量干擾下,利用強化學習策略,各個性能指標不會產生較大的變化,但是干擾因素會影響到優化求解器的最優化求解,提升基于深度強化學習的微電網儲能調度策略的有效性和準確性。
5 結語
本文根據微電網調度問題環境模型,針對不同組合模型對于基于深度強化學習的微電網儲能調度策略的影響,提出針對性的儲能調度策略。基于深度強化學習的微電網儲能調度過程中需要利用兩種電價方式,通過組合場景模式,獲取光伏測量信息,提升微電網儲能策略的科學性,實現微電網收益的最大化。微電網需要結合實時電價信息,在預測光伏發電量的過程中考慮時間序列信息,建立科學的微電網儲能調度策略,利用場景模型組合的方式,科學地考慮各種可能發生的場景,使微電網的收益性不斷提升。將20%光伏發電量加入到微電網模型當中,如果微電網運行出現波動性,可以利用新的場景組合,始終保證微電網儲能調度測量的有效性。各種因素都會干擾到微電網收益情況,微電網處于無干擾場景當中,有利于控制整體收益偏差,因此微電網需要提高場景組合模型的適應性,而本文提出的基于深度強化學習的微電網儲能調度策略,在一般微電網系統儲能調度當中都可以利用。
參 考 文 獻
[1]朱永強,劉康,張泉,等.考慮儲能系統調度的交直流混合微電網中互聯變流器容量配置[J].電力建設,2019(10):84-93.
[2]王亞東,崔承剛,錢申晟,等.基于深度強化學習的微電網儲能調度策略研究[J].可再生能源,2019,37(8):1220-1228.
[3]黃敏,賀利軍.混合儲能微電網并網調度多目標灰熵煙花算法[J].計算機系統應用,2019,28(8):176-182.
[4]胡詩堯,安佳坤,韓璟琳,等.基于一致性算法的智能電網儲能單元分布式調度策略[J].沈陽工業大學學報,2019,41(4):372-377.
[5]王春梅,熊斌宇.基于儲能調度模式的微電網不平衡功率平抑兩階段優化方法[J].智慧電力,2019,47(2):22-28,55.
[6]顏寧,潘霄,張明理,等.基于復合儲能的多互聯微電網日內調度研究[J].電工技術學報,2018,33(S2):577-585.