梁煜東 陳 巒 張國洲 任曼曼 胡維昊
基于深度強化學習的多能互補發電系統負荷頻率控制策略
梁煜東1陳 巒1張國洲1任曼曼2胡維昊1
(1. 電子科技大學電力系統廣域測量與控制四川省重點實驗室 成都 611731 2. 國網安徽省電力有限公司電力科學研究院 合肥 230000)
針對大規模可再生能源接入電網引發的系統調頻性能下降的問題,該文提出一種基于數據驅動的風火儲多能互補發電系統負荷頻率控制方法。首先,通過機理分析建立多區域混合發電系統的數學模型;其次,構建含控制性能標準(CPS)、風電機組棄風(icast)和動態性能指標的獎勵函數,將負荷頻率控制問題轉換為最大化獎勵函數問題,并引入深度確定性策略梯度算法進行求解,通過預學習和在線應用,獲得風電機組實際出力情況下的最優自適應協調頻率控制策略;最后,從中長期控制性能入手進行分析,通過加入連續階躍擾動或實際風速擾動仿真,驗證所提出方法在改進負荷頻率控制性能上的有效性和可行性。仿真結果表明,系統發生擾動時,儲能設備的引入及所提的深度確定性策略梯度算法不僅能夠更加有效地抑制波動,而且能夠在縮短完成負荷頻率控制所需調節時間的同時最大限度地減少棄風,提高風電消納的比例。
多能互補發電系統 負荷頻率控制 深度確定性策略梯度算法 控制性能標準(CPS)指標
近年來,為了解決日益突出的能源和環境問題,風火互補發電系統、光水互補發電系統等多能互補發電系統得到快速發展。然而,由于可再生能源具有很強的波動性,隨著新能源的大規模接入,其在電網中的滲透率不斷提高,隨之而來的是傳統能源調頻能力弱化、電網頻率質量急速下降等問題[1-3]。多區域電力系統的負荷頻率控制(Load Frequency Control, LFC)是解決負荷變化導致的電網頻率問題的重要手段之一,其有助于恢復系統頻率并消除聯絡線間的功率偏差[4]。
常規的LFC方法均基于系統詳細模型,其中PID控制器由于其簡單高效的控制結構而被廣泛使用。文獻[5]提出一種基于灰狼優化算法的控制器參數正定設計方案,并采用所提的優化算法獲取PI/ PID型負荷頻率控制器參數。文獻[6]提出一種面向抽水蓄能電站區域負荷頻率的分數階PID控制策略,深入研究了含非線性環節的兩區域再熱式汽輪機組LFC方法。文獻[7]提出一種基于模型預測控制的設計方法,仿真結果表明該方法能夠提高負載變化時系統的頻率響應能力。上述研究都是通過調節系統控制器參數來實現優化的目的,其本質上屬于PI控制。然而,這些方法通常會在控制器參數的估計和調整方面帶來極大的實時計算負擔,同時忽略了各個區域之間的協調控制,限制了互聯區域電力系統的LFC性能。

目前,較少有文獻采用先進的連續型深度強化學習算法來解決互聯區域電網的負荷頻率控制問題,尤其是針對含可再生能源和儲能設備的多能互補發電系統。文獻[16]提出了一種基于連續動作域的深度強化學習方法來提高單區域電力系統的LFC性能,在一定程度上可以最小化頻率偏差,提高控制器響應速度。文獻[17]在文獻[16]的基礎上,針對多區域電力系統提出一種數據驅動協同LFC的方法,以最小化所有區域的區域控制誤差信號為目的設置獎勵函數,并在英格蘭39節點電力系統上仿真測試所提方法的性能。但上述研究都忽略了從中長期角度對電力系統的CPS指標進行分析。此外,考慮到負荷波動的隨機性和長期性,這部分內容需要在分析建模中得到妥善處理。
鑒于此,本文提出了一種基于智能體深度強化學習的數據驅動負荷頻率協調優化控制方法,以最大程度地減少區域間的頻率偏差、計劃外的功率交換及提高可再生能源發電消納為目標。針對僅通過改進控制器和算法提高LFC性能存在的局限性,考慮引入儲能設備以進行輔助調頻。此外,針對負荷波動長期性和隨機性的問題,考慮從中長期角度進行分析,在構造獎勵函數時加入CPS指標。最后,通過仿真計算,驗證系統發生長期擾動時本文所提出數據驅動LFC方法的可行性和有效性。
本文在分析三種電源運行特性的基礎上,通過 圖1展示了具有火電機組、可再生能源風電機組和儲能設備的多能互補發電系統模型框架。該電力系統各主要環節的傳遞函數會在下文進行簡要說明。

圖1 多能互補發電系統的模型框架

儲能系統模塊包括充放電部分和功率限制部分,動態物理模型為








區域一、二之間的聯絡線功率偏差動態物理模型為



深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)是一種基于深度Q學習算法(Deep Q-lenrning, DQN)的改進算法,有效解決了多維連續動作輸出的問題。這種優化算法可以在連續的動作空間中運行。此外,類似于其他無模型強化學習算法,DDPG算法可以完成黑盒學習,無需系統的詳細數學模型,在運行時只關注狀態、動作和獎勵值三個部分。
強化學習系統簡化框圖如圖2所示,在學習過程中,智能體和它周圍的環境之間存在一個交互過程,可以解釋如下:智能體在執行一個動作后,不僅能夠從環境中獲得瞬時獎賞,也使環境的狀態發生了轉移。為了獲得最優的策略,智能體需要考察一系列狀態轉移所帶來的長期獎賞,這里長期獎賞一般由無限折扣獎賞模型來計算。智能體的強化學習過程就是不斷地與環境交互,通過動作的執行從

圖2 環境與智能體的交互過程
一個狀態轉移到另一個狀態,并根據環境的瞬時獎賞來計算長期獎賞。





所以式(13)可以表示為

因此,可以將深度神經網絡的優化目標定義為



式中,為維數。本文使用隨機梯度下降法交替優化兩個優化目標,參數更新方法為


表1 DDPG算法網絡結構

Tab.1 The network structure of DDPG

本文通過采用DDPG算法來解決兩區域多能電力系統的機組功率分配問題。所提出控制方法的結構模型如圖3所示,圖中的智能體是一個基于深度神經網絡的智能體,該LFC控制器的環境是第1節中的式(1)~式(8)。智能體將接收控制區域中的ACE信號輸入,來合理調整發電命令,以減少區域間的頻率偏差、計劃外的功率以及風電機組的棄風。
該方法包括離線預學習和在線應用兩個階段。離線預學習階段,預學習過程將迭代更新智能體的所有參數。在每次自學習迭代過程中,智能體將進行動作探索(即生成不同的命令)以與環境(即兩區域多能電力系統)進行交互。經過探索,智能體的參數將根據系統區域控制誤差和LFC控制器的獎勵函數進行更新。在有適當的獎勵函數并考慮環境約束(式(1)~式(8))的情況下,actor的梯度(即控制目標相對于智能體參數的梯度)將被計算和用于更新智能體的所有參數。


式中,、、、、、為優化權重值。

基于提出的DDPG算法框架和控制器參數更新規則,本文采用的算法流程如圖4所示。
本文采用的算例是一個兩區域多能互補電力系統,為驗證所設計控制器的控制效果,在Matlab平臺進行仿真試驗。這兩個區域相互連接,結構框圖如圖5所示,包括火電機組、風電機組慣性時間系數1、2以及負荷的頻率調節效應系數1、2的系統模型控制相關參數選擇參考文獻[25],見表2。其中,火電機組的出力限制大于或等于30%,風電和儲能的容量配比為10:1。


圖4 負荷頻率優化控制方法的流程

圖5 兩區域互聯系統負荷頻率控制模型
表2 多能互補發電系統的標稱參數

Tab.2 Nominal parameters of hybrid power generation system
=5s時,在區域一中設置幅值為0.1(pu),持續時間為1s的擾動以模擬負載突變的工況仿真。圖6中比較了PID控制方式下,不同風電儲能容量配比的系統動態響應。
從圖6中可以看出,隨著儲能設備容量配比的增加,系統各類型指標的超調量不斷減小,而調節時間隨著儲能配比的升高先減少后增加。
表3中給出了七種容量配比情況下的數值比較,可以得出當風電儲能容量配比為10:1時,系統的超調量相對較小,同時能夠在波動后迅速恢復穩定,兼顧了超調量和調節時間,總體來說是比較好的選擇。

表3 負載突變時七種容量配比情況下的效果對比

Tab.3 Comparison of the effect of seven capacity ratios under load mutation
本文控制器首先采用離線模式的預學習方法, 如圖7所示,利用四川小金縣某風機的一年實際風機出力數據[26]對模型進行一定次數的訓練。目的是使actor和critic網絡根據訓練函數的邏輯更新其內部參數,以適應整個系統,并且得到控制器在風電機組實際出力情況下的控制效果,同時能夠應對千變萬化的實際風電場出力的隨機波動。
其次,考慮到電力系統中負荷波動的長期性與隨機性,本文從中長期控制性能入手,通過引入階躍擾動和實際風速擾動兩種擾動方式來檢驗所提出數據驅動LFC方法的可行性。

圖7 風電機組的實際出力
3.3.1 階躍響應擾動
本文在模型區域一采用幅值為0.05(pu),周期為250s的連續階躍擾動信號,擾動波形如圖8所示。測試結果如圖9和表4所示。

圖8 負荷的階躍擾動

圖9提供了四種功率分配協調控制方法(圖9c~圖9e三張動態性能仿真圖截取了仿真時間4 000~ 5 000s):現有自動發電控制(Automation Generation Control, AGC)(無儲能PID)、含儲能PID、含儲能DQN和含儲能DDPG。

表4 擾動下的仿真結果

Tab.4 Simulation results under disturbance
綜合上述分析及表4,多區域電力系統在發生連續階躍擾動的情況下,儲能設備的引入和所提出的DDPG算法無論是在CPS控制指標、可再生能源發電消納還是在動態性能方面都較其他三種控制方法更優。
3.3.2 實際風速擾動
考慮到風電場出力的間歇性和波動性,本文采用如圖7所示的風電機組實際風速擾動來對系統進行仿真,以驗證所提方法的有效性。測試結果如圖10和表4所示。
圖10提供了四種功率分配控制方法(圖10c~圖10e三張動態性能仿真圖截取了仿真時間 4 000~5 000s):現有AGC控制(無儲能PID)、含儲能PID、含儲能DQN和含儲能DDPG。


綜合上述分析及表4,多區域電力系統在實際風速擾動的情況下,總體來說儲能設備的引入和所提出的DDPG算法無論是在CPS控制指標、可再生能源發電消納還是在動態性能方面都較其他三種控制方法更優。
1)提出了一種基于數據驅動的兩區域多能電力系統負荷頻率控制方法。該方法基于深度強化學習算法,包括離線預學習和在線應用兩部分,可直接通過自學習生成控制命令。
2)考慮引入儲能設備來克服僅改進控制器控制策略帶來的局限性。仿真結果表明儲能設備的引入在一定程度上改善了系統的LFC性能和可再生能源的發電消納能力。
3)考慮所提方法在風電實際出力情況下的控制效果,并且從中長期控制性能入手進行仿真,證明了在電力系統發生連續階躍擾動或實際風速擾動的情況下,所提DDPG算法比現有AGC控制和DQN算法都能顯著降低電力系統的CPS1、風電機組棄風、頻率偏差、聯絡線功率偏差以及區域控制誤差等指標,實現了動態性能最優并且能夠應對千變萬化的實際風電機組出力的隨機波動。
本文的仿真模型忽略了各機組的調節死區以及速率限制等問題,這些方面是今后研究更多不同特性新能源接入區域電網需要重點考慮的。
[1] 彭思敏, 竇真蘭, 凌志斌, 等. 并聯型儲能系統孤網運行協調控制策略[J]. 電工技術學報, 2013, 28(5): 128-134.
Peng Simin, Dou Zhenlan, Ling Zhibin, et al. Cooperative control for parallel-connected battery energy storage system of islanded power system[J]. Transactions of China Electrotechnical Society, 2013, 28(5): 128-134.
[2] 趙晶晶, 李敏, 何欣芹, 等. 基于限轉矩控制的風儲聯合調頻控制策略[J]. 電工技術學報, 2019, 34(23): 4982-4950.
Zhao Jingjing, Li Min, He Xinqin, et al. Coordinated control strategy of wind power and energy storage in frequency regulation based on torque limit control[J]. Transactions of China Electrotechnical Society, 2019, 34(23): 4982-4950.
[3] 陳文倩, 辛小南, 程志平. 基于虛擬同步發電機的光儲并網發電控制技術[J]. 電工技術學報, 2018, 33(2): 538-545.
Chen Wenqian, Xin Xiaonan, Cheng Zhiping. Control of grid-connected of photovoltaic system with storage based on virtual synchronous generator[J]. Transactions of China Electrotechnical Society, 2018, 33(2): 538-545.
[4] 常燁骙, 李衛東, 巴宇, 等. 基于運行安全的頻率控制性能評價新方法[J]. 電工技術學報, 2019, 34(6): 1218-1229.
Chang Yekui, Li Weidong, Ba Yu, et al. A new method for frequency control performance assessment on operation security[J]. Transactions of China Electrotechnical Society, 2019, 34(6): 1218-1229.
[5] 左劍, 謝平平, 李銀紅, 等. 基于智能優化算法的互聯電網負荷頻率控制器設計及其控制性能分析[J]. 電工技術學報, 2018, 33(3): 478-489.
Zuo Jian, Xie Pingping, Li Yinhong, et al. Intelligent optimization algorithm based load frequency controller design and its control performance assessment in interconnected power grids[J]. Transactions of China Electrotechnical Society, 2018, 33(3): 478-489.
[6] 單華, 和婧, 范立新, 等. 面向抽水蓄能電站區域負荷頻率的分數階PID控制研究[J]. 電網技術, 2020, 44(4): 1410-1418.
Shan Hua, He Jing, Fan Lixin, et al. Research on fractional order PID control of regional load frequency of pumped storage power station[J]. Power System Technology, 2020, 44(4): 1410-1418.
[7] Wang Haixin, Yang Junyou, Chen Zhe, et al. Model predictive control of PMSG-based wind turbines for frequency regulation in an isolated grid[J]. IEEE Trans actions on Industry Applications, 2018, 54(4): 3077-3089.
[8] 程樂峰, 余濤, 張孝順, 等. 機器學習在能源與電力系統領域的應用和展望[J]. 電力系統自動化, 2019, 43(1): 15-31.
Cheng Lefeng, Yu Tao, Zhang Xiaoshun, et al. Application and prospects of machine learning in the field of energy and power systems[J]. Automation of Electirc Power Systems, 2019, 43(1): 15-31.
[9] 余濤, 周斌, 陳家榮. 基于Q學習的互聯電網動態最優CPS控制[J]. 中國電機工程學報, 2009, 29(19): 13-19.
Yu Tao, Zhou Bin, Chen Jiarong. Q-learning-based dynamic optimal CPS control methodology for interconnected power systems[J]. Proceedings of the CSEE, 2009, 29(19): 13-19.
[10] 余濤, 甄衛國, 葉文加, 等. 基于多步回溯Q學習的自動發電控制指令動態優化分配算法[J]. 控制理論與應用, 2011, 28(1): 58-64.
Yu Tao, Zhen Weiguo, Ye Wenjia, et al. Multi-step backtrack Q-learning based dynamic optimal algorithm for auto generation control order dispatch[J]. Control Theory&Applications, 2011, 28(1): 58-64.


[12] 李濤, 胡維昊, 李堅, 等. 基于深度強化學習算法的光伏-抽蓄互補系統智能調度[J]. 電工技術學報, 2020, 35(13): 2757-2768.
Li Tao, Hu Weihao, Li Jian, et al. Intelligent economic dispatch for PV-PHS integrated system: a deep reinforcement learning -based approach[J]. Transactions of China Electrotechnical Society, 2020, 35(13): 2757-2768.
[13] Mocanu E, Mocanu D C, Nguyen P H, et al. On-line building energy optimization using deep reinfocement learning[J]. IEEE Transactions on Smart Grid, 2019, 10(4): 3698-3708.
[14] 汪波, 鄭文迪. 基于改進Q學習算法的儲能系統實時優化決策研究[J]. 電氣技術, 2018, 19(2): 54-60, 65.
Wang Bo, Zheng Wendi. Research on real-time optimization decision of energy storage system based on improved Q-learning algorithm[J]. Electrical Engineering, 2018, 19(2): 54-60, 65.
[15] 鄒曉敏, 肖曦, 何琪, 等. 基于在線附加Q學習的伺服電機速度最優跟蹤控制方法[J]. 電工技術學報, 2019, 34(5): 917-923.
Zou Xiaomin, Xiao Xi, He Qi, et al. Optimal tracking control of servo motor speed based on online supplementary Q-learning[J]. Transactions of China Electrotechnical Society, 2019, 34(5): 917-923.
[16] Yan Ziming, Xu Yan. Data-driven load frequency control for stochastic power systems: a deep reinforcement learning method with continuous action search[J]. IEEE Transactions on Power Systems, 2019, 34(2): 1653-1656.
[17] Yan Ziming, Xu Yan. A multi-agent deep reinforcement learning method for cooperative load frequency control of a multi-area power system[J]. IEEE Transactions on Power Systems, 2020, 35(6): 4599-4608.
[18] 吳云亮, 孫元章, 徐箭, 等. 基于多變量廣義預測理論的互聯電力系統負荷-頻率協調控制體系[J]. 電工技術學報, 2012, 27(9): 101-107.
Wu Yunliang, Sun Yuanzhang, Xu Jian, et al. Coordinated load-frequency control system in interconnected power system based on multivariable generalized predictive control theory[J]. Transactions of China Electrotechnical Society, 2012, 27(9): 101-107.
[19] Wei Xu, Dong Hu, Gang Lei, et al. System-level efficiency optimization of a linear induction motor drive system[J]. CES Transactions on Electrical Machines and Systems, 2019, 3(3): 285-291.
[20] 張冠鋒, 楊俊友, 孫峰, 等. 基于虛擬慣量和頻率下垂控制的雙饋風電機組一次調頻策略[J]. 電工技術學報, 2017, 32(22): 225-232.
Zhang Guanfeng, Yang Junyou, Sun Feng, et al. Primary frequency regulation strategy of DFIG based on virtual inertia and frequency droop control[J]. Transactions of China Electrotechnical Society, 2017, 32(22): 225-232.
[21] 章艷, 高晗, 張萌. 不同虛擬同步機控制下雙饋風機系統頻率響應差異研究[J]. 電工技術學報, 2020, 35(13): 2889-2900.
Zhang Yan, Gao Han, Zhang Meng. Research on frequency response difference of doubly-fed induction generator system controlled by different virtual synchronous generator controls[J]. Transactions of China Electrotechnical Society, 2020, 35(13): 2889-2900.
[22] 顏湘武, 崔森, 常文斐. 考慮儲能自適應調節的雙饋感應發電機一次調頻控制策略[J]. 電工技術學報, 2021, 36(5): 1027-1039.
Yan Xiangwu, Cui Sen, Chang Wenfei. Primary frequency regulation control strategy of doubly-fed induction generator considering supercapacitor SOC feedback adaptive adjustment[J]. Transactions of China Electrotechnical Society, 2021, 36(5): 1027-1039.
[23] 余濤, 王宇名, 劉前進, 等. 互聯電網CPS調節指令動態最有分配Q-學習算法[J]. 中國電機工程學報, 2010, 30(7): 62-69.
Yu Tao, Wang Yuming, Liu Qianjin, et al. Q-learning-based dynamic optimal allocation algorithm for CPS order of interconnected power grids[J]. Proceedings of the CSEE, 2010, 30(7): 62-69.
[24] 席磊, 余濤, 張孝順, 等. 基于狼爬山快速多智能體學習策略的電力系統智能發電控制方法[J]. 電工技術學報, 2015, 30(23): 93-101.

[25] Elgerd O I, Fosha C E. Optimum megawatt-frequency control of multi-area electric energy systems[J]. IEEE Transactions on Power Apparatus and Systems, 1970, PAS-89(4): 556-563.
[26] Zhang Guozhou, Hu Weihao, Cao Di, et al. Data-driven optimal energy management for a wind-solar-diesel-battery-reverse osmosis hybrid energy system using a deep reinforcement learning approach[J]. Energy Conversion and Management, 2021, 227: 113608.
Load Frequency Control Strategy of Hybrid Power Generation System: a Deep Reinforcement Learning—Based Approach
Liang Yudong1Chen Luan1Zhang Guozhou1Ren Manman2Hu Weihao1
(1. Key Laboratory of Wide-area Mearsurement and Control on Power System of Sichuan Province University of Electronic Science and Technology of China Chengdu 611731 China 2. State grid Anhui Electric Power Co. Ltd Electric Power Research Institute Hefei 230000 China)
To solve the problem of frequency modulation performance degradation caused by large-scale renewable energy access to the power grid, this paper proposes a data-driven load frequency coordinated optimization control method for hybrid energy system consisted of wind, thermal power and energy storage. Firstly, this paper establishes a mathematical model of the multi-area hybrid energy system through mechanism analysis. Secondly, a reward function with control performance standard (CPS), wind power casting and dynamic performance index is established. The load frequency control problem is transformed into a maximum reward function problem, and the deep deterministic policy gradient (DDPG) algorithm is introduced to solve this problem. Through pre-learning and online application, the optimal adaptive coordinated control strategy can be obtained under acturl output of wind turbine. Finally, the performance of the proposed method in improving the performance of load frequency control (LFC) is verified by stepped disturbance and actual wind speed disturbance. Simulation results show that when the power system is disturbed, the introduction of energy storage equipment and the proposed method can not only suppress fluctuations effectively, but also shorten the adjustment time required by LFC and increase the proportion of wind power consumption.
Hybrid energy system, load frequency control, deep deterministic policy gradient, control performance standard(CPS) index
10.19595/j.cnki.1000-6753.tces.210309
TM744
梁煜東 男,1997年生,碩士研究生,研究方向為可再生能源發電及其并網技術。E-mail:lydddace@163.com
胡維昊 男,1982年生,教授,博士生導師,研究方向為人工智能在電力系統中的應用、可再生能源發電技術。E-mail:whu@uestc.edu.cn(通信作者)
2021-03-11
2021-07-06
國家重點研發計劃(2018YFE0127600)和四川省科技計劃(2018HH0146)資助項目。
(編輯 赫蕾)