999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習算法的“電網腦”及其示范工程應用

2021-07-25 10:16:34徐春雷吳海偉刁瑞盛胡潯惠
電力需求側管理 2021年4期
關鍵詞:智能

徐春雷,吳海偉,刁瑞盛,胡潯惠,李 雷,史 迪

(1.國網江蘇省電力有限公司,南京 210024;2.智博能源科技(江蘇)有限公司,南京 211302;3.國電南瑞科技股份有限公司,南京 211106;)

0 引言

隨著大功率特高壓交直流混聯,可再生能源滲透率及負荷響應比例逐漸提高,我國電網運行特征發生了深刻且復雜的變化,其不確定性及動態性顯著增強。由可再生能源的快速波動以及電網故障所導致的局部功率不平衡,如果沒有及時、有效的調控手段,將逐步轉變為連鎖故障,系統性安全風險顯著增大。因此,制定快速、準確的在線調控決策對于確保電網安全穩定運行至關重要。

目前,成功應用于電力領域的人工智能(artifi?cial intelligence,AI)技術多側重于負荷預測、可再生能源預測、安全性預測等。其核心技術為監督式學習算法,通常需要采集大量有標注的有效樣本來訓練AI 模型。而電網調控領域的很多問題缺少大量真實電網事件作為有效樣本,這也是制約監督式學習方法在電網調控領域落地應用的重要因素之一。近期,強化學習算法用于電力領域已有部分研究陸續開展,包括以下方面。

①電網穩定性控制:文獻[1]提出了基于Q 學習算法的切機方案來保證系統暫態安全穩定性;文獻[2]提出了基于Q 學習算法的低頻振蕩抑制策略。②微網經濟運行:文獻[3]提出了在微網環境中基于Q 學習算法的儲能裝置控制方法。③提升電網暫態行為指標:文獻[4]提出了基于深度Q網絡算法的暫態電壓控制策略。④安全評估:文獻[5]提出了使用強化學習算法對電網物理信息系統進行安全評估。⑤頻率控制:文獻[6]提出了使用強化學習進行負荷頻率控制的方法。⑥電網負荷預測:文獻[7]使用強化學習算法進行短期負荷預測。⑦經濟規劃和無功電壓控制:文獻[8]提出了基于分布式強化學習算法來解決動態經濟規劃的問題;文獻[9]提出了一種基于深度強化學習的配電網無功-電壓優化方案。⑧聯絡線潮流控制:文獻[10]提出了一直基于競爭架構deep Q?learning 算法的拓撲控制方法以最大化連續時間斷面的線路傳輸容量;文獻[11]提出了一種基于近端優化深度強化學習算法的有功控制方法。⑨參數自動調節:文獻[12]提出了一種基于多層深度Q 網絡對發電機動態模型進行自動調參的方法等。

本文在上述研究成果的基礎上,提出了一種基于最大熵強化學習算法的電網多目標在線調控輔助決策方法,可對電網有功、無功、網損進行多目標聯合優化控制。研發完成的軟件部署于江蘇省調控中心安全I區,通過多線程離線訓練和定期在線更新,訓練好的soft actor?critic(SAC)智能體可與電網實時運行環境進行交互,在毫秒級給出輔助調控策略,解決電壓越界、聯絡線潮流越限以及網損優化等問題。該方法利用電力系統基本原理與規則,基于海量電網真實斷面進行大量仿真分析,模擬電網中可能出現的電壓越界或潮流越限等事件,用于豐富樣本庫,通過快速自我學習和訓練,依靠傳統計算分析方法參與評價與反饋,生成滿足電網運行控制要求的系列智能體,可對電網中閉環運行的實時調控系統提供有效的輔助支撐,尤其是當閉環調控系統暫時退出運行且調度員缺乏其他有效工具時。

本文首先簡述了適用于電網調控領域的深度強化學習基本原理以及本文所使用的最大熵強化學習算法;然后詳細給出了所提方法的總體設計、智能體訓練流程、原型軟件架構以及數據流;最后以江蘇張家港分區為例,通過大量的在線數值仿真實驗驗證了該方法的有效性。

1 深度強化學習技術與最大熵強化學習算法

考慮到實際電網的復雜性,通過對比各算法的優缺點,本文采用最大熵強化學習算法對智能體進行訓練以實現既定的控制目標,該算法的魯棒性和收斂性能十分優異。類似于其他深度強化學習算法(deep reinforcement learning,DRL),SAC也采用值函數和Q函數。區別在于,其他強化學習算法只考慮最大化預期獎勵值的積累;而SAC采用隨機策略,在最大化獎勵值積累的同時最大化熵值,即在滿足控制性能要求的前提下采取盡可能隨機的控制動作[13]。SAC的核心算法中更新最優策略的過程表示為

SAC算法采用隨機策略,針對多目標電網自主安全調控這一控制決策問題,具有更強大的探索可行域的能力[13]。訓練智能體的過程類似于其他策略梯度算法,對于控制策略的評估和提升可采用帶有隨機梯度的人工神經網絡。構造所需值函數Vψ(st)和Q函數Qθ(st,at)時,可分別用神經網絡參數ψ和θ來表示。SAC算法中采用2個值函數,其中一個值函數稱為“軟”值函數,來逐步更新策略,以提升算法的穩定性和可靠性。根據文獻[13],軟值函數可以通過最小化式(2)中的誤差平方值來更新其神經網絡的權重,目標函數為

式中:D為已有樣本的空間分布;為對誤差平方值的期望;為控制策略π?所對應控制動作at的期望。

式(2)的概率梯度則可用式(3)來計算

式中:?ψ為對參數ψ求梯度。

類似地,可通過最小化Bellman 殘差的方式來更新軟Q函數的神經網絡權重,計算如下

式中:γ為折扣系數;為概率分布p的t+1 時刻狀態st+1的期望。

而式(4)的優化求解可由式(6)中的概率梯度進行迭代計算

式中:?θ為對θ求梯度;為目標值函數網絡,可定期更新(詳見算法1)。

不同于其他確定梯度算法,SAC 的策略是由帶有平均值和協方差的隨機高斯分布所表達。代表其控制策略的神經網絡參數可通過最小化預期Kullback?Leibler(KL)偏差而得到,參數為φ的控制策略π的目標函數為

其優化求解過程可由式(8)的概率梯度給出[13]

2 基于SAC 的多目標電網運行方式在線調控方法

2.1 馬爾科夫決策過程

電網中的諸多調控問題可描述成馬爾科夫決策過程(Markov decision process,MDP),用于解決隨機動態環境下的離散時序控制問題。針對于電網中的電壓、潮流控制,相應的MDP過程可用4維元組描述(S,A,Pa,Ra),其中S代表系統狀態空間,可包括電壓幅值、電壓相角、線路有功功率、線路無功功率、發電機出力、負荷等;A代表控制動作集,可包括發電機有功出力、機端電壓設定值、容抗器投切、變壓器分接頭調整、切負荷等;Pa(s,s’)=Pr(st+1=s’|st=s,at=a)則代表系統在t時刻從當前狀態st采用了控制動作at后轉移到新狀態st+1的概率;Ra(s,s’)代表從當前狀態s轉移到新狀態后s’得到的獎勵值,用來評估控制效果。

MDP 的求解過程是為了得到優化控制策略π(s),可從系統狀態直接給出控制動作,從而使長時間序列的期望獎勵值積累達到最大化。深度強化學習AI 智能體可在不斷地與環境交互的過程中學習并提升控制策略,即“強化”或“進化”過程,直至快速、高水平完成既定控制目標,如圖1所示。通過仔細設計系統狀態、獎勵值、動作空間,DRL 智能體從環境中獲取系統狀態s,同時給出控制動作a;環境在施加了該控制動作后將改變的系統狀態s'和獎勵值r輸出給智能體。

圖1 深度強化學習智能體與環境交互過程Fig.1 Interaction between DRL agent and environment

在強化學習算法中,有2個重要的函數定義,即值函數和Q函數。其中值函數V(s)用來衡量當前狀態的好壞,即從當前狀態開始并采用一個特定控制策略后所能累計到的獎勵值;而Q函數則是用來評估控制策略的好壞,即從某個狀態開始采用該控制策略所能積累的獎勵值。Q函數為

式中:E為對獎勵值的期望;r為每個對應時刻或控制迭代所獲得的獎勵值;γ為折扣系數。

達到最大期望值的最優Q值函數可表述為

一旦得到最優Q值函數Q*,AI 智能體則可根據該函數給出的值輸出控制指令

相應地,最大化獎勵值的最優Q值可以表述為

式(9)至式(12)構成了馬爾科夫決策過程。由于控制措施的獎勵值可以用人工神經網絡來預測,最優的Q值則可以用分解后的形式表述,即貝爾曼(Bellman)方程為

2.2 總體框架

本文提出的方法在訓練AI智能體的過程中同時考慮多個控制目標、安全約束和電力設備物理極限??刂颇繕税ㄐ迯碗妷涸较迒栴}、減小網損以及修復聯絡線潮流越限問題。

值得注意的是,該方法具有通用性和靈活性,可以針對母線電壓、聯絡線功率、線路網損等不同控制問題分別訓練、測試AI 智能體以提升性能,達到預期的控制目標[14—15]。

2.3 智能體設計

為了訓練有效的智能體達到既定目標,相應的環境、樣本、狀態、動作以及獎勵值定義如下。

環境:本文所提出的AI智能體訓練方法使用電網真實運行/計算環境,即D5000在線系統中的狀態估計模塊和調度員交流潮流計算模塊。

樣本:訓練和測試樣本可從D5000 系統的海量斷面潮流文件(QS格式)中獲得,代表不同時間點的電網真實運行狀態。若針對未來規劃中的拓撲結構變化訓練AI 智能體,則需將該變化反映在樣本中。此外,智能體的狀態空間和控制空間維度也應進行相應的調整。

狀態:針對控制目標,系統狀態變量將包括變電站母線電壓幅值、電壓相角、傳輸線路有功功率和無功功率、控制變量狀態等。

動作:為了有效調整變電站母線電壓水平,控制動作可包括調節發電機端電壓、投切電容/電抗器、變壓器分接頭調整、拉停線路等措施。

獎勵值:為了施加有效控制,考慮多控制目標后的每一步施加控制措施,所對應的獎勵值定義如下。

當發生電壓或潮流越限時

式中:N為功率越限線路的總數;Sline(i)為線路視在功率;Sline_max(i)為線路視在功率極限;M為電壓越限母線的總數;Vm為母線電壓幅值;Vmin為電壓安全下限;Vmax為電壓安全上限。

式中:p_loss為當前網損值;p_loss_pre為控制前網損值。

當無電壓、潮流越限情況且delta_p_loss<0時

當無電壓、潮流越限情況且delta_p_loss≥0.02時

其他情況時

2.4 SAC智能體訓練及測試過程

前期準備工作需要搜集大量代表歷史運行工況的電網斷面潮流文件,可連續涵蓋幾周甚至幾個月的電網運行狀態。

訓練開始時,首先提取并解析系統斷面潮流文件,由調度員潮流程序進行基態潮流計算并判別是否收斂。若不收斂,則代表該基態潮流文件本身存在數據或模型錯誤,或電網工況不合理并可能包含安全性問題。若潮流收斂,則分析電網工況,檢查包括電壓、線路潮流、網損在內的各項指標。提取出的系統狀態輸入至SAC智能體,給出控制策略。當前樣本訓練滿足退出條件后,將更新SAC的各個神經網絡模型參數。當所有樣本均被訓練后,該流程退出。

為了提高訓練效果和控制準確性,通常可以采用多線程訓練的方式,即采用不同的超參數和隨機數產生多個智能體,綜合評估各智能體的效果并選擇效果最好的一個或多個,用于在線運行。智能體在測試過程中,SAC智能體的各神經網絡模型參數不再改變,而是由訓練好的智能體直接給出控制策略,并使用D5000調度員潮流計算程序評估控制效果。

3 江蘇電網算例及應用驗證

以江蘇電網張家港分區為例,分別展示了SAC智能體在2019 年夏季高峰典型工況和2019 年冬季在線運行的調控性能。

3.1 張家港分區系統簡介

圖2給出了訓練SAC智能體與南瑞D5000系統進行交互的過程。張家港分區的高壓網架結構包含45 個廠站,線路96 條。該分區最大統調出力約230 萬kW,張家港、晨陽、錦豐主變最大受電能力350萬kW,最大供電能力約為580萬kW。當D5000系統將斷面潮流QS 文件輸出到AI 服務器中,訓練好的智能體可在1 s 以內給出合理建議來解決電壓越界問題并降低系統網損。輸出的控制指令將導入D5000 系統中進行調度員潮流計算,驗證其有效性。圖3給出了該原型軟件的展示終端界面。

圖2 多目標自主調控智能體訓練流程圖Fig.2 Flowchart for training DRL agent for multi?objective autonomous control

圖3 張家港分區AI智能體與電網環境交互過程Fig.3 Interaction between SAC agent and power grid environment for Zhangjiagang

該方法在張家港分區的訓練與測試分為2個階段,包括針對典型運行狀態的測試和針對在線運行工況的測試。

3.2 典型運行工況測試

在訓練該智能體的過程中考慮的控制目標包括:①220 kV及以上母線電壓不越限,在[0.97p.u.,1.07p.u.]范圍內;②220 kV及以上線路不過載;③降低220 kV及以上線路網損達0.5%以上。控制措施為調節張家港分區內12 臺發電機的機端電壓設定值,在[0.97p.u.,1.07p.u.]范圍內調節。訓練和測試樣本的生成流程如下:在2019年7月份江蘇(含全華東地區,220 kV以上網架)5個基態斷面潮流文件基礎上隨機擾動張家港分區負荷(±20%,即80%~120%),并添加N-1、N-1-1 故障。共產生了24 000 個斷面樣本,隨機選取12 000個作為樣本訓練SAC智能體,剩余12 000個作為測試樣本測試智能體調控性能。

測試結果由表1給出。該測試結果表明經過訓練的SAC 智能體可以有效幫助典型運行工況緩解電壓越限問題及降低網損。結果中存在1個未完全解決電壓問題的斷面數據,一方面考慮到用于該離線測試的斷面數據是在“典型”的實際斷面數據上添加各種隨機擾動生成的,斷面數據本身存在無解的可能性。因此,少量不合理數據本身并不會影響智能體的訓練,更重要的是智能體在在線狀態下是基于實際數據的測試結果。另一方面,訓練和測試智能體過程中遇到難以求解的斷面,可以進一步對其進行研究,有可能是電網關鍵斷面。

表1 DRL控制性能總結Table 1 Summary of DRL control performance%

3.3 在線性能測試

本文所研發的軟件于2019 年11 月部署在江蘇電網調控中心安全I 區。在線系統采用與3.2 節相同的控制目標和控制措施。區別在于訓練和測試樣本均直接從D5000 系統的潮流斷面QS 文件中獲得,包括歷史斷面和實時斷面(間隔為5 min)。AI主程序與D5000 系統在安全I 區實時交互,用來訓練和測試智能體的性能。

首先采集2019 年11 月22 日至11 月29 日的江蘇電網斷面潮流QS文件對智能體進行訓練,其中訓練樣本1 650個斷面數據,測試樣本為425個斷面數據。智能體的訓練和測試性能如圖4所示。當施加控制措施后電壓和線路功率均不越限,獎勵值為正;在此基礎上,網損降低越多,獎勵值越大。從圖5 中可以看出,智能體在從零開始訓練過程中,前120 個斷面的效果并不理想,但是隨著樣本數的增加,其性能不斷提升。訓練集中共有571 個斷面出現電壓越下限問題,智能體均可以快速且有效地解決;而在測試集中的239 個有電壓問題的斷面均可以有效解決。

圖4 在線系統架構Fig.4 Architecture of the online system deployed in Jiangsu province

相應地,圖5 給出了智能體訓練和測試過程中張家港分區網損降低(輸電線路兩端有功功率絕對值之差)的情況。在訓練集中,智能體可平均降低網損3.453 5%(基準為控制前該分區輸電網絡網損值);而在測試集中,智能體可平均降低網損達3.874 7%。

圖5 在線系統訓練及測試結果Fig.5 Performance of training and testing the online system

為了確保智能體的控制性能以及避免過擬合情況的發生,每周2 次對智能體訓練和測試模型進行運維。通過不斷積累的訓練樣本和調試,可保持SAC智能體控制措施的有效性和魯棒性。表2給出了電網腦系統在2019 年12 月3 日至2020 年1 月13日期間的運行情況。圖6給出了該時間段內張家港分區網損降低情況的總結。

圖6 張家港分區網損降低總結Fig.6 Summary of network loss reduction in Zhangjiagang

表2 DRL運行情況總結Table 2 Summary of DRL operation

本文選取江蘇張家港分區進行試運行驗證,針對每5 min的電網實時運行斷面,SAC智能體在滿足調控需求的前提下可在20 ms 內對電壓、潮流越界等問題提供解決方案,快速消除風險。

4 結束語

本文介紹了先進人工智能技術在各控制決策領域中的成功應用,闡述了AI技術在電網調控領域的發展瓶頸,討論了克服該瓶頸的方法和思路,并在此基礎上提出基于深度強化學習算法的多目標多工況電網在線優化控制方法。本文所述方法是人工智能DRL技術在實際電力系統調控領域的應用實踐。測試結果和試運行性能說明,基于人工智能技術的電力系統控制和優化具有廣闊前景。

猜你喜歡
智能
智能與自主
讓紙變得智能
一種智能微耕機的研發
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
爭渡智能石化
能源(2018年4期)2018-05-19 01:53:44
主站蜘蛛池模板: 日韩午夜片| 欧美中文字幕第一页线路一| 国产成人高清精品免费软件| 999国产精品永久免费视频精品久久| 无码免费试看| 在线看免费无码av天堂的| www.精品国产| 久久国产精品麻豆系列| 国内精品视频在线| 国产十八禁在线观看免费| 1024国产在线| 中文纯内无码H| 毛片在线区| 波多野结衣无码AV在线| 熟女成人国产精品视频| 国产成人欧美| 亚洲三级a| 99激情网| 妇女自拍偷自拍亚洲精品| 婷婷综合在线观看丁香| 一级毛片在线播放免费观看| 国产在线观看精品| 人妻夜夜爽天天爽| 日韩在线成年视频人网站观看| 亚洲人精品亚洲人成在线| 丁香婷婷激情综合激情| 亚洲欧美日韩色图| 免费无码又爽又黄又刺激网站 | 丝袜久久剧情精品国产| 国产精品浪潮Av| 久久国产精品77777| 国产精品无码AV中文| 2019年国产精品自拍不卡| 91系列在线观看| 亚洲国产中文欧美在线人成大黄瓜| 亚洲精品成人片在线播放| 国产精品va| 久久黄色一级视频| 91福利在线观看视频| 国产嫩草在线观看| 国产免费网址| 国产久操视频| 国产色婷婷| 亚洲视频无码| 狠狠v日韩v欧美v| 午夜福利视频一区| 99热这里只有精品在线播放| 麻豆精品久久久久久久99蜜桃| 亚洲天堂网在线观看视频| 国产福利拍拍拍| av天堂最新版在线| 毛片久久久| 亚洲a级在线观看| 9966国产精品视频| 在线另类稀缺国产呦| 99re热精品视频中文字幕不卡| 午夜日韩久久影院| 超碰精品无码一区二区| 国产美女无遮挡免费视频| 成·人免费午夜无码视频在线观看| 无码中文AⅤ在线观看| 欧美www在线观看| 国产黄色片在线看| 午夜精品一区二区蜜桃| 91啦中文字幕| 成人一级黄色毛片| 国产本道久久一区二区三区| 国产午夜一级毛片| 国产精品视屏| 91免费在线看| 91精品最新国内在线播放| 欧美激情,国产精品| 亚洲经典在线中文字幕| 国产精品永久在线| 国产免费怡红院视频| 欧美不卡视频在线观看| 免费高清毛片| 国内精品小视频福利网址| 天堂av综合网| 国产小视频免费| 久久综合丝袜长腿丝袜| 潮喷在线无码白浆|