999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向分布式電網的多區域協同控制方法研究

2021-02-22 13:59:00席磊孫夢夢陳宋宋朱繼忠孫秋野劉宗靜
電機與控制學報 2021年12期
關鍵詞:動作區域智能

席磊, 孫夢夢, 陳宋宋, 朱繼忠, 孫秋野, 劉宗靜

(1.三峽大學 電氣與新能源學院,湖北 宜昌 443002;2.中國電力科學研究院有限公司 需求側多能互補優化與供需互動技術北京市重點實驗室,北京 100192;3.華南理工大學 電力學院,廣州 510641;4.東北大學 信息科學與工程學院,沈陽 110819)

0 引 言

提高分布式能源[1]的占有比例可以有效解決環境污染[2]和能源危機[3]問題。而高滲透率間隙性分布式能源接入電網,不僅給電網帶來了強隨機擾動[4],對傳統集中決策式確定性能源形成“擠出”效應,同時電網運行呈現更強的分散性、多樣性和隨機性特征[5],如何有效利用分布式能源與柔性負荷參與電網調節是一個巨大挑戰。

自動發電控制(automatic generation control, AGC)按照一定調節速率實時調整發電出力,以滿足電力系統頻率和聯絡線功率控制要求,是調節電網頻率、有功功率和保證電網安全運行的重要技術手段,已經不能滿足電網運行需求。提高AGC控制性能的有效手段之一就是探索一種能有效提高電網自適應穩定運行能力的協同控制策略。

比例-積分-微分(proportional-integral-derivative, PID)[6]是傳統的AGC控制方法,利用智能算法對PID控制器的參數優化整定,比如遺傳算法[7]、粒子群優化算法[8]、混合智能算法[9]。然而,隨著電網復雜程度不斷加劇,能量管理系統逐步走向分散,在傳統AGC控制方法下,若提高部分區域的控制性能標準(control performance standard,CPS)[10],將導致其余區域控制性能出現退化。因此,基于PID的集中式AGC控制方法難以處理這一具有隨機博弈屬性的分布式復雜決策問題[11]。

為此學者們將決策能力強、環境適應度高,可在與環境交互過程中反復探索與試錯的分布式強化學習[12]引入到AGC。文獻[13]提出利用變學習率加快調整策略的PDWoLF-PHC(λ)算法,能夠加快收斂速度,應對多種分布式能源接入帶來的隨機擾動。文獻[14]根據“后向估計”機理提出一種逼近最優值函數的漸進機制,提高AGC機組功率的調節速度。文獻[15]將CPS融入強化學習指標中,實現AGC松弛控制。

上述方法雖然可以通過和環境交互修改策略,獲取最優解,而“探索-利用”[15]問題仍未解決。所謂“探索-利用”即“平衡”問題,是影響智能體獲取最優策略的關鍵因素之一。為此一些學者提出更加新穎的啟發式強化學習方法,如文獻[16-20]采用ε-貪婪方法,智能體基于“概率”來對“探索-利用”進行折中。文獻[21-22]采用Softmax方法,智能體基于當前狀態的已知平均獎勵來平衡“探索-利用”,各個動作當前狀態的平均獎賞越高,它們被智能體選取的概率也會相應的變大。

然而,在復雜多變的電網運行環境中,為了追求更高的控制精度,智能體需要從環境中感知更多的特征狀態,以上表格型強化學習方法無法有效處理高密度信息,引發狀態維數災難。學者們研究發現深度強化學習[24]可以有效解決上述問題,如具有經驗回放機制的DDQN[25]、DDQN-AD[26]、MIAC[27]。智能體在某些狀態下的學習效率高于其他狀態[28],而上述方法采用均勻采樣的經驗回放方式,并不考慮各個樣本之間的差異性。這導致學習過程中獲取的經驗數據沒有被最大化地利用,學習效率低。用比例優先級采樣[29]的優先回放方式,賦予學習效率高的狀態的數據更大的采樣權重,可以提高訓練樣本的質量,具有良好的學習效率和泛化性能。

因此,本文在具有優先回放功能的深度強化學習算法(prioritized replay double deep Q network, PRDDQN)的基礎上,融入“動作空間內加權尋優”的AWM策略,形成了一種全新的多智能體深度強化學習算法,即PRDDQN-AWM(prioritized replay double deep Q network-action weighting method),通過提高AGC系統發電指令的動態精確性能和強化學習過程中的采樣效率,加快智能體的尋優速度,來獲取分布式多區域協同的AGC策略最優解。通過仿真分析驗證了算法的有效性,以及與其他算法相比具有更優的控制性能。

1 PRDDQN-AWM算法

1.1 DDQN

DDQN是基于神經網絡的強化學習算法。采用BP(backpropagation)神經網絡逼近的方法表示值函數,為了增強神經網絡的穩定性,DDQN利用經驗回放訓練強化學習過程,智能體將數據以記憶單元(s,a,r,s′)(s為智能體當前狀態,a為智能體在當前狀態下采取的動作,r為智能體執行動作a后獲得的獎勵值,s′為智能體智能動作a后轉移到的下一個狀態)的形式存儲到經驗池中,再通過均勻隨機采樣的方式從經驗池中抽取數據訓練神經網絡,從而打破數據之間的關聯性。同時為了解決函數逼近時的過估計問題,DDQN將動作的選擇和動作的評估用網絡結構相同、網絡參數不同的BP神經網絡來實現,即當前網絡和目標網絡,分別對應兩套參數θ和θ-。BP神經網絡模型如圖1所示,以當前狀態Sn為輸入,PRDDQN-AWM利用三層BP神經網絡,采用tanh和ReLU作為激活函數,輸入層為11維,隱含層為26維,輸出層為1維。利用均方差損失函數進行參數的梯度訓練。

圖1 三層BP神經網絡模型Fig.1 Three-layer BP neural network model

1.2 AWM

在傳統強化學習中,智能體在不斷與環境進行交互的過程中優化迭代Q值,進而表示當前狀態下的最優動作,但是該方法需要較多試錯才能獲取最優動作,難以平衡“探索-利用”。在一般情況下,智能體的動作的邊界值是確定的,定義動作空間為[umin,umax],對動作邊界值加權來表示當前策略的最優動作,通過調整策略w1(s)和w2(s)不斷優化最優動作為

μ(s)=w1(s)umin+w2(s)umax。

(1)

為了保證每一個最優動作都只有一組策略權值相對應,使用線性計算方法對策略權值進行求解并對其歸一化:

(2)

式中:ψ1、ψ2表示策略權值;f(s)表示狀態s的特征向量。

為了保證智能體可以快速的逼近最優動作,并且避免陷入局部最優,采用高斯分布選擇動作,將探索空間的寬度值作為標準差。在狀態s下,執行動作a的概率為

(3)

式中σ表示標準差,策略的探索幅度受探索空間大小的影響,距離最優動作越近的動作被選到的概率越大。

1.3 PRDDQN-AWM

PRDDQN-AWM用優先回放取代DDQN-AWM算法中經驗回放來挑選經驗池N中的學習數據。經驗池N中的數據由智能體的記憶單元(s,a,r,s′)組成,經驗回放利用等概率原則從經驗池N中抽取樣本訓練神經網絡,但這并不是高效利用數據的方法。智能體在某些狀態的學習效率高于其他狀態,說明經驗池存放的記憶單元對于智能體的學習并非有同等重要的意義。時間差分(temporal-difference, TD)偏差越大,表示該處智能體的學習效率越高,對應的采樣概率應該越高,因此將TD偏差也存入記憶單元中。優先回放賦予學習效率高的狀態的數據更大的采樣概率,從而加快智能體的學習速度。

狀態s下的TD偏差為

(4)

該樣本處的采樣概率為:

(5)

式中:pi為第i個記憶單元中的TD偏差;ε為極小的正數,避免|δ|為0;N為經驗池容量。

采用優先回放的概率分布進行采樣時,因為采樣分布與動作值函數的分布是兩個完全不同的分布,所以動作值函數的估計值是有偏估計。為了矯正這個偏差,PRDDQN-AWM融入重要性采樣權重(importance-sample weights,ISW)為

(6)

式中:wi為ISW;ν為時間指數。

目標值函數為

(7)

(8)

θi+1=θi+wiα▽θiLi(θi);

(9)

(10)

式中:θi+1為第i+1次迭代時當前網絡的參數;θi+C為第i+C次迭代時當前網絡的參數;θi-為第i次迭代時目標網絡的參數;α表示神經網絡學習率。

動作策略權值ψ1、ψ2通過最小化交叉熵損失函數進行梯度求解為

▽ψkiJ(φki)=E[-log(πψki(si+1))][r+γQθ(si+1,

πψ(si+1))-Qθ(si,ai)]▽hψki(si)。

(11)

ψki+1=ψki+β▽φkiJ(ψki);

(12)

(13)

2 AGC系統設計

多區域協同的分布式AGC系統框架如圖2所示,Δf為互聯電網頻率偏差,ACE(area control error)為區域控制誤差。AGC系統是一個大型互聯的綜合系統,全面感知電網運行信息。一個區域運行狀態的變化必將引起其他區域的動態變化,選取區域電網實時監測的當前環境狀態量(ACE、CPS、Δf)作為AGC控制器可觀測的狀態,系統實時監控計算并儲存互聯電網每個區域的“ACE/Δf/CPS數據及長期歷史記錄”。區域電網PRDDQN-AWM控制器以當前系統環境的狀態量為輸入,計算出相應獎勵值,進行在線學習,給出該區域電網調度端AGC總功率調節指令ΔPord-i。

圖2 分布式AGC系統架構Fig.2 Distributed AGC system architecture

對于AGC系統的控制性能,可通過CPS進行評估和頻率偏差Δf進行評估,具體如下:

1)若CPS1≥200%,且CPS2為任意值,CPS指標合格;

2)若100%≤CPS1<200%,且CPS2≥90,CPS指標合格;

3)若CPS1<100%,CPS指標不合格。

在正常穩定運行情況下,為維持系統頻率穩定,頻率偏差Δf必須控制在±(0.05~0.2) Hz范圍內。

2.1 獎勵函數

將ACE和碳排放(carbon emission, CE)作為獎勵函數為

(14)

式中:ACE(i)代表ACE的瞬時值;ΔPk(i)為第k臺機組的實際輸出功率;η表示ACE的權值,1-η表示CE的權值,η值取0.5;n為區域機組總數;Bk是第k臺機組的CE強度系數,kg/kWh;ΔPkmin和ΔPkmax分別為第k臺機組容量的上限和下限。

2.2 參數設置及算法流程

為了保證學習效果,需要對6個參數γ、α、β、σ、N、ν進行合理取值,經過多次仿真,對參數進行如表1設置。

表1 參數設置

PRDDQN-AWM的算法流程如下:

Start

1:觀察當前狀態,根據式(2)得出w1(s)和w2(s);

2:根據式(1)得出最優動作μ(si);

3:根據式(3)得到策略h;

4:由策略h得到狀態si下選擇的動作ai;

5:執行動作ai得到新的狀態si+1,根據式(14)計算出獲得的獎勵值ri,根據式(4)計算出時間差分|δi|,并將記憶單元(si,ai,ri,si+1,|δi|)存儲在經驗池N;

6:從經驗池N中根據式(5)選擇樣本(sj,aj,rj,sj+1,|δj|);

7:根據式(6)、(8)、(9)更新當前網絡參數θ,根據式(11)、(12)更新動作權值當前網絡參數ψ1、ψ2;

8:令i=i+1;

10:如果k≠k+C,返回第一步。

End

3 算例分析

搭建了改進的IEEE標準兩區域負荷頻率控制(load frequency control,LFC)模型[30]和廣東電網模型,并對其進行仿真分析,以驗證所提方法性能有效性。

3.1 改進的IEEE標準兩區域LFC模型

為了模擬大規模分布式能源并網,在IEEE標準兩區域LFC模型基礎上改進,融入多種分布式能源,如圖3所示,其參數如表2所示,ΔPtie為聯絡線交換功率。其中選取微型燃氣輪機與小水電作為主調頻機組,飛輪儲能輔助調頻。由于風電、光伏的隨機性較強,將其模型簡化,僅作為AGC系統的隨機負荷擾動處理。

表2 改進兩區域LFC模型參數設置

圖3 改進的IEEE標準兩區域LFC模型Fig.3 Improved IEEE standard two-zone load frequency control model

3.1.1 預學習

圖4 PRDDQN-AWM預學習效果Fig.4 Pre-learning effect of PRDDQN-AWM

圖5 6種算法的收斂結果Fig.5 Convergence results of six algorithms

3.1.2 階躍負荷擾動

考慮到實際運行情況,對兩區域引入階躍負荷擾動,模擬電力系統中負荷突增情況,同樣測試以上6種算法。A區域的控制性能如圖6所示,由圖6(a)可知,PRDDQN-AWM可以更快更精確地跟蹤階躍擾動。

圖6 6種算法的控制效果Fig.6 Control effect of six algorithms

圖6(b)顯示,PRDDQN-AWM在負荷突增的情況下CPS1最小值最大。圖6(c)為Δf和ACE絕對值的平均值,相較于其他算法,PRDDQN-AWM能降低|Δf|為16.42%~69.92%,減少|ACE|為15.48%~70.00%。

3.1.3 隨機方波負荷擾動

在兩區域模型中加入隨機方波擾動,模擬電力系統中負荷不規律性的突增和突減情況。圖7為各控制器的輸出曲線,相較于其他算法,PRDDQN-AWM的有功功率可以精確并快速地跟蹤隨機擾動,可以應對電力系統負荷的不規律性突增和突減。

圖7 6種算法輸出曲線Fig.7 Six algorithm output curves output curve

圖8(a)為控制器穩定性標準差圖,計算控制器輸出和負荷功率需求之間實時偏差的標準差,同時統計60次運行數據,分析可知PRDDQN-AWM標準差的波動最小,說明PRDDQN-AWM控制器具有良好的穩定性。圖8(b)為|Δf|平均值,相較于其他算法,PRDDQN-AWM能降低|Δf|值62.07%~74.12%。

圖8 6種算法的控制效果Fig.8 Control effect of six algorithms

圖8(c)為以上6種算法在A、B兩區域間的聯絡線交換功率偏差(Ptie)的變化曲線,其中,PRDDQN-AWM控制器的Ptie(交換功率偏差絕對值的平均值)為0.318 0 MW,最大值為1.172 8 MW;DDQN-AWM控制器的Ptie為0.565 8 MW,最大值為7.177 1 MW;Q-AWM控制器的Ptie為0.627 2 MW,最大值為7.656 2 MW;PRDDQN控制器的Ptie為2.060 28 MW,最大值為5.129 13 MW;DDQN控制器的Ptie為2.060 28 MW,最大值為5.129 13 MW;Q控制器的Ptie為3.556 2 MW,最大值為17.711 2 MW。對比可知,PRDDQN-AWM控制器的聯絡線交換功率偏差最小,說明A、B兩區域嵌入的兩個控制器獲得了最優協同控制,其有功功率可以精確并快速地跟蹤隨機擾動。

3.2 廣東電網模型

為了驗證多智能體PRDDQN-AWM算法在實際電網隨機環境中的應用效果,搭建了包含火電廠、水電廠、風電、光伏4種發電類型的廣東電網模型,根據廣東省地理分布情況,將其電網虛擬分割為粵北、粵西、珠三角、粵東4個分布式區域電網,如圖9所示。

圖9 廣東電網模型Fig.9 Guangdong power grid model

模擬電網運行過程中出現的隨機擾動,對廣東電網施加隨機白噪聲及隨機擾動。由圖10為白噪聲擾動下PRDDQN-AWM的控制性能,可以看出AGC功率指令可以精確地跟隨負荷擾動。同時測試以上6算法在夏季隨機白噪聲和隨機擾動下的控制性能。圖11為6種算法在白噪聲和隨機波擾動下的CPS1指標,數據表明PRDDQN-AWM控制器的指標更優,可以獲得多區域CPS1協同控制。表3可知,相較其他算法,PRDDQN-AWM能夠減少|ACE|為40.037 6%~91.046 8%,減少|Δf|為30.612 2%~91.040 8%,降低CE為2.866 0%~10.176 5%。

圖10 白噪聲擾動下PRDDQN-AWM的控制性能Fig.10 PRDDQN-AWM control performance under white noise disturbance

圖11 6種算法CPS1指標Fig.11 CPS1 indicators of six algorithms

表3 白噪聲擾動和隨即波擾動下不同控制器廣東電網仿真試驗指標統計表

4 結 論

本文針對強隨機環境下分布式多區域電網面臨的AGC系統性能變差問題,提出了一種多智能體協同的PRDDQN-AWM算法來提高AGC性能,以獲得強隨機擾動環境下的多區域協同最優解。

所提方法以神經網絡逼近函數為支點,采用了動作空間內加權尋優的AWM策略,避免了啟發式方法在面對平衡“探索-利用”問題時,由于多次試錯所帶來的收斂速度慢問題;引入具有比例優先級采樣功能的經驗回放,提高了深度強化學習獲取的稀缺經驗數據的利用效率,進而提高智能體的學習能力。通過兩種模型在不同環境下的大量仿真,結果顯示與傳統方法相比,PRDDQN-AWM可憑借其強大的函數逼近能力,提高收斂速度5.42%~93.57%,降低|Δf|為30.61%~91.04%,降低ACE為40.04%~91.05%,提高CPS為0.34~1.14%,減少碳排放2.87%~10.18%,能夠獲得強隨機擾動環境下的多區域協同最優解。

然而,本文所采用的深度強化學習控制器僅應用于獲取AGC系統的總功率指令,區域內機組的功率分配仍采用等比例分配法。因此筆者下一步的研究工作是對區域內機組功率采用智能算法進行動態優化分配,實現AGC系統整體的智能化。

猜你喜歡
動作區域智能
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
動作描寫不可少
關于四色猜想
分區域
非同一般的吃飯動作
主站蜘蛛池模板: 久久不卡精品| 日韩一级毛一欧美一国产| 99在线国产| 国产成人精品视频一区二区电影| 亚洲精品视频免费看| 欧美特黄一级大黄录像| 国产特级毛片aaaaaaa高清| 国产在线一二三区| 国模视频一区二区| 欧美午夜性视频| 国产高清色视频免费看的网址| 一区二区三区在线不卡免费| 国产成人一区| 国产成人毛片| 国产精品视频a| 超碰aⅴ人人做人人爽欧美| 熟女日韩精品2区| 91久久大香线蕉| 中国国语毛片免费观看视频| 538国产在线| 国产成人精品综合| 萌白酱国产一区二区| 97国内精品久久久久不卡| 狠狠色噜噜狠狠狠狠奇米777| 色有码无码视频| 岛国精品一区免费视频在线观看| 性喷潮久久久久久久久| 亚洲日本www| 国产美女在线观看| 再看日本中文字幕在线观看| 亚洲国产成人麻豆精品| 日本成人精品视频| 3D动漫精品啪啪一区二区下载| 成人综合在线观看| 毛片网站在线播放| 日韩性网站| 毛片在线播放a| 免费国产好深啊好涨好硬视频| 五月天综合婷婷| 国产毛片基地| 欧美一区日韩一区中文字幕页| AV不卡无码免费一区二区三区| 欧美一级一级做性视频| 中文字幕天无码久久精品视频免费| 久久精品亚洲专区| 成人国产精品一级毛片天堂| 草逼视频国产| 91精品国产一区自在线拍| 97影院午夜在线观看视频| 婷婷激情五月网| 亚洲V日韩V无码一区二区| 欧美精品一区在线看| 一级毛片免费观看久| 99视频在线免费观看| 国产第一页亚洲| 国产精品男人的天堂| 国产乱人伦AV在线A| 97精品国产高清久久久久蜜芽 | 一区二区日韩国产精久久| 亚洲—日韩aV在线| www.91在线播放| 国产小视频在线高清播放 | 欧美狠狠干| 久久一色本道亚洲| 国产成人免费手机在线观看视频| 欧美精品影院| 性网站在线观看| 亚洲中文字幕手机在线第一页| 波多野结衣中文字幕一区二区| 91午夜福利在线观看精品| 成年人免费国产视频| 中文无码日韩精品| 国产av色站网站| 中文字幕乱妇无码AV在线| 日本一区二区不卡视频| 久久香蕉国产线看观| 亚洲成人高清无码| 国产h视频免费观看| 99成人在线观看| 片在线无码观看| 国产无码精品在线播放| 亚洲国产亚综合在线区|