999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向綜合能源系統的多智能體協同AGC策略

2022-05-09 01:09:16席磊王昱昊陳宋宋陳珂孫夢夢周禮鵬
電機與控制學報 2022年4期
關鍵詞:動作區域智能

席磊, 王昱昊, 陳宋宋, 陳珂, 孫夢夢, 周禮鵬

(1.三峽大學 電氣與新能源學院,湖北 宜昌 443002; 2.中國電力科學研究院有限公司 需求側多能互補優化與供需互動技術北京市重點實驗室,北京 100192)

0 引 言

高比例接入的風、光、生物質能等多種類型分布式能源、電動汽車及能量轉換裝置會給電網帶來強隨機擾動,嚴重影響電網安全穩定運行[1]。學者們試圖從自動發電控制(automatic generation control,AGC)角度進行探索,以解決隨機擾動帶來的控制性能下降問題。AGC實際上是一個多級動態決策過程,以實現全系統發電出力和負荷功率相匹配[2]。按照控制策略設計和實現方式的不同,當前AGC控制策略包括傳統解析式和機器學習等[3]。前者以比例-積分-微分(proportional-integral-derivative,PID)控制[4]為代表。文獻[5]提出了基于隨機帝國競爭算法的級聯模糊分數階CFFOPI-FOPID控制器,在發生負荷擾動后能夠快速將區域頻率和聯絡線功率的偏差收斂到零,最終獲取最優AGC控制性能。

然而,上述傳統PID控制框架下的集中式AGC控制系統的控制參數固定,且基于單一的區域控制偏差(area control error,ACE)確定系統總的調節功率,控制機組出力,會導致AGC動態性能較差。隨著多種形式能源以及微電網的開發利用,電網的結構模式及能量管理系統逐步走向分散,基于傳統PID控制框架下的集中式AGC控制策略已逐漸不能夠滿足如此復雜的電網需求[6]。而對于分布式多區域電網,區域間信息交互方式靈活復雜,具有協同和自學習屬性的多智能體強化學習方法[7]逐漸被學者們應用到分布式多區域電網中。

隨著“碳達峰”和“碳中和”的提出,以新能源為主體的新型電力系統勢在必行,電力系統結構將發生巨變[8]。此模式下為了追求更高的控制精度,需要智能體從環境中感知更多的狀態特征。因此,對系統狀態和決策動作均進行了離散化的傳統強化學習方法,在面對高維且連續性的狀態空間和動作空間時,智能體的收斂速度和控制精度也會大幅下降[9]。學者們發現,神經網絡強大的特征提取能力和函數擬合能力,一定程度上能夠提高強化學習決策的正確性與控制效率。例如,文獻[10]提出相比于經典強化學習中基于有限維度Q表的智能體,基于深度Q網絡(deep Q network,DQN)[11]訓練的智能體理論上具有更強的感知電網復雜運行態勢的能力,能夠實現多智能體的相互博弈,從而使AGC探索到最優解。

然而,在面對高維且連續性的狀態空間和動作空間時,上述Q框架體系下的傳統啟發式方法在平衡“探索-利用”過程中,面對隨機低質量樣本帶來的當前Q值與目標Q值誤差較大的問題仍沒有解決。同時,上述多智能體深度強化學習所采用的經驗回放機制,僅是在經驗中繼存儲器中等概率地對樣本數據進行采樣,這種方式忽略了各個樣本之間的重要性差異,導致網絡訓練緩慢[12]。

針對上述兩個問題,本文提出具有基于置信區間上界(upper confidence bound,UCB)的深度強化學習算法(deep Q network-upper confidence bound,DQN-UCB)。UCB策略通過感知樣本的歷史經驗,一方面,解決Q框架體系下的傳統啟發式方法在平衡“探索-利用”過程中,面對隨機低質量樣本帶來的當前Q值與目標Q值誤差較大的問題;另一方面,提高未被選擇的樣本和表現優秀的樣本被選取的概率,樣本的多樣性得到增加,使智能體能更有效率地選擇動作,進而獲取分布式多區域電網的最優協同。通過對不同模型在多種工況條件下進行大量仿真,驗證了所提算法的有效性。

1 DQN-UCB算法

DQN-UCB算法通過運用UCB策略[13]限制誤差以及解決采樣問題,最終獲得分布式多區域綜合能源系統的最優協同。

1.1 DQN

基于Q學習和深度神經網絡的DQN是一種值函數迭代的深度強化學習算法。采用經驗回放機制,將智能體與環境交互得到的獎勵值及狀態更新情況以記憶單元(sk,ak,rk,sk+1)的形式作為樣本儲存,通過最小化損失函數進行神經網絡的訓練,更新網絡參數為

(1)

(2)

每經過C輪迭代,將當前值網絡的參數θ復制給目標值網絡θ-,表達式為

(3)

式中θk+C為經過C步延遲后當前網絡參數。

通過延遲參數更新的方式降低當前網絡Q與目標網絡Q-的相關性,進而提升了算法的穩定性。

然而,DQN中等概率隨機采樣不能充分利用有價值的樣本數據,導致學習效率低下;同時,智能體在探索初始階段受ε-貪婪策略[12]影響,單次隨機低質量樣本使當前Q值與目標Q值之間誤差較大,導致智能體無法快速探索到最優策略。

1.2 Q-UCB

Q框架體系下的強化學習或深度強化學習大多采用ε-貪婪策略、SoftMax策略[14]等啟發式策略。上述兩種策略分別是在貪婪策略或確定性策略的基礎上,只將每個動作的回報或者平均回報作為選擇的依據,并且“探索-利用”的平衡很容易受到參數初始化的影響,使潛在最優動作被訪問的概率相對較低,不利于智能體探索到最優動作。

UCB策略通過考慮探索過程中產生的平均獎賞值和其對應的置信度構成的動作指標值大小進行動作選擇,這在一定程度上消除了上述策略參數初始化的影響。第k個指標值表達式為

(4)

文獻[15-16]在強化學習Q算法中融合UCB策略,即在每次動作選擇過程中充分利用歷史信息,并且遵循樂觀原則選擇區間上界作為每次動作值函數的值,做出最優動作決策。智能體的最終目標是在狀態s下選擇最優動作值函數Q*對應的最優動作a。但是,第k次迭代中,真實的Qk+1(sk,ak)是未知的,且估計的Q值與真實的Q值之間存在誤差,利用霍夫丁(Hoeffding)[15]不等式限制這一誤差,表達式為

Qk+1(sk,ak)-Q(sk,ak)≤bτ。

(5)

式中bτ表示信心獎勵或者置信度,表明算法對當前狀態-動作對的確定程度,即

(6)

式中:c為大于0的絕對常數;S和A分別為外部環境所有可能的狀態集合和智能體可能產生的動作集合;k為到目前為止總共的迭代次數;τ為智能體對狀態-動作對的訪問次數;q為置信度因子。最優策略取式(5)的上界,可表示為

(7)

1.3 DQN-UCB

受Q-UCB啟發,本文在DQN基礎上引入UCB思想,提出DQN-UCB控制策略。DQN-UCB構建了兩個結構相同的神經網絡,即當前網絡θ和目標網絡θ-,均采用深度學習中反向傳播算法,分別擬合當前Q值與目標Q值。DQN-UCB算法框架如圖1所示。

圖1 DQN-UCB算法框架Fig.1 DQN-UCB framework

(8)

通過神經網絡的梯度反向傳播更新網絡參數θk和θk-為

θk+1=θk+α▽θkLk(θk)。

(9)

式中α為學習率。當前網絡參數實時更新,目標網絡參數每隔C步更新同式(3)。

目標值函數為

(10)

同時,針對DQN所采用的經驗回放中采樣機制的問題,提出基于UCB的優先級采樣方式,如圖1虛線部分。在每一次執行動作后,從經驗中繼存儲器中提取樣本,計算樣本優先級并執行歸一化操作,可以優先選取經驗中繼存儲器中優秀的樣本,從而使智能體選擇最優動作。

對于每個樣本的選取概率更新公式為:

(11)

(12)

式中:pi是選取第i個樣本的概率,初始時,所有樣本被選取的概率相等,即pk,i=pk,j(i,j∈[1,N])且滿足Σpi=1,N為樣本總個數,即|S|×|A|;每次迭代后對所有樣本被選取的概率進行歸一化操作,如式(12)所示;ri為第i個樣本所得到的獎賞值,k是目前為止的采樣步數;τi為第i個樣本被選擇的次數;c是探索權重,當c=0時,以等概率方式選取樣本。

2 AGC系統設計

多區域協同的分布式AGC系統框架如圖2所示。區域電網調度中心實時監測ACE和互聯電網頻率偏差Δf,通過調節AGC功率調節指令ΔPord對ACE進行閉環校正控制,并依據控制性能標準(control performance standards,CPS)和Δf(變化范圍不得超過±0.2 Hz)來評估區域電網控制性能。

圖2 分布式多區域AGC架構Fig.2 Distributed multi-region AGC architecture

分布式AGC系統的狀態Si由區域電網實時監控的環境狀態量(ACE/Δf/CPS數據及長期歷史記錄)構成,將功率離散集Ai={-50,-40,-30, -20,-10,0,10,20,30,40,50}MW定義為控制動作。控制器輸出最優控制信號,即該區域系統總的調節功率指令ΔPord-k。

2.1 獎勵函數

以區域控制誤差瞬時值ACE(k)和頻率偏差絕對值|Δf(k)|的線性加權作為綜合目標獎勵函數,獲取最優AGC機組出力,在最優AGC控制策略下達到系統功率平衡。對ACE和Δf的量綱進行歸一化處理,獎勵函數表示為

R(k)=-η|Δf(k)|-(1-η)[ACE(k)]2/1000。

(13)

式中η和1-η分別為|Δf(k)|和ACE(k)的權重系數,這里選擇η=0.5。

2.2 參數設置

為了保證在線學習效果,需要對5個參數α、γ、q、c、N進行合理設置,參數設置如表1所示。

表1 DQN-UCB算法參數

2.3 算法流程

DQN-UCB的算法流程圖如圖3所示。

圖3 基于DQN-UCB策略的執行流程Fig.3 Execution process based on DQN-UCB strategy

3 算例分析

3.1 IEEE標準兩區域LFC模型

以典型IEEE標準兩區域負荷頻率控制模型[17]作為研究對象,結構如圖4所示,該系統基準容量為5 000 MW,工作周期為4 s。

圖4 IEEE標準兩區域負荷頻率控制模型Fig.4 IEEE standard two-area load frequency control model

在線運行前,DQN-UCB需充分進行隨機探索試錯訓練,使控制器在預學習階段收斂于最優控制策略,再投入到在線運行環境。

3.1.1 預學習

預學習階段采用正弦負荷擾動(周期1 200 s,幅值1 000 MW,時長10 000 s)對DQN-UCB進行訓練。DQN-UCB兩區域負荷擾動下預學習收斂過程及性能指標如圖5所示。由圖5(a)可見DQN-UCB控制器輸出功率可以快速跟蹤負荷擾動曲線。圖5(b)為A、B兩區域CPS1預學習階段的變化曲線,可知CPS1經過一個微小的調整后,快速收斂到一個穩定范圍內,兩區域對應的指標分別是199.977%、199.981%,說明所提算法CPS1指標已滿足最優策略要求。圖5(c)顯示了頻率變化過程,兩區域的Δfmax(最大頻率偏差)分別為0.002 5、0.001 9 Hz。經過分析,在預學習階段的各項指標均達到要求,可將控制器投入在線運行狀態。

圖5 A、B區域DQN-UCB預學習效果Fig.5 Pre-learning of DQN-UCB in area A and B

此外,為了展示所提算法的收斂性能,引入Q[17]、PDWoLF-PHC(λ)[7]、Q-UCB、DQN[10]與所提算法進行對比分析,在相同的仿真環境下集中進行訓練,得到智能體訓練過程的平均獎勵值收斂圖如圖6所示。

圖6 平均獎勵值收斂圖Fig.6 Convergence graph of average reward value

由圖6可知,DQN-UCB策略相比其他4種策略具有更好的訓練效果,大約2 400 s時能收斂至最優解,收斂速度較其他策略提高3~5倍。且由于DQN-UCB通過獎賞、時間步和采樣次數等歷史信息作為經驗中繼存儲器樣本優先級考量指標,使更有價值樣本的被選概率得到一定程度的提高,因此獎勵值振蕩次數及幅度均小于其他策略,表明其具有更優越的動態性能。

3.1.2 隨機負荷擾動

考慮到眾多分布式能源的間歇性和強隨機性,引入隨機負荷擾動,分析上述5種策略在復雜環境下的動態控制性能。圖7為5種策略在相同測試條件下的控制器出力變化圖,其中間實線表示以60 s為單位時間繪制的負荷需求平均值。而覆蓋實線的區域表示不同控制器在單位時間內輸出功率上下限組成的動態調節范圍,可以看出,5種策略均能實現與擾動變化步調一致的均衡調節。但在同一時刻下,DQN-UCB的覆蓋面積最小,表示基于DQN-UCB的AGC控制器出力范圍更逼近負荷平均值,功率控制偏差最小,能夠實現更優的動態控制效果。5種算法性能對比如圖8所示,相比于其他算法,DQN-UCB能使頻率偏差的平均值|Δf|降低41.47%~57.47%,CPS1的平均值提高0.436%~1.46%,|ACE|的平均值降低48.93%~62.13%。

圖7 5種算法控制器輸出曲線Fig.7 Output curves of five algorithm controllers

圖8 隨機負荷擾動下5種算法性能對比Fig.8 Performance comparison of five algorithms under random load disturbance

3.1.3 連續階躍負荷擾動

采用幅值為500、1 000、 1 500 MW的連續階躍負荷擾動進行測試,模擬電網中單位時間段內負荷連續增加的環境。圖9為5種控制器的在線優化曲線,可知DQN-UCB在電力系統中發生負荷突增的情況時能夠迅速跟隨負荷變化,曲線變化幅度限制在最小范圍內。圖10為各算法在該擾動下的頻率指標,其中,各算法的|Δf|平均值分別為0.010 4、0.002 5、0.001 5、0.001 2、0.000 56 Hz,對比各算法DQN-UCB有94.61%的提升。表明了所提算法能減少頻率偏移,具備較強動態控制性能。

圖9 連續階躍負荷擾動下控制器輸出曲線Fig.9 Controller output curve under continuous step load disturbance

圖10 5種算法在連續階躍負荷擾動下的頻率對比Fig.10 Frequency comparison of five algorithms under continuous step load disturbance

3.2 綜合能源系統模型

搭建分布式多區域綜合能源系統模型,其中,冷熱電聯產系統(combined cooling heating and power,CCHP)的加入能更加逼近真實的綜合能源系統,實現能源的梯級利用。CCHP系統結構如圖11所示,各機組的相關參數如表2所示,綜合能源系統模型如圖12所示。

圖11 CCHP系統原理圖Fig.11 Principle of the CCHP system

表2 綜合能源系統模型機組相關參數

圖12 四區域綜合能源系統結構Fig.12 Four-region integrated energy system structure

3.2.1 白噪聲負荷擾動

引入白噪聲負荷擾動來模擬在未知分布式能源大規模并網環境下,電力系統負荷隨機變化的復雜工作條件。圖13為5種算法在白噪聲負荷擾動下控制器輸出曲線,可以看出相比其他策略,DQN-UCB控制器對負荷變化有更快更平滑的跟蹤效果,符合機組二次調頻過程越平滑,發電效率越高的特點。白噪聲擾動下各算法的頻率變化曲線如圖14所示,表明所提策略的|Δf|平均值能夠減小50%~89.09%,具備穩定的控制性能。

圖13 5種算法在白噪聲負荷擾動下控制器輸出曲線Fig.13 Output curves of five algorithms under white noise load disturbance

圖14 白噪聲擾動下5種算法的頻率變化曲線Fig.14 Frequency variation curves of five algorithms under the disturbance of white noise

3.2.2 隨機方波負荷擾動

為了進一步驗證DQN-UCB的控制表現,借助隨機方波負荷擾動來模擬電力系統中負荷不規則地突增、突減情況。圖15為隨機方波擾動下DQN-UCB的輸出曲線,可以看出所提策略可以快速準確地實時跟蹤負荷擾動。表3給出了在隨機方波擾動下不同算法仿真試驗指標結果,可知,在區域1中,與其他算法相比,所提策略的|Δf|的平均值下降了45.19%~73.09%,|ACE|下降了52.11%~78.85%,CPS1提高了0.67%~2.46%,適應性及穩定性滿足實際要求。

圖15 DQN-UCB控制器輸出曲線Fig.15 DQN-UCB controller output curve

表3 隨機方波擾動下不同算法仿真試驗指標統計表

表3(續)

4 結 論

本文面向分布式多區域綜合能源系統,從AGC角度提出一種具有感知歷史經驗的多智能體深度強化學習DQN-UCB算法,在分布式能源大規模接入電網的背景下,解決產生的隨機擾動造成電網控制性能下降的問題。

所提算法對經驗中繼存儲器優先級采樣,提高了選擇優秀樣本的概率,進而提升探索效率,加快收斂速度。同時,UCB策略能夠降低當前Q值與目標Q值之間誤差,獲得多智能體協同的最優解,進而來提高分布式多區域綜合能源系統的控制性能。

通過對IEEE標準兩區域負荷頻率控制模型及集成多個分布式能源的綜合能源系統模型在多種不同負荷變化工況條件下進行仿真,結果表明,DQN-UCB相比其他算法擁有較強的自學習能力和穩定的控制效果,能夠獲得分布式多區域綜合能源系統的協同。

猜你喜歡
動作區域智能
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
動作描寫不可少
關于四色猜想
分區域
非同一般的吃飯動作
主站蜘蛛池模板: 尤物亚洲最大AV无码网站| 精品国产www| 尤物在线观看乱码| 成人夜夜嗨| 欧美中文字幕在线二区| 五月激情婷婷综合| 三上悠亚精品二区在线观看| 亚洲AV无码精品无码久久蜜桃| 久久黄色视频影| 久久综合九色综合97网| 欧亚日韩Av| 999精品在线视频| 亚洲αv毛片| 国产新AV天堂| 欧美一道本| 999精品色在线观看| 中美日韩在线网免费毛片视频| 欧美激情视频二区三区| a在线观看免费| 91在线视频福利| 亚洲色欲色欲www网| 97国产在线视频| 成年人国产网站| 国产aaaaa一级毛片| 国产成人做受免费视频| 国产AV无码专区亚洲精品网站| 99re热精品视频中文字幕不卡| 亚洲无码日韩一区| 色综合天天娱乐综合网| 日本影院一区| 精品一区二区无码av| 久久精品国产国语对白| 福利在线一区| 波多野结衣一级毛片| 亚洲热线99精品视频| 一本一道波多野结衣一区二区| 国产成年无码AⅤ片在线| 91精品国产一区自在线拍| 欧美日韩精品综合在线一区| 亚洲天堂日本| 久久精品91麻豆| 国产女人喷水视频| 色婷婷天天综合在线| 天天躁狠狠躁| 四虎国产成人免费观看| 成人日韩视频| 国产午夜人做人免费视频中文| 亚洲中文字幕久久精品无码一区 | 色婷婷在线播放| 一级做a爰片久久免费| 亚洲男人在线| 精品撒尿视频一区二区三区| 国产成人1024精品| 五月婷婷伊人网| 久久久久夜色精品波多野结衣| 成人福利在线观看| 国产精品福利尤物youwu| 国产激爽大片高清在线观看| 亚洲第一极品精品无码| 国产日韩丝袜一二三区| 在线国产91| 国产乱论视频| 91成人免费观看| 久久男人视频| 国产精品永久免费嫩草研究院| 久久综合一个色综合网| 一级毛片不卡片免费观看| 久久77777| 国产乱子伦一区二区=| 国产激爽爽爽大片在线观看| 欧美www在线观看| h视频在线播放| a级毛片免费在线观看| 在线观看视频一区二区| 影音先锋亚洲无码| 蝴蝶伊人久久中文娱乐网| 国产呦视频免费视频在线观看| 国产成人亚洲综合A∨在线播放| 亚洲精品欧美重口| www亚洲天堂| 在线观看视频99| 国产第一页亚洲|