999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MATSAC-LSTM 的綜合能源系統(tǒng)自動(dòng)發(fā)電控制算法研究

2023-10-31 09:39:38鄧棋宸
關(guān)鍵詞:區(qū)域智能模型

李 昊, 榮 娜, 鄧棋宸

(貴州大學(xué) 電氣工程學(xué)院, 貴陽(yáng) 550025)

0 引 言

隨著全球能源轉(zhuǎn)型,新能源大規(guī)模分散式接入電網(wǎng),致使電力系統(tǒng)隨機(jī)性、間歇性不斷增強(qiáng),傳統(tǒng)自動(dòng)發(fā)電控制(AGC) 策略已經(jīng)不滿足電網(wǎng)需求[1-2]。 因此,從AGC 策略的角度,尋找一種在綜合能源系統(tǒng)背景下有效提高系統(tǒng)安全穩(wěn)定運(yùn)行的控制策略具有重要意義[3-4]。

AGC 控制策略實(shí)際上是根據(jù)電網(wǎng)實(shí)時(shí)運(yùn)行工況在線計(jì)算出最優(yōu)決策[5]。 目前,AGC 控制策略可以分為傳統(tǒng)AGC 控制策略和智能AGC 動(dòng)態(tài)優(yōu)化策略。 傳統(tǒng)AGC 控制策略有模糊控制、自適應(yīng)控制、魯棒控制、 比例積分微分(Proportional Integral Derivative, PID)控制等方法。 文獻(xiàn)[6]使用自適應(yīng)烏鴉搜索算法提出了一個(gè)最優(yōu)模糊PID 控制器,將其應(yīng)用于非線性兩區(qū)域和三區(qū)域再熱系統(tǒng)的AGC,減少頻率偏差。 隨著大規(guī)模新能源接入電網(wǎng),數(shù)據(jù)維度變大,傳統(tǒng)PID 控制方法控制難度急劇增大。伴隨人工智能的進(jìn)步與發(fā)展,有關(guān)AGC 的智能算法也相繼應(yīng)用,試圖解決傳統(tǒng)控制方法暴露的問(wèn)題。

由于強(qiáng)化學(xué)習(xí)具有實(shí)時(shí)性和自適應(yīng)性,智能體可以與環(huán)境交互收集信息,不斷試錯(cuò)和探索,從而可以在綜合能源系統(tǒng)獲得最優(yōu)控制策略。 文獻(xiàn)[7]將Q 學(xué)習(xí)算法應(yīng)用于AGC,依靠Q值函數(shù)和控制性能標(biāo)準(zhǔn)(Control Performance Standards,CPS)控制動(dòng)作形成閉環(huán)反饋來(lái)形成最優(yōu)控制策略,增強(qiáng)了算法的適應(yīng)性和控制性能;文獻(xiàn)[8]提出多經(jīng)驗(yàn)池概率回放的雙延遲深度確定性策略梯度(Multiple Experience pool experience replay Twin Delayed deep deterministic policy gradient, ME-TD3)算法,采用不同概率從不同經(jīng)驗(yàn)池采樣,提高最優(yōu)策略的質(zhì)量;文獻(xiàn)[9]引入卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN),解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法中維數(shù)災(zāi)難的問(wèn)題,但缺乏考慮歷史狀態(tài)變化,造成局部最優(yōu)的問(wèn)題;文獻(xiàn)[10]提出一種基于動(dòng)態(tài)策略的贏或快速學(xué)習(xí)爬坡策略(Policy Dynamics based Win or Learn Fast Policy Hill-Climbing, PDWoLF-PHC)算法,通過(guò)改變學(xué)習(xí)率在各種復(fù)雜的電力系統(tǒng)環(huán)境中得到最優(yōu)策略,解決了新能源和分布式能源接入電網(wǎng)時(shí)產(chǎn)生的強(qiáng)隨機(jī)擾動(dòng)問(wèn)題,但由于采樣復(fù)雜度較高,算法收斂速度較慢。

為解決復(fù)雜綜合能源系統(tǒng)背景下AGC 算法收斂速度慢、控制性能差的問(wèn)題,本文提出了一種基于多智能體遷移柔性行動(dòng)器-批判器與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memory, MATSAC-LSTM)的算法,該算法具有更強(qiáng)魯棒性,最大熵政策可以使智能體具有更強(qiáng)的探索能力,能夠得到全局最優(yōu)解,融合遷移學(xué)習(xí)使得算法的收斂速度變快。 在一個(gè)修改的IEEE標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型和一個(gè)五區(qū)域綜合能源系統(tǒng)進(jìn)行了算例分析。 結(jié)果表明,該方法能有效提高系統(tǒng)的控制性能指標(biāo)和收斂速度,降低了系統(tǒng)的區(qū)域控制誤差和頻率偏差。

1 MATSAC-LSTM 算法

傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在AGC 應(yīng)用上收斂速度慢,控制性能差,因此本文在柔性行動(dòng)器-批判器(Soft Actor-Critic, SAC)算法的基礎(chǔ)上,用LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時(shí)序特征提取,作為MATSAC 算法的輸入,多智能體框架使得智能體之間信息共享,并通過(guò)遷移學(xué)習(xí)來(lái)解決收斂速度慢的問(wèn)題,進(jìn)而提出MATSAC-LSTM 算法來(lái)提高收斂速度和控制性能。

本文提出MATSAC-LSTM 算法架構(gòu)如圖1 所示。 本文所研究的AGC 系統(tǒng)是動(dòng)態(tài)隨機(jī)環(huán)境,MATSAC-LSTM 算法根據(jù)系統(tǒng)所處的狀態(tài)計(jì)算出相應(yīng)的獎(jiǎng)勵(lì)值,將當(dāng)前系統(tǒng)環(huán)境的狀態(tài)量作為MATSAC-LSTM 算法的輸入,智能體在每個(gè)控制周期中,給出最優(yōu)功率發(fā)電指令。

1.1 柔性行動(dòng)器-批判器算法

深度強(qiáng)化學(xué)習(xí)具有處理高維連續(xù)狀態(tài)-動(dòng)作空間的特點(diǎn),而柔性行動(dòng)器-批判器(SAC)算法是最好異策略深度強(qiáng)化學(xué)習(xí)算法之一,相較于雙延遲深度確定性策略梯度( Twin Delayed deep deterministic policy gradient, TD3)算法和近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法,該算法可以使政策的熵值和預(yù)期收益最大化,從而使樣本學(xué)習(xí)的效率得到提高,SAC 算法框架如圖2所示。

圖2 SAC 算法框架Fig.2 Framework of SAC algorithm

在SAC 算法中,概率策略的熵可以描述為式(1):

其中,st代表當(dāng)前智能體的狀態(tài),a代表當(dāng)前智能體的動(dòng)作。

在強(qiáng)化學(xué)習(xí)算法框架中的最大熵值函數(shù),可以描述為式(2):

其中,E代表數(shù)學(xué)期望;T為智能體和環(huán)境交互的時(shí)間步數(shù);at代表智能體在時(shí)間t執(zhí)行的動(dòng)作。

在SAC 算法中,有3 個(gè)神經(jīng)網(wǎng)絡(luò),分別是:V網(wǎng)絡(luò),Q網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。

V網(wǎng)絡(luò)Vψ(st) 由損失函數(shù)的均方誤差更新,式(3):

其中,D是訓(xùn)練樣本的經(jīng)驗(yàn)回放池,λV是V網(wǎng)絡(luò)的學(xué)習(xí)速率。

策略網(wǎng)絡(luò)π?(at |st) 可以由KL散度損失公式更新,式(4):

其中,λπ代表V 網(wǎng)絡(luò)的學(xué)習(xí)速率。

Q網(wǎng)絡(luò)Qπθ(st,at) 通過(guò)貝爾曼誤差公式進(jìn)行更新,式(5) 和式(6):

其中,r(st,at) 代表智能體執(zhí)行動(dòng)作時(shí)獲得的獎(jiǎng)勵(lì),Vˉψ(st) 代表目標(biāo)網(wǎng)絡(luò)。

1.2 多智能體遷移柔性行動(dòng)器-批判器算法

與SAC 算法相比,多智能體遷移柔性行動(dòng)器-批判器算法是將單智能體采用集中訓(xùn)練分散執(zhí)行(Centralized Training with Decentralized Execution,CTDE)框架拓展到多智能體。 在訓(xùn)練階段,本文在每個(gè)區(qū)域設(shè)置一個(gè)智能體,智能體的Actor 網(wǎng)絡(luò)和目標(biāo)Actor 網(wǎng)絡(luò)采集當(dāng)前狀態(tài)的環(huán)境信息和下一狀態(tài)的環(huán)境信息,然后生成智能體的當(dāng)前動(dòng)作和目標(biāo)動(dòng)作。 將一個(gè)智能體觀察的環(huán)境狀態(tài)量,以及其他智能體的動(dòng)作信息作為相應(yīng)智能體Critic 網(wǎng)絡(luò)的輸入,Critic 網(wǎng)絡(luò)輸出當(dāng)前動(dòng)作的Q值。 此外,每個(gè)智能體都有一個(gè)自己的經(jīng)驗(yàn)回放池,以提高M(jìn)ASAC算法的穩(wěn)定性。 在智能體收集足夠經(jīng)驗(yàn)回放池中的數(shù)據(jù)后,每個(gè)智能體從經(jīng)驗(yàn)回放池中隨機(jī)取樣來(lái)訓(xùn)練自己。 當(dāng)經(jīng)驗(yàn)回放池中有足夠的數(shù)據(jù)時(shí),智能體隨機(jī)抽樣得到的數(shù)據(jù)接近于獨(dú)立的相同分布,設(shè)置經(jīng)驗(yàn)回放池可以打破序列之間關(guān)聯(lián)性,避免模型陷入局部最優(yōu)。

1.3 基于LSTM 網(wǎng)絡(luò)的MASAC 框架構(gòu)建

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)網(wǎng)絡(luò)是在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)基礎(chǔ)上改進(jìn)的,每個(gè)LSTM 都是一組捕獲數(shù)據(jù)的單元,這些單元從一個(gè)模塊連接到另一個(gè)模塊,傳輸過(guò)去的數(shù)據(jù),并收集當(dāng)前的數(shù)據(jù)。LSTM 模型示意圖如圖3 所示。

LSTM 網(wǎng)絡(luò)包括3 個(gè)門:輸入門、輸出門和遺忘門,幫助LSTM 處理順序數(shù)據(jù)。遺忘門ft、輸入門it、輸出門ot由式(7)~式(9) 計(jì)算得出。

其中,xt,ht分別代表輸入層和輸出層;Wf,Wi,Wo,Wc是隱藏層輸入映射到3個(gè)門的權(quán)重矩陣;Uf,Ui,Uo,Uc是關(guān)于3 個(gè)門與輸入單元狀態(tài)之間連接相關(guān)的權(quán)重矩陣;bf,bi,bo,bc是偏差向量;σg是門激活函數(shù)。

計(jì)算得到的3 個(gè)門的輸出后,由式(10)和式(11)更新輸出:

其中,Ct代表長(zhǎng)期記憶信息,ht代表短期記憶信息。

在模型訓(xùn)練時(shí),LSTM 網(wǎng)絡(luò)將已經(jīng)輸出的記憶信息與電力系統(tǒng)的當(dāng)前狀態(tài)連接,傳遞給Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)作為輸入,使得智能體輸入的信息更加完整。

1.4 遷移學(xué)習(xí)

遷移學(xué)習(xí)涉及源領(lǐng)域和目標(biāo)領(lǐng)域,從源領(lǐng)域?qū)W習(xí)到的知識(shí)可以轉(zhuǎn)移到目標(biāo)領(lǐng)域,源領(lǐng)域和目標(biāo)領(lǐng)域相似,則知識(shí)轉(zhuǎn)移的過(guò)程相對(duì)容易,從而不考慮在兩者之間分布和適應(yīng)性方面的差異。 不同綜合能源系統(tǒng)由于其機(jī)組不同、結(jié)構(gòu)不同,所以其控制策略也有差異。 因此,遷移學(xué)習(xí)可以與SAC 算法相結(jié)合,從而使SAC 算法在AGC 中學(xué)習(xí)效率得到提高。 在遷移學(xué)習(xí)中,通常采用兩種策略,一種是傳遞學(xué)習(xí)模型的參數(shù);另一種是共享由以前訓(xùn)練過(guò)的智能體。本文采用第一種方法,即在源領(lǐng)域訓(xùn)練后的智能體向目標(biāo)領(lǐng)域智能體進(jìn)行參數(shù)傳遞。

2 基于MATSAC-LSTM 的AGC 設(shè)計(jì)

基于MATSAC-LSTM 算法的自動(dòng)發(fā)電控制是通過(guò)各個(gè)區(qū)域的智能體實(shí)時(shí)感知綜合能源系統(tǒng)中的環(huán)境信息,智能體通過(guò)收集當(dāng)前系統(tǒng)的環(huán)境信息狀態(tài)量作為MATSAC-LSTM 算法的輸入,以獎(jiǎng)勵(lì)函數(shù)作為目標(biāo)函數(shù),計(jì)算出相應(yīng)獎(jiǎng)勵(lì)值,算法在每個(gè)控制周期中,智能體輸出最優(yōu)動(dòng)作作為實(shí)際電網(wǎng)調(diào)度端所有機(jī)組最優(yōu)的總發(fā)電調(diào)節(jié)指令。

1、工資費(fèi)管理。工資費(fèi)用是人員費(fèi)用中最為敏感的話題,也是歷來(lái)審計(jì)查處的重點(diǎn)。直接費(fèi)用是課題組活動(dòng)中可以直接計(jì)入成本的費(fèi)用。包括人員費(fèi)、設(shè)備費(fèi)等其他研究過(guò)程中的經(jīng)費(fèi)。人員費(fèi)即課題組成員的工資性費(fèi)用。課題組成員所在單位有事業(yè)費(fèi)撥款的,由所在單位按照國(guó)家規(guī)定的標(biāo)準(zhǔn)從事業(yè)費(fèi)中及時(shí)足額支付給課題組成員,并按規(guī)定在課題預(yù)算的相關(guān)科目中列示,不得在國(guó)家資助的課題專項(xiàng)經(jīng)費(fèi)中重復(fù)列支。國(guó)家另有規(guī)定的,按照有關(guān)規(guī)定執(zhí)行。

綜合能源的控制性能可以通過(guò)區(qū)域控制偏差(Area Control Error, ACE)ACE 和CPS1 來(lái)衡量。

ACE 計(jì)算,式(12):

其中,Δf代表電網(wǎng)實(shí)際頻率與計(jì)劃頻率之差;ΔPT代表聯(lián)絡(luò)線上實(shí)際交換功率與計(jì)劃交換功率之差;B代表區(qū)域定義的頻率偏差系數(shù)。

CPS1 指標(biāo),式(13):

其中,ε1是互聯(lián)電網(wǎng)對(duì)全年1 min 頻率平均偏差均方根的控制目標(biāo)值,Δfmin代表相應(yīng)變量在1 min內(nèi)的平均值。

2.1 智能體設(shè)計(jì)

(1)狀態(tài)空間:對(duì)于任何時(shí)刻t,Si代表智能體在t時(shí)刻當(dāng)前的狀態(tài),可以用式(14)表示:

其中,ACEi是第i區(qū)域的區(qū)域控制誤差的瞬時(shí)值,Δfi是第i區(qū)域頻率偏差的瞬時(shí)值。

其中,ΔPGi是第i區(qū)域?qū)嶋H電網(wǎng)調(diào)度端所有機(jī)組的總發(fā)電調(diào)節(jié)指令。

(3)獎(jiǎng)勵(lì)函數(shù):將ACE作為目標(biāo)函數(shù),能夠使CPS 指標(biāo)保持高水平穩(wěn)定且功率限制在小范圍內(nèi)波動(dòng)。 而系統(tǒng)控制性能也能由頻率偏差的絕對(duì)值|Δf |的大小直接反應(yīng)。 本文將ACE和|Δf |作為算法的獎(jiǎng)勵(lì)函數(shù),并且對(duì)ACE和|Δf |的量綱進(jìn)行歸一化處理,獎(jiǎng)勵(lì)函數(shù)式(16):

其中,| ACE(t)|是t時(shí)刻ACE的絕對(duì)值;|Δf(t)|是t時(shí)刻頻率偏差的絕對(duì)值;α1和α2是|ACE(t)|和|Δf |的權(quán)重,且α1=α2=0.5。

2.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

本文智能體模型的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的輸入是LSTM 網(wǎng)絡(luò)的輸出,相較于其他神經(jīng)網(wǎng)絡(luò),LSTM 神經(jīng)網(wǎng)絡(luò)能夠更好的將歷史信息和目前的狀態(tài)信息結(jié)合起來(lái),生成最優(yōu)策略。 Actor 網(wǎng)絡(luò)設(shè)置3個(gè)全連接層,ReLU 激活函數(shù)層,Tanh 激活函數(shù)層,其結(jié)構(gòu)示意圖如圖4 所示。 Actor 神經(jīng)網(wǎng)絡(luò)的隱藏神經(jīng)元分別是:128、64、1;Critic 網(wǎng)絡(luò)的輸入為環(huán)境狀態(tài)和動(dòng)作的合集,也含3 個(gè)全連接層,ReLU 激活函數(shù)層,Tanh 激活函數(shù)層,最后輸出最優(yōu)策略,3 個(gè)全連接層的神經(jīng)元的個(gè)數(shù)分別是:64、32、1。

圖4 Actor 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Schematic diagram of Actor network structure

3 算例分析

為驗(yàn)證本文所提的MATSAC-LSTM 算法的有效性和適用性,在一個(gè)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型上采用多智能體柔性行動(dòng)器-批判器與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)算法驗(yàn)證LSTM 網(wǎng)絡(luò)和多智能體結(jié)合SAC 算法在AGC 中的控制效果,并通過(guò)遷移學(xué)習(xí)在一個(gè)五區(qū)域綜合能源系統(tǒng)模型上采用MATSAC-LSTM 算法進(jìn)行仿真實(shí)驗(yàn)。

模型中的一些參數(shù)的選擇將影響算法在自動(dòng)發(fā)電控制中的應(yīng)用效果。 這些參數(shù)按照以下原則選取:

(1)折扣因子:代表知識(shí)矩陣在更新過(guò)程中對(duì)過(guò)去獎(jiǎng)勵(lì)值的折扣。 如果累計(jì)的獎(jiǎng)勵(lì)值對(duì)實(shí)際問(wèn)題的求解影響大,則折扣因子選擇較大的值。 對(duì)于自動(dòng)發(fā)電控制而言,目前環(huán)境所得到的獎(jiǎng)勵(lì)的瞬時(shí)值更為重要,所以折扣因子選擇較小的值。

(2)學(xué)習(xí)率:如果設(shè)置太小,則算法收斂緩慢,但容易找到全局最優(yōu)解。 設(shè)置越大,算法的收斂速度越快,但可能導(dǎo)致算法無(wú)法收斂。 本文在引入遷移學(xué)習(xí)的方法后,算法已經(jīng)具有較好的先驗(yàn)知識(shí),所以學(xué)習(xí)率選擇較小的值。

(3)經(jīng)驗(yàn)池長(zhǎng)度:如果經(jīng)驗(yàn)池過(guò)大,則會(huì)導(dǎo)致無(wú)用的經(jīng)驗(yàn)加入到抽樣過(guò)程中;如果經(jīng)驗(yàn)池過(guò)小,則會(huì)導(dǎo)致算法不能通過(guò)經(jīng)驗(yàn)池的抽樣獲得最優(yōu)解。 本文通過(guò)大量實(shí)驗(yàn),選取1 000 000。

(4)dropout: dropout 如果過(guò)大則會(huì)影響算法的擬合能力;如果過(guò)小,則會(huì)導(dǎo)致數(shù)據(jù)樣本不足而過(guò)擬合。 本文在自動(dòng)發(fā)電過(guò)程中,會(huì)獲得大量樣本,所以dropout 選擇較小的值。

(5)批次大小:在一定范圍內(nèi),批次越大,引起訓(xùn)練震蕩越小,收斂精度越高。 但如果過(guò)大,則會(huì)增加訓(xùn)練時(shí)間,且收斂精度也不會(huì)提高。 本文進(jìn)行了大量的實(shí)驗(yàn),選取批次大小為512 最為有效。

通常,在不同環(huán)境下綜合能源系統(tǒng)的運(yùn)行工況會(huì)實(shí)時(shí)變化,需要設(shè)置不同的最優(yōu)參數(shù)才能尋求到不同環(huán)境下自動(dòng)發(fā)電控制的最優(yōu)解,但是這將耗費(fèi)大量時(shí)間,本文根據(jù)參數(shù)選取的原則和大量的實(shí)驗(yàn)仿真得到一組最優(yōu)的參數(shù)見(jiàn)表1。

表1 模型參數(shù)Tab.1 Parameters of model

3.1 一個(gè)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型

本文在IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型基礎(chǔ)上融入電池儲(chǔ)能、風(fēng)電、光伏。

3.1.1 智能體訓(xùn)練

MASAC-LSTM 算法分為離線訓(xùn)練和在線測(cè)試兩個(gè)階段。 離線訓(xùn)練階段,智能體的學(xué)習(xí)步長(zhǎng)為AGC 系統(tǒng)的控制周期,該標(biāo)準(zhǔn)算例中取4 s,不斷更新智能體的策略,使控制器的控制效果達(dá)到最優(yōu)。最終對(duì)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的第一個(gè)區(qū)域施加一個(gè)周期800 s,幅值1 000 MW,時(shí)間8000 s 的正弦負(fù)荷擾動(dòng)。

各種算法智能體學(xué)習(xí)過(guò)程如圖5 所示。 與PID、Q、TD3、PDWoLF-PHC、SAC 算法相比,MASAC-LSTM 算法在1 200 s 后,已經(jīng)能夠穩(wěn)定地跟蹤負(fù)載擾動(dòng)變化,能夠更準(zhǔn)確的跟蹤負(fù)荷擾動(dòng),收斂速度最快。 由 于 MATSAC - LSTM 算 法 可 以 通 過(guò)LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時(shí)序特征提取,并作為MATSAC 算法的輸入,使得智能體能夠結(jié)合歷史信息做出更優(yōu)的決策,因此使得獎(jiǎng)勵(lì)值震蕩次數(shù)減少,具有更好的動(dòng)態(tài)性能。

圖5 智能體學(xué)習(xí)過(guò)程Fig.5 The learning process of agents

3.1.2 階躍擾動(dòng)

為了評(píng)估MASAC-LSTM 算法的可靠性和魯棒性,引入振幅為1 000 MW 階躍擾動(dòng)。 基于Q、PID、TD3、PDWoLF-PHC、SAC、MASAC-LSTM 算法的在線測(cè)試結(jié)果如圖6 所示。 可以看出,MASAC-LSTM算法在兩個(gè)區(qū)域的ACE和Δf的峰值明顯小于其他3 種算法,說(shuō)明MASAC-LSTM 算法有效地減小了ACE的偏差,在220 s 內(nèi)MASAC-LSTM 算法可以使各區(qū)域達(dá)到穩(wěn)定。 區(qū)域聯(lián)絡(luò)線功率偏差A(yù)CE可以直接看出區(qū)域之間數(shù)據(jù)的共享程度以及多個(gè)區(qū)域之間協(xié)同控制的配合程度,MASAC-LSTM 算法采用了多智能體集中訓(xùn)練分散執(zhí)行框架,使智能體之間信息共享,有效實(shí)現(xiàn)多個(gè)區(qū)0 域之間的最優(yōu)協(xié)同控制。

圖6 階躍擾動(dòng)曲線Fig.6 Curve of step perturbation

3.1.3 方波擾動(dòng)

引入考核周期為1 500 s,幅值在800 MW 以內(nèi)的方波負(fù)荷擾動(dòng),5 種算法的控制性能見(jiàn)表2。 可以看出,MASAC-LSTM 的|Δf |的平均值降低0.002 2~0.004 Hz,|ACE |的平均值降低2.391~11.869 MW,CPS1 的平均值增加0.841%~2.311%。

表2 不同算法的控制性能Tab.2 Control performance of different algorithms

3.2 一個(gè)五區(qū)域綜合能源系統(tǒng)模型

隨著電網(wǎng)新能源占比提高,為了考慮大量分布能源并入電網(wǎng)造成的影響,本文構(gòu)建五區(qū)域綜合能源模型。 此模型在一個(gè)IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型上加入了電池儲(chǔ)能、風(fēng)電、光伏、熱電聯(lián)產(chǎn)、柴油發(fā)電、核能水電等機(jī)組,每個(gè)區(qū)域設(shè)置獨(dú)立的智能體,實(shí)現(xiàn)多智能體協(xié)同控制。

因?yàn)镸ASAC-LSTM 算法需要智能體與環(huán)境長(zhǎng)時(shí)間進(jìn)行交互,收集數(shù)據(jù)從而獲得最佳策略,本文對(duì)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的智能體向五區(qū)域綜合能源系統(tǒng)模型的智能體傳遞參數(shù),從而縮短智能體的訓(xùn)練時(shí)間。

第一組實(shí)驗(yàn)采用MASAC-LSTM 算法在構(gòu)建的五區(qū)域綜合能源系統(tǒng)模型上訓(xùn)練320 輪;第二組實(shí)驗(yàn)采用遷移學(xué)習(xí)的方法,將修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的第一層全連接層參數(shù)轉(zhuǎn)移到五區(qū)域綜合能源系統(tǒng)模型參數(shù)中;第三組實(shí)驗(yàn)將修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的訓(xùn)練模型Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的第一層和第二層全連接層轉(zhuǎn)移到五區(qū)域綜合能源系統(tǒng)模型參數(shù)中;第二組實(shí)驗(yàn)和第三組實(shí)驗(yàn)的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的輸出層都被重置,且將回放緩沖區(qū)清空,訓(xùn)練320 輪。

遷移學(xué)習(xí)訓(xùn)練曲線如圖7 所示。 由圖7 可見(jiàn),第一組實(shí)驗(yàn)的起始獎(jiǎng)勵(lì)為-26.7,第二組實(shí)驗(yàn)為-23.2,第三組實(shí)驗(yàn)為-21.2,說(shuō)明MATSAC-LSTM 算法使智能體能更好地收集經(jīng)驗(yàn);在100 輪時(shí),第三組實(shí)驗(yàn)獎(jiǎng)勵(lì)已經(jīng)達(dá)到-13,而第一組實(shí)驗(yàn)的獎(jiǎng)勵(lì)還在緩慢上升,MATSAC-LSTM 算法通過(guò)遷移學(xué)習(xí)可以使獎(jiǎng)勵(lì)增長(zhǎng)率變大;第一組實(shí)驗(yàn)最后獎(jiǎng)勵(lì)穩(wěn)定在-12.4,第二組實(shí)驗(yàn)為-9.1,第三組實(shí)驗(yàn)為-7.9,說(shuō)明通過(guò)遷移學(xué)習(xí)MATSAC-LSTM 算法在求解質(zhì)量方面得到提高。 實(shí)驗(yàn)結(jié)果說(shuō)明通過(guò)遷移學(xué)習(xí)將舊任務(wù)訓(xùn)練的Critic 和Actor 網(wǎng)絡(luò)模型參數(shù)轉(zhuǎn)移到新任務(wù)相應(yīng)模型參數(shù)中,可以減少整個(gè)算法的訓(xùn)練時(shí)間,而對(duì)于轉(zhuǎn)移模型參數(shù)的選擇,在重置輸入層和輸出層的基礎(chǔ)上,轉(zhuǎn)移的神經(jīng)網(wǎng)絡(luò)參數(shù)越多,訓(xùn)練的收斂速度越快,且尋優(yōu)結(jié)果也更好。

考慮到綜合能源系統(tǒng)的隨機(jī)性和間歇性,在五區(qū)域綜合能源系統(tǒng)中引入幅值為1 000 MW,持續(xù)時(shí)間為10 000 s 的隨機(jī)擾動(dòng),擾動(dòng)曲線如圖8 所示。

圖8 隨機(jī)擾動(dòng)曲線Fig.8 The curves of random disturbance

PID、Q、TD3、PDWoLF-PHC、SAC、MASAC-LSTM、MATSAC-LSTM 7 種算法在隨機(jī)擾動(dòng)下的控制性能如圖9 所示。 相較于其他算法,本文所提算法的|Δf |、|ACE |、穩(wěn)態(tài)誤差、超調(diào)量有所降低,CPS1 有所提高。

圖9 隨機(jī)擾動(dòng)下算法的控制性能Fig.9 Control performance of algorithms under random perturbance

4 結(jié)束語(yǔ)

本文提出了一種基于MATSAC-LSTM 的綜合能源系統(tǒng)自動(dòng)發(fā)電控制算法。 一個(gè)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型和一個(gè)五區(qū)域綜合能源系統(tǒng)模型的仿真結(jié)果表明,與傳統(tǒng)PID、Q、TD3、SAC 算法相比, 本文算法在CPS1,| ACE |,|Δf |,穩(wěn)態(tài)誤差,超調(diào)量等控制性能指標(biāo)均表現(xiàn)較優(yōu)。 此外,有以下幾點(diǎn)發(fā)現(xiàn):

(1)本文用LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時(shí)序特征提取,并作為MATSAC算法的輸入,使智能體能結(jié)合歷史信息進(jìn)行快速的有功功率分配決策;

(2)本文采用集中訓(xùn)練分散執(zhí)行框架,將一個(gè)智能體和環(huán)境的交互信息,以及其他智能體的動(dòng)作信息作為相應(yīng)智能體Critic 網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)了多智能體之間的信息共享;

(3)通過(guò)遷移學(xué)習(xí)將舊任務(wù)訓(xùn)練的Critic 和Actor 網(wǎng)絡(luò)模型參數(shù)轉(zhuǎn)移到新任務(wù)相應(yīng)模型參數(shù)中,可以提高智能體的訓(xùn)練效率。

猜你喜歡
區(qū)域智能模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
3D打印中的模型分割與打包
關(guān)于四色猜想
分區(qū)域
主站蜘蛛池模板: 青青草原国产精品啪啪视频| 久久综合干| 波多野结衣在线一区二区| 伊人久久婷婷| 日韩经典精品无码一区二区| 亚洲精品自拍区在线观看| 一级片一区| 欧洲欧美人成免费全部视频| 亚洲国产日韩欧美在线| 狠狠色噜噜狠狠狠狠色综合久 | 亚洲第一av网站| 亚洲国产一成久久精品国产成人综合| 色成人亚洲| 国产99在线观看| 色色中文字幕| 中文字幕久久精品波多野结| 亚洲伊人电影| 亚洲系列无码专区偷窥无码| 国产亚洲现在一区二区中文| 久久窝窝国产精品午夜看片| 国产人在线成免费视频| 国产区精品高清在线观看| 国产成人一区二区| 亚洲av无码人妻| 秋霞午夜国产精品成人片| 精品人妻无码中字系列| 国产福利微拍精品一区二区| 色天堂无毒不卡| 久久性妇女精品免费| 国产福利在线免费观看| 丁香婷婷激情网| 理论片一区| 欧美亚洲网| 国外欧美一区另类中文字幕| 欧美成一级| 亚洲人成色在线观看| 在线中文字幕网| 亚洲无码免费黄色网址| 在线观看免费人成视频色快速| 99精品福利视频| a级毛片免费看| 久久国产高清视频| 在线观看国产黄色| 中文字幕久久波多野结衣| 日韩精品亚洲一区中文字幕| 54pao国产成人免费视频| 亚洲中文字幕无码爆乳| 欧美日韩成人在线观看| 久久毛片基地| 精品久久国产综合精麻豆| 青青草国产精品久久久久| 青青青伊人色综合久久| 欧美精品在线免费| 在线播放精品一区二区啪视频| 免费一级成人毛片| 在线免费看片a| 国产Av无码精品色午夜| 日本人妻一区二区三区不卡影院 | 在线色国产| 午夜免费视频网站| 秋霞午夜国产精品成人片| 久精品色妇丰满人妻| 国产精品久久久久久久伊一| 精品国产香蕉伊思人在线| 国产电话自拍伊人| 国产精品黄色片| 天天色天天操综合网| 天堂成人av| 午夜福利网址| 国产精品无码久久久久AV| 国内a级毛片| 青青草国产一区二区三区| 亚洲人成人伊人成综合网无码| 国产美女91视频| 亚洲综合精品第一页| 国产精品亚洲片在线va| 国产国语一级毛片在线视频| 啊嗯不日本网站| 国产浮力第一页永久地址| 在线看国产精品| 亚洲精品第1页| 一级一毛片a级毛片|