基于MATSAC-LSTM 的綜合能源系統(tǒng)自動(dòng)發(fā)電控制算法研究

2023-10-31 09:39:38鄧棋宸

智能計(jì)算機(jī)與應(yīng)用 2023年10期

李昊，榮娜，鄧棋宸

（貴州大學(xué) 電氣工程學(xué)院，貴陽(yáng) 550025）

0 引言

隨著全球能源轉(zhuǎn)型，新能源大規(guī)模分散式接入電網(wǎng)，致使電力系統(tǒng)隨機(jī)性、間歇性不斷增強(qiáng)，傳統(tǒng)自動(dòng)發(fā)電控制（AGC）策略已經(jīng)不滿足電網(wǎng)需求［1-2］。因此，從AGC 策略的角度，尋找一種在綜合能源系統(tǒng)背景下有效提高系統(tǒng)安全穩(wěn)定運(yùn)行的控制策略具有重要意義［3-4］。

AGC 控制策略實(shí)際上是根據(jù)電網(wǎng)實(shí)時(shí)運(yùn)行工況在線計(jì)算出最優(yōu)決策［5］。目前，AGC 控制策略可以分為傳統(tǒng)AGC 控制策略和智能AGC 動(dòng)態(tài)優(yōu)化策略。傳統(tǒng)AGC 控制策略有模糊控制、自適應(yīng)控制、魯棒控制、比例積分微分（Proportional Integral Derivative， PID）控制等方法。文獻(xiàn)［6］使用自適應(yīng)烏鴉搜索算法提出了一個(gè)最優(yōu)模糊PID 控制器，將其應(yīng)用于非線性兩區(qū)域和三區(qū)域再熱系統(tǒng)的AGC，減少頻率偏差。隨著大規(guī)模新能源接入電網(wǎng)，數(shù)據(jù)維度變大，傳統(tǒng)PID 控制方法控制難度急劇增大。伴隨人工智能的進(jìn)步與發(fā)展，有關(guān)AGC 的智能算法也相繼應(yīng)用，試圖解決傳統(tǒng)控制方法暴露的問(wèn)題。

由于強(qiáng)化學(xué)習(xí)具有實(shí)時(shí)性和自適應(yīng)性，智能體可以與環(huán)境交互收集信息，不斷試錯(cuò)和探索，從而可以在綜合能源系統(tǒng)獲得最優(yōu)控制策略。文獻(xiàn)［7］將Q 學(xué)習(xí)算法應(yīng)用于AGC，依靠Q值函數(shù)和控制性能標(biāo)準(zhǔn)（Control Performance Standards，CPS）控制動(dòng)作形成閉環(huán)反饋來(lái)形成最優(yōu)控制策略，增強(qiáng)了算法的適應(yīng)性和控制性能；文獻(xiàn)［8］提出多經(jīng)驗(yàn)池概率回放的雙延遲深度確定性策略梯度（Multiple Experience pool experience replay Twin Delayed deep deterministic policy gradient， ME-TD3）算法，采用不同概率從不同經(jīng)驗(yàn)池采樣，提高最優(yōu)策略的質(zhì)量；文獻(xiàn)［9］引入卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Network，CNN），解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法中維數(shù)災(zāi)難的問(wèn)題，但缺乏考慮歷史狀態(tài)變化，造成局部最優(yōu)的問(wèn)題；文獻(xiàn)［10］提出一種基于動(dòng)態(tài)策略的贏或快速學(xué)習(xí)爬坡策略（Policy Dynamics based Win or Learn Fast Policy Hill-Climbing， PDWoLF-PHC）算法，通過(guò)改變學(xué)習(xí)率在各種復(fù)雜的電力系統(tǒng)環(huán)境中得到最優(yōu)策略，解決了新能源和分布式能源接入電網(wǎng)時(shí)產(chǎn)生的強(qiáng)隨機(jī)擾動(dòng)問(wèn)題，但由于采樣復(fù)雜度較高，算法收斂速度較慢。

為解決復(fù)雜綜合能源系統(tǒng)背景下AGC 算法收斂速度慢、控制性能差的問(wèn)題，本文提出了一種基于多智能體遷移柔性行動(dòng)器-批判器與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memory， MATSAC-LSTM）的算法，該算法具有更強(qiáng)魯棒性，最大熵政策可以使智能體具有更強(qiáng)的探索能力，能夠得到全局最優(yōu)解，融合遷移學(xué)習(xí)使得算法的收斂速度變快。在一個(gè)修改的IEEE標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型和一個(gè)五區(qū)域綜合能源系統(tǒng)進(jìn)行了算例分析。結(jié)果表明，該方法能有效提高系統(tǒng)的控制性能指標(biāo)和收斂速度，降低了系統(tǒng)的區(qū)域控制誤差和頻率偏差。

1 MATSAC-LSTM 算法

傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在AGC 應(yīng)用上收斂速度慢，控制性能差，因此本文在柔性行動(dòng)器-批判器（Soft Actor-Critic， SAC）算法的基礎(chǔ)上，用LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時(shí)序特征提取，作為MATSAC 算法的輸入，多智能體框架使得智能體之間信息共享，并通過(guò)遷移學(xué)習(xí)來(lái)解決收斂速度慢的問(wèn)題，進(jìn)而提出MATSAC-LSTM 算法來(lái)提高收斂速度和控制性能。

本文提出MATSAC-LSTM 算法架構(gòu)如圖1 所示。本文所研究的AGC 系統(tǒng)是動(dòng)態(tài)隨機(jī)環(huán)境，MATSAC-LSTM 算法根據(jù)系統(tǒng)所處的狀態(tài)計(jì)算出相應(yīng)的獎(jiǎng)勵(lì)值，將當(dāng)前系統(tǒng)環(huán)境的狀態(tài)量作為MATSAC-LSTM 算法的輸入，智能體在每個(gè)控制周期中，給出最優(yōu)功率發(fā)電指令。

1.1 柔性行動(dòng)器-批判器算法

深度強(qiáng)化學(xué)習(xí)具有處理高維連續(xù)狀態(tài)-動(dòng)作空間的特點(diǎn)，而柔性行動(dòng)器-批判器（SAC）算法是最好異策略深度強(qiáng)化學(xué)習(xí)算法之一，相較于雙延遲深度確定性策略梯度（ Twin Delayed deep deterministic policy gradient， TD3）算法和近端策略優(yōu)化（Proximal Policy Optimization， PPO）算法，該算法可以使政策的熵值和預(yù)期收益最大化，從而使樣本學(xué)習(xí)的效率得到提高，SAC 算法框架如圖2所示。

圖2 SAC 算法框架Fig.2 Framework of SAC algorithm

在SAC 算法中，概率策略的熵可以描述為式（1）：

其中，st代表當(dāng)前智能體的狀態(tài)，a代表當(dāng)前智能體的動(dòng)作。

在強(qiáng)化學(xué)習(xí)算法框架中的最大熵值函數(shù)，可以描述為式（2）：

其中，E代表數(shù)學(xué)期望；T為智能體和環(huán)境交互的時(shí)間步數(shù)；at代表智能體在時(shí)間t執(zhí)行的動(dòng)作。

在SAC 算法中，有3 個(gè)神經(jīng)網(wǎng)絡(luò)，分別是：V網(wǎng)絡(luò)，Q網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。

V網(wǎng)絡(luò)Vψ（st）由損失函數(shù)的均方誤差更新，式（3）：

其中，D是訓(xùn)練樣本的經(jīng)驗(yàn)回放池，λV是V網(wǎng)絡(luò)的學(xué)習(xí)速率。

策略網(wǎng)絡(luò)π?（at ｜st）可以由KL散度損失公式更新，式（4）：

其中，λπ代表V 網(wǎng)絡(luò)的學(xué)習(xí)速率。

Q網(wǎng)絡(luò)Qπθ（st，at）通過(guò)貝爾曼誤差公式進(jìn)行更新，式（5）和式（6）：

其中，r（st，at）代表智能體執(zhí)行動(dòng)作時(shí)獲得的獎(jiǎng)勵(lì)，Vˉψ（st）代表目標(biāo)網(wǎng)絡(luò)。

1.2 多智能體遷移柔性行動(dòng)器-批判器算法

與SAC 算法相比，多智能體遷移柔性行動(dòng)器-批判器算法是將單智能體采用集中訓(xùn)練分散執(zhí)行（Centralized Training with Decentralized Execution，CTDE）框架拓展到多智能體。在訓(xùn)練階段，本文在每個(gè)區(qū)域設(shè)置一個(gè)智能體，智能體的Actor 網(wǎng)絡(luò)和目標(biāo)Actor 網(wǎng)絡(luò)采集當(dāng)前狀態(tài)的環(huán)境信息和下一狀態(tài)的環(huán)境信息，然后生成智能體的當(dāng)前動(dòng)作和目標(biāo)動(dòng)作。將一個(gè)智能體觀察的環(huán)境狀態(tài)量，以及其他智能體的動(dòng)作信息作為相應(yīng)智能體Critic 網(wǎng)絡(luò)的輸入，Critic 網(wǎng)絡(luò)輸出當(dāng)前動(dòng)作的Q值。此外，每個(gè)智能體都有一個(gè)自己的經(jīng)驗(yàn)回放池，以提高M(jìn)ASAC算法的穩(wěn)定性。在智能體收集足夠經(jīng)驗(yàn)回放池中的數(shù)據(jù)后，每個(gè)智能體從經(jīng)驗(yàn)回放池中隨機(jī)取樣來(lái)訓(xùn)練自己。當(dāng)經(jīng)驗(yàn)回放池中有足夠的數(shù)據(jù)時(shí)，智能體隨機(jī)抽樣得到的數(shù)據(jù)接近于獨(dú)立的相同分布，設(shè)置經(jīng)驗(yàn)回放池可以打破序列之間關(guān)聯(lián)性，避免模型陷入局部最優(yōu)。

1.3 基于LSTM 網(wǎng)絡(luò)的MASAC 框架構(gòu)建

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long-Short Term Memory，LSTM）網(wǎng)絡(luò)是在循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network， RNN）基礎(chǔ)上改進(jìn)的，每個(gè)LSTM 都是一組捕獲數(shù)據(jù)的單元，這些單元從一個(gè)模塊連接到另一個(gè)模塊，傳輸過(guò)去的數(shù)據(jù)，并收集當(dāng)前的數(shù)據(jù)。LSTM 模型示意圖如圖3 所示。

LSTM 網(wǎng)絡(luò)包括3 個(gè)門：輸入門、輸出門和遺忘門，幫助LSTM 處理順序數(shù)據(jù)。遺忘門ft、輸入門it、輸出門ot由式（7）～式（9）計(jì)算得出。

其中，xt，ht分別代表輸入層和輸出層；Wf，Wi，Wo，Wc是隱藏層輸入映射到3個(gè)門的權(quán)重矩陣；Uf，Ui，Uo，Uc是關(guān)于3 個(gè)門與輸入單元狀態(tài)之間連接相關(guān)的權(quán)重矩陣；bf，bi，bo，bc是偏差向量；σg是門激活函數(shù)。

計(jì)算得到的3 個(gè)門的輸出后，由式（10）和式（11）更新輸出：

其中，Ct代表長(zhǎng)期記憶信息，ht代表短期記憶信息。

在模型訓(xùn)練時(shí)，LSTM 網(wǎng)絡(luò)將已經(jīng)輸出的記憶信息與電力系統(tǒng)的當(dāng)前狀態(tài)連接，傳遞給Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)作為輸入，使得智能體輸入的信息更加完整。

1.4 遷移學(xué)習(xí)

遷移學(xué)習(xí)涉及源領(lǐng)域和目標(biāo)領(lǐng)域，從源領(lǐng)域?qū)W習(xí)到的知識(shí)可以轉(zhuǎn)移到目標(biāo)領(lǐng)域，源領(lǐng)域和目標(biāo)領(lǐng)域相似，則知識(shí)轉(zhuǎn)移的過(guò)程相對(duì)容易，從而不考慮在兩者之間分布和適應(yīng)性方面的差異。不同綜合能源系統(tǒng)由于其機(jī)組不同、結(jié)構(gòu)不同，所以其控制策略也有差異。因此，遷移學(xué)習(xí)可以與SAC 算法相結(jié)合，從而使SAC 算法在AGC 中學(xué)習(xí)效率得到提高。在遷移學(xué)習(xí)中，通常采用兩種策略，一種是傳遞學(xué)習(xí)模型的參數(shù)；另一種是共享由以前訓(xùn)練過(guò)的智能體。本文采用第一種方法，即在源領(lǐng)域訓(xùn)練后的智能體向目標(biāo)領(lǐng)域智能體進(jìn)行參數(shù)傳遞。

2 基于MATSAC-LSTM 的AGC 設(shè)計(jì)

基于MATSAC-LSTM 算法的自動(dòng)發(fā)電控制是通過(guò)各個(gè)區(qū)域的智能體實(shí)時(shí)感知綜合能源系統(tǒng)中的環(huán)境信息，智能體通過(guò)收集當(dāng)前系統(tǒng)的環(huán)境信息狀態(tài)量作為MATSAC-LSTM 算法的輸入，以獎(jiǎng)勵(lì)函數(shù)作為目標(biāo)函數(shù)，計(jì)算出相應(yīng)獎(jiǎng)勵(lì)值，算法在每個(gè)控制周期中，智能體輸出最優(yōu)動(dòng)作作為實(shí)際電網(wǎng)調(diào)度端所有機(jī)組最優(yōu)的總發(fā)電調(diào)節(jié)指令。

1、工資費(fèi)管理。工資費(fèi)用是人員費(fèi)用中最為敏感的話題，也是歷來(lái)審計(jì)查處的重點(diǎn)。直接費(fèi)用是課題組活動(dòng)中可以直接計(jì)入成本的費(fèi)用。包括人員費(fèi)、設(shè)備費(fèi)等其他研究過(guò)程中的經(jīng)費(fèi)。人員費(fèi)即課題組成員的工資性費(fèi)用。課題組成員所在單位有事業(yè)費(fèi)撥款的，由所在單位按照國(guó)家規(guī)定的標(biāo)準(zhǔn)從事業(yè)費(fèi)中及時(shí)足額支付給課題組成員，并按規(guī)定在課題預(yù)算的相關(guān)科目中列示，不得在國(guó)家資助的課題專項(xiàng)經(jīng)費(fèi)中重復(fù)列支。國(guó)家另有規(guī)定的，按照有關(guān)規(guī)定執(zhí)行。

綜合能源的控制性能可以通過(guò)區(qū)域控制偏差（Area Control Error， ACE）ACE 和CPS1 來(lái)衡量。

ACE 計(jì)算，式（12）：

其中，Δf代表電網(wǎng)實(shí)際頻率與計(jì)劃頻率之差；ΔPT代表聯(lián)絡(luò)線上實(shí)際交換功率與計(jì)劃交換功率之差；B代表區(qū)域定義的頻率偏差系數(shù)。

CPS1 指標(biāo)，式（13）：

其中，ε1是互聯(lián)電網(wǎng)對(duì)全年1 min 頻率平均偏差均方根的控制目標(biāo)值，Δfmin代表相應(yīng)變量在1 min內(nèi)的平均值。

2.1 智能體設(shè)計(jì)

（1）狀態(tài)空間：對(duì)于任何時(shí)刻t，Si代表智能體在t時(shí)刻當(dāng)前的狀態(tài)，可以用式（14）表示：

其中，ACEi是第i區(qū)域的區(qū)域控制誤差的瞬時(shí)值，Δfi是第i區(qū)域頻率偏差的瞬時(shí)值。

其中，ΔPGi是第i區(qū)域?qū)嶋H電網(wǎng)調(diào)度端所有機(jī)組的總發(fā)電調(diào)節(jié)指令。

（3）獎(jiǎng)勵(lì)函數(shù)：將ACE作為目標(biāo)函數(shù)，能夠使CPS 指標(biāo)保持高水平穩(wěn)定且功率限制在小范圍內(nèi)波動(dòng)。而系統(tǒng)控制性能也能由頻率偏差的絕對(duì)值｜Δf ｜的大小直接反應(yīng)。本文將ACE和｜Δf ｜作為算法的獎(jiǎng)勵(lì)函數(shù)，并且對(duì)ACE和｜Δf ｜的量綱進(jìn)行歸一化處理，獎(jiǎng)勵(lì)函數(shù)式（16）：

其中，｜ ACE（t）｜是t時(shí)刻ACE的絕對(duì)值；｜Δf（t）｜是t時(shí)刻頻率偏差的絕對(duì)值；α1和α2是｜ACE（t）｜和｜Δf ｜的權(quán)重，且α1＝α2＝0.5。

2.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

本文智能體模型的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的輸入是LSTM 網(wǎng)絡(luò)的輸出，相較于其他神經(jīng)網(wǎng)絡(luò)，LSTM 神經(jīng)網(wǎng)絡(luò)能夠更好的將歷史信息和目前的狀態(tài)信息結(jié)合起來(lái)，生成最優(yōu)策略。 Actor 網(wǎng)絡(luò)設(shè)置3個(gè)全連接層，ReLU 激活函數(shù)層，Tanh 激活函數(shù)層，其結(jié)構(gòu)示意圖如圖4 所示。 Actor 神經(jīng)網(wǎng)絡(luò)的隱藏神經(jīng)元分別是：128、64、1；Critic 網(wǎng)絡(luò)的輸入為環(huán)境狀態(tài)和動(dòng)作的合集，也含3 個(gè)全連接層，ReLU 激活函數(shù)層，Tanh 激活函數(shù)層，最后輸出最優(yōu)策略，3 個(gè)全連接層的神經(jīng)元的個(gè)數(shù)分別是：64、32、1。

圖4 Actor 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Schematic diagram of Actor network structure

3 算例分析

為驗(yàn)證本文所提的MATSAC-LSTM 算法的有效性和適用性，在一個(gè)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型上采用多智能體柔性行動(dòng)器-批判器與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)算法驗(yàn)證LSTM 網(wǎng)絡(luò)和多智能體結(jié)合SAC 算法在AGC 中的控制效果，并通過(guò)遷移學(xué)習(xí)在一個(gè)五區(qū)域綜合能源系統(tǒng)模型上采用MATSAC-LSTM 算法進(jìn)行仿真實(shí)驗(yàn)。

模型中的一些參數(shù)的選擇將影響算法在自動(dòng)發(fā)電控制中的應(yīng)用效果。這些參數(shù)按照以下原則選取：

（1）折扣因子：代表知識(shí)矩陣在更新過(guò)程中對(duì)過(guò)去獎(jiǎng)勵(lì)值的折扣。如果累計(jì)的獎(jiǎng)勵(lì)值對(duì)實(shí)際問(wèn)題的求解影響大，則折扣因子選擇較大的值。對(duì)于自動(dòng)發(fā)電控制而言，目前環(huán)境所得到的獎(jiǎng)勵(lì)的瞬時(shí)值更為重要，所以折扣因子選擇較小的值。

（2）學(xué)習(xí)率：如果設(shè)置太小，則算法收斂緩慢，但容易找到全局最優(yōu)解。設(shè)置越大，算法的收斂速度越快，但可能導(dǎo)致算法無(wú)法收斂。本文在引入遷移學(xué)習(xí)的方法后，算法已經(jīng)具有較好的先驗(yàn)知識(shí)，所以學(xué)習(xí)率選擇較小的值。

（3）經(jīng)驗(yàn)池長(zhǎng)度：如果經(jīng)驗(yàn)池過(guò)大，則會(huì)導(dǎo)致無(wú)用的經(jīng)驗(yàn)加入到抽樣過(guò)程中；如果經(jīng)驗(yàn)池過(guò)小，則會(huì)導(dǎo)致算法不能通過(guò)經(jīng)驗(yàn)池的抽樣獲得最優(yōu)解。本文通過(guò)大量實(shí)驗(yàn)，選取1 000 000。

（4）dropout： dropout 如果過(guò)大則會(huì)影響算法的擬合能力；如果過(guò)小，則會(huì)導(dǎo)致數(shù)據(jù)樣本不足而過(guò)擬合。本文在自動(dòng)發(fā)電過(guò)程中，會(huì)獲得大量樣本，所以dropout 選擇較小的值。

（5）批次大小：在一定范圍內(nèi)，批次越大，引起訓(xùn)練震蕩越小，收斂精度越高。但如果過(guò)大，則會(huì)增加訓(xùn)練時(shí)間，且收斂精度也不會(huì)提高。本文進(jìn)行了大量的實(shí)驗(yàn)，選取批次大小為512 最為有效。

通常，在不同環(huán)境下綜合能源系統(tǒng)的運(yùn)行工況會(huì)實(shí)時(shí)變化，需要設(shè)置不同的最優(yōu)參數(shù)才能尋求到不同環(huán)境下自動(dòng)發(fā)電控制的最優(yōu)解，但是這將耗費(fèi)大量時(shí)間，本文根據(jù)參數(shù)選取的原則和大量的實(shí)驗(yàn)仿真得到一組最優(yōu)的參數(shù)見(jiàn)表1。

表1 模型參數(shù)Tab.1 Parameters of model

3.1 一個(gè)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型

本文在IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型基礎(chǔ)上融入電池儲(chǔ)能、風(fēng)電、光伏。

3.1.1 智能體訓(xùn)練

MASAC-LSTM 算法分為離線訓(xùn)練和在線測(cè)試兩個(gè)階段。離線訓(xùn)練階段，智能體的學(xué)習(xí)步長(zhǎng)為AGC 系統(tǒng)的控制周期，該標(biāo)準(zhǔn)算例中取4 s，不斷更新智能體的策略，使控制器的控制效果達(dá)到最優(yōu)。最終對(duì)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的第一個(gè)區(qū)域施加一個(gè)周期800 s，幅值1 000 MW，時(shí)間8000 s 的正弦負(fù)荷擾動(dòng)。

各種算法智能體學(xué)習(xí)過(guò)程如圖5 所示。與PID、Q、TD3、PDWoLF-PHC、SAC 算法相比，MASAC-LSTM 算法在1 200 s 后，已經(jīng)能夠穩(wěn)定地跟蹤負(fù)載擾動(dòng)變化，能夠更準(zhǔn)確的跟蹤負(fù)荷擾動(dòng)，收斂速度最快。由于 MATSAC - LSTM 算法可以通過(guò)LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時(shí)序特征提取，并作為MATSAC 算法的輸入，使得智能體能夠結(jié)合歷史信息做出更優(yōu)的決策，因此使得獎(jiǎng)勵(lì)值震蕩次數(shù)減少，具有更好的動(dòng)態(tài)性能。

圖5 智能體學(xué)習(xí)過(guò)程Fig.5 The learning process of agents

3.1.2 階躍擾動(dòng)

為了評(píng)估MASAC-LSTM 算法的可靠性和魯棒性，引入振幅為1 000 MW 階躍擾動(dòng)。基于Q、PID、TD3、PDWoLF-PHC、SAC、MASAC-LSTM 算法的在線測(cè)試結(jié)果如圖6 所示。可以看出，MASAC-LSTM算法在兩個(gè)區(qū)域的ACE和Δf的峰值明顯小于其他3 種算法，說(shuō)明MASAC-LSTM 算法有效地減小了ACE的偏差，在220 s 內(nèi)MASAC-LSTM 算法可以使各區(qū)域達(dá)到穩(wěn)定。區(qū)域聯(lián)絡(luò)線功率偏差A(yù)CE可以直接看出區(qū)域之間數(shù)據(jù)的共享程度以及多個(gè)區(qū)域之間協(xié)同控制的配合程度，MASAC-LSTM 算法采用了多智能體集中訓(xùn)練分散執(zhí)行框架，使智能體之間信息共享，有效實(shí)現(xiàn)多個(gè)區(qū)0 域之間的最優(yōu)協(xié)同控制。

圖6 階躍擾動(dòng)曲線Fig.6 Curve of step perturbation

3.1.3 方波擾動(dòng)

引入考核周期為1 500 s，幅值在800 MW 以內(nèi)的方波負(fù)荷擾動(dòng)，5 種算法的控制性能見(jiàn)表2。可以看出，MASAC-LSTM 的｜Δf ｜的平均值降低0.002 2～0.004 Hz，｜ACE ｜的平均值降低2.391～11.869 MW，CPS1 的平均值增加0.841%～2.311%。

表2 不同算法的控制性能Tab.2 Control performance of different algorithms

3.2 一個(gè)五區(qū)域綜合能源系統(tǒng)模型

隨著電網(wǎng)新能源占比提高，為了考慮大量分布能源并入電網(wǎng)造成的影響，本文構(gòu)建五區(qū)域綜合能源模型。此模型在一個(gè)IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型上加入了電池儲(chǔ)能、風(fēng)電、光伏、熱電聯(lián)產(chǎn)、柴油發(fā)電、核能水電等機(jī)組，每個(gè)區(qū)域設(shè)置獨(dú)立的智能體，實(shí)現(xiàn)多智能體協(xié)同控制。

因?yàn)镸ASAC-LSTM 算法需要智能體與環(huán)境長(zhǎng)時(shí)間進(jìn)行交互，收集數(shù)據(jù)從而獲得最佳策略，本文對(duì)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的智能體向五區(qū)域綜合能源系統(tǒng)模型的智能體傳遞參數(shù)，從而縮短智能體的訓(xùn)練時(shí)間。

第一組實(shí)驗(yàn)采用MASAC-LSTM 算法在構(gòu)建的五區(qū)域綜合能源系統(tǒng)模型上訓(xùn)練320 輪；第二組實(shí)驗(yàn)采用遷移學(xué)習(xí)的方法，將修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的第一層全連接層參數(shù)轉(zhuǎn)移到五區(qū)域綜合能源系統(tǒng)模型參數(shù)中；第三組實(shí)驗(yàn)將修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的訓(xùn)練模型Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的第一層和第二層全連接層轉(zhuǎn)移到五區(qū)域綜合能源系統(tǒng)模型參數(shù)中；第二組實(shí)驗(yàn)和第三組實(shí)驗(yàn)的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的輸出層都被重置，且將回放緩沖區(qū)清空，訓(xùn)練320 輪。

遷移學(xué)習(xí)訓(xùn)練曲線如圖7 所示。由圖7 可見(jiàn)，第一組實(shí)驗(yàn)的起始獎(jiǎng)勵(lì)為-26.7，第二組實(shí)驗(yàn)為-23.2，第三組實(shí)驗(yàn)為-21.2，說(shuō)明MATSAC-LSTM 算法使智能體能更好地收集經(jīng)驗(yàn)；在100 輪時(shí)，第三組實(shí)驗(yàn)獎(jiǎng)勵(lì)已經(jīng)達(dá)到-13，而第一組實(shí)驗(yàn)的獎(jiǎng)勵(lì)還在緩慢上升，MATSAC-LSTM 算法通過(guò)遷移學(xué)習(xí)可以使獎(jiǎng)勵(lì)增長(zhǎng)率變大；第一組實(shí)驗(yàn)最后獎(jiǎng)勵(lì)穩(wěn)定在-12.4，第二組實(shí)驗(yàn)為-9.1，第三組實(shí)驗(yàn)為-7.9，說(shuō)明通過(guò)遷移學(xué)習(xí)MATSAC-LSTM 算法在求解質(zhì)量方面得到提高。實(shí)驗(yàn)結(jié)果說(shuō)明通過(guò)遷移學(xué)習(xí)將舊任務(wù)訓(xùn)練的Critic 和Actor 網(wǎng)絡(luò)模型參數(shù)轉(zhuǎn)移到新任務(wù)相應(yīng)模型參數(shù)中，可以減少整個(gè)算法的訓(xùn)練時(shí)間，而對(duì)于轉(zhuǎn)移模型參數(shù)的選擇，在重置輸入層和輸出層的基礎(chǔ)上，轉(zhuǎn)移的神經(jīng)網(wǎng)絡(luò)參數(shù)越多，訓(xùn)練的收斂速度越快，且尋優(yōu)結(jié)果也更好。

考慮到綜合能源系統(tǒng)的隨機(jī)性和間歇性，在五區(qū)域綜合能源系統(tǒng)中引入幅值為1 000 MW，持續(xù)時(shí)間為10 000 s 的隨機(jī)擾動(dòng)，擾動(dòng)曲線如圖8 所示。

圖8 隨機(jī)擾動(dòng)曲線Fig.8 The curves of random disturbance

PID、Q、TD3、PDWoLF-PHC、SAC、MASAC-LSTM、MATSAC-LSTM 7 種算法在隨機(jī)擾動(dòng)下的控制性能如圖9 所示。相較于其他算法，本文所提算法的｜Δf ｜、｜ACE ｜、穩(wěn)態(tài)誤差、超調(diào)量有所降低，CPS1 有所提高。

圖9 隨機(jī)擾動(dòng)下算法的控制性能Fig.9 Control performance of algorithms under random perturbance

4 結(jié)束語(yǔ)

本文提出了一種基于MATSAC-LSTM 的綜合能源系統(tǒng)自動(dòng)發(fā)電控制算法。一個(gè)修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型和一個(gè)五區(qū)域綜合能源系統(tǒng)模型的仿真結(jié)果表明，與傳統(tǒng)PID、Q、TD3、SAC 算法相比，本文算法在CPS1，｜ ACE ｜，｜Δf ｜，穩(wěn)態(tài)誤差，超調(diào)量等控制性能指標(biāo)均表現(xiàn)較優(yōu)。此外，有以下幾點(diǎn)發(fā)現(xiàn)：

（1）本文用LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時(shí)序特征提取，并作為MATSAC算法的輸入，使智能體能結(jié)合歷史信息進(jìn)行快速的有功功率分配決策；

（2）本文采用集中訓(xùn)練分散執(zhí)行框架，將一個(gè)智能體和環(huán)境的交互信息，以及其他智能體的動(dòng)作信息作為相應(yīng)智能體Critic 網(wǎng)絡(luò)的輸入，實(shí)現(xiàn)了多智能體之間的信息共享；

（3）通過(guò)遷移學(xué)習(xí)將舊任務(wù)訓(xùn)練的Critic 和Actor 網(wǎng)絡(luò)模型參數(shù)轉(zhuǎn)移到新任務(wù)相應(yīng)模型參數(shù)中，可以提高智能體的訓(xùn)練效率。