基于改進TD3 算法的綜合能源系統(tǒng)低碳經(jīng)濟調(diào)度

2023-11-02 03:21:50邱革非何虹輝劉鎧銘羅世杰

電力科學與工程 2023年10期

邱革非，何虹輝，劉鎧銘，羅世杰，何超，沈賦

（昆明理工大學電力工程學院，云南昆明 650502）

0 引言

綜合能源系統(tǒng)（Integrated energy system，IES）具有多能耦合的特性，在加快規(guī)劃建設新型能源體系、推進能源綠色低碳轉(zhuǎn)型的過程中起著重要作用。IES 運行的經(jīng)濟性與低碳性受到廣泛關(guān)注。

針對IES 調(diào)度的經(jīng)濟性、低碳性問題，相關(guān)文獻采用多種方法展開了研究工作。

針對IES 優(yōu)化調(diào)度，文獻[1]將并行計算與多維近似動態(tài)規(guī)劃相結(jié)合；文獻[2]采用了區(qū)間多目標線性規(guī)劃方法；文獻[3]采用了一種基于高斯回代的交替方向乘子法；文獻[4]結(jié)合了信息間隙決策理論和模型預測控制。上述文獻在研究中均采用了數(shù)學規(guī)劃的方法，算法中包含較為復雜的數(shù)學推導和計算，所存在的問題是對應方法僅能處理特定問題。

文獻[5]以系統(tǒng)和電動汽車運行成本最低為約束條件建立了雙層優(yōu)化模型。文獻[6]在考慮碳捕集與電轉(zhuǎn)氣技術(shù)背景下建立了相關(guān)調(diào)度模型。以上文獻在研究中采用了基于模型的方法，所存在的問題是所建模型的差異會導致優(yōu)化結(jié)果存在誤差，且對復雜系統(tǒng)的求解速度較慢，在有實時性要求的場景中模型通常無法滿足要求。

文獻[7，8]分別采用粒子群優(yōu)化算法和改進非支配排序遺傳算法求解相關(guān)調(diào)度問題，而文獻[9]則對粒子群算法進行了改進。以上文獻均采用了啟發(fā)式算法。對比基于數(shù)學規(guī)劃和模型的方法，這些方法有更好的可優(yōu)化性、魯棒性和適用性，但在處理非線性復雜問題時仍會受到限制，尋找全局最優(yōu)解的難度較大，且無法自適應調(diào)整策略。

相較于上述幾類方法，深度強化學習（Deep reinforcement learning，DRL）方法具有更強的適應性和泛化能力。對于具有序貫決策特點的問題，應用馬爾科夫決策過程（Markov decision process，MDP）建模，能夠更高效地尋找到最優(yōu)解[10]。在將DRL 方法應用于電力系統(tǒng)調(diào)度方面：文獻[11]將近端策略優(yōu)化算法（Proximal policy optimization，PPO）應用于源荷不確定場景中。文獻[12]采用的優(yōu)勢柔性演員評論家（Advantage learning loft actor-critic，ALSAC）算法，能處理有更大隨機性的環(huán)境問題。以上采用了隨機策略的方法在實際應用中通常有收斂速度較低、計算資源浪費、易產(chǎn)生不穩(wěn)定結(jié)果的缺點。

文獻[13]采用深度確定性策略梯度（Deep deterministic policy gradient，DDPG）對比隨機策略方法，提高了計算效率與收斂速度，但也存在過估計、執(zhí)行效率較低、動作探索能力弱、易陷入局部最優(yōu)的問題[14-16]。文獻[17]采用雙延遲深度確定性策略梯度算法（Twin delayed deep deterministic policy gradient，TD3）解決電力系統(tǒng)運行的安全性問題，并在電力系統(tǒng)實際運行場景中體現(xiàn)出了方法的有效性與適用性；然而由其訓練結(jié)果可知，該算法仍存在隨機采樣數(shù)據(jù)帶來的收斂速度慢、需要大量迭代輪次的問題。

本文在現(xiàn)有研究基礎上，通過對歷史經(jīng)驗數(shù)據(jù)應用求和樹（Summation tree）存儲采樣，實現(xiàn)優(yōu)先經(jīng)驗回放，從而改進TD3 算法的訓練效率與性能。具體過程為：對IES 的低碳經(jīng)濟調(diào)度策略優(yōu)化作MDP 建模，建立決策交互環(huán)境以訓練智能體決策能力。在訓練過程中，基于數(shù)據(jù)更新價值對經(jīng)驗數(shù)據(jù)設置一優(yōu)先級指標，以Summation tree存儲采樣，高效利用經(jīng)驗數(shù)據(jù)，提高訓練效率。通過算例仿真驗證了方法在IES 低碳經(jīng)濟調(diào)度中的有效性，并通過對比不同方法體現(xiàn)出訓練效率和決策能力的提升。

1 IES 低碳經(jīng)濟調(diào)度模型

IES 系統(tǒng)結(jié)構(gòu)如圖1 所示。圖中，IES 主要由光伏電源（Photovoltaic，PV）、風電機組（Wind turbine，WT）、燃氣輪機（Gas turbine，GT）、用于回收熱能的余熱鍋爐（Waste heat boiler，WHB）、直接生產(chǎn)熱能的燃氣鍋爐（Gas boiler，GB）、電池儲能系統(tǒng)（Battery energy storage system，BESS）以及電負荷和熱負荷組成。此外，IES 還可與上級主電網(wǎng)購售電能，從外部天然氣供應商購入天然氣，并對系統(tǒng)內(nèi)產(chǎn)生的污染物進行治理，以提高系統(tǒng)內(nèi)能源利用率和系統(tǒng)運行的經(jīng)濟性、低碳性。

圖1 綜合能源系統(tǒng)結(jié)構(gòu)Fig.1 Integrated energy system structure

1.1 IES 模型

1.1.1 光伏電源與風電機組

光伏電源實際出力與其所處環(huán)境中的光照強度和溫度有關(guān)。風電機組出力則與風速有關(guān)。本文研究采用對應電源出力數(shù)據(jù)，即以PPV（t）和PWT（t）分別表示光伏電源和風電機組t時刻的輸出功率。

1.1.2 燃氣輪機與余熱鍋爐

燃氣輪機與余熱鍋爐的發(fā)電、發(fā)熱功率與所消耗天然氣量關(guān)系為：

式中：GGT(t)、PGT(t)、QGT(t)、QWHB(t)分別為t時刻燃氣輪機燃燒的天然氣量、發(fā)電功率、發(fā)熱功率以及余熱鍋爐發(fā)熱功率；Hgas為天然氣熱值，取8.302 kW/m3；ηGT為燃氣輪機電轉(zhuǎn)化效率，取0.42；ηWHB為余熱鍋爐熱轉(zhuǎn)化效率，取0.85；ωGT為熱損耗系數(shù)，取0.2。

1.1.3 燃氣鍋爐

當余熱鍋爐回收熱能不足以供給熱負荷時，啟動燃氣鍋爐補充熱負荷缺額。輸入天然氣量與輸出發(fā)熱功率關(guān)系為：

式中：QGB(t)、GGB(t)分別為t時刻燃氣鍋爐發(fā)熱功率與所燃燒的天然氣量；ηGB為燃氣鍋爐熱轉(zhuǎn)化效率取，0.84。

1.1.4 主電網(wǎng)

主電網(wǎng)與IES 進行能量交易的目的是，緩和分布式電源出力與負荷需求的不可控和間歇性問題，提高系統(tǒng)運行的經(jīng)濟性與穩(wěn)定性。

主電網(wǎng)與IES 進行能量交易實施分時電價策略。

1.1.5 電池儲能系統(tǒng)

電池儲能系統(tǒng)將在分布式電源出力過剩以及儲能系統(tǒng)未達最大允許容量時，對電能進行存儲，并對其規(guī)模進行配置[18]。t時刻系統(tǒng)儲能余量為：

式中：B(t)、B(t-1)分別為t、t-1 時刻的儲能余量；ηcha、ηdis分別為儲能系統(tǒng)充放電效率，分別取0.92、0.95；PB,cha(t)為t時刻充電功率；PB,dis(t)為t時刻放電功率。儲能系統(tǒng)t時刻的荷電狀態(tài)為：

式中：SC(t)為t時刻儲能系統(tǒng)的荷電狀態(tài)；Bmax為儲能系統(tǒng)最大容量。

1.2 目標函數(shù)

在本文研究的IES 低碳經(jīng)濟調(diào)度問題中，通過協(xié)調(diào)控制系統(tǒng)內(nèi)各設備出力與工作狀態(tài)，在單位天然氣燃燒產(chǎn)生的二氧化碳與其他污染物排放量一定的條件下，以系統(tǒng)內(nèi)其他污染物排放量反映碳排放量大小，從而使系統(tǒng)以降低污染物治理成本、減少燃氣輪機及燃氣鍋爐使用率的方式降低碳排放成本，達到低碳、經(jīng)濟運行目的。

系統(tǒng)總運行成本由購氣成本、環(huán)境污染治理成本、系統(tǒng)運維成本以及與主電網(wǎng)的能量交易成本構(gòu)成，目標函數(shù)可表示為：

式中：cgas為購氣成本；cenv為環(huán)境污染治理成本；crun為運行維護成本；cmg為與主電網(wǎng)的能量交易成本。

燃氣輪機和燃氣鍋爐2類設備的購氣成本為：

式中：ξgas為氣價，取定值。

此外，燃氣輪機與燃氣鍋爐以及主電網(wǎng)內(nèi)某些發(fā)電設備的運行將對環(huán)境造成一定影響，其所產(chǎn)生的環(huán)境污染治理成本為：

式中：ξeg為燃氣輪機與燃氣鍋爐產(chǎn)生的環(huán)境污染治理成本系數(shù)；ξmg為主電網(wǎng)產(chǎn)生的污染治理折算后的成本系數(shù)；Pmg,b(t)為t時刻從主電網(wǎng)購入的電能。

運行成本主要考慮分布式電源與儲能系統(tǒng)運行維護產(chǎn)生的成本，與設備實際出力大小有關(guān)：

式中：KWT、KPV、KB分別為風機、光伏、儲能系統(tǒng)的運行維護成本系數(shù)。

燃氣輪機與燃氣鍋爐僅考慮其運行時的購氣成本，忽略其維護成本，其與主電網(wǎng)能量交易時的成本為：

式中：ξtou,b(t)、ξtou,s(t)分別為從主電網(wǎng)購入和向主電網(wǎng)售出電能的分時電價；Pmg,s(t)為t時刻向主電網(wǎng)售出的電能。

1.3 約束條件

系統(tǒng)運行受各設備運行約束條件以及電、熱能量流的平衡約束。

1）電源出力約束。

式中：PPV,min、PWT,min、PGT,min分別為光伏、風機、燃氣輪機的出力下限；PPV,max、PWT,max、PGT,max分別為光伏、風機、燃氣輪機的出力上限。

根據(jù)燃氣輪機運行特性，系統(tǒng)運行還需滿足其功率爬坡約束：

式中：ΔPGT,max與ΔPGT,min分別為燃氣輪機爬坡功率上下限。

2）電功率平衡約束。

式中：Le,i(t)為t時刻第i個電負荷功率；Ne為電負荷總數(shù)。

3）熱功率平衡約束。

式中：Lh,j(t)為t時刻第j個熱負荷功率；Nh為熱負荷總數(shù)。

4）電儲能系統(tǒng)約束。

5）考慮到主電網(wǎng)側(cè)運行的穩(wěn)定性問題，模型還需考慮滿足與主電網(wǎng)的實時功率交互約束，即：

式中：Pmg,min、Pmg,max分別為綜合能源系統(tǒng)與主電網(wǎng)交互功率下限和上限。

2 改進TD3 模型

2.1 IES 的MDP 模型

構(gòu)成IES 低碳經(jīng)濟調(diào)度問題的MDP 模型要素，包括智能體在每個時刻t的狀態(tài)空間集合s(t)、動作空間集合a(t)、以及與環(huán)境交互過程中在每個狀態(tài)s(t)下由于采取對應策略下的動作a(t)而獲得的獎勵值r(t)。智能體可對主電網(wǎng)購售電、燃氣輪機與燃氣鍋爐的出力、儲能系統(tǒng)充放電進行調(diào)度，并在不斷的訓練中使調(diào)度策略趨于最優(yōu)。

2.1.1 狀態(tài)描述

在本文的研究中，1 個調(diào)度時段的長度為1 h，1 個調(diào)度周期為24 h。預設場景中，狀態(tài)空間集合由分布式電源出力、電池儲能系統(tǒng)荷電狀態(tài)、電價信息以及2 類負荷需求量組成，故狀態(tài)空間s(t)可表示為：

式中：PDG(t)為在每個時刻t下，光伏電源與風電機組設備的總輸出功率。

2.1.2 動作描述

智能體在每個時刻t可對燃氣輪機和燃氣鍋爐的出力、電池儲能系統(tǒng)充放電、與主電網(wǎng)的購售電量進行調(diào)度，故動作空間a(t)可表示為：

式中：Ba(t)為電池儲能系統(tǒng)充放電動作量。

燃氣輪機由余熱回收裝置回收的熱功率QWHB(t)出力由式（2）（3）根據(jù)PGT(t)折算，故不在動作空間組成成分中體現(xiàn)。

2.1.3 獎勵值函數(shù)

IES 低碳經(jīng)濟調(diào)度問題以最小化系統(tǒng)總運行成本為優(yōu)化目標，而智能體以最大化獎勵值作為動作優(yōu)化依據(jù)，故設定獎勵值函數(shù)為對應目標函數(shù)取負。同時，為減少策略產(chǎn)生的功率不平衡現(xiàn)象，將設備出力導致的電、熱功率不平衡作為罰函數(shù)附加至獎勵值函數(shù)中：

式中：ci(t)分別對應每個調(diào)度時段t的購氣成本、環(huán)境污染治理成本、運維成本、與主電網(wǎng)的能量交易成本；i=1,2,3,4；αi為對應成本的獎勵值權(quán)重；g(t)為罰函數(shù)；βc、βg為獎勵值函數(shù)與罰函數(shù)系數(shù)。

功率不平衡罰函數(shù)表示為：

式中：λP、λQ分別為電、熱功率約束條件罰因子；εP(t)、εQ(t)分別為2 類約束的不平衡程度。

2.2 改進TD3 算法

TD3 算法是確定性策略方法DDPG 的一種優(yōu)化改進方法[19]，其思路是：首先，為增強智能體動作探索能力并平滑更新參數(shù)時的策略期望值，在Actor 中分別添加行為策略噪聲和目標策略噪聲；其次為避免過估計現(xiàn)象，Critic 的現(xiàn)實網(wǎng)絡和目標網(wǎng)絡均采用雙重網(wǎng)絡；最后為提高輸出策略的穩(wěn)定性延遲更新Actor 現(xiàn)實網(wǎng)絡參數(shù)，當Critic 網(wǎng)絡更新多次后再對Actor 現(xiàn)實網(wǎng)絡參數(shù)進行更新。

TD3 算法會在訓練過程中對數(shù)據(jù)進行隨機采樣，這將導致訓練效率偏低、獎勵值收斂速度慢。Summation tree 作為計算機數(shù)據(jù)樹形結(jié)構(gòu)中的一種，其邏輯結(jié)構(gòu)適用于TD3 算法對數(shù)據(jù)的存儲、訪問需求，應用于該算法中可提高數(shù)據(jù)處理效率。

本文將Summation tree 引入經(jīng)驗回放緩沖區(qū)中，為經(jīng)驗數(shù)據(jù)設置一優(yōu)先級指標，以實現(xiàn)高效的優(yōu)先經(jīng)驗回放、增加具有高更新價值經(jīng)驗數(shù)據(jù)的利用率、提高智能體訓練效率，從而對現(xiàn)有TD3算法進行改進。

2.2.1 基于Summation tree 的數(shù)據(jù)存儲采樣

Summation tree 結(jié)構(gòu)如圖2 所示。圖中，依數(shù)據(jù)添加順序，在每個Summation tree 葉節(jié)點存儲一條經(jīng)驗數(shù)據(jù)，并以數(shù)據(jù)的優(yōu)先級指標作為該節(jié)點的節(jié)點值，父節(jié)點節(jié)點值為其子節(jié)點節(jié)點值之和。每次采樣時，自根節(jié)點開始基于節(jié)點值大小，向葉節(jié)點尋找目標，尋找時總指向節(jié)點值較大的節(jié)點；添加新的經(jīng)驗數(shù)據(jù)時，從葉節(jié)點開始向根節(jié)點逐點更新節(jié)點值。

圖2 Summation tree 結(jié)構(gòu)Fig.2 Structure of Summation tree

由于時序差分（Temporal difference error，TD-error）較大的數(shù)據(jù)具有更大的梯度信號，因而有更大的更新價值，故可作為評估數(shù)據(jù)的更新價值即采樣優(yōu)先級的指標。

文中的Critic 網(wǎng)絡采用動作-價值函數(shù)計算TD-error：

式中：γQ為折扣因子；Q(st,at)為動作-價值函數(shù)；st+1、st分別為t+1、t時刻對應狀態(tài)；at+1、at分別為t+1、t時刻所采取的動作。

以每條經(jīng)驗數(shù)據(jù)的TD-error 作為其優(yōu)先級指標，故可得數(shù)據(jù)的被采樣優(yōu)先級概率：

式中：ρl、δl分別為第l條經(jīng)驗數(shù)據(jù)的被采樣優(yōu)先級概率和對應的TD-error；υ為權(quán)衡因子。

υ=0 為均勻采樣，υ=1 為貪婪策略采樣。為減小δ較大數(shù)據(jù)與較小數(shù)據(jù)間被采樣概率的差距，本文取υ=0.6。同時為避免采樣不到TD-error 很小的經(jīng)驗數(shù)據(jù)，對新添加的經(jīng)驗數(shù)據(jù)作一初始化：

式中：δl,0為第l條經(jīng)驗數(shù)據(jù)被初次添加入經(jīng)驗回放緩沖區(qū)時的TD-error；δmax為經(jīng)驗回放緩沖區(qū)B內(nèi)最大TD-error，其作用是使δ很小的經(jīng)驗數(shù)據(jù)仍至少能被采樣一次。

2.2.2 智能體訓練流程

基于深度強化學習方法的IES 低碳經(jīng)濟調(diào)度模型如圖3 所示。

圖3 IES 低碳經(jīng)濟調(diào)度的深度強化學習模型Fig.3 Deep reinforcement learning model of IES low-carbon economy dispatch

圖3 中智能體的訓練具體流程如下。

1）初始化3 個現(xiàn)實網(wǎng)絡參數(shù)，即θ1、θ2、φ；以同樣的參數(shù)值初始化3 個目標網(wǎng)絡參數(shù)，即θ1′←θ1，θ2′ ←θ2，φ′←φ。

2）設置經(jīng)驗回放緩沖區(qū)B 容量和訓練時的采樣數(shù)據(jù)條數(shù)N。

3）獲取并添加經(jīng)驗數(shù)據(jù)元組至B 中。

①從歷史數(shù)據(jù)中隨機取初始狀態(tài)st。πφ結(jié)合噪聲x在狀態(tài)st下選取動作at：

②以動作at與環(huán)境交互，從而獲得獎勵值rt與下一狀態(tài)st+1，并組成一條數(shù)據(jù)元組(st,at,rt,st+1)。

③以數(shù)據(jù)的δ作為其優(yōu)先級指標，并按數(shù)據(jù)添加順序依次存入Summation tree 葉節(jié)點中，同時更新相關(guān)節(jié)點的節(jié)點值。

④判斷B 中經(jīng)驗數(shù)據(jù)條數(shù)。若數(shù)目未達到設定容量上限，則令此時的st+1作為步驟②中的st，并重復以上步驟；否則結(jié)束添加并將B 內(nèi)最大δ賦予每條數(shù)據(jù)。

4）基于Summation tree 采樣方式，從B 中采樣出N條數(shù)據(jù)，并對每條數(shù)據(jù)以φπ′添加1 個基于目標策略平滑正則化的噪聲x′，得出st+1對應的目標動作at+1：

5）記錄所得(st+1,at+1)和觀測到的獎勵rt+1，輸入2 個Critic 目標網(wǎng)絡從而計算目標值yt。

6）基于梯度下降算法，最小化目標值與觀測值間的誤差，從而更新2 個Critic 現(xiàn)實網(wǎng)絡參數(shù)θ。

7）以學習率τ1對現(xiàn)實網(wǎng)絡和目標網(wǎng)絡參數(shù)進行加權(quán)平均，軟更新目標網(wǎng)絡參數(shù)。

8）重新計算數(shù)據(jù)δ并更新其所在葉節(jié)點和相關(guān)節(jié)點節(jié)點值。

9）待Critic 網(wǎng)絡更新過d步后，同樣以梯度下降算法更新Actor 現(xiàn)實網(wǎng)絡的參數(shù)φ。

10）以學習率τ2來軟更新Actor 目標網(wǎng)絡參數(shù)。

循環(huán)步驟4）～10），并記錄獎勵值。

3 算例分析

3.1 算例設置

采用如圖1 所示的IES 作為算例。其中，各設備參數(shù)與相關(guān)成本系數(shù)如表1 所示，IES 與主電網(wǎng)交互時的峰、平、谷時段劃分如表2 所示，分時電價信息如表3 所示。根據(jù)我國南方某地歷史數(shù)據(jù)，分布式電源出力、電負荷、熱負荷需求預測結(jié)果如圖4 所示。

表1 各設備參數(shù)與相關(guān)成本系數(shù)Tab.1 Equipment configuration information and related cost coefficient

表2 主電網(wǎng)分時電價策略時段劃分Tab.2 Time division of TOU electricity price strategy for main grid

表3 主電網(wǎng)分時電價信息表Tab.3 TOU electricity price of the main grid 元/kW·h

圖4 負荷、風光出力預測曲線Fig.4 Prediction curves of load,wind power and photovoltaic output

所有算例測試在相同硬件及Python 語言環(huán)境中運行。采用基于數(shù)據(jù)流編程的符號數(shù)學系統(tǒng)TensorFlow2.5 編寫DRL 方法的神經(jīng)網(wǎng)絡框架。

以下面4 種方法對計算結(jié)果進行對比分析。

方法1。采用NSGA-II 算法的多目標優(yōu)化調(diào)度策略。

方法2。采用DDPG 算法的調(diào)度策略。

方法3。采用TD3 算法的調(diào)度策略。

方法4。采用改進TD3 算法的調(diào)度策略。

方法1 中的NSGA-II 算法，以系統(tǒng)運行成本最低、環(huán)境治理成本最低作為優(yōu)化目標，其決策變量為系統(tǒng)內(nèi)各個可控出力設備以及主電網(wǎng)購售電能量。參數(shù)設置為：種群個數(shù)為200；最大迭代次數(shù)200；交叉率0.5；變異率0.1。該算法每次只能求單個時刻的解。在進行對比分析時，取整個調(diào)度時段中每個時刻整合后的結(jié)果。

由于IES 運行涉及時間序列的復雜數(shù)據(jù)集，所以對于方法2、方法3、方法4 的神經(jīng)網(wǎng)絡，需預設各神經(jīng)網(wǎng)絡的學習率、經(jīng)驗池容量、隱含層層數(shù)與神經(jīng)元個數(shù)。DRL 方法采用統(tǒng)一神經(jīng)網(wǎng)絡參數(shù)：Actor 網(wǎng)絡學習率取0.000 3，Critic 網(wǎng)絡學習率取0.003，軟更新學習率τ1、τ2取0.005，神經(jīng)網(wǎng)絡隱含層為3 層，采用的激活函數(shù)分別為ReLU、ReLU、Tanh，每層64 個神經(jīng)元，折扣因子取0.95，經(jīng)驗池容量B 取3 000。對于方法3、方法4 中改進前后的TD3 算法，還需設置其他參數(shù)：噪聲x標準差σ取0.01，x′標準差σ′取0.02，截取邊界ψ取0.05。

3.2 結(jié)果對比分析

DRL 方法獎勵值收斂結(jié)果如圖5 所示。

圖5 DRL 方法獎勵值收斂結(jié)果Fig.5 Convergence results of DRL method reward value

由圖5 可知，本文所提改進TD3 算法在訓練前期出現(xiàn)了平均獎勵值明顯波動，原因在于：在采樣前期，為避免某些數(shù)據(jù)無法采樣，數(shù)據(jù)優(yōu)先級指標被賦予統(tǒng)一初值，導致其中某些實際更新價值較低的數(shù)據(jù)被高估，從而影響了智能體對動作優(yōu)化的判斷；隨訓練輪次的增加，平均獎勵值水平逐漸平緩，在訓練達到1 200 輪次后趨于收斂。在同樣訓練2 000 輪次的條件下，本文算法最高平均獎勵值水平略高于未改進TD3 算法，且明顯高于DDPG 算法；這說明本文模型能夠?qū)さ玫淖顑?yōu)解，較另外2 種方法更佳。

4 種方法的調(diào)度結(jié)果如圖6 所示。

圖6 各方法調(diào)度策略功率平衡圖Fig.6 Power balance diagram of scheduling strategies of each method

4 種方法的系統(tǒng)運行成本如表4 所示。

表4 各方法系統(tǒng)運行成本Tab.4 System running cost table of each method 元

由圖6 可見，4 種方法輸出結(jié)果都未出現(xiàn)明顯的功率不平衡問題。

結(jié)合表4 數(shù)據(jù)可知，在不同方法的輸出結(jié)果中，各項成本有一定差異：改進TD3 算法對比NSGA-II算法總成本降低了5.48%，比未改進TD3、DDPG算法分別降低了2.29%和7.28%。由表4 中計算結(jié)果可知，本文所提方法得到的總污染治理成本以及天然氣購氣成本低于其他方法，也即天然氣消耗量、碳排放量更低；這說明其在提高系統(tǒng)運行經(jīng)濟性、低碳性的效果上表現(xiàn)最好。

TD3 算法改進前后尋優(yōu)速度驗證：設置訓練輪次為1 200 輪次。將相同的負荷、分布式電源出力預測數(shù)據(jù)代入2 種方法，對智能體重新訓練。以未改進TD3 算法結(jié)果數(shù)值為基準，對改進后TD3 算法結(jié)果進行折算對比，結(jié)果如圖7 所示。

圖7 改進前后TD3 算法輸出結(jié)果對比Fig.7 Comparison of TD3 algorithm output results before and after improvement

由圖7 可知，改進后TD3 算法輸出結(jié)果在系統(tǒng)運行中的各項成本較改進前均有減少。由此可以認為，在同樣訓練1 200 輪次的條件下，改進后的TD3 算法尋得了更優(yōu)的策略。

小結(jié)：本文所提改進TD3 算法在保留TD3算法優(yōu)勢的基礎上，進一步提升了其訓練效率，且在所應用的IES 低碳經(jīng)濟調(diào)度場景中，較其他3 種方法能更好地兼顧系統(tǒng)運行的低碳性與經(jīng)濟性。

4 結(jié)論

本文針對IES 的低碳經(jīng)濟調(diào)度，提出了一種以Summation tree 改進TD3 算法中經(jīng)驗數(shù)據(jù)采樣的DRL 方法。與現(xiàn)有方法相比，本文所提方法有以下優(yōu)勢：

1）該方法能夠從數(shù)據(jù)中自適應學習并挖掘物理模型。隨著訓練輪次的增加，該方法能夠不斷優(yōu)化策略使其趨于最優(yōu)，從而克服了在處理某些高維復雜問題時需要手動編寫規(guī)則和模型的困難。

2）與計算效率較高、收斂速度較快的確定性策略梯度算法相比，本文方法智能體的動作探索能力更強，陷入局部最優(yōu)的可能性更低。

3）對比改進前，所提出的改進方法實現(xiàn)了對更新價值較大的經(jīng)驗數(shù)據(jù)的高效利用，有效避免了相似經(jīng)驗數(shù)據(jù)降低訓練速度的問題。

展望：本文所提改進TD3 算法，通過對歷史經(jīng)驗數(shù)據(jù)采用Summation tree 進行存儲采樣，實現(xiàn)了確定性策略方法的優(yōu)先經(jīng)驗回放機制；作為一種加權(quán)采樣方法，其在IES 低碳經(jīng)濟調(diào)度問題的復雜能源調(diào)度環(huán)境、多市場需求應用場景中具有良好的適用性、可優(yōu)化性與自適應性。然而，本文研究中未充分考慮系統(tǒng)運行中實際存在的損耗以及調(diào)整獎勵值函數(shù)中各成分權(quán)重。未來的研究，將針對擴展系統(tǒng)復雜性、引入多智能體結(jié)構(gòu)、調(diào)整不同獎勵值權(quán)重對比輸出策略差異等方面展開。