基于深度強化學習的微能源系統優化調度*

2022-11-26 01:56:02馮國禮郭景維秦振威

電機與控制應用 2022年11期

張波,馮國禮,郭景維,王敏,秦振威

(國網寧夏電力有限公司信息通信公司，寧夏銀川 750001)

0 引言

國際可再生能源署發布的《能源轉型之電網靈活性》報告中指出，到2050年，全球風電、光伏等可再生能源在未來電力系統中占比將達到85%[1]。國家發改委和國家能源局發布的《能源生產和消費革命戰略(2016—2030)》中指出，到2023年實現非化石能源發電量占全部發電量的比重力爭達到50%[2]。為實現我國能源革命戰略的順利實施，中央財經委員會第九次會議提出構建以新能源為主體的新型電力系統[3]，其基于可再生能源和清潔能源、以主干電網和微網構成主要架構，是一種可持續的電力發展模式[4-6]。

在新型電力系統中，微網不僅是規模化接入和消納可再生能源的重要環節，而且作為城市配網終端的主要聚合單元，通過自治運行能夠實現對城市配網調度運行性能的優質支撐[7]。微網中存在多種能源供給和用能需求，通過經濟安全的能量管理實現清潔能源的消納和多種能源的協調互補是重要的研究內容之一。文獻[8]針對工業微網提出了兩階段多時間尺度調度策略，通過協調供能、蓄熱裝置實現多設備互補運行和成本降低；文獻[9-10]針對工業園微能源網構建了考慮生產約束的經濟性最優調度模型，實現了工業生產調度時序性和用能需求多元性的結合；文獻[11]針對煉油工業提出一種降低用能成本的需求側能量調度方案；文獻[12]針對工業園空調系統提出一種雙層優化模型，減小了用戶空調系統運行費用，并增加了用戶代理商利潤；文獻[13]針對工業園綜合能源系統提出考慮供能可靠性的能量調度方法，提升了綜合能源系統的供能可靠性和經濟性。上述研究雖然從微網不同的方面提升調度運行的經濟性，但均未有效考慮可再生能源和負荷波動特性的影響。

為應對微網中源荷不確定性，文獻[14]采用隨機規劃方法對不確定性因素進行概率分布分析，而文獻[15-16]采用魯棒優化方法對不確定性因素建模，雖然這些方法能夠有效刻畫不確定性，但是受到不確定性場景數目和最壞場景約束的影響，仍舊無法應對源荷不確定性對微網經濟調度的影響。隨著人工智能技術的發展，基于數據驅動的機器學習方法逐漸在優化運行方面得到應用和發展。深度強化學習(DRL)作為機器學習的一種典型代表，結合了深度學習強大的信息表征能力和強化學習的序列決策優化能力，為多種優化調度問題提供了一種新的解決途徑[17-18]，同時DRL的自主學習能力和自適應能力在應對不確定因素的影響時，具有明顯的優勢。文獻[19-20]提出一種基于Q-learning方法的綜合能源微網優化調度方法以應對光伏出力和負荷需求的不確定性；文獻[21]采用深度確定性策略梯度算法(DDPG)提出一種自適應不確定性經濟調度方法，實現了任意場景下的電力系統動態經濟調度。然而，基于Q-learning方法的強化學習算法只能處理離散動作的問題，而現實中眾多研究問題均為連續動作問題，同時基于Q-learning方法和DDPG方法的強化學習算法存在過估計的問題。

基于上述分析，針對以工業園為例的微能源系統，為應對源荷不確定性產生的影響同時提升微能源系統的運行經濟性，提出一種基于雙延遲深度確定性策略梯度(TD3)[22]的動態優化調度方法。首先構建了工業園微能源系統的經濟調度模型，然后基于行動器-評判器(Actor-Critic)框架將經濟調度模型表示為具有連續動作調節的DRL模型，并使用雙延遲深度確定性策略梯度算法獲取DRL模型下的動態連續調度策略，最后，通過對比算例分析，驗證所提方法的優越性。

1 工業園微能源系統優化調度模型

1.1 工業園微能源系統

工業園微能源系統由配電網和配氣網提供外部能量輸入，由屋頂分布式光伏提供內部能量輸入。工業園微能源系統架構圖如圖1所示，能量轉換設備有熱電聯產機組(CHP)、燃氣鍋爐(GB)、電鍋爐(EB)，能量存儲設備有蓄電池(BES)、空氣壓縮儲能系統(CAES)，用能設備有工業電負荷、工業熱負荷和氣負荷。

圖1 工業園微能源系統架構圖

1.1.1 熱電聯產機組模型

熱電聯產機組輸出的電功率和熱功率為

PCHP(t)=QCHP(t)HNGηCHP

(1)

HCHP(t)=mPCHP(t)

(2)

式中:PCHP(t)和HCHP(t)分別為熱電聯產機組輸出的電功率和熱功率；QCHP(t)為熱電聯產機組消耗的天然氣量；HNG為天然氣熱值；ηCHP和m分別為熱電聯產機組產電效率和熱電比值。

熱電聯產機組需要滿足運行上下限約束，如下所示：

(3)

1.1.2 燃氣鍋爐模型

燃氣鍋爐通過消耗天然氣產生熱能，燃氣鍋爐輸出的熱功率如下所示：

HGB(t)=QGB(t)HNGηGB

(4)

式中:HGB(t)為燃氣鍋爐輸出的熱功率；QGB(t)為燃氣鍋爐消耗的天然氣量；ηGB為燃氣鍋爐產熱效率。

燃氣鍋爐需要滿足運行上下限約束，具體如下所示：

(5)

1.1.3 電鍋爐模型

電鍋爐輸出的熱功率如下所示：

HEB(t)=PEB(t)ηEB

(6)

式中:HEB(t)為電鍋爐輸出的熱功率；PEB(t)為電鍋爐消耗的電能；ηEB為電鍋爐電熱效率。

電鍋爐需要滿足運行上下限約束，如下所示：

(7)

1.1.4 蓄電池模型

蓄電池通過存儲和釋放電能實現可再生能源的消納、電能使用高峰時段轉移等。蓄電池的荷電狀態(SOC)如下所示：

(8)

式中:SBES(t)和SBES(t-1)分別為t時刻和上一時刻蓄電池的SOC；ηBES為蓄電池的充放電效率；PBES(t)為蓄電池的充放電功率；EBES為蓄電池容量；Δt為調度時間間隔。

蓄電池需要滿足運行上下限約束和SOC約束，如下所示：

(9)

1.1.5 CAES模型

CAES通過消耗電能將空氣壓縮至儲氣罐中，并通過調節儲氣罐中的壓力將空氣壓縮輸送到工廠氣動系統，如動力機械臂[9]。CAES儲氣量如下所示：

ECA(t)=ECA(t-1)-DCA(t)Δt+ηCAPCA(t)Δt

(10)

式中:ECA(t)、ECA(t-1)和DCA(t)分別為CAES在t時刻、上一時刻的儲氣量和CAES在t時刻的用氣量；PCA(t)為CAES中空壓機t時刻的輸出功率；ηCA為CAES壓縮機效率。

CAES需要滿足氣量連續性約束、氣罐壓力約束和CAES啟停約束，如下所示：

(11)

1.2 經濟調度模型

1.2.1 目標函數

工業園微能源系統在保證工業生產任務要求的前提下，通過合理安排可控機組的調度計劃，可實現綜合運行成本最低的目標。微能源系統運行成本主要由購能成本、設備維護成本和碳排放成本構成。微能源系統的經濟調度目標函數如下所示：

(12)

式中:Cb、Co和Cce分別為微能源系統的購能成本、設備維護成本和碳排放成本;ce、cg、cb、cca和cce分別為市電電價、天然氣單位價格、蓄電池折損費用系數、CAES維護費用系數和碳排放費用系數，其中ce由上網電價csale和購電電價cbuy構成;T為調度周期數。

1.2.2 約束條件

工業園微能源系統優化調度約束包括電能、熱能、氣能平衡約束、購能約束和設備運行約束，如下所示：

(13)

(14)

2 基于DRL的經濟調度方法

2.1 經濟調度的強化學習框架設計

強化學習是機器學習中一種通過智能體和環境交互學習來制定最佳狀態-動作策略的方法。強化學習的核心是智能體和環境的交互。智能體通過觀測環境的狀態根據策略函數給出環境動作，并基于狀態和動作計算每一步獎勵，環境執行智能體給定的動作并將新的狀態提供給智能體。智能體依據每一步的獎勵來尋找使累計獎勵最大化的狀態-動作策略。圖2所示為強化學習的核心框架。

圖2 強化學習核心框架

強化學習本質可使用馬爾科夫決策過程(MDP)表述，即下一時刻狀態僅與當前時刻狀態和動作有關。MDP常表示為一個元組(S，A，Tp，R)，其中：S表示狀態空間；A表示動作空間；Tp表示狀態轉移函數，Tp：S×A×S′→[0,1]，即狀態S執行動作后轉移到下一個狀態S′的概率；R表示獎勵函數，R:S×A→R，即發生狀態轉移時環境給出的即時獎勵。

(1) 狀態空間S。在工業園微能源系統的經濟調度模型中，環境的觀測狀態包括負荷需求、屋頂光伏發電功率、蓄電池SOC和CAES儲氣狀態。狀態S可表示為

S=[PLHLELPPVSBESECA]

(15)

(2) 動作空間A。智能體的動作包括熱電聯產機組輸出的電熱功率、燃氣鍋爐輸出的熱功率、電鍋爐輸入電功率和輸出的熱功率、蓄電池的充放電功率、CAES輸入電功率和儲用氣量以及微能源系統與配電網交互功率。依據式(2)、式(4)、式(6)和式(13)，熱電聯產機組輸出的電功率、燃氣鍋爐輸出的熱功率和蓄電池的充放電功率是智能體必不可少的動作，其他動作均可由相應的計算式得到。動作空間A可表示為

A=[PCHPHGBPBES]

(16)

(3) 狀態轉移函數f。智能體的狀態轉移函數如下所示：

st+1=f(st，at，σt)

(17)

式中：st和at分別為t時刻的狀態和動作；σt為t時刻的隨機項，即體現屋頂光伏發電功率和微能源系統負荷需求導致的隨機影響。

(4) 獎勵函數r。為實現工業園微能源系統的最小調度成本，將微能源系統的經濟調度模型中目標函數式(12)改寫為獎勵函數如下所示：

rt=-k[Cb(st,at)+Co(st,at)+Cce(st,at)]-ξ

(18)

式中:rt為t時刻的獎勵函數值;k為比例因子;ξ為懲罰因子，當約束條件不滿足時，懲罰因子為常數，當約束條件滿足時，懲罰因子為0。

(5) 狀態-動作值函數Qπ(s,a)。智能體的策略π為狀態S到動作A的映射，智能體采用狀態-動作值函數Qπ(s,a)來衡量策略π的優劣程度，如下所示：

(19)

式中:γ為折扣因子,γ∈[0,1]，表示未來獎勵在累積獎勵中所占比重;rt為t時刻的獎勵;Eπ[·]為策略π的期望。

最優策略π*可表示如下：

π*=argmaxQπ(s,a)

(20)

2.2 經濟調度的DRL部署

經濟調度的強化學習框架設計中，智能體的動作A在現實場景中均為連續調節的變量，且狀態轉移函數f中包含不確定性因素影響的隨機項σt，僅通過強化學習應對動作的連續調節和不確定性因素的影響將大大降低強化學習效率和適用性。深度學習是機器學習中一種基于對數據進行表征學習的方法，DRL將深度學習的感知能力和強化學習的決策能力相結合，有效提升強化學習的學習效率并極大地拓展了強化學習的使用范圍。

TD3算法基于Actor-Critic框架，由Q值網絡和策略網絡兩部分構成，策略網絡實現狀態S到動作A的映射，Q值網絡實現對策略網絡建立映射的量化評估，即狀態-動作值函數Qπ(s,a)。TD3算法通過增加Q值網絡和軟更新的方式抑制Qπ(s,a)的過高估計。Q值網絡將給出兩個狀態-動作值函數Qπ1(s,a)和Qπ2(s,a)，并取兩者的最小值作為最終Q值網絡的估計值，同時通過構建與Q值網絡和策略網絡相對應的目標Q值網絡和目標策略網絡，采用軟更新的方式使Q值網絡和策略網絡向目標Q值網絡和目標策略網絡傳遞參數，延緩Qπ(s,a)的更新速度。

基于DRL的工業園微能源系統經濟調度智能體部署TD3算法，通過TD3算法的訓練可使智能體的策略網絡具備任意環境狀態st下產生最優動作at。TD3算法訓練智能體的具體步驟如圖3所示。

圖3 TD3算法訓練流程圖

3 算例分析

3.1 參數設置

本文以西北地區某工業園1#～3#生產廠房的微能源系統為例，1#～3#廠房屋頂光伏裝機容量為2 MW，配置熱電聯產機組350 kW，燃氣鍋爐300 kW，電鍋爐200 kW，蓄電池850 kW/850 kWh，CAES 300 kW，儲氣罐容量40 m3，最大、最小壓強5、3.5 Pa。1#～3#生產廠房通過一臺變壓器與配電網相連，微能源系統和配電網交互功率不大于3 MW。配電網分時電價：峰時段(12:00～19:00)0.59元、平時段(07:00～12:00，19:00～23:00)0.38元、谷時段(23:00～07:00)0.16元。配電網上網電價為0.2元，天然氣價格為1.9元/m3。微能源系統設備參數如表1所示。

表1 微能源系統設備參數

工業園微能源系統的調度周期為24 h，相鄰兩個調度時段的間隔為15 min。以西北地區某工業園1#～3#生產廠房3月～5月日負荷數據和光伏發電數據作為歷史數據對微能源系統經濟調度智能體訓練，使用6月的平均日負荷數據和平均光伏發電數據對智能體進行評估，如圖4所示。基于TD3算法的DRL參數如表2所示。

圖4 平均日負荷曲線和光伏發電曲線

表2 基于TD3算法的DRL參數

3.2 基于DRL微能源系統經濟調度分析

3.2.1 基于TD3算法的微能源系統調度分析

使用歷史數據訓練智能體：智能體接收電、熱、氣負荷和光伏發電數據，并生成熱電聯產機組電功率、燃氣鍋爐熱功率和蓄電池充放電功率指令；根據圖3對智能體的網絡參數進行調整，并在平均獎勵達到穩定值后，保存智能體形成的策略，即微能源系統的經濟調度策略，智能體訓練過程中獎勵函數的變化如圖5所示。然后采用圖4所示的平均日負荷數據和平均光伏發電數據對智能體進行測試，基于TD3算法的微能源系統經濟調度結果如圖6～圖8所示，其中圖6為電能調度結果，圖7為熱能調度結果，圖8為氣能調度結果。

圖5 基于TD3算法的微能源系統經濟調度智能體訓練圖

圖6 基于TD3算法的電能調度結果

圖7 基于TD3算法的熱能調度結果

圖8 基于TD3算法的氣能調度結果

圖5中陰影區和黑色曲線分別表示智能體訓練過程中的獎勵值變化范圍和獎勵函數的均值。通過圖5可知基于TD3算法的智能體在400回合后逐漸收斂至穩定獎勵值。圖6展示了光伏發電功率、向電網購售功率、蓄電池充放電功率、熱電聯產機組和電鍋爐消耗電功率，空壓機工作消耗電功率和工業園1#～3#生產廠房電負荷功率。如圖6所示，微能源系統電能調度中蓄電池在谷價時充電并在其他時段放電，同時蓄電池會吸收光伏和熱電聯產機組產生的多余電能(12:00～12:15，13:30～13:45)，此外電能調度中還會優先消納光伏產生的電能以減低對市電的需求。圖7展示了熱電聯產、燃氣鍋爐和電鍋爐的熱功率，以及工業園1#～3#生產廠房熱負荷功率。工業園由于生產工序特性，電、熱、氣負荷功率呈現較為規律的波動變化，且西北地區天然氣存量豐富,成本經濟。如圖7所示，微能源系統熱能調度中熱電聯產機組和燃氣鍋爐輸出熱功率占熱負荷需求的比重超過70%，而電鍋爐輸出的熱功率受分時電價影響，在谷價時段比平價和峰價時段輸出熱功率更多。在峰價時段由于熱電聯產機組和燃氣鍋爐輸出熱功率已達最大值，熱負荷需求不足的功率由電鍋爐補足。生產產線用氣量和儲氣罐儲氣量如圖8所示，微能源系統的氣能調度中儲氣罐在谷價時段通過空壓機的工作盡可能維持最大壓強，而在平價和峰價時段儲氣罐在滿足生產產線用氣量的基礎上，減少維持最大壓強的時刻以降低用電需求。通過上述調度結果分析，可知基于TD3算法的微能源系統調度智能體不僅能夠獲取全時段的最優獎勵，同時在每個調度時段也探索最優獎勵并影響全時段的最優獎勵。

3.2.2 不同調度方法對比分析

為驗證提出的基于TD3算法的微能源系統經濟調度方法的有效性，分別采用基于深度Q網絡(DQN)的微能源系統經濟調度方法和基于預測信息的調度方法進行比較。其中，基于DQN的微能源系統經濟調度方法采用負荷需求、屋頂光伏發電功率、蓄電池SOC和CAES儲氣狀態作為狀態觀測量，采用熱電聯產機組輸出的電功率PCHP、燃氣鍋爐輸出的熱功率HGB和蓄電池的充放電功率PBES為動作量，并將PCHP、HGB、PBES分別離散為{0,100,200,250,300,350}kW、{0,100,150,200}kW、{-850,-450,-280,-50,0,50,280,450,850}kW。DQN的折扣因子為0.99，學習率為0.001，批處理為64。基于預測信息的調度方法采用神經網絡對光伏發電功率和電、熱、氣負荷進行預測，然后采用優化求解器進行求解。三種方法均采用西北地區某工業園1#～3#生產廠房6月平均日負荷數據和平均光伏發電數據進行調度結果比較，如表3所示。

表3 不同調度方法比較元

由表3可知，基于TD3的微能源系統調度方法調度總成本為49 785元，其中購能成本占比最大，為48 306元，維護成本占比最小，為60.263元。基于TD3的調度方法比基于DQN的調度方法調度總成本節約1 074元，主要節約在購能成本；基于TD3的調度方法比基于預測信息的調度方法調度總成本節約392元，同樣主要節約在購能成本。表3表明，基于DQN方法的動作為離散動作，無法對更細化的動作進行探索，基于預測信息的方法同實際信息存在誤差，而基于TD3方法的動作連續，能夠實現對動作邊界范圍內的所有值的選取和探索，同時其訓練過程采用探索噪聲擾動確保了不同誤差情況下的有效探索，因而基于TD3的微能源系統經濟調度方法減小了經濟成本。

4 結語

本文針對城市工業園微能源系統提出了一種基于TD3的動態調度方法，首先依據馬爾科夫決策過程，將微能源系統調度模型構建為強化學習框架，設計包含購能成本、維護成本和碳排成本的微能源系統經濟調度獎勵函數，然后采用Actor-Critic框架的TD3算法對智能體進行訓練，最后以西北地區工業園微能源系統為例進行了有效性驗證。所提方法不僅能夠確保動作的連續性，避免獎勵值的過估計，同時所提方法不依賴于預測信息和不確定性建模，能夠保證源荷隨機波動時的調度策略有效性。通過與基于DQN的調度方法和基于預測信息的調度方法對比可知，所提基于TD3的微能源系統調度方法具有更好的經濟性。