基于深度強化學習的微電網內多側儲能協同調度方法

2023-10-21 03:11:02劉秉祺李彥賓張庭祥

可再生能源 2023年10期

謝旭，張哲，喻樂，劉秉祺，李彥賓，陳曦，張庭祥

（1.國家電網有限公司華北分部，北京 100083；2.北京清大科越股份有限公司，北京 100102；3.哈爾濱工業大學電氣工程及自動化學院，黑龍江哈爾濱 150001）

0 引言

近年來，由可再生能源組成的混合發電系統發展迅速，廣泛應用于分時定價（Time of Use，TOU）下的工業用戶[1]。可再生能源發電的間歇性和不可預測性會導致電力系統的運行安全問題[2]，需要更好地了解可再生能源滲透率下所需的運行儲備[3]。儲能系統（Energy Storage System，ESS）通過轉移負荷及平滑需求，可以促進可再生能源更好的并網，也可以改善供電質量、降低電力成本[4]。容量較高的存儲系統可以提供更多的服務支持，如參與平衡、輔助服務等，同時需要為ESS部署各種控制器，如開/閉環、多智能體系統、優化方法等多側儲能方法[5]。

許多地區采用動態TOU形式，能源供應商通過TOU降低高峰期的需求[6]。通常TOU價格每年變化不超過兩次，可能有2～3個價格水平，例如非高峰期、中高峰期和高峰期。ESS將在實行動態價格的住宅區發揮重要作用，在低價期儲存能源，在高價期使用儲存的能源，降低消費者的費用。

近年來，ESS的調度問題引起了研究人員的關注[7]。C D Korkas[8]提出了基于動態規劃的ESS運行優化方法，在不犧牲用戶偏好和滿意度的情況下，獲取最低的能源成本。G Zhang[9]利用隨機非凸優化最小化并網微電網的總體運行成本，將非凸隨機優化問題轉化為凸優化問題進行求解。文獻[10]提出了一種隨機動態規劃，利用現有的預測量優化儲能系統的運行。文獻[11]為儲能業主制定了一個隨機優化問題，在市場價格不確定的情況下實現套利利潤最大化。這兩項研究均需要預測電價，然而，很難在實時市場中得到準確的預測值[12]。

本文基于Q學習方法開發出一種易于實現的套利政策，以增強儲能系統的價值積累。在沒有明確假設分布的情況下，所提出的方法能夠在不斷變化的價格下運行。隨著時間的推移，通過在不同的實時價格下反復執行充電和放電行為，達到累積獎勵最大化。本文所提出的方法是不需要任何系統模型信息的無模型方法，對于TOU調度和節點邊際電價（LMP）能源套利的組合，遵循通過Q學習獲得的政策，極大地降低了多種能源成本。

1 儲能系統調度模型

電力系統的邊際成本往往隨著需求的增加而增加，例如高峰時的電力需求決定了輸電總容量，因此扁平化的電力需求被認為是降低電力公司成本的重要因素之一。具有反映需求變化動態價格的費率結構，如實時定價（Real Time Pricing，RTP）、日前定價（Day Ahead Pricing，DAP）和TOU模式，可以通過消費者對價格變化的反應來幫助平抑高峰需求，降低電力生產成本。

本文從用戶角度解決實時儲能系統充電/放電調度問題。假設儲能系統的額定功率為5 kW，額定電池容量為14 kW·h，并假設儲能沒有退化，調度效率為100%，充電狀態（State-of-Charge，SOC）限制為額定電池容量的10%和90%。一個具有離散時間步長的有限Markov決策過程可用于描述這個問題。假設兩個相鄰步之間的時間間隔為0.25 h，在時間步驟t，觀察系統狀態s（t），其中包括剩余能量和過去24 h的電價信息。基于這些信息，將選擇充電/放電的動作a（t）。a（t）代表了儲能系統在這個時間間隔內將被充電或放電。在執行這個動作后，可以觀察到新的系統狀態s（t+1），并為時間步驟t+1選擇新的充電/放電動作a（t+1）。為防止同時進行充電和放電，或從多個來源進行充電/放電，在t時刻儲能裝置的充放電策略定義如下：

式中：cm（t）為t時刻來自LMP的充電功率，當a（t）=cm（t）時，表示以當前LMP價格購買能量為ESS充電；cu（t）為t時刻來自TOU的充電功率，當a（t）=cu（t）時，表示以TOU價格充電；du（t）為t時刻來自TOU的放電功率，當a（t）=du（t）時，表示以TOU價格放電；dm（t）為t時刻來自LMP的放電功率，當a（t）=dm（t）時，表示以當前LMP價格出售從ESS放出的能量；當a（t）=0（t）時，表示ESS既不充電也不放電。

從年初到時間t的累計收入V可以定義為

式中：h為數據的周期，本文中h=0.25 h；m（Δt），為Δt時刻LMP；u（Δt）為Δt時刻TOU；l（Δt）為Δt時刻負荷。

對于基于TOU的調度策略，ESS僅在最低電價時以全額額定功率充電，而在最高電價時放電。如果最低電價的時間段形成了Tlow集，最高電價的時間段形成了Thigh集，則累計收入表達式如下：

式中：Cmax為最大充電功率；Dmax為最大放電功率。

對于基于LMP的調度策略，假設p（t）為t時刻的LMP，s（t）=dm（t）-cm（t），則累計收入為如下優化問題的解：

式中：Emin為最低限度的SOC；Emax為最大限度的SOC；E（t）為t時刻儲能的SOC；r（t-1）為前一時刻的回報值。

2 基于深度強化學習的儲能協同調度方法

2.1 基于強化學習的調度方法

Markov決策過程是一個五元組[S，A，P.（·，·），R.（·，·），γ]，其中，S為系統狀態，A為一個有限的行動集合，P.（·，·）為狀態轉換概率，R.（·，·）為獎勵，γ為衰減率。考慮到能源的TOU成本、LMP價格、ESS的SOC狀態和負荷情況，采用Q學習的方法優化ESS調度行為。

首先，將系統在t時刻的狀態定義為向量s（t）=[du（t），E（t），cu（t），l（t）]，這包括了4個部分：TOU，SOC，LMP和負荷。給定狀態s（t），a（t）定義為a（t）=[cm（t），dm（t），0（t），cu（t），du（t）]。在每個動作中，ESS試圖以最大的允許速率進行充電或放電。在ESS沒有過度/不足充電風險的情況下，即充電/放電不會導致E（t）超過Emax或低于Emin，那么調度將以全額定功率5 kW進行。

t時刻，在狀態s（t）∈δ下采取動作a（t）∈A后，為了評價動作的好壞，儲能器將收到一個獎勵。儲能的目的是通過在低價位充電和在高價位放電實現套利利潤最大化。因此，可以將這種獎勵定義為

式中：m（t）為LMP的移動平均值；上標a1，a2，a4，a5表示動作只保留當前項，令其他項為0，這確保了獎勵來自于所定義的動作域。

式中：η為一種用于決定獎勵重要性的參數。

在給定系統狀態s（t）條件下，充電/放電調度質量由K個時間步長的未來獎勵的預期總和來評價，如下所示：

式中：Qπ（s，a）為動作值函數；π為充/放電政策，表示從系統狀態到一種充/放電調度的映射；E（·）為計算期望值；γ為衰減率，0＜γ＜1，用以平衡當前獎勵和未來獎勵之間的重要性。

調度問題的目標在于尋找一個最優的政策π*，使得動作值函數達到最大，即：

2.2 深度網絡近似的最優動作值函數

由于未來的電價和用戶行為都是未知的，所以很難以解析的方式確定出最優政策π*。強化學習（RL）的解決方案是根據Bellman方程迭代式地更新Qπ（s，a）。

隨著迭代次數i→∞，Q（s，a）將收斂到最優動作值函數Q*（s，a）。通過一個貪婪策略確定最優調度：

Q*（s，a）通常由一個檢索表來近似。在本文的問題中，電價是連續且高維的，需要一個極其龐大的表來近似Q*（s，a），而更新這樣一個表是難以做到的。為此，本文利用一個深度卷積神經網絡來近似Q*（s，a），更新公式可以表示為

式中：α為學習率；w為網絡權重。

在均方誤差條件下，利用梯度下降法更新網絡參數，可使得動作值函數達到最優。

3 案例分析

發電側儲能模式需要利用負荷數據、TOU數據，而電網側儲能模式涉及到LMP數據。負荷數據采集于Pecan Street Dataport數據庫，從中獲取一處建筑從2014-07-08T00：00-2015-06-30T23：45的數據，采樣周期為15 min，負荷功率和光伏發電功率分別如圖1（a），（b）所示，TOU數據采集自電力公司，如圖1（c）所示。LMP數據采集于COVID-EMDA數據庫[13]，選擇了該時間段內San Diego URBAN-N005節點的數據，如圖1（d）所示。

圖1 測試數據中微電網出力情況Fig.1 Microgrid power output in test data

為驗證本文所提出的方法的有效性，在上述場景下，將所提出的方法分別與TOU策略方法、優化的TOU策略方法[14]及LMP策略方法[15]進行對比。對于TOU策略，儲能系統僅在最低電價時以全額額定功率充電，而在最高電價時放電。對于優化的TOU策略，儲能系統以減少峰值電費和最小化直流電費總額為目標，同時考慮了電池漏電、轉換損失等約束。LMP策略是將現貨市場中的儲能系統建模為馬爾可夫決策過程，并推導出一個Q-學習策略來控制儲能的充電/放電。模型中的衰減率γ=0.99，學習率α=0.000 1，訓練時的批次大小為32，隨機初始化網絡權重w，隱層和輸出層的單元數量分別為64和10，迭代次數設置為1 000。

圖2顯示了根據本文所提出的方法及其他方法所產生的累計運行成本。從圖中可以看出，由Q-學習策略所導致的動作比TOU策略下的總能源成本有著較大程度上的降低。實際上，Q-學習策略在大多數情況下選擇用TOU的方式釋放儲能，抵消了負載的分時能源成本，而在少數情況下以LMP的方式出售能源，如圖3所示。由于本文所提出的方法綜合考慮了TOU和LMP，能夠從這兩部分成本中選取較便宜的部分，所以進一步降低了能源成本。

圖2 不同方法在測試數據上的累積運行成本Fig.2 Cumulative operating costs of different scheduling strategies on test data

圖3 本文所提出的方法中Q-學習行動策略全年的分配Fig.3 Distribution of Q-learning action strategies throughout the year in the proposed method

為了進一步研究本文所提方法的性能，圖4展示了負荷較高的2 d內儲能系統調度。可以看到，在第1天06：00-18：00，儲能系統的能量主要來自于PV發電，所以儲能系統的充電模式處于0值附近，在夜間受分時電價、節點邊際電價、光照等因素的影響，儲能系統的能量存儲主要來源于放電模式。在第2天，由于電價的調整，06：00-18：00儲能系統的能量來自于PV發電和放電模式。因此，本文所提出的方法能夠在TOU和節點邊際電價較低時進行充電，在分時電價和節點邊際電價高峰期時進行放電。這些充電/放電模式驗證了本文所提出的方法具有降低能源成本的能力。

圖4測試數據中負荷較高的2 d內儲能系統調度結果Fig.4 Results of energy storage system dispatch during the 2 days of higher load in the test data

4 結論

本文從用戶的角度出發，將儲能系統調度問題表述為一個具有未知過渡概率的Markov決策過程。考慮了TOU調度和LMP能源套利，提出了一種基于深度強化學習的方法來確定實時調度問題的最優策略。所提出的方法是一種無模型的方法，不需要任何系統模型信息。在提出的方法中，對于TOU調度和LMP能源套利的組合，遵循通過Q學習獲得的政策，利用不同成本的多種能源，使得能源成本極大地降低。對比結果表明，所提出的方法優于基準解決方案。此外，所提出的方法可以滿足不同用戶對節約成本目標和減少范圍焦慮目標的偏好。