潮 鑄段秦尉錢 峰黃紅偉薛艷軍
(1.廣東電網電力調度控制中心,廣東 廣州 510080;2.北京清大科越股份有限公司,北京 100084)
隨著風光等可再生能源發電不斷并入電力系統傳統發電、輸電、配電和用電等電網,尤其是大量并入低電壓等級電網,如配電網,使傳統配電網由單純的被動受電逐漸具有主動供電能力,且主動性隨著可再生能源發電的并入量越來越明顯,由此使配電網具有受電和供電的雙重性,引起了國內外專家學者的高度重視[1-3]。
針對主動配電網中風電、光電具有隨機性、波動性特點,使得主動配電網具有“源”或者“荷”狀態的不確定性,在實施電力系統調度過程中,增加了電力系統調度和控制的難度[4-5]。
對此問題,國內外專家學者進行了深入的研究,從研究思路上來說,主要可以分為兩類:第一類是集中式的電力系統調度控制方法,第二類是分布式的電力系統調度控制方法。
對于第一類的研究來說,主要思路是采用集中的方式建立“源”“網”“荷”聯合調度的優化模型,如文獻[6-8]考慮到可再生能源的不確定對電網調度的影響,將需求響應和電動汽車結合,能夠有效降低電網調度的風險;文獻[9-11]綜合考慮了傳輸限制的風電、燃氣機組等不確定性的協同優化調度模型;文獻[12-14]通過考慮風力發電、網絡拓撲結構、光伏發電、微型燃氣輪機、儲能等不確定因素,建立了動態優化的綜合調度模型。對于集中式的經濟調度方法來說,其通常做法是在調度中心通過獲得的各個部分信息(如發電、負荷、網絡等狀態)建立以經濟成本最小為目標的最優模型,使用多種方法予以求解。然而,隨著可再生能源發電越來越多分散在電力系統各個部分(如主動配電網各個地域),使傳統集中式調度方法存在通信網絡、大數據量并發、計算效率、局部故障容易引發全局故障等問題,使集中式調度方法具有一定的困難。
為了解決集中式的困難,分散式調度方法應運而生。對于第二類的研究來說,主要研究思路是采用分散或分布式方式建立“源”“網”“荷”的調度優化模型,如文獻[15-17]提出了可再生電源以微電網為單元的分散協調調度方式;文獻[18-20]考慮到分布式優化框架下參與主體為了獲得更多利益而遵循其私有設置的優化算法,從而破壞全局最優配置,在分解協調算法和純分布式算法基礎上,提出了基于區塊鏈共識機制的多區域最優潮流分布式算法;文獻[21-23]采用一致性算法,將“源”“網”“荷”的不確定嵌入其中,提出了源網荷完全分布式的優化調控策略。
對于分散式的經濟調度方式而言,目前主要的做法是建立分散式的算法、優化模型以保證在全局范圍內的資源配置最優,然而該類方法忽略了多個區域在分散協調過程中,可能因為局部區域為了獲取自身利益最大而協調虛假信息,從而無法實現全局最優。本文以此為切入點,在強化學習方法的基礎上,提出了局部分散、全局集中的深度強化學習的經濟調度方法。
根據前述,要實現主網、配網之間的分散協調以達到全網最優,主網、配網內部實現區域自治,二者之間實現協調。
由于實際的配電網呈現輻射狀網絡,因此對于如圖1 所示具有n+1 的節點的配電網來說,其潮流方程為:

圖1 輻射狀配電網結構圖

式中:Pjk、Qjk分別表示配電網中支路為jk的有功潮流、無功潮流;rij、xij分別表示支路為ij的等值電阻和等值電抗;Pj和Qj分別表示節點j的注入有功功率和無功功率;Vi和Vj分別表示節點i和j的電壓幅值;Iij表示支路ij中流過的電流幅值。
為了解決配電網輻射狀潮流計算的收斂性問題,設:

將式(2)代入式(1)中,對式(1)進行二階錐變換:

在24 h 的日前經濟調度過程中,在時刻t的潮流計算過程中節點j的注入功率可以表示為:


在日前調度至在線調度的滾動過程中,t時刻的節點j上的功率變化分別為:

主電網、主動配電網以及分散的微電網之間相互協調的目的是使全網的成本最小,即:

式中:T表示經濟調度的時段總數,Ns表示微電網總數。對于24 h 的日前調度,一般以15 min 為一時段;C1表示在日前調度時段內的成本;C2表示在線調度時段內的成本。
對于式(6)中的C1成本,可以表示為:

對于式(6)中的C2成本,可以表示為:

要實現目標函數的潮流計算,需要滿足多種計算約束條件。
首先,系統潮流需要滿足如下的約束:

其次,對于微小型燃氣機的運行需要滿足如下約束:

第三,對于無功補償器,需要滿足如下約束:

第四,主電網、配電網之間的協調約束:

第五,主動配電網與微電網中的可再生能源發電之間的協調約束:

微電網存在于配電網中,是由單獨或者小范圍的可再生能源發電及其負荷組合而成,由此可知微電網中由于可再生能源的波動性和間歇性,有時對外發電,有時需要購電,即微電網與配網之間要交互電能,由此構建經濟調度成本最小的目標函數為:

式中:C3表示24 h 前的調度成本;C4表示在線調度成本。
對于式(14)中的24 h 前的調度成本可以表示為:

對于式(14)中的在線調度成本可以表示為:

要實現式(14)的計算,需要滿足一系列的約束條件,下面分別介紹。
第一,微小型燃氣機的有功出力約束:

第二,有功潮流的平衡約束:

強化學習(Reinforcement Learning,RL)源自人工智能領域中的一種控制方法,它的基本原理是設置優化控制的規則,在該規則下引導智能體不斷探索并最終收斂到最優值[21]。
設S表示狀態空間,A表示動作空間,R表示獎賞函數,P表示狀態轉移概率,γ表示折扣引子,那么可以建模一個五元素組合為:

在上述五元素中,制定一個策略:

那么策略π(s)表示在狀態集合S中的選擇一個狀態s進行動作所產生的策略。這個策略的質量由評價函數Vπ(s)來計算:

式(21)實際是表示在狀態s下執行策略π 得到的一個累積獎賞的期望值。式(21)具有遞歸特性,可以展開表示為:

由式(22)可見,對于給定的一個式(19),驅動式(21)尋找一個獲得最大獎賞值的策略,即最優策略:

在式(23)的基礎上,Watkins 提出了無模型的Q型強化學習方法。該方法通過優化可迭代計算的動作值函數Q(s,a),來尋找一種策略,該策略能夠使得期望的折扣報酬累加值最大,即任意給定一個策略π,定義Q函數為:

模型式(24)的基本思路是在任意一種策略情況下,即未知轉移概率和所獲得報酬的情況下,來不斷試探并最終找到策略的最優Q*值:

試探迭代公式為:

由上述的強化學習原理和過程可知,強化學習過程其實就是將式(19)中的各個元素劃分為多個離散的區間,在這些離散的區間內通過不斷試探,尋找最優的策略。
由此,可以進一步提出分布式強化學習的思路,即將強化學習過程(如式(24)~式(26))看成多個智能體獨立動作和協調動作,每個智能體獨立完成一部分工作,然后經過多次協調完成整體最優動作。
從數學模型上講,分布式強化學習Q(λ)實際是一個多步回溯函數,在通過試探尋優過程中,利用資格跡來更新其值函數:

式中:k表示迭代過程標記;a表示學習因子,通常取0.999;ek(s,a)表示在第k步的迭代過程中的資格跡;R(sk,sk+1,ak)表示第k次的迭代過程中,在動作ak的驅動下將狀態sk轉換到sk+1的獎勵。
式(27)的動作選擇面臨多種機制,如貪婪、探索、回退等,本文提出概率機制來確定動作:

式中:β表示迭代頻率大小,本文取0.999;表示第k次迭代過程中狀態s被動作a執行的概率大小。
通常來說,對于微電網中的可再生能源和負荷具有對外售電、購電雙重不同場景行為,這是貫穿在主電網、配電網、微電網協調過程中,即目標是:(1)有功功率平衡;(2)主電網、配電網、微電網三者的成本目標函數最小。
為了實現這兩個目標,在強化學習模型中需要設置局部獎懲函數、全局獎懲函數。
4.1.1 局部獎懲函數
對于主電網、配電網、微電網中各個局部的強化學習智能體的獎懲函數設置為:

式中:R1與電價有關;R2為發電成本;R3表示懲罰項。
式(29)中的R1,R2,R3分別為:

式中:u表示實時電價;R2表示發電成本,β1,β2分別由表示可再生能源發電、常規電源成本參數;R3表示強化學習過程中的懲罰項,λ1,λ2,λ3,λ4分別表示權值,設置為5,10,15,20;參數e1,e2,e3表示有功功率變化ΔP范圍取值。
由式(32)可見,當有功功率偏差ΔP越小,對應的懲罰項越小,而偏差越大,對應的懲罰項就越大,這時就能夠驅動強化學習的智能體動作減小,以至于改變動作。
4.1.2 全局獎懲函數
所謂的全局獎懲函數就是指主電網、配電網、微電網之間進行交互協調時的獎懲函數。

根據分布式強化學習原理,設分布式強化學習式(28)中的動作空間A劃分為h個離散區間,狀態空間S劃分為g個離散空間,由此形成h×g階動作-狀態矩陣。
本文提出的分布式最優強化學習就是對主電網、配電網、微電網各個獨立的個體進行獎勵累加為全局獎勵,那么可以定義如下的強化學習模型:

為了在有功功率協調過程中保證電壓穩定,即無功補償設備的投入量(式(10)和式(11)),在有功功率動作集合中選擇動作atP進行強化學習:

式(37)的最優策略可以通過迭代獲得:

采用如圖2 所示的某實際主電網、配電網、微電網對本文算法予以驗證。圖2 所示系統中共包含33 個輻射狀配電網節點,其中包含4 個微小型燃氣機MT、3 個微電網(MG1、MG2、MG3)、1 臺微型風力發電機、4 個靜止無功發生器(Static Var Generator,SVG),其他為負荷節點。

圖2 某實際電網
在3 個微電網MG1、MG2、MG3 中,MG1 包含了1 臺微小型燃氣機和1 臺微型光伏發電機,MG2 包含了1 臺微小型燃氣機,MG3 包含了1 臺微小型燃氣機和1 臺微型風力發電機。
配電網的有功負荷具有相似的波動曲線,某一周內7 d 每天24 h 的負荷曲線如圖3 所示。

圖3 某周7 天的日負荷曲線
假設用于調度的微電網內的風力發電和光伏發電曲線每天24 h 具有相似曲線特性,如圖4 所示。

圖4 微電網中的光伏發電、風力發電曲線
主電網、微電網不同時段的電價如表1 所示。

表1 主電網和微電網電價 單位:/元
為了驗證本文算法的有效性,在MATLAB 仿真平臺編寫算法,使用MATPOWER 軟件包實現潮流計算過程。
為了與本文所提出的分散協調的調度結果比較,采用如下的多種調度策略:
策略1 傳統集中式優化調度策略,即將主電網、配電網、微電網一起優化調度。
策略2 分散協調的優化調度策略,即將主電網、配電網、微電網中的傳統發電方式作為電源進行分散協調。
策略3 本文策略,即分散協調的優化調度策略,充分考慮傳統發電和可再生能源發電。
經過分別測試,三種策略的結果如表2 所示。由表2 可見,策略1 與策略2 無論在主網、配網、微網的成本差別不大,主要原因是這兩種策略都沒有考慮可再生能源發電的參與,只是采用傳統的發電滿足負荷的運行模式。策略3 是在可再生能源發電參與的情況下的結果,由于可再生能源發電的成本相對較低,消耗主網、配網和微網中的傳統電源較少,因而總成本較低。

表2 不同調度策略結果比較
表2 是從不同調度策略的情況下分析結果。通過進一步分析三種不同策略運行過程中發現:對于第一種策略來說,配網中的負荷主要靠主電網電源來滿足。同理,對于第二類策略中雖然采用分布式的解決方式,但在調度過程中沒有考慮可再生能源,但使用了微小型燃氣機,因而配電網中的負荷主要由主電網中的電源和微小型燃氣機提供。對于第三種策略來說,由于設置強化學習方法中懲罰因子,即在舍棄風電、光伏時懲罰因子較大,因而迫使調度過程中始終使用可再生能源發電,因而使總體成本較低。
針對電力系統主電網、配電網和微電網中可再生能源發電日益增多問題,提出了分布式強化學習方法以實現主電網、配電網和微電網的分散協調,通過實際算例的仿真驗證可得如下結論:
(1)充分調度主電網、配電網和微電網中的可再生能源發電,能夠降低系統成本,節能減排。
(2)與集中式調度方式相比,分布式調度策略更能夠最大化消納可再生能源,使各個部分成本都達到最低。
總之,通過分散式交易方式能夠加大交易市場的靈活性,符合資本運作的實際。但是經過實驗發現,分布式計算時間較長,這與交易次數有關,因此對于大型電力系統而言,計算耗時較大,這也是后續需要解決的關鍵問題。