梅銘洋, 寇鵬,2,3, 張智豪, 梁得亮,2,3
(1. 西安交通大學電氣工程學院, 710049, 西安; 2. 西安交通大學陜西省智能電網(wǎng)重點實驗室, 710049, 西安;3. 西安交通大學電力設備電氣絕緣國家重點實驗室, 710049, 西安)
近年來,越來越多的新能源發(fā)電機組以分布式電源(distributed generator, DG)形式接入配電網(wǎng),形成具有潮流雙向流動特點的主動配電網(wǎng)[1]。潮流雙向流動給配電網(wǎng)運行的安全性和經(jīng)濟性帶來了挑戰(zhàn),其中最為突出的就是電壓波動和網(wǎng)絡損耗問題[2]。主動配電網(wǎng)內(nèi)的各類型無功補償設備為解決這些問題提供了硬件資源,但充分利用這些硬件資源的前提,是建立合理的電壓優(yōu)化控制方法,從而對各個無功補償設備進行高效的協(xié)調(diào)控制[3]。
按照被控對象的建模思路進行劃分,現(xiàn)有主動配電網(wǎng)的電壓優(yōu)化控制策略可分為基于機理模型控制策略和無模型控制策略兩大類。其中,基于機理模型的控制策略首先從物理背景出發(fā),建立主動配電網(wǎng)的電壓和損耗機理模型,然后利用模型預測控制[4](model predictive control, MPC)、隨機優(yōu)化[5]、啟發(fā)式優(yōu)化[6]、二階錐規(guī)劃[7]等方法,依托機理模型求解出各無功補償設備的最優(yōu)控制指令。不難發(fā)現(xiàn),此類策略的效能嚴重依賴于配電網(wǎng)模型的準確性。然而,實際配電網(wǎng)的物理參數(shù),尤其是線路參數(shù),一般難以準確獲得,相應的模型準確度也難以保證[8],這給基于機理模型控制策略的應用帶來了障礙。
與基于機理模型的控制策略不同,無模型控制策略不依賴于主動配電網(wǎng)的機理模型,而是利用數(shù)據(jù)交互構(gòu)建電壓控制策略。近年來廣受關(guān)注的深度強化學習(deep reinforcement learning, DRL)算法便是無模型控制策略的突出代表,其通過智能體與環(huán)境的交互過程構(gòu)建控制策略,可自適應被控對象參數(shù)的不確定性[9]。現(xiàn)有DRL算法的研究中,已有將其應用于電力系統(tǒng)電壓調(diào)節(jié)的報道。文獻 [10]建立了一種集中式深度強化學習算法,并通過控制并聯(lián)電容器的投切實現(xiàn)了電壓控制。文獻 [11]提出了一種多時間尺度配電網(wǎng)在線無功優(yōu)化算法,針對具有不同響應時間的多種無功補償設備,設計雙時間尺度分別對有載調(diào)壓變壓器和靜止無功發(fā)生器進行優(yōu)化控制。從控制系統(tǒng)架構(gòu)角度看,以上算法皆屬于單智能體架構(gòu),其集中式控制邏輯與配電網(wǎng)中無功補償設備的分布式屬性存在一定矛盾。對此,文獻 [12]提出了一種基于多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)[13]的電壓控制算法,可實現(xiàn)各無功補償設備的分散式控制,在提升電壓控制容錯的同時也降低了通信代價。
縱覽以上DRL電壓控制策略,盡管多智能體架構(gòu)相較于單智能體能更好地適應主動配電網(wǎng)的分布式特性,但二者均存在明顯的不足之處,即無法有效處理電壓控制問題中的約束條件[14-19]。而主動配電網(wǎng)電壓控制的一個重要目標,就是將各節(jié)點電壓維持在可行范圍之內(nèi),屬于典型的約束最優(yōu)控制問題。對此,現(xiàn)有DRL策略大多采用獎勵整定法[20-23],將電壓偏移作為懲罰項納入智能體的獎勵函數(shù),從而間接地將電壓約束條件融入控制策略設計。此類算法的局限性在于,電壓偏移懲罰項所對應懲罰系數(shù)的整定極其依賴于經(jīng)驗,若懲罰系數(shù)過小,則難以保證滿足電壓約束,若懲罰系數(shù)過大,則會增大控制代價并惡化配電網(wǎng)損耗優(yōu)化效果。
針對以上問題,本文提出了一種基于靈敏度矩陣的安全多智能體深度強化學習算法(sensitivity matrix based safe multi-agent deep reinforcement learning, SMS-MADRL),可實現(xiàn)主動配電網(wǎng)中各無功補償設備的分布式協(xié)同優(yōu)化控制。與現(xiàn)有算法相比,該算法的優(yōu)點在于將安全層概念引入各智能體設計,并在設計中融入主動配電網(wǎng)的電壓靈敏度矩陣,顯式地處理各節(jié)點的電壓約束,從機理上保證了主動配電網(wǎng)的電壓安全性。
采用輻射狀拓撲的修改后IEEE 33節(jié)點系統(tǒng)作為主動配電網(wǎng)研究案例[24],搭建主動配電網(wǎng)環(huán)境如圖1所示。系統(tǒng)中接入了分布式電源和無功補償裝置,分布式電源全部為永磁同步風電機組,無功補償裝置為混合式配電變壓器(hybrid distribution transformer, HDT)[25]。相較于傳統(tǒng)變壓器,HDT變壓器可以為主動配電網(wǎng)的中壓側(cè)提供電壓調(diào)節(jié)能力[4]。針對HDT變壓器的分散式安裝特點,根據(jù)安裝位置可將主動配電網(wǎng)分為3個子網(wǎng)絡。

圖1 主動配電網(wǎng)環(huán)境
所采用的配電網(wǎng)電壓調(diào)節(jié)設備為混合式配電變壓器HDT,定義中壓側(cè)有功功率為PH,無功功率為QH,并滿足下列關(guān)系
(1)
(2)

圖2 HDT變壓器的有功-無功功率范圍
QH,min≤QH≤QH,max
(3)
主動配電網(wǎng)電壓優(yōu)化控制的目標可歸納為:將各節(jié)點電壓的波動范圍限制在允許范圍內(nèi),同時盡量減少網(wǎng)絡損耗和控制代價。據(jù)此,評價指標rt和優(yōu)化目標Jr可表示為
(4)
(5)

(6)
(7)

(8)
(9)
式中:Vi,t和Vj,t分別為t時刻節(jié)點i和節(jié)點j的電壓幅值;∠θi,t和∠θj,t分別為t時刻節(jié)點i和節(jié)點j的電壓相位。
主動配電網(wǎng)運行過程中,需滿足各節(jié)點功率限制、各節(jié)點電壓限制、各HDT變壓器功率限制等多項約束條件。主動配電網(wǎng)各節(jié)點的功率約束可寫為

(10)

主動配電網(wǎng)各節(jié)點的電壓限制和各HDT變壓器的無功功率限制可分別表示為

(11)

(12)
式中:Vmax和Vmin分別為節(jié)點電壓幅值的上限和下限;QH,max和QH,min分別為HDT無功功率的上限和下限。
綜合式(4)~(10),主動配電網(wǎng)電壓優(yōu)化控制問題可表述為
(13)
如1.1小節(jié)所述,在多智能體深度強化學習的框架下,主動配電網(wǎng)可根據(jù)HDT變壓器的安裝位置分為若干子網(wǎng)絡,每個子網(wǎng)絡配置一個智能體來控制HDT變壓器的無功功率[26]。相應地,由式(13)表述的主動配電網(wǎng)集中式優(yōu)化控制問題,也可被分解為若干并行的子問題,由所對應子網(wǎng)絡中的智能體單獨求解,各智能體通過通訊協(xié)調(diào)無功功率,以保證滿足約束條件。

(S,{On},{An},T,{Rn},C,γ),n=1,2,…,N
(14)
7元組各集合或函數(shù)的定義描述如下。


{An}={A1,…,AN}為所有智能體的動作集合,An為第n個智能體所有可能動作的集合,動作an∈An且an=QH,n,其中向量QH,n為第n個子網(wǎng)絡內(nèi)所有HDT變壓器的無功功率輸出。
T為狀態(tài)轉(zhuǎn)移函數(shù),表示主動配電網(wǎng)中各智能體在狀態(tài)s下執(zhí)行動作a1,a2,…,an后下一時刻狀態(tài)的概率分布。
{Rn}={R1,…,RN}為所有智能體的獎勵集合,Rn為第n個智能體所有可能獲得的獎勵集合,rn∈Rn為第n個智能體的獎勵。值得注意的是,式(4)中傳統(tǒng)優(yōu)化問題的評價指標rt,在DRL算法中被稱為獎勵rn;同樣地,式(5)中的目標函數(shù)Jr在DRL算法中被稱為回報Jr,n。
C={cj(s,a),j=1,2,…,K}為約束函數(shù)的集合,其中K為約束函數(shù)的數(shù)量,每一個約束函數(shù)都存在上界值cj,max,滿足
cj(s,a)≤cj,max,j=1,2,…,K
(15)
在主動配電網(wǎng)電壓優(yōu)化控制的背景下,式(10)表示的節(jié)點功率平衡約束包含在主動配電網(wǎng)環(huán)境中。因此,CMG問題只需處理式(11)中的電壓約束和式(12)中的無功功率約束,約束可改寫為如下的向量形式
(16)
式中:Sm為靈敏度矩陣;ξ1和ξ2為緊縮項;ΔQH為相鄰時刻HDT變壓器無功輸出的變化量。
根據(jù)上述定義,式(13)中的主動配電網(wǎng)集中式優(yōu)化控制問題可以重新表述為式(17)中的CMG問題,即每個智能體的目標為:在滿足主動配電網(wǎng)約束的情況下,將自身的回報最大化。

(17)
式(15)所示的CMG問題可通過下一節(jié)中介紹的SMS-MADRL算法高效求解。
為高效求解式(15)所示的CMG問題,本小節(jié)提出了SMS-MADRL算法。SMS-MADRL算法是MADDPG算法的延伸,是一種采用集中式訓練、分布式執(zhí)行范式的深度強化學習算法。通過該算法,可以訓練出若干獨立智能體,能夠基于本地觀測信息獨立地給出最優(yōu)控制動作。與MADDPG算法相比,SMS-MADRL算法的一個顯著優(yōu)勢是包含基于靈敏度矩陣的安全層,可保證訓練和執(zhí)行過程中的電壓安全性。


圖3 SMS-MADRL算法原理圖
在集中式訓練階段,各個智能體將不斷衰減的高斯噪聲添加給動作網(wǎng)絡所輸出的動作,由此實現(xiàn)環(huán)境探索。安全層保證了探索階段配電網(wǎng)的各個節(jié)點電壓不會超出約束范圍,在該階段,智能體通過與主動配電網(wǎng)環(huán)境的交互獲得數(shù)據(jù),并不斷更新動作網(wǎng)絡和評價網(wǎng)絡的參數(shù)。



圖4 智能體的訓練過程示意圖

(18)

評價網(wǎng)絡通過最小化損失函數(shù)進行訓練,損失函數(shù)Ln如下所示
(19)
(20)


(21)
(22)
式中:τ為目標網(wǎng)絡更新率。
雖然MADDPG算法可以通過與主動配電網(wǎng)環(huán)境的復雜交互自適應環(huán)境的不確定性,但在處理約束條件時卻面臨困境[14-19]。在應對約束時,現(xiàn)有研究中慣用的獎勵整定法是將電壓偏移作為附加懲罰項加入到獎勵當中。然而,懲罰系數(shù)的整定極其依賴于經(jīng)驗,若懲罰系數(shù)過小,則難以保證電壓約束的滿足;反之若懲罰系數(shù)過大,則會增大控制代價并惡化配網(wǎng)損耗優(yōu)化效果[20-23]。
針對此問題,本文提出在MADDPG算法中加入基于靈敏度矩陣的安全層來處理約束條件,算法的具體結(jié)構(gòu)如圖5所示。MADDPG算法的動作網(wǎng)絡在接收到智能體的觀察后,所輸出的原始動作a并不直接用于主動配電網(wǎng)控制,而是先經(jīng)過一個安全層收集并進行最小程度的校正,之后再傳遞給各無功調(diào)節(jié)設備具體執(zhí)行。

圖5 處理約束的安全層示意圖
考慮式(17)中的約束cj(s,a),將其對于智能體的動作線性化[28],得到
(23)

Δa=ΔQH=[ΔQH,1,…,ΔQH,NH]T
(24)

(25)
式中:NB為主動配電網(wǎng)節(jié)點數(shù)量。
靈敏度矩陣Sm中的每一個元素,都包含一個特定節(jié)點電壓對于HDT變壓器無功功率的偏導數(shù)。靈敏度矩陣的獲取方式主要有兩種,一種是對潮流計算的雅可比矩陣取倒數(shù)來獲得整個靈敏度矩陣[28];另一種是在離線潮流計算過程中,每次對HDT變壓器輸出的無功功率作微小修改,通過分析節(jié)點電壓的變化來逐一獲得靈敏度矩陣的每一列[4]。
在本文采用的修改后的IEEE 33節(jié)點算例中,HDT變壓器分別安裝在3、10、12、16、26號節(jié)點,節(jié)點電壓對于HDT變壓器無功功率QH的偏導等于節(jié)點電壓對于HDT變壓器安裝節(jié)點i的無功功率Qi的偏導,故式(25)中靈敏度矩陣Sm的具體信息為
(26)
安全層在不違反電壓約束的前提下,對智能體所給出的動作a進行最小程度的校正,得到修改后的動作a*并在主動配電網(wǎng)中執(zhí)行。因此,安全層所求解的問題可以寫為帶線性約束的二次規(guī)劃向量形式

(27)
在式(27)所示的優(yōu)化問題中,隨著主動配電網(wǎng)工作狀態(tài)的波動,電壓靈敏度矩陣Sm存在變化的可能。對此,可通過設置緊縮變量ξ1和ξ2,對節(jié)點電壓約束進行緊縮來解決這一問題。含緊縮變量的問題仍是一個標準的二次規(guī)劃問題,現(xiàn)有的求解方法已非常成熟。
綜上而言,在主動配電網(wǎng)電壓優(yōu)化控制問題背景下,SMS-MADRL的具體實現(xiàn)可歸納為算法 1。
算法 1:主動配電網(wǎng)的SMS-MADRL算法電壓優(yōu)化控制策略
輸入:電壓靈敏度矩陣Sm, 算法超參數(shù)
輸出:智能體的目標動作網(wǎng)絡參數(shù)θμ′



4.fori←1 toNfdo://Nf為總訓練次數(shù)
5.動作網(wǎng)絡輸出并添加噪聲a+ε1
6.安全層根據(jù)式(27)修改動作,得到無功補償方案a*
7.執(zhí)行該無功補償方案,并獲得主動配電網(wǎng)環(huán)境的獎勵r和環(huán)境新的狀態(tài)s′

9.forn←1 toNdo:
10.從記憶庫中隨機抽取M組交互數(shù)據(jù)(xj,aj,rj,x′j),j=1,2,…,M
11.根據(jù)式(18)更新動作網(wǎng)絡
12.根據(jù)式(19)~(20)更新評價網(wǎng)絡
13.按照式(21)~(22)更新目標網(wǎng)絡
14.end for
15.ift=Tthen:
16.重新初始化交互環(huán)境
17.end if
18.end for
以修改后的IEEE 33節(jié)點系統(tǒng)為主動配電網(wǎng)案例,對所提出的SMS-MADRL算法進行仿真驗證。為檢驗SMS-MADRL算法的優(yōu)越性,選擇基于機理模型的MPC策略,以及文獻 [21]中采用獎勵整定法處理約束的MADDPG算法作為對比算法。算法參數(shù)如表1所示,控制器參數(shù)設置如表2所示。

表1 SMS-MADRL算法超參數(shù)

表2 控制器參數(shù)設置
主動配電網(wǎng)案例即修改后的IEEE 33節(jié)點系統(tǒng)分區(qū)如前文中的圖1所示,依據(jù)分布式電源和HDT變壓器的安裝位置分為3個子網(wǎng)絡,每個子網(wǎng)絡的HDT變壓器各由一個智能體控制。
圖6給出了IEEE 33節(jié)點系統(tǒng)中24 h有功功率和無功功率的負荷曲線,其數(shù)據(jù)來源于陜西電網(wǎng)某區(qū)域。為了使每個節(jié)點的負荷不同,各節(jié)點的負荷依照IEEE 33節(jié)點系統(tǒng)的原始數(shù)據(jù)乘以相應的系數(shù)。電壓、有功負荷和無功負荷同樣被轉(zhuǎn)換為了標幺值,基準功率為1 MW,基準電壓為12.66 kV。其中,1號節(jié)點為平衡節(jié)點,不施加有功和無功負荷。

圖6 節(jié)點的24 h負荷曲線
各分布式電源為2 MW永磁同步風電機組,均運行于最大功率跟蹤方式,其24 h功率曲線如圖7所示,功率因數(shù)取值為0.9,風速數(shù)據(jù)來源于美國國家可再生能源實驗室[30]。

圖7 單臺分布式電源24 h輸出功率曲線
在未投入任何HDT變壓器的情況下,對主動配電網(wǎng)電壓進行24 h仿真,仿真步長為10 s,結(jié)果如圖8所示,圖中,每條曲線對應一個節(jié)點電壓的變化。可以看到,電壓峰值出現(xiàn)在兩個時段,分別為凌晨2:00和正午12:00左右,此時風電機組的輸出功率較大,主動配電網(wǎng)向上級輸電網(wǎng)饋送功率。在離風機最近的9~18號節(jié)點,電壓上升尤為明顯。這一現(xiàn)象表明,在2:00和12:00時段附近,1號子網(wǎng)絡的無功過剩最嚴重。在上午8:00和晚上21:00時段附近,負荷需求很高而風機出力較小,配電網(wǎng)從上級輸電網(wǎng)吸收功率,因此出現(xiàn)了電壓低于電壓下限的現(xiàn)象。

圖8 不施加無功補償下各節(jié)點24 h電壓曲線
本節(jié)對比分析了所提出的SMS-MADRL算法,以及作為對照的MPC算法、采用獎勵整定法處理電壓約束的MADDPG 算法的控制效果。
主動配電網(wǎng)電壓優(yōu)化控制的首要目標是維持所有節(jié)點電壓在約束范圍內(nèi),并在此基礎上盡量減少網(wǎng)絡損耗和控制代價。因此,在本節(jié)中,控制效果的對比包含是否滿足電壓約束、24 h平均網(wǎng)絡損耗以及24 h平均控制代價3個方面。
圖9展示了SMS-MADRL算法控制下的24 h電壓仿真結(jié)果,可以看出,在安全層的作用下,電壓被控制在了0.95~1.05范圍內(nèi),沒有出現(xiàn)電壓越限情況。

圖9 SMS-MADRL算法控制下各節(jié)點24 h電壓變化曲線
圖10展示了MADDPG算法控制下的24 h電壓變化曲線,可見當電壓懲罰系數(shù)較小時,即凌晨2:00左右,節(jié)點10~18的電壓出現(xiàn)了違反電壓約束上限的情況。這是由于懲罰系數(shù)過小,智能體在訓練過程中更加關(guān)注網(wǎng)絡損耗和控制代價,而忽視了對電壓的控制。

圖10 MADDPG(懲罰系數(shù)較小)算法控制下各節(jié)點24 h電壓變化曲線
3種控制方式下,各節(jié)點所安裝HDT變壓器無功功率的變化情況如圖11所示。可以看出,盡管采用較大懲罰系數(shù)的MADDPG算法可以滿足電壓約束,但在相同時刻相較于SMS-MADRL算法需要更大的無功功率,經(jīng)濟性不佳。

圖11 不同算法控制下HDT變壓器無功功率24 h變化曲線
表3給出了不同算法控制下平均網(wǎng)絡損耗、電壓約束和平均控制代價的對比結(jié)果。可以看出,主動配電網(wǎng)在不施加任何無功補償?shù)臓顟B(tài)下平均網(wǎng)絡損耗最大,采用較小懲罰系數(shù)的MADDPG雖然取得了最低的網(wǎng)絡損耗,但由于懲罰系數(shù)過小,出現(xiàn)了電壓越限現(xiàn)象。所提出的SMS-MADRL算法相較于懲罰系數(shù)較大的MADDPG算法,網(wǎng)絡損耗減少了4.18%,控制代價減少了70.5%。

表3 不同算法控制下的性能指標對比結(jié)果
表4給出了優(yōu)化目標中不同加權(quán)系數(shù)β對SMS-MADRL算法電壓優(yōu)化控制結(jié)果的影響。由表4可見,其總體趨勢為β越大,平均網(wǎng)絡損耗越小,平均控制代價越大。由此可知,網(wǎng)絡損耗受β變化的影響較小,而控制代價受β變化的影響更加顯著。

表4 SMS-MADRL算法控制下不同加權(quán)系數(shù)β對電壓優(yōu)化結(jié)果的影響
綜上所述,相較于采用獎勵整定法處理約束的MADDPG算法,所提出的SMS-MADRL算法無論在網(wǎng)絡損耗還是控制代價方面均具有明顯的優(yōu)越性。
在3.2節(jié)的仿真設置中,HDT變壓器的無功容量較為充裕,然而,隨著電力電子設備的老化,HDT變壓器可能出現(xiàn)無功容量縮減的情況,其對電壓優(yōu)化控制問題的影響主要體現(xiàn)在無功約束的收緊。假設其它參數(shù)不變,僅將安裝在節(jié)點12的HDT變壓器無功容量從±0.4 Mvar下降至±0.2 Mvar。圖12給出了節(jié)點12和16的HDT變壓器在節(jié)點12的HDT變壓器無功功率受限情況下功率的變化情況。由圖可見,SMS-MADRL算法可以有效地處理無功功率約束,使得安裝在節(jié)點12的HDT變壓器無功功率被限制在約束范圍內(nèi),有效地阻止了HDT變壓器的過載。同時,為了彌補節(jié)點12的HDT變壓器功率受限對電壓的影響,在安全層的作用下,節(jié)點16的HDT變壓器無功功率相應增大。

圖12 節(jié)點12無功功率受限時節(jié)點12和16的HDT變壓器的無功功率
針對主動配電網(wǎng)電壓優(yōu)化控制中模型不確定性和通訊代價大的問題,提出了SMS-MADRL算法,該算法的優(yōu)點在于給智能體的動作網(wǎng)絡增添基于靈敏度矩陣的安全層,從而顯式地處理各節(jié)點的電壓約束。通過理論分析和仿真計算,得到以下結(jié)論。
(1)所提出的主動配電網(wǎng)SMS-MADRL電壓優(yōu)化控制算法,可有效處理電壓約束和無功功率約束,相較于采用獎勵整定法的MADDPG算法,網(wǎng)絡損耗減少了4.18%,控制代價減少了70.5%。
(2)采用安全層處理約束的SMS-MADRL算法,具有不依賴經(jīng)驗的優(yōu)勢。相比之下,采用獎勵整定法處理約束的MADDPG算法非常依賴于經(jīng)驗。若懲罰系數(shù)過小,會出現(xiàn)電壓越限;若懲罰系數(shù)過大,會增大控制代價,并惡化配網(wǎng)損耗優(yōu)化效果。
事實上,在電力系統(tǒng)中應用深度強化學習的情景下,安全層法所能處理的約束不僅僅局限于電壓約束。在不久的未來,輸電線上的電流約束、儲能的充電狀態(tài)約束以及變流器功率約束等均可以通過安全層法進行處理,而獎勵整定法針對這種多類型的約束問題則顯得束手無策。