周震塵, 金 濤
(福州大學(xué)電氣工程與自動(dòng)化學(xué)院,福建 福州 350016)
近年來(lái),諸如臺(tái)風(fēng)、洪水及海嘯等自然災(zāi)害發(fā)生的頻率越來(lái)越高。電力系統(tǒng)在遭遇這類事件的沖擊下,往往受到嚴(yán)重的破壞,從而造成大面積的斷電[1]。近年來(lái),中國(guó)深受自然災(zāi)害的侵?jǐn)_,如2016年江蘇省龍卷風(fēng)災(zāi)后約13 500戶家庭出現(xiàn)斷電[2]。極端天氣造成的破壞常為N-k故障,基于可靠性運(yùn)行的電網(wǎng)在這種嚴(yán)重的事故下無(wú)能為力,因此,發(fā)展電力系統(tǒng)彈性技術(shù),增強(qiáng)電網(wǎng)在極端事件中的運(yùn)行能力十分必要[3]。
彈性電力系統(tǒng)能夠在破壞性的外部擾動(dòng)下持續(xù)向負(fù)荷供電,在擾動(dòng)后能迅速恢復(fù)到正常狀態(tài)[4]。根據(jù)極端自然事件發(fā)生的時(shí)間軸,可以將彈性提升的措施分為3個(gè)階段[5]:災(zāi)前、災(zāi)中及災(zāi)后。在災(zāi)前,一般采用改變網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)或增加元件在極端事件下的存活率來(lái)避免電網(wǎng)大面積停電,稱之為強(qiáng)化措施。在此之前,必須辨認(rèn)電網(wǎng)在災(zāi)害中最脆弱的部位,有效提升強(qiáng)化效果并節(jié)約強(qiáng)化成本。
當(dāng)前,電網(wǎng)防御外部威脅所采用的一般方法為雙層或三層(defender-attacker-defender,DAD)魯棒優(yōu)化模型[6-7]。雙層優(yōu)化模型的上層優(yōu)化目標(biāo)是通過(guò)選擇破壞網(wǎng)絡(luò)元件來(lái)最大化電網(wǎng)損傷,其下層目標(biāo)是系統(tǒng)矯正上層造成的故障來(lái)最小化電網(wǎng)損傷[8]。三層優(yōu)化模型是基于雙層模型的升級(jí)版,第一階段,防御者執(zhí)行電網(wǎng)強(qiáng)化計(jì)劃;第二階段,進(jìn)攻者破壞電網(wǎng)元件來(lái)最大化對(duì)電網(wǎng)的傷害;第三階段,防御者對(duì)遭受的攻擊進(jìn)行緊急反應(yīng),調(diào)整潮流來(lái)最小化損失[9]。多層優(yōu)化模型能夠找到基于最壞情況的一個(gè)最優(yōu)解,但它們?nèi)匀淮嬖谝欢ǖ娜毕輀10]。一是基于模型方法的計(jì)算復(fù)雜度會(huì)隨著電網(wǎng)規(guī)模擴(kuò)大和極端事件時(shí)空特性的復(fù)雜化而急劇上升,求解時(shí)間也將成倍增加;二是當(dāng)模型參數(shù)發(fā)生變化時(shí),這類方法必須離線調(diào)整,并重新計(jì)算解決方案,這個(gè)過(guò)程過(guò)于低效。Q學(xué)習(xí)作為經(jīng)典強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)算法已經(jīng)在彈性電力系統(tǒng)得到應(yīng)用,如脆弱性分析[11]、發(fā)電調(diào)度[12]和災(zāi)后恢復(fù)[13]。深度學(xué)習(xí)(deep learning,DL)具備很強(qiáng)的特征提取和擬合能力[14]。2015年,結(jié)合DL的Q學(xué)習(xí)成功應(yīng)用到Atari游戲中,并達(dá)到了人類專家的程度[15],此后,DRL在許多領(lǐng)域得到應(yīng)用[16]。彈性電網(wǎng)中的許多問(wèn)題都能建模為MDP,從而利用DRL尋找最優(yōu)策略,如發(fā)電機(jī)緊急控制[17]。
為了解決DAD模型存在的不足,本文提出了一種基于DRL的極端事件下配電網(wǎng)脆弱性分析方法,找到每個(gè)時(shí)刻下其故障導(dǎo)致的負(fù)荷削減最嚴(yán)重且最脆弱的線路。DRL方法相對(duì)基于模型方法的優(yōu)勢(shì)在于:該無(wú)模型方法有效降低了計(jì)算成本,較好地處理了隨機(jī)性問(wèn)題;DRL能自動(dòng)學(xué)習(xí)模型變化,并制定調(diào)整策略。對(duì)電力系統(tǒng)的仿真驗(yàn)證了本文所提方法的準(zhǔn)確性及有效性。
脆弱曲線能夠把元件的故障率和極端事件的強(qiáng)度相關(guān)聯(lián),因此,通常被用于評(píng)估天氣事件對(duì)電網(wǎng)元件的影響。脆弱曲線中,元件故障率是事件強(qiáng)度的函數(shù),通過(guò)把事件強(qiáng)度(如臺(tái)風(fēng)風(fēng)速)輸入到模型中,能得到相應(yīng)的故障率,從而將其應(yīng)用到電網(wǎng)的脆弱性分析和極端事件的隨機(jī)性模擬中。對(duì)于結(jié)構(gòu)工程中的風(fēng)險(xiǎn)評(píng)估,材料脆弱性通常被模擬為對(duì)數(shù)正態(tài)累積分布函數(shù)(CDF)[18]:
式中:ωt——t時(shí)刻下的風(fēng)速,m/s;
m、ξ——工程參數(shù)中的均值、對(duì)數(shù)標(biāo)準(zhǔn)差;
Φ(·)——標(biāo)準(zhǔn)正態(tài)累積分布。
根據(jù)式(1),通用脆弱曲線描述如圖1所示。
圖1 與風(fēng)速相關(guān)的脆弱曲線
架空線路的基本構(gòu)成包括導(dǎo)線和桿塔,任一導(dǎo)線的斷路和桿塔的故障都會(huì)導(dǎo)致整個(gè)架空線路無(wú)法工作。假設(shè)線路的每個(gè)元件故障與否相互獨(dú)立,那么極端事件下架空線路的故障率為:
式中:pLij(ωt)——架空線ij的故障率;
m、n——架空線ij的桿塔數(shù)量、導(dǎo)線數(shù)量(假設(shè)相鄰桿塔間有且僅有一條導(dǎo)線),與桿塔間距和架空線長(zhǎng)度的比值相關(guān);
pTk(ωt)、pCl(ωt)——架空線ij上桿塔k的故障率、導(dǎo)線l的故障率,用不同的均值和標(biāo)準(zhǔn)差
由式(1)計(jì)算得到。
當(dāng)電網(wǎng)中的線路遭到破壞后,很可能在整個(gè)網(wǎng)絡(luò)中造成連鎖故障。連鎖故障是電力系統(tǒng)彈性面臨的最大威脅之一,本文主要考慮由過(guò)流引起的連鎖故障,具體的連鎖故障分析流程如圖2所示。
圖2 連鎖故障分析流程圖
連續(xù)故障分析的具體流程主要分為以下5步:
1)實(shí)施攻擊:當(dāng)電網(wǎng)中的線路l0遭到破壞而發(fā)生故障時(shí),更新電網(wǎng)拓?fù)洹?/p>
3)過(guò)流檢測(cè):確認(rèn)是否有任何線路電流Ik超過(guò)負(fù)載限制Io。
4)過(guò)流保護(hù):將檢測(cè)出的線路跳閘,并重新計(jì)算潮流。
5)重復(fù)步驟2)~4),對(duì)余下的K條線路進(jìn)行檢測(cè),直到所有過(guò)流的線路被斷開。
脆弱性分析站在極端事件的角度,對(duì)電網(wǎng)實(shí)施攻擊,其目的在于破壞網(wǎng)絡(luò)中的關(guān)鍵線路,從而最大化整體的損失。極端自然事件對(duì)電網(wǎng)的影響具有隨機(jī)性,是分析中必須考慮的因素,在成本有限的情況下,對(duì)在事件壓力下最可能發(fā)生故障的元件進(jìn)行加固是最為可行的辦法,本文以最大化負(fù)荷削減值(load shedding,LS)為目標(biāo)函數(shù):
其中l(wèi)t為t時(shí)刻受極端事件影響的線路。
對(duì)于式(3),其t時(shí)刻處于狀態(tài)St下的功率平衡約束為:
目標(biāo)函數(shù)約束發(fā)電機(jī)有功及無(wú)功輸出限額及負(fù)荷有功功率及無(wú)功功率限制如下式所示:
強(qiáng)化學(xué)習(xí)是智能體通過(guò)與環(huán)境的不斷交互,獲取信息來(lái)不斷改善自身決策能力的過(guò)程。通過(guò)折扣因子 γ將當(dāng)前狀態(tài)st下采取動(dòng)作at得到的回報(bào)r(st,at)序列累加可以形成累積回報(bào),那么,智能體的目標(biāo)就是最大化這個(gè)累積回報(bào):
深度強(qiáng)化學(xué)習(xí)中最廣為人知的一類算法是深度Q網(wǎng)絡(luò)(deep Q network,DQN)。固定目標(biāo)Q值要求DQN擁有兩個(gè)神經(jīng)網(wǎng)絡(luò):估計(jì)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),估計(jì)網(wǎng)絡(luò)用于評(píng)估策略,其網(wǎng)絡(luò)參數(shù)不斷更新;目標(biāo)網(wǎng)絡(luò)用于產(chǎn)生目標(biāo)值,其參數(shù)不進(jìn)行更新,從估計(jì)網(wǎng)絡(luò)直接復(fù)制參數(shù),提高算法的穩(wěn)定性。
智能體將每個(gè)時(shí)刻的數(shù)據(jù)et=(st,at,rt,st+1)存儲(chǔ)到經(jīng)驗(yàn)池Dt={e1,···,et}中,達(dá)到一定數(shù)量后從中隨機(jī)抽取部分?jǐn)?shù)據(jù)Dupdate∈Dt作為估計(jì)網(wǎng)絡(luò)的輸入對(duì)網(wǎng)絡(luò)參數(shù) θi進(jìn)行更新,從而打破了狀態(tài)間的相關(guān)性。其損失函數(shù)定義為:
利用隨機(jī)梯度下降對(duì)該函數(shù)進(jìn)行更新:
上式中的yi與智能體是否處于回合結(jié)束的狀態(tài)有關(guān),如下:
DQN的目標(biāo)Q值都是通過(guò)貪婪法得到的,即智能體每次都選取Q值最大的動(dòng)作,因此該算法很容易發(fā)生過(guò)估計(jì),導(dǎo)致最終結(jié)果出現(xiàn)較大的誤差。本文提出了Double DQN(DDQN),通過(guò)解耦動(dòng)作選擇和目標(biāo)Q值計(jì)算來(lái)消除過(guò)估計(jì),并且在一定程度上提升了收斂速度。本文假設(shè)極端事件僅對(duì)電網(wǎng)中的配電線路造成影響,某時(shí)刻的初始攻擊和隨后可能發(fā)生的連鎖故障都會(huì)導(dǎo)致線路無(wú)法工作。因此,假設(shè)網(wǎng)絡(luò)共有n條線路,那么時(shí)刻t下智能體所處狀態(tài)可以表示為:
在脆弱性分析中,智能體扮演攻擊者的身份,尋找對(duì)電網(wǎng)造成最大破壞的攻擊序列,因此其動(dòng)作是對(duì)網(wǎng)絡(luò)中任意k條線路的攻擊。若t時(shí)刻動(dòng)作at=l,那么線路l被斷開,狀態(tài)
本文應(yīng)對(duì)的極端事件具有隨機(jī)性,在脆弱性分析中不僅要考慮線路故障對(duì)系統(tǒng)造成的影響,同時(shí)也要考慮線路在事件中發(fā)生故障的可能性,回報(bào)需要將LS和線路故障率按比例加和以做雙目標(biāo)優(yōu)化:
ΔLt——t時(shí)刻的LS,如式(17)所示。
脆弱性分析的算法總體流程如圖3所示,總訓(xùn)練回合數(shù)是it,每個(gè)回合包含te個(gè)時(shí)刻,經(jīng)驗(yàn)池總樣本量為nm。在對(duì)整個(gè)訓(xùn)練過(guò)程和電網(wǎng)狀態(tài)st進(jìn)行初始化后,智能體基于當(dāng)前狀態(tài)采取攻擊動(dòng)作at,隨后利用連鎖故障模型對(duì)此次攻擊附帶的線路故障進(jìn)行判定,從而產(chǎn)生回報(bào)信號(hào)rt和新狀態(tài)st+1,并將包含{st,at,rt,st+1}的經(jīng)驗(yàn)放入經(jīng)驗(yàn)池。當(dāng)樣本量足夠,即n=nm時(shí),對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。最終,i=it時(shí),結(jié)束該流程。
圖3 提出的脆弱性分析算法總流程圖
本文利用IEEE37節(jié)點(diǎn)系統(tǒng)對(duì)所提出的框架進(jìn)行仿真驗(yàn)證和分析。仿真中假設(shè)極端天氣事件是臺(tái)風(fēng),其對(duì)電網(wǎng)造成影響的時(shí)空特性通過(guò)多階段、多空間的建模實(shí)現(xiàn)。IEEE37節(jié)點(diǎn)系統(tǒng)拓?fù)淙鐖D4所示。
圖4 IEEE37節(jié)點(diǎn)系統(tǒng)及臺(tái)風(fēng)路徑
如圖4所示,該節(jié)點(diǎn)系統(tǒng)中共有5臺(tái)分布式發(fā)電機(jī)(distributed generator,DG),其所處節(jié)點(diǎn)位置及輸出功率如表1所示。
表1 DG參數(shù)
同時(shí),IEEE 37節(jié)點(diǎn)系統(tǒng)具有25個(gè)負(fù)荷,這些負(fù)荷的節(jié)點(diǎn)位置及參數(shù)如表2所示。
表2 負(fù)荷參數(shù)
圖5是本文提出的DDQN算法和DQN法百回合平均累積回報(bào)的變化過(guò)程。可以看出DQN在前2 720回合的學(xué)習(xí)效果較快,隨后逐漸穩(wěn)定,并在10 270回合收斂于1 430.71。而DDQN前期累積回報(bào)的快速上升階段僅持續(xù)到2 500回合,最后在9 600回合達(dá)到和DQN相同的最優(yōu)值。從表3中收斂回合和時(shí)間可以看出DDQN的尋優(yōu)速度更快,收斂前2 000回合的標(biāo)準(zhǔn)差表明DDQN在尋優(yōu)過(guò)程中的穩(wěn)定性也強(qiáng)于DQN。
圖5 百回合平均累積回報(bào)變化過(guò)程
表3 訓(xùn)練效果對(duì)比
每個(gè)時(shí)刻的回報(bào)由智能體所選擇線路的斷線后系統(tǒng)的LS和該線路的標(biāo)準(zhǔn)化故障率構(gòu)成,圖6和圖7分別顯示了這兩個(gè)回報(bào)信號(hào)各自的訓(xùn)練過(guò)程。從圖6中可以看出,系統(tǒng)的LS在波動(dòng)上升后收斂到最大值1 386 kW。
圖6 LS變化過(guò)程
圖7 線路故障率變化過(guò)程
而圖7中標(biāo)準(zhǔn)化線路故障率訓(xùn)練后來(lái)到局部最優(yōu)值2.980,這是雙目標(biāo)優(yōu)化所導(dǎo)致的一個(gè)折中結(jié)果,即線路故障率在回報(bào)中權(quán)重占比較小。
本文假設(shè)每個(gè)區(qū)域內(nèi)受影響的線路只有一條,智能體最終確認(rèn)的關(guān)鍵線路序列及其故障導(dǎo)致的系統(tǒng)LS如表4所示,關(guān)鍵線路在圖4中用藍(lán)色虛線標(biāo)明。
表4 關(guān)鍵線路序列及其故障造成的LS
圖8顯示了受到攻擊的6條線路在一個(gè)回合內(nèi)的線路電流變化過(guò)程,可以看出,當(dāng)線路在某個(gè)時(shí)刻被攻擊發(fā)生斷線時(shí),流過(guò)該線路的電流直接下降到0。
圖8 受極端事件影響線路電流變化
系統(tǒng)總負(fù)荷在一個(gè)回合內(nèi)的變化過(guò)程如圖9所示,表明了系統(tǒng)在極端事件最優(yōu)線路攻擊的影響下,負(fù)荷水平出現(xiàn)了很大的下降。在首次攻擊開始前,系統(tǒng)總負(fù)荷為2 457 kW,經(jīng)過(guò)6次不同線路的斷線故障后,系統(tǒng)總負(fù)荷下降為1 070.61 kW。
圖9 系統(tǒng)總負(fù)荷變化
從圖8和圖9可以看出,通過(guò)DDQN確認(rèn)的最優(yōu)攻擊序列有效地將工作中的線路轉(zhuǎn)變?yōu)閿嗑€狀態(tài),并成功引發(fā)了系統(tǒng)大程度的負(fù)荷削減。
本文通過(guò)MDP對(duì)極端事件序列攻擊建模,并結(jié)合了元件故障的隨機(jī)性,考慮了受災(zāi)害影響的線路可能導(dǎo)致的過(guò)流連鎖故障,提出了一種基于DRL的配電網(wǎng)脆弱性分析方法。仿真結(jié)果研究表明,本文所用方法在經(jīng)過(guò)短時(shí)間的訓(xùn)練后,能夠有效地找到每個(gè)區(qū)域內(nèi)的關(guān)鍵線路,這些關(guān)鍵線路的故障將導(dǎo)致配電系統(tǒng)發(fā)生最大程度的負(fù)荷削減,并且,它們?cè)跒?zāi)害發(fā)生過(guò)程中有較高的故障率。在將來(lái)的研究中,可以進(jìn)一步改進(jìn)DRL算法,提高收斂速度;同時(shí),能夠?qū)γ總€(gè)時(shí)刻發(fā)生的故障進(jìn)行更深入的分析。