王 瑾, 裴 亮
(1. 南京大學 軟件學院, 南京 211102; 2. 國電南瑞南京控制系統有限公司 電網分公司, 南京 211106)
隨著智能電網的日益完善,電網調度在計算機技術、通信以及控制技術的加持下更加智能化.其不僅能夠直接采集電網數據,對電網狀態進行監視,還可以實時為各級運行調度人員提供輔助分析,進行決策控制[1-2].但海量多源監測數據對精細化的調度控制提出了新的挑戰,尤其對于電網運行過程中的異常風險預警與處理,亟需精細化、實用化的處理方案[3-4].
針對智能電網調控系統異常告警與控制,目前已取得較多的研究成果.汪偉等[5]在研究在線監測評估技術的基礎上,提出了在線監測評估的軟硬件架構,并進行實際應用.王鈺楠等[6]通過制定歸一化的風險指標和線性評估方案,實現了網絡狀態實時運行風險的有效評估,其不僅保證了分析準確性,更提高了計算效率.李存斌等[7]提出了一種將替代數據法與多重分形去趨勢波動相結合的方法以確定電力負荷風險閾值,有效解決了傳統風險預警閾值設定時對動態性能的需求.但現有研究大多只針對系統異常檢測或風險評估展開,對電網運行狀態所處階段涉及較少,在評估過程中對不同電網階段的分析不夠全面[8].
本文提出了一種電網調控系統異常檢測與多階段風險預警技術,其利用隨機森林(RF)算法完成異常檢測,并采用人工神經網絡(ANN)模型對系統異常狀態發展趨勢進行預測[9],便于運維人員采取風險預警措施.
電網調控系統由數據采集管理層、在線監視管理層、高級應用管理層以及可視化展示層4部分組成,其架構如圖1所示.

圖1 電網調控系統的架構Fig.1 Architecture of power grid control system
由圖1可知,數據采集層的任務包括主站端、調度數據網以及變電站端的數據采集管理;經過數據整合與預處理后,通過數據總線上傳至監視管理層,進而監視所有設備的數據采集指標.在線監視管理層的任務除了包括主站端、調度數據網和變電站端的監視管理外,還需對各項數據進行實時監控與分析,并實時推送異常告警,以便及時發現、排除隱患[10].高級應用管理層主要負責提高系統的風險預測準確率和實時性,通過健康度評估、風險預測控制以及異常智能檢測3方面實現[11].可視化管理層則在上述分析的基礎上,將系統運行狀態和異常檢測結果等信息進行全面的展示,能夠實現對所有應用功能的完全統一呈現,從而實現對設備健康度的實時監控.
通過對電網調控系統運行狀態的分析可知,基礎軟件環境、網絡環境、數據處理環境以及軟件模塊自身的故障均會對系統穩定運行造成極大影響[12-13].為提升電網調控系統的運行穩定性、降低故障發生頻率,在全面考慮系統健康狀態的前提下,利用RF算法實現異常檢測.
對于電網異常狀態,故障發生集中點主要在3個方面:高級應用層,如調用的函數庫、應用服務等;數據處理層,如前端事務調用、數據庫服務等;基礎設備,如數據庫主機、前置服務主機等.根據電網調控系統運行過程中得到的日常異常類型匯總進行健康狀態評估,其中數據質量健康度在電網調控系統中最為關鍵,主要體現在越限、狀態估計合格率以及跳變率等方面[14].
在系統健康狀態評估過程中,首先需要基于底層指標的評價結果結合專家經驗權重進行加權求和,以得到上一層健康度,并以此逐層往上進行推算,最終得出系統整體健康度.
系統健康狀態量主要包括:二值型和數值型兩類,前者0或1分別對應異?;蛘煞N狀態,如數據庫表結構正確性表示;而數值型則通過0~100的分段函數將健康度指標量化,如CPU占用率表示等;健康度閾值設置為80%,即整體健康度小于該數值時將進行告警.
RF的基本塊是一個決策樹,以遞歸形式分割K維特征空間,直到劃分P個類型.在二叉決策樹的情況下,樹的每個節點將K維空間分成兩個分區,重復執行拆分直到實現P大小的分區.
為了緩解決策樹過擬合問題,RF算法從多個決策樹聚合決策,即每個樹從訓練數據的隨機樣本中學習,且樹的每個節點處的最優分割從訓練數據特征的隨機樣本中選擇.此外,根據多數票機制,生成最終的樣本類型.
電網調控系統的異常檢測主要是針對系統運行中已經產生但運維人員難以發現的異常狀況發出告警,同時對異常完成初步的剖析、診斷以及相應的類型劃分,為后續的異常預警提供依據[15].由于RF算法具備較高的數據使用率、建??烨覍W習精度高等優勢,所提技術將其引入.基于RF算法的電網調控系統異常檢測過程如圖2所示.
由圖2可知,異常檢測首先基于所采集到的歷史數據,通過RF異常檢測算法訓練風險閾值,以完成初始異常檢測模型的建立;然后通過輸入相關實時數據,計算系統健康度得分進行系統狀態判斷.最終對檢測模型進行實時更新以匹配運行狀態,從而提高檢測的準確度和實時性.
在系統狀態實時監測的基礎上,本文提出了一種基于ANN的風險預警技術.通過分析系統的歷史狀態數據來預測其發展趨勢,并針對可能出現的異常狀況采取預防性措施.基于深度學習的風險預警流程如圖3所示.

圖2 基于RF算法的異常檢測流程Fig.2 Flow chart of anomaly detection based on RF algorithm

圖3 風險預警技術的處理流程Fig.3 Flow chart of treatment of risk pre-warning technology
在電網調控系統中,首先通過隨機森林算法進行異常檢測,然后結合當前的系統狀態,利用ANN學習預測異常點后續的發展趨勢.參數一旦超過安全閾值,系統會發出告警,而調控人員也會采取相應的防御措施.
由于電網調控系統的數據量較大,當面對不斷增加的數據流時,其數據處理能力的衰減是一個緩慢的變化過程,如圖4所示.對于異常數據的檢測,可將采集數據轉換為數據健康度并乘以適當的權重作為整體健康度評估指標.數據健康度α可表示為檢測到的異常數據量x與對應階段數據量(x1或x2)的比值,輕風險階段數據量為x1,拐點區域數據量為x2,崩潰區α直接記為100%.
系統在3個壓力區中的運行狀態分別表述如下:
1) 輕壓力區.隨著系統實時數據變化量的增加,輕壓力區的系統性能影響較小,系統穩定系數始終為1.

圖4 系統穩定性拐點模型Fig.4 Inflection point model of system stability
2) 拐點區.繼續加大數據量壓力,系統運行狀態進入拐點區,系統仍能維持穩定運行一段時間,即電網故障持續時間小于閾值時,系統仍可穩定運行.
3) 崩潰區.當數據量達到系統處理極限時,系統性能急劇下降甚至崩潰,穩定系數接近于0,此時系統不可用.
ANN由一個輸入層、2個隱藏層、一個輸出層構成.網絡中每個節點間連接均帶有一個相關的權重和一個將輸入映射到已知輸出的函數.其中輸入層共設置20個節點,兩個隱藏層各5個節點,輸出層3個節點.單個節點的計算表達式為
(1)
式中:bj為可學習的標量偏差項;xi為輸入;oj為輸出;ωij為連接權重;δj為非線性激活函數.ANN將多個節點組合在多個級聯層中,實現任意復雜的分類和回歸函數.激活函數有多個選擇,所提技術中選擇雙曲正切函數.
在訓練過程中,首先初始化網絡權值ωij,通常使用隨機系數.該網絡每次處理一個訓練樣本,將網絡的預測輸出與真實值進行比較,并調整節點連接權重以最小化訓練誤差.ANN分類器對噪聲數據具有較強的容錯性,能夠學習任意復雜的決策邊界.
為模擬系統實際運行場景,搭建電網調控系統閉環仿真環境,驗證其異常檢測及風險情況下的預警能力.系統測試平臺應用場景如圖5所示.
搭建系統由4臺雙網工作站構成,其中兩臺工作站模擬220 kV以上站端實現調控信號傳輸,兩條工作站互為主備,包含網絡通道及2 M通道共738條,通道模式包含了2 C、4 C兩種連通方

圖5 系統配置圖Fig.5 Diagram of system configuration
式,模擬220 kV以上廠站和轉發通道;另外兩臺工作站模擬220 kV以下站端實現調控信號傳輸,兩條工作站互為主備,包含一平面及二平面通道共974條,通道模式為2 C連通方式,用以模擬220 kV以下的地級調度站.
本文共使用3項評價指標進行系統測評,相關說明如下:
1) 系統穩定系數.當實時數據量達到一定壓力時,系統并非瞬間崩潰,而是能先穩定運行一段時間,即有一定穩定運行裕度的時長.因此可以定義系統穩定系數為系統維穩時長除以數據量峰值持續時長,其中,數據量峰值持續時長為發生異常時系統接收數據量持續某一峰值的時長;維穩時長為系統在數據量峰值狀態下,仍能正常穩定運行的時長.
2) 準確率.為有效評估異常檢測模型的性能,使用檢測率(ACC)和誤報率(FPR)指標進行評估,其計算表達式為
(2)
(3)
式中:M為所有異常樣本數;N為所有正常樣本數;m為檢測出的樣本數;f為將正常樣本誤判為異常的正常樣本數.
3) 平均絕對百分比誤差(MAPE)可以定義為
(4)
式中:yt為預測變量在t時刻的值;y′t為預測算法得到的預測值.
如前文所述,每一層健康度由底層數據健康評價指標和系統穩定系數進行加權求和求得,經逐層推算最終得出系統整體健康度.依據專家經驗,底層數據健康度和系統穩定系數權值分別取0.7和0.3.
電網調控系統中包含廠站、斷路器、刀閘、線路等對應的變化數據,異常檢測率、誤報率與并發用戶數的關系如圖6所示.其中用電行為模式數據參照文獻[16]設置,并發用戶由10人逐漸增加到100人.

圖6 異常檢測率、誤報率與并發用戶數的關系Fig.6 Relationship among anomaly detection rate,false alarm rate and concurrent user number
由圖6可以看出,隨著并發用戶數的增加,誤報率不斷增長,而檢測率持續下降.當并發數到達80時,誤報率約為8%,檢測率下降至84%,處于系統運行的拐點區.當并發數到達100時,絕大部分并發用戶響應超時,誤報率接近20%,且檢測率低于80%,低于系統運行的最低指標.
為了論證所提異常檢測方法的性能,將其與文獻[5]、文獻[6]、文獻[7]進行對比分析.在3個階段的檢測準確率對比結果如表1所示.

表1 多階段異常檢測性能對比結果Tab.1 Performance comparison results of multi-stage anomaly detection %
由表1可以看出,相比于其他方法,所提方法在3個階段的檢測率最佳,分別為94.53%、88.79%和80.12%.由于所提方法綜合考慮了系統異常的各種情況,并利用RF算法進行分析,保證檢測的正確率.雖然當數據量增加,檢測性能有所下降,但整體檢測率不低于80%.文獻[5]利用在線監測評估技術實現異常檢測,但缺乏相應的分析算法,整體性能不佳.尤其當系統處于崩潰區時,檢測率低于70%.文獻[6]和文獻[7]在輕壓力區表現較好,但難以應對數據量陡增的情況,整體性能有待提升.
當調控系統處于不同的階段,其風險預警措施也不相同.由于數據量達到一定值后,可能會出現響應時間長、窗口信息丟失等問題.此外,當調控系統處于崩潰區時,系統也會直接發出預警并采取措施,故僅對系統的輕壓力區和拐點區進行實驗分析.
1) 輕壓力區.在輕壓力區,系統裕量較大,CPU使用率較低,能夠處理大量的檢測數據.此時系統預測誤差對比結果如圖7所示.

圖7 輕壓力區的預測誤差對比結果Fig.7 Comparison results of prediction error in light pressure area
由圖7可以看出,在輕壓力區,所提技術的預測誤差小于1%,優于其他對比技術.其結合RF算法和ANN模型進行風險評估,能夠較為全面地檢測系統運行狀態,因此具有理想的預測效果.文獻[5]利用在線監測評估技術,文獻[6]通過制定歸一化的風險指標與線性評估技術,文獻[7]的多重分形去趨勢波動,均能夠得到較好的預測效果.但數據量增加到60點/s時,MAPE均超過3%,且分析大數據時整體效果不佳.
2) 拐點區.在拐點區,系統CPU使用率較高,且存在數據信息延遲等情況,因此預警性能有所下降.此時系統狀態的預測誤差對比結果如圖8所示.
由圖8可以看出,拐點區的MAPE較輕壓力區有所增加.當數據變化量達到85點/s后,系統出現嚴重卡頓,此時MAPE陡增.尤其是文獻[7]方法,MAPE超過32%,其利用替代數據法并結合多重分形的方法實現風險預測.因為算法本身較為復雜,所以當數據量急劇增加時,會導致系統崩潰.由于所提方法采用RF算法完成異常檢測,利用ANN預測系統運行狀態進行風險評估,因此其能夠較好地處理海量數據,整體性能較為理想,MAPE不超過10%.

圖8 拐點區的預測誤差對比結果Fig.8 Comparison results of prediction error in inflection point area
隨著可再生能源不斷接入電網,更多不確定因素對電網的安全、穩定運行造成極大影響,為此,本文基于深度學習提出了一種電網調控系統異常檢測與多階段風險預警方法.利用RF算法進行系統異常狀態的檢測,并根據檢測結果利用ANN模型預測系統的發展趨勢.若超過健康度閾值,則發出預警.實驗結果表明,所提技術在3個階段的異常檢測率分別為94.53%、88.79%和80.12%,輕壓力區的MAPE小于1%,拐點區MAPE不超過10%,均優于其他對比方法,其不僅提高了系統運行維護效率,還保障了系統的安全、穩定運行.
由于本文考慮的系統異常類型大多為確定性的,而對于臺風等自然災害造成的突發性異常狀況并未深入分析,因此在接下來的研究中,將更多地考慮不確定性因素影響,提高風險預警技術的普適性.