沈嘉怡
(國網上海市電力公司,上海 200122)
國家電網公司已經建立了與電能信息采集相關的一系列系統,主要負責采集不同用戶用電情況下的功率信息。現有的運行系統缺乏整體統一協調,各部門及專業之間未相互配合。對于個別電力業務有特殊要求時,沒有考慮個別數據采集頻率標準,無法進行數據實時共享,限制系統應用范圍。在此基礎上,文獻[1]提出了基于北斗的同期線損用電信息采集系統,建立了基于北斗的接入設備模型,在保證原有電力系統基本功能的前提下,引入了多時段定時數據收集機制,可以有效地采集盲區數據;使用的基于大數據云平臺的采集方法,文獻[2]在大數據云平臺的基礎上,采用分布式的功率信息采集系統進行數據采集。通過構建大數據云平臺,結合BP神經網絡算法分析大數據,加強線損控制,準確預測用電負荷。但兩種方法均受采集設備或人為因素影響,導致采集數據確實存在或產生異常數據檢測不符合預期行為的問題。針對這一問題,文中提出了一種基于孤立森林算法的電力信息采集系統設計。
系統硬件結構包括三個部分:采集對象、通信通道和系統主站。該系統主要是一個獨立的網絡,防火墻用來實現與市場、其他應用系統及公用網絡通道的安全隔離[3]。采樣器是采集終端和現場測量設備,其主要有變電站關口終端、專業的采集終端、公用事業變壓器采集終端、低壓集中抄表終端和電能表[4]。
電力公司各工作站通過內部專網連接到省公司主站,圖1 為電力用電信息采集系統物理拓撲圖。
從圖1 可以看出,在邏輯上,信息采集系統分為主站層、通信層和設備層,該系統將接口與其他應用系統接口的連接形式統一[5]。
電力用電信息采集系統實現了各種業務應用邏輯,包括電力控制邏輯、信息采集執行邏輯、數據庫管理邏輯等,通過采集到的各個邏輯層數據將采集結果發送給智能控制終端。
通信層主要采用GPRS 公共網絡通信通道,支持主站與終端之間的信息交互,是信息傳輸主站與采集設備的連接[6]。GPRS 公共網絡通信是一種32 位無線模組,采用嵌入式操作結構,為系統提供RS232 接口,方便與串口設備直接連接,實現數據快速傳輸。
設備層具有電力用戶計量、統計等功能,將其劃分為N個終端子層,負責電力用戶計量信息的采集,實現電力用戶終端與主站之間的信息交互[7-9]。
1.3.1 數據庫服務器
數據庫服務器采用高性能PC 服務器和兩機并發方式,以保證系統的安全性能。該數據庫服務器采用兩路配置,CPU 按1∶8 的存儲器分配比例,根據數據使用合理分配分區,指定相應的分區運行[10]。圖2 為數據庫服務器的結構。
由圖2 可知,UC8000 系列IPPBX 雙機熱備系統,配置在同一臺服務器上,雙機UC8000 服務器雙機熱備,實現實時運行檢測。采用Eth1 接口檢測,呼叫服務采用Eth0接口連接外部網絡,默認關閉服務器Eth0端口[11]。當系統自動檢測出主服務器出現故障時,備份服務器將自動為系統提供Eth0 接口,主服務器上的所有服務數據將快速傳送到另一個服務器上[12]。
1.3.2 磁盤陣列
冗余陣列是存儲在多個磁盤不同位置上的數據,這些數據均衡重疊,改善系統性能,通過增加磁盤平均故障間隔時間來提高系統容錯性能[13]。雙存儲磁盤陣列柜結構如圖3 所示。
從圖3 可以看出,使用雙存儲磁盤柜將數據存儲在本地磁盤上,通過雙存儲陣列的復制功能將存儲的數據備份到其他存儲陣列,保證數據不會丟失。
采用孤立森林算法檢測孤立的異常數據點,并在此基礎上設計了電力信息采集流程。
1)使用t個iTree 構建孤立森林,在異常樣本較少的情況下,孤立森林適合于與正常樣本的屬性明顯不同的屬性。利用隨機超平面對孤立森林進行數據分離,這樣循環分離到子空間中只剩一個數據點[14]。孤立森林構建過程如下:
①將訓練數據作為子樣本集,作為樹的根節點;
②這個門限是指當前點,用任意的門限作為切割步長;
③由切點構成超平面,并將數據分成兩個子空間,在節點的左右兩側分別放置尺寸小于p和大于p的尺寸;
④循環執行②、③,形成新的節點,當數據不能繼續分割或者分割次數到達log2λ時,停止分割。
2)判斷進入滑動窗口數據的異常情況,利用滑動窗的流場數據研究孤立森林的異常檢測,以此來判斷每個滑動窗到達的異常[15]。輸出結果為在(0,1)范圍內的數據,其中(0,Y]表示處于正常狀態的流數據,(Y,1) 表示處于異常狀態的流數據,Y表示通過對初始孤立森林檢測器進行歷史數據計算得到的異常分數。基于歷史數據的異常率得到分位數,公式為:
式(1)中,f表示一種連續計算某點概率的函數;F(x)表示孤立森林檢測函數;x表示訓練樣本;z表示異常樣本。
3)采集進入滑窗緩沖區的流量數據,以此判斷該數據是否為異常數據,出現這種情況的概率為u':
式(2)中,n表示當前滑動窗口中的異常數據;nall表示當前滑動窗口中的所有數據。
4)根據更新后的數據,計算不同檢測器下的數據異常率,在第i個子孤立森林檢測過程中出現的數據異常率偏差為:
式(3)中,u(i)表示第i個子孤立森林數據異常率;uall表示全部數據異常率。按照數據異常率偏差計算結果,對更新后的子森林異常檢測結果按照數據大小依次排序。
利用當前可移動窗口中的數據構造一個K-子孤立森林異常檢測器,代替待更新子森林異常檢測器,在孤立森林檢測的基礎上更新數據,完成孤立森林檢測數據的實時更新,清除滑窗和緩沖區的數據[16]。
5)信息流收集設計,清除異常數據點,設計如圖4所示的信息獲取流程。
由圖4 可知,客戶端啟動請求服務由采集接口服務處理,可以響應多個客戶的請求。收到請求后,采集接口服務將請求隊列放到接口請求隊列中,請求隊列任務被放置到協議解析服務的調度隊列中。協議分析服務在寫入消息后,通過物理通道的預通信服務發送數據采集請求;當請求返回時,前端通信服務將反饋信息放到協議反饋隊列。通過分析所采集的數據消息,任務調度服務對其進行處理,并將結果返回給請求服務客戶端進行顯示操作。
系統于2019 年8 月在某省某市供電公司試點運行,截至2019 年10 月,已從電力負荷系統導入大型專變用戶中。
以某地2019 年8 月5 日的6 000 個用戶的日負荷數據為研究對象,采樣間隔是20 分鐘,共98 個測試點。對這些數據處理后,可得到4 500 個有效日負荷數據,其中包含50 個異常用戶。
查全率、召回率、檢測率和查準率是評價系統性能優良的重要指標,其中查全率計算公式可表達為:
式(4)中,W表示系統采集到的目標數量;X表示系統中所包含的全部采集到的信息中與某一用電行為相關的信息數。
召回率計算公式可表達為:
式(5)中,Y表示召回為正常的用電信息數。
檢測率計算公式可表達為:
式(6)中,Z表示被正確采集到的用電信息數。
查準率計算公式可表達為:
式(7)中,R表示檢索出的相關信息量。
分別采用基于北斗同期線損、基于大數據云平臺的采集方法和基于孤立森林算法的采集方法檢測電力用電信息數據,查找異常值。三種方法處理電力用電信息異常用戶,ROC曲線對比結果如圖5所示。
由圖5 可知,使用三種方法的查全率均較高,但使用基于孤立森林算法的采集方法相比于基于北斗同期線損、基于大數據云平臺的采集方法,可得到最高查全率為99%。三種方法處理電力用電信息異常用戶,累積查準率對比結果如圖6 所示。
由圖6 可知,當檢測到的異常值檢測率在20%左右時,使用基于孤立森林算法的采集方法的查準率為70%;使用基于北斗同期線損的采集方法的查準率為60%;使用基于大數據云平臺的采集方法的查準率為9%。
通過上述分析可知,使用基于孤立森林算法的采集方法,具有更高查全率和查準率,能夠實現快速、全面采集目標信息。
用t個iTree 構建孤立森林,在此基礎上設計了基于隔離森林算法的電力用電信息采集系統,實現了用電數據的異常分析。隨著系統規模的不斷擴大,多通道并發采集,數據的存儲容量和效率將成為系統開發和應用的關鍵。要實現“全覆蓋”,充分融入電力營銷自動化流程,全面提升營銷管理水平。