和定繁,蔣羽鵬,楊 珊,陳 賀
(1.昆明供電局變電運行二所,云南昆明 650000;2.浙江大立科技股份有限公司,浙江杭州 310053)
智能變電站是推動智能電網建設的重要運行單位。為有效避免電力設備老化、絕緣破壞等故障情況的發生,防止出現停電事故,通常需要對智能變電站中的電力設備實施監測[1-2]。
傳統的變電站監測方法主要包括人力巡檢與電子監測兩種。人力巡檢是目前國家電網主要采用的檢測方法,但是該方法主要針對傳統變電站,而隨著智能變電站的應用與發展,其可以在惡劣的自然環境中進行建設。而人力巡檢則難以在這種環境下完成檢測,且該方法不具備實時性,僅能在固定時節進行檢修,具有較大的局限性。隨著信息技術的發展,電子監測技術逐步成為主流。現有的電子檢測技術在系統穩定的條件下具有一定的監測效率,但仍有一些局限性[3-4]:1)效率與實時性具有局限性。智能變電站內部含有大量的新型電力電子器件,所需監測的數據也呈現指數增長趨勢,系統正常運行時,電子監測系統難以兼顧效率與實時性。若電力設備發生突發狀況,數據量激增,則會導致監測系統崩潰無法實時解決設備故障;2)信息難以共享。現有的電子監測系統基本采用“一對一”模式,不同設備之間的監測系統難以分享信息,使得采集到的數據出現冗余,從而造成資源浪費;3)實際工程中運行情況具有一定的局限性。由于智能變電站處于電磁場較強的環境下,對電力設備的在線監測與診斷會受到一定的電磁干擾,使得監測準確性難以滿足工程應用的需求。因此,亟需一種能夠對智能變電站中電力設備海量監測數據進行快速處理和分析的方法,實現智能變電站中電力設備的實時監測。
針對以上問題,文中提出一種云計算環境下基于C4.5 決策樹算法的智能變電站電力設備狀態監測方法。通過引入云計算環境建立智能電網Hadoop平臺,在MapReduce 并行模式下改進C4.5 決策樹算法,并應用于數據分析,從而對海量數據進行快速處理,實時動態監控智能變電站電力設備的狀態。
Hadoop 平臺是一種云計算平臺,其核心在于對海量數據進行儲存與處理,主要包括HFDS、HBase與MapReduce 3 個部分[5]。
1.1.1 HDFS
HDFS 系統是一種分布式文件系統,作為Hadoop平臺的核心,其主要功能是提供存儲容量和數據處理等功能。與傳統的文件系統區別在于,HDFS 系統中的各個文件會被分成固定大小的數據塊進行儲存。而系統中的數據節點是數據實際的存儲位置。客戶端以及元數據節點所具有的功能是讀取數據塊、向數據節點呈遞請求。數據節點按時將存儲數據發送到元數據節點,使后者與前者保持一致。
HDFS 系統的特點決定其可以較優地處理海量數據,其內部含有1 個主節點與一定數量的從節點。前者主要是維護系統,后者主要是實現數據存儲。HDFS 系統的記憶功能可通過以下方面實現[6]:
1)文件區分。HDFS 可以依據文件容量將其分別存儲于不同從節點,從而快速實現本地處理。
2)模塊拷貝。HDFS可以對數據塊進行拷貝并分別存儲于不同的數據節點,從而增強系統的可靠性。
3)節點任務。系統的節點功能較為簡單明確,其沒有冗余功能,可以提升服務器運行效率。
4)系統延展性。系統中數據節點可根據任務要求任意增減,有效減少成本并降低風險。
1.1.2 HBase
HBase 系統是一種分布式存儲系統,其存儲的對象主要是字符串,包含4 個節點[7]:
1)客戶服務端。主要涵蓋多種HBase 訪問接口,存儲相應的緩存數據。
2)Zookpeer。Zookpeer 集群容量主要取決于Hadoop 集群容量與任務,且只含有1 個Master,可以即時監測Region Server。
3)HMaster。HMaster 分配Region,運行服務器負載并確保集群狀態。
4)Region Server。經Master 分配并主要負責保障Region,此時處理IO 請求。若Region 運行時增加,則還可執行切分。
HBase 能夠被用于結構化數據庫與非結構化數據庫。其非結構化存儲方式主要是通過按列對數據進行存儲,從而實現大數據存儲。HBase 能夠自行搜索數據,基于數據聚集存儲模式,提升搜索效率。
1.1.3 MapReduce
MapReduce 的主要功能是實現大數據的并行處理,其核心在于Reduce 與Map。用戶發布任務后,先運行Map,其輸出鍵值被保存到相應的文件。然后運行Reduce,通過數據混洗將隨機生成鍵輸入到指定Reduce,再按照鍵值大小對其進行排序。最后,將輸出的鍵值列表輸出至Reduce 中進行處理,并在HDFS 中得到輸出結果[8]。
考慮到智能變電站電力設備運行狀態的特點,引入Hadoop 云計算平臺,利用成本較低的服務器集群,采用虛擬機完成整體資源的虛擬化操作,并利用相關的存儲和管理系統對數據進行存儲與管理,確保高效處理智能變電站海量監測數據。因此在MapRedcue 分布式處理系統的基礎上,設計相應的監測數據并行處理系統,利用并行計算模式完成監測數據的并行處理,實現智能變電站電力設備的狀態評估與故障診斷。該系統架構如圖1 所示。

圖1 云計算環境下監測數據并行處理系統
決策樹算法的本質是利用歸納方法,將完成處理的數據轉化為相應的決策樹與規則,并利用生成的決策樹分析與處理新數據。
決策樹基本思想為:樹葉是訓練集中的同類結點,對其標記當前類別。若不屬同類,則當前結點可設定為分類性能最強的屬性。之后訓練集的值取決于當前結點屬性,進而拆分為數個不相同的子集,所取的各值構成相應的分支,由此均從上一個步驟獲取一個子集,重復以上過程。若屬性值出現在某一結點,則無需繼續對該結點進行后續運算[9-10]。
由于C4.5 決策樹算法是在ID3 算法基礎上改進的,因此需要首先介紹ID3 算法原理。
設集合D中樣本數量為d,共有n類屬性,定義Ci(i=1,2,…,n),且Di∈Ci,則分類樣本的信息量可用下式進行計算:

式(1)中,pi表示的是樣本隸屬于Ci的概率,可利用did進行計算,信息可以利用二進制編碼,因此log 底數設定為2。
設屬性集合A={a1,a2,…,am},集合D被集合A拆分為m個子集,Dj囊括集合D中的樣本且在對應的集合A中具有相同的值(j=1,2,…,m) 。設Dij為子集Dj中包含的類別Ci的樣本數量,則利用集合A拆分的子集Dj的信息熵可用式(2)進行計算。


式(3)中,Pij=Dij/Dj,表示的是Dj中樣本隸屬于Ci的概率。集合A中的分支所得到的信息增益量可用下式進行計算:

C4.5 決策樹算法改進了ID3 算法中屬性的連續性與值的缺省,同時對決策樹的剪枝進行了一定的優化。并在信息增益的基礎上,引入信息增益率的概念。其計算公式如式(5)所示。

其中,S(A)表示的是分裂信息度量。計算公式如式(6)所示。

C4.5 決策樹算法的主要理論依據是在信息論基礎上,利用式(1)與式(2)構建決策樹,但根據以上流程可以看出求解信息增益率時要不斷完成對數運算,而大量調用函數會導致運算效率降低。
設U=V1×V2×…Vl為l維的有限空間向量,Vj表示有限離散符號的集合,u為U中元素且u=<ω1,ω2,…,ωl>表示范例,其中ωj∈Vj,j=1,2,…,l。設定U的正例集合為YU,大小為y,反例集合為NU,大小為n,由此可得[11-12]:
1)U中所包含的正反例概率與空間中任意某個樹的樣本集合所具有的分類概率一致。
2)由式(1)可知,單一樹正確判定單一樣本集類別所需的信息量可由下式計算得到:

令A作為根的信息熵可用下式進行計算:

簡化后可得:

此時,分裂信息度量計算公式為:

信息增益率為:

經改進后的C4.5 決策樹算法有效簡化了運算過程,在更適應MapReduce 并行計算模式的同時,有效提升了運算效率,其在處理海量數據時具有較大的優勢。
該文在對智能變電站電力設備進行狀態監測時,主要考慮在云環境下利用C4.5 決策樹算法實現。但該算法通常在串行模式下運行,運算前需要將所有數據導入內存,基于算法的訓練規則進行分類,最終完成算法全部步驟。但由于內存不足以及服務器運算速度限制,會使得整體運算效率降低。因此,這種運算模式難以處理智能變電站海量監測數據[13-14]。為了使算法能夠高效處理海量監測數據,在MapReduce 并行計算模式下優化C4.5 決策樹算法,其優化步驟如下:
1)提取智能變電站海量監測數據樣本,對智能變電站電力設備的不同故障數據進行分類,劃分得到智能變電站主要的典型故障類型。
2)考慮智能變電站在受溫度變化影響的條件下,對功率進行計算,得到相應的變化率,分析波動情況。
3)利用C4.5 決策樹算法對選取的樣本進行并行訓練,求解各個參數影響預測結果的水平,得到預測屬性所對應的重要性,生成決策樹算法的分類規則。
4)將需要分析的數據樣本輸入,基于生成的分類規則進行數據分類,判定電力設備運行狀態。
在MapReduce 并行計算模式下實現算法的優化,可以減少算法的運算時間、提高分類準確率,并有效提升算法的綜合性能,進而實現智能變電站電力設備運行狀態的實時監測。
該文利用8 臺電腦構建一個Hadoop 集群,為了確保整個集群維持在同一運算效率進行工作,將電腦配置設定為同一型號,并保證配置相同。其主要配置參數如表1 所示。

表1 Hadoop集群基礎配置參數
在完成MapReduce 并行計算模式下的算法并行優化后,可以直接將所需分析的監測數據導入HDFS 中,運行MapReduce 即可求解。該文的智能變電站電力設備運行狀態的監測數據,提取某省國家電網公司全年智能變電站監測數據。文中以智能變電站SF6斷路器為例進行分析,采集100 000 條時序樣本數據,將斷路器的運行狀態劃分為正常狀態(NS)、SF6氣體泄漏故障(F1)、電弧重燃故障(F2)以及絕緣損壞故障(F3)[15-16]。通過分析持續時間t的變化、溫度T的變化與功率P的變化情況,利用C4.5 決策樹算法在MapReduce 并行計算模式下,對采集到的樣本數據進行訓練,并生成相應的判定規則,如表2所示。
在所構建的Hadoop 平臺中,利用在MapReduce并行計算模式下優化后的C4.5 決策樹算法,對智能變電站中的SF6斷路器實施監測并對故障進行診斷和分類。所得到的實驗結果如表3 所示。

表2 判定規則

表3 SF6斷路器監測結果
由表3可見,該文用于實驗的樣本容量共計9 467個,其中訓練集6 978 個,測試集3 489 個。測試集中正常運行狀態的樣本容量為1 000 個,準確分類的結果為996 個,分類準確率為99.60%;測試集中SF6氣體泄漏故障的樣本容量為837,準確分類的結果為805,分類準確率為96.18%;測試集中電弧重燃故障的樣本容量為824,準確分類的結果為772,分類準確率為93.69%;測試集中絕緣損壞故障的樣本容量為828,準確分類的結果為823,分類準確率為99.40%。實驗結果表明,該文提出的云環境下的C4.5 決策樹算法能夠良好地實現對智能變電站電力設備運行狀態的監測,可準確識別出故障類型,具有較高的診斷精度。
為了進一步驗證文中所提出方法的運行效率,分別將提出的C4.5 決策樹并行優化算法在Hadoop集群的MapReduce 并行計算模式下的運行時間與傳統C4.5 決策樹串行算法在單機的分布式查詢系統中的運行時間進行對比。實驗開始時,運行兩種條件下針對不同數據量的數據檢索,并計算相應的檢索時間,為了防止出現偶然情況所引發的小概率事件,選取5 次計算結果的平均值。最終的實驗結果如表4 所示。
由表4 可見,當數據樣本容量較小時,算法在單機系統的數據檢索較快,但當數據樣本容量達到320 000 左右時,兩者速度接近;當數據樣本容量超過320 000 時,算法在Hadoop 集群的檢索速度遠快于單機系統。這表明文中提出的方法在云計算環境下,對于海量數據監測具有更優的運算效率,可以大幅地節省運算時間。由于智能變電站電力設備的運行狀態監測數據遠大于文中的測試數據樣本容量,所以在工程應用中文中所提出的方法將發揮更大的優勢。

表4 運算時間對比
文中通過分析現有的智能電網運行狀態監測方法的現狀,成功構建了基于Hadoop 平臺的云計算環境,利用云計算環境下MapReduce 并行計算模式,在傳統C4.5 決策樹算法的基礎上對其實現了并行優化,并將算法應用于智能變電站電力設備運行狀態海量監測數據的分析。實驗結果表明,文中提出的云計算環境下基于C4.5 決策樹算法的智能變電站電力設備狀態監測方法,能夠有效實現電力設備的狀態監測,具有精準的故障診斷準確率,同時還擁有較高的運算效率。該文的研究成果具有良好的工程實用性,應用于智能變電站監測系統將有助于推進智能電網的建設。