王書領,邵其專,滕偉業
(云南電力調度控制中心,云南昆明 650000)
電力設備故障對智能電網的安全運行起著重要作用,電力系統中的設備運行時間越長,設備出現故障的可能性越大[1]。為了保證電力設備的安全運行,降低損失,必須對電力設備進行狀態監測與故障診斷,以便及早發現設備出現的各種故障,避免災害、事故的發生[2]。傳統的數據降維方法主要通過主成分分析(PCA)實現,但在智能電網環境下,可靠性和實時性較差。在極端惡劣的環境下,電力設備經常由于監測值超標而向監測中心發送報警數據,造成監測中心在極端惡劣的情況下,出現井噴現象;使用基于混合神經網絡的電網故障診斷算法,不能滿足實際數據實時接收和處理的需求,造成數據丟失和覆蓋。因此,提出了基于大數據分析的實時在線診斷方法,在大數據平臺上部署電網數據,以實現電網特征數據的并行故障診斷。
當電力系統運行時,電力特征量隨系統運行狀態而變化。在有故障源的情況下,通過特征參數顯示故障信息[3]。將此信息作為故障測度,可以對系統狀態進行診斷。電網多數據源的信息通過系統特征和狀態來傳遞,若信息來源只發出一種狀態,即為確定量信息,則信息的特征不帶任何資訊,所以信息必然包含未知和不確定性[4-6]。電網多數據來源的不確定性與電網每一狀態發生的概率有關[7]。
設電網出現故障的數據集為x(x1,x2,…,xn),每種故障狀態出現的概率為P(xi),則一個數據源可以用一個概率空間描述,即:

在上述公式中,各個狀態空間相互獨立,因此,可得到電網多數據源特征為:
1)不確定度是指數據源的狀態數和其在概率空間的概率分布;
2)在數據源的概率空間為等概率分布時,不確定度較大;
3)當分布相等時,不確定度與可能狀態數或相應概率有關。隨著狀態數的增加,不確定度增大,相應概率減小;
4)通過數據源概率倒數的對數度量表示數據源不確定度,即:

式(3)中,k表示度量數據量。該公式用來衡量數據量,數據量與接收數據前后不確定度關系有關,數據量降低,說明電網接收信息前后,概率空間概率分布發生變化[8-10]。為此,假定以y表示收到的信息,則不確定度可表示為:

式(4)中,P(x/y)表示接收到的電網信息后驗分布概率;E(x/y)表示異常信息熵,表示電網故障狀態處于不確定的程度,由此得到的信息量為:

診斷方案的拓撲實現包含兩部分,首先是模型構建,然后匹配相關數據,結合數據流處理過程和聚類過程,設計在線診斷流程。診斷方案的拓撲實現過程如圖1 所示。

圖1 診斷方案的拓撲實現過程
采用歷史數據模擬在線數據,實時監測數據源,以便實現電網多數據源的在線學習與診斷[11-13]。
結合電網多數據源特征,構建了電網多數據源診斷的大數據多維模型,如圖2 所示。

圖2 大數據多維診斷模型
由圖2 可知,電網故障診斷采用多維存儲節點數據,通過大數據關聯將相同數據維度的節點連接起來。對于多維大網絡,當一個數據節點被成功觸發時,對應的電力系統診斷數據會被激活,從而得到相應的診斷結果[14]。
匹配維是觸發維和大數據多維之間的橋梁,匹配維大數據節點的設計至關重要?;谟|發器大小數據,匹配相同大小的大數據節點,具有相同的故障類別、電壓等級和接線方式[15]。與維度匹配的大數據節點主要生成大數據多維共有部分,如圖3 所示。

圖3 觸發多維大數據節點
由圖3 可知,大數據節點代表線路電流差動保護及重合動作,而與大數據節點相同的部分,則是觸發維度節點成功匹配時激活的匹配維度。與數據多維相同,每個匹配維度都有一個匹配維度的大數據與之關聯,能夠提高節點匹配效率。
電網特征向量數據為無間隔數據流,通過向匹配維連續發送數據,構成待處理數據流。為便于對診斷結果的后續處理,保證元組處理順序一致,每個發送的元組對每個元組中相應的數據集進行唯一標識,并將電網多維數據源多維診斷模型,按ID 排序相關計算結果進行匯總[16]。
為使元組樣本數據規范化,采用了電網設備特征向量數據,每一個數據都有多維性特征。通過迭代更新聚類中心,計算每個聚類中心所有樣本點的向量均值,聚類過程為:
步驟1:隨機選擇n個樣本數據中的k個不同樣本作為初始聚類中心。
步驟2:對樣本集和各聚類中心之間的矢量距進行計算,選擇矢量距最小的樣本進行分類。K-均值算法一般是用歐氏距離來劃分樣本,公式為:

式(6)中,dij表示大數據多維節點m和n之間的歐式距離,其中mi多維節點坐標為(mi1,mi2,mi3,…min),nj多維節點坐標為(nj1,nj2,nj3,…njn)。
步驟3:更新簇中心,計算每一個類中所有樣本數據的平均數,并以這些平均數為新的簇中心。
步驟4:重復步驟2 和步驟3,直到新的聚類中心不再改變,聚類停止,由此完成數據處理。
依據數據處理結果,對電網多數據源異常情況進行診斷,流程如下:
步驟1:在大數據多維節點中,通過大數據分析方法,獲取電網多數據源處理隊列,并對節點進行聚類。
步驟2:實時檢測數據,得到的各個參量處理隊列,依據該隊列及時判斷不同時間節點數據是否屬于同一聚類中心。
步驟3:判斷電網多數據源處理隊列中是否存在異常數據,如果存在,則各個數據流中的節點數據屬于正常數據。
步驟4:判斷電網多數據源處理隊列中是否存在少數異常數據,如果存在,則各個數據流中的節點數據既存在正常數據,也存在異常數據。
步驟5:判斷電網多數據源處理隊列中異常數據是否超過數據總量的1/2,如果是,則各個數據流中的節點異常數據比正常數據多。
通過上述內容,可實現基于大數據分析的電網多數據源實時在線診斷,這樣可以使計算量達到最小,縮短診斷時間。
為了驗證基于大數據分析的電網多數據源實時在線診斷的實時性和有效性,進行了實驗驗證分析。
實驗室建立了一個Storm 云平臺,包括一個主節點和8 個從節點,使用了5 臺服務器形成物理集群,伺服器通過千兆開關連接,虛擬軟件XenServer 安裝在每個服務器上。9 個節點被虛擬化,每個節點分配兩個CPU 內核。Storm 系統被配置為9 個虛擬機。虛擬機①為主要控制節點,其余8 個虛擬機②為工作節點,表1 為平臺配置信息。

表1 Storm云平臺信息
部署與系統相關的外部環境,在每個工作節點中分配4 個工作點,每個節點最多運行4 個進程,通過不同交換機連接實現節點間通信,由此構造一個內部網段。
3.2.1 吞吐量測試
吞吐量指在單位時間內電網處理的數據量,通過測試集群工作節點,分析吞吐量變化情況。保持集群節點數不變,改變組件并發數,設進程數為5個,不同組件并發數下的吞吐量如表2 所示。

表2 不同組件并發數下的吞吐量
基于此,分別使用主成分分析法、混合神經網絡算法和基于大數據分析方法,分析不同組件并發數下的吞吐量,對比結果如圖4 所示。

圖4 不同方法吞吐量診斷結果對比分析
由圖4 可知,使用主成分分析法、混合神經網絡算法在不同進程下,與實際值存在一定偏差。其中,使用主成分分析法在進程4 下,與實際值偏差最大,相差200 個并發數。使用混合神經網絡算法在進程1 下,與實際值偏差最大,相差300 個并發數。而使用基于大數據分析方法與實際值一致,誤差為0。
3.2.2 數據延遲測試
數據延遲指在Storm 架構中,數據被發送到其被完全處理的時間,不同元數據序號下,預期延遲處理時間如表3 所示。

表3 不同元數據序號下預期延遲處理時間
基于此,分別使用主成分分析法、混合神經網絡算法和基于大數據分析方法,分析不同元數據序號下預期延遲處理時間,對比結果如圖5 所示。

圖5 不同方法延遲處理時間診斷結果對比
由圖5 可知,使用主成分分析法、混合神經網絡算法延遲處理時間比實際時間要長,而使用基于大數據分析方法與實際時間一致。
針對傳統診斷方法實時性不足的問題,研究了基于大數據分析的電網多數據源實時在線診斷方法。實驗表明,基于大數據分析的電網多數據源實時在線診斷方法能夠滿足電網快速診斷數據需求。然而,由于實驗環境的限制,只能并行診斷電網數據,實踐中應考慮多種不同因素,引入復雜事件,采用面向服務的思想,對多源信息實時處理。