張 超,武 澤,許 峰,姚天賜
(國網伊犁伊河供電有限責任公司,新疆伊犁 835000)
隨著傳感器技術和通信技術的不斷發展,使用眾多技術的電網也更加趨于智能化。同時產生的電力數據也呈現指數增長,如何高效利用海量電力數據,為電網穩定運行提供支撐成為了亟待解決的問題[1-2]。
在數據存儲、通信以及數據整合、挖掘等方面,已有大量相關的電力數據分析處理算法[3]。文獻[4]結合人工智能技術綜合挖掘分析電力變壓器狀態數據,以提升設備狀態檢修的全面性與準確性。文獻[5]利用并行反向傳播神經網絡算法分析海量用戶側數據,實現負荷分類。文獻[6]基于粒子濾波和卷積神經網絡分析電網運行監控數據,有效提高了狀態估計精度和魯棒性。但現有的電力數據分析處理算法無法滿足智能電網對精細化和時效性的需求,為此,該文基于改進聚類分析算法提出了一種能夠對電力數據進行智能分析與處理的方案。利用布谷鳥搜索(Cuckoo Search,CS)算法改進高斯混合模型(Gaussian Mixture Model,GMM),設計實 現了GMM-CS 聚類算法,將其用于電力數據的分析和處理,有效提高了分析處理的準確性與實時性。
GMM 參數的正確估計是實現電力數據智能分析和處理的關鍵,通常采用極大似然估計確定參數,而期望最大化(Expectation Maximization,EM)是最常用的求解方法。但EM 算法在更新參數估計的過程中存在一些問題,易陷入局部極值[7];初始值設置對達到似然函數極值有較大的影響[8];在高維且數據量大的數據集中會生成非法協方差矩陣,無法獲取精準的模型參數[9]。為此,采用CS 算法尋找最優的GMM 參數值。
假設X={x1,x2,…,xn} 為隨機觀測數據且由某個GMM 生成,其中xj∈Rd,j=1,…,n是d維隨機變量,數據之間相互獨立,含有M個單高斯模型分量。
觀測數據樣本GMM 概率密度表示如下:

式中,ωk為每個單高斯模型的權重,且相加為1;Θ={ω1,μ1,δ1;…;ωM,μM,δM} 為GMM 的參數集合;μk∈Rd、δk(d×d),k=1,2,…,M分別為第k個單高斯模型的均值向量和協方差矩陣;為單高斯模型的概率密度,公式為:

對于觀測數據,假定各個樣本之間具備統計的獨立性,則數學表示如下:

式(3)為Θ 關于X的似然函數,則定義其對數似然函數為:

通過求解式(4),便可得到對數似然函數的最大值,即:

CS 算法主要來源于布谷鳥巢的寄生機制和Levy飛行的基本原理,為了便于分析,假設在CS 算法中每個布谷鳥的筑巢和產卵過程中能夠檢測到外來卵的概率是pa。同時,對于待解決的問題,為了簡化計算過程,用巢中的卵來代表相應問題的解決方案,每個卵代表一種新的策略,旨在用更好的策略取代更差的策略,且巢的空間位置就是卵的位置。
布谷鳥巢位置更新如下:

式中,si(t)為第i個布谷鳥在第t次迭代中的嵌套位置;⊕表示點乘;α為步長,α>0。實質上,式(6)表示一個隨機游走過程,并遵循馬爾可夫鏈,其未來空間位置主要受當前位置和轉移概率的影響。Levy(λ)表示隨機搜索當前路徑,數學表示如下:

CS 算法的基本流程如圖1 所示。

圖1 CS算法的處理流程
從CS 算法流程可以看出,該算法原理清晰、流程簡單,但Levy 飛行的實現相對復雜。在算法中,寄生巢的位置越來越集中,則Levy 飛行步長縮小,因此算法在較小的局部范圍內進行搜索[10-12]。由于Levy飛行操作和宿主放棄寄生巢,CS 算法具有較強的跳出局部最優解的能力[13]。
利用CS 算法求解GMM 參數的最優解,從而構成GMM-CS 聚類方法,對電力數據進行智能分析和處理。其中GMM-CS 聚類分析的流程如下:
1)初始化種群規模及相應參數。根據數據集維數d、GMM 分量個數M設置GMM-CS 算法個體長度D和種群規模Np。其中Np和D的計算如下:

CS算法的參數初始化為:pa=0.25,s0=[0 0.25],u0=[1 0.75]。
2)將訓練數據集進行Np次GMM 聚類,計算出每一次聚類的均值向量和協方差矩陣,以得到初始種群的每個個體。

4)根據給定的CS 算法的寄生機制和Levy 飛行原理,對所有個體進行優化選擇,產生新的種群。同時更新每個個體的適應值,并計算最優適應值。
5)判斷迭代次數是否達到最大,若達到最大,則轉到6);否則轉到4)。
6)將最優個體和對應的最優適應度函數值輸出,即可得到最優的GMM 參數。
隨著信息技術在電力系統的廣泛應用,要保證其安全運行,需要對電力數據進行有效分析[14-15]。通過構建電力數據智能分析處理系統,為改進聚類分析的應用提供條件,從而實現準確、高效的數據異常分析并采取預防措施。
通過構建電力數據智能分析處理系統,可以利用電網數據進行聚類分析、時序預測等,并根據分析結果劃分為多維數據,為電網數據的應用提供參考。其中,電力數據智能分析處理系統的架構如圖2所示。

圖2 電力數據智能分析處理系統的架構
對于給定的電力數據樣本,其智能分析的目標是識別異常數據并采取處理措施[16]。在電力數據異常分析任務中,目的是找到異常數據Θ*,其對應的模型Θi使得待分析電力數據組具有最大后驗概率P(Θi|X)。基于GMM-CS 的電力數據分析和處理算法的架構如圖3 所示。

圖3 基于GMM-CS的電力數據分析和處理算法的架構基于貝葉斯理論,最大后驗概率可表示為:

對于Θi的先驗概率p(Θi),如果沒有先驗知識,則1 ≤i≤T。在電力數據的智能分析和處理中,p(Θi) 為訓練數據中第i組異常數據與總數據量的比值,即訓練集中第i組數據存在的異常數據越多,其先驗概率越大。對于一個確定的特征量x,p(x) 是一個確定的常數,所有異常數據的p(x)均一致。因此,求取后驗概率可以通過求取p(x|Θi)·p(Θi)得到。如此,分析電力數據中異常數據便可表示為:

為了確定GMM-CS 模型分量的最優個數,采用模型中封裝的Akaike Information Criterion(AIC)和Bayesian Information Criterion(BIC)兩個指標評估調整模型,結果如圖4 所示。其中AIC 和BIC 的數值越小,說明模型的性能越優。

圖4 AIC、BIC與GMM-CS模型分量個數的關系
從圖4 中可以看出,當GMM-CS 模型分量個數大約為6 時,BIC 數值達到最小。而AIC 數值隨著GMM-CS 模型分量個數的增加持續減小。但當分量個數達到10 之后,AIC 數值變化較小。因此綜合考慮,將GMM-CS 模型的分量個數設為10。此時AIC和BIC 數值均接近最小,因此模型的聚類效果最為理想。
為了能夠更加直觀地看出所提算法的收斂性能,將其與文獻[5]、文獻[6]、文獻[10]進行對比分析,結果如圖5 所示。

圖5 不同算法的收斂性對比結果
從圖5 中可以看出,相比于其他算法,所提算法的在迭代約75 次即實現收斂,收斂速度快。由于所提算法采用CS 算法尋得GMM 模型的最優值,避免局部最優,加快了尋優速度。文獻[5]的反向傳播神經網絡、文獻[6]結合粒子濾波和卷積神經網絡,分析算法復雜,均在約150 次實現收斂。而文獻[10]采用數據挖掘進行數據分析,所使用的是傳統算法,未進行優化和改進,收斂性并不理想。
電力數據智能分析的重要應用之一是系統故障檢測,如網絡入侵、各種短路故障等[17-18]。目前系統對可能出現的異常已有明確的界定,因此可采用檢測率和誤檢率進行性能評價。其中檢測率為數據集中被算法檢測出的異常數據個數與所有異常數據個數的比值;誤檢率為數據集中被誤檢為異常的正常數據個數與所有正常數據個數的比值。四種算法的對比結果,如表1 所示。

表1 不同算法數據分析處理性能對比結果
從表1 中可以看出,所提算法的檢測率、誤檢率分別是95.35%和7.81%,均優于其他對比算法。所提算法采用改進聚類分析模型實現全局搜索,保證了數據分析的準確性。而文獻[10]采用數據挖掘技術,由于算法步驟較為簡單,因此耗時僅為14.37 s,短于所提算法的16.54 s,但其整體性能不佳,誤檢率超過了10%。文獻[5]采用反向傳播神經網絡以及文獻[6]結合粒子濾波和卷積神經網絡實現電力數據分析,檢測率和誤檢率較為理想,但算法較為復雜,耗時較長,均超過20 s。綜合檢測結果與耗時,所提算法的整體性能最佳,能高效且準確地分析電力數據并采取相應的措施。
電力數據的精準分析對電網的穩定運行至關重要,為此該文設計了一種電力數據智能分析與處理算法,以提高數據分析的準確性和時效性。通過求解GMM 參數的最優解,避免了算法陷入局部最優。同時將GMM-CS 改進聚類算法用于處理系統內的多維模式數據庫,從而獲得異常數據。此外實驗結果表明,當GMM 參數個數設為10 時,所提算法性能最佳,且其迭代次數約為75,檢測率、誤檢率分別是95.35%和7.81%,分析時間為16.54 s,整體性能優于其他對比算法。對于龐大的電力系統而言,時效性是重要的指標,因此在接下來的研究中,將考慮將算法與分布式相結合,進一步提高運行速度,增強算法的實用性。