王 璞,謝曉娜
(1.國能大渡河流域水電開發有限公司,四川成都 610041;2.成都信息工程大學自動化學院,四川成都 610225)
電力系統中通過各種智能設備采集的數據蘊藏著許多與系統運行狀態有關的信息。但是實際運行中由于受到多種環境因素干擾,數據存在一定的誤差或異常,影響了系統狀態估計的準確性。文獻[1]指出現有電力異常數據檢測方法主要是基于狀態估計計算的傳統方法和基于數據挖掘的非傳統方法,如基于神經網絡[2-4]、聚類分析[5-8]及間歇統計[9]等方法。其中,基于聚類分析的檢測方法在準確度、穩定性及聚類效果方面表現較好,得到了廣泛應用。文獻[5]提出了一種基于改進K-means 算法的電力數據異常檢測方法。文獻[10]提出了一種將PFCM 算法和改進粒子群優化算法相結合的電力大數據異常檢測方法。
為解決FCM 算法易受噪聲數據影響及初始化敏感的問題,提出一種基于改進FCM 算法的電力異常數據檢測方法。首先基于距離測度的公理化定義給出一個新的距離測度計算公式,在此基礎上提出一種改進的FCM 算法,并采用螢火蟲算法[11](Firefly Algorithm,FA)對FCM 算法的初始化聚類中心進行優化,再依據3σ原理提出了異常數據檢測方法,最后通過對比實驗,對該方法的有效性進行驗證。
FCM 是通過構建目標函數來獲得數據分類結果的一種求解算法[12]。對于給定數據集X={x1,x2,…,xn},其中xi為含有d個屬性的數據對象(1 ≤i≤n),劃分數據集為c個類簇(2 ≤c≤n-1),聚類中心為V=(v1,v2,…vc),其優化目標函數為:
式中,μij為每個樣本隸屬于類簇的程度;dij為每個樣本到聚類中心的歐氏距離;m為模糊指數,一般取值為2。利用拉格朗日乘子法得到隸屬度μij和聚類中心vj的更新式為:
螢火蟲算法(AF)受自然界中螢火蟲相互吸引而移動的啟發實現解空間搜索,從而得到最優解。螢火蟲間相互吸引主要取決于亮度和吸引度兩個因素,較亮的螢火蟲吸引較暗的螢火蟲向其移動,最終導致所有螢火蟲都趨向最亮的螢火蟲,其所在位置就是解空間中最優的位置。在FA 目標優化問題求解時,螢火蟲的亮度通常直接由給定問題的目標函數決定,吸引度和位置的定義[13]如下。
定義1螢火蟲i與j之間的吸引度為:
式中,β0是最大吸引度,γ是光吸收因子,rij是兩只螢火蟲之間的歐氏距離。
定義2螢火蟲i向螢火蟲j移動的位置為:
式中,si、sj分別表示螢火蟲i、j在解空間所處的位置;α表示步長因子,可設為[0,1]的常數;εi為服從均勻分布的隨機數。
距離測度用于衡量各個樣本之間的相似程度,包括歐氏距離、曼哈頓距離和切比雪夫距離等。其中歐氏距離只考慮數據點之間的局部一致性特征,忽略了全局一致性特征[14],為此存在無法準確刻畫現實世界中含噪數據復雜結構的問題。考慮方差是一個衡量數據集分散程度的度量,下面引入方差改進歐氏距離,在距離測度的公理化定義下,提出一種新的距離測度計算公式。
定義3給定數據集X={x1,x2,…,xn},其距離測度需要滿足以下四個基本性質:
1)非負性:d(xi,xj)≥0;
2)自反性:當且僅當xi=xj時,d(xi,xj)=0;
3)對稱性:d(xi,xj)=d(xj,xi);
4)直遞性:d(xi,xk)+d(xk,xj)≥d(xi,xj)。
定義4給定數據集X={x1,x2,…,xn},其中xi是包含d個屬性的數據對象(1 ≤i≤n),其改進的距離測度定義為:
定理1由式(6)確定的距離測度滿足定義3 給出的四個公理性條件。
聚類利用距離度量建立相似性矩陣來計算樣本之間的相似度,從而確定樣本的所屬類別,因此選擇合適的距離度量直接影響了FCM 算法的聚類性能。通常FCM 算法選擇歐氏距離,而歐氏距離無法準確刻畫復雜數據結構的限制,導致FCM 算法在實際應用中處理含噪或異常值的數據集時往往無法得到較佳的聚類結果。為了增強FCM 算法的噪聲魯棒性,根據新型距離測度建立相似度矩陣,提出一種改進FCM 算法,使得目標函數不僅反映樣本之間的相似程度,還反映樣本集全局的分散程度,表示如下:
通過求解偏導數得到隸屬度μij和聚類中心vj分別為:
由此,在目標函數最小化過程中,利用式(9)和(10)對隸屬度矩陣和聚類中心進行更新,然后獲得最優解,最終依據最大隸屬度值確定樣本其所屬的類別。
以往FCM 算法采用梯度下降方法尋找最優解。若初始值選擇不當則會使算法陷入局部最優,進而影響FCM 算法的聚類結果??紤]螢火蟲算法與粒子群算法和遺傳算法相比在全局尋優方面更具有優勢,文中在文獻[15]的基礎上,利用螢火蟲算法對聚類中心進行優化,然后再將所獲得的聚類中心作為聚類算法初始值進行聚類。具體思路:每一只螢火蟲代表一個聚類中心,它的位置向量用聚類中心矩陣來表示,利用聚類算法的目標函數給出螢火蟲的亮度公式為:
可見,螢火蟲亮度與目標函數成反比,螢火蟲的亮度越高表明目標函數越小,則其所在位置越好。
基于上述討論,文中首先利用螢火蟲算法尋優獲得最優聚類中心,然后將其作為聚類算法的聚類中心初始值進行聚類,最終獲得最優劃分和聚類結果。文中算法流程圖如圖1 所示。

圖1 算法流程圖
圖2 給出了FCM 算法、PSO-PFCM[10]算法和文中算法對含噪數據集聚類所得的隸屬度,可見,對于前面300 個數據點,三種算法所得的類別劃分結果與數據集的實際分布情況一致,表明三種算法都能獲得數據正確的劃分結果。但進一步觀察,圖2(c)中數據樣本對歸屬類的隸屬度值更高,反之則更低,表明文中算法的類別之間劃分更加清晰,聚類效果更好;同時,后100 個噪聲點的隸屬度均更小,與前面數據樣本的隸屬度變化規律截然不同,表明噪聲對文中算法聚類過程的影響極小,可以忽略噪聲帶來的干擾,具有更強的噪聲魯棒性。

圖2 三種算法的隸屬度對比
選取某水電廠2022 年5 月的真實發電量數據進行電力異常數據檢測實驗,采樣頻率為1 次/h,共155條發電量曲線。發電機的超負荷運行或發電機振動失步等不可預知因素導致測量數據含有誤差,為此,各個機組的發電量曲線分布特性各不相同。首先采用各條曲線的最大值和最小值對數據進行歸一化處理,然后采用FCM 算法和文中算法將155 條發電量曲線劃分為五類,提取各個類別曲線及其對應的特征曲線,結果如圖3 所示。從圖3 可見,文中方法提取的聚類中心曲線與發電量曲線的形態更加一致,尤其在曲線趨勢變化較大時,文中算法的聚類中心幅值明顯與發電量更接近。

圖3 兩種算法聚類結果對比
在獲得發電量曲線分類結果與精確提取各類特征曲線的基礎上,文中依據3σ原理對異常數據進行檢測,所得的部分異常數據如表1 所示??梢姡摲椒軌驕蚀_地檢測出電力數據異常值。

表1 部分異常數據
文中提出了一種基于改進FCM 算法的電力異常數據檢測方法,克服了FCM 算法因采用歐氏距離而對噪聲數據敏感和易陷入局部最優的不足。實驗結果表明文中算法所獲得的聚類結果類別劃分更清晰、噪聲魯棒性更強,并且能夠準確檢測出電力異常數據。后續將利用更多聚類有效性指標來進一步分析文中算法性能,并結合特征提取方法應用于高維電力數據的異常檢測。