楊 霞,茍 亮,馬 倩,朱帕爾·努爾蘭,馬為真
(國網新疆電力有限公司信息通信公司,新疆烏魯木齊 830017)
現階段我國的電網中已經融入多種類的數據采集檢測設備,這些數據采集檢測設備利用不同算法可以實時檢測電網各個環節的運行狀態,幫助電網公司更好地管理電網設備,從而提升電網公司的運營效率。但是目前國內電網的電力大數據異常值檢測技術應用還處于初級發展階段,數據檢測量和分析量較少,傳統的檢測算法只有在電網電力大數據中進行深度且長時間學習才可以識別檢測電網中存在的隱患,且難以拓展電力大數據的更深層作用,所以設計開發一套實用的電力大數據異常值檢測技術對于電網公司的運營至關重要。
文獻[1]針對傳統的電力大數據檢測方法不精準的問題提出了一種基于粒子群優化的改進方法,利用粒子群優化算法的精準性特點來尋找電網中的數據目標,同時還結合了C 均值算法對粒子群優化算法獲取的結果進行驗證,通過實驗證明了該方法在電力數據精準度方面的有效性。但是這種電力大數據檢測方法實現成本較高、難度較大,且在電力數據較為密集的電網中并不能體現出精準性的特點。文獻[2]提出一種以用戶負荷特性為基礎的電力大數據檢測方法,該方法基于SOM 和K-means 融合的一種綜合性聚類方法,應用了大量的電力數據證明該方法的實用性,同時還利用多種類型的數據驗證該方法的泛化性,具有較強的適應能力,但是該方法存在精準度較差的缺陷。
結合以上內容,該文采用精準度較高、容易實現且廣泛性強的利群檢測算法作為該文電力大數據異常值檢測方法的基礎,并通過實驗驗證了方法的有效性。
通過離散點變換的方式來尋找電力大數據中的異常特征,在離群點變換的過程中對電力大數據中的信號進行篩選并確定能夠應用在電力大數據中的離群點函數,然后基于函數進行異常特征的深度分解[3-4]。離群點檢測算法的實現原理如下所示:
其中,ai(k)代表近似分量;di(k)代表細節分量;i∈z,j∈z;X是離群點集合,φij(t)是由離散點中的母點經過φ(t)平移后得到的。離群點檢測算法可以將電力大數據中的初始數據按照時間尺度進行分解,獲取初始數據中的異常數據特征[5-6]。將離群點檢測算法與高斯混合模型相結合,利用離群點檢測算法的精準性和高斯混合模型來同步提取電力大數據中的異常特征。
最大似然估計法與離群點檢測算法對數據組中的特征數據進行迭代求解,迭代的過程分為兩步,如圖1 所示。

圖1 特征數據迭代過程
觀察圖1 可知,第一步是將高斯混合模型中的參數進行函數運算,計算電力數據的特征期望值,第二步是將期望值代入到離群點檢測算法中獲取新的特征參數,兩步交替運行,一直到迭代步驟收斂為止[7-8]。
由于電力大數據中的數據來源不確定,數據種類復雜,難以通過格式篩選的方式來實現電力大數據異常值檢測,所以該文利用電力大數據中的異常數據局部特征首先進行基于距離的異常值檢測,將距離離群點較近位置的異常值檢測出來。基于距離的異常值檢測會在離群點檢測算法有效范圍內發布一個異常值的特征定義,符合特征和距離的數據會自主進入算法中進行驗證,驗證過程的距離度量方法可以分為歐氏距離和曼哈頓距離[9]。
在電力大數據的數據儲存庫中建立高斯混合模型,計算出高斯混合模型的擬合參數,通過參數的吸引提取異常數據特征。在高斯混合模型中的離群點檢測算法可以擴展離群點的空間分布范圍,離群點算法在高斯混合模型中可以表示為:
其中,x代表離群點樣本變量;πi代表混合模型權重;ui代表第i個高斯分量均值。高斯混合模型的最大似然估計法可以幫助離群點檢測算法尋找成組的異常數據目標,其函數表達式為:
該函數與離群點檢測算法同步計算電力數據,尋找具有共同點的一組特征數據,數據組可以用表示。
如果能夠通過距離異常值檢測方法,則證明離群點有效范圍內的異常值已經被檢測,然后再對離群點進行發散處理,使用基于密度的異常值檢測法。該方法可以識別出異常值在離群點周圍的密度,確定異常值位置后離群點釋放局部異常因子,給某個異常值設定一個定點x,設定dk(x)為離群點到該異常值的距離,即可進一步確認出離群點到全部異常值的距離:
其中,dist(x,y) 代表異常值與異常值之間的距離;dk(y) 代表離群點到其他異常值的距離,當dist(x,y)之間的距離最小時,即可通過離群點尋找到一定密度內的全部異常值[10-11]。在電力大數據儲存庫中釋放離群點聚類簇來屏蔽異常值噪聲,運用異常值的噪聲特性提高檢測水平,檢測異常值噪聲,實現電力大數據異常值檢測,檢測流程如圖2 所示。

圖2 電力大數據異常值檢測流程
1)從離群點中選取部分點進入聚類中心;
2)設定離群點與聚類中心和離群點與異常值之間的標準距離單位;
3)將距離聚類中心最為接近的基數作為檢測評分的基礎值;
4)對每個聚類中心內部離群點成員設定噪聲閾值,然后進行檢測[12]。
經過以上步驟的異常值檢測后,電力大數據中的空間方面異常值和時間方面異常值均被檢測到[13-14]。
為了能夠更全面地檢測電力大數據異常值,還需要發揮聚類異常值檢測法的原理多樣性,離群點在聚類時主要以分層聚類、劃分聚類和網格聚類三種模式存在,所以基于聚類的異常值檢測可以通過轉變模型來檢測其他異常值[15-16]。三種模式預備檢測時需要在電力大數據儲存庫的基礎上進行總體分析,并在電力大數據儲存庫中設置異常值審核閾值,利用閾值尋找與異常值相似的數據簇。
為了驗證該文提出的基于離群點檢測算法的電力大數據異常值檢測方法的實際應用效果,設定實驗,選用的實驗對象為10 kV的配電變壓器,共統計了120天負荷數據,在進行檢測實驗之前,通過歸一化處理,提高訓練速度。歸一化處理過程如公式(6)所示:
其中,i表示被采集的樣本;mi表示采集到的電力大數據日負荷數值;表示標準化處理結果。選用該文的離散點檢測方法對電力系統內部的單臺變壓器負荷數據進行檢測,得到的檢測結果如圖3 所示。

圖3 基于離散點的單臺變壓器檢測結果
根據圖3 可知,電力系統的額定電壓為10 V,單電變壓器電力系統中的大部分樣本負荷數據電壓都集中在10 V 之內,有少數的樣本符合數據電壓超過10 V,則證明這部分負荷數據為異常值。
對離散信息進行采樣,根據離散數據分布結果,進行響應,得到不同數據點的振幅情況如圖4 所示。

圖4 振幅波動狀況響應結果
根據圖4 可知,當采樣數據的電壓值超過10 V時,振幅不穩定,證明異常值分布在這一區域內,與圖的分布結果相符,由此證明,該文提出的基于離群點檢測算法在檢測單臺變壓器異常狀況時十分有效。
在對單臺變壓器負荷數據進行檢測后,對電力系統內部的350 臺變壓器進行負荷數據異常檢測,得到的離散點分布結果如圖5 所示。

圖5 基于離散點的多臺變壓器檢測結果
根據圖5 可知,在運行時間0~2 min 內,變壓器運行狀態存在異常點。對分布的數據進行擬合,擬合曲線如圖6 所示。

圖6 分布數據擬合曲線
根據擬合結果可知,在擬合時間在0~1 min 時,由于檢測到的電力數據點異常點分布過于離散,因此難以擬合;在1~2 min 時,擬合狀況得到優化;當擬合時間超過2 min 后,能夠得到很好的擬合,由此可見,350 臺變壓器在同時運行時,單臺變壓器所出現的異常數值可以被擬合點,但若多臺變壓器同時出現異常值,則難以被擬合[17-19]。
通過對比實驗深入探究該文提出的異常值檢測方法的性能,選用基于改進PSO-PFCM 聚類算法的電力大數據異常檢測方法和基于云計算的電力運行大數據異常值快速檢測算法作為對比方法,同時檢測電力大數據電壓和電流,實驗結果如表1 所示。

表1 異常時間檢測結果
根據表1 可知,該文提出的檢測方法檢測到的異常電流和異常電壓所在檢測時間一致,證明異常數值存在時間在0.3~0.4 s 內,由此可見該文方法具有極高的可行性,傳統檢測方法檢測到的異常電流和異常電壓所在檢測時間不同,在實際應用準確性不高,可借鑒能力不強。
該文基于離群點檢測算法提出了一種新的電力大數據異常值檢測方法,離群點檢測算法可以從時間序列角度獲取一定量的特征參數,通過離群點檢測算法檢測電力大數據中的異常,通過高斯混合模型進行了電力數據特征值的維度降低,尋找更全面的數據特征,利用高斯混合模型進行特征的取值。實驗結果表明,該文算法在大范圍覆蓋的基礎上落實了精準性和準確性的異常值檢測,從而解決了傳統檢測方法中的問題。