王 斌,房向陽,毛 華,孫 岳
(國網(wǎng)天津市電力公司,天津 300010)
電力建設(shè)工程對于保障我國經(jīng)濟(jì)高速發(fā)展具有重要意義。近年來,隨著用戶用電需求的日益提升,電網(wǎng)公司逐步向高質(zhì)量能源服務(wù)商[1-2]轉(zhuǎn)變。
在推進(jìn)電力工程的建設(shè)過程中,電網(wǎng)公司積累了海量數(shù)據(jù),這類數(shù)據(jù)與電網(wǎng)結(jié)構(gòu)、運(yùn)行狀態(tài)等緊密相關(guān)[3-5]。然而目前仍未能充分利用此類數(shù)據(jù),原因在于:1)雖然數(shù)據(jù)量較為龐大,但由于整體質(zhì)量偏低,故無法支撐人工智能算法的訓(xùn)練與構(gòu)建[6];2)海量數(shù)據(jù)之間的內(nèi)在聯(lián)系錯綜復(fù)雜,且缺乏高效、精準(zhǔn)的智能數(shù)據(jù)分析方法[7]。
異常數(shù)據(jù)檢測是改善數(shù)據(jù)質(zhì)量的關(guān)鍵方法之一,也是深度挖掘數(shù)據(jù)價值的重要基礎(chǔ)。針對此,文中通過深度學(xué)習(xí)(Deep Learning,DL)算法實(shí)現(xiàn)對異常數(shù)據(jù)的檢測,進(jìn)而有效提升了電力工程數(shù)據(jù)的質(zhì)量。
在快速密度峰值聚類算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)中[8-9],每個數(shù)據(jù)樣本均具有局部密度ρi和距離li兩個特征值。其中ρi可表征為:
式中,dij為數(shù)據(jù)樣本xi與xj的距離;de為閾值距離,是算法所設(shè)定的參數(shù);φ(·)為函數(shù),其表達(dá)式如下:
dij的計算方式為:
由式(1)可知,xi的局部密度物理含義為與xi的距離小于閾值距離de的數(shù)據(jù)樣本個數(shù)。li是xi與局部密度大于其自身其他數(shù)據(jù)點(diǎn)的最小距離,其計算方式如下:
數(shù)據(jù)樣本特征值的大小依賴于距離閾值,通常該值為人工設(shè)定,故具有較大的主觀性,且較易干擾算法的智能決策過程。
因此,文中在此基礎(chǔ)上加以改進(jìn)。通過計算xi與其他任意一個數(shù)據(jù)樣本間的距離dij,再按照該距離由小到大排序。假設(shè)第k個數(shù)據(jù)樣本為Nk(xi),則數(shù)據(jù)樣本xi的k個近鄰數(shù)據(jù)樣本為:
該文基于深度自編碼器(Deep Auto Encoder,DAE)與高斯過程回歸(Gaussian Process Regression,GPR)理論提出了一種電力工程數(shù)據(jù)異常檢測算法,該算法的結(jié)構(gòu)如圖1 所示。其由兩部分組成:1)DAE模型,通過具有深層網(wǎng)絡(luò)結(jié)構(gòu)的編碼器-解碼器模型實(shí)現(xiàn)輸入數(shù)據(jù)的重構(gòu);2)GPR 模型,將輸入數(shù)據(jù)的局部密度因子、編碼器的輸出數(shù)據(jù)及重構(gòu)誤差等特征作為輸入,以完成對異常數(shù)據(jù)的精準(zhǔn)檢測。

圖1 DAE-GPR模型結(jié)構(gòu)
自編碼器是具有對稱結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型[10-12],其核心思想便是在誤差盡可能小的情況下對輸出層實(shí)現(xiàn)輸入數(shù)據(jù)的重構(gòu)。自編碼器的典型結(jié)構(gòu)如圖2所示。

圖2 自編碼器結(jié)構(gòu)
編碼器利用輸入數(shù)據(jù)進(jìn)行特征提取,且該過程可描述為:
式中,h是編碼器輸出向量;σe是編碼器的激活函數(shù);we和be則分別為編碼器的權(quán)重矩陣及偏置向量。
而解碼器則采用輸入數(shù)據(jù)的特征來實(shí)現(xiàn)對其的重構(gòu),該過程可描述為:
式中,y為解碼器輸出向量;σd為解碼器的激活函數(shù);wd和bd分別為解碼器的權(quán)重矩陣和偏置向量。
編碼器訓(xùn)練的目標(biāo)是:令輸出與輸入間的誤差最小化。該訓(xùn)練的損失函數(shù)E(W,b)通常為均方誤差(MSE)或交叉熵函數(shù)(Cross Entropy),二者可定義表征為:
文中提出的深度自編碼器結(jié)構(gòu),如圖3 所示。其中編碼器包括三個卷積層,且卷積濾波器的大小分別5×5、5×5 和3×3。其通過一個全連接層得到維數(shù)為10 的輸出,并進(jìn)行歸一化;然后,將歸一化后的數(shù)據(jù)作為解碼器的輸入。而解碼器包括三個反卷積層,卷積濾波器的大小則分別為3×3、5×5 和5×5。

圖3 DAE結(jié)構(gòu)
歸一化過程可表述為:
式中,xi為編碼器的第i個輸出;為編碼器輸出的平均值;zi則是解碼器的第i個輸入。
多元高斯分布如下:
式中,x為隨機(jī)變量;μ為隨機(jī)變量的均值;C為隨機(jī)變量之間的協(xié)方差矩陣;D為隨機(jī)變量的維數(shù)。
高斯過程回歸是使用多元高斯分布模型實(shí)現(xiàn)數(shù)據(jù)回歸分析的一種方法[13-14]。通常線性回歸采用以下公式來描述輸入與輸出間的關(guān)系:
式中,w為權(quán)重變量;b為截距向量。
通常預(yù)測值y與實(shí)際值f(x) 之間存在一定偏差。因此預(yù)測值可描述為:
其中,ε為預(yù)測值與實(shí)際值之間的偏差,又稱之為噪聲。
高斯過程回歸中,假設(shè)噪聲ε服從高斯分布:
為了得到回歸方程,需求解權(quán)重向量w。通常利用似然函數(shù)[15-16]進(jìn)行求解:
由于噪聲服從高斯分布,則有:
根據(jù)貝葉斯先驗概率模型,則有:
因此,權(quán)重w的最優(yōu)解即為式(20)所取得的最大值。由于p(y|x)與w無關(guān),故可轉(zhuǎn)化為:
通過分析可知,式(20)的值服從多元高斯分布:
則能夠得到權(quán)重的最優(yōu)值為:
對電力工程數(shù)據(jù)的異常檢測結(jié)果存在表1 所示的幾種情況。

表1 檢測結(jié)果
召回率pRecall和假正率pFPR計算方式如下:
若pRecall越接近1 且pFPR越接近0,即表明檢測算法的性能越優(yōu)。但當(dāng)不同算法中這兩個指標(biāo)相近時,則無法進(jìn)行簡單判斷。此時通常采用ROC 曲線方法加以判定,其以pFPR為橫坐標(biāo)、pRecall為縱坐標(biāo)。在ROC 曲線下,面積AUC 是歸一化數(shù)值,可作為衡量算法性能的指標(biāo),且AUC 的值越大表明算法的性能越優(yōu)。
為驗證所提DAE-GPR 算法的準(zhǔn)確性,采用了某省電網(wǎng)公司近五年來的2 568 條電力工程數(shù)據(jù)作為測試數(shù)據(jù)集,并進(jìn)行了仿真。
將所提算法與DAE、自編碼器(Auto Encoder,AE)算法進(jìn)行比較,三種算法的迭代收斂過程如圖4所示。從圖中可看出,三種算法在15~20 次時的迭代接近收斂,且收斂速度差異較小。但所提算法在最終收斂時的AUC 值為0.892,而DAE 和AE 算法分別為0.873 和0.860。由此表明,該文算法的異常數(shù)據(jù)檢測性能更優(yōu)。

圖4 算法迭代收斂過程
對比分析測試數(shù)據(jù)集異常率在10%、20%、30%、40%和50%情況下,三種不同算法的AUC 值。具體結(jié)果,如圖5 所示。可以看到,當(dāng)數(shù)據(jù)異常率從10%上升到50%時,DAE-GPR 算法AUC 值僅降低了0.092,而DAE 和AE 算法的AUC 值則分 別下降 了0.192 和0.262。由此說明該文算法受數(shù)據(jù)異常率的影響較小,算法穩(wěn)定性較強(qiáng)。

圖5 數(shù)據(jù)異常率對檢測結(jié)果的影響
進(jìn)一步將所提算法應(yīng)用于某電網(wǎng)公司2022 年以來的209 條電力工程數(shù)據(jù)中。數(shù)據(jù)異常檢測結(jié)果,如圖6 所示。由圖可知,工程量與費(fèi)用數(shù)據(jù)的異常占比均在40%以上,且二者之和超過了90%,而技術(shù)條件數(shù)據(jù)的異常占比則小于10%。因此在電力工程數(shù)據(jù)的管理過程中,可通過加強(qiáng)對工程量與費(fèi)用類型數(shù)據(jù)的校核管控,從而提升電力工程數(shù)據(jù)的質(zhì)量。

圖6 數(shù)據(jù)異常檢測結(jié)果
文中開展了深度學(xué)習(xí)算法在電力工程數(shù)據(jù)異常檢測中的應(yīng)用研究,并提出了DAE-GPR 算法,以實(shí)現(xiàn)對異常數(shù)據(jù)的精準(zhǔn)檢測。通過仿真算例表明,所提算法的AUC 指標(biāo)優(yōu)于DAE 及AE 算法,且具有更高的異常數(shù)據(jù)檢測性能。同時,其受數(shù)據(jù)異常率的影響也較小,穩(wěn)定性良好。實(shí)際應(yīng)用結(jié)果表明,電力工程數(shù)據(jù)中工程量與費(fèi)用類型的數(shù)據(jù)異常占比超過了90%,因而需要加強(qiáng)對這兩類數(shù)據(jù)的管控。但該文算法無法實(shí)現(xiàn)對異常數(shù)據(jù)的修正,這將在后續(xù)工作中開展。