基于深度學(xué)習(xí)的電力工程數(shù)據(jù)異常檢測模型設(shè)計

2024-01-24 10:10:34房向陽

電子設(shè)計工程 2024年2期

王斌，房向陽，毛華，孫岳

（國網(wǎng)天津市電力公司，天津 300010）

電力建設(shè)工程對于保障我國經(jīng)濟(jì)高速發(fā)展具有重要意義。近年來，隨著用戶用電需求的日益提升，電網(wǎng)公司逐步向高質(zhì)量能源服務(wù)商[1-2]轉(zhuǎn)變。

在推進(jìn)電力工程的建設(shè)過程中，電網(wǎng)公司積累了海量數(shù)據(jù)，這類數(shù)據(jù)與電網(wǎng)結(jié)構(gòu)、運(yùn)行狀態(tài)等緊密相關(guān)[3-5]。然而目前仍未能充分利用此類數(shù)據(jù)，原因在于：1）雖然數(shù)據(jù)量較為龐大，但由于整體質(zhì)量偏低，故無法支撐人工智能算法的訓(xùn)練與構(gòu)建[6]；2）海量數(shù)據(jù)之間的內(nèi)在聯(lián)系錯綜復(fù)雜，且缺乏高效、精準(zhǔn)的智能數(shù)據(jù)分析方法[7]。

異常數(shù)據(jù)檢測是改善數(shù)據(jù)質(zhì)量的關(guān)鍵方法之一，也是深度挖掘數(shù)據(jù)價值的重要基礎(chǔ)。針對此，文中通過深度學(xué)習(xí)（Deep Learning，DL）算法實(shí)現(xiàn)對異常數(shù)據(jù)的檢測，進(jìn)而有效提升了電力工程數(shù)據(jù)的質(zhì)量。

1 改進(jìn)局部密度因子

在快速密度峰值聚類算法（Clustering by Fast Search and Find of Density Peaks，CFSFDP）中[8-9]，每個數(shù)據(jù)樣本均具有局部密度ρi和距離li兩個特征值。其中ρi可表征為：

式中，dij為數(shù)據(jù)樣本xi與xj的距離；de為閾值距離，是算法所設(shè)定的參數(shù)；φ(·)為函數(shù)，其表達(dá)式如下：

dij的計算方式為：

由式（1）可知，xi的局部密度物理含義為與xi的距離小于閾值距離de的數(shù)據(jù)樣本個數(shù)。li是xi與局部密度大于其自身其他數(shù)據(jù)點(diǎn)的最小距離，其計算方式如下：

數(shù)據(jù)樣本特征值的大小依賴于距離閾值，通常該值為人工設(shè)定，故具有較大的主觀性，且較易干擾算法的智能決策過程。

因此，文中在此基礎(chǔ)上加以改進(jìn)。通過計算xi與其他任意一個數(shù)據(jù)樣本間的距離dij，再按照該距離由小到大排序。假設(shè)第k個數(shù)據(jù)樣本為Nk(xi)，則數(shù)據(jù)樣本xi的k個近鄰數(shù)據(jù)樣本為：

2 基于DAE-GPR的異常數(shù)據(jù)檢測算法

該文基于深度自編碼器（Deep Auto Encoder，DAE）與高斯過程回歸（Gaussian Process Regression，GPR）理論提出了一種電力工程數(shù)據(jù)異常檢測算法，該算法的結(jié)構(gòu)如圖1 所示。其由兩部分組成：1）DAE模型，通過具有深層網(wǎng)絡(luò)結(jié)構(gòu)的編碼器-解碼器模型實(shí)現(xiàn)輸入數(shù)據(jù)的重構(gòu)；2）GPR 模型，將輸入數(shù)據(jù)的局部密度因子、編碼器的輸出數(shù)據(jù)及重構(gòu)誤差等特征作為輸入，以完成對異常數(shù)據(jù)的精準(zhǔn)檢測。

圖1 DAE-GPR模型結(jié)構(gòu)

2.1 深度自編碼器的結(jié)構(gòu)設(shè)計

自編碼器是具有對稱結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型[10-12]，其核心思想便是在誤差盡可能小的情況下對輸出層實(shí)現(xiàn)輸入數(shù)據(jù)的重構(gòu)。自編碼器的典型結(jié)構(gòu)如圖2所示。

圖2 自編碼器結(jié)構(gòu)

編碼器利用輸入數(shù)據(jù)進(jìn)行特征提取，且該過程可描述為：

式中，h是編碼器輸出向量；σe是編碼器的激活函數(shù)；we和be則分別為編碼器的權(quán)重矩陣及偏置向量。

而解碼器則采用輸入數(shù)據(jù)的特征來實(shí)現(xiàn)對其的重構(gòu)，該過程可描述為：

式中，y為解碼器輸出向量；σd為解碼器的激活函數(shù)；wd和bd分別為解碼器的權(quán)重矩陣和偏置向量。

編碼器訓(xùn)練的目標(biāo)是：令輸出與輸入間的誤差最小化。該訓(xùn)練的損失函數(shù)E（W,b）通常為均方誤差（MSE）或交叉熵函數(shù)（Cross Entropy），二者可定義表征為：

文中提出的深度自編碼器結(jié)構(gòu)，如圖3 所示。其中編碼器包括三個卷積層，且卷積濾波器的大小分別5×5、5×5 和3×3。其通過一個全連接層得到維數(shù)為10 的輸出，并進(jìn)行歸一化；然后，將歸一化后的數(shù)據(jù)作為解碼器的輸入。而解碼器包括三個反卷積層，卷積濾波器的大小則分別為3×3、5×5 和5×5。

圖3 DAE結(jié)構(gòu)

歸一化過程可表述為：

式中，xi為編碼器的第i個輸出；為編碼器輸出的平均值；zi則是解碼器的第i個輸入。

2.2 高斯回歸

多元高斯分布如下：

式中，x為隨機(jī)變量；μ為隨機(jī)變量的均值；C為隨機(jī)變量之間的協(xié)方差矩陣；D為隨機(jī)變量的維數(shù)。

高斯過程回歸是使用多元高斯分布模型實(shí)現(xiàn)數(shù)據(jù)回歸分析的一種方法[13-14]。通常線性回歸采用以下公式來描述輸入與輸出間的關(guān)系：

式中，w為權(quán)重變量；b為截距向量。

通常預(yù)測值y與實(shí)際值f(x) 之間存在一定偏差。因此預(yù)測值可描述為：

其中，ε為預(yù)測值與實(shí)際值之間的偏差，又稱之為噪聲。

高斯過程回歸中，假設(shè)噪聲ε服從高斯分布：

為了得到回歸方程，需求解權(quán)重向量w。通常利用似然函數(shù)[15-16]進(jìn)行求解：

由于噪聲服從高斯分布，則有：

根據(jù)貝葉斯先驗概率模型，則有：

因此，權(quán)重w的最優(yōu)解即為式（20）所取得的最大值。由于p(y|x)與w無關(guān)，故可轉(zhuǎn)化為：

通過分析可知，式（20）的值服從多元高斯分布：

則能夠得到權(quán)重的最優(yōu)值為：

2.3 算法性能評估

對電力工程數(shù)據(jù)的異常檢測結(jié)果存在表1 所示的幾種情況。

表1 檢測結(jié)果

召回率pRecall和假正率pFPR計算方式如下：

若pRecall越接近1 且pFPR越接近0，即表明檢測算法的性能越優(yōu)。但當(dāng)不同算法中這兩個指標(biāo)相近時，則無法進(jìn)行簡單判斷。此時通常采用ROC 曲線方法加以判定，其以pFPR為橫坐標(biāo)、pRecall為縱坐標(biāo)。在ROC 曲線下，面積AUC 是歸一化數(shù)值，可作為衡量算法性能的指標(biāo)，且AUC 的值越大表明算法的性能越優(yōu)。

3 算例分析

為驗證所提DAE-GPR 算法的準(zhǔn)確性，采用了某省電網(wǎng)公司近五年來的2 568 條電力工程數(shù)據(jù)作為測試數(shù)據(jù)集，并進(jìn)行了仿真。

3.1 算法性能分析

將所提算法與DAE、自編碼器（Auto Encoder，AE）算法進(jìn)行比較，三種算法的迭代收斂過程如圖4所示。從圖中可看出，三種算法在15～20 次時的迭代接近收斂，且收斂速度差異較小。但所提算法在最終收斂時的AUC 值為0.892，而DAE 和AE 算法分別為0.873 和0.860。由此表明，該文算法的異常數(shù)據(jù)檢測性能更優(yōu)。

圖4 算法迭代收斂過程

對比分析測試數(shù)據(jù)集異常率在10%、20%、30%、40%和50%情況下，三種不同算法的AUC 值。具體結(jié)果，如圖5 所示。可以看到，當(dāng)數(shù)據(jù)異常率從10%上升到50%時，DAE-GPR 算法AUC 值僅降低了0.092，而DAE 和AE 算法的AUC 值則分別下降了0.192 和0.262。由此說明該文算法受數(shù)據(jù)異常率的影響較小，算法穩(wěn)定性較強(qiáng)。

圖5 數(shù)據(jù)異常率對檢測結(jié)果的影響

3.2 應(yīng)用效果分析

進(jìn)一步將所提算法應(yīng)用于某電網(wǎng)公司2022 年以來的209 條電力工程數(shù)據(jù)中。數(shù)據(jù)異常檢測結(jié)果，如圖6 所示。由圖可知，工程量與費(fèi)用數(shù)據(jù)的異常占比均在40%以上，且二者之和超過了90%，而技術(shù)條件數(shù)據(jù)的異常占比則小于10%。因此在電力工程數(shù)據(jù)的管理過程中，可通過加強(qiáng)對工程量與費(fèi)用類型數(shù)據(jù)的校核管控，從而提升電力工程數(shù)據(jù)的質(zhì)量。

圖6 數(shù)據(jù)異常檢測結(jié)果

4 結(jié)束語

文中開展了深度學(xué)習(xí)算法在電力工程數(shù)據(jù)異常檢測中的應(yīng)用研究，并提出了DAE-GPR 算法，以實(shí)現(xiàn)對異常數(shù)據(jù)的精準(zhǔn)檢測。通過仿真算例表明，所提算法的AUC 指標(biāo)優(yōu)于DAE 及AE 算法，且具有更高的異常數(shù)據(jù)檢測性能。同時，其受數(shù)據(jù)異常率的影響也較小，穩(wěn)定性良好。實(shí)際應(yīng)用結(jié)果表明，電力工程數(shù)據(jù)中工程量與費(fèi)用類型的數(shù)據(jù)異常占比超過了90%，因而需要加強(qiáng)對這兩類數(shù)據(jù)的管控。但該文算法無法實(shí)現(xiàn)對異常數(shù)據(jù)的修正，這將在后續(xù)工作中開展。