何偉民,孫一迪,姜 捷,金良勇,毛和云
(國網浙江江山市供電有限公司,浙江 江山 324100)
線損率是電網的一項重要評價指標,它能反映電網在經濟和技術方面的運行和管理水平[1]。線損一般分為技術性線損和非技術性線損。日線損率值是否在合理的范圍內(即日線損率的合格率)已成為電網運營商迫切關注的問題,這就需要從大量采集的樣本中直接區分正常線損率值和異常值[2]。由于日線損率能夠作為操作人員更好了解低壓變壓器區域工作狀態的依據,因此,日線損率的基準值的準確測量對于提高線損管理水平尤為重要。
在數據挖掘分析領域,通常有4種方法來計算基準值和檢測異常值,即經驗法[3]、統計法[4]、無監督法[5]和監督法[6]。文獻[3]利用經驗法指出在日線損率的基準測試中,經驗區間通常設置為-1%~5%。文獻[7]揭示了由于不可避免的采集誤差,不小于-1%的值均可以接受。文獻[4]指出統計法中的區間界限能夠適應不同的檢測樣本,但該方法很難利用線損率的影響因素。文獻[5]利用無監督法中的聚類算法將異常值可以通過數據點與聚類中心的距離來進行識別。監督法利用機器學習模型求解分類問題[6]和回歸問題[8],文獻[9]和文獻[10]分別設計用于異常值檢測和基準計算任務,分類模型通過對標記樣本的學習來區分正常和異常數據。然而,線損率樣本通常沒有標記,因此它無法識別收集到的線損率值是否正常。
本文提出了一種基于魯棒神經網絡(RNN)的回歸計算方法,并由去噪自動編碼器(DAE)、多徑網絡結構、丟包層、Huber損失函數、L2正則化和10個輸出組成。基準是根據10個輸出的平均值計算得出。經過誤差分析,該方法可以得到合理的區間來檢測原始線損率樣本的異常值。
本文提出了基于等效電阻法計算技術的理論線損公式,該方法假定線路的前端存在等效電阻,其中三相三線和三相四線系統的能量損失可表示為[11]:
(1)
其中:ΔAb為三相平衡負載時的理論線損,N為結構系數,在三相三線制下等于3,在三相四線制下等于3.5。K、Iav、Req和T分別為負荷曲線的形狀系數、線首處平均電流(A)、導體等效電阻(W)和工作時間(h)。此外,Req的計算公式為:
(2)
其中:Ni、Ai和Ri分別為第i個線段的結構系數、計量功率和電阻。Aj為從第j個電表采集的電量。對于三相平衡負載系統,理論線損可修正為:
ΔAub=ΔAb×Kub
(3)
其中:Kub為修正系數,可定義為:
(4)
其中:當出現單相重負荷和兩相輕負荷時,k=2。當出現兩相重負荷時,k=8。δI為三相負載的不平衡度,可計算為:
(4)
其中:Imax為來自具有最大負載相的電流。因此,以上定義的理論線損是不可避免的能量損耗,即技術線損耗。然而,電網運營商也擔心因竊電引起的非技術性線路損耗。由于非技術性線損情況會導致按日計量的線路損耗率出現異常值,因此有必要計算合理的時間間隔以進行區分識別。
在實際應用中,通常國家電網公司每月檢查一次低壓變壓器區域日線損率的合格性。在這種情況下,本文研究中使用了2019年7月份的線損率數據集,該數據集以每日間隔進行采集,以此檢查當月線損率的合格率。合格率指標在7月份尤為重要,這是由于7月份通常是夏季的用電高峰期。該數據集選自浙江省江山市共計19 884個低壓變壓器區域,共有616 404個樣本,滿足了大數據分析的需要。基于該數據集,選擇約80%的樣本(15 907個低壓變壓器區域)作為訓練樣本,其余的樣本(3 977個區域)作為測試樣本。
本文的研究對象為日線損率,一些低壓變壓器區域日線損率示例,如圖1所示。

圖1 不同低壓變壓器區域日線損率示例
本文選取25%(q1),中位數(q2),75%(q3),最大值(max)、最小值(min)、均值、標準差(std),下限值(la)和上限值(ua)作為研究指標。基于總體線損率數據集的數據質量分析,如表1所示。

表1 基于總體線損率數據集的數據質量分析
原始數據集和插值后數據集的方框圖,如圖2所示。

圖2 原始數據集和插值后數據集的方框圖
下限值(la)和上限值(ua)是基于25%的(q1)和75%的(q3)計算得出,其中超出界限范圍的值可以視為異常值:

(6)
根據曲線和數據質量分析,日線損率的數據特征總結如下:
(1)線損率數據日變化規律性很小,但波動性很大。從圖1可以看出,不同低壓變壓器區域的線損率曲線隨著時間的推移變化很大,歷史線損率很難用來估計進一步的數值。因此,選取線損率的影響因素是本文研究的重點。
(2)數據集中異常值的偏差有時偏離正常值較大,這表明計電裝置和通信設備的可靠性較低。根據表1和圖2,對比圖中原始數據集的上下限值分別為-1.57%和5.22%,與項目標準(-1%和5%)相當接近。然而,所收集的線損率的最大值和最小值分別為100%和-1.69×106%,與界限有很大的不同。在這種情況下,基準線損率在實際應用中仍然重要。
(3)數據集的質量較差,無法直接使用。數據質量分析的組成結果,如圖3所示。其中,正常值84.61%,異常值8.67%,缺失值6.72%,因此,存在大量的異常值和缺失值,并且分別占整個數據集的8.67%和6.72%。本研究利用樣條插值法來填補缺失值。從表1和圖2可以看出,插值后的數據集與原始數據集的分布相似。相反,雖然可以根據la和ua可以直接消除異常值,但分布會發生變化,并且很難計算出準確的合理區間。

圖3 數據質量分析的組成結果
考慮到可能的影響因素和記錄的信息,本文共選擇12個因素作為回歸模型的輸入,如表2所示。其中,第三因素和第4個因素是1 bit字符,其他都為數值。

表2 線損率的影響因素
根據數據質量分析,原始數據集中含有大量的異常值,這些異常值超出合理范圍較遠,很難得到準確的結果。因此,本文的任務是利用具有魯棒的學習模型來獲得異常值穩定的回歸結果,如圖4所示。

圖4 傳統的學習模型容易受到異常值的影響
通常,學習模型需要手動設置閾值,并根據這些閾值從數據集中刪除異常值,數據集的其余部分可用于訓練機器學習模型,然而確定準確的閾值成為研究的難點。此外,學習模型合理區間的計算范圍可能接近人工閾值,從而影響原始數據集的分布,并使得訓練概率學習模型實效。在這種情況下,本文提出了基于RNN的計算方法,如圖5所示。
具體計算步驟如下。
步驟1:建立RNN。為了充分擴展其魯棒性,本文利用DAE、多徑結構、L2正則化、丟包層和Huber損失函數等方式進行分析。由于RNN具有10個輸出節點,其中每個節點以不同的丟包率(從0.05到0.50)連接到一個層。
步驟2:根據10種不同的輸出計算平均值,即線損率的最終基準值:
(7)

步驟3:根據誤差分析獲得合理的區間。本文不僅計算了基準值與實際線損率的絕對誤差,還計算了不同輸出的方差。根據區間結果,不在區間范圍內的數據點認為是異常值,具體的計算公式如下:
(8)
(9)

(10)


圖6 消除可能異常線損率值的雙尾檢驗
本文使用RNN算法[12]進行魯棒學習,其結構如圖7所示。其由三條主要路徑組成,這些路徑通過串聯組合在一起,并且每條主路徑上都有一個DAE。為了進一步提高系統的魯棒性,將串聯后的輸出節點放在同一層中,這些層表示從原始輸入中提取的高階特征,并在層中采用L2正則化來限制這些節點的輸出值。然后,在高階特征層之后疊加10個具有不同丟包率的丟包層,并得到10個輸出。本文對10個輸出進行分析,并計算基準值和合理區間。

圖7 魯棒神經網絡(RNN)的結構
本文所提出的DAE的結構,如圖8所示。它是自動編碼器的魯棒變體,在編碼器之前具有一個噪聲層[13],例如正常(高斯)噪聲層:

圖8 去噪自動編碼器(DAE)的結構
xi,n=xi+N(0,σ2)
(11)
其中:xi和xi,n分別為噪聲層的第i個輸入和第i個輸出。N(0,σ2)為正態分布,其平均值為0,方差值為σ2。在本文研究中,當輸入標準化為[0,1]時,σ設置為0.05。
此外,DAE中的編碼器層和解碼器層均由傳統的全連接(FC)層組成,其方程可以表示為:
(12)

在RNN中共有三條主要路徑,它們具有相似的層,其輸出在串聯操作下可以組合起來:
(13)

此外,主路徑由兩個子路徑形成,即DAE子路徑和FC層子路徑。兩個子路徑的輸出作為主路徑的輸出相加,如下所示:
(14)

丟包層作為一種特殊的層,其可以有效地防止過度擬合[14]。丟包過程可概括為兩個階段,即訓練階段和應用階段。對于公式(12)所示的傳統FC層,存在j個輸入節點。在訓練階段中,輸入節點將以概率p(0

圖9 在訓練階段的丟包原則
(15)
其中:p為丟包率,其設定在0.05到0.50之間(步長為0.05),以便在研究中獲得10種不同的輸出。
神經網絡的訓練過程是設置損失函數,利用BP梯度下降算法逐層更新參數。均方誤差(MSE):
(16)

(17)
其中:MSE和MAE也可作為L1損失和L2損失,這是由于MSE和MAE分別使用了線性項和二次項。
MSE與MAE相比,MSE具有更光滑的導數函數,這有利于梯度下降算法的計算,而MAE的微小差異可能導致參數更新的巨大變化。相反,在對抗異常值時,MAE表現出比MSE更好的性能[16]。在這種情況下,Huber損失函數的原理,如圖10所示。
本文采用Huber損失函數[17],該函數結合了MSE和MAE的優點:

(18)
其中:δ為需要手動設置的超參數,在本文研究中設定為10%。
在本文研究中,L2正則化旨在為具有較大激活輸出的節點設定懲罰項,以此防止過度擬合,并提高神經網絡的魯棒性。正則化在訓練階段起到作用,在訓練損失函數中加入兩個范數的懲罰項,其表達式為:
(19)
其中:L為模型訓練的最終損失函數,λ為懲罰項的超參數,在本文研究中設置為0.001。
本文所提出的RNN結構和超參數如表3所示。

表3 RNN的結構和超參數
考慮到訓練樣本數量較多的特點,本文建立了k近鄰(KNN)、決策樹回歸(DTR)和單隱層人工神經網絡(ANN)進行比較,在大數據集上具有較高的訓練效率。在NVIDIA GTX 1080 GPU的計算機上,采用Python 3.5和Tensorflow 1.4對深度RNN模型進行訓練。RNN的所有超參數和訓練配置以及超參數(即σ、δ和λ)通過基于整體訓練數據集的三重交叉驗證的網絡搜索進行選擇。參數的搜索空間和最終結果,如表4所示。

表4 RNN中選定超參數的搜索空間
在本文中,從測試樣本中隨機選擇6個低壓變壓器區域作為展示示例,如圖11所示。

圖11 6個實驗區域的基準值和合理區間的結果
低壓變壓器區域的編號分別為1 100、1 302、7 015、8 125、12 610和14 072。結果表明,合理區間的界限可以根據多個輸入因素進行自適應調整,例如,在區域1 100和區域8 125中。距離基準值較遠的異常值可以有效地剔除,雖然這些異常值可以在-1%~5%之間,但是合理區間的結果要優于1%~-5%之間的固定區間。此外,基準值與實際線損率相比波動較小,表明日線損率的估計具有較高的可靠性。基準值能夠根據相關因素的變化自適應地反映低壓變壓器區域的日常運行狀況,而不是根據原始數據集計算出的平均值或中值。
基于本文所提出的RNN,可以分析線損率的通過百分比結果,如圖12所示。

圖12 基于魯棒神經網絡的線損率合格率分析
對于線損率的數據點分析,由于所提出的方法能夠準確地識別出與基準值相差較大的異常值,因此異常值的數目比圖3中的異常值要多。此外,雖然所有數據點的缺失值和異常值的百分比都不算大,分別為6.72%和13.06%,但一個月內沒有缺失值和異常值的區域僅占整個數據集的19.84%,這說明當前計電設備的可靠性較低。
為了評估本文所提出方法的魯棒性和準確性,首先建立KNN、DTR和ANN的超參數,如表5所示。

表5 KNN、DTR和ANN的超參數
(1)魯棒性分析:為了評估所提方法的魯棒性,本文分析了基于不同測試模型的計算基準值的分布,如圖13所示。

圖13 基于不同測試模型的計算基準值分布
分布指標的詳細數值,如表6所示。

表6 不同測試模型的魯棒性分析結果
結果表明,測試的ANN模型性能最差,完全無法計算出有效的基準值。ANN的最大值和最小值分別為4.49×10%和-8.26×10%,因此,其很難作為基準值。根據分布,KNN和DTR得到了相似的結果。它們都利用接近未知測試區域的大量訓練樣本來確定新的基準值。因此,在本文中,KNN和DTR比ANN具有更好的魯棒性,并且在大多數低壓變壓器測試區域都具有可行性。然而,這兩個模型的最小基準為-8.13×104%,仍然不是合理的基準值,而且RNN在4個測試模型中取得了最好的結果,其中計算的基準值在合理的范圍內。利用RNN計算得出的基準值標準差僅為0.80%,這表明該方法得到的結果穩定且可靠。
(2)精度分析:本文利用MAE、MSE和Huber損耗3個損耗指標來比較4個測試模型。在使用雙尾檢驗進行損失計算之前,測試樣本中的異常值被消除,如圖6所示。不同測試模型的精度分析結果,如表7所示。

表7 不同測試模型的精度分析結果
結果表明,由于ANN的3個損失指標遠高于其他模型,因此其性能最差。當直接對具有極端異常值的樣本進行訓練時,ANN并不適用。雖然KNN和DTR具有相似的魯棒性,但它們的精度指標卻有很大的不同。由于KNN計算出的異常值較少,因此KNN得到的MAE指標最好,而KNN的MSE值大于所提出的RNN的MSE值。綜合比較這些指標,本文提出的RNN具有最高的性能,在MAE值較小的情況下獲得了最佳的MSE和Huber損耗指標。
日線損率作為考核低壓變壓器區域性能的重要指標,其對供電企業的利潤有很大的影響。為了更好地管理線損水平,為低壓變壓器區域的建設和運行提供指導,本文研究開發的日線損率基準值計算方法,有助于發現異常線損率值,也有助于運行人員對異常運行情況進行檢查和確認。從實例分析和比較結果來看,傳統的ANN模型不能處理異常值,無法計算出基準的結果。在案例分析中證明了KNN、DTR和所提出的RNN的適用性,其中所提出的RNN優于其他兩個模型。在所有的測試模型中,該方法具有較高的精度和魯棒性。此外,根據所提出的RNN的最終結果,在整個數據點中約有13%的異常值。一個月內線損率無缺失值和異常值的區域僅占20%左右,說明了計電設備可靠性較低。因此,目前電網中仍需要一套可靠的線損數據監測與管理系統。