花 潔,李 偉
(廣東電網(wǎng)有限責任公司 佛山供電局,廣東 佛山 528000)
在進入能源時代后,社會對于電力的需求都在逐年上升,與此同時產(chǎn)生了大量的電網(wǎng)負荷數(shù)據(jù)。電網(wǎng)負荷數(shù)據(jù)中包含著電力系統(tǒng)對用戶的電力供應(yīng)、電價計算、電力負荷預測等,具備極為廣闊的現(xiàn)實意義。在電力系統(tǒng)中若電網(wǎng)負荷數(shù)據(jù)出現(xiàn)錯誤,會導致一段時間內(nèi)該地區(qū)的電力供應(yīng)都會失去調(diào)配能力。為能夠更高效率地利用電網(wǎng)負荷數(shù)據(jù),對其進行數(shù)據(jù)分類處理[1]。
文獻[2]通過收集大量的電網(wǎng)負荷數(shù)據(jù),基于K-均值算法對電力數(shù)據(jù)進行了分析與預測。通過大數(shù)據(jù)的關(guān)聯(lián)分析,遞增電網(wǎng)數(shù)據(jù)的維度,提供了一個電力數(shù)據(jù)的分類模型。這種方法需要首先建立電網(wǎng)數(shù)據(jù)的數(shù)學模型,依賴于大數(shù)據(jù)的云計算能力,在計算時耗時較長,效率較差。文獻[3]通過神經(jīng)網(wǎng)絡(luò)算法針對數(shù)據(jù)集進行了改進,以采樣技術(shù)為中心,改變了數(shù)據(jù)集的識別能力,并創(chuàng)建原始數(shù)據(jù)集和測試數(shù)據(jù)集作為電網(wǎng)負荷數(shù)據(jù)的分類樣本。這種方法通常只適用于比例適中的小樣本數(shù)據(jù)集,對于大數(shù)據(jù)樣本的計算能力較差。文獻[4]通過聚類算法,設(shè)計了一種能夠向上采樣的數(shù)據(jù)集,在調(diào)整計算樣本的過程中,設(shè)定合適的參數(shù)結(jié)構(gòu),進而提高后續(xù)算法的計算準確性,保證冗余數(shù)據(jù)被及時刪查,但是這種算法需要改變數(shù)據(jù)的分布結(jié)構(gòu),才能增強數(shù)據(jù)分類效果,因此在某種情況下無法使用。
為解決以上傳統(tǒng)方法存在的問題,本文通過人工神經(jīng)網(wǎng)絡(luò)算法,對電網(wǎng)負荷數(shù)據(jù)的分類算法進行改進優(yōu)化設(shè)計。從另一個角度,刪減數(shù)據(jù)庫中的冗余數(shù)據(jù),減少數(shù)據(jù)的數(shù)量,進而增強電網(wǎng)負荷數(shù)據(jù)的分類效率。
假設(shè)在數(shù)據(jù)集中,需要保證分類器的整體性能近似于平衡狀態(tài),此時數(shù)據(jù)密度計算公式為:
(1)
式中,ρd為數(shù)據(jù)集M中,當分類器處于平衡狀態(tài)時樣本數(shù)據(jù)的密度;Nd為樣本數(shù)據(jù)大類中的樣本數(shù)量;Nx為樣本數(shù)據(jù)小類中的樣本數(shù)量;Nl為樣本數(shù)據(jù)的鄰近樣本數(shù)量。
當ρd的函數(shù)區(qū)間位于[0,1]時,其最大容忍度可以表示為:
(2)
式中,ξmax為歐式幾何模型中數(shù)據(jù)樣本的最大容忍度;ρNd為數(shù)據(jù)模型中大類樣本的密度;ρi為數(shù)據(jù)模型中樣本的總密度[5-6]。一般的鄰近樣本需要在數(shù)據(jù)集Ui中得到采樣的最近鄰密度,因此可以通過計算局部密度的方式得到其距離中心點的可達性。
(3)
式中,ρlrd(Hn)為數(shù)據(jù)集Hn局部的面積最大值;Im為距離數(shù)據(jù)集Hn最近的對象與數(shù)據(jù)集Hn中心的距離;d(xn-xi)為數(shù)據(jù)集一段端點xn與另一端端點xm的距離;Nh(Pl)為離群點數(shù)據(jù)與數(shù)據(jù)集中心的可達性[7-8]。通過計算ρlrd(Hn)的最大值,可以得到離群點數(shù)據(jù)的采樣依據(jù),若ρlrd(Hn)大于1,則表明可以檢測到離群點的采樣數(shù)據(jù),若ρlrd(Hn)小于1,則表明無法檢測到離群點的采樣數(shù)據(jù)。
在人工神經(jīng)網(wǎng)絡(luò)算法中,對數(shù)據(jù)集的訓練大致可以分為4個步驟,首先需要通過計算可達性得到離群點數(shù)據(jù)的采樣結(jié)果,并保留下采樣中的邊界樣本。在構(gòu)造原始數(shù)據(jù)集時,需要將子集中的樣本整理到母集中,以保證數(shù)據(jù)集的噪聲數(shù)據(jù)可以被移除。第2步需要將數(shù)據(jù)集中所有的噪聲數(shù)據(jù)全部清除,以下為檢驗噪聲數(shù)據(jù)的公式:
(4)
式中,Tr(θ)為數(shù)據(jù)集θz中需要被清理的噪聲數(shù)據(jù)的位置;Nz為在找到噪聲數(shù)據(jù)前最后一個被訓練的數(shù)據(jù);λn為對樣本λ第一個計算初始目標的神經(jīng)元輸出值;λm(θ)為對樣本第一個計算初始目標的神經(jīng)元目標值[9-11]。在得到噪聲數(shù)據(jù)的檢驗方法后,需要將上文中的數(shù)據(jù)分區(qū)塊小規(guī)模訓練,通過權(quán)值迭代的方法將隱藏節(jié)點作為分區(qū)標志,計算隱藏節(jié)點與輸出節(jié)點之間的向量坐標:
(5)
式中,λj(θ)為在以隱藏節(jié)點為邊界的小規(guī)模數(shù)據(jù)庫中,隱藏節(jié)點與輸出節(jié)點之間的向量坐標;Hn(θ)為隱藏節(jié)點的數(shù)據(jù)變化梯度;Gm(θ)為輸出節(jié)點的數(shù)據(jù)變化梯度。為了提高學習效率,可以將隱藏節(jié)點與輸出節(jié)點設(shè)定為雙向激勵函數(shù):
(6)
式中,αm為通過人工神經(jīng)網(wǎng)絡(luò)學習的效率值[12]。通過這個雙向激勵函數(shù),在大范圍的數(shù)據(jù)庫中建立訓練集,并獲得相應(yīng)的訓練閾值,以達到人工神經(jīng)網(wǎng)絡(luò)算法中數(shù)據(jù)集的訓練目的。
利用以上神經(jīng)網(wǎng)絡(luò)算法,可以分別計算隱藏節(jié)點與輸出節(jié)點之間的激勵函數(shù),并確定冗余數(shù)據(jù)的確切位置,在此之后,需要進一步優(yōu)化人工神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)分類功能,使其成為特征區(qū)間中的最優(yōu)值。數(shù)據(jù)分類流程如圖1所示。

圖1 數(shù)據(jù)分類優(yōu)化Fig.1 Data classification optimization
如圖1所示,通過離群點的可達性判定,可以將數(shù)據(jù)母集分為不同的子集,其中數(shù)量較大的部分為大類樣本,數(shù)量較小的部分為小類樣本[13-14]。在計算了隱藏節(jié)點的輸出矩陣后,可以通過計算矩陣向量排序的方式獲取其最大數(shù)值,再計算每個樣本的累計誤差,該誤差的最小化計算方法為:
(7)
式中,μmax為數(shù)據(jù)樣本中累計誤差的最小化參數(shù);αm為調(diào)節(jié)參數(shù)的累加平均值;αn為調(diào)節(jié)參數(shù)的極值識別系數(shù)。計算出μmax最大的數(shù)據(jù),就可以得到特征區(qū)間中的最優(yōu)值。
在訓練了數(shù)據(jù)集之后,還需要將數(shù)據(jù)集中作為邊界的冗余數(shù)據(jù)全部清除。通常情況下,需要設(shè)定原始的數(shù)據(jù)樣本n1,n2,n3,…,nx,在每一個小范圍的樣本數(shù)據(jù)集中,都能夠得到冗余數(shù)據(jù)的周期平均值:
(8)

該周期平均值的周期指數(shù)可以表示為:
(9)
式中,Ti為該周期平均值的周期指數(shù)。
通過以上周期平均值和周期指數(shù)的計算,可以直接通過網(wǎng)絡(luò)結(jié)構(gòu)計算出冗余數(shù)據(jù)的誤差更新閾值:
(10)
式中,F(xiàn)wc為網(wǎng)絡(luò)結(jié)構(gòu)中冗余數(shù)據(jù)的誤差更新閾值;nx為數(shù)據(jù)集中最后一個冗余數(shù)據(jù)的位置坐標;ni為數(shù)據(jù)集中第i個冗余數(shù)據(jù)的位置坐標。
在電網(wǎng)負荷數(shù)據(jù)中,這個冗余數(shù)據(jù)的閾值就可以通過二分法進一步確定縮小其區(qū)間范圍,計算公式為:
(11)
式中,θr為該數(shù)據(jù)集中電網(wǎng)負荷冗余數(shù)據(jù)的位置坐標;tr-1為該電網(wǎng)負荷冗余數(shù)據(jù)篩查模型的前2個區(qū)間范圍中位置坐標;tr-1為該電網(wǎng)負荷冗余數(shù)據(jù)篩查模型的前一個區(qū)間范圍中位置坐標[16]。
通過式(11)可以逐步確定冗余數(shù)據(jù)的位置,并將其清除,該公式就是電網(wǎng)負荷冗余數(shù)據(jù)周期性篩查模型。
本文實驗主要目的為檢驗上文中基于人工神經(jīng)網(wǎng)絡(luò)算法的電網(wǎng)負荷數(shù)據(jù)分類方法的性能,在此過程中,將其與常規(guī)的3種算法進行對比,以此判斷文中的數(shù)據(jù)分類方法是否實現(xiàn)了性能的優(yōu)化。收集電網(wǎng)中的運行數(shù)據(jù),分3次在其中隨機抽取100組數(shù)據(jù),分別為數(shù)據(jù)集A、數(shù)據(jù)集B、數(shù)據(jù)集C,這3個數(shù)據(jù)集的屬性設(shè)置見表1。

表1 數(shù)據(jù)集屬性設(shè)置Tab.1 Dataset property settings
在若干電網(wǎng)負荷數(shù)據(jù)中,分類的操作十分復雜,其中包含著許多沒有作用的冗余數(shù)據(jù),在分類之前因此需要將這些冗余數(shù)據(jù)首先篩除,此時就需要通過信噪比來判斷4種算法中電網(wǎng)負荷數(shù)據(jù)分類方法的性能,其計算公式為:
(12)
式中,gx(t)為某算法中電網(wǎng)負荷數(shù)據(jù)分類信噪比的計算結(jié)果,一般情況下gx(t)越大,說明該段數(shù)據(jù)中的冗余數(shù)據(jù)含量越小,反之則越大;ηx1為在數(shù)據(jù)庫中數(shù)據(jù)集A所含有的水平均值;ηx2為在數(shù)據(jù)庫中數(shù)據(jù)集B所含有的水平均值;ηx3為在數(shù)據(jù)庫中數(shù)據(jù)集C所含有的水平均值;δy1為在數(shù)據(jù)庫中數(shù)據(jù)集A所含有的水平標準差;δy2為在數(shù)據(jù)庫中數(shù)據(jù)集B所含有的水平標準差;δy3為在數(shù)據(jù)庫中數(shù)據(jù)集C所含有的水平標準差。
在3個數(shù)據(jù)集中構(gòu)建10個隱藏節(jié)點,每經(jīng)過一個隱藏節(jié)點計算一次電網(wǎng)負荷數(shù)據(jù)的信噪比。將文中設(shè)計的數(shù)據(jù)分類方法作為實驗組,將文獻[2]方法、文獻[3]方法以及文獻[4]方法作為對照組1、對照組2和對照組3,分別將以上數(shù)據(jù)代入到數(shù)據(jù)分類方法中進行測試,得到如圖2所示的實驗結(jié)果。

圖2 電網(wǎng)負荷數(shù)據(jù)信噪比測試Fig.2 Power grid load data signal-to-noise ratio test
電網(wǎng)負荷數(shù)據(jù)在10個隱藏節(jié)點中的信噪比如圖2所示,整理圖中的數(shù)據(jù),得到表2—表4。

表2 數(shù)據(jù)集ATab.2 Dataset A

表3 數(shù)據(jù)集BTab.3 Dataset B

表4 數(shù)據(jù)集CTab.4 Dataset C
對照組1在3個數(shù)據(jù)集中的信噪比分別為76.35、75.48、75.96 dB,對照組2在3個數(shù)據(jù)集中的信噪比分別為82.75、80.25、79.24 dB,對照組3在3個數(shù)據(jù)集中的信噪比分別為80.46、81.22、80.99 dB。綜上所述,文中設(shè)計的基于人工神經(jīng)網(wǎng)絡(luò)的電網(wǎng)負荷數(shù)據(jù)分類方法較常規(guī)的3種方法信噪比更高,對冗余數(shù)據(jù)的清除更徹底,可以得到更準確的分類方法。
在以上3個數(shù)據(jù)集中,4組算法得到的最大信噪比即是其最終信噪比。其中,實驗組在數(shù)據(jù)集A中的信噪比為102.95 dB,在數(shù)據(jù)集B中的信噪比為101.37 dB,在數(shù)據(jù)集C中的信噪比為100.96 dB。
將文中設(shè)計的數(shù)據(jù)分類方法作為實驗組,文獻[2]方法、文獻[3]方法以及文獻[4]方法作為對照組1、對照組2和對照組3,測試不同方法的負荷數(shù)據(jù)分類綜合性能(分類準確率、精度、召回率),得到如圖3所示的實驗結(jié)果。
根據(jù)圖3的實驗結(jié)果可知,與對照組的3種方法相比,研究方法具有更高的分類準確率、精度以及召回率。在30次的實驗迭代過程中,研究方法的準確率可穩(wěn)定在90%以上,精度和召回率可達80%以上。以上實驗結(jié)果表明研究方法具有理想性能,應(yīng)用性更強。

圖3 3種方法的分類性能對比Fig.3 Comparison of classification performance of three methods
通過人工神經(jīng)網(wǎng)絡(luò)算法設(shè)計了一種電網(wǎng)負荷數(shù)據(jù)分類方法,該方法以清除冗余數(shù)據(jù)為核心,保證了數(shù)據(jù)庫中數(shù)據(jù)節(jié)點的完整性和簡潔性,提高了電網(wǎng)負荷數(shù)據(jù)的信噪比,從另一個角度提高了數(shù)據(jù)分類的運算速度,保證了數(shù)據(jù)分類的準確性。