李紹堅(jiān),韋明超,甘靜,王國(guó)汪,莫江婷
(廣西電網(wǎng)有限責(zé)任公司南寧供電局,廣西 南寧 530001 )
隨著智能電網(wǎng)建設(shè)的不斷深度,電力系統(tǒng)的全面感知和智能量測(cè),為電網(wǎng)安全、穩(wěn)定和經(jīng)濟(jì)運(yùn)行提供了堅(jiān)強(qiáng)的信息支持。電網(wǎng)多源數(shù)據(jù)融合已成為基于大數(shù)據(jù)分析的電網(wǎng)態(tài)勢(shì)感知和狀態(tài)辨識(shí)的基礎(chǔ)。電網(wǎng)電壓檢測(cè)和諧波監(jiān)測(cè)等都是提升電網(wǎng)電能質(zhì)量的關(guān)鍵。盡管采集技術(shù)日新月異,但時(shí)常會(huì)因?yàn)閭鞲衅鳌鬏斣O(shè)備和轉(zhuǎn)換設(shè)備等故障造成部分采集信號(hào)的丟失;又或者是在數(shù)據(jù)傳播過程中由于干擾而導(dǎo)致的數(shù)據(jù)丟失[1]。由于電網(wǎng)數(shù)據(jù)采集的時(shí)序性,當(dāng)數(shù)據(jù)冗余不足時(shí),對(duì)電壓缺失數(shù)據(jù)的分析得到的結(jié)論將與實(shí)際正確值有較大的偏差。因此,如何對(duì)缺失的數(shù)據(jù)進(jìn)行準(zhǔn)確有效的修復(fù),恢復(fù)采集數(shù)據(jù)的原貌,是多源數(shù)據(jù)融合過程中非常重要的問題。
當(dāng)前,針對(duì)數(shù)據(jù)缺失和填補(bǔ)算法的較多,文獻(xiàn)[2]利用一系列線性和非線性回歸模型對(duì)缺失值進(jìn)行填補(bǔ)。文獻(xiàn)[3]在KNN 算法的基礎(chǔ)上,提出結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的優(yōu)勢(shì),進(jìn)行數(shù)據(jù)集的異常點(diǎn)檢測(cè)和填補(bǔ),進(jìn)一步提高填補(bǔ)的精度。數(shù)據(jù)填補(bǔ)算法得到了越來(lái)越多研究者的青睞。針對(duì)電網(wǎng)數(shù)據(jù)補(bǔ)全的研究也得到了部分研究人員的廣泛關(guān)注,正在開展研究。文獻(xiàn)[4-5] 分別采用插值法和、k 最鄰近法等擬合算法對(duì)電網(wǎng)數(shù)據(jù)中缺失較少且數(shù)值變化幅度平緩的情況進(jìn)行處理。結(jié)果表明,以上方法獲得了較高的數(shù)據(jù)填補(bǔ)結(jié)果。文獻(xiàn)[6]研究了如何對(duì)電力系統(tǒng)功率缺失數(shù)據(jù)進(jìn)行修復(fù),提出了一種機(jī)器學(xué)習(xí)算法結(jié)合自適應(yīng)估計(jì)學(xué)習(xí),有效地實(shí)現(xiàn)了對(duì)缺失功率數(shù)據(jù)的填補(bǔ)。文獻(xiàn)[7]研究如何對(duì)風(fēng)電功率缺失數(shù)據(jù)進(jìn)行填補(bǔ),提出了一種采用自適應(yīng)神經(jīng)模糊推理模型。仿真結(jié)果表明,該算法具有較好的填補(bǔ)正確率,但針對(duì)大面積數(shù)據(jù)缺失時(shí),算法的填補(bǔ)效果還有待改進(jìn)。文獻(xiàn)[8]針對(duì)負(fù)荷數(shù)據(jù)的缺失問題,提出采用數(shù)據(jù)的橫向關(guān)聯(lián)性方法,利用無(wú)監(jiān)督學(xué)習(xí)的策略進(jìn)行訓(xùn)練,提高了填補(bǔ)的精度。此外,文獻(xiàn)[9]研究對(duì)調(diào)控?cái)?shù)據(jù)進(jìn)行填補(bǔ),提出一種改進(jìn)的混沌遺傳優(yōu)化算法填補(bǔ)缺失數(shù)據(jù)。仿真結(jié)果表明,該方法具有較好的填補(bǔ)效果。
以上的研究大多從某一方法或某一維度來(lái)分析缺失數(shù)據(jù)的填補(bǔ)方法,但這些方法均較少?gòu)亩嗑S度相關(guān)性的角度來(lái)分析缺失數(shù)據(jù)及對(duì)應(yīng)的填補(bǔ)策略。為此,本文提出一種多維度相關(guān)性分析的電壓缺失數(shù)據(jù)辨識(shí)方法IMVMDMC。該方法首先基于K均值聚類策略對(duì)歷史數(shù)據(jù)進(jìn)行聚類分析,得到相似數(shù)據(jù)集合;其次,提出一種多維度相關(guān)分析的填補(bǔ)策略,利用皮爾遜系數(shù)獲得缺失數(shù)據(jù)的強(qiáng)關(guān)聯(lián)屬性,并采用基于熵權(quán)分析的多維度相關(guān)屬性綜合加權(quán)策略進(jìn)行最優(yōu)值的選取和缺失數(shù)據(jù)的填補(bǔ);最后采用基于核聚類的數(shù)據(jù)校驗(yàn)方法,進(jìn)一步改善填補(bǔ)的準(zhǔn)確性。真實(shí)電網(wǎng)仿真結(jié)果驗(yàn)證了該方法的有效性和優(yōu)勢(shì)。
為了找到和多個(gè)電壓缺失數(shù)據(jù)相似的數(shù)據(jù)集合,首先需要對(duì)各個(gè)時(shí)間段內(nèi)缺失值的歷史數(shù)據(jù)進(jìn)行聚類分析,聚類分析采用K均值聚類算法[10],算法步驟如下:
(1)針對(duì)需要填補(bǔ)的缺失電壓數(shù)據(jù)確定填補(bǔ)電壓的范圍。在允許的電壓范圍內(nèi),隨機(jī)選取k個(gè)電壓值,并以此作為初始聚類中心C={C1,C2,…,Ck}。
(2)計(jì)算各聚類中心對(duì)象的均值,計(jì)算每個(gè)個(gè)體到中心對(duì)象間的距離,采用式(1)計(jì)算得到的最小距離對(duì)對(duì)象進(jìn)行重新劃分
(1)
式中:wi為聚類中心;uj為聚類對(duì)象的個(gè)體。
(3)根據(jù)聚類結(jié)果,取各劃分中所有元素的全維度算術(shù)平均值作為均值,重新計(jì)算各變化中心的聚類均值。
(4)按照新的聚類中心重新進(jìn)行聚類。
(5)重復(fù)(2)~(4)的步驟,直到所有聚類不再變化,最終得到K聚類劃分。
在對(duì)所有缺失數(shù)據(jù)進(jìn)行聚類后,得到各缺失數(shù)據(jù)對(duì)應(yīng)的集合,傳統(tǒng)缺失數(shù)據(jù)的填補(bǔ)方法大多使用某個(gè)距離作為數(shù)據(jù)對(duì)象之間相似度的判斷,但是缺失數(shù)據(jù)的多維度屬性不可忽視,其對(duì)填補(bǔ)結(jié)果的影響較大?;谝陨系恼J(rèn)識(shí),本節(jié)首先對(duì)缺失數(shù)據(jù)的多維度屬性進(jìn)行基于皮爾遜系數(shù)的關(guān)聯(lián)性分析,找到關(guān)聯(lián)性較高的多維度相關(guān)屬性;其次采用熵權(quán)分析法,對(duì)關(guān)聯(lián)屬性進(jìn)行加權(quán)處理,得到綜合屬性權(quán)值;最后對(duì)綜合屬性權(quán)值進(jìn)行排序,選取綜合屬性權(quán)值最高的作為填補(bǔ)值。
皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)是一種反應(yīng)不同隨機(jī)變量間線性相關(guān)程度的一種度量標(biāo)準(zhǔn)[11]。
當(dāng)皮爾遜系數(shù)用于總體時(shí),其表達(dá)式如式(2)所示。
(2)
式中:X,Y為兩個(gè)隨機(jī)變量;σX,σY分別為X,Y的標(biāo)準(zhǔn)差;Cov(X,Y)為協(xié)方差,如式(3)所示。
(3)
式中:n為樣本的數(shù)量。
當(dāng)皮爾遜系數(shù)用于樣本時(shí),其表達(dá)式如式(4)所示。
(4)

為了進(jìn)一步得到和電網(wǎng)缺失數(shù)據(jù)相關(guān)性最高的歷史數(shù)據(jù),需要對(duì)關(guān)聯(lián)屬性進(jìn)行加權(quán)處理,得到屬性的綜合權(quán)值,具體步驟如下:
(1)選擇缺失數(shù)據(jù)所有對(duì)應(yīng)的關(guān)聯(lián)屬性。
(2)通過皮爾遜相關(guān)系數(shù)計(jì)算各屬性間的互相關(guān)系數(shù),選擇互相關(guān)系數(shù)大于α(α為給定閥值)的屬性存入互相關(guān)集合HG。
(3)進(jìn)一步計(jì)算HG集合中所有屬性的誤差期望EXPError(Xk,Yk)
(5)
式中:Cov(Xk,Yk)為Xk,Yk的協(xié)方差;Var[Xk]為Xk的方差;Var[Yk]為Yk的方差。
(4)若EXPError(Xk,Yk)>β(β為強(qiáng)相關(guān)閥值),則為強(qiáng)相關(guān)屬性,保留到強(qiáng)相關(guān)屬性集合QX中。
(5)對(duì)集合QX中的各屬性采用熵權(quán)法確立其屬性間的權(quán)重,得到權(quán)重向量如下:
W=[w1,w2,…,wm]
(6)
式中:m為強(qiáng)關(guān)聯(lián)屬性的個(gè)數(shù)。
(6)據(jù)強(qiáng)相關(guān)系數(shù)得到的屬性綜合加權(quán)值SX:
SX=W1S1+W2S1+…+WmSm
(7)
(7)對(duì)劃分集合內(nèi)的個(gè)體按照屬性綜合加權(quán)值按從大到小排序,選擇SX值最大的作為電壓缺失值的替代。

圖1 多維度屬性相關(guān)性填補(bǔ)策略流程圖
算法總體流程如圖1所示。
核聚類是一種聚類與核方法相結(jié)合的方法,這種方法通過非線性映射,根據(jù)核函數(shù)將數(shù)據(jù)集映射到高維空間,利用高維空間的特性采用線性方法分離核識(shí)別歐式空間不可分的問題,同時(shí)非線性映射具有放大提取特征的作用,提高聚類效果。本文在K均值聚類的基礎(chǔ)上加入核方法,核函數(shù)定義如下:
對(duì)任意的x,z∈X,X∈Rn,若函數(shù)K滿足
K(x,z)=〈ψ(x),ψ(z)〉
(8)
則稱函數(shù)k是核函數(shù)。ψ為從輸入空間X到特征空間的H的映射。
核函數(shù)的種類繁多,通常在沒有相應(yīng)問題的先驗(yàn)知識(shí)的情況下,選用高斯核較多。高斯核相比其他核函數(shù),參數(shù)較少。在參數(shù)一定的情況下,高斯核函數(shù)可用于絕大部分的分布式樣本,公式如式(9)所示。
(9)

此外,由于引入核函數(shù)概念,傳統(tǒng)K均值聚類中定義的歐式距離公式也將通過核函數(shù)而變化。核函數(shù)用于反應(yīng)數(shù)據(jù)間相似度時(shí),可用于距離函數(shù)。
假設(shè)k是歐式空間的核函數(shù),ψ是k的映射,k在空間X上定義的距離如式(10)所示。
(10)
式中:ρ為x,x′之間的相似度量。
數(shù)據(jù)校驗(yàn)的目的是為了找出聚類中的異常點(diǎn)。因此,本文采用基于K均值核聚類方法進(jìn)行異常點(diǎn)的檢測(cè)。
異常點(diǎn)的定義:假設(shè)存在x∈X且x?Ci,則x為離群點(diǎn),可以看成目標(biāo)函數(shù)SSE異常對(duì)象,如式(11)所示。
(11)
式中:dist為核距離,如式(10)所示。
異常點(diǎn)通常為偏離期望的離群點(diǎn),因此,如果填補(bǔ)值為離群點(diǎn),則很可能填補(bǔ)結(jié)果有誤或不準(zhǔn)確。基于這一特性,本文采用K均值核聚類算法甄別離群點(diǎn)是否是缺失填補(bǔ)值,具體步驟如下:
(1)獲取電壓填補(bǔ)值。
(2)采用式(11)計(jì)算聚類集合中的異常點(diǎn)。
(3)判斷異常點(diǎn)是否為電壓填補(bǔ)值。如果是則排除異常點(diǎn),重新進(jìn)行缺失值填補(bǔ)計(jì)算,知道確認(rèn)所有異常點(diǎn)都不是填補(bǔ)值為止。
但需要指出的是,這一階段在對(duì)待民族主義國(guó)家的問題上,中國(guó)在從認(rèn)識(shí)到政策實(shí)踐的轉(zhuǎn)變和落實(shí)過程中,蘇聯(lián)的因素是至關(guān)重要的,因?yàn)橹袊?guó)奉為圭臬的“兩大陣營(yíng)”理論是由蘇聯(lián)所提出,并被用來(lái)指導(dǎo)整個(gè)東方陣營(yíng)的對(duì)外關(guān)系。所以,雖然中國(guó)依據(jù)自身的利益、感受和判斷,試圖調(diào)整對(duì)印緬等民族主義國(guó)家的政策,但是沒有蘇聯(lián)的首肯,政策調(diào)整依然無(wú)法落地。例如,1952年9月,毛澤東電告正在訪問蘇聯(lián)的周恩來(lái),印度和緬甸表示愿同中國(guó)簽訂互不侵犯條約,并希望中印兩國(guó)總理互訪。毛提出這種提議“不大好拒絕”,請(qǐng)其與蘇方就此進(jìn)行商談。[51]
通過以上的分析,給出電壓缺失數(shù)據(jù)填補(bǔ)的總體辨識(shí)框架,如圖2所示。
本文選取真實(shí)電網(wǎng)近1年半的歷史數(shù)據(jù)作為歷史數(shù)據(jù)集,數(shù)據(jù)填補(bǔ)對(duì)象為電壓缺失值,為了體現(xiàn)本文提出算法(IMVMDMC)的優(yōu)勢(shì),本文選取KNN方法和隨機(jī)森林算法(RF)進(jìn)行對(duì)比分析,通過分析不同缺失率下的數(shù)據(jù)填補(bǔ)正確性,并分析不同方法的填補(bǔ)精度。
本文研究對(duì)象為某區(qū)域電網(wǎng)電壓值缺失情況,從歷史數(shù)據(jù)庫(kù)中選取挖掘數(shù)據(jù),采樣周期為5 min,對(duì)數(shù)據(jù)庫(kù)中的所有屬性計(jì)算皮爾遜相關(guān)系數(shù)及誤差期望(β取0.5),最終得到的強(qiáng)相關(guān)屬性為: {無(wú)功負(fù)荷,有功負(fù)荷,電流值}。選取強(qiáng)相關(guān)屬性作為數(shù)據(jù)集字段,再通過屬性綜合加權(quán)策略(ψ取0.6),最終得到約5 000組數(shù)據(jù)樣本集合。

圖2 電壓缺失數(shù)據(jù)填補(bǔ)總體辨識(shí)框架
為對(duì)填補(bǔ)的缺失數(shù)據(jù)進(jìn)行評(píng)價(jià),本文采用均方根誤差(root mean square error,RMSE) 和填補(bǔ)準(zhǔn)確度 (accuracy) 評(píng)價(jià)算法。σRMSE表示填補(bǔ)的誤差,顯然當(dāng)σRMSE值越小時(shí),填補(bǔ)結(jié)果越好,σRMSE如(12)所示。
(12)
式中:xr,xi為分別為真實(shí)值和填補(bǔ)值;n為缺失值的個(gè)數(shù);σRMSE為填補(bǔ)值和真實(shí)值之間的差距,值越小說(shuō)明填補(bǔ)結(jié)果可信度越高。
Accuracy反應(yīng)了填補(bǔ)的精度,如 式(13)所示。
(13)
為了充分檢測(cè)IMVMDMC算法的有效性,設(shè)置數(shù)據(jù)集中數(shù)據(jù)對(duì)象的屬性缺失,數(shù)據(jù)的個(gè)數(shù)不受影響,采用隨機(jī)刪除策略的1%、5%、10%、15%、20%、25%和30%的缺失數(shù)據(jù)集。為保證試驗(yàn)結(jié)果的可靠性,對(duì)不同的缺失率做3次計(jì)算,3次計(jì)算的平均值作為最終試驗(yàn)結(jié)果。
1) 不同算法填補(bǔ)均方差比較
不同缺失率情況下比較本文提出算法、FR算法 和KNN算法之間的差別,對(duì)各算法得到的試驗(yàn)結(jié)果根據(jù)均方根誤差和填補(bǔ)準(zhǔn)確度進(jìn)行分析比較。
從圖3可以看出,本文提出的IMVMDMC算法在不同的缺失率情況下都獲得了最好的均方根誤差,相比RF和KNN算法填補(bǔ)效果最優(yōu)。

圖3 不同算法的均方差比較
2)不同算法填補(bǔ)準(zhǔn)確性比較
從圖4可以發(fā)現(xiàn),IMVMDMC的填補(bǔ)效果最好,RF其次,KNN的填補(bǔ)效果最差,且與IMVMDMC和RF都有著較大差距。在缺失率不高的時(shí)候IMVMDMC和PF的填補(bǔ)效果相差不大,但是隨著缺失率的增加,IMVMDMC的填補(bǔ)正確率明顯比RF要好,盡管在試驗(yàn)過程中算法的結(jié)果可能會(huì)隨著聚類結(jié)果的不同而有波動(dòng),但是總體來(lái)說(shuō),本文提出的IMVMDMC算法的填補(bǔ)效果要好于KNN和RF算法。

圖4 不同算法填補(bǔ)值填補(bǔ)準(zhǔn)確度比較
為進(jìn)一步分析算法的魯棒性,假設(shè)當(dāng)前選取的數(shù)據(jù)集合為A,選取另一真實(shí)數(shù)據(jù)集合,定義為集合B,比較本文提出的IMVMDMC數(shù)據(jù)填補(bǔ)算法在不同數(shù)據(jù)集下的填補(bǔ)正確率,結(jié)果如圖5所示。

圖5 不同數(shù)據(jù)集合間的準(zhǔn)確度比較
如圖5所示,IMVMDMC算法在不同的數(shù)據(jù)集下也能取得不錯(cuò)的填補(bǔ)正確率。由于跟換了數(shù)據(jù)集,使得填補(bǔ)值結(jié)果的正確率略有下降,但總體上仍然保持了較高的填補(bǔ)的正確率。這也反應(yīng)了IMVMDMC算法的魯棒性,進(jìn)一步說(shuō)明了雖然數(shù)據(jù)集本身具有的維度對(duì)數(shù)據(jù)填補(bǔ)算法有著影響,但是在這種情況下算法仍能保證較高的正確率,具有良好的適應(yīng)性。
本文重點(diǎn)闡述了電壓數(shù)據(jù)缺失填補(bǔ)的相關(guān)理論,為提高電壓缺失值的填補(bǔ)效率,根據(jù)電壓缺失值的特點(diǎn),提出了一種多維度相關(guān)性分析的電壓缺失數(shù)據(jù)辨識(shí)方法(IMVMDMC)。將K均值聚類策略用于對(duì)歷史數(shù)據(jù)的聚類分析,得到相似數(shù)據(jù)集合,并給出一種多維度相關(guān)分析的填補(bǔ)策略,利用皮爾遜系數(shù)獲得缺失數(shù)據(jù)的強(qiáng)關(guān)聯(lián)屬性,采用基于熵權(quán)分析的多維度相關(guān)屬性綜合加權(quán)策略進(jìn)行電壓缺失數(shù)據(jù)的填補(bǔ)。最后采用基于核聚類的數(shù)據(jù)校驗(yàn)方法,進(jìn)一步提高填補(bǔ)的準(zhǔn)確性。算例結(jié)果表明,本文提出的算法相比其他填補(bǔ)算法具有一定優(yōu)勢(shì)。