李玉嬌,黃青平,劉松,陳雨,劉鵬
(華北電力大學 電氣與電子工程學院,北京 102206)
隨著智能電網的不斷深入和推進,許多電力計量裝置被裝入電力網絡,獲得電網用戶的實時數據,從而監測、控制和預測電能使用[1],為電網安全、可靠、經濟地運行打下基礎。近年來,電網數據呈現出規模大、種類多、價值密度低等大數據特征。在智能電網大數據環境下對數據挖掘算法進行研究,準確、高效地提取出電力用戶的負荷模式,充分挖掘出用戶的用電行為習慣、電量消費規律等有用信息,為電力需求響應系統設計[2]、用電異常(計量、竊電等)檢測[3]、電價目錄改善[4]、負荷控制[5]、負荷預測[6]等提供強有力的支撐。正確且清晰的負荷模式可改善電力系統運行的可靠性、幫助用戶節能改造、提高經濟效益[7]。因此,研究如何有效提取電力用戶的負荷模式具有重要的意義。
用電負荷模式提取技術主要是依據用戶用電負荷曲線,通過各種統計機器學習方法,提煉出某一用戶的用電特征或若干用戶的典型用電特征。目前,國內外已有很多學者和專家運用聚類分析方法研究用戶用電負荷模式。文獻[8]提出使用核主成分分析(Kernel Principal Component Analysis, KPCA)方法對負荷數據進行降維,采用Kernel K-means算法對用戶負荷進行聚類處理。該方法雖然提高了負荷曲線聚類的準確性,但需要提前設定核函數參數,且易受聚類數和初始分類影響,沒有良好的穩定性。文獻[9]將遺傳算法的搜索能力與模擬退火算法進行綜合,對傳統模糊C均值(fuzzy C-means,FCM)算法進行改進,對初始聚類中心敏感和全局搜索能力不足得到了改善,但多次迭代使得算法時間及復雜度明顯增加。文獻[10]指出,各聚類方法特點不同,應用于負荷模式提取或者其他方面時并不存在一種算法總是優于其他聚類算法。
針對上述研究中存在聚類結果穩定性差、計算復雜度高、單一聚類算法泛化能力不強等問題,將結合降維方法和聚類融合的技術應用到提取電力用戶負荷模式中。本文首先使用用戶負荷數據集的KMO(Kaiser-Meyer-Olkin)與顯著性水平(Sig)分析負荷變量間的相關性,根據累計方差貢獻率確定主成分個數將數據冗余信息去除,再將降維后的特征向量與原特征向量分別聚類并從聚類準確度及聚類效率兩方面進行對比。然后在此基礎上提出一種基于聚類融合技術的電力用戶負荷模式提取方法,并通過聚類有效性指標Silhouette對模式提取結果進行評價,達到負荷模式提取更快、更準確的目的。
用于用戶負荷模式提取研究的數據來自于用電信息采集系統,該系統可能受計量表計故障、數據庫故障等多種因素影響,存在缺失數據、錯誤數據、相似重復記錄等臟數據,因此,需要對數據進行清洗,將數據集中不符合分析要求的數據剔除或修正,從而保證數據的一致性、正確性、完整性[11]。常見的電力用戶負荷臟數據類型如表1所示。

表1 用電負荷臟數據類型
甄別用戶負荷數據集中臟數據需對數據進行規范性檢查。首先,刪除數據集中用戶負荷重復記錄的數據;其次,分析數據集中負荷數據缺失情況,將缺失量達到當日采集點20%以上的用戶視為嚴重缺失并將其剔除,將其余數據缺失用戶采用多平滑修正方法補足缺失值;再次,判斷數據極大極小值產生原因是用戶用電行為所致還是負荷毛刺;最終,將不符合用電業務特性的異常數據采用多平滑修正方法替換錯誤值,其中平滑修正及極大極小值成因判斷公式為:
(1)
式中pi, j表示用戶i在時刻j的用電負荷值;m是向前采集的點數;n是向后采集的點數。
由于用戶的用電情況可能因某些突發事件的發生或天氣因素導致用電負荷曲線發生變化,為了更準確的反應用戶自身的用電行為,本文采用加權平均移動法生成用戶的典型負荷曲線,其處理方法如公式(2):
(2)
式中pi, j, k表示電力用戶i前k天在時刻j的用電負荷;wi表示用戶i前k天時負荷數據對應的權重且w1+w2+…+wk= 1。
為了避免數據集中數值差異較大或者變量量綱不同等因素的影響,需進行數據標準化處理。假設共有i個樣本,各樣本有j個變量指標,則數據集可以用i×j矩陣P表示為:
(3)
對P進行最大-最小值標準化處理生成標準矩陣X,即:
(4)
式中m=1,2,…,i;n=1,2,…,j; min{pi, j} 和max{pi, j}分別表示用戶i負荷的最小值和最大值。
文獻[12]指出對于負荷曲線在維數較高的情況下可能會表現出不理想的等距性,該情況使得距離測度的意義減小,因此當數據集規模較大時,為了提升聚類效率和準確率,需要對數據集進行降維處理。常用降維方法有自組織映射、sammon映射、主成分分析等。采用主成分分析(principal component analysis,PCA)法,它是一種基于特征提取和數據壓縮的統計分析方法,通過多個原變量的一系列線性組合形成少數不相關的綜合變量,且這些綜合變量在不相關的前提下盡可能多地反應原變量信息[13]。xm,n={xm,n,n= 1, 2,…,j}表示用戶m的負荷曲線,主成分分析的主要目的是在保證用戶原有信息的前提下盡量減小j、減小數據存儲空間、減少算法的計算時間。主成分分析具體步驟如下:
(1)求經過標準化處理后所得矩陣X的相關矩陣R,并計算R的特征值λ1≥λ2≥…≥λj與特征向量μ1,μ2,…,μj,即:
(5)
(2)求R的方差貢獻率ηk和累計方差貢獻率η∑(p),進而對主成分的個數p進行確定,公式為:
(6)
(7)
數據集的信息由數據變量的方差體現,通過累計方差貢獻率衡量,貢獻率越高,所含信息越多。一般認為前p個主成分累計方差貢獻率η∑(p)達到75%~ 95%時便包括了j個原變量絕大部分信息,從而確定主成分的個數為p[14]。
目前,當使用各種聚類算法進行聚類分析時,常常遇到對同一數據集用不同聚類算法進行聚類時聚類結果不同且事先不知數據集的任何先驗信息的情況,或者當增加或減少樣本數量時聚類結果會發生明顯變化,即單一聚類算法穩定性不高的情況。為了得到聚類結果更佳、更穩健的聚類模型,本文將聚類融合方法應用于負荷模式提取中。首先,用四種聚類分析算法進行聚類,得到相互獨立且存在差異的聚類結果,然后構建共識矩陣,計算用戶屬于每一類的概率值,最終將各算法的聚類成員融合成一組聚類成員,得到優于單一算法且更加穩定的聚類分析模型。
聚類融合的概念由A. Strehl和J. Ghosh于2002年提出,其定義是:將一個數據集的不同劃分結果組合成一個統一的劃分結果,而不使用對象原有的特征,且統一的劃分結果最大程度上包含了所有輸入聚類結果對數據集的聚類信息[15]。具體過程為:假設數據集X有n個數據對象,表示為X={x1,x2,…,xn},對數據集X執行N次聚類算法得到N組聚類成員N={H1,H2,…,HN},其中,Hi(i=1,2,…,N)為第i次聚類得到的聚類成員。然后設計融合函數W,對N組聚類成員進行融合,得到新的聚類結果N’,其過程如圖1所示。

圖1 聚類融合過程
具有差異性聚類成員的生成通常有以下方法:
(1)使用同種聚類算法,初始參數設置不同,運行N次,目前常使用K-means算法;
(2)使用不同聚類算法,如K-means、Single-Linkage、Average-Linkage等產生多個不同的聚類結果。Fred等人[16]認為該方法可從不同角度挖掘數據集中有效信息;
(3)使用取樣技術(例如:bagging、subsampling、bootstrap)獲得數據集子集,然后對子集進行聚類。取樣所得子集可代表整個數據集,可減少計算的時間以及降低計算的復雜性;
(4)使用一維投影或隨機投影等技術將數據集的特征空間投影到數據子空間,得到數據集的多個子集,然后對子集進行聚類操作。
各聚類成員所構成的聚類簇結構如表2所示。其中,HN表示第N個算法的聚類成員,h1,h2,…,hn表示n個聚類簇,x1,x2,…,xm表示m個樣本,數值“1”表示該樣本屬于該簇,數值“0”表示不屬于該簇。

表 2 聚類簇分布結構
根據表2中所形成的0-1矩陣H構建Co-association矩陣S[17],S中元素Sij表示樣本i與樣本j的相似度,其元素表達式為:
(8)

(9)
本文采用文獻[17]所提出的閾值θ劃分Co-association矩陣的方法進行聚類融合,θ取0.5。將矩陣S中元素Sij大于θ的設置為1,其余元素設置為0,所得到的0-1矩陣被視為新的Co-association矩陣,矩陣中同列為1的元素即認為屬于同一類。
實驗所用數據來源于某電網2014年1月份200個用戶的日用電數據,采集間隔為15min,共計96個量測點。經過數據清洗后及數據預處理后,算例共包含184條有效日負荷曲線。算例在平臺CPU為2.0 GHz、內存為2 GB的個人計算機上完成,實驗數據經過MATLAB 2014a處理。
首先,對負荷數據集進行主成分提取可行性分析,由表3可知,KMO(Kaiser-Meyer-Olkin)值為0.904 > 0.7,sig值小于0.05,可知用戶負荷數據間相關性較強,較適合進行因子分析。然后,分別計算相關矩陣R、R的特征值λ、特征向量μ、方差貢獻率ηk及累計貢獻率η∑(p),并確定主成分個數p,部分計算結果如表4。
圖2為特征值相對于成分個數的碎石圖,可見前面部分曲線較陡峭,特征值大,所含信息多,后面部分曲線較平坦,特征值小,所含信息少。由圖可直觀看出,成分1至10左右包含了大部分信息,以后逐漸進入平穩。

表3 KMO和Bartlett 的檢驗

表4 方差及主成分貢獻率

圖2 碎石圖
綜合考慮圖2趨勢及表4累計貢獻率,將主成分的個數確定為11。將184條負荷曲線分別用四種聚類算法(K-means、FCM、Single-linkage、SOM)進行聚類,降維前與降維后聚類時間(s)、聚類準確率(%)比較如圖3所示。聚類效率分別提高27.99%、34.37%、30.16%、34.32%,聚類準確度分別提高1.63%、降低1.63%、提高0.54%、提高0.54%。由此可見主成分分析方法在保證聚類準確率基本不變的情況下有效地減少了數據存儲空間以及算法運行時間。面對大數據環境下電力數據的日益增長,通過降維方法可以減少電力負荷數據冗余信息,從而減少分析時所需計算數據量,減少程序運行時所需存儲空間。

圖3 降維前后聚類時間及準確度比較
將原數據集矩陣與11項主成分所對應的特征向量矩陣相乘后作輸入數據集,用上述四種聚類方法分別聚類,并基于Co-association矩陣進行聚類融合,將電力用戶的負荷曲線聚為四類,聚類結果如圖4所示,此時各類別的負荷模式有較為明顯的用電特征,分別為雙峰型用電模式、三峰型用電模式、平穩型用電模式、避峰型用電模式,其中紅色曲線表示該類用戶的典型用電規律。

圖4 聚類結果
用聚類有效性指標Silhouette[18]對得到的負荷模式結果進行評估,該有效性指標可以反應類間分離程度和類內緊密程度,樣本i的Silhouette指標值ISil(i)定義如下:
(10)
式中i表示數據集P中被劃分為第j類的第i個用戶數據;da(i)表示i與類內其余用戶數據的平均距離,該值越小,表征類內緊密性越強;db(i)表示i與非類內其余用戶數據的最小平均距離,該值越大,類間分散性越強。用戶i的Silhouette指標值ISil(i) 取值范圍為[-1,1],db(i) 越大,da(i) 越小,ISil(i) 值越接近1,第j類的類內緊密性和類間分離性越強,聚類質量越好。若db(i) 表5 不同算法的Iave值比較 提出了一種基于主成分分析方法和聚類融合技術相結合的電力用戶負荷模式提取方法,對于海量高維的電力用戶負荷數據,首先采用主成分分析對數據集進行降維操作,然后使用聚類融合方法對降維所得綜合變量作為新的數據集進行聚類操作,并用有效性指標Silhouette對聚類結果進行評估。算例表明該方法用于電力負荷模式提取可行,可提高模式提取的可靠性和有效性,可對電力大數據潛在的有用信息進行有效地挖掘,為負荷控制、負荷預測、電力策略制定等提供有力的支撐。
4 結束語