周 宇 劉海璇 胡衛豐 胥 崢 劉志明 袁曉玲
(1.國網江蘇省電力有限公司 南京 210008)(2.中國電力科學研究院 南京 210003)(3.河海大學能源與電氣學院 南京 211100)
影響用戶用電行為的因素眾多,需要從時間、空間、用戶類型等多個維度,分析自然、社會各種潛在因素與用電行為的關聯關系,并深度挖掘因素集與用戶用電行為的關聯強度[1]。影響用戶用電行為模式的各個因素關聯強度亦不相同,為此,需要利用關聯挖掘技術分析影響因素集合與相關性或因果結構[2]。從而針對特定的用戶行為,用電行為集合之間的頻繁模式、關聯性、從眾多因素中發現提煉與其關聯的影響要素,建立精細化用電模式與影響因素的關聯模型,從而進一步理解用戶用電行為[3]。
目前,隨著泛在電力物聯網進程的提出和不斷推進,眾多信息系統和平臺在有效管理各類智能設備、促進智能電網建設、提升公司電網運營管理水平的同時[4],電網企業存儲了海量數據,這些數據直觀上沒有表現出任何有價值的信息,但采用數據挖掘的方法,數據中隱藏的信息就會被提取出來[5~6]。文獻[7]考慮城市微氣象和節假日等影響因素,建立用電行為差異化模型,精細化挖掘用戶用電行為特征。文獻[8~9]利用數據挖掘和數理統計的相關技術,對一個地區不同行業的用電行為進行分析,提取出各個行業的用電特征和客戶的群體特性。文獻[10]以高斯濾波技術消除初始數據中的噪聲,結合k-means、SOM等聚類算法建立聚類分析模型,獲得隱藏在數據集中典型用電模式及其合適的聚類數目。文獻[11]和文獻[12]中的聚類方法對所有用戶都提取同一組特征量對用戶負荷進行聚類研究,無法充分掌握用戶的負荷特性。文獻[13]提出基于差異化特征量提取的分層聚類方法實現用戶用電行為的分類識別。
本文利用UCI(University of California,Irvine)數據庫[14]公布的法國克拉馬地區某用戶的用電數據進行聚類分析。基于K均值聚類算法計算時間短、速度快、聚類結果容易解釋的優點[15~16],通過合理的選擇聚類初始K值來提高聚類的準確度,精確挖掘出用戶的不同用電行為,為客戶用電精細化管理和提供優質用電服務等提供支持。
為實現對居民電力負荷特征的分析,首先要準確提取用戶的用電特征曲線。本文的居民用戶電力負荷特征分析框架如圖1所示。首先對原始的居民用戶用電數據進行預處理,這些預處理包括缺失數據處理、數據歸一化。然后對預處理完后的數據采用K均值算法提取的用戶負荷特征曲線,根據不同日類型下的負荷特征曲線,分析其用電行為特征。將聚類分析技術應用到電力大數據中,有助于電力公司進行需求側管理、用戶細分、用電優化建議等[17~19]。

圖1 電力負荷特征分析框架
K均值聚類算法是劃分聚類分割的方法,其工作原理是:首先隨機從給定的數據集中選中K個點,每個點代表每個簇的初始聚類中心,然后計算剩余各個樣本到聚類中心的歐式距離,將其歸為離它最近的那個簇,接著重新計算每一個簇的平均值,整個過程不斷重復,直到平方誤差準則函數最小[20]。平方誤差準則定義為

式中,k為聚類個數,ti為第i類中的樣本的個數,mi是第i類中樣本的均值。
K均值聚類算法是典型的基于距離的聚類算法,采用點與點之間的距離作為相似性評價指標,即認為兩個對象的距離越近,相似度就越大。距離算法一般采用歐氏距離,如式(2)。

式中,xi是樣本X的第i個變量值;yi是樣本Y的第i個變量值。這種算法認為簇是由距離靠近的對象組成,因此把得到緊湊且獨立的簇作為最終目標。
2.2.1 數據清洗
進行聚類分析的數據來自生產、生活、商業中的實際數據,在現實世界中,由于各種內部或外部影響,導致數據會出現缺漏或者異常數據的存在。為了提高最終結果的可信性和可解釋性,在進行聚類之前對這些壞數據進行剔除和修復。
針對數據集中出現的缺失值,利用向前向后移動平均法對缺失數據補齊。設缺失數據Li是某一天負荷曲線的第i個數據點,修正后的數據Li"為

式中,Li-h和Li+g分別代表Li向前h個數據和向后g個數據;h1和g1一般可取5~10。
2.2.2 數據標準化
為了更明顯地體現用戶用電行為的動態變化,對用戶的原始負荷數據進行標準化處理:對原始數據進行歸一化處理,使最終結果落入[0,1]區間,歸一化公式如式(4):

式中xi和x*分別表示第i個采樣時刻實際的用電負荷和標準化之后的用電負荷,xmax和xmin分別表示每一天樣本數據中的負荷最大值和最小值,n為每一天樣本中的負荷采樣點數。
雖然K均值算法具有簡單、效果好的優點,但算法中的K值是事先給定的,而K值的大小往往難以估計,不同的K值對聚類結果的準確性也會產生影響。目前常用的確定K值的方法有輪廓圖法、誤差平方和法等[21]。本文采用輪廓圖法作為初始K值的確定方法。
輪廓圖是利用輪廓系數做出的圖形。輪廓系數是聚類效果好壞的一種評價方式,最早由Peter J.Rousseeuw在1986年提出,它結合內聚度和分離度兩種因素,用來在相同原始數據的基礎上評價不同算法、或者算法不同運行方式對聚類結果所產生的影響[22]。輪廓圖上第i點的輪廓值定義為

式中,a是第i點與同一個簇中其他點的平均距離。b是向量,其元素表示第i點與其他不同簇中各點的平均距離。S(i)的取值范圍是[-1,1],S(i)的值接近于1說明點i更傾向于當前的類,S(i)接近0表示點i傾向于在兩個類之間,S(i)接近-1表示點i傾向于其他某一個類。
平均輪廓值就是將所有點的輪廓系數求和取平均,平均輪廓值越大,表示聚類效果越好。
本文利用UCI數據庫公布的2007年某智能小區的一戶居民的用電數據集進行分析。數據集包含該家庭每隔1分鐘一次電量消耗測量數據。
在進行初始聚類數K值確定之前,首先對預處理后的負荷數據進行每60分鐘求和一次,所得的數據即為日24點數據,處理完后的數據采用輪廓圖法確定其最佳聚類類別數。圖2分別表示聚類類別為2、3、4時的輪廓圖。表1為不同K值對應的平均輪廓值,根據2.3節輪廓圖以及平均輪廓值的定義,確定選擇此數據集類別數為2。

圖2 不同K值下的輪廓圖

表1 不同K值對應的平均輪廓值
本文以數據集中2007年一月份的數據為例,隨機選取初始聚類中心,得到兩類居民日負荷特征曲線如圖3所示。

圖3 居民一月日負荷曲線及特征曲線
根據圖3的聚類結果,該用戶的一月的日負荷特征曲線主要有兩類。這兩類特征曲線變化趨勢有明顯的差異。
結合圖4中的空調熱水器負荷和廚房負荷可以看出:第一類負荷特征曲線在11:00~14:00出現一個負荷高峰,與空調熱水器負荷高峰出現的時間一致。第二類負荷特征曲線有兩個用電負荷高峰,分別出現在上午8:00~10:00和晚上的18:00~22:00,在這兩個用電高峰期間,空調熱水器負荷基本一直處于大功率運行的狀態中,而廚房負荷運行時間分散且功率較小,說明該用戶用電追求舒適性,空調熱水器類等對用戶用電舒適性有較強相關性負荷在該家庭中占有很大的比重。

圖4 負荷曲線的熱力圖
由于空調熱水器等負荷對用戶的舒適性影響很大,且廚房負荷的使用時間較為固定,考慮到洗衣房負荷對用戶舒適性影響較小且用電時間較為分散,為了緩解用電高峰時段電力系統的調峰壓力,將聚類一和聚類二中用電高峰時段的洗衣房負荷轉移到用電低谷期。仿真分析采用文獻[23]國內實施的用電峰谷時段劃分,轉移后得到的結果如圖5所示。

圖5 負荷轉移前后聚類結果
由圖5可以看出,轉移后的負荷特征曲線的用電峰值比負荷轉移前都有所下降。第一類特征曲線在11:00~13:00出現的負荷高峰轉移到了夜間1:00~4:00。而第二類特征曲線19:00出現的負荷轉移到了凌晨負荷比較低的時段。
為了進一步分析用戶的用電行為,本文提取節假日和不同季節典型負荷特性曲線,對用戶的用電行為特征進一步分析。
法國的主要節假日有元旦和勞動節共6天法定節假日以及萬圣和圣誕等四個宗教節日。文中將這21天的節假日負荷數據利用K均值聚類方法提取出節假日的特征曲線,當K取2時,平均輪廓值為0.4847,大于K取其它值時的平均輪廓值,最終得到聚類結果如圖6。

圖6 節假日用電負荷曲線及特征曲線
根據圖6的聚類結果可以看出,節假日有兩類特征曲線,第一類用電負荷特征曲線有明顯的用電高峰區和用電低谷區,用電高峰出現在晚上的19:00~21:00,凌晨1:00~6:00為用電低谷區;第二類用電負荷曲線一天之內的波動比第一類小,用電高峰出現在中午12:00和凌晨1:00。
為了對節假日用戶用電行為作進一步分析,利用熱力圖將這21天的空調熱水器負荷、廚房負荷和洗衣房負荷曲線表示出來,得到結果如圖7所示。

圖7 負荷曲線的熱力圖
由圖7節假日期間空調熱水器負荷和廚房負荷可以看出,第一類用電曲線代表的節假日各類負荷的使用頻率明顯高于第二類用電曲線代表的節假日。進一步,通過對比兩類節假日廚房用電曲線,在圣誕節(屬于第一類節假日用電特征曲線)這種重大的宗教節日期間,廚房負荷遠高于第二類節假日的廚房負荷,說明用戶在這些節假日期間,用戶更可能在家里與親人朋友團聚;第二類節假日特征曲線有多天廚房負荷為0,說明用戶在元旦(屬于第二類節假日用電特征曲線)這種比較長的假期外出游玩或外出用餐。
由于聚類二中洗衣房負荷都處于閑置的狀態,只針對聚類一中的廚房負荷進行轉移,得到的結果如圖8。

圖8 負荷轉移前后聚類結果
根據圖8,用電高峰期的洗衣房負荷轉移到凌晨時段,使得節假日第一類用電負荷曲線在白天時段的用電波動變得更加平緩。
為了分析該地區用電負荷隨氣候狀況變化的規律,本文結合該地區的氣候特征,分析用電行為與氣候之間的關系。文中采用傳統意義上的典型季節劃分:春季指每年的3~5月,夏季指每年的6~8月,秋季指每年的9~11月,冬季為12月和次年的1~2月。

圖9 各季節用電負荷特征曲線
當K=2時,四個季節的平均輪廓值均為最大,選取聚類結果中包含天數較多的那一類作為該季節的典型用電負荷曲線,如圖9所示。從圖中可以看出,無論哪一個季節,該用戶用電負荷的日變化均具有明顯的波動特征。凌晨2:00~6:00之間用電負荷較小,日最低用電負荷值出現在凌晨4點左右。從早晨6:00開始至上午8:00負荷逐漸增大,在8:00達到了日變化的最大值。下午1:00出現用電負荷的一個低值區,下午6:00之后,出現了一天中第二次用電負荷的快速增長,在夜間10:00左右達到了一天的最大值。由于該用戶位于法國克拉馬地區,該地區冬季溫度較低,夏季涼爽,氣溫年差較小,所以該用戶春、夏、秋三個季節的特征曲線變化趨勢基本一致,用戶第二次負荷增長出現的時間以及最大值出現時間基本一致。由于冬季氣溫較低以及天黑時間提前,所以冬季的第二次用電負荷增長出現的時間提前,最高值出現在20:00左右。
1)本文利用K均值算法對居民用戶用電負荷數據進行聚類分析,為了尋求最優初始聚類數K值,采用輪廓圖和平均輪廓值確定最優的初始聚類數,該方法可以對分類的合理性進行判斷,解決了K均值算法對初始K值敏感的問題;
2)通過K均值算法提取用戶的日負荷特征曲線、節假日特征曲線以及各季節特征曲線,結合空調熱水器、廚房負荷和洗衣房負荷熱力圖,得出居民在不同情境下的用電消費習慣,對居民用戶的用電行為進行分析。
3)通過將對用戶舒適性影響不大的洗衣房負荷進行轉移,可以有效改善用戶的用電負荷曲線。
用戶用電行為特征分析結果有助于電力公司根據用戶的用電行為設計相應的需求響應激勵機制,提高居民用戶對需求響應的參與度,使精細化和實時化的需求響應工作更易實現。
隨著泛在電力物聯網技術的發展以及負荷監測技術的不斷進步,更細粒度的電能消耗數據將會更容易獲得,基于這些數據的數據挖掘將會對用電負荷預測、用戶的用電個性化管理以及用能診斷提供依據。