沈建良,陸春光,袁 健,倪琳娜,張 巖
(國網浙江省電力有限公司電力科學研究院,杭州 310014)
伴隨新一代智能化電力系統建設的全面展開,堅強智能電網的迅速發展使信息通信技術正以前所未有的廣度和深度與電網生產、企業管理快速融合,信息通信系統已經成為智能電網的“中樞神經”,支撐著新一代電網生產和管理發展。
隨著電力體制改革的推進,按照“放開兩頭、管住中間”的原則,售電市場將逐步成為更加開放的市場,電力企業將面臨更加嚴峻的競爭局面[1]。同時,體驗經濟的到來使得傳統的無差別客戶服務模式已經無法滿足客戶日漸差異化的服務需求,對電力客戶進行細分并給予精準的差異化服務已經成為未來發展方向。因此,以信息化平臺積累的電力用戶數據為基礎,利用大數據技術對電力用戶特性進行深入分析,并實行差異化的服務策略,對電力行業提升客戶滿意度有著重要的意義。
隨著用電信息采集系統的建設應用,電力系統積累了海量的用電信息數據[2]。充分利用這些基于電力實際業務產生的數據,通過大數據分析方法進行數據挖掘分析[3],電力企業能夠為用戶提供大量的高附加值服務,有利于電網安全運行以及電力營銷增值服務的開展。
大工業用戶用電量大,經濟價值高,在售電市場放開后會是各類售電公司爭取的對象,也是電力企業需要重點關注和維護的對象。用電信息采集系統收集了大工業用戶的海量詳細負荷數據,反映了用戶的用電行為和用電特征。在此基礎上根據用電特性對大工業用戶進行分組識別,可以為不同群組的特征制定差異化服務策略。
用電負荷數據呈現連續性和波動性,由每個用戶的用電負荷數據繪制成的用電負荷曲線能夠直觀反映該用戶的用電負荷波動特征,因此用電負荷數據可以看成是時間序列數據[4]。對時間序列進行相似性度量可以有效地幫助分析時間序列,也是時間序列聚類與分類過程中必不可少的處理階段之一[5]。時間序列的相似性是通過距離度量來確定的,最常用的相似性度量方法是歐式距離度量[6]。但歐式距離僅適用于2個等長序列的比較,且對時間軸上的變化以及序列上的噪聲等干擾很敏感,不能很好地描述高維時間序列的整體關系。
在度量2組時間序列間的距離時,使用基于DTW(動態時間規整算法),能夠有效反映時間序列數據的相似度,得到所有用戶用電負荷數據的距離矩陣。采用K-means聚類算法,對所有用戶的DTW距離進行聚類,從而得到具有不同負荷特性的群組,實現對用戶的分群研究。
DTW算法能夠衡量2個離散序列的相似程度或距離,通過動態地在時間軸上的扭曲和變動,對序列進行壓縮或者延展以達到更好的匹對,簡單且靈活地實現模板匹配問題,能夠解決很多離散時間序列匹配的問題[7]。
假設2個時間序列Q和C表示為Q=q1,q2,…,qi, …, qn和C=c1, c2,…, cj, …, cm。 定義一個 n 行 m 列的距離矩陣D=[d(qi, cj)], 其中 d(qi,cj)為兩序列中qi和cj兩點的距離。在距離矩陣中,定義時間序列相似關系的一組連續的矩陣元素的集合為彎曲路徑,記為W=w1,w2,…,wl,…,wL。彎曲路徑必須滿足有界性、邊界條件、連續性和單調性條件。一般僅關心具有最小長度的路徑,計算過程采用迭代方法:

式中: γ(i, j)代表 qi和 cj的彎曲路徑的最小長度;d(qi, cj)為兩點之間的距離;min{γ(i-1,j-1), γ(i-1,j),γ(i, j-1)}表示取前一步彎曲路徑的最小值。
根據2個序列的最小路徑長度計算其DTW距離[8], 如公式(2)所示:

式中:L為彎曲路徑的長度;wl為彎曲半徑;DTW為連接所有步長的總最短距離。
DTW距離越小,兩序列相似程度越大。為降低計算的時間復雜度,通常將彎曲路徑限制在一定寬度的窗口內,或限定在斜率確定的平行四邊形內。另外,對時間維度過長或存在異常點的時間序列,常用時間序列近似方法將其表示為長度較短的序列。
聚類是根據一定的算法規則,對一群樣本進行類別劃分的算法過程,聚類結果呈現為組內差異最小化、組間差異最大化[9]。K-means算法是典型的基于距離的聚類算法[10],其將樣本聚類成k個簇,以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。具體算法描述如下:
首先,隨機選取 k個聚類質心點為μ1,μ2,μ3,…,μk∈Rn。
其次,通過公式(3)計算每個樣本點到所有質心的距離,選取距離最近的那個簇作為c(i):

式中: x(i)表示第 i個樣本的中心; c(i)代表樣例 i與k個類中距離最近的那個類,c(i)的值是1到k中的一個。
對于每一個類j,重新計算該類的質心:

式中:μj反映了對屬于同一個類的樣本中心點的猜測,I{c(i)=j}表示判斷第 i個樣例是否屬于第 j類,如果是取1,不是則取0。重復迭代式(3)、式(4)直到質心不變或變化很小。
以某省紡織印染業大工業用戶用電負荷特性的深度分析為例,針對用戶每日96點(采集間隔15 min)的用電負荷數據,采用DTW算法計算用戶負荷曲線相似性距離矩陣,并利用K-means聚類算法對樣本用戶進行聚類,通過模型調參得到最優的模型結果。
選擇某省2017年8月紡織印染業大工業用戶每日96點的負荷數據[11],隨機抽取19 682條樣本,共96個變量,如表1所示。

表1 樣本負荷數據
在進行分析之前,對原始數據進行必要的數據預處理,以使數據規范化。數據預處理包括缺失值處理和歸一化處理。
3.2.1 缺失值處理
由于采集不成功或者數據同步過程中出現信號丟失等原因,導致原始數據中的96點負荷數據中包含有缺失值,對分析造成影響,需要對空缺數據進行合理的填補。補全的方法一般有簡單刪除法、均值插補、多重插補等方法。根據不同的情況,采用不同的缺失值處理辦法:
(1)對于缺失值比例高于30%的樣本,采用簡單刪除法,在樣本中去掉該數據。
(2)對于缺失值比例小于等于30%的樣本,采用均值插補法進行缺失值填充。
3.2.2 數據歸一化
由于用戶的規模不同,用電負荷差異性相差很大,在比較不同用電用戶的用電負荷曲線特征時,數值的大小會影響相似度計算,需要進行數據歸一化處理,如公式(5)所示:

式中:P代表每個用戶的負荷;ob代表企業編號;j為[1,96]區間的整數,代表一個整天共96個時間節點;max,min分別代表該企業每日負荷的最大值和最小值。經過歸一化處理后,字段的取值介于[0,1]之間,使所有用戶的用電負荷數據由物理系統數值變成相對值關系數據,達到縮小和統一量綱的目的。
3.2.3 數據降維
考慮到DTW計算復雜度為O(nm),以及負荷本身的可伸縮性,將計算得出的24 h平均負荷作為時間序列的特征,從而實現時間序列的特征提取和數據降維[12-13]。
將基于DTW算法得到的計算距離,通過K-means算法進行聚類。
(1)確定聚類個數。
K-means聚類首先需要確定聚類個數,常用的評估聚類效果的指標有SSE,DBI,CHI,Calin sky criterion等[14-16],此處采用常見的SSE指標,如圖1所示,來確定K值。

圖1 聚類分析SSE指標
通過SSE指標圖分析,確定最終的分類個數為K=4。
(2)隨機選擇聚類中心。
在確定聚類個數后,隨機選擇4個樣本作為聚類中心,剩余樣本為19 678個。
(3)第一次分類。
將選擇的4個聚類中心標記為O1,O2,O3,O4,針對剩余的19 678個樣本,分別計算其與4個聚類中心點的DTW距離,取最小距離值作為該樣本的類別,即:

式中:j=1,2,3,4,表示將樣本i劃分為j類的規則,即若樣本i與j類的DTW距離最小,則該樣本屬于j類。
(4)重新計算類中心。
在步驟(3)中,將所有的樣本都劃分到初始化的類別中,每個類中包含若干個樣本。然后重新計算類中心,第j類的中心為:

式中:I{c(i)=j}表示判斷第 i個樣本是否屬于第j類, 如果是取 1, 不是則取 0。 x(i)表示第 i個樣本的中心,整個公式表示計算第j類的類中心。
(5)迭代重復。
迭代重復第(3)、第(4)步,直到所有的樣本都不能再分配為止,即為結果收斂,停止迭代。此時每個樣本的聚類結果為最終的聚類結果。
本研究最終聚類的結果如表2所示。

表2 聚類結果
通過聚類分析,將19 682個紡織印染業客戶聚類為4個類別,且每個類別的差異性特征明顯,分別為:24 h生產型用戶、白天生產型用戶、雙峰生產型用戶以及夜間生產型用戶。
此類用戶的用電負荷曲線表明其全天24 h都處于工作狀態,不存在明顯的峰谷生產行為,如圖2所示。

圖2 24 h生產型用戶負荷特征
針對此類用戶,推薦其辦理峰谷用電,并建議其生產時段依據峰谷用電進行調整,從而達到節省用電成本、平衡電網實時負荷的目的。
此類用戶的用電負荷曲線表明其在白天處于連續用電高峰,而在晚間處于用電負荷低谷,如圖3所示,主要集中在人力成本較高的勞動密集型企業。

圖3 白天生產型用戶負荷特征
建議此類用戶進行避峰生產,同時辦理峰谷用電。在實際中,具體到每一個用戶,再根據用戶的其他屬性,給予差異化的精準服務策略。
此類用戶的用電負荷在上午和下午均出現高峰,中午時段有明顯低谷,負荷曲線呈現M型的雙峰形狀,如圖4所示。

圖4 雙峰生產型用戶負荷特征
此類用戶的負荷特性與人員的作息比較相符,多屬于生產和管理相結合型。針對此類用戶,可以為其提供電能替代推薦,如電采暖、電制冷。
此類用戶只在夜間生產,白天幾乎不生產,如圖5所示,夜間用電的成因各不相同,諸如政策影響導致的限產,生產特性安排的夜間生產,下半夜的谷時段電價更低。
此類用戶通過分析其歷史用電特性,分析其是否屬于連續性夜間生產型。對于連續夜間生產型用戶,給予安全用電指導關懷;對于臨時性夜間生產型,給予辦理峰谷用電、增/減容用電提醒。
另外,分別針對以上4類用戶設計相應的電費套餐,在電力市場化和售電側市場進一步放開后,及時推出相應套餐吸引客戶,搶占市場先機。

圖5 夜間生產型用戶負荷特征
實例結果表明,采用DTW算法對電力大用戶的用電負荷數據進行相似度度量,并通過K-means聚類算法對用戶進行聚類分析,能夠對用戶的用電負荷曲線特征進行良好的度量和區分,實現用戶負荷曲線的聚類和負荷特性分析。
通過對紡織印染業電力大用戶的用電負荷曲線進行聚類分析,發現存在4種明顯差異的用電特征。在售電側放開的市場環境下,針對不同類型的用戶群體,設計差異化的用電套餐及服務策略,為市場化售電未雨綢繆,對提升企業競爭力具有非常重要的現實意義。