基于多任務(wù)聯(lián)合模型的居民用電模式分類方法

2022-11-12 03:17:56徐明杰王小宇陳伯建

電工技術(shù)學報 2022年21期

徐明杰趙健王小宇宣羿陳伯建

徐明杰1趙健1王小宇1宣羿2陳伯建3

（1. 上海電力大學電氣工程學院上海 200090 2. 國網(wǎng)浙江省電力有限公司杭州供電公司杭州 310016 3. 國網(wǎng)福建省電力有限公司電力科學研究院福州 350000）

識別海量居民用戶的用電行為模式并進行合理分類，可為需求側(cè)精益化管理提供輔助決策。該文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)自動編碼器與層次聚類多任務(wù)聯(lián)合模型的居民用電模式分類方法。首先，提出基于同時刻量測數(shù)據(jù)均值的缺失值填補方法和基于季節(jié)性極端學生化偏差檢驗的異常點檢測方法，對海量且高維的用電數(shù)據(jù)進行數(shù)據(jù)清洗與修正；其次，利用卷積神經(jīng)網(wǎng)絡(luò)自動編碼器對居民用電數(shù)據(jù)進行特征提取，獲取可表征用戶用電行為的特征向量；然后，結(jié)合層次聚類算法以及輪廓系數(shù)指標確定用戶聚類個數(shù)以及聚類中心向量，并利用聚類中心向量初始化神經(jīng)網(wǎng)絡(luò)聚類層，進行用戶聚類，將特征提取過程與用戶聚類過程進行聯(lián)合，組成多任務(wù)學習神經(jīng)網(wǎng)絡(luò)，實現(xiàn)端到端的用電模式分類；最后，結(jié)合環(huán)境溫度和電價影響因素，在實際數(shù)據(jù)集進行驗證。

居民負荷負荷聚類卷積神經(jīng)網(wǎng)絡(luò) 自動編碼器聯(lián)合模型

0 引言

居民負荷是電力負荷的重要組成部分，有效分析居民用戶的用電特性有助于洞悉用戶用電行為模式，為需求側(cè)精益化管理、分時電價制定及新能源就地消納等應(yīng)用提供決策支撐，協(xié)助電力公司在保障民生的同時，進一步推動實現(xiàn)“碳中和”[1-5]。然而居民智能電表所量測的用電數(shù)據(jù)高維且海量，數(shù)據(jù)質(zhì)量不一，蘊含大量非線性關(guān)系[6]。并且居民負荷之間的用電特性差異大[7]，負荷調(diào)控潛力各不相同。如何針對海量居民用戶進行精準的用電模式分類，把握其用電行為與能耗模式，成為推動電力供需互動發(fā)展亟需解決的問題。

海量用戶的用電模式分類通常利用聚類算法將具有相似用電行為模式的用戶劃分為同一類別[8]，其主要可分為直接聚類法和間接聚類法。直接聚類以用戶用電數(shù)據(jù)作為輸入，利用聚類算法進行分類。在文獻[9-12]中，分別采用改進Kmeans算法、模糊C均值聚類和動態(tài)聚類算法對電力用戶的日負荷曲線進行分類。文獻[13]結(jié)合時間序列的動態(tài)時間扭曲距離和密度峰值聚類方法獲取典型負荷曲線。然而將高維的用電數(shù)據(jù)直接進行聚類難以提取復(fù)雜的用電行為變化特性，若僅采用單個典型日的負荷數(shù)據(jù)又難以考慮負荷在長時間尺度上的時序變化特性。

間接聚類主要利用特征提取方法減少數(shù)據(jù)維度后再進行聚類。典型的特征提取方法包含人工特征提取法與降維算法等。人工特征提取法通過用電曲線的用電特征指標表征用戶用電行為[8]，例如，日最大負荷、日負荷率、不同用電時間段的平均負荷等指標[14-15]。但以上指標難以描述用戶用電行為的時序變化特性，所以許多研究引入降維算法進行分析。文獻[16-17]引入分段聚合近似法及深度置信網(wǎng)絡(luò)對負荷曲線進行近似。文獻[18-19]采用主成分分析法對用戶量測數(shù)據(jù)進行降維，然而該算法屬于線性降維，難以考慮數(shù)據(jù)間的非線性關(guān)系。文獻[20]提出一種基于長短期記憶網(wǎng)絡(luò)自動編碼器的負荷聚類方法，但是長短期記憶網(wǎng)絡(luò)的輸入需是單個且連續(xù)的時間序列，難以實現(xiàn)多用戶的分類。

針對以上問題，本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)自動編碼器（Convolutional Neural Networks Auto-Encoder, CNN-AE）與層次聚類聯(lián)合模型的居民用電模式分類方法。首先，提出一種基于同時刻量測數(shù)據(jù)均值（Mean Value of Simultaneous Data, MVSD）的缺失值填補方法和基于季節(jié)性極端學生化偏差檢驗（Seasonal Hybrid Extreme Studentized Deviate Test, S-H-ESD）的異常點檢測方法，減小數(shù)據(jù)缺失值以及異常值對模型分類的影響；其次，提出一種用于用電行為特征提取和用戶聚類的聯(lián)合神經(jīng)網(wǎng)絡(luò)模型，該模型通過CNN-AE對居民用電數(shù)據(jù)進行特征提取，挖掘其內(nèi)在非線性關(guān)系以及時序變化特性，獲取表征居民用電行為的特征向量，同時結(jié)合層次聚類算法自定義一個神經(jīng)網(wǎng)絡(luò)層用于用戶聚類；然后，將特征提取模型與用戶分類模型進行聯(lián)合，組成多任務(wù)學習神經(jīng)網(wǎng)絡(luò)模型；最后，通過聯(lián)合模型的部分神經(jīng)網(wǎng)絡(luò)參數(shù)共享，同步優(yōu)化其特征提取誤差與聚類誤差，避免特征提取模型過擬合的同時降低用戶聚類的誤差，實現(xiàn)端到端的居民用電模式分類，并結(jié)合環(huán)境溫度和電價因素，在實際公開數(shù)據(jù)集中驗證了本文方法的有效性。

1 基于MVSD的缺失值填補和S-H-ESD的異常點檢測方法

1.1 基本思路

由于居民用戶智能電表在量測及信息傳輸過程中會存在量測誤差和數(shù)據(jù)上傳失敗等問題，導(dǎo)致量測數(shù)據(jù)存在數(shù)據(jù)缺失、異常，從而影響模型準確。同時考慮到神經(jīng)網(wǎng)絡(luò)模型對訓練數(shù)據(jù)的輸入維度有嚴格要求，所以需要對數(shù)據(jù)集進行預(yù)處理清洗及修正。針對此問題，本文提出基于同時刻量測數(shù)據(jù)均值的缺失值填補方法和基于季節(jié)性極端學生化偏差檢驗算法的異常點檢測方法。通過計算MVSD數(shù)值對數(shù)據(jù)缺失值進行填補，并利用S-H-ESD算法對用戶的用電數(shù)據(jù)進行異常檢測。將所檢測出的異常點數(shù)值重新定義為缺失值，并再次進行填補，直至完成對整個數(shù)據(jù)集的清洗。

1.2 基于MVSD的缺失值填補方法

1.3 基于S-H-ESD算法的異常點檢測方法

為了減小異常值對算法模型的影響，提出基于S-H-ESD算法的居民用戶量測數(shù)據(jù)異常點檢測方法。該方法結(jié)合時間序列分解的季節(jié)性成分和絕對中位差（Median Absolute Deviation, MAD）對ESD算法進行改進，提升了對高占比異常數(shù)據(jù)時間序列異常檢測的魯棒性。

假設(shè)被檢測的單變量時間序列為，首先對該時間序列進行時序分解，獲取該時間序列的周期分量，并計算余項分量與絕對中位差MAD，計算方法為

再計算余項分量與均值偏離最遠的殘差R，計算公式為

式中，為殘差的計算次數(shù)；為時間序列的異常點存在個數(shù)。

完成殘差計算之后，計算對應(yīng)的分布的臨界值λ，其計算公式為

式中，為被檢測時間序列的樣本數(shù)；t1為顯著度等于、自由度為1時的分布的臨界值；為所選取的置信度水平大小，在本文中取0.95。

當R＞λ，則定義該樣本點為異常數(shù)據(jù)點。完成一次異常值檢測之后，在進行下一次計算時，應(yīng)刪除上一輪計算的最大殘差樣本數(shù)據(jù)，并重新計算，直到完成所有樣本的檢測。

2 自動編碼器和層次聚類基本原理

2.1 自動編碼器原理

自動編碼器是一種數(shù)據(jù)壓縮的算法，具有良好的非線性特征提取能力，可以獲取能夠代表輸入數(shù)據(jù)結(jié)構(gòu)以及隱藏非線性特性的特征向量。最基本的自動編碼器神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 自動編碼器示意圖

2.2 層次聚類原理

層次聚類通過計算不同類別數(shù)據(jù)點間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹，聚類質(zhì)量高[22]。假設(shè)利用所提出的模型針對用戶所提取的特征向量為，用戶的特征向量為，選擇歐式距離作為聚類相似性度量，則用戶與用戶之間的距離相似度d, j為

所以對于個用戶數(shù)據(jù)的輸入，則用戶間的距離相似度矩陣為

在矩陣中，對距離值最小的兩個數(shù)據(jù)點進行組合，再次計算距離相似度矩陣。對于組合后數(shù)據(jù)點（,）與單個數(shù)據(jù)點的距離相似度(j,k),m計算方法為

再次尋找計算后未被組合的數(shù)據(jù)點距離相似度的最小值，并對其組合。完成所有數(shù)據(jù)點組合后，對于組合間的距離，選取兩個組合數(shù)據(jù)點中距離最遠的兩個數(shù)據(jù)點間的距離作為這兩個組合數(shù)據(jù)點的距離，將距離值最小的兩個數(shù)據(jù)點再次進行合并，依此類推，直到完成所有數(shù)據(jù)的合并，形成層次聚類樹。

3 基于CNN-AE與層次聚類算法的聯(lián)合模型

3.1 聯(lián)合模型的基本思路

傳統(tǒng)的間接用戶分類方法先進行特征提取，再利用聚類算法進行分類。然而特征提取過程中只考慮數(shù)據(jù)的信息損失誤差，聚類算法只考慮分類誤差，未在兩個計算模型之間建立聯(lián)系，所以會導(dǎo)致降維算法所提取的特征向量并不是最優(yōu)的用于區(qū)分用戶相似程度的向量。為了將聚類計算過程結(jié)合到特征提取過程中，提出一種基于CNN-AE與層次聚類算法的聯(lián)合模型，其具體結(jié)構(gòu)如圖2所示。

圖2 聯(lián)合模型結(jié)構(gòu)

具體地，整個模型可分為CNN-AE模型和編碼-聚類模型兩個子模型。由于居民的用電數(shù)據(jù)高維且蘊含大量非線性關(guān)系，利用CNN-AE可有效對這些序列數(shù)據(jù)進行特征提取，降低數(shù)據(jù)維度的同時獲取可代表用戶用電行為特性的特征向量。編碼-聚類模型負責對CNN-AE的編碼器部分所提取的特征向量進行聚類，得到最終的用戶聚類結(jié)果。下面對這兩個模型進行詳細分析。

3.2 基于CNN-AE的用電特征提取模型

CNN-AE的學習目標是獲取能夠代表用戶典型用電特性的特征向量。對于CNN-AE的網(wǎng)絡(luò)架構(gòu)選取，本文選擇對計算機視覺領(lǐng)域經(jīng)典網(wǎng)絡(luò)VGGNET-16進行改進。VGGNET-16相比簡單的圖像處理網(wǎng)絡(luò)例如LeNet、AlexNet，其層數(shù)更深，對數(shù)據(jù)的特征提取能力更強，同時相較其他大型的圖像處理網(wǎng)絡(luò)，其結(jié)構(gòu)簡單，減少了計算成本的同時保證了模型的精確度。傳統(tǒng)的VGGNET-16神經(jīng)網(wǎng)絡(luò)在進行卷積池化特征提取操作之后，將獲得的特征向量進行展平，再緊接多個全連接層，最終實現(xiàn)圖像分類等應(yīng)用。由于需要對用戶的用電時間序列進行特征提取，所以將其神經(jīng)網(wǎng)絡(luò)架構(gòu)轉(zhuǎn)換為自編碼結(jié)構(gòu)。考慮到卷積神經(jīng)網(wǎng)絡(luò)層數(shù)過多會導(dǎo)致過擬合，對典型VGGNET-16進行簡化改進，減少一定的特征提取層數(shù)。經(jīng)改進后的模型首先利用卷積層與降采樣池化層對用電序列數(shù)據(jù)進行特征提取，得到隱特征向量，再通過逆卷積層與上采樣池化層對隱特征向量進行重構(gòu)，并基于數(shù)據(jù)的重建誤差進行反向傳播調(diào)整神經(jīng)網(wǎng)絡(luò)權(quán)重。本文選用方均誤差作為數(shù)據(jù)重建誤差的衡量指標，所以該模型的損失函數(shù)CA為

假設(shè)居民用戶的用電序列每隔半小時采樣一次，則一天采樣點數(shù)為48個，對于個量測用戶天的輸入數(shù)據(jù)維度為（,, 48, 1）。需要指出的是，這里將量測天數(shù)作為通道數(shù)放在輸入維度第二位，與傳統(tǒng)的圖像識別輸入數(shù)據(jù)并不完全相同。輸入數(shù)據(jù)經(jīng)過CNN-AE的編碼與解碼處理之后，其輸出維度仍為（,, 48, 1），中間層隱特征向量維度選取為（1, 48）。

3.3 基于層次聚類算法的編碼-聚類模型

編碼-聚類模型由CNN-AE的編碼層和自定義聚類層組成，其中自定義聚類層的主要計算步驟如下：

（1）初始化自定義聚類層權(quán)重。首先利用CNN-AE模型對輸入數(shù)據(jù)進行預(yù)訓練，得到隱特征向量，再利用層次聚類算法對隱特征向量進行初步聚類，獲取各個類別的聚類中心向量，并將其設(shè)置為自定義聚類層的網(wǎng)絡(luò)參數(shù)權(quán)重。假設(shè)用戶群體總聚類個數(shù)為，單用戶的用電特征向量輸出維度為（1,），則自定義網(wǎng)絡(luò)層的權(quán)重參數(shù)的維度為（,）。

（2）特征向量獲取。完成聚類層權(quán)重初始化之后，通過CNN-AE的編碼器部分獲取能夠代表用戶用電特性的隱特征向量，作為自定義聚類層的輸入。

（3）距離相似度計算。計算每一個居民用戶的隱特征向量與自定義聚類層中每一個聚類中心之間的歐式距離，分別記為（d1,d2, …,d），其中d（1≤≤）表示用戶與第類聚類中心之間的歐式距離相似度。

（4）距離相似度轉(zhuǎn)換。為了更確切地將步驟（3）的計算結(jié)果轉(zhuǎn)換為該用戶所屬該聚類中心的概率，可利用學生分布將距離相似度轉(zhuǎn)換為概率分布，其轉(zhuǎn)換公式為

式中，q為用戶屬于類別的概率；在非監(jiān)督學習中可設(shè)置=1。

通過自定義聚類層計算，可得到每個用戶所屬各個類別的概率，為了定義聚類層的損失函數(shù)，本文引入Kullback-Leibler散度（KL散度）指標。KL散度又稱為相對熵，是兩個概率分布間差異的非對稱性度量，其具體的推導(dǎo)過程見附錄。所以除已有概率分布外，還需引入輔助目標概率分布。參考文獻[23]，可設(shè)置輔助概率分布為

式中，p為用戶屬于類別的輔助概率值。

所以根據(jù)KL散度的定義，自定義聚類層的損失函數(shù)cluster可寫為

需要注意的是，在步驟（1）初始化自定義聚類層權(quán)重時，需利用層次聚類算法在模型外部先確定聚類的個數(shù)。在未知實際分類類別數(shù)情況下，本文引入聚類指標輪廓系數(shù)（Silhouette Coefficient, SC）衡量聚類效果的好壞。單個樣本的輪廓系數(shù)S計算公式為

式中，a為樣本與其所屬類中其他樣本的平均距離；b為樣本與其他類樣本的平均距離。對于整個數(shù)據(jù)集的聚類結(jié)果的SC計算公式為

SC的取值范圍為[-1,1]，其取值越大，代表聚類的效果越理想。結(jié)合聚類個數(shù)大小與SC指數(shù)之間變化關(guān)系可確定最終的聚類個數(shù)。

3.4 構(gòu)建聯(lián)合模型

完整的分類模型將CNN-AE模型和編碼-聚類模型進行聯(lián)合，組成多任務(wù)學習神經(jīng)網(wǎng)絡(luò)。多任務(wù)學習可通過部分神經(jīng)網(wǎng)絡(luò)參數(shù)共享，不同任務(wù)之間可以相互學習。本文將兩個子模型的損失函數(shù)進行累加，得到整個聯(lián)合模型的損失函數(shù)為

通過該損失函數(shù)可以將兩個子模型進行聯(lián)合，利用Adam求解器同步優(yōu)化CNN-AE的重建誤差和編碼-聚類模型的分類誤差。在特征提取的同時，也可實時計算分類結(jié)果。并且編碼-聚類模型可通過KL散度誤差調(diào)整CNN-AE編碼器部分的神經(jīng)網(wǎng)絡(luò)參數(shù)，實現(xiàn)端到端的居民用電模式分類。用戶分類整體的計算流程如圖3所示。

4 算例驗證及分析

本文所選用的數(shù)據(jù)集來自Low Carbon London project下的Smart meter energy consumption data in London households[24]，數(shù)據(jù)集包含5 567個居民用戶每半小時的用電量（一天48個采樣點，單位kW·h）。整個數(shù)據(jù)集被分為兩種用電模式客戶，第一種為固定電價用戶，第二種為動態(tài)電價用戶。該數(shù)據(jù)集提供了2013年全年的實時電價，所以本文選擇2013年全年的數(shù)據(jù)進行分析，經(jīng)去除部分無效量測用戶后，還包含3 946個固定電價用戶，1 016個動態(tài)電價用戶。對篩選后用戶數(shù)據(jù)進行缺失值填補與異常點檢測處理，得到清洗后數(shù)據(jù)。

圖3 用戶分類整體計算流程

考慮到數(shù)據(jù)集包含兩種不同類型的用戶，動態(tài)電價用戶可能會參與電價激勵響應(yīng)導(dǎo)致用電特性發(fā)生改變，所以為了更加精確地對用戶進行分類建模，對兩種類型用戶進行分別分析。同時由于居民用戶的用電行為與外界溫度密切相關(guān)，所以本文另結(jié)合倫敦地區(qū)2013年的月平均溫度，其變化情況如附圖1所示。從附圖1可知，1月、2月、3月、4月、11月、12月的平均溫度全部低于10℃，其他月份的平均溫度則高于10℃。所以結(jié)合溫度以及電價類型因素將整個數(shù)據(jù)集劃分為四個子數(shù)據(jù)集，劃分結(jié)果見表1。

表1 考慮電價與溫度因素的數(shù)據(jù)集劃分結(jié)果

Tab.1 Dataset division results considering electricity price and temperature factors

對于動態(tài)電價用戶，其電價類型分為高電價（67.20p/(kW·h)）、正常電價（11.76p/(kW·h)）及正常電價（3.99p/(kW·h)），其中p為貨幣單位便士。電力運營商會根據(jù)當?shù)嘏渚W(wǎng)的運行狀態(tài)以及可再生能源的發(fā)電情況將未來一天各個時段的電價提前一天通過短信等方式發(fā)送給用戶，由用戶決定是否改變自身的用電行為。

4.1 聚類個數(shù)選取

如3.2節(jié)所述，在初始化自定義聚類層權(quán)重時，需先確定聚類個數(shù)。對四個數(shù)據(jù)集分別進行預(yù)訓練特征提取、聚類之后，結(jié)合SC指標確定各個數(shù)據(jù)集的聚類個數(shù)。各個數(shù)據(jù)集的SC指標大小與聚類個數(shù)之間的關(guān)系如圖4所示。

圖4 聚類個數(shù)與SC指標變化關(guān)系

由圖4可知，對于數(shù)據(jù)集1和數(shù)據(jù)集2，在聚類數(shù)為2時取得最大的輪廓系數(shù)；對于數(shù)據(jù)集3和數(shù)據(jù)集4，分別在聚類數(shù)為4和2時取得最大輪廓系數(shù)。考慮到用戶分類在智能電網(wǎng)中的應(yīng)用，以及為能源零售商、負荷聚合商的政策制定提供支持，所選的聚類個數(shù)不宜過大，也不宜過小[25]。所以綜合SC的變化曲線，選取各個數(shù)據(jù)集的聚類個數(shù)為3。

4.2 計算結(jié)果

4.2.1 固定電價用戶分析結(jié)果

首先對固定電價用戶進行分析，經(jīng)過本文所提出的模型進行用戶分類之后，對同類用戶各個時間點的用電數(shù)據(jù)繪制箱線圖得到該類用戶的典型用電箱線圖。箱線圖可以反映用電數(shù)據(jù)的分布特征，能顯示出一組數(shù)據(jù)的最大值、最小值及上下四分位數(shù)等，并用綠色標記標識出平均值。對同類別的每個用戶的各個時間點量測值取均值，得到該類所有用戶的典型用電曲線。數(shù)據(jù)集1中各類用戶的典型用電箱線圖與典型用電曲線如圖5所示。

圖5 數(shù)據(jù)集1各類用戶典型用電箱線圖與曲線圖

由圖5a可知，對于數(shù)據(jù)集1，在用電量消耗大小層面，Ⅱ類用戶群體用電消耗量較小，各個時段的用電消耗量均值均未超過0.25kW·h；第Ⅰ類用戶群體用電消耗量中等，各個時段的用電消耗量均值處在0.25kW·h左右；Ⅲ類用戶群體用電消耗量較高，各個時段用電消耗量均值基本都大于0.25kW·h。由圖5b可知，在用電能耗變化趨勢層面，Ⅰ類與Ⅱ類用戶群體用電曲線波動性較小，變化較為規(guī)律，Ⅲ類用戶群體用電曲線波動性大。Ⅰ類和Ⅲ類用戶群體在時段12～20存在小的用電高峰，在時段36～44存在大的用電高峰，整體呈現(xiàn)雙峰型用電曲線；對于Ⅲ類用戶群體，部分用戶的用電高峰出現(xiàn)在時段0～4。

數(shù)據(jù)集2中每類用戶的典型用電箱線圖與典型用電曲線如附圖2所示。對于數(shù)據(jù)集2，由附圖2a可知，在用電量消耗大小層面，Ⅰ類用戶群體在各個時段用電量均值大，Ⅱ類與Ⅲ類用戶群體用電量消耗均值小。由附圖2b可知，在用電能耗變化趨勢層面，Ⅱ類與Ⅲ類用戶群體的用電曲線波動性小，Ⅰ類用戶群體的用電曲線波動性大。所有三類用戶群體整體都呈現(xiàn)雙峰型用電曲線，類似于數(shù)據(jù)集1，在時段16～20與時段36～44出現(xiàn)用電高峰，并且Ⅰ類用戶群體在時段0～4的用電量消耗也處于較高水平。

為驗證本文模型所提取的低維用電特征向量具有良好的用戶區(qū)分度，利用分布隨機近鄰嵌入（t-distributed Stochastic Neighbor Embedding, t-SNE）算法將所提取的特征向量降至2維，并結(jié)合散點圖對其進行可視化。t-SNE是一種強大的高維數(shù)據(jù)降維方法，相比于其他降維算法，其主要優(yōu)勢為可保持數(shù)據(jù)的局部結(jié)構(gòu)與全局結(jié)構(gòu)[26]。將降至2維后的數(shù)據(jù)分別命名為1和2。對數(shù)據(jù)集1所提取的特征向量降維后散點圖如圖6所示。

圖6 數(shù)據(jù)集1特征向量降維后散點圖

數(shù)據(jù)集2特征向量降維后散點圖如附圖3所示。通過圖6和附圖3可以發(fā)現(xiàn)，各類用戶的特征向量數(shù)據(jù)經(jīng)過t-SNE降維后具有明顯的區(qū)分度，同類別用戶明顯屬于同一簇，不同類用戶之間的簇界限明顯。

4.2.2 動態(tài)電價用戶分類結(jié)果分析

對于動態(tài)電價用戶，類似地，數(shù)據(jù)集3中每類用戶的典型用電箱線圖與典型用電曲線如圖7所示。數(shù)據(jù)集4每類用戶的典型用電箱線圖與典型用電曲線如附圖4所示。由圖7和附圖4可知，對于數(shù)據(jù)集3，在用電量消耗大小層面，Ⅱ類用戶群體用電量消耗水平較低；Ⅲ類用戶群體用電量水平中等，整體均值在0.25～0.5kW·h左右；相比于以上兩類，Ⅰ類用戶群體用電量大小水平高，整體均值為0.5kW·h。對于數(shù)據(jù)集4，Ⅰ類、Ⅱ類、Ⅲ類用戶群體的用電量大小水平分別呈低、高、中變化，整體均值水平分別在0.2kW·h、0.5kW·h、0.3kW·h左右。在用電能耗變化趨勢層面，數(shù)據(jù)集3和數(shù)據(jù)集4的各個類別的用戶群體具有大致相似的用電行為特性，在時段12～16存在用電量消耗攀升的過程，并且在時段16～32的消耗趨于平緩，時段32～40再次出現(xiàn)用電消耗高峰，往后的剩余時段用電量消耗逐漸下降并趨于平緩。

圖7 數(shù)據(jù)集3各類用戶典型用電箱線圖與曲線圖

對數(shù)據(jù)集3提取的特征向量降維后可視化散點圖如圖8所示。數(shù)據(jù)集4特征向量降維后散點圖如附圖5所示。由圖8和附圖5可知，對動態(tài)電價用戶數(shù)據(jù)集所提取的特征向量，經(jīng)t-SNE降維并可視化后，相同類別的用戶聚于同一簇，不同類別的用戶群體之間的界限明顯。

圖8 數(shù)據(jù)集3特征向量降維后散點圖

由于動態(tài)電價用戶實行階梯電價，用戶會根據(jù)實時電價的變化情況選擇是否參與電價激勵響應(yīng)。為驗證用戶分類結(jié)果在評估用戶負荷調(diào)控潛力中的應(yīng)用，在動態(tài)電價用戶分類結(jié)果的基礎(chǔ)上，根據(jù)動態(tài)電價信息選擇典型的電價變化日期，對不同類型用戶群體的典型用電曲線進行對比。對于數(shù)據(jù)集3，本文選取間隔較近的日期2013-12-18與2013-12-22作對比，這兩日為間隔較近的日期，所以用戶用電量需求不會發(fā)生大的改變，其中12月18日各個時段均為正常電價，12月22日各時段的電價類型不同，包含高、正常、低水平電價，為階梯電價。分別對各個類別用戶群體的用電序列在各個時刻取均值，得到該類用戶的典型用電曲線，具體對比如圖9所示。

圖9 數(shù)據(jù)集3各類用戶不同電價下用電曲線對比

在圖9中，不同區(qū)間代表所實行動態(tài)電價的不同電價水平，可以發(fā)現(xiàn)不同類別的用戶群體對電價激勵響應(yīng)情況不相同。Ⅰ類和Ⅲ類用戶群體明顯地參與電價激勵響應(yīng)，相比于12月18日各時段只實行正常電價時的典型用電曲線，這些用戶群體在12月22日的低電價時段大幅增加了用電量，Ⅱ類用戶群體對電價激勵響應(yīng)并不積極，未明顯改變自身的用電行為。在高電價時段，各類用戶群體基本均未改變自身的用電習慣。

對于數(shù)據(jù)集4，選擇2013-7-22與2013-7-23作為對比日期，其中7月22日的各時段電價不發(fā)生變化，均為正常電價，7月23日的不同時段電價類型不同，為階梯電價。具體對比如附圖6所示，Ⅰ類和Ⅲ類用戶群體對電價激勵進行響應(yīng)，在低電價時段適當增加了自身的用電量，Ⅱ類用戶群體未明顯改變自身的用電行為。考慮數(shù)據(jù)集4所在日期的平均溫度相比于數(shù)據(jù)集3較高，用戶的制熱負荷少，所以在用戶群體參與電價激勵響應(yīng)時所改變的用電量較少。

4.3 不同模型分類性能對比

為了驗證本文所提出模型的優(yōu)越性，引入PCA-Kmeans聚類方法、PCA-層次聚類法及先用CNN-AE特征提取再單獨聚類的非聯(lián)合模型方法進行對比。同時為更全面地評價各類方法的優(yōu)劣，另引入DBI（Davies-Bouldin Index）指標以及CH（Calinski-Harabas）指標。

DBI指標衡量同一簇中數(shù)據(jù)的緊密性,其值越小代表分類效果越好，其計算公式為

CH指標通過計算類內(nèi)各點與類中心的距離二次方和來度量類內(nèi)的緊密度，其值越大代表類內(nèi)自身越緊密，類與類之間越分散，即聚類結(jié)果更優(yōu)。

結(jié)合SC指標、DBI指標和CH指標，計算各方法在聚類數(shù)為3時對應(yīng)的指標值，結(jié)果見表2。

表2 PCA-Kmeans、PCA-層次聚類法、非聯(lián)合模型和聯(lián)合模型算法性能對比

Tab.2 Performance comparison among PCA-Kmeans, PCA hierarchical clustering, non-joint model, joint model

由表2可知，本文所提出的聯(lián)合模型與其余算法相比，SC指標更高，DBI值更小，CH值更高，分類效果更好。非聯(lián)合模型相比基于PCA降維的分類方法各指標提升效果不大，然而采用多任務(wù)學習的聯(lián)合模型對分類有效性提升明顯。

為了進一步驗證本文方法的適用性，本文另在愛爾蘭CER公開數(shù)據(jù)集上選取700名固定電價居民用戶進行了方法驗證[27]，算例仿真結(jié)果如附圖7、附圖8和附表1所示。經(jīng)驗證，本文方法在CER數(shù)據(jù)集上具有一定優(yōu)越性。

5 結(jié)論

針對居民用戶用電數(shù)據(jù)的海量高維性以及非線性關(guān)系難以提取問題，本文提出一種基于CNN-AE與層次聚類聯(lián)合模型的居民用電模式分類方法，并以實際公開數(shù)據(jù)集為例，驗證了本文所提分類方法的有效性。算例結(jié)果表明：

1）考慮溫度因素和用戶電價類型，分時段、分類型對用戶進行劃分，可對用戶進行更加精細化的分類。

2）利用本文模型所提取的居民用戶用電特征向量具有良好的用戶區(qū)分度。

3）與所引入的其他算法對比，本文所提算法模型在多個聚類有效性指標上表現(xiàn)更佳，具備明顯優(yōu)勢。

4）對于動態(tài)電價用戶，利用本文所提算法模型可以有效挖掘用電行為變化特性，進行合理分類，可為負荷調(diào)控、實時電價制定提供理論支撐。

附錄

信息量的期望稱為熵，假設(shè)事件共有種可能，發(fā)生事件x的概率為(x),則該事件的熵()為

KL散度又稱為相對熵,如果對于同一個隨機變量有兩個單獨的概率分布()和()，可以使用KL散度來衡量這兩個分布的差異，計算公式為

式中，為樣本的真實分布；為模型所預(yù)測的分布。

附圖1 2013年倫敦月平均溫度

App.Fig.1 Average monthly temperature in London in 2013

附圖2 數(shù)據(jù)集2各類用戶用電箱線圖與用電曲線圖

App.Fig.2 Typical power consumption box diagram and curve diagram of various users in Dataset 2

附圖3 數(shù)據(jù)集2特征向量降維后散點圖

App.Fig.3 Feature vector scatter plot after dimensionality reduction of Dataset 2

附圖4 數(shù)據(jù)集4各類用戶的典型用電箱線圖與曲線圖

App.Fig.4 Typical power consumption box diagram and curve diagram of various users in Dataset 4

附圖5 數(shù)據(jù)集4特征向量降維后散點圖

App.Fig.5 Feature vector scatter plot after dimensionality reduction of Dataset 4

附圖6 數(shù)據(jù)集4各類用戶不同電價下用電曲線對比

App.Fig.6 Comparison of electricity consumption curves of various users in Dataset 4 under different electricity prices

附圖7 CER數(shù)據(jù)集各類用戶典型用電箱線圖與用電曲線

App.Fig.7 Typical power consumption box diagram and curve diagram of various users in Dataset CER

附圖8 CER數(shù)據(jù)集特征向量降維后散點圖

App.Fig.8 Feature vector scatter plot after dimensionality reduction of Dataset CER

附表1 CER數(shù)據(jù)集各算法性能對比

App.Tab.1 Performance comparison of various algorithms in Dataset CER

[1] 雷怡琴, 孫兆龍, 葉志浩, 等. 電力系統(tǒng)負荷非侵入式監(jiān)測方法研究[J]. 電工技術(shù)學報, 2021, 36(11): 2288-2297.

Lei Yiqin, Sun Zhaolong, Ye Zhihao, et al. Research on non-invasive load monitoring method in power system[J]. Transactions of China Electrotechnical Society, 2021, 36(11): 2288-2297.

[2] Wang Yi, Chen Qixin, Hong Tao, et al. Review of smart meter data analytics: applications, methodologies, and challenges[J]. IEEE Transactions on Smart Grid, 2019, 10(3): 3125-3148.

[3] 王孝慈, 董樹鋒, 王莉, 等. 基于電器狀態(tài)關(guān)聯(lián)分析的民可平移負荷辨識[J]. 電工技術(shù)學報, 2020, 35(23): 4961-4970.

Wang Xiaoci, Dong Shufeng, Wang Li, et al. Resident shiftable loads monitoring based on load states set correlation analysis[J]. Transactions of China Electrotechnical Society, 2020, 35(23): 4961-4970.

[4] 周東國, 張恒, 周洪, 等. 基于狀態(tài)特征聚類的非侵入式負荷事件檢測方法[J]. 電工技術(shù)學報, 2020, 35(21): 4565-4575.

Zhou Dongguo, Zhang Heng, Zhou Hong, et al. Non-intrusive load event detection method based on state feature clustering[J]. Transactions of China Electrotechnical Society, 2020, 35(21): 4565-4575.

[5] 涂青宇, 苗世洪, 張迪, 等. 分布式發(fā)電市場化環(huán)境下基于價格型需求響應(yīng)的農(nóng)村光伏交易模式研究[J]. 電工技術(shù)學報, 2020, 35(22): 4784-4797.

Tu Qingyu, Miao Shihong, Zhang Di, et al. Research on rural photovoltaic trading pattern based on price-based demand response under marketization environment of distributed generation[J]. Transactions of China Electrotechnical Society, 2020, 35(22): 4784-4797.

[6] Kong Weicong, Dong Zhaoyang, Jia Youwei, et al. Short-term residential load forecasting based on LSTM recurrent neural network[J]. IEEE Transactions on Smart Grid, 2019, 10(1): 841-851.

[7] 王帥, 杜欣慧, 姚宏民, 等. 面向含多種用戶類型的負荷曲線聚類研究[J]. 電網(wǎng)技術(shù), 2018, 42(10): 3401-3412.

Wang Shuai, Du Xinhui, Yao Hongmin, et al. Research on load curve clustering with multiple user types[J]. Power System Technology, 2018, 42(10): 3401-3412.

[8] 王毅, 張寧, 康重慶, 等. 電力用戶行為模型: 基本概念與研究框架[J]. 電工技術(shù)學報, 2019, 34(10): 2056-2068.

Wang Yi, Zhang Ning, Kang Chongqing, et al. Electrical consumer behavior model: basic concept and research framework[J]. Transactions of China Electrotechnical Society, 2019, 34(10): 2056-2068.

[9] 徐磊, 楊秀, 張美霞. 基于數(shù)據(jù)挖掘的工業(yè)用戶用電行為分析[J]. 電測與儀表, 2017, 54(16): 68-74.

Xu Lei, Yang Xiu, Zhang Meixia. Industrial users of electricity behavior analysis based on data mining[J]. Electrical Measurement ＆ Instrumentation, 2017, 54(16): 68-74.

[10] 李欣然, 姜學皎, 錢軍, 等. 基于用戶日負荷曲線的用電行業(yè)分類與綜合方法[J]. 電力系統(tǒng)自動化, 2010, 34(10): 56-61.

Li Xinran, Jiang Xuejiao, Qian Jun, et al. A classifying and synthesizing method of power consumer industry based on the daily load profile[J]. Automation of Electric Power Systems, 2010, 34(10): 56-61.

[11] 楊浩, 張磊, 何潛, 等. 基于自適應(yīng)模糊C均值算法的電力負荷分類研究[J]. 電力系統(tǒng)保護與控制, 2010, 38(16): 111-115, 122.

Yang Hao, Zhang Lei, He Qian, et al. Study of power load classification based on adaptive fuzzy C means[J]. Power System Protection and Control, 2010, 38(16): 111-115, 122.

[12] Benítez I, Quijano A, Díez J L, et al. Dynamic clustering segmentation applied to load profiles of energy consumption from Spanish customers[J]. International Journal of Electrical Power & Energy Systems, 2014, 55: 437-448.

[13] 金偉超, 張旭, 劉晟源, 等. 基于剪枝策略和密度峰值聚類的行業(yè)典型負荷曲線辨識[J]. 電力系統(tǒng)自動化, 2021, 45(4): 20-28.

Jin Weichao, Zhang Xu, Liu Shengyuan, et al. Identification of typical industrial power load curves based on pruning strategy and density peak clustering[J]. Automation of Electric Power Systems, 2021, 45(4): 20-28.

[14] 趙晉泉, 夏雪, 劉子文, 等. 電力用戶用電特征選擇與行為畫像[J]. 電網(wǎng)技術(shù), 2020, 44(9): 3488-3496.

Zhao Jinquan, Xia Xue, Liu Ziwen, et al. User electricity consumption feature selection and behavioral portrait[J]. Power System Technology, 2020, 44(9): 3488-3496.

[15] Haben S, Singleton C, Grindrod P. Analysis and clustering of residential customers energy behavioral demand using smart meter data[J]. IEEE Transactions on Smart Grid, 2016, 7(1): 136-144.

[16] 王瀟笛, 劉俊勇, 劉友波, 等. 采用自適應(yīng)分段聚合近似的典型負荷曲線形態(tài)聚類算法[J]. 電力系統(tǒng)自動化, 2019, 43(1): 110-118.

Wang Xiaodi, Liu Junyong, Liu Youbo, et al. Shape clustering algorithm of typical load curves based on adaptive piecewise aggregate approximation[J]. Automation of Electric Power Systems, 2019, 43(1): 110-118.

[17] 徐春華, 陳克緒, 馬建, 等. 基于深度置信網(wǎng)絡(luò)的電力負荷識別[J]. 電工技術(shù)學報, 2019, 34(19): 4135-4142.

Xu Chunhua, Chen Kexu, Ma Jian, et al. Recognition of power loads based on deep belief network[J]. Transactions of China Electrotechnical Society, 2019, 34(19): 4135-4142.

[18] Wang Yi, Chen Qixin, Kang Chongqing, et al. Clustering of electricity consumption behavior dynamics toward big data applications[J]. IEEE Transactions on Smart Grid, 2016, 7(5): 2437-2447.

[19] 孫毅, 毛燁華, 李澤坤, 等. 面向電力大數(shù)據(jù)的用戶負荷特性和可調(diào)節(jié)潛力綜合聚類方法[J]. 中國電機工程學報, 2021, 41(18): 6259-6271.

Sun Yi, Mao Yehua, Li Zekun, et al. A comprehensive clustering method of user load characteristics and adjustable potential based on power big data[J]. Proceedings of the CSEE, 2021, 41(18): 6259-6271.

[20] 龐傳軍, 余建明, 馮長有, 等. 基于LSTM自動編碼器的電力負荷聚類建模及特性分析[J]. 電力系統(tǒng)自動化, 2020, 44(23): 57-63.

Pang Chuanjun, Yu Jianming, Feng Changyou, et al. Clustering modeling and characteristic analysis of power load based on long-short-term-memory auto-encoder[J]. Automation of Electric Power Systems, 2020, 44(23): 57-63.

[21] 盧錦玲, 郭魯豫. 基于改進深度殘差收縮網(wǎng)絡(luò)的電力系統(tǒng)暫態(tài)穩(wěn)定評估[J]. 電工技術(shù)學報, 2021, 36(11): 2233-2244.

Lu Jinling, Guo Luyu. Power system transient stability assessment based on improved deep residual shrinkage network[J]. Transactions of China Electrotechnical Society, 2021, 36(11): 2233-2244.

[22] 張斌, 莊池杰, 胡軍, 等. 結(jié)合降維技術(shù)的電力負荷曲線集成聚類算法[J]. 中國電機工程學報, 2015, 35(15): 3741-3749.

Zhang Bin, Zhuang Chijie, Hu Jun, et al. Ensemble clustering algorithm combined with dimension reduction techniques for power load profiles[J]. Proceedings of the CSEE, 2015, 35(15): 3741-3749.

[23] Xie Junyuan, Girshick R, Farhadi A. Unsupervised deep embedding for clustering analysis[EB/OL]. 2015, arXiv: 1511.06335. https://arxiv.org/abs/1511.06335.

[24] London Government. Smart meter energy use data in London households[DB/OL]. [2015-09-26]. https:// old.datahub.io/dataset/smartmeter-energy-use-data-in- london-households.

[25] Alonso A M, Nogales F J, Ruiz C. Hierarchical clustering for smart meter electricity loads based on quantile autocovariances[J]. IEEE Transactions on Smart Grid, 2020, 11(5): 4522-4530.

[26] Van Der Maaten L, Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2625.

[27] Commission for Energy Regulation. CER smart metering project[DB/OL]. [2012-03-01]. https://www.ucd.ie/ issda /data/commissionforenergyregulationcer/.

Residential Electricity Consumption Pattern Classification Method Based on Multi-Task Joint Model

Xu Mingjie1Zhao Jian1Wang Xiaoyu1Xuan Yi2Chen Bojian3

（1. College of Electrical Engineering Shanghai University of Electric Power Shanghai 200090 China 2. Hangzhou Power Supply Company State Grid Zhejiang Electric Power Co. Ltd Hangzhou 310016 China 3. Power Science Research Institute of State Grid Fujian Electric Power Co. Ltd Fuzhou 350000 China）

Identifying the electricity consumption behavior patterns of massive residential users and then making a reasonable classification, can provide auxiliary decision-making for demand-side lean management. This paper proposes a method of residential electricity consumption pattern classification based on a multi-task joint model of convolutional neural network auto-encoder(CNN-AE) and hierarchical clustering. Firstly, a method for filling missing values based on the mean value of simultaneous measurement data and an outlier detection method based on seasonal hybrid extreme studentized deviate test, were proposed to clean and correct massive and high-dimensional electricity data. Secondly, the CNN-AE was used to extract the features of the residential electricity consumption data, and obtained the feature vector which could characterize the residents' electricity consumption behavior. Then, combining the hierarchical clustering algorithm and silhouette coefficient to determine the number of users' cluster and each cluster centers' vector, initialized the neural network layer for user clustering with cluster centers' vector; and joined the feature extraction process and user clustering process to form a multi-task learning neural network. This network was used to achieve end-to-end classification of residential electricity consumption patterns. Finally, considering environmental temperature and electricity price factors, the proposed method was verified on actual dataset.

Residential load, load clustering, convolutional neural network, auto-encoder, joint model

10.19595/j.cnki.1000-6753.tces.210763

TM769; TP193

國家重點專項（2020YFB1506804）、國家自然科學基金（51907114）和上海市教育發(fā)展基金會晨光計劃（19CG61）資助項目。

2021-05-27

2021-09-13

徐明杰男，1997年生，碩士研究生，研究方向為電力大數(shù)據(jù)。E-mail：xmj36@foxmail.com

趙健男，1990年生，副教授，研究方向為中壓配電網(wǎng)精益化管理，圖像處理、自然語言處理技術(shù)在電力系統(tǒng)運營管理中的應(yīng)用等。E-mail：zhaojianee@foxmail.com（通信作者）

（編輯赫蕾）

基于多任務(wù)聯(lián)合模型的居民用電模式分類方法

0 引言

1 基于MVSD的缺失值填補和S-H-ESD的異常點檢測方法

1.1 基本思路

1.2 基于MVSD的缺失值填補方法

1.3 基于S-H-ESD算法的異常點檢測方法

2 自動編碼器和層次聚類基本原理

2.1 自動編碼器原理

2.2 層次聚類原理

3 基于CNN-AE與層次聚類算法的聯(lián)合模型

3.1 聯(lián)合模型的基本思路

3.2 基于CNN-AE的用電特征提取模型

3.3 基于層次聚類算法的編碼-聚類模型

3.4 構(gòu)建聯(lián)合模型

4 算例驗證及分析

4.1 聚類個數(shù)選取

4.2 計算結(jié)果

4.3 不同模型分類性能對比

5 結(jié)論

附 錄

附錄