張 進,徐苒茨,徐 健,黃珉皓
(1.國網上海市電力公司浦東供電公司,上海 200122;2.復旦大學計算機科學技術學院,上?!?01203;3.網絡信息安全審計與監控教育部工程研究中心,201203;4.上海東捷建設(集團)有限公司,上?!?01203)
?
居民用戶用電的聚類分析
張進1,徐苒茨2,3,徐健4,黃珉皓4
(1.國網上海市電力公司浦東供電公司,上海200122;2.復旦大學計算機科學技術學院,上海201203;3.網絡信息安全審計與監控教育部工程研究中心,201203;4.上海東捷建設(集團)有限公司,上海201203)
摘要:認為新一輪的用電增長引發的問題和矛盾嚴重威脅到電力系統的安全運營。電力部門必須加強對于用電情況的分析和預測,妥善地規劃電力系統的建設和發展。居民用戶是用電群體中最具代表性和規律性的一類,針對這些問題和矛盾,提出了對居民用電情況進行分析。而在分析過程中,采用了聚類算法。實驗結果表明居民用戶用電存在明細的規律,并總結出了規律性的結論。
關鍵詞:負荷分析;用電分析;數據挖掘;聚類分析
近年來,隨著改革開放的進一步深化,企業數量大大增加,居民生活質量得到了長足進步,從而導致了新一輪的用電增長。與此同時,國內還長期面臨著電網最大負荷逐年快速增長,谷峰差增大,負荷率持續下降,高峰期電力供應緊張等一系列問題,這給電網安全運營造成了很大的威脅。為應對這些情況帶來的挑戰,首先,電力部門要保證電力出力足夠,盡量滿足最大負荷的需求;其次,電力部門必須要準確地預測各地區各區域的用電峰谷,制定高效的發電、輸電計劃,合理地規劃電力系統的建設。當然,這些工作的順利進行離不開詳細、全面的負荷分析。本文沒有采用傳統的統計學分析方法,而是使用了更高效、更深入的數據挖掘分析方法。通過對居民用戶的用電數據進行聚類,分析得出不同居民的用電習慣,從而總結出居民用電的規律以及用電的峰谷情況,以此來做出預測,改變發電、輸電計劃或者指導階梯電價的調整。
1相關工作
近些年來,由于用電高峰等電力問題帶來了巨大的壓力,促使相關部門、企業開始了對電力負荷更深入的研究和分析,以便于根據問題做出相應的調整和改善[1]。但這樣的研究多集中于針對全局的數據或是針對少量的局部數據,幾乎沒有涉及大規模且全面的局部數據(全局指電力總公司或者大的臺區,局部則指每家每戶)。由于全面、細粒度地采集數據需要大量人力、時間,并且受限于隱私和設備。況且,各個地方的用電方式和習慣都不盡相同,所以抽樣分析也難以實現。電力部門需要自上而下地進行變革:智能電網的普及為研究提供了良好的條件。每家每戶的電表都留有數據采集功能,能夠自動地在每天的固定時段將數據上傳到臺區,臺區負責收集數據并將數據發送到數據收集服務器。這樣的變化不僅帶來了人工成本的銳減,而且避免了抄表帶來的時間誤差、數據誤差、數據丟失等問題。
就分析方法而言,可以采用不同于統計或者數學的方法,如文獻[2,3],而是采用了基于數據挖掘的知識獲取的模式。在通常情況下,知識發現是由以下步驟迭代組成[4]:
(1) 數據清理(消除噪聲數據);
(2) 數據集成(組合各種數據源);
(3) 數據選擇(從數據中提取用于分析工作相關的字段);
(4) 數據變換(將數據歸一化處理,便于挖掘);
(5) 數據挖掘(最重要步驟);
(6) 模式評估(根據某種興趣度度量,對挖掘出的結果進行評估);
(7) 知識表示(通過知識表示技術,表達挖掘到的知識)。
數據挖掘是知識發現的核心。運用在電力系統可以幫助電力部門發掘更深層次的知識和規律。文獻[5-7]都運用數據挖掘的方法來對負荷進行分析。神經網絡在負荷分析中占有了主導的地位,但在面對數量龐大并且雜亂無章的居民用戶用電數據時,很難找到規律的、完備的數據集來學習,從而導致整個神經網絡分析過程受到嚴重的影響。所以本文采用了聚類這種無監督學習的分析方法。由于聚類分析往往是針對大數據進行的,所以在負荷分析領域采用較少。而本文主要是對居民用戶的用電數據進行聚類分析,尚沒有針對這項工作的其他研究。
在聚類算法的選擇上,選擇了K-means這種實用、高效的聚類算法,而在實驗或者實際工作中可能面對更為龐大的數據時,可以考慮采用基于K-means的模擬退火算法來增加效率[8];而在面對噪聲較多的數據時,可以考慮使用k-δ-means算法來過濾盡可能多的噪聲點[9]。
2準備工作
根據分析知道,分析工作是按照知識獲取的步驟進行的。在真正地執行聚類算法之前,必須要將數據清理、數據集成、數據選擇以及數據變換這幾個必要的步驟全部完成。
2.1數據清理
取得了某幾個臺區居民用電的真實數據,稱之為原始數據。原始數據中記錄的是電表的讀數,需要的則是用電量數據。通常情況下,電表讀數序列應為非嚴格遞增序列,所以用電量序列就應該非負。如果出現某一天的用電量為負值,則該數據發生異常。經過仔細辨別后發現,此類異常有兩種可能性。
(1) 用戶換表會導致異常
圖1所示即為換表異常,19日之前的電表讀數是正常的非嚴格遞增序列,而19日之后的讀數大幅度減少至接近于0,而且也呈現出遞增趨勢。當出現該類情況時,直接采用換表之后第一天的讀數作為換表前一天的用電量,而換表之后的用電量仍可以采用常規的計算方法。

圖1 換表導致的電表讀數異常
(2) 錯誤的電表讀數也會導致用電量成負值
圖2所示的情況可能是在6~8號期間電表出現故障,導致上傳的電表讀數異常。但跟換表異常不同的是,無法找到一個能夠直接替代該異常用電量的值,而只能通過發生異常前后正常的數據來計算得出異常點可能的讀數。可以用發生異常后第一天的讀數減去異常發生前一天的讀數并除以連續異常的天數來近似作為用電量。

圖2 電表故障導致的異常
除了負值異常之外,數據還存在著一些噪聲數據,這些多是因為電表故障導致的。針對噪聲點,通常都會將其舍棄,用噪聲點前后數據的平均值取而代之。
2.2數據變換
由于數據比較簡單,數據集成以及數據選擇的工作在這里就不做贅述。接下來需要對處理過的數據進行變換。不同臺區讀取電表讀數的具體時間不同、記錄用電的方式不同、保存數據的字段不同,導致了很多表單的字段內容大相徑庭,所以需要對數據進行規整,使得用電數據的規格統一,包括負荷單位統一、時間單位統一以及用戶單位統一。由于K-means算法的輸入只能是向量集,所以還需要將電量數據變成可以聚類的向量。本次實驗會用到以下向量變換的策略:首先將每個用戶某個月的用電數據按周一、周二到周日相加,然后除以累加的次數得到平均值并將這些平均值構成七維向量(每周7天)。
2.3準備工作的必要性
由于開展的是全新的工作,所以還沒有權威的數據集供實驗使用,而收集到的數據也會面臨著數量和質量的問題。為了保證實驗的嚴謹性及正確性,必須對數據進行嚴格地清理及修正。高質量的數據集也為今后的研究奠定基礎。
3實驗過程
實驗選用R語言作為實驗語言, 其內建的各種統計學、數據挖掘及數字分析功能,包括了聚類分析需要的各種算法內庫,很好地契合了本次的研究工作。
3.1算法k值的選取
K-means中的k值表示簇的數量,意味著會將數據劃分成k個具有相似特征的點集。但由于用電行為復雜多樣,用電的特征不夠明確,加之對于聚類結果也無法做出詳細地預測,所以必須經過一定的實驗才能確定k的取值。
可以通過在某組固定數據下測試使用不同k值所得到結果的質量來衡量。選取6月份的用電數據,賦予其不同的k值,并按照以周為周期進行聚類,得到的結果參數如表1所示。表1中,withSS表示聚類后的平方誤差,betSS表示聚類前后平方誤差的差值。

表1 不同k值的結果參數
由表1中可以明顯的看出,隨著k值的不斷增大,聚類的效果也會逐步提升,但考慮到k-means算法的效率跟k值成正比,而且當k=3時,聚類的效果有非常明顯的提升,所以選定k=3作為實驗的參數。
3.2以周為周期的聚類
取定k=3后,分別對1~10月的用電數據進行以周為周期的聚類分析(11、12月數據缺失)。下面列舉了3、7、10月的聚類結果圖(其中指μi簇i的中心點),如圖3~圖5所示。

圖3 3月聚類結果折線圖

圖4 7月聚類結果折線圖

圖5 10月聚類結果折線圖
根據圖3~圖5,發現對每個月數據聚類得到的3個簇的中心都呈現出明顯不同的3個層次:μ1各個維度上的數值基本都位置1.0~3.0之間,μ2各個維度上的數值都位于3.0~6.0之間,μ3各個維度上的數值都位于6.0以上。這說明了居民用戶用電存在著顯著的用電水平差異,而導致這種差異的原因可能在于每個家庭的組成不同以及家用電器使用情況的不同等。經過仔細觀察,發現無論用戶的用電水平如何,其周末的用電量都會有不同程度的提升,這是完全符合邏輯的。
接下來,將每個月聚類得到的所有維度上的值相加取平均數;這樣每個月就會有3個值,以此來代表各個月3個層次用電水平的平均值,并將前10個月的平均值按類繪制成如圖6所示。

圖6 均值折線圖
根據圖6,發現以年為周期的用電情況呈現出顯著的規律:冬天氣溫低,需要用電取暖,所以1月和2月的用電量較高,第一類用戶對低氣溫并不敏感;夏天氣溫高,需要用電降溫,所以6月的用電量開始升高,到7月、8月達到極致,9月開始降低,第2、3類用戶對高溫天氣極其敏感,就連對低溫不敏感的第一類用戶的用電量也有一定幅度地提升。
3.3聚類的必要性
通過聚類分析得到了實驗結果,可能部分的結果也能夠通過其他的分析方法來獲得,比如統計學方法。但這并不能取代聚類對于分析居民用戶用電的作用。通過聚類可以清晰地了解到用戶用電的行為模式,屬于不同模式的用戶擁有不同的用電習慣,而這種模式的識別是統計學方法難以做到的,因而聚類工作的重要性毋庸置疑。
4結語
根據實驗結果,可以總結出以下規律:居民用戶用電情況會受到天氣尤其是氣溫的嚴重影響,在低溫情況下即在冬季時間段內,中高檔用電水平用戶的用電量會有顯著的增加,在高溫情況下即在夏季時間段內,所有用戶都會有很大的用電量提升。而在不考慮天氣的情況下,居民周末的用電量會高于平時。
通過對居民用戶的用電數據進行聚類分析,能夠劃分并得到居民用戶用電量位于的層次,這有助于了解用戶的用電模式,掌握用戶的用電水平。同時,電力部門可以通過結論來預測用電的高峰時間,以此來調整階梯電價,并指導用戶避開用電高峰,從而有效地抑制谷峰差的增大,緩解高峰期電力供應緊張帶來的壓力。
但在分析過程中,仍存在以下不足:噪聲數據的處理不夠精細,導致了信息的部分流失;難以識別更多更細致的用電模式。根據出現的問題,今后的工作可以圍繞以下兩點進行:制定更精確的噪聲識別模式并使用更科學的手段對噪聲數據進行處理,如b樣條曲線等; 使用更小粒度的數據,增加k值。
參考文獻:
[1]趙希正. 中國電力負荷特性分析與預測[M]. 北京:中國電力出版社,2002.
[2]陶莉,肖晶. 負荷特性分析方法的研究[J]. 電力需求側管理,2003,5(4): 30-21.
TAO Li, XIAO Jing. Analysis research of load characteristic[J].Power Demand Side Management,2003,5(4):30-21.
[3]徐東升、楊巍. 基于SPSS的短期負荷特性分析及其預測研究[J]. 電力系統保護與控制,2009,37(21):147-151.
XU Dong-sheng, YANG Wei. Application of SPSS in characteristic of short load and its forecasting[J].Power System Protection and Control,2009,37(21):147-151.
[4]MICHELINE KAMBER, JIAN Pei. 數據挖掘概念與技術[M]. 北京:機械工業出版社,2012.
[5]高智. 數據挖掘技術在電力系統中的應用[J]. 華東電力,2001,29(12): 4-7.
GAO Zhi, XU Zheng. Data mining and its application in power system[J].East China Electric Power,2001,29(12):4-7.
[6]李智勇,吳晶瑩. 基于自組織映射神經網絡的用戶負荷曲線聚類[J]. 電力系統自動化,2008,32(15): 66-70.
LI Zhi-yong, WU Jing-ying, WU Wei-lin, et al. Power customers load profile clustering using the SOM neural network[J]. Automation of Electric Power Systems,2008,32(15):66-70.
[7]耿亮,吳燕. 電力數據挖掘在電網各領域間的應用[J]. 電信科學,2013(11): 127-130.
GENG Liang, WU Yan. The application of power data mining within and between the grid fields[J].Telecommunications Science,2013 (11):127-130.
[8]陳慧萍. 基于模擬退火思想的優化k-means算法[J]. 河海大學常州分校學報,2006,20(4):29-33.
CHEN Hui-ping, HE Hui-jing, CHEN Lan-feng, et al. Optimized k-means algorithm based on simulated annealing[J]. Journal of Hohai University Changzhou,2006,20(4):29-33.
[9]SHAI Ben-David. Clustering in the Presence of Background Noise[C]. ICML2014.
(本文編輯:嚴加)
Clustering Analysis of Residential Electricity Utilization
ZHANG Jin1,XU Ran-ci2,3,XU Jian4,HUANG Min-hao4
(1. State Grid Shanghai Pudong Electric Power Supply Company, Shanghai 200112, China;2. School of Computer Science, Fudan University, Shanghai 201203, China;3. Engineering Research Center of Cyber Security Auditing and Monitoring,Ministry of Education, Shanghai 201203, China;4. Dongjie Construction (Group) Co., Ltd., Shanghai 201203, China)
Abstract:With the further development of the reforms and open policy, the national economy, science and technology have been improved remarkably. However, the electricity consumption increase leads to a series of contradictions and problems, and poses threat to the safe operation of power syste. In order to cope with these problems and contradictions, the electricity sector must strengthen the analysis and forecasting of electricity, make the proper planning for the construction and development of power system. Because residential utilization is the most representative and regular part of electricity consumption, this paper mainly analyzes residential electricity, mainly by means of cluster algorithm. The results show that resident users consume electricity in detailed rules, and the regularity of the rules is summarized and the conclusions are drawn in this paper.
Key words:load analysis; electricity analysis; data mining; cluster analysis
DOI:10.11973/dlyny201602006
作者簡介:張進(1971),高級工程師,主要從事電力營銷管理工作。
中圖分類號:TM73
文獻標志碼:B
文章編號:2095-1256(2016)02-0180-05
收稿日期:2015-04-11