于洪杰,溫力力,范 麗,李 博,劉永超,侯榮均
隨著燃煤、燃油等化石能源的消耗及其帶來的生態環境危機,綠色、低碳、可持續發展的理念逐漸成為社會主流的共識。在此背景上,重點發展清潔能源、節能減排、提高配電網運營效率、改善配電以及供電服務質量等需求逐漸成為眾多國家的發展戰略。由于歐美等發達國家推行電力改革的時間較早,而且市場機制相對更加開放且完備,目前相關的實踐處于世界前列。美國已經接連開展了多個關于用戶用電特性分析以及智能化用電服務等多個領域的實踐與研究。相關項目得益于新型技術推動和政策的扶持作用,現已經步入穩步推進的階段[1-2]。
歐洲電力市場走在世界前列,較為開放的市場環境也使得各個電力公司之間的競爭十分激烈,這也促使終端用戶的地位逐步上升。在這種市場機制的激勵上,電力公司為了吸引到更多的用戶資源,就必須在原有供應電力的基礎服務之上,還要為各種類型的用戶,比如:居民、商業、工業等提供具有個性化的增值服務。換言之,這也對電力公司自身業務提出了更高的要求。電力企業如果僅僅是按照提高自身運營效率、適當降低電價的傳統經營理念,將影響其長遠的發展。因此,必須還需要基于用戶制定有針對性的服務,那么全面掌握不同用戶的用電特性就是制定這些服務的數據前提。智能電表的普及讓獲取用戶數據和分析用戶特性成為可能,比如,SEAI發布了2012年至2013年基于智能電表實際測量的4225戶愛爾蘭居民用電數據,數據采集時間跨度大約500多天,日負荷曲線共計300萬余條[3]。
2015年3月,中共中央、國務院印發了9號文件,旨在打破傳統電網企業的售電壟斷,面向社會開放配電和售電業務。增量配電網也因此不斷深入改革,蓬勃發展??傮w來說,我國智能化用電布局的基本思路是以市場需求為導向,立足于客戶需求、側重于引導客戶消費為中心,以需求預測管理為著力點,以提高電力在終端能源消費市場的比例為目標,力求實現電網公司效益和社會效益的同步上升[4]。國務院在2016年年初發布了《關于推進“互聯網+”智慧能源發展的指導意見》,文件中重點指出要鼓勵面向能源終端用戶的用能大數據信息服務,能夠達到對用戶用能行為進行實時感知與動態分析的效果,力求實現智能用能控制的遠程化、便捷化、互動化[5]。
在各國的政策推動上,近年來國內外學者對智能電網用戶的用電模式也陸續進行了較多的研究。文獻[6]利用KNN聚類算法對智能電表所采集的負荷數據進行分析,文獻[7]基于普通居民用戶的負荷曲線建立了馬爾科夫模型,接著對用戶進行分類并提取不同用戶的典型日負荷曲線,最后通過典型負荷曲線進一步分析各類用戶的行為。文獻[8]在運行BP神經網絡對高電壓等級負荷的預測之間,先采用K-means聚類算法對用戶進行分類,這兩種方法相結合能夠提高預測精度。文獻[9]提出了智能家庭與電網進行信息與能量雙向互動的分層體系模型。文獻[10]通過建立HM-MDP模型實現居民用戶側電源與電網各級調度控制器之間的雙向電能傳輸,解決用戶側新能源發電資源并網問題。文獻[11]將需求預測管理、客戶需求作為分類依據對居民用電模式進行劃分。
本文提出基于密度法的K-means聚類方法。首先采用DI指標選取最優K值;其次基于密度法優化初始聚類中心,然后進行計算得到聚類結果;最后采用重慶市某地區實際數據驗證方法的可行性。
K-means算法的最終目標是將給定數據集中的n個原始數據點劃分成K個種類。評價這K個種類劃分效果的優劣就是看每一個類別中的所有數據點到該類的聚類中心點的平方和是否最小。也就是說,每一類中的點相似度越大,而不同類之間相似度越小,那么劃分的效果就越好。根據大量實測數據表明,該算法具有高效、適用性廣和相對可伸縮性等明顯優勢。
假設現有一個包含n個數據點的集合X={x1,x2,…,xn}。聚類個數為K,即算法最終輸出K個類{S1,S2,…,SK}。上面介紹K-means聚類算法的流程:
(1)令I=1,從整個樣本數據集X中,隨機選取K個數據點作為初始聚類中心mj(I),其中j=1,2,…,K。
(2)通過式(1)計算任意兩個數據點之間歐氏距離,即計算X中的每個數據點xi到K個聚類中心mj(I)的距離d(xi,mj(I)),搜索最小距離對應的數據點xi,將其納入到mj(I)所屬的類別Sj中。

(3)再利用上式計算mj(I+1)的值,并將其作為上一個聚類中心點。

其中,Nj表示第j個類中數據點的數量。
(4)如果第I次所得到的分類結果與第I-1次完全一致,那么就可以認為本次聚類結果即為最終結果,輸出聚類結果;否則轉(2)。
從上述算法流程中不難看出,K-means聚類算法在實際運用時存在以上幾點不足:
(1)在進行計算之前,需要確定聚類個數K。而在實際操作中K值通常是根據人為經驗設置的,主觀因素占比很大。另一方面,數據樣本內部本身的分布特征也沒有被充分利用,進而很可能得出不準確、不合理的聚類結果。
(2)初始聚類中心點的選取會直接影響K-means算法的穩定性。根據已經介紹的K-means算法原理可以看出,該算法是先隨機初始化K個數據點作為首次聚類的中心點。緊接著,通過不斷地迭代計算搜索最優的K個聚類中心點,直到滿足收斂條件(見算法流程中步驟(4))??梢?,不同的初始中心點完全可能導致聚類結果也大不相同。
(3)初始中心點選取不當還可能導致聚類結果并非全局最優。由于K-means聚類算法的收斂準則常采用誤差平方和函數。但是該收斂準則函數理論上可能存在很多個局部極小點,倘若直接隨機初始化聚類中心導致該收斂準則函數陷入某個局部最小點,提前停止迭代搜索,無法得到全局最優的聚類結果。
(4)最后,隨機選取初始聚類中心可能會降低算法的效率。因為隨機選取的聚類中心與聚類對象的實際聚類中心之間的偏差,將會直接決定計算的迭代次數。如果偏差很大,則算法迭代次數增多、收斂速度變慢,總體計算效率隨之上降。
綜上分析,優化選取K值以及K-means算法的初始中心點是非常必要的,將改進后的算法應用于配電系統的典型場景提取中更為準確、合理。
DI指標是以不同類別間離散程度和類內密集程度為依據來評估聚類結果的有效性。DI指標表示為:

可見,當同一類中數據點密集程度越高,不同種類數據類別間相似程度越低,即類內距離越小,不同種類間距離越大,DI指標值越小,聚類效果越好。故最小的DI指標對應的K就是最優聚類個數。
基于密度的聚類中心最優選取方法的大致思路為:通過依次計算并查找密度參數最大的數據點作為聚類中心。算法的計算流程如上:不妨假設待處理的樣本數據集合為X={x1,x2,…,xn},K個初始的聚類中心點為z1,z2,…,zK。
(1)計算任意兩個數據點xi和xj之間的歐式距離。
(2)計算全體數據點的平均距離MD。

(3)根據式(5),計算每個數據點的密度參數ρ(p,MD)。密度參數的定義為:取原始數據集中任一數據點p,以p為中心,以MD為半徑的圓內,所包含的數據個數則稱為數據點p在距離MD上的密度參數,將D稱為密度參數集合。

(4)搜索密度參數最大的數據點,將其作為第一個聚類中心點,從集合D中刪除與該聚類中心之間的距離小于MD的數據點對應的密度參數。
(5)重復步驟(3)、(4),知道搜索到密度參數最大的前K個數據點時停止。這些數據點就是最優的初始聚類中心點。
為了驗證本文所提方法的有效性,本節選取重慶市某地區110kV變電站負荷作為研究對象。該算例由居民負荷與工業負荷各月份上的日負荷曲線組成。每一條日負荷曲線包含96個采樣點。
居民用戶典型用電模式如圖1所示,可以看出三條曲線能夠明顯反映居民在春秋季、冬季、夏季不同的用電需求,體現了季節對普通居民生活用電習性的影響。圖2為工業用戶的典型用電模式,也與季度有一定的相關性,從側面說明了工業用戶的實際生產安排與季度的關系。

圖1 居民用戶典型用電模式提取結果

圖2 工業用戶典型用電模式提取結果
為了進一步改善目前增量配電網中典型用電模式的提取技術,本文提出了一種基于改進K-means典型用電模式提取方法,采用密度法和DI指標解決了傳統K-means方法在聚類結果容易陷入局部最優以及人為設定K值導致結果不合理兩方面的不足。最后通過重慶某地區實際數據分析驗證了該方法的有效性。