999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于日負荷指標及改進分布式K-means聚類的用戶用電規律研究

2023-10-19 00:51:12李柏新雷才嘉方兵華黃裕春賈巍馬乙歌
電測與儀表 2023年10期
關鍵詞:特征

李柏新, 雷才嘉, 方兵華, 黃裕春, 賈巍, 馬乙歌

(廣東電網有限責任公司廣州供電局, 廣州 510620)

0 引 言

負荷聚類和用電規律研究是進行精細化負荷預測的前提,不僅可以依據不同的用電規律劃分用戶類型,還可以與實際用戶匹配展開用電特性分析[1]。此外,直接處理海量負荷數據不僅耗費計算資源,還會由于原始數據中存在干擾和低價值數據,引發模型訓練難以收斂、耗時延長、增大預測誤差等問題,有必要針對負荷數據提出一種更高效的降維及聚類方法。

目前,主流的聚類算法包括K-means聚類[2]、層次聚類[3]、模糊聚類[4]、譜聚類[5]等。比如,文獻[6]提出了一種針對電力大數據的三層過濾機制,在第二層過濾中通過并行計算的多初始聚類中心對原始K-means算法進行了改進,彌補了太過依賴初始聚類中心的缺點;文獻[7]利用Spark的RDD編程模型的可擴展性和分布式功能來實現CURE算法的計算過程的并行化,從而提高了算法的數據處理速度,使算法能夠適應數據規模的擴展,并通過算例表明:基于Spark的CURE聚類算法不僅保證了聚類的準確性,而且提高了算法的實時性;文獻[8]根據數據結構的特點,合理地優化了譜聚類算法中特征向量的提取過程,避免了傳統方法導致數據信息丟失的問題,并以每日負荷數據為例對現有融合研究結果進行比較,結果表明該算法具有較高的聚類質量和魯棒性。以上方法均對原始聚類算法進行了改進,并取得了更好的聚類效果,但是對于日負荷數據而言,本身具有顯著的變化特征,如果能結合負荷特征指標實現數據降維,會極大提升聚類算法的效率。

提出了一種基于“峰谷”時段日負荷指標的數據降維及改進分布式K-means聚類算法。首先根據樣本負荷數據的核密度(KDE)分布劃分“峰”、“谷”期,并利用8個典型日負荷指標實現原始負荷數據的降維;然后利用熵權法改進的分布式K-means算法進行聚類,與原始K-means算法比較后發現,具有更強的樣本辨識能力,并通過算例證明了文中所提算法的有效性和時效性;最后根據聚類結果分析每種負荷類型的用電特性,并與實際的負荷類型相匹配,得到4類典型用電規律的數據集,為不同類型負荷的精細預測提供支持。

1 負荷數據來源及預處理方法

1.1 負荷數據的來源

電力數據具有多源異構[9]的特點,而且保密性要求高,開放程度低。因此,獲取海量負荷數據首先需要與電力公司配合,并進行脫敏處理。此外,政府和第三方機構大多有專門的數據網站和開源數據庫,通過搭建API接口可實現數據采集。同時,電力用戶側的數據比較分散,一般需要訪問企業、樓宇的相關網站,通過對HTML爬蟲后整理獲得。

總的來說,電力數據比較割裂,且各個系統間互聯性較低,需要結合用戶ID、采集日期DATA等用戶信息標識對獲取的原始數據進行融合與處理。

1.2 負荷數據的預處理方法

在負荷數據采集的過程中,不可避免會由于通信中斷、信號干擾、人工操作失誤等,造成數據異常和數據缺失等,需要對原始數據進行預處理。若單日m個時間節點負荷數據表示為一個樣本,則n條日負荷數據組成n×m階的日負荷矩陣L。

(1)處理缺失值

單缺失值:根據負荷曲線平緩變化的特點,采取前后數據均值插補的方法,計算方法如下:

li,j=(li,j-1+li,j+1)/2

(1)

式中li,j為第i天第j個時間節點的負荷;li,j-1和li,j+1分別為該節點前、后時刻的負荷數據;若單個缺失值恰為單日的首、尾節點位置,則取臨近節點的值填充。

多個連續缺失值:由于樣本連續缺失值數量直接影響插值結果的偏差,因此文中取較小的閾值(連續缺失值占比6%)來確保插值結果的準確度。超過閾值時認為該日樣本無效;否則,采用平滑修正法根據前后數據插值,計算公式如下:

(2)

式中 Δt1和T1分別為前向采集開始和截止的節點數目;Δt2和T2分別為后向采集開始和截止的節點數目。

(2)處理異常值

先計算n條同時刻樣本的均值和方差,從而設置閾值加以判斷,然后根據前后節點數據進行插值修正,均值和方差計算公式如下:

(3)

(4)

li,j=α·(li,j-1+li,j+1)/2+β·li,j+1

(5)

式中α和β分別為該節點前、后時刻的負荷數據權重,且滿足α+β=1。

(3)數據標準化

常用的數據標準化方法有三種:Min-Max歸一化方法、Z-score規范化方法和Max最大值歸一化。其中,Max方法將原始數據縮放,可以保留“峰谷”差值信息,其標準化處理方法如下:

(6)

2 基于日負荷指標的負荷數據降維

2.1 原始降維方法及指標的局限

主成分分析(PCA)[10]、奇異值分解(SVD)[11]、線性判別分析(LDA)[12]等降維方法雖然能從數據自身規律提煉出更少的特征,為后續學習器訓練降低難度,并提高了效率,但是降維過程本身也會由于高維矩陣消耗大量的計算資源。對日負荷而言,如果能通過負荷變化特征,用低維日負荷指標代替高維原始負荷數據,會極大地縮短模型運行時間,提升負荷聚類的效率。

日負荷特征降維需要構造出能體現負荷基本特性和變化規律的特征指標?,F階段,國內外日負荷指標還沒有統一的標準,大概有以下7種:日最大負荷Pmax、日最小負荷Pmin、日平均負荷Pav、日峰谷差ΔP、日峰谷差率α、日最大負荷利用小時數T、日負荷率β。以上指標雖然能反映日負荷的基本特征,但總體比較粗糙,還需要結合負荷“峰谷”變化規律構建更加顯著的日負荷特征指標。

2.2 基于KDE模型的顯著日負荷指標構建方法

文獻[13-14]在劃分“峰谷”時具有極大的主觀性,因此如何根據海量負荷樣本確定典型的“峰谷”時段是建立不同時段負荷特征指標的前提。由于核密度估計(Kernel Density Estimation,KDE)方法不使用有關數據分布的先驗知識,并且不對數據分布附加任何假設,所以是一種從樣本自身研究數據分布概率的方法,適用于從眾多負荷數據中挖掘典型的日負荷曲線,劃分“峰谷”時段。

假設某時刻有n個負荷樣本,x1、x2,…,xn為對應的負荷值,則負荷的KDE模型如下:

(7)

式中fh為負荷的概率密度函數;h為帶寬;K為核函數。其中,帶寬h反映了整個KDE曲線的平坦度:h越大,樣本數據點在曲線形狀中的比例越小,使得KDE模型更注重整體變化規律,曲線越平坦;反之,KDE模型更注重細節,曲線就越波折。

為了確保負荷概率密度函數fh的連續性,核函數K(x)一般為單峰平滑,且關于y軸對稱的非線性函數,滿足以下特性:

(8)

比較常用的核函數有Uniform函數、Epanechikov函數、Gaussian函數和Quartic函數。選用Gaussian函數作為核函數,公式如下:

(9)

比如,當h選用0.5時,負荷概率密度函數fh可以表示為:

(10)

在KDE曲線上,概率密度最大值對應的負荷值即為該時刻負荷樣本的典型值。針對樣本其它時刻分別進行KDE處理后,便可整合得到典型日負荷曲線,從而進行“峰谷”劃分。

結合全天、峰期、谷期3個時段,對原始7個簡單日負荷指標進行組合變換后,得到表1中的8個顯著特征指標。

表1 日負荷特征指標和計算方法

表1中,Pup-av為峰期的負荷平均值,Pdown-av為谷期的負荷平均值。通過以上8個日負荷指標來表征原始日負荷數據,便可結合負荷自身變化特征實現多維負荷數據的降維。

3 基于熵權法的改進分布式K-means聚類算法

3.1 K-means算法的缺陷

K-means算法是基于劃分的經典聚類算法之一,通常歐式距離用作衡量樣本間相似度的指標,在計算效率上具有其它方法無法比擬的優勢。數據點越近,歐式距離越小,相似度就越大;由此將相似性較高的數據對象歸為同一類,而相似性較低的數據對象則為不同的類。但是在實際操作過程中,兩類具有不同變化規律的負荷,如果滿足“互補性”要求,則很容易被錯誤劃分為一類,如圖1所示。

圖1中,Type1和Type2兩種負荷雖然具有截然相反的“互補性”變化規律,但由于二者到聚類中心的歐式距離相等,兩個樣本自然被錯誤劃分為同一類簇。不難判斷,如果這兩類負荷到該聚類中心的距離均小于Type1和Type2與其它聚類中心的距離,則兩類負荷始終被劃分為一個類簇。因此,基于歐式距離的K-means聚類方法存在局限性。

3.2 改進分布式K-means聚類算法

熵權法是一種客觀賦權法,通過比較各個評價指標自身的信息有序地來判定其權重。某項特征的樣本差異越大,表示狀態越混亂,該特征在所有特征中所占的權重也越大,樣本間的差異被放大。

假如有n個日負荷數據樣本,經過負荷指標降維后,每個樣本有m個特征,則組成一個n×m維度的日負荷樣本集Pn×m,則其熵值的計算方法如下:

(11)

(12)

式中j=1、2…m;pij為日負荷樣本集的第i行,第j列數據;根據熵值Ej計算結果,得包含m個日負荷特征的信息熵集合為{E|E1,E2,…,En}。當樣本數據差異較小時,Ej的值趨近于1。根據熵權法計算對應特征的權值wj,即:

(13)

由此得到特征指標的權重值矩陣[w1,w2,…,wn],且滿足0

結合如圖2的分布式聚類算法,得到熵權法改進的K-means算法流程如下:

圖2 分布式K-means聚類算法的流程圖

(1)在日負荷特征矩陣Pn×m中參照層次聚類結果選取聚類中心,并將其作為n個輸入,復制m份后分發給m臺計算機。第i個聚類中心為Ci(i=1、2…k),記為Ci=[ci1,ci2,ci3,…cim];

(2)記Pj=[pj1,pj2,pj3,…,pjm],對Pn×m中所有樣本Pj(j=1、2…n),派發給各個計算機節點,依次計算到第i個聚類中心Ci的加權歐氏距離:

(14)

(3)每個節點單獨運算一次,將n個輸入派發給c個內核,找出每個Pj對應最小的dist(Pj,Ci),將其劃分到聚類中心Ci所在的類簇;

(4)對每個簇,更新聚類中心Ci;記類簇Ci中樣本數目為NCi,則其計算公式為:

(15)

(5)重復(3)和(4)的操作,直至新的聚類中心趨于穩定,或者該算法的損失函數式趨于收斂。

(16)

3.3 聚類效果的檢驗指標

(1)聚類有效性檢驗

聚類有效性指標用于度量聚類的效果,主要希望同一簇的樣本彼此之間盡量相似,不同簇之間的樣本盡可能不同。常用的聚類算法的評價指標有:離差平方和(SSE)、卡林斯基-哈拉巴茲指數(CHI)、輪廓系數(SIL)、戴維斯-布爾丁指數(DBI)等。記K為聚類數,則各個聚類效果評價指標的計算方法如下:

SSE指標的計算公式為:

(17)

式中Xi為第i類簇中的樣本數據;Ci為對應第i類簇的聚類中心。SSE指標值越小,說明聚類效果越好。

CHI指標的計算公式為:

(18)

式中i為當前的類簇;trB(i)為類簇間離差矩陣的跡;trW(i)表示類簇內離差矩陣的跡。CHI指標越大,說明聚類效果越好。

Silhouette指標的計算公式為:

(19)

(20)

式(19)、式(20)中,M為樣本數;a(n)為樣本n到類內其它樣本的平均距離;b(n)為樣本n到類間其它樣本平均距離的最小值。Silhouette指標越大,聚類效果越好。

DBI指標計算公式為:

(21)

(22)

式中d(Xi)為類簇內的平均距離;d(Ck,Cj)為兩個聚類中心的歐氏距離。DBI指標越小,說明聚類效果越好。

(2)聚類時效性檢驗

傳統聚類評價指標只考慮有效性,但是對大數據而言,時效性同樣重要,主要涉及到三個部分:基于日負荷指標降維方法的耗時、熵權法指標賦權計算的耗時、K-means聚類算法的耗時。為了驗證本章所提算法在時效上的優越性,在控制處理相同負荷數據條件下,時效性指標可以表示為:

Ktn=t2n/t2n-1

(23)

式中n=1,2,…,10表示10個數據樣本;t2n為指標降維及改進K-means算法的耗時,t2n-1為原始K-means算法的耗時;當0

4 算例分析

選取某市區供電網格2015年歷史負荷數據,采集間隔為15 min,共計260 922個日負荷樣本。算例編譯環境為Anconda,編譯語言為python,分布式計算采用ODPS架構。

4.1 基于KDE的負荷數據分布及峰谷時段劃分

根據全樣本的KDE分布特征,提取對應96節點的典型負荷數據,得到日負荷曲線來劃分“峰谷”時段,結果如圖3所示。

全樣本的“峰”、“谷”期的劃分結果為:(1)峰期:08:00~11:30,15:00~23:00;(2)谷期:23:00~08:00、11:30~15:00。

4.2 日負荷指標的降維及權值計算

根據表1的負荷指標計算方法,提取出每個樣本的8個顯著日負荷特征,與原96節點數據比較,數據量減少了91.67%,由此實現原始數據的降維。

結合熵權法對降維后的特征進行加權,計算結果如表2所示。

表2 日負荷特征指標的權值表

日負荷特征指標的權重計算結果,將用于改進K-means算法的中歐式距離的加權計算過程,增加算法對不同類型負荷的辨別能力,挖掘新的負荷類型。

4.3 聚類效果分析

(1)聚類有效性分析

算例中聚類數K取值為2~20,構造以下3個場景,并對每個場景下4個指標(SSE、DBI、Sillouette、CHI)對應的最佳聚類用“ ”進行標記,結果如下:

場景一:預處理前的K-means聚類效果。

圖4中根據“肘部”法則,場景一的SSE指標曲線“拐點”對應的最佳聚類數6;DBI和Silluoette指標呈現單一變化趨勢,原則上無法挑選出最佳K值,考慮到畸變數據影響,以區間極小值對應的6為最佳聚類數;CHI指標對應的最佳聚類數為3。

圖4 場景一的負荷聚類效果

綜合分析,聚類數取值為K=6,并根據分類結果得到日負荷樣本的聚類曲線,如圖5所示。

由圖5知,未剔除畸變數據的負荷樣本總體上實現了負荷的分類,但在每類負荷中明顯存在“毛刺”現象;且在type2、type4負荷中,紅色聚類中心線沒能體現出10:00~15:00之間存在的“峰”期。

場景二:除畸變后K-means的聚類效果。

如圖6所示,通過式(1)、式(2)缺失值處理,以及式(3)~式(5)異常數據處理后,場景二的SSE指標“拐點”對應的K仍為6;DBI指標曲線明顯存在極小值,且對應的K為6;Silluoette和CHI指標也明顯存在極大值,對應的K均為8。以上說明數據預處理對提升聚類效果有一定影響,但仍舊未能統一最佳聚類數。

圖6 場景二的負荷聚類效果

當K=6時,得到日負荷樣本的聚類曲線如圖7所示。

圖7 場景二條件下的負荷聚類結果

由圖7知,與場景一比較,每類負荷中沒有“毛刺”現象,且每一類樣本的變化規律較為一致,說明通過缺失值彌補和異常值替換后消除了畸變數據影響,使得聚類效果有了質的提升。但是,仔細觀察發現,如“→”標記,type1、type2負荷中存在很窄的“間隙”,說明類中樣本仍舊存在細微的差異。

場景三:除畸變后改進K-means的聚類效果。

如圖8所示,場景三的SSE、DBI、Silluoette和CHI指標統一了K值,即最佳聚類數均為8。說明基于日負荷指標降維和熵權改進的K-means算法顯著提升了聚類效果,能從現有聚類結果中發現新的類簇。

取K=8得到日負荷樣本的聚類曲線如圖9所示。

圖9 場景三條件下的負荷聚類結果

由圖9知,與場景二比較,場景三多出了兩個聚類簇。其中,type2、type6原屬場景二中同類,區別在于05:00~18:00時間段最低負荷值,前者在0.1左右,后者基本為0;type3、type8也由場景二中同類分裂而來,兩類負荷在12:00左右的谷值負荷差距明顯,前者為0.8,后者為0.9。因此,場景三的基于日負荷指標降維和改進K-means算法能夠挖掘出負荷樣本間更加細微的差別,從而實行更精細的聚類結果。

對以上三個場景的最佳聚類數K和聚類效果有效性指標進行統計,結果如表3所示。

表3 不同場景下的聚類效果

由表3分析知,場景三聚類數最多,能夠將細小差別的類簇進一步劃分,具有更高的類簇辨識能力;從場景一到場景三,SSE和DBI指標的數值依次減少,說明剔除畸變數據、日負荷指標降維及改進K-means聚類方法能夠一定程度上提高聚類效果;Sillouette指標基本不變化,說明該指標在最佳聚類場景下具有很強的穩定性;從場景一到場景二,CHI指標顯著減小,說明該指標對畸變數據比較敏感。

(2)聚類時效性分析

構造10個不同數據量的樣本集,然后記錄各部分的時間。作出時效性指標Ktn隨樣本占比M的變化曲線,探究算法的時效性與數據量的關系,如圖10所示。

圖10 時效性指標隨數據量變化

由圖10知,Ktn基本分布在[0,1]范圍,且呈現出“1/Mn”型變化規律,說明基于日負荷指標降維及熵權法改進分布式K-means算法在應對大量負荷數據時,可以顯著提升工作效率。

4.5 典型日負荷曲線與用戶特征分析

通過聚類得到的典型負荷,各自具有不同的時序性變化規律,能夠直接反映出用戶的用電特征,甚至可以對每種典型曲線包含的負荷類型進行初步匹配。8類典型負荷曲線之間既存在差異,又有一定的相似性,大致歸屬以下4種規律類型,如表4所示。

對每種規律類型包含的負荷進行以下分析:

(1)第1種規律類型

全天負荷具有“高低雙峰”的特點,其中白天09:00~14:00為低峰負荷段,晚間20:00~22:00為高峰階段,而凌晨和早間的負荷水平較低。據此特點分析,type1負荷大致為商場、店鋪等典型商業負荷,負荷大小與其人流量、營業及休息時間相適應。

(2)第2種規律類型

該類具有晚間“單高峰”的特點,在8:00~16:00保持較為平緩的中等負荷水平,在晚間20:00左右達到高峰,至凌晨負荷達到最低水平。據此分析,type4極有可能為上班族的家庭負荷,白天離家后,冰箱、空氣凈化器等電器繼續保持工作,直至晚間回家后,做飯、照明、娛樂等活動導致用電增加,在20:00點左右達到用電高峰,23:00休息后負荷又恢復至低水平狀態。

(3)第3種規律類型

全天負荷具有極為典型的“U”型變化特征,在白天5:00~17:00之間負荷水平很低,而在晚間及凌晨負荷水平保持較高,且負荷波動較小。據此知,該大類很可能是公園路燈、公路照明等室外負荷,或者公共場所的室內照明,以及利用分時電價將生產任務更多地轉移到晚間進行的工業負荷。對照明負荷而言,根據type2和type6白天負荷最低值是否為0,可以判斷前者主要為室內,后者為室外。

(4)第4種規律類型

該類型具有顯著的“三峰”特征,09:00~11:00、14:00~17:00、18:00~21:00為三個峰期階段,且峰期負荷差別較小;中午12:00和晚間16:00左右有兩個短時的“谷期”,與吃飯和午休時間基本重合。由此推測,type3、type5、type7、type8為普通上班負荷,該大類應該包含普通工廠、車間、寫字樓、科研教學等場所的商業、科教,或者工業負荷等。

通過以上分析,將供電區域的日負荷數據進行聚類后,可以根據負荷規律對其屬性進行標記,比如商業、居住、工業及科教等,構造同類負荷的數據集合,為精細化負荷預測提供高質量數據。

5 結束語

基于日負荷指標將原始負荷數據進行降維,利用熵權法對分布式K-means算法的距離計算實施加權,提升了聚類算法對高相似度樣本的辨識能力,且具有較高的時效性;通過算例驗證了所提算法的可行性,并對典型負荷的用電特性展開分析。同時,存在以下不足:

(1)畸變數據的處理,其假設條件是各節點負荷值在均值附近隨機正態分布,從而過濾偏離度較大的數值,實際上并非完全符合正態分布規律,在過濾過程中會損失很多有效樣本;

(2)基于熵權法改進的K-means聚類算法雖然能夠提升辨識能力,劃分更多的類簇,但同時說明其魯棒性較差,容易受小樣本數據的影響。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 亚洲欧美h| 综合社区亚洲熟妇p| 国产午夜无码片在线观看网站| 国产精品19p| 亚洲h视频在线| 色有码无码视频| 亚洲色大成网站www国产| 亚洲av无码人妻| 美女毛片在线| 一级毛片免费播放视频| h网址在线观看| 亚洲一区二区三区香蕉| 国产在线高清一级毛片| 亚洲国产成人在线| 丁香婷婷激情网| 欧美国产菊爆免费观看| 尤物国产在线| 真实国产乱子伦视频| 欧美午夜久久| 一本综合久久| 国产精品欧美日本韩免费一区二区三区不卡| 91国内外精品自在线播放| 国产精品熟女亚洲AV麻豆| 国产网站免费看| 欧美人与动牲交a欧美精品| 波多野结衣在线se| 国产极品粉嫩小泬免费看| 久久伊人久久亚洲综合| 最新国产成人剧情在线播放| 亚洲男人的天堂久久香蕉| 亚洲精品无码久久毛片波多野吉| 国产成人超碰无码| 亚洲VA中文字幕| 免费一级毛片不卡在线播放| 国产欧美日韩另类精彩视频| 欧美性久久久久| 日韩国产一区二区三区无码| 国产人成网线在线播放va| 国产欧美日韩资源在线观看| 手机在线国产精品| 91九色最新地址| 婷婷综合亚洲| 国产精品黑色丝袜的老师| 婷婷六月综合| 国产麻豆精品久久一二三| 好吊妞欧美视频免费| 国产欧美日韩18| 国产精品亚洲一区二区三区在线观看| 日本在线视频免费| 理论片一区| 欧美日韩另类在线| 少妇高潮惨叫久久久久久| 国产1区2区在线观看| 超薄丝袜足j国产在线视频| 伊人AV天堂| 欧美日韩一区二区在线播放| 日韩AV无码一区| 欧美成人午夜影院| 欧美日韩一区二区三区四区在线观看| 这里只有精品在线播放| 一级毛片不卡片免费观看| 精品国产aⅴ一区二区三区| 日本欧美视频在线观看| 日韩无码黄色网站| 日本精品视频一区二区 | 91综合色区亚洲熟妇p| 天堂在线亚洲| 亚欧乱色视频网站大全| 日韩少妇激情一区二区| 欧美三级不卡在线观看视频| 亚洲无限乱码一二三四区| 欧美亚洲日韩中文| 国产成人资源| 高清视频一区| 亚洲欧美激情小说另类| 亚洲欧美成人综合| 中文字幕资源站| 台湾AV国片精品女同性| 免费在线色| 久久人妻xunleige无码| 亚洲天堂视频在线观看免费| 中文字幕乱码二三区免费|