999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于Pearson相關系數的電力用戶負荷曲線聚類算法

2017-11-16 01:21:28王星華許炫壕周亞武
黑龍江電力 2017年5期
關鍵詞:用戶

王星華,許炫壕,周亞武

(廣東工業大學 自動化學院,廣州 510006)

一種基于Pearson相關系數的電力用戶負荷曲線聚類算法

王星華,許炫壕,周亞武

(廣東工業大學 自動化學院,廣州 510006)

提出一種基于Pearson相關系數作為聚類判據的負荷曲線聚類算法——Pearson相關聚類(Pearson Correlation Clustering, PCC)。首先對負荷數據進行數據清理以及去噪處理,再選擇合適的降維算法以降低數據處理的復雜性。提出利用Pearson相關系數閾值作為聚類中心選擇依據的方法解決初始聚類中心選擇的隨機性;利用電力負荷曲線數據與聚類中心之間的Pearson相關系數進行聚類,以DBI指標作為聚類效果的評價標準,分析了不同系數對聚類效果的影響。算例結果表明,該算法相比傳統算法運行時間短,魯棒性強,聚類效果更好。

Pearson相關系數;負荷曲線分類;降維;中值濾波;聚類有效性

隨著智能電網的普及,電網運行、維護以及管理過程產生了大量電力數據。大數據產生于智能電網系統的各個環節中,其中用戶側大數據占了很大比重,因此有必要對用戶側大數據進行研究,為智能電網規劃和運行提供有益參考[1]。用戶側大數據中,包含了大量電力用戶的日/月負荷曲線,通過對這些電力消費信息進行專門的分析研究并獲取相應的負荷模式,可以為電網公司的決策提供依據[2]。

當前國內對電力負荷聚類分析研究已經起步,作為輔助電力負荷聚類分析的工具,各種聚類算法及其改進算法不斷地被提出并應用于具體工程。文獻[3]以函數型數據分析和k-means 算法結合對電力負荷進行分類分析。文獻[4]將余弦相似度和歐氏距離結合組成雙層聚類算法應用于負荷形態組合識別。文獻[5]針對FCM聚類算法易受初始聚類中心選擇影響及極易陷入局部最小值的缺陷,提出了對初始聚類中心進行改進的FCM聚類算法。

以上研究均以歐氏距離作為聚類的相似性判據。但以歐式距離作為相似性判據易受噪聲和尖峰值影響,且歐式距離反映的是曲線間距離,而負荷曲線聚類更側重于曲線輪廓的聚類。因此,為了更加充分反映曲線相似性,綜合考慮以上文獻中聚類算法的優缺點,本文提出一種基于Pearson相關系數的負荷曲線聚類算法——Pearson相關聚類(Pearson Correlation Clustering, PCC)。聚類過程中,首先對負荷數據進行數據清理以及去噪處理,選擇合適的降維算法進行降維,再利用Pearson相關系數作為相似性判據選取初始聚類中心,并對負荷曲線進行聚類分析。與傳統聚類算法進行對比的結果表明,該算法運行效率高、魯棒性強,能夠得到較好的聚類結果。

1 數據預處理

1.1 數據來源

本文研究算例數據采用兩個數據集:一是來源于某市5類用戶類別的2 340個電力客戶同一日期的24點日負荷曲線;二是某市4類用戶類別的1 023個電力客戶某年的12點月負荷曲線。兩數據源的用戶數分別如表1、2所示。

表1 數據1用戶類別

表2 數據2用戶類別

1.2 數據清理及去噪

為了避免數據采集過程中出現的偏差對聚類結果的影響,采用以下措施進行數據清理及去噪:

1) 錯誤數據清理。采集設備停止工作或者傳輸過程中斷,導致部分電力用戶缺失數據甚至無數據,因此當某一負荷曲線數據全為0時,則剔除該數據。

2) 異常數據修復。考慮到負荷功率的暴增或者驟降情況,當負荷曲線功率相鄰點的差值相差較大時,利用文獻[6]中基于Lagrange插值的Neville算法對曲線X={x1,x2,…,xn}進行插值修復。

3) 數據去噪。針對數據中“噪聲”所導致的曲線毛刺問題,采取中值濾波方法對數據源負荷曲線進行去噪處理。中值濾波的原理為:給定一個輸入數據,重新計算每一個x的輸出值y,得到新的輸出值,相當于y= new(x)。其中,new函數的操作是,從在以x為中心,長度為2l的原信號中(區間為[x-l+1,x+l]),提取出這段區間內中間的那個值,作為y=new(x)的結果。經實驗結果表明,l取2時效果最佳。

1.3 降維算法

隨著智能電網時代的到來,電力數據的數量呈海量增長,采集設備的精度提高使數據維數也越來越高。為了提高算法的效率和可行性,有必要對數據進行降維操作。假設每條負荷曲線的維數為W,經降維后將適當縮小維數為W1,即降維的目的是用盡可能低維數的負荷曲線代替原來的負荷曲線,并保證原負荷曲線不會因降維而失真過多。

文獻[7]對Sammon映射、SOM映射、PCA以及FE降維算法進行對比分析,分析得出PCA降維算法所需時間最短,且可以最大程度地保護數據原始信息,因此本文數據降維采用PCA降維算法。

分別對兩數據源使用PCC算法進行降維聚類以及未降維聚類,所用時間對比如圖1所示。

圖1 降維前后聚類時間對比圖

對比降維前后聚類用時可知,降維處理可很大程度減少聚類算法耗時。

2 PCC聚類算法原理

2.1 Pearson相關系數

在統計學中,考察兩個事物(數據變量)之間相關程度的系數稱為相關系數。如果有兩個變量X={x1,x2,…,xn}和Y={y1,y2,…,yn},根據最終計算出的相關系數的大小可以有以下三層含義:

1) 相關系數為0,X、Y兩變量間無關系;

2)X的值增大(減小),Y值增大(減小),兩個變量為正相關,相關系數在0.00與1.00之間;

3)X的值增大(減小),Y值減小(增大),兩個變量為負相關,相關系數在-1.00與0.00之間。

由上可知,相關系數的絕對值越大,相關性越強,相關系數越接近于1或-1,相關性越強,相關系數越接近于0,相關性越弱。

Pearson相關也稱為積差相關,它以兩變量間的離均差積和與離均差平方和為算術基礎進行計算。

Pearson相關系數p的計算公式為

X的離均差平方和LXX為

Y的離均差平方和LYY為

X、Y間的離均差積和LXY為

Pearson相關系數p的判斷標準如表3所示。

表3 Pearson相關系數p的判斷標準

2.2 基于Pearson相關系數的初始聚類中心選取

為了提高算法的運行效率和聚類精確性,需要對數據源中大量數據選取合適的初始聚類中心。本文初始聚類中心的選取原理是:事先設定一個初始相關系數閾值,使得到的初始聚類中心之間的相關系數盡量小于該閾值,即各初始聚類中心之間的相關性盡可能小,可以使原本隨機生成的初始聚類中心變成有目的性的選取,提高算法精確性。

設X={x1,x2,…,xn}為待聚類數據集,設類間最大相關系數閾值為?,聚類數目為K,初始聚類中心選取步驟如下:

Step 1 計算任意兩組數據之間的Pearson相關系數,并生成系數矩陣Q,將系數最大的兩個數據歸為一類,并取兩個數據的中點作為第一個聚類中心。

Step 2 根據事先設定的用于聚類中心選擇的系數閾值?,利用系數矩陣Q,檢測與第一個聚類中心的兩組數據的系數都小于?的所有數據,并在其中選擇系數最高的兩個數據定為一類,且取兩個數據的中點為第二類聚類中心。

Step 3 同理,在剩下的數據中整理與已經確定的數據的系數都小于?的數據,并在這些數據中選擇系數最高的兩個數據定為一類,且取兩個數據的中點為新一類聚類中心。

Step 4 重復Step 3,直至找到K類為止。

此流程利用系數矩陣Q及系數閾值對初始聚類中心進行判斷,以數據點和已確定數據點的相關系數進行比較,避免了傳統方法中將聚類中心與全部數據點進行比較,大幅度減少了所需運算量,且精度比傳統隨機性選擇方法要高。

2.3 PCC算法流程

根據已得到的系數矩陣Q和已選定的初始聚類中心,PCC算法的原理為:假設初始聚類中心為K類,根據系數矩陣Q,分別比較某一數據點到K類聚類中心的相關系數,與哪一類的相關系數最大即最相似則歸為哪一類。歸類后重新計算聚類中心,重復歸類,直至滿足聚類結束迭代條件。PCC算法具體流程如下:

Step 1 由初始聚類中心選取規則得出初始聚類中心mi={m1,m2,…,mK},K為聚類個數。

Step 2 設yj為第j個樣本,找出yj與mi所有的最大相關系數Qmax,將其歸入對應的聚類中心所屬的類中。

Step 3 設ni是第i類已聚類樣本的個數,yij為第i類中第j個樣本,由下式重新計算聚類中心mi:

Step 4 設t為迭代次數,按下式計算Y中所有樣本的系數誤差偏移量J(t),并與前一次系數誤差偏移量J(t-1)比較:

式中:N為樣本數據總個數;r為系數誤差偏移系數;NQ≥r為樣本數據各類別中Q≥r的樣本總數。

Step 5 若J(t)-J(t-1)<ε,即J(t)趨于穩定,則算法結束,否則轉Step 2重復迭代。

由以上PCC算法流程,結合聚類有效性指標檢驗,設最小聚類數為Lmim,最大聚類數為Lmax,有效性指標為IDBI,聚類算法總流程如圖2所示。

2.4 聚類有效性指標

圖2 PCC算法總流程

為確定最佳聚類數和最佳聚類結果,引入聚類有效性指標進行聚類效果評價。文獻[7]對SSE、CHI、DBI三種指標進行評價,驗證得DBI指標曲線的拐點更為直觀,計算公式簡單且變化范圍小,更適合作為電力用戶負荷曲線的聚類有效性指標。因此本文采用的聚類有效性指標為DBI指標,DBI計算公式如下:

式中:K為聚類數目;d(Xk)和d(Xj)為矩陣內部距離;d(ck,cj)為向量間的距離。IDBI越小則表明聚類結果越好。

3 算例分析

3.1 電網實際負荷曲線聚類結果

如上所述,本文采用兩個數據集,經數據清理、去噪后,數據源數據分類如表4、5所示。

表4 數據源1清理后數據分類

表5數據源2清理后數據分類

Table5Dataclassificationofdatasource2aftercleaning

ABCD總計4286408142984

設定該算例初始聚類中心選取閾值?=0.7,系數誤差偏移系數r=0.7,ε=0.000 5。

以聚類有效性指標IDBI判定聚類最佳結果,如圖3所示。結果表明:對于數據源1,當聚類數為6時,IDBI最小,最佳聚類數為6;對數據源2,當聚類數為4時,IDBI最小,最佳聚類數為4。

圖3 數據源1與數據源2的IDBI曲線

經PCC算法聚類后,兩數據源的聚類結果如圖4、5所示。

圖4 數據源1聚類結果

圖5 數據源2聚類結果

保持?=0.7不變,分別設定r=0.6和r=0.8,對數據源1進行聚類,由聚類有效性指標IDBI判定聚類最佳結果,如圖6所示。

圖6 ?=0.7時數據源1最佳聚類數對比

保持r=0.7不變,分別設定?=0.6和?=0.8,對數據源1進行聚類,由聚類有效性指標IDBI判定聚類最佳結果,如圖7所示。

圖7 r=0.7時數據源1最佳聚類數對比

3.2 結果分析及對比

由圖4可知,經PCC算法聚類之后,數據源1分為6類,負荷類型主要為單峰型、雙峰型、平穩型以及避峰型,具體分類數如表6所示。表6結果表明,數據源1分類結果與實際結果偏差不大,能較好地將數據進行真實分類。

表6數據源1分類數目

Table6Numberofdatasource1classificationsafterclustering

123456550332682232216264

圖6中,當?=0.7保持不變時,可知三條曲線的極值點都出現在聚類數為6時,且r=0.7時IDBI值最小,即r值的變化不影響最佳聚類數的變化,只影響IDBI。圖7中,當保持r=0.7不變時,三條曲線的極值點位置存在差異,IDBI最小的曲線為?=0.7,此時的最佳聚類數為6,說明?取不同值時最佳聚類數有區別,且IDBI也不盡相同。綜上所述,適合于PCC算法的最佳取值應為?=0.7和r=0.7。

將傳統FCM聚類算法和k-means算法應用于本文兩數據源中,并與PCC算法的聚類有效性指標進行比較,如圖8所示。由圖8結果可得出PCC算法在兩數據源分類中的聚類有效性指標都比傳統算法理想,因此可知PCC算法聚類效果較好,分類結果合理。

圖8 PCC算法與傳統FCM算法和k-means 算法聚類結果對比

4 結 語

1) 提出一種基于Pearson相關系數作為聚類判據的負荷曲線聚類算法——PCC,通過對負荷數據進行數據清理以及去噪處理,選擇合適的降維算法進行降維之后,以改進方法選取初始聚類中心,利用 Pearson 相關系數作為聚類相似性判據,對電力用戶負荷曲線進行聚類分析。

2) 利用Pearson相關系數作為聚類判據,比傳統基于歐氏距離的判據方法更能合理地反映負荷曲線相似性,同時在聚類速度上也有較大改進。

3) 本文研究角度為橫向角度聚類,即每一用戶都選定同一天負荷曲線聚類。如何從縱向角度,即從同一用戶多天的負荷曲線中,結合溫度等因素找尋典型曲線,再對不同用戶的典型曲線進行聚類是接下來需要研究的方向。

[1] 宋亞奇,周國亮,朱永利.智能電網大數據處理技術現狀與挑戰[J].電網技術,2013,37(4):927-935.

SONG Yaqi,ZHOU Guoliang, ZHU Yongli.Present status and challenges of big data processing in smart grid[J]. Power System Technology, 2013, 37(4): 927-935.

[2] 趙騰, 張焰, 張東霞. 智能配電網大數據應用技術與前景分析[J].電網技術,2014,38(12):3305-3312.

ZHAO Teng, ZHANG Yan,ZHANG Dongxia.Application technology of big data in smart distribution grid and its prospect analysis[J]. Power System Technology, 2014,38(12):3305-3312.

[3] 張欣,高衛國,蘇運.基于函數型數據分析和k-means 算法的電力用戶分類[J].電網技術,2015,39(11):3153-3162.

ZHANG Xin, GAO Weiguo,SU Yun. Electricity consumer archetypes study based on functional data analysis and k-means algorithm[J]. Power System Technology,2015, 39(11):3153-3162.

[4] 王星華,陳卓優,彭顯剛. 一種基于雙層聚類分析的負荷形態組合識別方法[J]. 電網技術, 2016, 38(1):1-7.

WANG Xinghua,CHEN Zhuoyou, PENG Xiangang. A new combinational electrical load analysis method based on bilayer clustering analysis[J]. Power System Technology,2016, 38(1):1-7.

[5] 張慧哲, 王堅. 基于初始聚類中心選取的改進 FCM 聚類算法[J]. 計算機科學,2009,36(6):206-209.

ZHANG Huizhe, WANG Jian. Improved fuzzy C means clustering algorithm based on selecting initial clustering centers[J].Computer Science, 2009,36(6) : 206-209.

[6] 蔣雯倩, 李欣然, 錢軍. 改進FCM算法及其在電力負荷壞數據處理的應用[J]. 電力系統及其自動化學報, 2011, 23(5): 1-5.

JIANG Wenqian, LI Xinran, QIAN Jun. Application of improved FCM algorithm in outlier processing of power load[J]. Proceedings of the CSU-EPSA, 2011, 23(5): 1-5.

[7] 張斌,莊池杰,胡軍,等.結合降維技術的電力負荷曲線集成聚類算法[J].中國電機工程學報,2015,35( 15) : 3741-3749.

ZHANG Bin, ZHUANG Chijie,HU Jun,et al. Ensemble clustering algorithm combined with dimension reduction techniques for power load profiles[J].Proceedings of the CSEE,2015, 35(15): 3741-3749.

A clustering algorithm of power userload curves based on Pearsoncorrelation coefficient

WANG Xinghua,XU Xuanhao,ZHOU Yawu

(School of Automation,Guangdong University of Technology,Guangzhou 510006,China)

A Pearson Correlation Clustering (PCC) algorithm based on Pearson correlation coefficient as a clustering criterion is proposed. Firstly, the load data is cleaned and noiseeliminationis made, thenthe appropriate dimensionality reduction algorithm is selected to reduce the complexity of data processing. The Pearson correlation coefficient threshold is proposed to be used as the method of clustering center selection to solve the stochasticity of the initial clustering center selection. Clusteringis madebyusing Pearson correlation coefficient between the power load curve data and the clustering center,and the influence of different coefficients on the clustering effect is analyzedby takingthe DBI indexas the clustering effect. The results show that compared with the traditional algorithm, the algorithm has a short run time, strong robustness and better clustering effect.

Pearson correlation coefficient; load curve classification; dimensionality reduction; median filter; clustering validity

2017-06-27。

王星華(1972—),男,副教授,研究方向為電力系統自動化,電力系統高級應用軟件開發,信息化電力系統等領域的研究和開發。

TM714

A

2095-6843(2017)05-0397-05

(編輯陳銀娥)

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 免费国产黄线在线观看| 97视频精品全国在线观看| 亚洲精品不卡午夜精品| 久久这里只有精品免费| 亚洲精品成人片在线观看| 国产一级毛片高清完整视频版| 国产91特黄特色A级毛片| 精品国产Av电影无码久久久| 国产91视频观看| 亚洲国产天堂久久综合226114| 99人妻碰碰碰久久久久禁片| 在线国产91| 色哟哟色院91精品网站| 亚洲六月丁香六月婷婷蜜芽| 成年A级毛片| 国产99视频精品免费观看9e| 91精品啪在线观看国产91九色| 在线观看无码a∨| 区国产精品搜索视频| 91久久精品国产| 美女免费黄网站| 久久国产精品娇妻素人| 2019年国产精品自拍不卡| 2021天堂在线亚洲精品专区| 91探花国产综合在线精品| 成人永久免费A∨一级在线播放| 精品人妻无码中字系列| 国产精品尤物在线| 亚洲首页在线观看| 好吊妞欧美视频免费| 中文字幕在线永久在线视频2020| 91在线播放国产| 一本无码在线观看| 久久精品aⅴ无码中文字幕| 在线国产毛片手机小视频 | 青青草国产在线视频| 欧洲av毛片| 日日拍夜夜操| 天天躁夜夜躁狠狠躁躁88| 1769国产精品免费视频| 婷婷综合在线观看丁香| 国产黄在线观看| 女同久久精品国产99国| 亚洲av日韩综合一区尤物| 中文字幕有乳无码| 国产呦精品一区二区三区下载| 亚洲欧美激情另类| 国产人人射| 成年女人18毛片毛片免费| 韩国自拍偷自拍亚洲精品| 国产亚洲欧美日韩在线一区| 国产精品一区二区在线播放| 亚洲精品久综合蜜| 亚洲综合色区在线播放2019| 国产成在线观看免费视频| 日韩精品高清自在线| 97久久精品人人| 精品国产免费人成在线观看| 伊人婷婷色香五月综合缴缴情| 暴力调教一区二区三区| a级免费视频| 91系列在线观看| 国产福利在线观看精品| 久久五月视频| 试看120秒男女啪啪免费| 国模粉嫩小泬视频在线观看| 久久亚洲黄色视频| 免费a在线观看播放| 欧美精品高清| 欧美日在线观看| 黄色网站不卡无码| 国产综合网站| 国产精品无码影视久久久久久久 | 色噜噜狠狠狠综合曰曰曰| 伊人蕉久影院| 99免费视频观看| 国产一区成人| 永久天堂网Av| 久久一级电影| 中文字幕久久波多野结衣| 在线无码av一区二区三区| 国产91九色在线播放|