999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用改進(jìn)高斯混合模型的電力客戶大數(shù)據(jù)行為分析

2022-06-18 02:21:06劉瑋潔

吉 濤,劉瑋潔,段 立,鄭 偉,廖 勇

(1.國(guó)網(wǎng)重慶市電力公司信息通信分公司, 重慶 401120;2.國(guó)網(wǎng)重慶市電力公司銅梁供電公司, 重慶 402560;3.重慶大學(xué) 微電子與通信工程學(xué)院, 重慶 400044)

0 引言

用電客戶行為分析是電力大數(shù)據(jù)研究的重要組成部分,是負(fù)荷預(yù)測(cè)、需求側(cè)響應(yīng)、電網(wǎng)規(guī)劃、經(jīng)濟(jì)運(yùn)行、費(fèi)率制定、能效提升等研究與工作的基礎(chǔ)。電力客戶行為分析能夠?yàn)楣╇娖髽I(yè)開(kāi)拓目標(biāo)市場(chǎng),對(duì)不同的客戶進(jìn)行差異化定制,提高企業(yè)的競(jìng)爭(zhēng)力。因此,供電企業(yè)精準(zhǔn)分析出用戶用電行為,已成為供電企業(yè)經(jīng)營(yíng)決策的首要問(wèn)題。

聚類算法[1-2]是一種將數(shù)據(jù)集劃分為多個(gè)不相交子集的數(shù)據(jù)處理算法,常用的聚類算法包含K-均值聚類(K-means)、高斯混合模型聚類(gaussian mixture model,GMM)、基于密度的帶噪空間聚類(density-based spatial clustering of application with noise,DBSCAN)、劃分和層次聚類等。其中GMM聚類算法受到較多關(guān)注,然而其需要預(yù)先知道聚類簇的數(shù)量,因此,許多研究對(duì)其進(jìn)行改進(jìn)。Wang等[3]在高速加工環(huán)境下使用GMM來(lái)對(duì)加工環(huán)境進(jìn)行聚類,對(duì)比K-均值聚類算法有著更好的聚類效果。阮曉鋼等[4]提出基于GMM最大期望聚類的同時(shí)定位與地圖構(gòu)建(SLAM)數(shù)據(jù)關(guān)聯(lián)算法,通過(guò)GMM為觀測(cè)值進(jìn)行合理的聚類分組以減少同一時(shí)刻參與關(guān)聯(lián)的觀測(cè)值數(shù)量,降低了計(jì)算復(fù)雜度并提高了算法效率。但上述文獻(xiàn)中的算法都采用隨機(jī)初始化初值,存在收斂速度慢的問(wèn)題。任莎莎等[5]提出一種結(jié)合GMM與K-均值聚類的改進(jìn)方法,利用K-均值聚類作為輔助,為GMM聚類的迭代過(guò)程提供初始的聚類簇中心,并利用期望最大化(expectation maximization,EM)算法進(jìn)行似然估計(jì),提高了分類的精度,但該方法迭代次數(shù)過(guò)多,復(fù)雜度高。Song等[6]采用GMM僅將EM算法應(yīng)用新產(chǎn)生的數(shù)據(jù),沒(méi)有充分考慮到歷史數(shù)據(jù),雖然算法的可行性得到驗(yàn)證,但是聚類簇的數(shù)量還是沒(méi)有確定,且復(fù)雜度高。

為進(jìn)一步提升對(duì)用電客戶行為分析的效果,針對(duì)現(xiàn)有的GMM聚類算法需要知道聚類簇?cái)?shù)量以及迭代次數(shù)多的缺點(diǎn),提出聯(lián)合DBSCAN和EM的GMM算法,簡(jiǎn)稱DEG算法 (DBSCAN-EM-GMM)。該算法主要分為2個(gè)步驟:① 采用DBSCAN算法對(duì)電力公司所得數(shù)據(jù)進(jìn)行第一次聚類,完成k個(gè)中心點(diǎn)的選取以及后續(xù)高斯模型參數(shù)初始化;② 由第一步獲得的k個(gè)聚類簇中心,利用EM算法迭代GMM的參數(shù),從而有依據(jù)地分析數(shù)據(jù)。此外,對(duì)所提算法和其他算法進(jìn)行對(duì)比,論證了所提算法的可行性和有效性。

1 DEG算法

基于DBSCAN的聚類算法和EM算法作為基礎(chǔ)的GMM聚類算法,構(gòu)建了DEG算法。整套算法先通過(guò)DBSCAN聚類算法進(jìn)行第一次聚類來(lái)尋求合適的聚類數(shù)目k以及后續(xù)GMM算法的初始參數(shù),然后采用EM算法進(jìn)行迭代求解GMM模型的參數(shù),算法構(gòu)建的基本流程細(xì)化如下:

設(shè)電力公司的客戶信息數(shù)據(jù)x有n個(gè)特征,定義x=[x1,x2,…,xn]T,假定x服從式(1)分布:

(1)

該分布由k個(gè)高斯分布成分組成,其中δi表示來(lái)自第i個(gè)高斯分布的概率,滿足式(2)關(guān)系:

(2)

p(x|μi,Ti)為x的概率密度分布函數(shù),其定義如式(3)所示:

(3)

其中,μi為均值向量,Ti為協(xié)方差矩陣,(·)T為轉(zhuǎn)置運(yùn)算。式(3)指出該分布的參數(shù)由均值向量和協(xié)方差矩陣組成。為了便于分析,引入隱變量p(yj=i)[7],注意p(yj=i)=δi,其含義為樣本xi是來(lái)自第j個(gè)高斯分布成分的概率,當(dāng)滿足式(4)條件時(shí),視xj為來(lái)自第i個(gè)高斯成分:

maxp(yj=i),j=1,2,…,k

(4)

當(dāng)隱變量已知時(shí),高斯混合聚類模型將數(shù)據(jù)集D={x1,x2,…,xm}劃分成k類數(shù)據(jù),此時(shí)為了得到模型參數(shù)(δi,μi,Ti),需要采用最大似然估計(jì)法求解參數(shù),數(shù)據(jù)集D的似然函數(shù)如式(5)所示:

(5)

對(duì)L(D)取對(duì)數(shù)可以得到對(duì)數(shù)似然函數(shù),如式(6):

(6)

(7)

δi·p(xj|μi,Ti)·(xj-μi)]

(8)

(9)

令式(9)等于0,則μi為:

(10)

(11)

(12)

代入式(11),可得到Ti為:

(13)

(14)

(15)

(16)

上述推導(dǎo)得到μi、Ti及δi的計(jì)算過(guò)程,當(dāng)這3個(gè)參數(shù)計(jì)算后,反過(guò)來(lái)更新后驗(yàn)概率p(yj=i|xj),根據(jù)貝葉斯公式,可以得到式(17):

(17)

EM算法[8]的過(guò)程分為2步:在初始化模型參數(shù)(δi,μi,Ti)后,首先根據(jù)式(17)計(jì)算各分模型的概率,其次根據(jù)式(10)(13)和(16)更新3個(gè)模型參數(shù),并反復(fù)迭代,直到似然函數(shù)增長(zhǎng)緩慢或不再增長(zhǎng)為止。然而初始化的參數(shù)決定著迭代次數(shù),如果初始化的參數(shù)選取不恰當(dāng),會(huì)導(dǎo)致大量的迭代,直接影響著聚類過(guò)程的效率。通常初始化的方法采用隨機(jī)選取的方式,即隨機(jī)抽取k個(gè)點(diǎn)作為聚類中心,并計(jì)算剩余的m-k個(gè)數(shù)據(jù)與這k個(gè)點(diǎn)的距離,根據(jù)距離最近的準(zhǔn)則劃分?jǐn)?shù)據(jù)的類別。完成劃分后,得到k個(gè)類別的所有數(shù)據(jù),并計(jì)算初始參數(shù)(δi,μi,Ti),之后進(jìn)行EM算法的迭代。隨機(jī)選取聚類中心的方式并不能保證收斂速度,甚至可能造成收斂緩慢,因此,本文提出基于DBSCAN[9]的初始化方式,一方面DBSCAN基于密度的方式進(jìn)行聚類較隨機(jī)選取的方式相比能夠加速EM算法的迭代,另一方面DBSCAN能夠自動(dòng)確定k值,解決高斯聚類需要提前知道k值的難題。DBSCAN聚類過(guò)程如算法1所描述。

算法1:用于初始化高斯聚類初值的DBSCAN聚類

輸入:D={x1,x2,…,xm},r,P

過(guò)程:

1. Ω=?

2. forj=1,2,…,n

3. 統(tǒng)計(jì)與xj的歐式距離小于r的數(shù)據(jù)個(gè)數(shù)Pj

4. ifPj≥P

5. Ω=Ω∪{xj}

6. end if

7. end for

8.o=1

9. while Ω≠?

10. 隨機(jī)從Ω中選取一個(gè)對(duì)象xi

11. 尋找所有xi密度可達(dá)的數(shù)據(jù){xl,xl+1,…}

12. 形成聚類簇Co={xi,xl,xl+1,…}

13. if {xj,xj+1,…}?Coand {xj,xj+1,…}?Ω

14. Ω=Ω/{xj,xj+1,…}

15. end if

16.o=o+1

17. end while

輸出:聚類簇劃分C={C1,C2,…,Ck}

算法2:DEG聚類

輸入:D={x1,x2,…,xm},r,P

過(guò)程:

1. 根據(jù)算法1得到初始聚類簇C={C1,C2,…,Ck}

2. 選取k個(gè)聚類簇的中心{x1,x2,…,xk},并初始化 {(δi,μi,Ti)|i∈[1,k]}

3. while ΔLL(D)≤ε

4. forj=1,2,…,m

5. 根據(jù)式(17)更新p(yj=i|xj)

6. end for

7. fori=1,2,…,k

8. 根據(jù)式(10)更新μi

9. 根據(jù)式(13)更新Ti

10. 根據(jù)式(16)更新δi

11. end for

12. end while

13. forj=1,2,…,m

14. 對(duì)于xj,選取最大的p(yj=i|xj),i∈[1,k]

15.xj∈Ci

16. end

輸出:聚類簇劃分C={C1,C2,…,Ck}

2 聚類算法評(píng)價(jià)指標(biāo)

目前存在許多聚類算法的評(píng)價(jià)指標(biāo),選取其中典型的指標(biāo)對(duì)聚類算法進(jìn)行性能評(píng)價(jià),包括Fowlkes-Mallows (FM)[10],調(diào)節(jié)蘭德指數(shù)(adjusted rand index,ARI)[11],Jaccard系數(shù)(jaccard coefficient,JC)[12]以及分離度(degree of separation,DS)[13]等。

FM指標(biāo)的計(jì)算表達(dá)式為:

(18)

其中:a是2個(gè)同類樣本點(diǎn)在同一個(gè)簇中的個(gè)數(shù),b表示2個(gè)非同類樣本點(diǎn)在同一個(gè)簇中的個(gè)數(shù),c表示2個(gè)同類樣本點(diǎn)分別在2個(gè)簇中的個(gè)數(shù)。FM指標(biāo)在0~1,當(dāng)FM指標(biāo)大的時(shí)候,說(shuō)明劃分后的簇與標(biāo)準(zhǔn)簇較為接近,當(dāng)FM指標(biāo)為1時(shí)說(shuō)明聚類的結(jié)果完全正確,與標(biāo)準(zhǔn)簇一致。

ARI是蘭德系數(shù)(rand index,RI)的改進(jìn),較后者相比,ARI系數(shù)能去掉隨機(jī)標(biāo)簽對(duì)評(píng)估結(jié)果的影響,其計(jì)算公式如式(19)所示:

(19)

其中,d表示2個(gè)非同類樣本點(diǎn)分別在2個(gè)簇中的個(gè)數(shù),ARI取值在-1~1,越大表示聚類效果越好。

Jaccard系數(shù)描述了樣本集的異同性。其系數(shù)越大說(shuō)明樣本的相似度越高。其定義如下:

(20)

其中,JC位于0~1,值越大越好。

分離度簇與簇之間的分離程度,分離度越高說(shuō)明簇之間的分離程度越清晰。如式(21)和式(22)所示:

Fij=(uij-α)2

(21)

(22)

其中,F(xiàn)ij表示模糊偏差,uij為數(shù)據(jù)j對(duì)第i類的支持度,其值越大就說(shuō)明它的信息量越大,α為懲罰因子,默認(rèn)取值為0.5。簇之間的模糊偏差相乘表示2個(gè)模糊集合的分離度,分離度就越高,取值越小。

將所有子簇的分離度相加得到總體分離度,其計(jì)算方法如式(23)所示:

(23)

3 應(yīng)用案例

3.1 數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備即從客戶端大數(shù)據(jù)中選取對(duì)聚類結(jié)果影響較大的特征作為聚類分析的數(shù)據(jù)基礎(chǔ)和用電行為分析的主要對(duì)象。

1)特征屬性的選取

對(duì)用電客戶的客戶行為和性質(zhì)進(jìn)行分析,形成了一個(gè)指標(biāo)體系來(lái)判斷用戶行為規(guī)律和區(qū)分用戶類別,從而幫助管理者改進(jìn)服務(wù)以及優(yōu)化業(yè)務(wù)。在表1中,基于聚類的特點(diǎn),對(duì)客戶的行為數(shù)據(jù)進(jìn)行劃分,包括客戶消費(fèi)水平,客戶掉電敏感程度,欠費(fèi)風(fēng)險(xiǎn)以及設(shè)備風(fēng)險(xiǎn),分別反映了客戶的消費(fèi)水平、客戶對(duì)于用電需求的緊急程度、客戶的誠(chéng)信度以及客戶的安全意識(shí)。這些指標(biāo)能全面分析客戶的行為特點(diǎn)和規(guī)律。

表1 客戶行為評(píng)估因素

2) 數(shù)據(jù)采集

此次一共選取了20 000位客戶的對(duì)應(yīng)數(shù)據(jù),選取標(biāo)準(zhǔn)為前面整理出的客戶分群的評(píng)估因素,一些客戶的消費(fèi)水平信息如表2所示。

表2 用戶消費(fèi)水平信息

由用電類型、掉電后的投訴數(shù)量以及簽訂的合同容量共同組成了客戶掉電后敏感程度信息,信息示例如表3所示。

為了能夠比較精確的看出客戶繳費(fèi)是否及時(shí),選取了幾項(xiàng)指標(biāo)來(lái)構(gòu)成客戶欠費(fèi)風(fēng)險(xiǎn)信息,如表4所示。

表3 客戶掉電敏感程度信息

表4 客戶欠費(fèi)風(fēng)險(xiǎn)信息

表4展示的是部分客戶的客戶盜電風(fēng)險(xiǎn)各項(xiàng)指標(biāo)的數(shù)據(jù)。根據(jù)實(shí)際用電量以及合同用電量來(lái)計(jì)算匹配度λ,如式(24)所示。

(24)

3.2 聚類結(jié)果

本文對(duì)比了上文所提的采用DBSCAN聚類初始化和采用隨機(jī)選取初始化的測(cè)試結(jié)果。圖1為未聚類之前的數(shù)據(jù)分布情況,圖2為隨機(jī)選取初始化的聚類中心以及其余數(shù)據(jù)的分布情況,圖3為采用DBSCAN初始化方式的聚類中心以及其余數(shù)據(jù)的分布情況,圖4為最終聚類結(jié)果。從最終的結(jié)果可以看出,數(shù)據(jù)集被分為3類。隨機(jī)選取初始化的方式迭代次數(shù)為514次,而采用DBSCAN初始化僅需要26次迭代。從圖2可以看出,隨機(jī)選取的3個(gè)中心與最終的聚類中心差距較大,由于這點(diǎn),其余數(shù)據(jù)的聚類簇化分也與最終的聚類簇有較大差距,因此需要大量的迭代次數(shù)來(lái)調(diào)整參數(shù)。

圖1 數(shù)據(jù)分布

圖2 隨機(jī)選取初始化

圖3 DBSCAN初始化

圖4 聚類結(jié)果

圖3采用DBSCAN初始化在一開(kāi)始就能找出與最終結(jié)果接近的聚類簇,雖然有個(gè)別的數(shù)據(jù)存在偏差,但是經(jīng)過(guò)少量迭代調(diào)整之后就能得到最終的聚類結(jié)果。

通過(guò)聚類的結(jié)果分析不同類型客戶大致的用電行為,通過(guò)對(duì)表5的數(shù)據(jù),可以得出通過(guò)本文客戶行為分析算法,最終將客戶分為了三大類,下面通過(guò)該數(shù)據(jù)對(duì)每一類客戶具體分析:

第1類客戶群:此類客戶占到了總客戶數(shù)的40%,擁有很高的比重,并且月均消費(fèi)也是三類客戶中最高,達(dá)到了13.87萬(wàn)元,對(duì)電力公司的影響較大;另外,該類客戶的合同容量為550 kVA,用電匹配度為0.97,對(duì)于用電容量還是有較高要求的,用途多為大工業(yè)用電,并且該類客戶的安全用電意識(shí)整體來(lái)說(shuō)比較高;需要注意的是該類客戶的電費(fèi)拖欠比較嚴(yán)重,金額為4.48萬(wàn)元。總體來(lái)說(shuō),該類客戶屬于具有高水平價(jià)值的客戶。

第2類客戶群:此類客戶占到了總客戶數(shù)的50%,說(shuō)明這是其中最廣泛的客戶,該類客戶的消費(fèi)水平較低,月均消費(fèi)為1.48萬(wàn)元;合同容量也僅為75 kVA,對(duì)用電容量的需求不是很高,用電匹配度為0.87,所以用途大多數(shù)是工商業(yè)用電,并且該類客戶的安全用電意識(shí)整體來(lái)說(shuō)良好;不過(guò)拖欠金額為0.37萬(wàn)元,說(shuō)明此類客戶的信用較好,拖欠情況不是很嚴(yán)重??傮w來(lái)說(shuō),該類客戶屬于具有中等水平價(jià)值的客戶。

第3類客戶群:此類客戶比重僅僅為總客戶的10%,屬于客戶數(shù)量中較少的群體。該類的消費(fèi)水平屬于中等水平,月均消費(fèi)為4.15萬(wàn)元。另外,該類客戶的合同容量為110 kVA,用電匹配度為0.71,對(duì)于用電容量要求一般,并且該類客戶的安全用電意識(shí)整體來(lái)說(shuō)較差;拖欠金額3.87萬(wàn)元,拖欠情況較為嚴(yán)重,誠(chéng)信度較低。總體來(lái)說(shuō),該類客戶屬于具有較低水平價(jià)值的客戶。

表6描述了3種算法在相同數(shù)據(jù)情況下的性能。從表中可以看出,高斯聚類算法的指標(biāo)優(yōu)于K-均值算法,然而在運(yùn)行效率上,K-均值算法的速度為高斯聚類算法的一半。本文所提的算法基于高斯聚類算法改進(jìn),因此指標(biāo)進(jìn)一步提升了,且由于在迭代之前進(jìn)行了良好的初始化,因此運(yùn)行時(shí)間也得到了較大的提升。

通過(guò)本文的聚類算法對(duì)數(shù)據(jù)進(jìn)行分析獲得聚類結(jié)果,利用本文所提的聚類算法可以對(duì)客戶端大數(shù)據(jù)進(jìn)行分析并獲得聚類結(jié)果,電力企業(yè)通過(guò)對(duì)聚類結(jié)果進(jìn)行用電客戶進(jìn)行行為分析和客戶分類,從而針對(duì)不同類型的客戶采取不同的措施和營(yíng)銷策略,以提升工作效率,并同時(shí)讓不同的用電客戶有更好的用電服務(wù)體驗(yàn)。此外,電力企業(yè)不僅能在服務(wù)上進(jìn)一步拓展廣度及深度,在精細(xì)化運(yùn)營(yíng)管理以及需求側(cè)管理水平上能得到進(jìn)一步的提升,還為后續(xù)智能電力需求提供了數(shù)據(jù)上的支持。

表5 聚類結(jié)果

表6 聚類質(zhì)量測(cè)試結(jié)果

4 結(jié)論

提出DEG聚類算法用于對(duì)電力客戶聚類,該算法基于DBSCAN聚類算法進(jìn)行第一次聚類,在此過(guò)程中確定聚類中心的數(shù)目以及后續(xù)迭代時(shí)所需的初始值,通過(guò)這些值進(jìn)行EM算法的GMM聚類,其中DBSCAN算法不僅解決了高斯混合聚類的k值問(wèn)題,而且能夠加速EM算法的迭代,增強(qiáng)聚類的全局尋優(yōu)能力。案例中,采用了FM、ARI、JC、DS聚類質(zhì)量評(píng)價(jià)以及運(yùn)行時(shí)間作為指標(biāo),對(duì)比現(xiàn)有的K-均值算法與基于隨機(jī)初始化的GMM算法,本文算法的聚類效果、聚類質(zhì)量以及全局尋優(yōu)能力更好,且穩(wěn)健性良好。

主站蜘蛛池模板: 欧美成人午夜影院| 日本午夜三级| 日韩一区二区在线电影| 欧美激情综合一区二区| 久久久噜噜噜久久中文字幕色伊伊 | 中文字幕乱码中文乱码51精品| 國產尤物AV尤物在線觀看| 亚洲欧美一级一级a| 日韩无码真实干出血视频| 国产精品护士| 久久免费成人| 毛片在线播放网址| 欧美日韩一区二区在线免费观看| 一级做a爰片久久免费| 色综合综合网| 日韩欧美综合在线制服| 91精品综合| 伊伊人成亚洲综合人网7777| 中文字幕无码av专区久久| 欧美特级AAAAAA视频免费观看| 亚洲天堂2014| 中字无码精油按摩中出视频| 欧美一级高清免费a| 综合亚洲网| 亚洲乱强伦| 国产成人精品高清不卡在线| 日韩毛片在线播放| 99在线免费播放| 伊人五月丁香综合AⅤ| 国产精品无码在线看| 日韩无码黄色网站| 色综合a怡红院怡红院首页| 色网站免费在线观看| 91麻豆国产视频| 久久精品一品道久久精品| 国产在线视频自拍| 久久精品国产电影| 首页亚洲国产丝袜长腿综合| 欧美翘臀一区二区三区| 国产精品美人久久久久久AV| 91亚洲免费| 最新国产精品第1页| 亚洲天堂日韩在线| 99久久精品无码专区免费| 国产簧片免费在线播放| 91成人免费观看在线观看| 日韩视频福利| 国产精品va| 欧美性天天| 女人18毛片一级毛片在线| 无码内射在线| 国产精品露脸视频| 亚洲日本在线免费观看| 免费日韩在线视频| 亚洲国产成人精品一二区| 国产乱子伦精品视频| 成年av福利永久免费观看| 亚洲高清在线播放| 亚洲色图另类| 亚洲视频二| 中文字幕有乳无码| 亚洲清纯自偷自拍另类专区| 免费看美女毛片| 亚洲日韩AV无码精品| 亚洲成人网在线观看| 亚洲品质国产精品无码| 91久久偷偷做嫩草影院| www欧美在线观看| 一级毛片a女人刺激视频免费| 波多野结衣无码视频在线观看| 国产精品污视频| 2021最新国产精品网站| 日韩午夜福利在线观看| 国产欧美视频在线观看| 久久福利片| 国产精选小视频在线观看| 亚洲成人www| 国产精品手机在线播放| 欧美黄网在线| 亚洲第一成网站| 九九视频免费看| 国产一级妓女av网站|