陳廣興
(廣東電網(wǎng)有限責(zé)任公司佛山順德供電局,廣東 順德 528300)
電力營銷積累了大量用戶信息及其用電行為數(shù)據(jù),通過對(duì)該數(shù)據(jù)進(jìn)行有效的聚類和分類分析,可以提取有價(jià)值的用戶群體和用戶用電特征,為后續(xù)的電力營銷策略提供支持。按數(shù)據(jù)來源劃分,電力營銷系統(tǒng)采用了調(diào)度中心和終端數(shù)據(jù)實(shí)時(shí)發(fā)出的中央數(shù)據(jù)匯總,該數(shù)據(jù)具有狀態(tài)多樣化、變量類型復(fù)雜的特點(diǎn),不利于統(tǒng)計(jì)分析。而采用聚類分析法可對(duì)其進(jìn)行簡約化處理[1-3],針對(duì)在不同運(yùn)行狀態(tài)下電力營銷系統(tǒng)的數(shù)據(jù)挖掘和分析,提取有效數(shù)據(jù)及其之間的關(guān)聯(lián)性,作為系統(tǒng)隱患檢測的數(shù)據(jù)參考。因此,本文通過對(duì)聚類分析的數(shù)據(jù)篩選和數(shù)據(jù)類型的相異度進(jìn)行計(jì)算。通過對(duì)該算法進(jìn)行仿真實(shí)驗(yàn),與其他相關(guān)算法對(duì)比檢測了其可用性和有效性,可在制定系統(tǒng)安全穩(wěn)定運(yùn)行的規(guī)劃方案設(shè)計(jì)中,提供高效的信息處理能力。
目前工作中使用比較多的聚類方法主要包括基于模型的聚類方法、基于網(wǎng)格的聚類方法和基于密度的聚類方法。本設(shè)計(jì)在電力營銷聚類分析的數(shù)據(jù)挖掘算法中采用基于密度的聚類方法篩選數(shù)據(jù)[4]:設(shè)低密度區(qū)域?yàn)閚d,用以分割聚類空間中的數(shù)據(jù)類;分割后的數(shù)據(jù)類高密度區(qū)域設(shè)為ng,其屬性值為p。nd和ng表達(dá)式如下:

式中,v為所屬空間數(shù)目;b1為低密度對(duì)象子區(qū)域數(shù)目;nr為當(dāng)前節(jié)點(diǎn)屬性的值域,a1為高密度對(duì)象子區(qū)域數(shù)目。
結(jié)合式(1),對(duì)電力營銷聚類分析數(shù)據(jù)進(jìn)行篩選,可表示為:

式中,p為分割得到的子區(qū)域數(shù)目;i為屬性值的樣本密度,也就是聚類分析數(shù)據(jù)篩選的數(shù)據(jù)對(duì)象,即篩選出屬性值中出現(xiàn)頻率最高的樣本密度。
依據(jù)電力營銷聚類分析原理對(duì)數(shù)據(jù)對(duì)象進(jìn)行聚類,并通過數(shù)據(jù)結(jié)構(gòu)和相異度矩陣獲得數(shù)據(jù)間的相異度。數(shù)據(jù)相異度矩陣如下:

聚類分析數(shù)據(jù)相異度矩陣用來存放n個(gè)數(shù)據(jù)對(duì)象兩兩之間形成的差異。式中,n表示數(shù)據(jù)矩陣對(duì)象,其間的差異值用i和f表示,p表示屬性。當(dāng)差異值取正數(shù)時(shí),f和i越接近于0,屬性值p越大,則表示f和i不相似;否則,若f和i的取值小于0,p數(shù)值就會(huì)越小,說明f和i的相似度高。
在上述矩陣基礎(chǔ)上采用聚類算法進(jìn)行計(jì)算數(shù)據(jù)類型相異度,即將變量值度量化并進(jìn)行標(biāo)準(zhǔn)化處理,如(3):

式中,sf表示變量值的絕對(duì)偏差值;mf表示f的絕對(duì)平均值。
基于式(3)計(jì)算數(shù)據(jù)類型相異度,如式(4):

式中,d(i,j)是對(duì)象i和對(duì)象j之間相異性的量化表示,且該相異性值通常是一個(gè)非負(fù)的數(shù)值,當(dāng)對(duì)象i和j越相似時(shí),相異性值就越接近于0,反之,值越大,且d(i,j)=d(j,i),d(i,j)=0。基于電力營銷聚類分析的數(shù)據(jù)類型相異性計(jì)算如式(5):

式中,kl為聚類分析數(shù)據(jù)量。目前為止,完成了聚類分析數(shù)據(jù)類型相異度計(jì)算,接下來需要設(shè)計(jì)聚類分析數(shù)據(jù)挖掘算法的流程。
聚類分析數(shù)據(jù)挖掘算法是大數(shù)據(jù)和數(shù)據(jù)挖掘最常用的經(jīng)典算法之一,也是數(shù)據(jù)挖掘的關(guān)鍵技術(shù)。通過聚類分析算法可將物理或抽象對(duì)象的集合按照相似性進(jìn)行分組,然后在相似的基礎(chǔ)上,根據(jù)數(shù)據(jù)類型相異度挖掘出數(shù)據(jù)蘊(yùn)含的潛在信息并進(jìn)行數(shù)據(jù)分類。其算法如圖1所示。

圖1 聚類分析數(shù)據(jù)挖掘算法流程圖
基于聚類分析數(shù)據(jù)挖掘算法流程完成聚類分析的框架設(shè)計(jì),如圖2所示。

圖2 電力營銷聚類分析框架
對(duì)輸入的樣本向量定義為 (v1,v2,…,vi,c),該向量由字段值vi和類型c組成,對(duì)應(yīng)的數(shù)據(jù)記錄結(jié)構(gòu)也是類型標(biāo)簽+數(shù)值的訓(xùn)練集。其中,該標(biāo)簽也可作為輸入的經(jīng)驗(yàn)數(shù)據(jù)。完成分類后,可引入決策樹算法進(jìn)行數(shù)據(jù)挖掘,預(yù)測準(zhǔn)確度:數(shù)據(jù)挖掘算法的基本策略設(shè)計(jì)如圖3所示。

圖3 數(shù)據(jù)挖掘算法的基本策略
其中,基于SLIO算法的修剪樹表達(dá)式如(6):

式中,COST(DM)為編碼成本;BCOST(M)為所有的分類錯(cuò)誤數(shù)。
設(shè)計(jì)仿真實(shí)驗(yàn),通過算法實(shí)例對(duì)基于電力營銷聚類分析的數(shù)據(jù)挖掘算法進(jìn)行可行性和有效性驗(yàn)證。實(shí)例中所用到的數(shù)據(jù)來自數(shù)據(jù)挖掘網(wǎng)站,其關(guān)鍵數(shù)據(jù)主要為聚類數(shù)目和權(quán)重指數(shù)。其中,聚類數(shù)目用于與聚類樣本的總數(shù)量比較,用以判斷數(shù)據(jù)挖掘是否有意義。即,當(dāng)聚類數(shù)目大于聚類樣本的總數(shù)量時(shí),數(shù)據(jù)挖掘才有意義。權(quán)重指數(shù)用來體現(xiàn)數(shù)據(jù)挖掘算法效果,指數(shù)越小,說明算法對(duì)數(shù)據(jù)挖掘效果越好;指數(shù)越大,說明數(shù)據(jù)挖掘效果越差。基于數(shù)據(jù)有意義挖掘需求,給出電力營銷聚類數(shù)據(jù)相應(yīng)的值,包括聚類數(shù)(JLN)、類間距(LJJ)、類內(nèi)距(LNJ)和準(zhǔn)則(ZZ),如表1所示。

表1 電力營銷聚類數(shù)據(jù)參數(shù)值
算法實(shí)現(xiàn)過程大概分為六步:(1)根據(jù)問題定義,完成數(shù)據(jù)中的空值填補(bǔ)和一致性優(yōu)化,做好數(shù)據(jù)準(zhǔn)備;(2)創(chuàng)建數(shù)據(jù)倉庫用以將多個(gè)數(shù)據(jù)源集合起來,形成目標(biāo)數(shù)據(jù)并存放在數(shù)據(jù)庫,作為下一步的數(shù)據(jù)應(yīng)用準(zhǔn)備;(3)為提高挖掘效率,將數(shù)值轉(zhuǎn)換為數(shù)據(jù)集壓縮形式;(4)根據(jù)實(shí)際需求,制定數(shù)據(jù)任務(wù)并使用SLIO算法挖掘數(shù)據(jù);(5)通過與需求標(biāo)準(zhǔn)對(duì)比,篩選相關(guān)模式和有價(jià)值的信息;(6)基于決策樹對(duì)最終數(shù)據(jù)進(jìn)行轉(zhuǎn)化,以便于理解的語言描述或展開形式呈現(xiàn)給用戶。到此,完成基于電力營銷聚類分析的數(shù)據(jù)挖掘算法過程。
分別使用本文設(shè)計(jì)算法和文獻(xiàn)[3]中提出的基于支持度-置信度-提升度的配網(wǎng)自動(dòng)化系統(tǒng)數(shù)據(jù)挖掘算法、文獻(xiàn)[3]中提出的基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,重復(fù)實(shí)驗(yàn)10次,得出實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,見表2。
由表2可以看出,三種算法中只有本設(shè)計(jì)中算法的挖掘速度更快,計(jì)算時(shí)間全都在1.0s以內(nèi);而基于支持度-置信度-提升度的配網(wǎng)自動(dòng)化系統(tǒng)數(shù)據(jù)挖掘算法和基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法所用時(shí)間基本上在1.35s~1.84s范圍之內(nèi),挖掘速度相對(duì)較慢。因此,在數(shù)據(jù)挖掘效率上,本文算法具有良好的可行性。
對(duì)本文算法與其他兩種算法進(jìn)行數(shù)據(jù)挖掘精確度測試以驗(yàn)證本文算法的應(yīng)用效果,計(jì)算公式如(7):

式中,m為參與挖掘的項(xiàng)目數(shù)量;w為算法的實(shí)際挖掘數(shù)量;w'為預(yù)測挖掘數(shù)量。利用式(7)對(duì)上述三種數(shù)據(jù)挖掘算法的精準(zhǔn)度進(jìn)行計(jì)算并對(duì)比,結(jié)果如圖4所示。

圖4 三種算法測試精準(zhǔn)度對(duì)比結(jié)果
通過圖4所示的三種算法精準(zhǔn)度對(duì)比可知,基于電力營銷聚類分析的數(shù)據(jù)挖掘算法在引入決策樹算法后,其計(jì)算精準(zhǔn)度要遠(yuǎn)高于其他兩種算法。隨著數(shù)據(jù)挖掘數(shù)量的增加,本文算法的精準(zhǔn)度也越來越高,接近93%左右,其他兩種算法的最高精準(zhǔn)度均在85%以下。
通過上述實(shí)驗(yàn)可知,本設(shè)計(jì)中的算法無論是在數(shù)據(jù)挖掘效率還是精準(zhǔn)度方面均符合設(shè)計(jì)的可行性和有效性要求,能在一定程度上提高數(shù)據(jù)挖掘的可信度。
聚類分析在電力行業(yè)數(shù)據(jù)挖掘的應(yīng)用,可通過制定合理的決策幫助提升電力企業(yè)的市場競爭力。而傳統(tǒng)的電力營銷聚類算法挖掘速度慢,精準(zhǔn)度低,因此本設(shè)計(jì)所提出的基于電力營銷聚類分析的數(shù)據(jù)挖掘算法,通過對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行合理的分析,可有效提升聚類數(shù)據(jù)類型的聚類性。結(jié)合算法流程設(shè)計(jì)中所用到的基本策略,可快速、精準(zhǔn)地完成目標(biāo)數(shù)據(jù)的提取。本文的數(shù)據(jù)挖掘算法創(chuàng)新點(diǎn)主要體現(xiàn)在兩方面,第一方面根據(jù)聚類分析原理,實(shí)現(xiàn)對(duì)電力營銷系統(tǒng)數(shù)據(jù)的篩選。第二方面通過求取聚類數(shù)據(jù)距離完成對(duì)數(shù)據(jù)對(duì)象的聚類分析,計(jì)算數(shù)據(jù)對(duì)象之間距離的相異度。通過相關(guān)實(shí)驗(yàn)測試結(jié)果,本文中算法在挖掘速度上基本在1.0s以內(nèi),比其他算法提速了40%左右;在數(shù)據(jù)挖掘精確度上也平均高出了20~40個(gè)百分點(diǎn),由此證明了基于電力營銷聚類分析的數(shù)據(jù)挖掘算法具有很好的可行性和有效性。