陳非, 楊永嬌, 周辰南
(廣東電力信科科技有限公司,廣東,廣州 510030)
電網(wǎng)是電力系統(tǒng)的基礎(chǔ)設(shè)施,保障著居民及社會用電安全。受我國國情影響,電力企業(yè)一直以賣家的身份,壟斷著電力市場[1],但隨著我國經(jīng)濟發(fā)展,21世紀的電力企業(yè)受到政府政策、經(jīng)濟發(fā)展形勢、互聯(lián)網(wǎng)技術(shù)發(fā)展等多重因素的影響,打破了電力行業(yè)的壟斷模式,增強了電力市場的競爭力[2]。電力企業(yè)需要改變企業(yè)電網(wǎng)營銷模式,制定適合企業(yè)可持續(xù)發(fā)展的營銷策略,是以,相關(guān)學(xué)者研究出電網(wǎng)業(yè)務(wù)營銷系統(tǒng),幫助電力企業(yè)營銷區(qū)域內(nèi)電力調(diào)控、調(diào)度計劃、運行方式等電網(wǎng)業(yè)務(wù)[3]。隨著信息技術(shù)的發(fā)展,已經(jīng)研究出財務(wù)、生產(chǎn)管理、計劃、電力調(diào)度等眾多電網(wǎng)業(yè)務(wù)營銷相關(guān)系統(tǒng),且在電力領(lǐng)域廣泛應(yīng)用[4]。但是,這些電力系統(tǒng)之間的數(shù)據(jù)都被單獨存儲在數(shù)據(jù)存儲模塊,導(dǎo)致電網(wǎng)業(yè)務(wù)營銷出現(xiàn)業(yè)務(wù)溝通困難問題,影響電網(wǎng)業(yè)務(wù)營銷效果[5]。因此,需要設(shè)計電網(wǎng)業(yè)務(wù)營銷數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘技術(shù),尋找不同系統(tǒng)數(shù)據(jù)之間存在的關(guān)聯(lián)規(guī)則,為電網(wǎng)業(yè)務(wù)營銷數(shù)據(jù)整合提供依據(jù)。
目前已經(jīng)研究出基于數(shù)字曲線、時間區(qū)間合并、日歷、神經(jīng)元網(wǎng)絡(luò)、SFVS、模糊集、Aprior算法、滑動窗口聚類、模糊發(fā)現(xiàn)、FFT、交易數(shù)據(jù)順序、規(guī)則和決策樹、交易數(shù)據(jù)生命周期等數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘技術(shù)[6]。在已有的研究成果基礎(chǔ)上,相關(guān)學(xué)者提出如下觀點,文獻[7]針對挖掘方法存在的規(guī)則冗余問題,引入主屬性判斷技術(shù)約簡關(guān)聯(lián)規(guī)則,實現(xiàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘;文獻[8]針對關(guān)聯(lián)規(guī)則挖掘方法挖掘的關(guān)聯(lián)規(guī)則存在冗余、相似規(guī)則問題,引入改進k-means算法挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則。上述的數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法,在挖掘電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則時,存在挖掘關(guān)聯(lián)規(guī)則數(shù)目少、所需執(zhí)行時間長、置信度低的問題,為此提出基于粗糙集的電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型,將決策表的決策屬性定義為單一決策、等價關(guān)系,可以被替代,即生成的時序數(shù)據(jù)的頻繁項集樹可以隨時轉(zhuǎn)置,遍歷過程是同步的,表示約簡過程和電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘過程是同步的,減少執(zhí)行時間,增加置信度。
此次研究將在時序數(shù)據(jù)的時間間隔、數(shù)據(jù)屬性、時序關(guān)聯(lián)規(guī)則的基礎(chǔ)上,通過預(yù)處理、粗糙集、壓縮矩陣和頻繁項集樹等技術(shù),按照電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)預(yù)處理、粗糙集約簡時序數(shù)據(jù)屬性、生成電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)規(guī)則這一流程,建立電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型。
由于此次研究選擇的電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù),多來自電力企業(yè)不同系統(tǒng)數(shù)據(jù)庫,具有多時間序列、數(shù)據(jù)格式不一致等特征,極易出現(xiàn)缺失、冗余等問題數(shù)據(jù)[9]。所以,通過清洗、集成、轉(zhuǎn)換、消減四步預(yù)處理電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)。
假設(shè)電網(wǎng)業(yè)務(wù)營銷數(shù)據(jù)為一個論域U、屬性集合A、信息函數(shù)F、值域V組成的四元組ζ:
(1)


(2)

基于式(2),判斷U中的數(shù)據(jù)對象及其屬性值是否滿足下式所示的條件:
(3)
式(3)中,ui、uj分別表示第i個對象和第j個對象,且i≠j。當(dāng)數(shù)據(jù)對象及其屬性值滿足式(2)所示的條件時,電網(wǎng)業(yè)務(wù)營銷數(shù)據(jù)存在冗余、缺失等問題,需要采用刪除、填充等方式清洗、集成、消減數(shù)據(jù)。
數(shù)據(jù)轉(zhuǎn)換則需要將清洗、集成、消減后的數(shù)據(jù)進行標準化和規(guī)約處理,將數(shù)據(jù)轉(zhuǎn)換為同一單位、格式的電網(wǎng)業(yè)務(wù)營銷數(shù)據(jù),同時,保留數(shù)據(jù)中原有信息,則有:
(4)

按照式(1)~式(4)所示的計算過程,完成電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)預(yù)處理。基于數(shù)據(jù)預(yù)處理結(jié)果,采用粗糙集約簡時序數(shù)據(jù)屬性,在不影響時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘效果的條件下,條規(guī)則挖掘計算效率。
時序數(shù)據(jù)屬性約簡是在保持數(shù)據(jù)集原本含義的基礎(chǔ)上,去除數(shù)據(jù)集條件屬性中不必要的屬性,以此來減少時序數(shù)據(jù)關(guān)聯(lián)規(guī)則生成的時間復(fù)雜度、計算量和冗余規(guī)則的產(chǎn)生。基于此,依據(jù)粗糙集設(shè)定的時序數(shù)據(jù)屬性約簡定義如下。
定義一:決策表中的決策屬性分為單一決策和多決策兩種,由于電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)多是電力的運行、調(diào)控、調(diào)度等類別的數(shù)據(jù),所得到的運行、調(diào)控、調(diào)度等結(jié)果均是單一的[12]。因此,將決策表的決策屬性定義為單一決策。

(5)
式(5)中,R表示依賴關(guān)系,ρ表示換算符號,c表示元素集合的基數(shù),w表示重要程度,r∈R表示R中的某一等價關(guān)系。
若式(5)所示的計算公式成立,則條件屬性集中的第r個等價關(guān)系是可以被替代的,即r相對于決策屬性可以省略,則有:
R′=R-[r]?R
R′=γ(R)
c(R)=∩γ(R)
(6)
式(6)中,R′表示R的約簡,γ表示約簡的交集。

按照定義一和定義二,通過式(5)和式(6)約簡時序數(shù)據(jù)屬性,針對約簡屬性后的時序數(shù)據(jù),進行時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘。

根據(jù)上述內(nèi)容設(shè)定的定義,采用壓縮矩陣生成時序數(shù)據(jù)的頻繁項集樹,來挖掘電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則。為此,假設(shè)電網(wǎng)業(yè)務(wù)營銷數(shù)據(jù)原始時間序列為T{q×τ},其中,q表示時序數(shù)據(jù)屬性個數(shù),τ表示時序數(shù)據(jù)采集時刻數(shù)量。此時,針對T{q×τ}進行符號化處理,則有:
(7)

(8)

基于上述計算過程,采用頻繁項集樹生成數(shù)據(jù)頻繁項集,遍歷數(shù)據(jù)庫T{q×τ},則有:
(9)
式(9)中,HT-h表示數(shù)據(jù)頻繁項集矩陣,h表示HT-h中的一個元素,g表示遍歷數(shù)據(jù)庫T{q×τ}次數(shù),hg_(ιj)j表示第g次遍歷的數(shù)據(jù)項h(ιj)i。依據(jù)式(9)所示的頻繁項集矩陣,判斷hg_(ιj)i是否存在于式(8)的行中,則有:

(10)

(11)

綜合上述電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)預(yù)處理→粗糙集約簡時序數(shù)據(jù)屬性→生成電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)規(guī)則三個步驟,完成電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型建立,實現(xiàn)電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘。
選擇基于主屬性的挖掘模型和基于k-means算法的挖掘模型作為此次實驗的對比模型,將電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)作為此次實驗研究對象,在四核8線程的銳龍R7-3700U型CPU、16 GB內(nèi)存、應(yīng)用Win XP操作系統(tǒng)的計算機上,運行MATLAB 7.0仿真軟件,驗證此次研究的基于粗糙集的電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型。
此次實驗選擇的電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)如圖1所示。

圖1 電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)
從圖1中可以看出,此次實驗選擇的數(shù)據(jù),是根據(jù)國家電網(wǎng)公布的電網(wǎng)業(yè)務(wù)營銷電價,選取的電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)。針對圖1所示的電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù),包括用電用戶基本信息、執(zhí)行合同信息、執(zhí)行結(jié)算合約信息以及用電數(shù)據(jù)、結(jié)算結(jié)果等,并自動與計量信息、購電結(jié)算憑證、用戶用電結(jié)算憑證等信息進行關(guān)聯(lián)。經(jīng)過清洗、集成、轉(zhuǎn)換、消減四步預(yù)處理后,去除用戶的電費計算信息,包括電費計算結(jié)果、偏差考核費用、違約金,以及套餐信息、售電合約等與用戶本身有關(guān)的營銷信息,剩余僅涉及業(yè)務(wù)側(cè)的電網(wǎng)業(yè)務(wù)營銷數(shù)據(jù),并突出時序?qū)傩浴?/p>
基于此次實驗選擇的實驗數(shù)據(jù),設(shè)計的實驗步驟如下。
(1) 預(yù)處理圖1所示的實驗數(shù)據(jù);
(2) 采用此次實驗選擇的三組實驗?zāi)P?分別挖掘預(yù)處理后的實驗數(shù)據(jù)關(guān)聯(lián)規(guī)則;
(3) 在MATLAB 7.0仿真軟件上,設(shè)置三組挖掘模型挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則參數(shù);
(4) 統(tǒng)計三組模型挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則數(shù)目隨支持度變化值、執(zhí)行時間隨支持度變化值和置信度隨時間變化值,并在Visio軟件上繪制成圖;
(5) 分析三組挖掘模型挖掘時序關(guān)聯(lián)規(guī)則效果。
支持程度和置信度都是關(guān)聯(lián)規(guī)則挖掘中最關(guān)鍵的衡量指標。支持度的大小可以決定規(guī)則的有效性,因此,其值越高,規(guī)則的效用越高;置信度則用于反映規(guī)則的可靠性程度,其值越大,所挖掘的數(shù)據(jù)關(guān)聯(lián)規(guī)則可靠性度就越高。其計算公式如下:
(12)
式(12)中,Z表示支持度,Z′表示置信度,{a,b}表示時序數(shù)據(jù)項集,a→b表示由條件a推出規(guī)則b,m表示{a,b}里(a∪b)出現(xiàn)次數(shù),M表示時序數(shù)據(jù)數(shù)量。
依據(jù)式(12)將最小支持度閾值和最小置信度閾值作為此次實驗選擇的3組挖掘模型挖掘時序數(shù)據(jù)關(guān)聯(lián)規(guī)則時的強規(guī)則。
2.4.1 關(guān)聯(lián)規(guī)則數(shù)目隨支持度變化
關(guān)聯(lián)規(guī)則數(shù)目隨支持度變化曲線如圖2所示。

圖2 關(guān)聯(lián)規(guī)則數(shù)目隨支持度變化曲線
從圖2中可以看出,隨著支持度值的增加,3組挖掘模型挖掘到的關(guān)聯(lián)數(shù)目隨之減少。但是,本文模型相較基于主屬性的挖掘模型和基于k-means算法的挖掘模型挖掘出的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則平均數(shù)目分別高4條和10條。可見,此次研究模型可以挖掘出支持度更高的關(guān)聯(lián)規(guī)則。
2.4.2 執(zhí)行時間隨支持度變化
執(zhí)行時間隨支持度變化曲線如圖3所示。

圖3 執(zhí)行時間隨支持度變化曲線
從圖3中可以看出,三組挖掘模型挖掘關(guān)聯(lián)規(guī)則執(zhí)行時間變化趨勢相似。但是,本文模型相較基于主屬性的挖掘模型和基于k-means算法的挖掘模型挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則的平均執(zhí)行時間分別減少4 s和25 s。可見,此次研究模型挖掘時序數(shù)據(jù)關(guān)聯(lián)規(guī)則時的效率更高。
2.4.3 置信度隨時間變化
置信度隨時間變化曲線如圖4所示。

圖4 置信度隨時間變化曲線
從圖4中可以看出,本文模型挖掘不同時間段數(shù)據(jù)的平均置信度為0.60,基于主屬性的挖掘模型的平均置信度為0.40,基于k-means算法的挖掘模型的平均置信度為0.38。可見,本文模型相較此次實驗選擇的對比模型平均置信度分別高0.2和0.22,挖掘出的關(guān)聯(lián)規(guī)則可靠性高。
本文研究電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型,充分利用粗糙集技術(shù)約簡時序數(shù)據(jù)屬性,降低時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘難度,以此來提高時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘數(shù)目的支持度和置信度,以及關(guān)聯(lián)規(guī)則挖掘效率。但是此次研究未曾考慮電網(wǎng)業(yè)務(wù)營銷時序數(shù)據(jù)中存在的潛在關(guān)聯(lián)規(guī)則。在今后的研究中,還需深入研究挖掘時序數(shù)據(jù)關(guān)聯(lián)規(guī)則的強規(guī)則,進一步提高時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘深度。