肖乃慎,李博,孔德詩
(國網四川省電力公司客戶服務中心四川成都610000)
大數據背景下的電網客戶用電行為分析系統設計
肖乃慎,李博,孔德詩
(國網四川省電力公司客戶服務中心四川成都610000)
為了利用海量的電網客戶數據對用電客戶的用電行為進行分析和預測,在大數據的背景下,引入數據挖掘技術,設計了電網客戶用電行為分析系統。根據客戶的用電數據建立了用電客戶細分及客戶信用等級的分類標準。在數據挖掘方面,通過K-means算法對用電客戶進行客戶細分,利用ID3決策樹算法對客戶的信用度進行分類。最后以某電力客服中心具體數據進行測試,結果有效的反應各分類下的客戶用電行為,系統滿足設計要求。
大數據;數據挖掘;電網;用戶行為分析
隨著市場經濟的不斷完善發展,電力公司逐漸從生產型的企業轉變為經營型企業,客戶服務和市場營銷成為工作中的重要部分,對客戶用電行為的深入研究是提高電力企業客戶服務和市場推廣能力的關鍵[1]。同時在電力企業內部積累了大量客戶信息,傳統的信息管理系統只能對數據進行簡單的查詢、修改等簡單操作,不能實現較高層次的應用,難以發揮數據的真正價值,隨著大數據時代的到來,各種計算機算法應用于信息處理,充分發揮信息的價值[2-3]。數據挖掘技術就是將有用的信息從大量隨機和有噪聲的數據中識別出來的技術,具有算法先進,功能強大的特點,因此將數據挖掘技術應用于分析電力客戶用電行為具有較高的可靠性和實用性[4]。高服務能力[5]。采用的客戶細分標準如下。
1)忠誠度。客戶的總用電時間,以月為單位。計算式如下:

2)成長度。用電客戶的年用電量的增長率。計算式如下:

1.1用電客戶細分
對于電力企業來說,客戶龐雜,用戶的用電量及用電的行為不同,為了實現精準的營銷,需要將客戶劃分成不同的客戶群,對不同的客戶群采用不同的營銷方案,針對性的提
3)貢獻度。主要從電價、電量、電費3個指標來衡量。計算式如下:

4)用電負荷變化情況。該指標可以在一定程度上反應客戶的經濟狀況,一般經濟狀況較好時,用電負荷較大,反之則用電負荷減少,根據該指標可以追蹤客戶的動態發展。
5)信譽度。該指標主要針對客戶的欠費行為和違規用電等情況,幫助建立客戶的誠信體系。利用欠費率和欠費次數來對客戶欠費情況考核。違規用電的考核主要依據累計違規用電總量和累計違規用電次數進行考核。

1.2客戶信用等級評估
信用等級評估簡單說就是運用某行業的公式和規則評估目標客戶的信用價值[6]。對于電網公司來說建立一套信用等級評價體系有利于有效的分配客戶服務資源、提高資產運作效率及有效的安排企業對客戶的考核項目。本次研究采用利潤貢獻度作為考核的指標,利潤貢獻度的公式如下:
利潤貢獻度=平均電費-平均欠費時長×平均欠費金額× 0.01-平均壞賬
欠費時長=繳費時間-當月繳費的截止時間
2.1數據挖掘簡介
數據挖掘技術又稱知識發現、商業智能、預測建模及預測分析等,是工具和技術的結合。數據挖掘技術可以幫助用戶從海量的數據中找出感興趣的信息,是近年來發展較快的交叉型學科,包括了信息科學和統計學及相關的計算機領域的知識[7-8]。數據挖掘的過程包括五個部分,過程圖如圖1所示。

圖1 數據挖掘過程
2.2數據挖掘常用算法
1)k-means算法
k-means算法是劃分聚類算法的一種。在該算法的計算中為了得到全局最優劃分,基于劃分的聚類需要完成所有可能得劃分[9-10]。處理過程為:輸入數據庫中的對象和簇的數目k,經過算法的運算輸出平方差準則最小的k個簇。具體方法如下。
第一步:設整體樣本為n,從整體樣本中任意抽取k個對象作為初始簇的中心,記為mi,

第二步:按照公式(1)計算數據中每個p到k個簇中心的距離d(p,m)。

i=(xi1,xi2,…,xip),j=(xj1,xj2,…xjp)是n維數據對象。
第三步:找到對象p的最小距離,將p劃分到與mi相同的簇中。
第四步:將所有的對象進行計算,通過公式(2)進行重新計算,作為新簇的簇中心。

公式中mk代表第k個簇的中心,N代表對象個數。
第五步:選取與整個數據集中的對象最類似的簇,并把值賦予,重復上述運算,當平方誤差準則值最小時截止運算。
2)ID3算法
ID3算法是一種基于信息熵的決策樹算法,在生成決策樹時,以信息增益作為訓練樣本集合的分裂度量標準。進行劃分時選擇信息增益最大的屬性作為參考,這樣只需較少的信息量即可完成結果的再劃分[12-14]。通過該算法可以降低樣本的劃分次數,盡可能的得到一顆簡單的決策樹。ID3的理論如下:
定義T為t個訓練樣本集合,t個樣本屬于m個不同的ci(i=1,2,...,m),ci中的樣本數為ti。設pi為某樣本屬于ci的概率,取pi=ti/t,則對給定的樣本進行分類需要的期望值信息為

設訓練樣本集合T中某個屬性為Q,Q有n個不同值{q1,q2,…,qn},Q可以將T劃分為n個不同類的{T1,T2,…,Tn},Ti中的樣本個數為t1j+t2j+…+tmj,則Ti中樣本屬于ci的概率為pij=tij/(t1j+t2j+…+tmj),對Ti期望信息有

得根據Q劃分的訓練樣本集合T的信息熵為

該系統利用java語言進行開發,系統按照數據挖掘的經典流程建立,具體系統構成如圖2所示。系統采用Struts+ Spring+Hibernate的組合框架,在表示層使用了Struts的實現組件,以JSP頁面的形式顯示,完成接受用戶的信息,將信息傳遞給業務邏輯層,處理之后通過表示層展現給客戶[15]。

圖2 系統構成
3.1用電客戶細分
根據第一章選取的指標,通過聚類分析技術進行實現,算法采用數據挖掘技術中的k-means算法,按照算法流程進行計算,具體算法框架如下:


3.2客戶信用等級評估
在對用電客戶進行信用評估時,標準參考第一章信用評估指標,在具體的實現方面,采用數據挖掘技術中的ID3決策樹算法,首先計算訓練樣本集合中所有屬性的信息增益,將取值最大的屬性作為判斷屬性,對樣本進行劃分,建立與屬性值相對應的分支,然后遞歸調用上述方法據繼續劃分,直到無法進行劃分,算法計算結束。具體的算法框架如下所示:

3.3系統運行測試
該系統可以可以在沒有internet瀏覽器的PC或智能設備上進行操作,系統測試采用硬件配置如表1所示。

表1 系統測試硬件配置
登錄系統之后,選取某電力客服中心客戶數據作為系統的初始數據,部分數據如表2所示。

表2 部分測試數據
將上述數據進行處理之后,進行具體的數據挖掘,用電客戶細分采用k-means算法,客戶信用評估采用ID3算法進行,經運算得結果如表3所示。

表3 部分測試結果
將數據挖掘技術應用到用電客戶的用電行為分析,充分的利用了電力企業積累的海量數據,通過數據的挖掘,對用電客戶進行了客戶細分及信用等級評估,并將這些信息轉換成企業的決策信息,提高了電力企業的服務和營銷能力,降低了經營成本。
[1]張東霞,苗新,劉麗平,張焰,劉科研.智能電網大數據技術發展研究[J].中國電機工程學報,2015(1):2-13.
[2]胡江溢,祝恩國,杜新綱,杜蜀薇.用電信息采集系統應用現狀及發展趨勢[J].電力系統自動化,2014(2):131-135.
[3]王樹良,丁剛毅,鐘鳴.大數據下的空間數據挖掘思考[J].中國電子科學研究院學報,2013(1):8-18.
[4]宋亞奇,周國亮,朱永利.智能電網大數據處理技術現狀與挑戰[J].電網技術,2013(4):927-936.
[5]賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013(2):69-73.
[6]胡偉.改進的層次K均值聚類算法[J].計算機工程與應用,2013(2):157-160.
[7]王扶東,馬玉芳.基于數據挖掘的客戶細分方法的研究[J].計算機工程與應用,2011(4):215-219.
[8]王松濤.市場條件下的電力客戶價值分析體系[J].電網技術,2010(2):155-159.
[9]馮璐,王成文,申曉留,譚忠富.基于數據挖掘的供電企業客戶關系管理系統研究與設計[J].電力信息化,2007(7):86-90.
[10]張建輝.K-means聚類算法研究及應用[D].武漢:武漢理工大學,2007.
[11]胡善杰.在云環境下的數據挖掘算法的并行化研究[D].成都:市電子科技大學,2013.
[12]程艷柳.基于云計算的智能電網數據挖掘的研究[D].北京:華北電力大學,2013.
[13]劉秋華,編著.電力企業管理[M].北京:中國電力出版社,2009.
[14]盧建昌,主編.電力企業管理[M].北京:中國電力出版社,2007.
[15]毛國君等編著.數據挖掘原理與算法[M].北京:清華大學出版社,2005.
Design of power grid customer's behavior analysis system under the background of large data
XIAO Nai-shen,LI Bo,KONG De-shi
(Customer Service Center of Sichuan Electric Power Company,Chengdu 610000,China)
In order to make use of the vast amounts of customer data of power grid for electricity customers with electrical behavior analysis and forecast,under the background of big data,the introduction of data mining technology,design the grid customer behavior analysis system.According to the customer data established by electric customer segmentation and customer credit rating classification standard.In terms of data mining,K-means algorithm is adopted for electricity customers for customer segmentation,using ID3 decision tree algorithm for classification of customer credit degree.And finally to a electric power customer service center specific data to test.The results effective response to the classification of customers conduct electricity system satisfies the design requirements.
big data;data mining;power grid;user behavior analysis
TP3
A
1674-6236(2016)17-0061-03
2016-01-28稿件編號:201601266
國家自然科學基金(51190103)
肖乃慎(1976—),男,四川彭州人,碩士,政工師。研究方向:行政管理。