丁浩 (安徽工商職業學院國際貿易系,安徽 合肥 231131)
張磊,范生萬 (安徽工商職業學院網絡信息中心,安徽 合肥 231131)
?
基于樸素貝葉斯分類器的電力系統信譽評級研究
丁浩(安徽工商職業學院國際貿易系,安徽 合肥 231131)
張磊,范生萬(安徽工商職業學院網絡信息中心,安徽 合肥 231131)
[摘要]目前電力企業普遍面臨的一個難題是客戶的巨額欠費。為此,電力公司每年都需要投入大量的精力進行電費催繳工作,但問題至今仍難以得到根本解決。通過從電力系統大規模的繳費數據中提取訓練樣本,利用樸素貝葉斯算法進行學習,得到分類規則,將這些規則應用于對用電客戶的信譽進行評級,建立客戶信譽評級系統,可以幫助電力企業更好地管理客戶繳費行為,并為其運營管理提供數據支持。結果表明,對于不同的分類樣本甚至不同的指標體系,都可以獲得較好的分類效果。
[關鍵詞]電力系統;樸素貝葉斯分類器;信譽評級
電費的及時回收是供電企業保證正常經營的前提,同時電費也是電力基礎設施建設維護的主要資金來源。供電企業為確保其自身的正常經營和持續發展,當然希望用電者都能按時繳納電費,更傾向于將電力商品銷售給需要用電且信譽好的客戶,從而使得供電企業可以持續經營。近年來,電力公司為解決拖欠電費問題付出了很大的努力,但實際效果卻并不樂觀[1]。因而如何對用電客戶的信譽等級進行評估并對其信用風險進行有效管控,就成為供電企業降低經營風險、提高經營管理水平所面臨的一個十分重要而迫切的問題。研究電力客戶信用風險的特點,建立客戶信譽評級模型,用以精確地定量地分析客戶的信用,實施有效的風險管理,是當前電力企業實現可持續發展的最基本、最迫切的要求。
1樸素貝葉斯分類器

圖1 樸素貝葉斯分類器模型
貝葉斯分類是基于統計學的一種分類法,是數據挖掘中使用頻率最高的分類方法之一,其最大特點是用概率來表示所有形式的不確定性,推理或學習都用概率規則來進行。常用的貝葉斯分類算法有樸素貝葉斯、貝葉斯網絡等。樸素貝葉斯基于貝葉斯定理,有堅實的數學基礎,其應用前提是獨立性假設,即在給定類別C的條件下,所有的屬性xi(i=1,2,…,n)相互獨立。如圖1所示,各屬性變量xi獨立地作用于類變量C。
樸素貝葉斯分類的過程可簡要描述如下[2]:
1)對數據樣本X,用n維特征向量X={x1,x2,…,xn}來描述其n個屬性(A1,A2,…,An)的取值;
2)設有m個類C1,C2,…,Cm,待分類樣本X已知,則X屬于后驗概率最大的類,即將待分類樣本X歸類到Cj,當且僅當:
P(Cj|X)>P(Ci|X)?1≤i≤mj≠i
3)由貝葉斯定理:
(1)

4)顯然直接計算P(X|Ci)的開銷太大。為了對P(X|Ci)進行有效估算,假設各類別相互獨立。于是有:
(2)
可根據訓練樣本估算P(x1|Ci),P(x2|Ci),…,P(xn|Ci)值,方法如下:

②Ak為連續型,設服從正態分布,概率密度為:
(3)
式中, μCi和σCi為訓練樣本中類別為Ci的屬性Ak的均值和方差。
然后根據式(2)計算出P(X|Ci),i=1,2,…,m。再代入式(1),計算出每個P(Ci|X),i=1,2,…,m。
5)根據上述計算結果,把樣本X歸類到后驗概率最大的類別Cj,即:
P(Cj|X)=max{P(Ci|X)}i=1,2,…,m
(4)
與其他分類器相比,樸素貝葉斯分類器從理論上講具有最小的錯誤率,或者說是在預先給定代價的情況下平均風險最小的分類器[3,4]。
從數據挖掘的角度,把樸素貝葉斯分類算法運用到對用電客戶信用評價的實例中,從而實現對用電客戶的信譽情況進行分類預測。
2電力客戶信譽評級系統設計
2.1信用等級評估方法
傳統的信用評估方法主要包括5C評估法和綜合評估法。5C評估法也稱專家法,是由專家根據自己的經驗、知識和技能,對影響客戶信用的5個關鍵要素進行分析評估。綜合評估法是由專業的信用評估部門對能夠反映被評估對象信用的所有要素成分進行全面的、綜合的分析考察,進而對被評估對象做出信用評價。與5C法相比,綜合評估法能夠全面、細致、完整地反映客戶企業的實際狀況,但對評估中不易量化的因素則需要評級人員“藝術地去把握”,因此必然會帶有一定的主觀色彩[1]。
為淡化主觀因素,筆者采用一種改進的綜合評估法,即運用數據挖掘技術、數理統計等數學方法來進行相關的處理,如指標間的相關性分析、制衡性分析,對定性指標進行定量考察,用層次分析法(AHP)來科學地確定指標權重等,從而使得指標選取和指標權重設置更加科學合理,確保這種價值判斷的客觀性。
2.2建立電力客戶信譽評級指標體系
圍繞電力客戶信譽評級的功能目標,從電力企業已掌握的客戶信息和繳費數據中深入分析影響客戶信用評價的可能因素,最終確立電力客戶信譽評級指標體系如下:把品德、能力和環境作為3個Ⅰ級指標,并進一步選取以下12個Ⅱ級指標,即社會信譽、前一季度評價、經濟狀況、繳費性質、預交情況、繳費及時性、有無陳欠、補繳情況、有無卡表、用電量波動、有無用電和有無違規用電。
2.3確定電力客戶信譽等級劃分標準
確定指標體系以后,接下來以定性分析與定量計算相結合的方式,采用一種層次權分析法(AHP)來設定指標權重。對于定性指標采取量化處理,依據指標分析結果的不同情況相應地設置得分。評出每一個客戶各項指標分值后再相加,就可得到該客戶的評價總分。然后按總分高低劃分客戶信譽等級。根據實際需要,該系統實際采用了6級分類標準,即把所有用戶劃分為6個級別:AAA、AA、A、B、C和D。級別越高信譽越好,越低信譽越差(見表1)。

表1 信譽等級評定標準
3電力客戶信譽評級算法實現流程

圖2 算法實現流程圖
算法實現過程大致可分成5個步驟,即選取建模數據集、創建初始模型、進行模型驗證、生成預測模型以及進行模型評價等。其中建模數據集的選取是對數據源進行采樣,選取出一個盡可能地包含有全部業務數據源的信息且大小適中的數據集。訓練集和測試集的選取到目前還是數據挖掘中有待研究的問題,現在比較通用的方法是K-次交叉驗證[5],該系統采用10次交叉驗證方法,經反復訓練、測試、修改后生成最終的預測模型。系統算法實現流程如圖2所示。
4系統實現
從具體開發操作層面用樸素貝葉斯分類器來實現對電力客戶的信譽評級,包括系統實現環境、數據的組織與存儲以及系統實現的基本過程等。
4.1系統實現環境
在設計的過程中,考慮到系統應在Windows環境下使用,主要采用Visual C++ 2010來開發可視化界面以及完成算法實現。
4.2數據的組織與存儲
該系統數據處理過程和結果輸出都是在VC環境下完成的。其中算法實現部分分成數據訓練、數據測試和實現評價3個模塊,每個模塊實現一個功能。同時在各個模塊內大量使用局部變量,從而節省了內存空間,并使程序調試起來更加方便容易。
1)使用了大量的文件數據,在Source類中實現了讀文件;
2)把讀出的數據存入一個二維數組**head中,然后對這個二維數組進行數據的處理;
3)在訓練樣本數據統計每個分類的樣本個數時,采用了hash表的方式存儲每個類,然后得出每個類的樣本個數;
4)在讀樣本文件的數據時就先記錄了樣本的總數,最后得出分類的先驗概率存入數組pc[]中;
5)計算每個屬性在各個分類中的概率得出所有屬性的先驗概率;
6)給定一個待評樣本數據,計算在各個分類中的后驗概率,取后驗概率最大的那個分類作為該樣本的類標號。
4.3系統實現的基本過程

圖3 系統實現過程
整個系統的實現分為4個步驟(見圖3):第1步,建立系統架構,利用Visual C++ 2010開發可視化界面;第2步,從可視化界面進入數據訓練模塊,獲得可行的分類規則;第3步,獲得分類規則后,進入數據測試模塊,測試分類規則錯誤率;第4步,進入實現評價模塊,完成實現評價的最后功能,并把評價結果寫入文件。其中,第2、3、4步均是在窗體控件中通過調用函數實現的,而且結果也均在控件中顯示,對用戶來說一目了然,操作簡單便捷。
5試驗結果分析
利用樸素貝葉斯算法進行信譽評級會受多方面的因素的影響,如指標選取的科學性,訓練數據的多少,訓練屬性的變動等。為進一步優化指標體系,發現關鍵指標和干擾指標,筆者進行了大量的有針對性的訓練和測試,并用3個模型加以比較說明。表2是使用所有的指標對電力客戶進行等級評定,在不同數據樣本下所得到的模型A的預測準確率,表3是在使用部分指標(剔除干擾指標)在不同數據樣本下所得到的模型B的預測準確率,表4是樣本數量相同情況下剔除干擾指標后,為發現關鍵指標而進行有針對性的試驗所得到的模型C的預測準確率。

表2 模型A的評價指標和結果(打√的為指標)

表3 模型B的評價指標和結果(打√的為指標)

表4 模型C的評價指標和結果(打√的為指標)

圖4 不同指標體系下基于樸素貝葉斯分類器的模型準確率比較
從表2、表3的試驗結果及模型A和模型B的比較分析(見圖4)可看出,經濟狀況、有無用電和用電量波動等指標并不能反映電力客戶信譽,反而對信譽評級的準確率有所干擾,因此在實際應用中應當從指標體系中剔除。
此外,為發現關鍵指標,在剔除干擾指標后,對試驗指標進行依次缺省(見表4)。結果表明,前一季度評價、有無卡表、繳費及時性等評價指標對預測的準確度影響較大,為關鍵指標。這同時也說明所選擇的指標體系是非常科學的。
6結語
通過分析研究電力客戶信用風險的特點,運用數據挖掘的方法和技術,建立用以度量信用風險的客戶信譽評級系統,精確定量地分析客戶的信用狀況。通過對電力客戶信譽等級的評定,可以幫助電力企業對客戶進行欠費預測,針對不同信譽等級的客戶采取不同的繳費措施,從而安全及時地回收電費,防范和減少惡意拖欠或拒交電費。同時,該系統的使用也可為電力企業實施科學的內部管理提供科學依據和決策支持。從更長遠的角度來看,可以促進供電企業提高經營管理水平,降低經營風險,實現可持續發展。
[參考文獻]
[1] 鄭樂.電力客戶信用評估方法的應用[J].制造業自動化,2011,33(4):71~72.
[2] Jiawei H,Micheline Kamber(加).數據挖掘概念與技術[M].范明,孟小峰等譯.北京:機械工業出版社,2001:197~198.
[3] Hernndez-Lobato J M,Hernndez-Lobato D,Surez A. Network-based sparse Bayesian classification. Pattern Recognition,2010,44 (4):886~900.
[4]丁浩.數據挖掘中常用分類算法的分析比較[J].菏澤學院學報,2015,37(5):47~50.
[5]Jae H M.Bankruptcy prediction using support vector machine with optimal choice of kernel function parameters[J]. Expert Systems with Applications,2006,28(2):603~614.
[編輯]辛長靜
[文獻標志碼]A
[文章編號]1673-1409(2016)04-0056-05
[中圖分類號]TP391
[作者簡介]丁浩(1974-),男,碩士,講師,現主要從事人工智能與數據挖掘、應用數學方面的教學與研究工作; E-mail:dinghao1225@126.com。
[基金項目]安徽高校自然科學研究一般項目(KJ2016B005);安徽高校人文社會科學研究重點項目(SK2016A013);安徽省人文社會科學研究一般項目(SK2015B010)。
[收稿日期]2015-10-27
[引著格式]丁浩,張磊,范生萬.基于樸素貝葉斯分類器的電力系統信譽評級研究[J].長江大學學報(自科版),2016,13(4):56~60.