魏小曼,余 昆,陳星鶯,顏 擁,張 爽,景偉強
(1.河海大學 能源與電氣學院,南京 211100;2.國網浙江省電力公司 電力科學研究院,杭州 310000)
隨著電力市場改革的不斷深入,電力大用戶在電力市場中的地位日益突出,通過對大用戶細分,供電公司可以進一步了解大用戶,識別有價值的大用戶用電行為和價值特征,從而制定有針對性的服務措施和差異化的營銷策略,在有效控制資源分配成本時顯著提高供電企業服務水平[1]。
電力大用戶的用電量占供電公司售電量的比重大,是供電企業售電利潤的最主要來源。電力大用戶的價值以及發展潛力是供電企業制定決策和服務措施的重要依據。現有部分文獻所提出的用戶細分方法依據行業不同,將用戶分為工業、商業等類型,該方法簡單、高效,但不能有效地為電力公司提供決策依據[2]。而針對服務措施所提出的細分指標則主要針對用戶的現有價值和發展潛力[3],卻在分析未來發展潛力時忽略了用戶近期和長期的發展趨勢。對大用戶進行定性分析是企業宏觀上對大用戶進行分類的一種方法,主要是根據決策者的判斷來對大用戶進行分析,沒有嚴格的論證過程,決斷結果片面主觀,容易造成較大的決策偏差。定量分析方法則是應用智能算法根據用戶屬性特征值將用戶進行聚類,文獻[4]應用經典的K-means算法對大用戶進行聚類,但K-means難以確定聚類數K,對孤立點敏感,并基于梯度下降搜索時容易陷入局部最優[5];為了改善這一問題,文獻[6]引入了凝聚層次聚類算法,但當數據規模較大時,時間復雜度和空間復雜度很高,難以應用;文獻[7]則是將遺傳算法引入了K-means聚類,但容易出現過早收斂的現象[8];文獻[9]則在K-means的基礎上引入了PSO,但精度較低,容易發散。K-means聚類算法總是隨機選擇初始中心,然后進行迭代調整,直到不再發生明顯的變化,聚類的結果往往會受到初始聚類點選擇的影響[10—11]。與K-means聚類方法相比,對于大規模數據集,AP是一種快速、有效的聚類方法,它有很多優勢,不需要事先指定聚類的個數,對初值的選取不敏感,對距離矩陣的對稱性沒有要求,是一種確定性的聚類算法,多次獨立運行的聚類結果一般都十分穩定[12—13]。
考慮到工業用戶的用電量大,消耗電能成本高,本文所研究的電力大用戶對象主要為工業大用戶。首先,本文在已有指標的基礎上從2個角度提出了基于大用戶未來發展潛力的細分指標,不僅考慮大用戶的現有價值,也能幫助供電企業分析大用戶未來為供電企業帶來的價值。基于提出的細分指標采用AP和K-means聚類算法對大用戶進行細分,引入的算法避免K-means算法需提前確定聚類數目和初始聚類中心,以及容易陷入局部最優而過早收斂的問題。
大用戶細分理論于20世紀50年代中期由美國學者溫德爾史密斯提出,指企業在特定的市場競爭中,根據顧客的屬性如對商品的愛好、需求以及行為特征等對大用戶進行分類,并有針對性地對其提供產品、服務或者相應的銷售模式。細分之后,每一類用戶群會在某一方面有著相同的特性,而不同的細分群體則差異性明顯。
對供電企業來說,用戶細分這一概念發展尚不成熟,以往對于用電用戶的服務僅僅是根據經驗進行分類,沒有科學性地、系統的分類體系,這也為電網開展差異性的服務造成了困擾。大用戶細分使得企業根據顧客需求有效參與市場競爭,從而獲取最大的利潤。由于大用戶的特征多樣性,如出現大用戶用電量高但信用得分低,或者用電量低但用電增長率高等不同的特征,對于供電企業來說,綜合考慮大用戶的用電量、信用評價得分以及用電增長率這幾個因素,可以從多個角度來分析大用戶對于供電企業的重要程度。
通過多指標下的電力大用戶細分,供電企業可從多方面因素分析大用戶的用電特征以及未來發展趨勢。通過用電量這一角度分析用戶的現有價值;通過用戶信用得分剖析用戶的價值以及未來的發展方向;通過用戶的用電增長率分析用戶的近期發展趨勢以及長期的發展趨勢。從而做到全面分析大用戶對于供電企業利潤增長的作用。通過對大用戶價值等級分類,供電企業可以有效降低服務成本,更好地識別不同的大用戶對企業的供電需求以及大用戶能為企業帶來的利潤價值,從而指導企業合理處理企業與大用戶之間的關系,以達到提高顧客滿意度和忠誠度的目的,吸引大量長期大用戶。
只有合理的大用戶細分指標才能夠科學地對大用戶進行分類,從而得到對供電企業來說價值大小的用戶級別,幫助供電企業判定用戶的作用,制定有價值的營銷策略,提高對企業極為重要的電力大用戶的滿意度,從而提高企業的利潤。文獻[14]—文獻[15]提出的細分指標主要包括電壓等級、低谷利用率、用電負荷率等用戶用電特征:電耗占能耗比重、購電量比重;經營狀況:企業總資產、購電量比率等電能利用情況,電費回收率、合同履約率等信用狀況,年用電增長率等發展潛力。這些指標是針對商業、工業等不同性質的用戶提出的,指標多、有冗余且容易淹沒用戶的某些特征。本文考慮到工業大用戶的發展趨勢和潛在價值,根據此類用戶的特點針對前人所提出的細分指標進行簡化和補充,剔除部分不適用于工業大用戶的指標,在發展潛力部分增加工業大用戶的近期用電增長率和長期用電增長率指標。總的來說,本文針對電力大用戶工業用戶的分類目標,建立如下的細分指標。
(1)當前價值
對于供電企業而言,用戶的當前價值為用戶為供電企業創造的利潤總和,即供電企業對大用戶的售電量所創造的電費營業總額。相對于商業、醫院、政府、學校等用戶而言,工業用戶的用電量大得多,因此本文主要考慮工業用戶的當前價值,該價值主要體現為用電量,本文采用平價時段內用戶的月平均用電量來表征,如式(1)所示

式中:Em為月平均用電量;Ey為年總用電量。
(2)大用戶信用
如果用戶的信用低,即使其用電量大,對供電企業來說也不是有價值的用戶,因此還需要對用戶信用進行評價,本文采用大用戶信用得分來表征。首先通過對大用戶的基礎信息,即對大用戶的安全用電情況、電費繳納情況及用電基礎信息的準確完整情況這3個指標的大量歷史碎片化數據進行系統性地清洗與分析,挖掘數據中蘊藏的行為模式以及信用特征,捕捉歷史信息和信用表現之間的關系,通過對規范化后的數據進行加權平均處理,最后得到一個總的信用得分值。以該信用得分來綜合評估大用戶歷史行為上的信用表現,在一定程度上可以作為對用戶當前價值的判斷,也可以作為大用戶未來信用表現的預測。信用得分如式(2)

式中:C為用戶信用得分;Es為用戶安全用電情況;Ep為電費繳納情況;Ia為用電基礎信息的準確完整情況;a1、a2、a3為各項信息的比重,各指標權重信息是基于電力業務專家打分的層析分析法確定。安全用電考察客戶是否存在違約用電、竊電,存在的種類(嚴重性)及次數;電費繳納是否及時、足額;登記在案的基礎信息的有效性及登記的項數等。
(3)發展潛力
發展潛力主要通過用電增長率這一指標進行表征,現有文獻所提出的用電量增長率是指年用電增長率,但年用電增長率只能挖掘出用戶長遠的發展趨勢,卻無法分析用戶的近期發展趨勢。因此,本文采用同比用電增長率和環比用電增長率這2個指標來分析用戶發展潛力。其中,環比變化用于表征用戶的近期發展趨勢,同比變化則用于表征用戶的長期發展趨勢。計算方法如下

式中:Se為用電量環比變化;為大用戶上個月用電量;為本月用電量。

綜上所述,本文所確定的細分指標如表1所示。

表1 大用戶細分指標
選定上述的大用戶細分指標基礎上,本文通過結合AP算法和K-means算法對大用戶進行聚類分析,建立出不同價值的大用戶細分模型。
(1)K-means算法的改進
由于傳統的K-means算法不能有效處理簇的密度不均且大小相差較大的數據集,本文將簇內的標準差與歐式距離Jc(I)按一定的比例進行加權處理,重新分配簇,將數據分配給離加權距離最小的中心點所在的簇,如式(5)所示

式中:N為數據集的總個數;K為聚類的個數;σi為第i個聚類的標準差;xi為第i個聚類的個數;α為松弛參數,密度較小時,設置為[0.6,1]之間,此時標準差占主導地位,若密度較大,設置在[0.1,0.5]之間,此時,歐式距離占據主要地位。
(2)AP算法
在AP算法中,以s( )i,k表示xk有多大的可能性作為xi的聚類中心,s( )i,k的值越大,這個點成為聚類中心的可能性也就越大,稱為參考度p,p的大小影響聚類的數量,聚類數目K與參考度p的相對變化關系可參考文獻[16]。若認為任意數據都可作為聚類中心,則p取相同的值;若取數據相似度的均值作為p的值,能得到中等數量的聚類個數。
首先對本文所用的數據進行預處理,將數據執行缺失值、異常值刪除以及歸一化處理。將收集到的數據組成一個矩陣xm×n,其中m為電力用戶數,n為確定的評價指標數,則xij為第i個用戶在第 j個評價指標上的值。如果在矩陣xm×n中存在缺失值,則刪除xm×n中缺失值所在行,對應矩陣維數變為。xj為所有用戶在第 j個指標上的數據集合。xj的平均值為 μj,標準差為σj。定義若存在用戶i,使得| |xij-μj>3σj,則對應的用戶 i的數據為異常值,并將用戶數據矩陣xm×n中的第i行予以刪除。
將數據進行缺失值以及異常值刪除后,再進行歸一化處理,歸一化處理如式(6)

式中:xij、yij分別為電力用戶i在指標 j變換前后的數據;xjmin、xjmax分別為數據集合xj中的最小值與最大值。經過歸一化處理,每個對應指標下用戶數據都被映射到對應區間[0,1],使最后的聚類指標數據量綱得到了統一。
首先使用AP聚類算法對數據進行處理,輸入大用戶的用電量、信用得分以及用電增長率中的3個或4個指標,利用AP算法求的初始聚類中心以及初始聚類數目K。再用AP算法所求的的初始聚類中心以及聚類數目K為K-means聚類尋找聚類初值。首先對用電量、信用得分以及用電量同比增長率進行聚類分析,結果得到初始聚類數為K。采用2種算法進行聚類,避免了K-means需提前人為設定初始聚類數和聚類中心的麻煩,也避免了可能出現的局部最優的情況。
本文綜合AP和K-means算法后,對電力大用戶進行聚a類的步驟如下:
(1)輸入經過預處理以后的用電量、信用得分、用電增長率等數據;
(2)利用AP聚類算法求得初始聚類數目K及對應的聚類中心,并將其作為K-means聚類的初值;
(3)根據距離最近原則確定第一次的聚類結果,即依次計算各個點距初始中心的距離,并給予距離重新分配簇;
(4)重新確定聚類中心,重新計算每個聚類的均值并確定新的聚類中心點;
(6)輸出K個聚類集合。
本文對于大用戶的細分首先采用AP算法尋找初始聚類中心和聚類數,然后作為K-means算法的初值對電力大用戶進行聚類分析,選用浙江某地區200戶大用戶2016年月平均用電量,用電增長率選用2017年5月份對比2017年4月份的用電量環比變化,2017年5月份對比2016年5月份的用電量同比變化。
分別使用同比增長率、用戶信用得分以及用電量和環比增長率對大用戶進行細分,三維數據的初始分布情況分別如圖1、2所示。
圖1、2分別展示了在未進行聚類之前,同比增長率、信用得分與用電量以及環比增長率、信用得分與用電量的數據分布情況,由于四維數據難以用圖形展示,所以本文僅展示三維數據圖。

圖1 同比、信用、用電量數據分布

圖2 環比、信用、用電量數據分布
通過使用AP聚類算法對數據進行處理,自行輸出初始聚類中心以及初始聚類數目,并將此作為K-means聚類的初始值輸入。對電力大用戶的同比增長率、環比增長率、信用得分以及用電量進行AP聚類后分為8類,所得聚類中心結果如表2所示。

表2 同比、環比增長率、信用得分、用電量初始聚類中心
將AP聚類后的聚類結果(即聚類中心以及聚類數目)作為K-means聚類分析的初值,使得在K-means聚類時不用自己指定初始聚類中心以及聚類數目,減少了K-means聚類時的迭代次數。
輸入AP聚類所得的初始聚類中心作為K-means的初值,對電力大用戶的同比增長率、環比增長率、信用得分以及用電量利用K-means聚類算法進行分析,形成的四維圖形兩兩映射在平面圖上,如圖3所示。
對于環比增長率、同比增長率、信用得分以及用電量四維數據聚類結果如圖3所示,所得聚類中心如表3所示。

圖3 環比、同比、信用、用電量聚類結果

表3 環比、同比增長率、信用得分、用電量最終聚類中心
由表3可見,經過AP和K-means 2種算法的聚類后,本文將電力大用戶聚為8個用戶特征群,通過分析8個特征群大用戶的現有價值高低以及發展趨勢和價值潛力,將大用戶按照價值等級分成了4類,大用戶細分群體特征如表4所示。

表4 大用戶細分群體特征
通過對本文提出的幾個細分指標聚類,最終將電力工業大用戶聚為8個特征群。分析現有價值、信用得分以及發展潛力對于供電企業利潤的影響,最終按大用戶對于供電企業的價值大小分為4類,分別為低價值用戶、一般用戶、重要保持用戶以及重要發展用戶。重要用戶用電量增漲趨勢顯著,未來一定時間內會給供電公司帶來更多的利潤,因此針對這一類用戶,供電公司應根據其電量的增長趨勢,制定適宜的售電合同,實現雙方企業共贏。一般用戶企業共有107戶,這類用戶用電量基本穩定,供電公司應維持當前營銷政策,保持與電力大用戶友好合作關系。針對低價值大用戶,供電公司首先應履行義務保證用戶供電,其次在制定售電合同上,應考慮用戶信譽度,制定相應獎懲機制,合理引導大用戶用電,使電力市場走上良性發展態勢。
電力大用戶是供電企業的重要的用戶,針對大用戶的價值視角,首先從現有指標中修改并提取出適用于電力大用戶的關鍵細分指標,同時,考慮電力大用戶近期及長期的電費增長率,提出既能挖掘出大用戶的現有價值,又能發掘出大用戶未來發展趨勢以及發展潛力的細分指標;然后根據細分指標,采用AP與K-means相結合的算法對電力大用戶進行細分,解決了K-means算法需提前指定初始聚類中心以及聚類數目的盲目性,同時也避免了K-means聚類算法容易陷入局部最優等缺點;最后通過算例分析,將電力大用戶聚為8個特征群,并按價值大小劃分為4類,驗證了用戶細分的可行性,并為供電企業提出了相應的服務措施:供電企業可舍棄低價值用戶,對于重要發展用戶進行重點服務和督促,提高用戶的信用得分,對于重要保持用戶則保證優質的服務,提高用戶滿意度和忠誠度。D
[1] 宋才華,藍源娟,范婷,等.供電企業大用戶細分模型研究[J].現代電子技術,2014(2):91-94.
[2] 任秀萍,姚蕊,李貞,等.實行分類服務滿足工商客戶用電需求[J].科技與企業,2016(3):56-56.
[3] 張曉春,倪紅芳,李娜.基于數據挖掘的供電企業客戶細分方法及模型研究[J].科技與管理,2013,15(6):104-109.
[4] 王扶東,馬玉芳.基于數據挖掘的大用戶細分方法的研究[J].計算機工程與應用,2011,47(4):215-218.
[5] 傅濤,孫亞民.基于PSO的K-means算法及其在網絡入侵檢測中的應用[J].計算機科學,2011,38(5):54-55.
[6] 王虹,孫紅.基于混合聚類算法的大用戶細分策略研究[J].電子科技,2016,29(1):29-32.
[7] Maulik U,Bandyopadhyay S,Mukhopadhyay A.Multiobjective Genetic Algorithm-Based Fuzzy Clustering[M]//Multiobjective Genetic Algorithms for Clustering.Springer Berlin Heidelberg,2011:89-121.
[8] 劉春曉,張翠芳.基于SOM和PSO的聚類組合算法[J].通信技術,2010,43(1):208-209.
[9] 李英,吳圓圓,寧福錦.基于PSO的K-means改進算法在證券大用戶細分中的應用[J].現代圖書情報技術,2010,26(z1):88-94.
[10] 趙憲佳,王立宏.近鄰傳播半監督聚類算法的分析與改進[J].計算機工程與應用,2010,46(36):168-170.
[11] 劉曉勇,付輝.一種快速AP聚類算法[J].山東大學學報(工學版),2011,41(4):20-23.
[12] AnqiBI,Wang S.TransferAffinity Propagation Clustering Algorithm Based on Kullback-Leiber Distance[J].Journal of Electronics&Information Technology,2016.
[13] Hang W,Chung F L,Wang S.Transfer affinity propagation-based clustering[J].Information Sciences,2016,(348):337-356.
[14] 盧海明.電力客戶細分及增值服務系統研究[D].廣州:廣東工業大學,2016.
[15] 王春葉.基于數據挖掘的電力客戶細分研究[D].保定:華北電力大學,2009.
[16] 黃亞萍.基于聚類分析的電子商務客戶細分系統的設計與實現[D].鎮江:江蘇科技大學,2016.