


摘? 要:隨著電力企業的不斷發展,供電公司對用電客戶信譽情況及客戶欠費風險情況越來越重視。從積累的大量電力營銷數據的分析和研究中構建客戶信譽等級模型和客戶欠費風險模型,進而從中找到二者的關系成為供電公司的研究重點。為此,該文提出了基于大數據分析客戶信譽與客戶欠費間的關系的研究,對營銷系統的日常業務數據進行深入的挖掘分析,重新構建客戶信譽等級和客戶欠費風險模型,判別存在電費回收高風險的用戶,并依據客戶類別生成分析儀表盤,多維分析以便降低電費回收風險,同時,找到客戶信譽與客戶欠費間的關系,以便業務人員針對具體客戶采用適當的策略開展工作。
關鍵詞:大數據分析;客戶信譽;客戶欠費;OLAP多維分析;電力營銷
中圖分類號:TP311.1;F426.61? ? ? ?文獻標識碼:A 文章編號:2096-4706(2020)02-0126-03
Abstract:With the continuous development of power companies,power supply companies are paying more and more attention to the credit situation of customers and the risk of customersarrears. From the analysis and research of the accumulated large amount of electric power marketing data,it becomes the research focus of the power supply company to build the customer credit rating model and the customer default risk model,and then find the relationship between them. For this reason,in this paper a research based on big data analysis of customer reputation and customer arrears is proposed. The daily business data of the marketing system is deeply analyzed and analyzed,and the customer credit rating and customer arrearage risk model are reconstructed to determine the existence of electricity fee recovery. High-risk users,and generate analytical dashboards based on customer categories,multi-dimensional analysis to reduce the risk of electricity bill recovery,and at the same time,find the relationship between customer reputation and customer arrears,so that business personnel can work with specific strategies for specific customers.
Keywords:big data analysis;customer reputation;customer arrears;OLAP multidimensional analysis;power marketing
0? 引? 言
目前,供電公司營銷基層業務人員反映現在的信譽評分不詳細,難以有效支撐業務需求,針對這個問題,從后臺分析現有用戶數據,發現營銷系統中93%的信譽等級都是A級(最高信譽等級),客戶信譽評分與客戶欠費間的關系不明確,需要從大數據對客戶信譽進行多維度分析,協助業務部門重新審核信譽的評分制度。而基于大數據分析客戶信譽與客戶欠費間的關系研究則能有效地解決目前供電公司有關客戶信譽等級及客戶欠費風險的問題,明確客戶信譽等級與客戶欠費間的關系,為供電公司提供強有力的決策支撐[1]。
1? 設計原則
基于大數據平臺,通過本次開展基于大數據分析的客戶信譽與客戶欠費間的關系研究,實現以下具體目標:
(1)數據集成:通過大數據平臺完成模型分析數據源寬表的設計與創建,完成DM層目標庫表的設計與創建,并通過數據溯源分析,完成模型數據源寬表和DM層目標表的ETL過程工作流的編寫,完成模型寬表數據的ETL抽取和統計,并建立定時任務和ETL日志機制,自動定時調度ETL工作流的執行,輸出調度日志,以提高ETL工作流的執行效率;
(2)模型設計:模型設計過程中嚴格遵循數據分析建模流程和原則,按照數據分析、數據準備、數據清洗、模型選擇、模型測試、結果分析等設計原則,嚴格進行數據分析和數據清洗,模型流程搭建遵循大數據平臺模型工作流設計要求,自動識別匹配數據字段類型,自動配置模型各項參數,可通過日志查看工作流執行情況[2];
(3)定時調度:利用工作流定時調度任務的配置,實現7×24小時模型工作流的自動作業,可實現快速、按需自動進行模型寬表數據的ETL;
(4)函數設計:指標量相關函數的編寫和設計完全基于大數據平臺的SQL標準,優化SQL的性能,優化函數的輸入輸出參數,達到快速響應執行展現結果的目的。
2? 效益預期
通過本次基于大數據分析的客戶信譽與客戶欠費間的關系研究,運用大數據分析方式對客戶信譽進行多維度分析,協助業務部門重新審核信譽的評分制度,按維度可視化展示客戶信用數據,按時間、空間、類型分析客戶信用等級分布,精準掌握客戶資源,從根本上有效降低欠費回收風險,可以有效地節約人力成本,改變原有的通過人工核查的方式評估客戶信譽、識別客戶欠費的方式,降低業務人員的人力負擔和管理成本,提高信譽等級和欠費風險判定的準確性、科學性[3]。
同時,通過基于大數據分析的客戶信譽與客戶欠費間的關系研究,大力推廣應用后的客戶信譽等級和欠費回收風險成果配置導出,既可有效地識別客戶欠費風險,判別電費回收高風險用戶,進而提高電費回收率,為供電公司挽回經濟效益,又規范了管理工作,提高了決策效率,為供電公司的運營發展提速增效。全新的信譽等級和欠費風險管理模式也進一步完善了客戶的檔案、基于客戶信譽的欠費風險,根據不同情況,因地制宜地采取相關措施,提高業務處理效率,提高用戶滿意度,有利于樹立供電企業良好的社會形象。
3? 算法模型運用
3.1? Logistic回歸算法
邏輯回歸是從統計學中借鑒來的,盡管名字里有回歸兩個字,但它不是一個需要預測連續結果的回歸算法。與之相反,Logistic回歸是二分類任務的首選方法。它輸出一個0到1之間的離散二值結果。簡單來說,它的結果不是1就是0。Logistic回歸算法本質上是線性回歸,是在從特征到結果進行映射的過程中加入一層函數進行映射,具體來講,就是先對特征進行線性求和,然后通過函數g(z)作為假設函數來對其進行預測[2]。g(z)主要是將連續值全部映射到0和1上。而在應用中,考慮到其存在p個獨立的向量,表示為x′=(x1,x2,…xp),設其條件概率表示為P(Y=1|x)=p,該概率是相對于某個事件所發生的概率[2]。由此,邏輯回歸模型可以表示為[4]:
3.2? 評分卡模型
信用評分卡模型在國外是一種成熟的預測方法[3],尤其在信用風險評估以及金融風險控制領域更是得到了比較廣泛的使用,其原理是將模型變量WOE編碼方式離散化之后運用Logistic回歸模型進行一種二分類變量的廣義線性模型[5]。
4? 客戶信譽及欠費風險模型構建
根據數據挖掘的流程,運用Logistic回歸算法和評分卡模型算法,以歷史欠費客戶作為壞客戶研究樣本,基于大數據平臺Edata數據挖掘工具,從而將客戶信譽等級與客戶欠費風險模型設計為如圖1所示的流程。
5? 全體客戶評分
運用評分卡模型對全體客戶進行評分,以客戶欠費風險模型為例,經過分析高風險客戶群主要集中在得分的前5%。如表1所示,將前5%客戶進一步細分,可以確定前1%的純度非常高,壞客戶占比較高。因此建議分群方法為:前1%:高風險群;2~5%:次高風險群;后95%:低風險群[6]。
同樣的過程,客戶信譽等級模型分析中,高信譽客戶群體主要集中在得分的前5%,較高信譽的客戶群體主要集中在得分的前20%,因此,建議客戶信譽等級分級結果為:前5%為A級(最高級),5~20%為B級,20~60%為C級,60~95%為D級,后5%為E級(最低級)[7]。
表1? 得分前5%純度比對
6? 客戶信譽與欠費風險關系
根據客戶信譽等級分級結果及客戶欠費風險等級分群結果數據,采用OLAP多維切片分析,可視化分析展現二者之前的關系情況,如圖2所示[8]。
經過分析,我們可以看到電費欠費高風險的用戶主要集中在最低信譽等級的E級,并且占比為48.34%,而最高信譽等級A級中的絕大多數客戶均為電費欠費中低風險的用戶,欠費高風險的用戶占比僅為0.3%。為此,我們可以得到,信譽等級越高的用戶,其發生欠費風險的情況基本越低,而信譽等級越低(信譽差)的用戶其發生欠費的風險基本越高[9]。
7? 結? 論
綜上,本文基于供電公司積累的大量電力營銷數據,并基于大數據平臺Edata數據挖掘工具,運用Logistic回歸算法和評分卡模型,重新構建了電力檔案客戶的客戶信譽等級,為營銷檔案客戶的信譽等級的確定及更新提供了強有力的依據;同時,對全體用電客戶進行了客戶欠費風險的分群,標簽化了全體用電客戶,并利用OLAP多維切片分析,可視化展現了二者間的關系,極大地提高了供電公司業務分析人員的工作效率,具有廣闊的應用前景[10]。
參考文獻:
[1] 劉曉葳.基于數據挖掘的保險客戶風險—貢獻評級管理 [J].保險研究,2013(3):100-109.
[2] 曾小青,徐秦,張丹,等.基于消費數據挖掘的多指標客戶細分新方法 [J].計算機應用研究,2013,30(10):2944-2947.
[3] 劉明學,陳祥,楊珊妮.基于邏輯回歸模型和確定性系數的崩滑流危險性區劃 [J].工程地質學報,2014,22(6):1250-1256.
[4] 徐建民,粟武林,吳樹芳,等.基于邏輯回歸的微博用戶可信度建模 [J].計算機工程與設計,2015,36(3):772-777.
[5] 劉曉娜,封志明,姜魯光.基于決策樹分類的橡膠林地遙感識別 [J].農業工程學報,2013,29(24):163-172+365.
[6] 張曉春,倪紅芳,李娜.基于數據挖掘的供電企業客戶細分方法及模型研究 [J].科技與管理,2013,15(6):104-109.
[7] 張琪,周琳,陳亮,等.決策樹模型用于結核病治療方案的分類和預判 [J].中華疾病控制雜志,2015,19(5):510-513.
[8] 覃文文,戢曉峰.基于K-means聚類的快遞企業客戶細分方法 [J].世界科技研究與發展,2011,33(6):955-958+969.
[9] 張衛東,李媛.基于C5.0算法的電信用戶流失預警分析 [J].宜賓學院學報,2014,14(6):119-122.
[10] 魏巍.基于客戶數據庫的市場細分實證研究——以某高校網絡超市數據為例 [J].河南工程學院學報(社會科學版),2011,26(2):32-38.
作者簡介:徐佳玲(1986.11-),女,漢族,浙江諸暨人,局域網及終端管理助理專責,助理工程師,本科,研究方向:終端局域網管理、資產管理。