嚴宇平,吳廣財
(1.廣東電網(wǎng)有限責任公司,廣東 廣州 510600;2.廣東電網(wǎng)有限責任公司 信息中心,廣東 廣州 510600)
基于數(shù)據(jù)挖掘技術(shù)的客戶停電敏感度研究與應用
嚴宇平1,吳廣財2
(1.廣東電網(wǎng)有限責任公司,廣東 廣州 510600;2.廣東電網(wǎng)有限責任公司 信息中心,廣東 廣州 510600)
摘要:隨著用電客戶對電力可靠性的要求逐漸多樣化,我國供電企業(yè)停電差異化管理與客戶需求之間不匹配的問題日益突出。提出了客戶停電敏感度的研究思路和方法,運用邏輯回歸、決策樹等數(shù)據(jù)挖掘技術(shù),建立了客戶停電敏感度預測模型,分析了客戶特征,并設計了差異化的服務措施,為供電企業(yè)加強客戶停電差異化管理,在降本增效的同時提升客戶滿意度提供了支持。
關(guān)鍵詞:停電管理;停電敏感度;客戶分群;數(shù)據(jù)挖掘;邏輯回歸;決策樹
通過多年的供電可靠性提升措施,電網(wǎng)公司已經(jīng)大幅度縮短了客戶停電時間,減少了停電次數(shù);但通過分析客戶抱怨的統(tǒng)計數(shù)據(jù),得知一部分客戶的抱怨主要涉及供電穩(wěn)定相關(guān)的問題,停電會對電網(wǎng)企業(yè)的客戶滿意度造成一定程度的影響。當前電網(wǎng)企業(yè)承擔了客戶連續(xù)穩(wěn)定用電,以及用電安全管理的重大責任,一旦發(fā)生停電事件,必須快速恢復用戶供電,這是電網(wǎng)企業(yè)踐行以客戶為中心的服務理念,履行社會責任的最直接體現(xiàn);因此,快速辨識客戶對停電的敏感度是很有必要的。
長期以來,電網(wǎng)企業(yè)仍然采用“先搶修,再復電”方式恢復供電,忽視了與客戶對停電需求的考慮。劉平等[1]通過問卷調(diào)研和專家評價法,根據(jù)不同時段各類客戶訴求建立了客戶停電敏感度等級指數(shù),并指導開展了應急搶修,取得了很好的業(yè)務應用效果;但是,該方法只是針對不同類型的客戶進行停電敏感度的劃分,并沒有對客戶的行為進行預測分析。
本文以客戶停電事件為切入點,研究不同客戶停電發(fā)生后的行為特征,總結(jié)歸納出影響客戶停電敏感度的重要因素,并建立停電敏感度的預測模型,這將有助于電力企業(yè)準確辨識停電敏感度高的客戶,提供差異化停電服務,降低客戶停電抱怨的概率,提升客戶滿意度。
1研究思路
停電敏感客戶是指在供電服務過程中通過多種渠道或多種形式對停電關(guān)注度較高的客戶。客戶停電敏感度研究,是通過分析不同客戶的行為特征,反映其對停電的敏感程度的差別,并用數(shù)據(jù)挖掘技術(shù)的量化手段對停電敏感客戶進行刻畫。
在具體研究過程中,針對不同客戶,即對重要客戶與非重要客戶采用分類考慮的方式,如圖1所示。重點針對非重要客戶進行停電敏感度建模分析。
1.1重要客戶停電敏感度
重要客戶主要是在一個國家或者一個地區(qū)(城市)的社會、政治和經(jīng)濟生活中占有重要地位,對其中斷供電將可能造成人身傷亡、較大政治影響、較大環(huán)境污染、較大經(jīng)濟損失和社會公共秩序嚴重混亂的用電單位或?qū)╇娍煽啃杂刑厥庖蟮挠秒妶鏊S捎谥匾蛻舻纳矸萏厥庑裕环矫孢@些客戶對電力供應要求很高,電力企業(yè)通常會通過保供電、雙回路或雙電源供電等方式,確保不會停電;另一方面因為較少被停電,客戶行為無法反映客戶敏感度,因此可以直接將其納入停電敏感度高的客戶。

圖1 客戶停電敏感度研究思路
1.2非重要客戶停電敏感度
針對已經(jīng)表現(xiàn)出停電敏感行為的客戶,將其作為樣本客戶分析其主要特征,提取諸多可能與停電敏感相關(guān)的客戶信息字段,運用數(shù)據(jù)挖掘算法建立客戶停電敏感概率預判模型,并應用于尚未具備停電敏感行為表現(xiàn)的客戶。通過模型,模擬出客戶未來出現(xiàn)這種行為表現(xiàn)的概率,概率越大則表示客戶對停電越敏感。
1.2.1樣本客戶定義
敏感度是用電客戶的心理指標,基于社會學理論,客戶行為是客戶心理活動狀態(tài)在外界的映射。筆者將過去12個月內(nèi)在95598呼叫熱線、網(wǎng)上營業(yè)廳和掌上營業(yè)廳等渠道發(fā)生過咨詢停電信息、查詢未來停電計劃和發(fā)生停電投訴等相關(guān)行為的客戶,定義為停電敏感樣本客戶。同時,居民與非居民在用電需求及行為上存在顯著差異,需要分別分析不同類型用戶的屬性特征。
1.2.2數(shù)據(jù)提取與整理
選取可能與停電敏感度相關(guān)的客戶信息字段,如營業(yè)區(qū)域、用電類別、計量方式、電源類型、電壓等級、停電次數(shù)及停電時長等25個字段,并對數(shù)據(jù)進行二次計算、清洗等預處理,作為建模因素篩選的主要輸入變量。
1.2.3建模因素篩選
通過計算上述25個字段與客戶是否是停電敏感樣本之間的基尼指數(shù)(用來衡量一個分布是否均勻,指數(shù)越高,說明分布越不均勻,則變量區(qū)分度越高),將基尼指數(shù)>15的字段作為影響客戶停電敏感度的主要因素,最終確定7個字段用于非居民客戶停電敏感度建模,9個字段用于居民客戶停電敏感度建模,見表1。

表1 客戶停電敏感度建模字段
1.2.4數(shù)據(jù)分區(qū)、建模與驗證
由于本文是對客戶未來行為概率的預測與分析,因此選用合適的數(shù)據(jù)挖掘算法,如邏輯回歸、決策樹等,對建模字段進行數(shù)據(jù)建模與驗證。其中根據(jù)建模需要,將樣本數(shù)據(jù)隨機按40%、30%和30% 拆分成訓練集、驗證集和測試集。訓練集用于數(shù)據(jù)建模,驗證集用于對模型進行驗證與調(diào)整,測試集用于對模型的結(jié)果進行測試。
2建模試驗分析
本文以某市級供電局的全體158.3萬客戶(其中非居民客戶28.8萬,居民客戶129.5萬)為研究對象,按10%比例從全量客戶中隨機抽取樣本數(shù)據(jù)變量(即2.9萬非居民客戶樣本,12.9萬居民樣本)進行數(shù)據(jù)建模。
筆者分別采用邏輯回歸與決策樹兩種算法,應用SAS Enterprise Miner Server 軟件進行數(shù)據(jù)建模,并對建模結(jié)果進行比較[2]。
2.1運用邏輯回歸算法建模
邏輯回歸是研究因變量為二分類或多分類觀察結(jié)果與影響因素(自變量)之間關(guān)系的一種多變量分析方法,屬概率型非線性回歸。本文采用的是二項分類邏輯回歸,因變量P只取0和1這2個值,即將符合停電敏感客戶定義的目標變量設定為1,其余客戶的目標設定為0,則P=1的總體概率為π(P=1),則m個自變量分別為X1,X2,…,Xm,所對應的邏輯回歸模型[3-5]為:
(1)
式中,Y=β0+β1X1+β2X2+…+βmXm,β0為常數(shù)項,是對應的回歸系數(shù)。將樣本客戶的自變量值(也即選定的建模字段)代入式1。
根據(jù)式1,客戶停電敏感度邏輯回歸算法為:
式中,P是客戶的停電敏感度概率;Y(非居民)=a+b·用電類別+c·合同容量+d·行業(yè)類別+e ·歷史停電時間+f ·電壓等級+g·客戶類別+h·95598溝通次數(shù)(非停電類咨詢);Y(居民)=a+b·用電類別+c·合同容量+d·歷史停電時間+e·重要客戶標識+f·城鎮(zhèn)/農(nóng)村+g·年齡+ h ·電源類型+i·信用等級+j·95598溝通次數(shù)(非停電類咨詢)。
2.2運用決策樹算法建模
決策樹技術(shù)被廣泛地應用于數(shù)據(jù)挖掘領(lǐng)域。決策樹由3個基本部分組成:節(jié)點、分支和樹葉節(jié)點。決策樹中的節(jié)點是1個測試條件,這個測試條件將決策樹分為多個分支,每個分支代表了該測試條件的每個可能答案,位于決策樹最頂端的節(jié)點為根節(jié)點。每個分支會連接另一個節(jié)點,或者連接決策樹的末端(即樹葉節(jié)點)。決策樹建立起來后,需要預測的數(shù)據(jù)對象從根節(jié)點出發(fā),根據(jù)所經(jīng)過的節(jié)點的測試條件選擇要經(jīng)過的分支,并最終到達樹葉節(jié)點。樹葉節(jié)點的值或類別也就是要賦予該數(shù)據(jù)對象的值或類別[6]。
在本文運用決策樹算法的建模過程中,令因變量Y只取0和1這2個值,即將符合停電敏感客戶定義的目標變量設定為1,其余客戶的目標設定為0,并對重要的算法參數(shù)進行如下規(guī)則設定:1)非居民的7個建模變量、居民的9個建模變量在拆分過程中僅使用1次;2)因目標變量為二分類變量,采用二叉樹方法設定最大分支數(shù)為2;3)最大深度為6,即規(guī)則最多到6層;4)最小類別大小為5,即每層的記錄數(shù)最小為5;5)各變量的拆分規(guī)則,連續(xù)型數(shù)值變量采用ProbF統(tǒng)計量、字符型變量采用ProbChisq統(tǒng)計量。運用統(tǒng)計量的拆分規(guī)則,找出相應統(tǒng)計量最大的變量作為拆分準則;若判斷結(jié)果的正確率或涵蓋率未滿足條件,則再依最大方差的條件再出拆分。
2.3模型算法比對
根據(jù)訓練集的樣本客戶,分別采用上述邏輯回歸算法和決策樹算法,建立相應的客戶停電敏感度模型。將該模型應用到驗證集的樣本客戶上,進一步調(diào)整優(yōu)化模型的參數(shù),建立起相應的預測模型。
將邏輯回歸算法建模和決策樹算法模型運用于測試集客戶上,并對驗證集與測試集模型結(jié)果的提升度進行比對。具體情況如圖2所示。

圖2 停電敏感度2種算法模型結(jié)果累積提升度比對
由圖2可以看出,測試集中敏感客戶的累積提升度曲線與驗證集的累積提升度曲線走勢非常接近,說明2種算法模型均具備較好的普適性,不存在“過擬合”的問題(即該模型對樣本客戶擬合非常好,但對非選定樣本客戶則擬合效果差)。同時,比對2種算法的結(jié)果時發(fā)現(xiàn),邏輯回歸算法所得到的測試集結(jié)果的最大累積提升度均明顯高于決策樹算法的建模。為此,需要進一步對模型應用于測試集的結(jié)果進行詳細比對,具體見表2。

表2 測試集客戶停電敏感度模型驗證結(jié)果比對
注:累積提升度的計算為對驗證集進行評分排序后,排名前5%的客戶中目標客戶的占比。
由表2可知,在樣本客戶中,停電敏感客戶的原始純度分別為居民5.56%,非居民客戶8.63%。通過模型計算出的概率從高到低排名后,前5%的居民客戶和非居民客戶中,通過邏輯回歸算法建模的累積提升度分別達到2.60倍和3.66倍,而通過決策樹算法建模的累積提升度分別達到2.65倍和2.64倍。
總體上來說,邏輯回歸算法和決策樹算法均有較好的試驗結(jié)果,可以發(fā)現(xiàn)對居民客戶,2種算法提升度比較接近;但對非居民客戶,邏輯回歸算法提升度顯著高于決策樹算法。為保持模型的一致性,本文最終選擇邏輯回歸算法進行分析建模。
3客戶停電敏感度分析
根據(jù)建模試驗分析的結(jié)果,筆者采用邏輯回歸算法,分別完成非居民和居民停電敏感度建模。將該模型應用于該局全體非居民與居民客戶,并對全量客戶的結(jié)果與測試集結(jié)果進行比對,見表3。按照得分排名從高到低,可以發(fā)現(xiàn)各占比分段中,測試集的停電敏感客戶占比與全量客戶中的停電敏感客戶占比非常接近,說明該算法模型不存在“過擬合”問題,能夠很好地適用于全量客戶。

表3 客戶停電敏感度分群結(jié)果 (%)

得分排名靠前人數(shù)百分比非居民客戶中停電敏感客戶占比居民客戶中停電敏感客戶占比測試集全量客戶測試集全量客戶406.196.205.716.11456.766.664.394.79506.647.374.825.22557.937.864.564.03608.738.004.023.64656.626.823.853.34708.858.584.133.90758.257.713.613.81805.265.524.433.94854.594.222.802.93903.573.792.422.26952.803.691.471.721003.453.180.340.39
在此基礎(chǔ)上,按照停電敏感度預測概率由高到低對結(jié)果排序,將兩大類客戶分別劃分為4個客戶群體,并對這4個群體中實際打電話咨詢、查詢停電相關(guān)的客戶比例進行了識別,見表4。可以得知,該模型對全量客戶具有明顯的區(qū)分度,劃分出的4個不同客戶群體之間實際停電敏感客戶的比例差異非常明顯,對業(yè)務上識別客戶停電敏感具備一定的指導意義。
4業(yè)務應用
目前,停電管理的差異化服務目標重點關(guān)注潛在高敏感客戶群,因此,本文重點研究該群客戶的特征,并對應設計差異化服務措施,見表5。
停電敏感度細分結(jié)果及差異化服務措施的設計可以運用在許多的業(yè)務場景中,從而實現(xiàn)客戶服務能力和企業(yè)管理能力的雙重提升。根據(jù)業(yè)務人員的實際需求,可應用的落地場景例舉如下。

表4 客戶停電敏感度分群結(jié)果
注:以上結(jié)果基于某市級供電局2011年~2013年的客戶數(shù)據(jù)。

表5 高停電敏感客戶群特征及差異化服務措施
1)應用場景一:停電后95598應急預警。某供電區(qū)域突發(fā)大面積的故障停電,或當日安排較多線路的計劃停電,系統(tǒng)中可以分類篩查不同敏感度的客戶清單,進行有針對性、及時準確地通知,并臨時調(diào)整坐席人員安排應對話務高峰。
2)應用場景二:停電事件統(tǒng)計功能優(yōu)化。針對大范圍停電進行事后分析,在系統(tǒng)中新增停電敏感分析維度,分析停電范圍內(nèi)受影響的停電敏感客戶及其相應表現(xiàn)。
3)應用場景三:停電敏感度客戶分區(qū)域綜合查詢分析。可以通過分析不同區(qū)域內(nèi)停電敏感客戶的分布及主要特征,制定差異化停電管理策略。
5結(jié)語
本文運用邏輯回歸、決策樹等數(shù)據(jù)挖掘技術(shù),分析并建立客戶停電敏感度預測模型,明確客戶停電敏感的細分群體。通過分析群體特征并設計差異化服務,有針對性地尋找停電敏感度高的目標客戶,開展針對性停電管理服務,降低停電通知成本,提升敏感客戶滿意度,從而促進供電企業(yè)在管理、形象和效益三方面的增值。
參考文獻
[1] 劉平,葉濤,李立軍,等.基于快速恢復供電的應急搶修研究[J].電力安全技術(shù),2014,16(4):1-4.
[2] 吳小紅.綜述客戶細分的方法與技術(shù)[J].科教前沿,2012(1):110-111.
[3] 劉路登.數(shù)據(jù)挖掘技術(shù)在電力同業(yè)對標中的應用[D].北京:華北電力大學,2006.
[4] 王雷.基于數(shù)據(jù)挖掘的電力行業(yè)客戶細分模型研究[D].上海:上海交通大學,2007.
[5] 毛國君.基于數(shù)據(jù)挖掘的電力行業(yè)客戶細分模型研究[D].北京:北京工業(yè)大學,2003.
[6] 李明輝.基于決策樹方法的銀行客戶關(guān)系管理的研究和應用[J].軟件,2012,33(7):85-86.

責任編輯彭光宇
Customer Outage Sensitivity based on the Technology of Data Mining Research and Application
YAN Yuping1,WU Guangcai2
(1.Guangdong Power Grid Co., Ltd., Guangzhou 510000, China;
2.Guangdong Power Grid Co., Ltd., Information Center, Guangzhou 510000, China)
Abstract:With the increasingly changing demand of energy consumer, differentiation management of outage is far behind the consumer’s need. We propose a methodology for consumer outage sensitivity by logistic regression and decision tree algorithm. Based on the prediction model, we analyze the characters of segmented customers and design differentiated services to strengthen outage management, improve customer satisfaction and save cost.
Key words:outage management,outage sensitivity,customer segmentation,data mining,logisticregression,decision tree
收稿日期:2015-01-21
作者簡介:嚴宇平(1985-),男,工程師,碩士,主要從事電力信息系統(tǒng)建設與管理、電力數(shù)據(jù)分析及應用等方面的研究。
中圖分類號:TM 73
文獻標志碼:A