[摘要] 數據挖掘是一個應用統計學和人工智能等算法進行知識發現的過程。本文介紹了數據挖掘技術在國內電信行業的應用領域,并以客戶流失分析作為實例,探討了數據挖掘的整個應用過程。最后指出國內電信行業在數據挖掘應用中存在的問題。
[關鍵詞] 電信 數據挖掘 客戶流失 數據模型
一、引言
數據挖掘(Data Mining,簡稱DM)是指從大量不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、有用的信息和知識的過程。數據挖掘是目前國際上數據庫和信息決策領域的最前沿方向之一,已經引起了學術界和業界的廣泛關注,并且在一些領域內已有成功的應用,但數據挖掘技術在電信領域中成熟的應用尚不多見。下面對數據挖掘技術在電信行業的應用做一些探討。
二、數據挖掘在電信行業的應用領域
近年來,隨著電信行業競爭的加劇,國內電信運營商們都認識到了數據挖掘的重要性,中國移動集團正在規劃數據挖掘的行業應用課題研究。
簡單地講,電信領域數據挖掘項目的業務問題就是,通過對電信公司大量的通話明細記錄的挖掘,發現顧客的行為,提供有針對性的服務。這樣不僅提高客戶服務水平以增加顧客忠誠,更重要地是,去尋找那些企業利潤貢獻度高的業務的使用者,并挖掘其規律以增加這一類業務的銷售,從而提升企業獲利能力。回答這一業務問題,可以有多方面的數據挖掘問題。
1.通話時段的規律。什么時間是電話通話的高峰期?不同類型的電信業務高峰出現在什么時候等。
2.按市場細分的客戶(如個人客戶、政府部門、企業客戶)通話規律。市場細分后同類型的顧客其通話模式是否相似?如果相似則如何等。
3.電話使用者何時在家。了解這一點可以使一些行業進行電話直銷(比如銀行業交叉銷售保險產品)時效率更高。
4.國際長途的通話模式。因為國際長途利潤率相當高,了解其通話模式從而采取相應措施提高其使用量會對公司業績有顯著作用。
5.因特網服務規律。比如顧客最常使用的ISP(服務提供商)、不同市場細分類型的顧客是否用不同的ISP等。
6.發現潛在的租用虛擬專用網絡服務的顧客。這些顧客會有站點間大量的通話或數據傳輸,有時也會與其他企業間作大量的數據交換,此時如果作有針對的營銷,他們就可能租用虛擬專用網絡服務。
7.發現增加電話線路租用需求的客戶。
目前,國內數據挖掘在電信行業的應用領域主要有:客戶關系管理;客戶欺詐分析;客戶流失分析;客戶消費模式分析;市場推廣分析;確定信用風險等等。
其中應用最多的是客戶流失分析,根據分析結果采取相應的行動挽留客戶,降低客戶流失率.當然還可以用數據挖掘技術,幫助電信做交叉銷售,例如讓買來電免費的客戶買彩鈴等,這里我們以客戶流失分析為例說明。
三、數據挖掘的應用實例——客戶流失分析
總體思路是這樣的:根據以前擁有的客戶流失數據建立客戶屬性、服務屬性和客戶消費數據與客戶流失可能性關聯的數學模型,給出各部分之間的關系,并給出明確的數學公式,就可以計算出客戶流失的可能性。市場/銷售部門可以根據得到的數學模型隨時監控客戶流失的可能性。如果客戶流失的可能性過高,就可以通過多種促銷手段提高客戶的忠誠度,防止客戶流失的發生,從而可以大大降低客戶的流失率。基于嚴格數學計算的數據挖掘技術能夠徹底改變以往電信企業在成功獲得客戶以后無法監控客戶的流失,無法實現客戶關懷的狀況,把基于科學決策的客戶關系管理全面引入到電信企業的市場/銷售工作中來。
整個數據挖掘過程由業務問題定義,數據選擇,數據分析和預處理,模型選擇與建立,模型解釋與應用等多個步驟組成。
1.業務問題定義。業務問題的定義要求非常明確。在客戶流失分析系統中,需要明確客戶流失的定義。在客戶流失分析中,主要有兩個核心的變量:(1)財務原因/非財務原因;(2)主動流失/被動流失。客戶的流失類別根據這兩個核心變量可以分為四種。而真正在分析客戶流失的狀況時,我們還必須區分公司客戶與個人客戶,不同服務的貢獻率,或者是不同客戶消費水平流失標準的不同。舉例來說,對于用一種新服務替代原有服務的客戶,是否作為流失客戶?又或者,平均月消費額為2000元左右的客戶,當連續幾個月消費額降低到500元以下,我們就可以認為客戶發生流失了。所以,客戶流失分析系統必須針對各種不同的種類分別定義業務問題,進而分別進行處理。
2.數據選擇。為解決問題,需準備數據并組織數據挖掘庫,數據為客戶費用變化情況。涉及到的數據有固定電話業務量、傳統移動業務量和數據通信業務量的歷史數據。電信行業有許多成熟的數據庫應用系統,如網管系統、財務系統、計費賬務系統、112障礙管理系統、繳費銷賬系統等,并產生了大量的業務處理數據。這些都為數據挖掘的開展提供了良好的數據支持。
3.分析數據。分析的目的是找到對預測輸出影響最大的數據字段,和決定是否需要定義導出字段。例如客戶流失的方式有兩種。第一種是客戶的自然消亡,例如身故、破產、遷徙、移民而導致的目標客戶消失;第二種是客戶的轉移流失,通常指客戶轉移到競爭對手,并使用其服務,后一種流失的客戶才是運營商真正關心的、具有挽留價值的客戶。因此在分析數據時必須選擇第二種流失客戶數據參與建模,才能建立有效的模型。
4.數據整理。數據整理的主要工作包括對數據的轉換和整合、抽樣、隨機化、缺失值處理等等。例如,按比例抽取未流失客戶和已流失客戶,將這兩類數據合并填人表格中,構成建模的數據源。
5.模型選擇與建立。建立模型是一個反復的過程,需要對數據進行分析并利用各種數據挖掘技術和方法選擇合適的模型描述、表示數據,并得出規律。模型建立與調整是數據挖掘過程中的核心部分,通常由數據分析專家完成。需要指出的是,不同的商業問題和不同的數據分布屬性會影響模型建立與調整的策略,而且在建模過程中還會使用多種近似算法來簡化模型的優化過程。因此還需要業務專家參與調整策略的制定,以避免不適當的優化造成業務信息丟失。
6.模型的解釋與應用。根據以上分析可以得出對研究問題的簡單結果:(1)根據相對指標來判別客戶流失,客戶的個人通信費用約占總收人的1%~3%,當客戶的個人通信費用遠低于此比例時,就可能發生了客戶流失;(2)對于因賬戶休眠發生的流失,可以認為持續休眠超過一定時間長度的客戶發生了流失,這時需要對相關的具體問題加以考慮:持續休眠的時間長度定義為多少?每月通話金額低于多少即認為處于休眠狀態,或者是綜合考慮通話金額、通話時長和通話次數來劃定休眠標準。
如發現一個忠誠的客戶突然流失,根據數據挖掘分析尋找出流失的原因為:客戶在使用一定年限后沒有得到特別的關注或優惠政策,進而選擇新的具有一定優惠政策的運營服務商,從而造成客戶流失。通過對模型做出合理的業務解釋,可以找出一些潛在的規律,用于指導業務行為。
四、國內電信行業數據挖掘應用中存在的問題
1.數據質量和完備性。國內電信運營商現有的、面向事務的數據在質量、完整性和一致性上存在許多問題,必須投入大量的精力去進行數據的抽取、凈化和處理。此外,業務問題的相關數據有時難以全面收集。例如客戶信用是客戶價值評估中的關鍵因素,但由于國內未建立完善的信用體系,無法根據現有客戶數據建立優質的信用評價模型,從而導致客戶價值模型有效性的降低。
2.相應的人員素質。 在數據挖掘應用過程的多個環節中,人的主觀辨識和控制是應用成敗的關鍵,這就對系統使用人員提出了很高的要求。如果沒有具備相應素質的使用和維護人員,必將導致分析系統與現實脫鉤,無法達到預期效果。
3.應用周期。數據挖掘存在一個較長的應用周期。技術本身不能給使用者解決任何問題,只能從數據中把一些潛在的情況呈現到使用者面前,由使用者采取相應措施。數據挖掘應用的有效方法是:從一個較小的、關鍵的問題出發,建立起相對有效的模型,并通過應用實踐不斷檢驗和完善模型,逐步替使用者解決問題。
五、總結
數據挖掘是目前國際上數據庫和信息系統最前沿的研究方向之一,已經引起了學術界和工業界的廣泛關注,成為國際上一個研究熱點。現在的電信市場上幾家電信運營商競爭激烈,數據挖掘技術有利于企業運籌帷幄、掌握先機,保持在競爭中的領先地位,這也給數據挖掘在電信行業的應用帶來了無限的商機。
參考文獻:
[1]湯小文蔡慶生:數據挖掘在電信業中的應用[J].計算機工程,2004,3
[2]徐光憲劉建輝:數據挖掘在電信客戶關系管理中的應用[J].中國數據通信,2005.4
[3]楊樹蓮:數據挖掘在電信行業客戶流失分析中的應用[J].計算機與現代化,2005
[4]崔再彬:電信業如何應用數據挖掘[J].每周電腦報,2006.3
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。