摘要:數據挖掘是人工智能、機器學習與數據庫技術等多學科相結合的產物,移動通信業是數據挖掘技術當前重要的應用領域之一。本文重點介紹了數據挖掘技術在移動通信業中應用的客戶描述、客戶分群、與客戶流失分析的最新研究方法與進展。
關鍵詞:數據挖掘;移動通信;客戶流失
中圖分類號:TP393文獻標識碼:A 文章編號:1009-3044(2008)23-867-02
Survey of Application Based on Data Mining in the Mobile Communication
LI Xin
(School of Statistics and Applied Mathematics, AUFE, Bengbu 233030, China)
Abstract: Data mining is the production of artificial intelligence and machine study and database and so on. The industry of the Mobile telecommunications is one of the most significant applied fields in which data mining is used.This treatise mainly introduces the newly method and process in which data mining is uesd in the customer descriptions,customer segmentation and customer churn in the Mobile Telecommunication.
Key words: data mining; mobile telecommunication; customer churn
1 引言
21世紀,人類邁入了“信息爆炸時代”。人們利用信息技術生產和搜集數據的能力大幅度提高,數以萬計的數據庫在政府辦公、科學研究、工程開發、商業管理中得到應用,并且這種趨勢仍將持續并進一步發展下去。因此一個新的問題出現了:在這個信息爆炸的時代,人們每天要面對無數的信息量。數據挖掘(Data Mining)就應運而生了。數據挖掘就是從大量的、模糊的、部分的、有噪聲的、隨機的數據中,提取隱藏在其中的、事先不了解而又有用的信息和知識的過程。發現的知識可以用于信息管理、決策選擇、查詢優化、過程控制等。因此數據挖掘是一門廣義交叉學科,它匯聚了不同領域的研究者,尤其是數據庫、數理統計、可視化、人工智能等過方面。移動通信業是數據挖掘技術當前重要的應用領域之一,例如通過決策樹的分類預測技術,可以在銷售活動中根據商品或服務的描述特性,幫助企業理解給定銷售活動的影響,并幫助企業設計出在未來更有效果的銷售活動。同時還可以利用決策樹分析模型的誘導分析,通過客戶相關信息對比發現客戶流失的一些特征,從而篩選出與流失相關的顯著指標,對于企業發展和保留客戶都有很大的意義。
2 數據挖掘概述
2.1 數據挖掘的任務
數據挖掘的任務是從數據集中發現有價值的模式。模式按功能分主要有兩大類:描述型模式和預測型模式。針對不同的實際問題,數據挖掘的任務主要有關聯分析、分類、聚類分析、概念描述、孤立點分析、時間序列等。
關聯分析:關聯分析的目的是為了挖掘出隱藏在數據之間的滿足一定條件的依賴性關系。關聯分析的主要對象是事務數據庫,典型的應用是購物籃分析。
分類:分類是從歷史數據中選出類標記已知的訓練數據集,通過數據表現出來的特性,為每一類數據找到一個類別的準確描述,并用這種描述來構造模型,以便用模型預測類標記未知的數據。
聚類分析:聚類是根據數據對象的不同特征,將其分組成為多個不同數據類的過程,使得同一類中的數據彼此相似,不同類中的數據差別較大。聚類通常作為數據挖掘的第一步。
概念描述:概念描述是描述性數據挖掘中最基本類型,通過數據的特征化和區分描述來提供一類數據的概況,或與對比類相區別。特征描述是對目標類數據一般特征的簡潔匯總,描述了該類所有記錄的共性。區分是將目標類與一個或多個對比對象的一般特征進行比較,來描述類之間的差異。
孤立點分析:孤立點是數據集合中,遠遠偏離其他數據對象、與數據的一般模型不一致的比例較小的數據對象。在大部分數據挖掘算法中為使孤立點的影響最小化,通常將孤立點作為噪聲或異常數據而舍棄。但在某些場合,檢查孤立點的存在有非常重要的意義,使我們能發現一些真實而又出乎意料的知識。
時間序列分析:時間序列是按時間順序取得的一系列觀測值,由這些觀測值組成的數據庫為時序數據庫。
2.2 數據挖掘使用的主要技術和方法
統計學:統計學方法主要在于從抽樣分析中提取未知數學模型。在數據挖掘中經常會涉及到統計過程。
決策樹:決策樹是一種重要的分類預測模型。通過分類的方法找出可以描述區分數據類或概念的模型,使得未知對象能夠被模型預測和標記。當被預測的值是數值時,稱為預測。
人工神經網絡:人工神經網絡從結構上模擬生物神經網絡,通過訓練水平學習非線性預測模型。
遺傳算法:遺傳算法是一種優化技術,它利用生物進化的一系列概念經行問題的搜索,最終達到優化的目的。
粗集:粗集是一種處理含糊不確定的問題的新型數學工具,它具有較強的數學基礎、方
法簡單、針對性較強和計量小等優點。
2.3 數據挖掘過程
定義業務:從業務角度來理解數據挖掘的目標和要求再轉化為數據挖掘問題。
設計數據模型:建立數據庫或數據倉庫。
分析數據挖掘:建立數據集市。
建立模型:選取數據挖掘工具提供的算法并應用于準備好的數據,選取相應參數生成模型。
評估、解釋和應用模型:對模型進行比較評估、生成一個相對最優模型、并對此模型用業務語言加以解釋并應用到業務活動中。
3 應用研究
3.1 客戶描述
客戶描述類信息主要是用來理解客戶的基本屬性的信息,這類信息主要來自于客戶的登記信息,以及通過企業的運營管理系統收集到的客戶基本信息。
客戶資料:客戶資料包括了客戶的姓名、通信地址、聯系郵編、出生日期、性別等客戶在移動開戶時登記的信息。
客戶賬單:客戶賬單包括了某一月內該客戶的分項消費合計如本地費、長話費、漫游費、短信費等。
網內、網間通話情況:移動的客戶與其他移動客戶的通話稱為網內通話。移動的客戶與聯通、電信通話稱為網間通話。這其中都包括了本地通話的費用、時長、次數,長途通話的費用、時長、次數,漫游的費用、時長、費用等等。由于客戶通話的時段也是業務部關心的內容,所以還需要對用戶通話的時段按工作時間和休息時間進行分析。
短信網內、網間使用情況:移動客戶與其它移動客戶的短信通信稱為網內短信,與聯通、電信的短信稱為網間短信,需要分析使用次數和費用。
其他使用情況:包括彩鈴、GPRS、IP 電話使用情況以及套餐使用以及變更情況。
3.2 客戶分群
客戶分群是指按照一定的標準將企業的現有客戶劃分為不同的客戶群的行為。正確的客戶細分能夠有效的降低成本,同時獲得更強、更有利可圖的市場滲透。同屬一個細分群的消費者彼此相似,而隸屬于不同細分群的消費者是被視為不同的。比如那些帶來最多盈利的客戶和帶來最少盈利的客戶都有自己的分群。同一分群中的消費者可有多種理由而被稱為相似,他們可能在居住地域上相似,在收入上相似,或者是他們的思考、行為方式相似。理解不同消費者群體的偏好、購物態度、價格觀念是市場營銷成功的關鍵,明智的商家和營銷人員會根據不同城市的不同消費群體;以及不同的產品生命周期的階段,有效地規劃市場策略。
利用數據挖掘中的分類和聚類方法對客戶通話行為進行分析,從而得出客戶在消費習慣、生活方式、社會聯系等方面的特征。按不同特征劃分客戶群,針對不同客戶群的特征,運營商可以進行不同的市場營銷活動和客戶服務。在客戶群劃分中典型的應用就是針對某一客戶群的消費特征進行某種移動業務的營銷。
客戶分群的方式有多種,不同的產品、不同的地區以及不同的時間段都應有不同的細分市場的方法,常見的方法如下。
地理細分:地理細分是把市場細分成不同的地理單位,例如國家、地區、州、縣、城市和地段。
人口細分:人口細分是指根據各種變量,例如年齡、性別、家庭人口、家庭生命周期、收入、職業、教育、宗教、種族、國籍等,把客戶分割成不同的群體。
心理細分:心理細分是指按社會階層、生活方式和個性特征等把消費者分成不同的群體。
行為細分:行為細分是指按照購買者對產品的了解程度、態度、使用以及反應,把購買者分成不同的群體。
根據顧客從產品中追求不同利益分類,是一種有效的客戶細分方法,即利益分群。利益分群需要尋找人們在產品中尋找的主要利益,尋找每種利益的人的類型,以及提供各種利益的主要品牌。
用戶狀況分群將客戶分成產品的非用戶、以前的用戶、潛在的用戶、初次用戶和經常用戶。對潛在用戶和經常用戶應采用不同的營銷手段。
使用率分群將客戶分成偶爾、一般和經常使用者。經常使用者只是市場中的一小部分,但在購買量中卻占了很大的百分比。
3.3 客戶流失分析
3.3.1 客戶流失種類及控制方法
自然流失:這種類型的用戶流失不是人為因素造成的,比如用戶工作地點發生變化。自然流失所占的比例很小。企業可以通過廣泛建立實體營業廳,或者提供網上服務等電子渠道的方式,讓用戶在任何地方、任何時候都能方便快捷地使用企業的產品和服務,減少自然流失的發生。
惡意流失:惡意流失是指一些用戶為了逃避某些費用而產生的流失,比如用戶在拖欠了大額通信費用后而離開這家電信運營商,選擇其他電信運營商提供的服務,從而達到不交費用的目的。企業可以通過用戶信譽管理制度和欺詐監測來防止用戶的惡意流失行為。
競爭流失:由于企業竟爭對手的影響而造成的流失稱為競爭流失。市場上的竟爭突出表現在價格戰和服務戰上。在當前日益激烈的市場競爭中,企業首先要考慮的是保留住自己現有的用戶,在此基礎上再去吸引和爭取新的用戶。通過市場競爭分析,包括市場占有率分析、競爭對手發展情況分析、供應商行為分析、合作商行為分析等,可以防止部分流失的發生。市場占有率分析使市場人員能夠了解不同時間段內、不同業務品牌的產品或服務的市場占有率情況,了解市場中最有價值產品或服務,了解不同產品的主要競爭對手是誰,從而為市場經營提供指導。從競爭對手用戶發展情況、競爭對手用戶話費收入情況、競爭對手用戶呼叫行為、竟爭對手營銷策略、竟爭對手服務質量五個方面,對競爭對手發展情況進行分析預測。
過失流失:上述3種情況之外的用戶流失稱為過失流失。這些流失都是由于企業自身工作中的過失引起用戶的不滿意而造成的,防止過失流失主要通過加強企業管理、加強員工素質以及增加對員工的業務培訓等方法解決。
3.3.2 建立客戶流失模型
客戶描述的確立:一般客戶描述分為客戶的基本數據、行為數據和客戶價值,他們提供了客戶的基本特征,并為客戶流失模型的分析和建立提供數據源。數據倉庫中客戶數據的屬性種類繁多,很多可能與我們要進行的分類或預測任務相關性不大,因此使用相關分析刪除學習過程中不相關或冗余的屬性非常必要。若不刪除這些不相關或冗余屬性將可能減慢和誤導學習步驟。正常情況下,用在相關分析上和從“壓縮的”特性子集學習的時間,應小于在原來的數據集合上學習所花的時間。因此,這種分析可以幫助提高決策樹的有效性和可伸縮性。
建立模型:假設客戶的行為在年度上不存在強的季節性,即客戶的行為特征和流失影響變量不會因為處于一年中的不同月份(季度)而發生較大變化根據對業務的理解,因此選擇客戶描述中的客戶資料、客戶賬單、網內和網間通話情況、短信網內和網間使用情況等變量。通過以上分析處理過程,我們可以看到客戶流失預測使用的變量眾多,數據復雜。根據各種算法的特點,選擇算法結構和推理過程都比較好的決策樹進行建模。
模型評估:客戶流失模型要從兩方面來評估。一是預測命中率:用來描述模型的精確度,是預測流失中實際流失的比例。二是預測覆蓋率:預測覆蓋率用來描述模型普遍實適用性,是實際流失中預測正確的比例。在實際應用中,這兩項指標實際上決定了決策者應該對哪些特定客戶采取措施來降低流失率。
結果分析:模型的類別分為兩大類。一是流失;二是不流失。其中流失根據情況不同又分為主動流失和被動流失。而不流失的客戶特征不需分析。只分析主動流失和被動流失客戶的特征即可。另外預測的模型是有時效性的。根據移動通信業的經驗,三個月內用戶一般不會改變消費習慣。所以每個月都應使用新數據進行建模,并與原模型進行比較。在適當的時候(例如三個月)用新模型替換舊模型。
客戶流失預測:客戶流失預測主要解決兩個主要任務。一是發現客戶中流失可能性大、價值高的群體,作為目標客戶群體進行預防和控制。二是跟蹤和發現客戶流失趨勢,及早采取預防和控制措施。
4 結束語
客戶資源是移動通信企業的生命,在激烈的競爭中,運營商要爭取新客戶越來越困難,而且其成本非常高。所以保持自己的客戶不流失是企業制勝的關鍵因素。但是對于運營商而言,客戶流失的情況幾乎每天都會發生。運用數據挖掘技術能綜合分析影響客戶流失的各種因素,建立客戶流失的預測模型,用該模型去衡量每一個客戶,找出其中最有可能流失的群體,然后采取有針對性的措施避免他們的流失。本文基于數據挖掘的移動通訊業客戶的綜述,充分地發揮了數據挖掘技術面對海量數據的強大優勢。能夠幫助移動通信企業深入理解客戶,得到更加準確的客戶模型,從而改進營銷決策和客戶服務,具有十分重要的應用價值。
參考文獻:
[1] 王姝華,鐘云飛.數據挖掘在移動通信業大客戶離網預測中的應用[J].江蘇通信技術,2004,20(3):1-4.
[2] 石杰楠.數據挖掘研究綜述[J]. 航天制造技術,2005(4):27-31.
[3] 劉蓉,陳曉紅.基于數據挖掘的移動通信客戶消費行為分析[J].計算機應用與軟件,2006,23(2):60-62.
[4] 顧桂芳,李文元.數據挖掘在移動通信業客戶關系管理中的應用研究[J].科技管理研究,2007,27(2):38-40.