[摘 要] 本文運用數據挖掘技術中的分類決策樹算法和快速聚類算法,對某省會城市聯通公司的3G業務數據進行深入分析,研究并實現一個準確、實用的3G客戶識別和客戶細分的模型。在對模型進行評估的基礎上,為精確發展優質3G客戶提供了一個具體參考,同時對3G的資費策略提出一些參考意見。
[關鍵詞] 數據挖掘; 3G業務; 客戶識別; 客戶細分
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2010 . 24 . 024
[中圖分類號]F270.7;TP39 [文獻標識碼]A [文章編號]1673 - 0194(2010)24- 0049 - 04
1引言
從2008年開始的三大電信運營商重組至今,經歷了3G牌照發放以及3G正式商用,中國電信業市場環境發生了根本性變化。特別是3G的正式商用,標志著通信領域跨入了一個新的時代,3G業務的競爭和3G客戶的爭奪日趨白熱化。目前電信企業對3G客戶的識別以及3G客戶細分方面都還處在摸索階段,無法在客戶與企業之間有效交互信息,無法滿足廣大客戶以及3G業務發展的需要。本文使用數據挖掘方法,整合3G客戶大量數據,通過對客戶基本自然屬性與消費行為屬性的數據進行深入分析,提煉出3G客戶屬性特征和消費特征來建立3G客戶識別模型,并對3G客戶進行細分。通過對3G客戶識別模型和3G客戶細分模型的評估和分析,為如何發展優質3G客戶和3G資費的調整提供一定的指導。
2分類決策樹和快速聚類算法概述
2.1分類決策樹算法
CART算法采用一種二分遞歸分割的技術,將當前樣本集分為兩個子樣本集,使得生成的決策樹的每個非葉節點都有兩個分支。CART算法考慮到每個節點都有成為葉節點的可能,對每個節點都分配類別。分配類別的方法可以用當前節點中出現最多的類別,也可以參考當前節點的分類錯誤或采用其他更復雜的方法。當滿足下列條件之一時,則視葉節點不再進行分支操作:① 所有葉節點的樣本數為1或樣本數小于某個給定的最小值或者樣本都屬于同一類的時候;② 決策樹的高度達到用戶設置的閾值,或者分支后的葉節點中的樣本屬性都屬于同一類的時候;③ 當訓練數據集中不再有屬性向量作為分支選擇的時候。
2.2快速聚類算法
K-Means算法是一種典型的基于劃分的聚類算法。K-Means算法接受輸入量K,然后將N個數據對象劃分為K個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的[1]。K-Means算法采用了動態分裂的思想,對給定一個有N個元組或者記錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N,而且這K個分組要滿足兩個條件,即每一個分組至少包含一個數據記錄并且每一個數據記錄屬于且僅屬于一個分組[1]。對于給定的K,該算法首先給出一個初始的分組方法,以后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次更好,而所謂好的標準就是同一分組中的記錄越近越好,而不同分組中的記錄越遠越好[1]。
3實證研究
3.1數據理解
數據來源于某省會城市聯通公司2009年11月的用戶基本信息數據和消費信息數據。客戶基本信息可由客戶表、賬戶表和用戶表關聯得來的。但是在客戶基本信息中包含一些對于數據分析無意義的信息,如客戶表中的CUSTOMER_NO(外部客戶編號)、CUSTOMER_NAME(客戶姓名)等。另外還有很多的字段在系統中都是填寫的默認值,如客戶表中的CUSTOMER_OCCP(客戶職業)、CUSTOMER_INDUSTRY(客戶行業)等字段,這些數據對于數據挖掘已經失去意義。所以在客戶基本信息數據提取的過程中需要剔除那些無用的、無效的數據。客戶的消費信息數據主要包括語音話單數據、增值話單數據、GPRS詳單數據以及賬單數據。不同客戶的具體資費其實是不一樣的,所以對于客戶消費數據的提取需要盡量采用客戶消費的硬性指標,如通話時長、GPRS流量等。
3.2數據準備
因實驗環境數據龐大,所以在數據挖掘之前隨機提取5萬個賬戶(按照對有效賬戶以20取模等于1得到前5萬條記錄),然后再以這5萬個賬戶為基礎,分別提取這些客戶的基本信息和消費信息。最后根據關鍵字賬戶號碼、手機號碼,將提取出來的客戶基本信息和客戶消費信息進行合并,將這些信息合并到一張數據表中。接著再對這些數據進行規整,剔除已經銷戶的用戶,并且在根據身份證號碼提取年齡的時候,剔除那些身份證資料不正確的用戶數據,同時根據數據表中的BRAND_ID=7000將這些數據分為2G客戶數據和3G客戶數據(3G客戶的BRAND_ID=7000)。另外,還需要在稍后的數據處理中將年齡字段的值進行離散化、特殊數據值的填充以及無關數據數據字段的過濾。最終數據中包含3G用戶的記錄544條,非3G用戶的記錄條24 334條。數據挖掘過程中所使用的字段數據以及解釋見表1。
3.3數據挖掘
3.3.13G客戶識別模型
從提取的數據來看,3G客戶僅占總客戶的3%左右,那么用這個訓練集去訓練決策樹,結果會導出一個“空”的識別系統,即一棵“空”樹[2]。為了解決類別偏斜,一種方法是在訓練集中通過多次復制3G客戶數據來加大3G客戶在總數據中所占比例[3];另外一種方法是把2G客戶數據均勻地分成若干份,每一份都與3G數據形成一個訓練集[3]。因所提取的規范樣本數據量只有2萬多條,若采取把2G數據等分成多份然后再與3G數據進行合并的方式,那么每一個訓練集的樣本數據太少,將在一定程度上影響決策樹的精確度。所以3G客戶的識別模型按照第一種方法解決類別偏斜問題,將3G客戶數據復制9份,然后再與2G客戶數據進行合并。因所提取的數據中,可能有些字段因其特殊值的原因,將對3G客戶識別模型產生影響,所以3G客戶識別模型分析的源字段選取經特征選擇節點提取出來的重要字段。在3G客戶識別模型中,使用CART建模節點進行判定,最終結果為一棵二叉決策樹,其生成規則如圖1所示。
對于is_G3字段等于0(即為2G客戶)有11個判斷規則,is_G3字段等于1(即為3G客戶)有5個判斷規則,現將is_G3=1的5條規則逐條解釋如下。
規則1:如果客戶的GPRS流量小于等于187 770.500比特,省內漫游通話時長小于等于2 145.5秒并且國內漫游通話時長大于4 352秒,那么這樣的客戶為3G客戶;
規則2:如果客戶的GPRS流量小于等于187 770.500比特,省內漫游通話時長大于2 145.5并且本地通話時長小于6 493秒,那么這樣的客戶為3G客戶;
規則3:如果客戶的GPRS流量大于187 770.500比特而小于等于47 440 675 比特,年齡大于23.3歲并且客戶生活在該市區,客戶等級為100、301或302,并且客戶性別為女性,那么這樣的客戶為3G客戶;
規則4:如果客戶的GPRS流量大于187 770.500比特而小于等于47 440 675比特,年齡大于23.3歲并且客戶生活在該市區,客戶等級為100、301或302,并且客戶性別為男性,那么這樣的客戶為3G客戶 ;
規則5:如果客戶的GPRS流量大于47 440 675比特,那么這樣的客戶為3G客戶。
針對以上5條規則進行分析總結,3G客戶的綜合特征為:①GPRS流量大于45M;②年齡在23歲以上,生活在市區,國內漫游通話時長大于72分鐘;③年齡在23歲以上,生活在該市區,省內漫游通話時長大于36分鐘。若滿足以上一個或多個特征,那么這些客戶都極有可能是3G客戶。
3.3.23G客戶細分模型
另外,對于3G客戶細分模型可將所獲得的3G數據作為數據源,K-Means建模節點作為分析工具。因聚類數目K的選擇對聚類結果具有較大的影響,很難一次確定,所以需要根據聚類結果進行調整。調整策略如下:初步將聚類數(細分客戶簇數)K值定在3~9之間。分別取值3,4,5,6,7,8,9,對樣本進行嘗試性運算。經過幾次試驗,K=4是本次聚類的最佳數目,各分類之間的數目相對均勻且各類之間的相關字段差異較大,其細分之后的結果如圖2所示.
針對K-Means聚類節點所形成的4類3G客戶,對其各項指標進行整理,包含GPRS流量、短信費用、月總消費費用、年齡、縣市等信息。根據整理后的數據可將每個分類的特點描述如下。
聚類1:短信較多;GPRS流量約為24M;每月費用在140元左右;國內漫游較多;以市區4居民居多,其次為市區1居民;性別為男性;年齡在28~38歲之間。
聚類2:短信使用較少;GPRS流量很多;每月費用在120元左右;市區1的用戶居多,其次為市區4居民;性別為男性;年齡在38~48歲之間。
聚類3: 短信費用多;GPRS流量也很多;本地通話時長也很長;每月費用達220元;以市區4的用戶居多,其次為市區1居民;性別為男性;年齡在18~28之間。
聚類4:短信較多;GPRS流量比較少;本地通話時長較多;省內漫游也是比較多;費用在140元左右;以市區4用戶居多,其次為市區1居民;性別為女性;年齡在18~28歲之間。
3.4模型評估
3.4.13G客戶識別模型評估
對3G客戶的識別規則進行評估,其測試集為3G客戶數據復制9份之后與2G客戶數據合并的數據集。但不能單從測試集判斷的準確率來評估模型,準確率是判斷準確的人數與測試集總人數的比,其中判斷準確的人數中既包括2G客戶也包括3G客戶。在此可以衍生出2個量化指標計算公式:
(1) 2G客戶判斷準確率=被判定為2G客戶數量/實際的2G客戶數量=A/(A+C) (1)
(2) 3G客戶判斷準確率=被判定為3G客戶數量/實際的3G客戶數量=D/(B+D) (2)
2G客戶判斷準確率表達了3G客戶識別規則對2G客戶的影響程度,此值越大,說明影響越小;3G客戶判斷準確率表達了3G客戶識別規則對真正的3G客戶的識別的正確程度。顯然這兩個指標值越大,說明模型預測效果就越好。
對系統進行評估時采用SPSS Clementine中的分析節點對2G和3G客戶的判斷準確率進行分析統計,其分析結果如圖3所示。
從圖3可以看出,在3G客戶中有91.44%(4 477/4 896 × 100% = 91.44%)的3G客戶被識別正確,在2G客戶中有92.22%(22 441/24 334 × 100% = 92.22%)的2G客戶被識別正確;由此可見這個模型的準確率比較高。那么根據這個規則也可以看出,實際的2G客戶中有1 893位客戶被誤判為3G客戶,說明了些2G客戶與3G客戶的特征非常相似,極有可能發展為3G客戶,這些客戶占2G客戶的比率為7.78%(1 893/24 334 × 100% = 7.78%)。根據前面提取3G客戶的顯著特征,將這1 893位2G客戶信息進行匯總分析,其結果見表2。
其中同時“滿足年齡在23歲以上生活在市區,其國內漫游通話時長大于72分鐘、省內漫游通話時長大于36分鐘并且GPRS流量大于45M”條件的客戶共計有112位,這112位2G客戶是未來重點發展為3G客戶的對象。
3.4.23G客戶細分模型評估
因為在采用K-Means方法對3G客戶進行聚類分析的時候,是根據分組中的各對象到簇中心的距離最小來不斷調整簇中心和分組對象的,所以同一個分組中的對象之間的距離的平均值是要大于等于分組中的各個對象到簇中心的距離的平均值的,因此可以將類內各對象到簇中心的平均距離近似衡量類內各對象之間的平均距離,其值越小說明組內越緊湊。
在對3G客戶的細分模型進行評估的時候,首先抽取各分組中的每條記錄與其所屬簇中心的距離,然后再使用SPSS Clementine軟件中的“統計量”工具,對其進行統計分析。另外在聚類分析的時候能夠產生各個分組之間的相似度的一組值,統計此類與其他類之間的類間距離,可以用來衡量各個聚類之間的分散程度,類間距離越大說明分組越好。各分組內的對象到簇中心的平均值以及各分組之間類間距離的統計見表3。
由表3可以看出,類間距離在0.88~0.99之間,說明各組之間的分散程度比較好;另外從類內到簇心平均距離可以看出,其值分布在0.68~0.82之間,說明各個聚類內的對象還不夠緊湊,這個3G客戶的細分模型還不夠成功。分析其原因,可能是數據的維度不夠,數據量也不是特別多,容易受噪聲和孤立點的影響。
3.5模型實施
針對以上3G客戶特征識別模型所獲得的結果,根據其總結出來的3G客戶的綜合特征,從現網的2G客戶中提取出符合這些因素的客戶,并且對這些客戶進行電話營銷。據營銷人員提供的數據反映,在第一天中所營銷的100位客戶的情況來看,有25位客戶愿意使用3G品牌;56位客戶對3G品牌產生了興趣,愿意考慮之后再決定是否使用;有19位客戶暫時不愿意使用3G品牌。與以往的逐個詢問的營銷方式相比,這種有針對性的營銷能大大提高營銷的效果、節約成本,并且也不會使大量客戶產生厭煩情緒。
另外,基于3G客戶的細分模型所得出的結果,可對 3G業務的資費提幾點參考建議:①現有的3G客戶使用的GPRS流量基本上都只有幾十M,說明很多的3G客戶一般使用GPRS瀏覽網頁,可以考慮贈送更多的GPRS流量,例如96檔的3G套餐贈送的GPRS流量原為300M,可以考慮贈送GPRS流量500M,以鼓勵更多的3G客戶來使用手機上網下載、上網觀看視頻等;另外不同類型的客戶對短信有不同程度的使用,可以在套餐中贈送相應的短信條數,相信可以更好地吸引客戶;②現有的3G套餐都是全國統一的,其實不同地區、不同年齡段、不同客戶對3G的需求是不一致的。例如年齡18~28歲的市區4性別為女性的客戶對短信和本地電話的需求多一點,而對GPRS流量的使用比較少一點,所以可以針對不同的區域的各類客戶進行相應的資費調整。
4結論
對3G客戶識別模型和細分模型進行評估,基于對3G客戶識別模型產生的決策規則和評估結果,將研究結果用于營銷實踐,取得較好效果;對于評估效果稍有缺陷的3G客戶細分模型,對其原因進行分析,并提出了適當的3G資費策略。3G客戶和業務是不斷發展變化的,很可能過一段時間之后,模型有可能要發生變化,因此需要不斷地對模型進行測試,有時甚至需要重新建立模型。
主要參考文獻
[1] [加]Jiawei Han,Micheline Kamber. 數據挖掘概念與技術[M]. 范明,孟小峰,譯. 北京:機械工業出版社,2001:3-68.
[2] J Hadden,A Tiwari. Churn Predietion:Does Technology Matter? [J] International Journal of Intelligent Technology,2006,1(2):104-110.
[3] 郭俊芳.電信領域客戶流失預測模型的研究與實現[D]. 大連:大連海事大學,2007.