[摘要] 本論文闡述了如何運用生存分析方法,建立一個用以預測移動通信行業高風險流失顧客的模型。并通過實證性研究,驗證了模型的有效性。應用模型將顧客群體劃分為四個類別,并對其中的高盈利高流失風險顧客群體采取了干預措施試驗,對三種干預措施采取了效果和經濟性驗證,并提出最優化的干預措施。
[關鍵詞] 生存分析方法 顧客流失 比例風險回歸模型
引言
美國哈佛商業雜志發表的一項研究報告指出,公司只要降低5%的顧客流失率,就能增加25%~85%的利潤。20/80定律表明20%的顧客為企業創造了80%的價值,這20%的顧客被稱為高盈利顧客。提高高盈利顧客的忠誠度、將其保留在企業中,似乎是企業經營活動的最佳策略。
移動運營商采取品牌劃分顧客群體,雖然對不同品牌的顧客采取了分級管理的制度,但是移動運營商也面臨著其他行業所遇到的問題:
1.面對著大量顧客流失,如何總結流失顧客的特征,在顧客流失之前識別顧客流失趨勢;
2.識別出有流失傾向的顧客之后,采取何種方式挽留高盈利顧客。
本研究就移動通信行業的特點,采用生存分析方法建立一套客戶流失預測模型。模型的意義在于能在顧客流失之前識別出顧客的流失意向,對高風險流失客戶進行挽留,對移動運營商提高顧客質量、運營收入提出可操作的方法。
一、理論引述
“生存分析”原本是流行病學術語,用于理解、預測種群的死亡率。20世紀50年代開始,統計學家對工業產品可靠性問題的廣泛研究,促使壽命數據分析在理論、方法和應用得到了迅速的發展。在市場營銷活動中,顧客關系會經歷建立(born)、持續(live)、最終破裂(die)的過程,分別對應生命體的誕生、生命持續、最終死亡過程。在這一框架下,死亡率(mortality)被定義為顧客的流失。比例風險回歸模型(proportional hazard regression models)是最常用的一種生存分析技術,由Cox于1972首次提出。沒有時間依賴共變量的基本模型可被寫作:
hi(t)=λ0(t)exp{β1Xi1+β2Xi2+β3Xi3+β4Xi4+β5Xi5+β6Xi6}
該模型意味著,對于個體i,在時間t時間事件發生的風險等于如下兩個因子的乘積:
1.基準風險函數λ0(t)。與多元回歸分析的截距β0相似,基準風險函數可被看作是對于共變量都被設定為零的一位被調查者的風險函數。
2.共變量線性函數的冪。該模型與普通回歸模型的區別在于:
(1)該模型能夠容納缺失數據;
(2)因變量包含顧客關系的終止以及顧客關系終止前的持續時間兩方面的信。
二、模型建立
為了建立顧客流失風險模型,研究采用了四川移動某地市公司數據中心所提供2004年10月到2005年10月的顧客數據。通過分析顧客人口統計特征、ARPU值等變量,得到具有預測顧客流失風險的變量以及預測強度。模型的建立過程經歷了樣本選取、數據采集、數據分析和結果檢驗四個步驟。
1.樣本選取。模型建立階段,研究選定的樣本為個人顧客,包括個人顧客中的當前顧客與流失顧客。
(1)個人顧客與集團顧客。在移動通信行業,個人顧客是指與移動運營商發生零星的、小金額交易的社會公眾;集團顧客是指以工商政企為單位的,與移動運營商發生大量的、大金額交易的組織機構。根據集團客戶的需求,移動運營商提供了移動通信解決方案,作為方案的使用者的集團員工在本次研究中也被視為集團客戶。
沒有選擇集團客戶的主要原因是相對于個人顧客,有更多原因影響著商業顧客的去留選擇,并且在企業組織內部移動通信產品/方案的使用者通常不是購買決策者。
(2)當前顧客與流失顧客。生存分析研究以時刻t1作為事物起始點、時刻t2作為事物結束點對事物發展階段進行研究。在本次研究中以2004年10月作為時刻t1、2005年10月作為時刻t2劃分當前顧客與流失顧客。
本研究中當前顧客的定義為:時刻t1入網,時刻t2仍然在網的顧客;對離網顧客的定義為:時刻t1入網,時刻t2離網的顧客。本研究主要依賴于對兩組顧客進行比較。研究基于的假設是,與忠誠顧客相比,具有高流失風險的顧客組可能會更年輕、不太富有,等等。
同時,有兩類顧客的數據被作為缺失數據,它們分別是:在t1前入網、t2仍然在網的顧客數據,被稱為左缺失(left-censored);在t2前離網的顧客數據,被稱為右缺失(right-censored)。
2.數據采集。確定樣本范圍之后,數據主要來源于電話訪問和移動公司數據中心提供的顧客數據。
數據中心提供的顧客數據含有大量的動態信息,如顧客的AUPR值、投訴紀錄、停機保號紀錄,等等;對于這部分數據未涵蓋的部分,研究通過電話撥測獲得,如顧客職業、月收入、家庭組成等等。由于擔心顧客不愿透露收入狀況而虛報收入,研究將被訪者回答的收入狀況與《統計年鑒》所示的當地各行業收入狀況作了對比,與數據中心所示的被訪者每月話費額作了相關性檢驗。
3.數據分析。(1)比例風險回歸模型。在生存分析中,保留了缺失觀測值,只有在缺失點——即時刻t1、t2才被作為缺失值。實際上,如果去掉左缺失值,即時間t1前入網的顧客將刪除長期顧客;如果去掉右缺失值,即時間t2前離網的顧客將刪除許多當前顧客。
數據首先采用統計軟件SPSS進行模型分析:經計算,OveraII(score)、PreviousStep、PreviousBIock等檢驗量的P值均較小,符合小于0.05的檢驗標準,可認為模型中協變量系數全不為0或不全為0,即模型是顯著的。由于存在多個變量對顧客流失均有影響時,首先過相關性分析確定顯著性協變量,然后建立協變量與顧客流失之間的關系模型,并根據該模型中協變量的作用大小對當前個體的狀態進行分析和預測。按照P值檢驗準則,許多變量因無顯著作用而被剔除,最終六個協變量被篩選進入模型,分別是:平均月消費額、平均話費余額、郵件營銷/訪問、關系持續的時間長度、總收入、賬戶終止,記為X(t)={x1(t),x2(t),x3(t),x4(t),x5(t),x6(t)}。
運行SPSS的COX回歸程序可得β的統計值與相關統計量,如表1所示
表1 COX分析的主要結果
(2)預測模型總結。最終的統計模型由6個變量構成。在這6個變量中,只有一個變量(即總的月收入)是一個人口統計特征變量,其余的5個變量代表了賬戶的關系特征。表2以預測能力由強到弱的順序總結了該模型中具有統計顯著性的各個預測變量。
表2 預測模型總結
4.模型有效性檢驗。對模型開發過程中未曾涉及的5000名顧客的每一位都賦予一個風險水平值,根據風險水平值被劃分為高、中、低三個流失風險組。以顧客在2004年10月到2005年8月期間的情況作為檢驗數據。最終的結果驗證了模型的有效性:高風險流失組的顧客保有率相比其它兩個組別明顯偏低,到實驗結束的當月,高風險流失組僅留下了51.1%的顧客。
圖1 不同風險值顧客流失情況
三、模型執行
成功建立顧客流失風險識別模型后,將2005年10月仍然在網的顧客數據代入模型中,根據顧客流失風險水平值和對企業的利潤貢獻將顧客劃分為四類,并對其中的高盈利顧客與高流失風險顧客采取實驗措施,對挽留顧客的有效措施作了探究。顧客劃分見圖2所示
圖2 顧客流失風險與盈利性
1.普通顧客與高盈利顧客。在移動通信行業,高盈利顧客被定義為“年齡在25歲以上、ARPU水平前15%~20%左右、低價格敏感度的中高端客戶”。按照品牌劃分,這部分顧客通常也被稱為“全球通”客戶(中國移動)或者“世界風”客戶(中國聯通)。在同一品牌下,根據顧客的ARPU值,顧客被劃分為若干等級,并享有不同的服務。如中國移動為全球通VIP客戶配備了客戶經理,而普通全球通客戶僅有10086外呼和營業廳人員為之服務。由于不同的顧客對于移動通信企業具有不同的價值,能夠給企業帶來高額利潤又被模型識別為高流失風險的顧客是重點關注對象。
2.干預措施。干預措施集中在高流失風險、具有盈利性的顧客群組上,即第一象限的顧客群組。采用現場實驗(field experiment)和成本—收益分析(cost-benefit analysis),對最優的干預措施進行檢驗。
實驗設計了一個控制組和三個試驗處理組的形式。這四個組中的每個組都被分配了100名客戶。每個實驗組受到具有不同效力的干預方法的影響。不與控制組的顧客進行接觸,一個實驗組增加了客戶經理電話拜訪的頻率,第二個實驗組的顧客收到了小禮物,第三個實驗組的顧客收到了客戶經理的上門拜訪。
表2描述了在最優化干預措施的成本——收益比例時控制組和合試驗組的情形。
表2 干預措施的成本收益風險:實驗組與控制組
留住一名顧客的成本計算方式是花費總額除以實際挽留成功的顧客數量,從交易成本的角度來看,挽留顧客的最佳措施是電話拜訪。
值得注意的是,根據不同地區和不同行業的特點,不同干預措施的成本將會不同。例如在移動通信行業,由于具有通信網絡的優勢,電話拜訪的成本只包括客戶經理或者外呼人員的人工成本。
四、結論
本研究利用實證數據證實了顧客保有率與財務績效之間存在一定的相關性,隨著顧客關系越來越成熟,顧客流失的可能性會減小。本研究使用了10個月的數據構建了一個切實可行的模型。隨著數據集跨越的時間范圍越長,而且數據收集的時間間隔越頻繁,得到的預測模型將會更加準確。
本研究建立的顧客流失率模型適用于任何擁有縱向客戶數據的企業組織。在移動通行行業,企業具有巨大的優勢,企業與顧客之間的互動記錄都被記錄在數據庫中。在實際的顧客流失率模型中,這些“接觸點”(contact Point)代表了預測變量。除了移動通信企業以外,金融服務組織還擁有用戶年齡、收入、家庭狀況等更為靜態的數據。但是這些數據并沒有得到很好的利用,大多數組織都在困惑于如何了解市場,卻忽略了這些有用的數據。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。