陳 云,張會榮,2,朱 萍
(1.上海財經大學 公共經濟與管理學院,上海 200433;2.云南曲靖師范學院 物理系,云南 曲靖 655000)
隨著信息技術的迅猛發展和企業競爭的加劇,產品和服務的差異越來越小。以產品為中心、以市場為中心的企業管理理念逐漸被以客戶為中心所替代[1]。客戶關系管理強調的是企業與客戶長期的價值互動關系,最大化長期互動關系的效用,實現客戶與企業的雙贏。客戶成為公司最重要的資產,成為市場競爭的焦點。誰能掌握客戶的需求趨勢、加強與客戶的關系、優先挖掘和管理客戶資源,誰就能獲得市場競爭的優勢,在激烈的競爭中立于不敗之地。
客戶生命周期價值計量,作為客戶關系管理研究的核心內容之一,是企業識別價值客戶的最有效的依據。如果度量不準確,企業將無法準確定位價值客戶,更談不上對其進行保留和發展,客戶長期價值最大化目標更是無法實現。
Barbara bond Jackson(1985)奠定了這一領域研究的基礎,指出客戶生命周期價值有賴于客戶在生命周期的每一階段增加企業收益以及降低成本的能力[2]。Berger&Nasr(1998)在此基礎上引入客戶保持率參數,使CLV計量模型有了更實際的應用價值,公式如下[3]:

其中,π(i)是以時間i為自變量的客戶利潤函數;γ為客戶保持率;d為折現率;n客戶全生命周期時間。
然而目前利用此模型進行客戶生命周期價值計量存在著以下問題:
首先,客戶保持率的估計通常以常量客戶保持率代替,或是僅以客戶在企業中所處的時間進行粗略估算。
由于實際的客戶保持率與常量客戶保持率之間存在著較大的差異,用常量的客戶保持率來簡單的估計實際客戶保持率會造成較大的誤差,從而使客戶生命周期價值的計量不準確[4];若僅以客戶在企業中所處的時間對客戶保持率進行估計,雖可解決常量客戶保持率的問題,卻無法在客戶生存時間的分布未知的情況下較為精確地估計出客戶的動態保持率。
其次,在對客戶全生命周期時間的估計中,現有文獻大多假定其為某個常量值,并根據經驗進行估計,缺乏科學性。
因此,在進行客戶價值計量時,如何對動態的客戶保持率和客戶生命周期時間進行較為精確的估計,顯得尤為重要[5]。
生存時間是測量某事件出現的時間,生存時間的分布可用生存函數進行描述[6]。將生存函數引到動態的客戶保持率上,客戶保持率實際上就是客戶生命時間的分布。
因客戶生存數據包括許多協變量,且生存時間的分布未知,通過分析和比較發現,比例危險模型即Cox模型能很好地解決這一問題,運用客戶的生存時間和客戶的屬性(如基本特征、行為屬性等)來估計生存函數/危險函數。
比例危險(Proportional Hazard,PH)模型具有如下性質:不同個體的危險函數成比例,即兩個伴隨變量向量x1和x2下的危險函數之比h(t|x1)/h(t|x2)不隨t的變化而變化。它以危險函數作為因變量,公式如下:

其中,x=(x1,x2,……,xp)為協變量;β1(i=1,2,…,p)為回歸系數;h0(t)是x=(x1,x2,……,xp)均為0時的個體基本危險函數。
由危險函數與生存函數的關系知,基于Cox模型的生存函數為:

其中,r(t)為時刻t永久性流失客戶的累積保持率;βj(j=1,2,…,p)為伴隨變量xj(j=1,2,…,p)的回歸系數;r0(t)為時刻t永久性流失客戶的基準累積保持率(即無風險下t時的客戶累積保持率)。此即為客戶在t時期的動態保持率,可由Cox回歸分析得到。
對客戶生命周期時間進行估計。典型客戶的客戶保持率下降到50%時所經歷的時間段即為該客戶所在客戶群的平均全生命周期時間。如圖1:

圖1 客戶生命周期T的計算原理圖
設T為所要求的細分客戶的全生命周期時間,即典型客戶的累積保持率下降到50%時所經歷的時間段;ta為恰好小于T的生存時間;tb為恰好大于T的生存時間;S(ta)、S(tb)分別為客戶在ta、tb的累積生存率,即累積客戶保持率。則由線性內插法有:

由上述線性內插法得到的T即為典型客戶的全生命周期時間。
假設客戶在生命周期中經歷三個階段:發展期、成熟期、衰退期。對于t1和t2(客戶生命周期中各階段的轉折時點)這兩個客戶生命周期中時間躍變點(如圖2)

圖2 客戶生命周期框架下的客戶利潤曲線
相應的利潤函數如下:

本論文通過式(5)中求解下列兩方程來得到:

通過t1和t2這兩個時間躍變點,可以很清楚地知道某客戶當前所處在的生命階段,從而可以區別出CLV隨時間變化的不同階段,進而使CLV模型的計算誤差大大減小。
根據上述方法求解客戶生命周期價值計量模型中各參數,得到基于生存特征的CLV計量模型:

π1(t)、π2(t)和π3(t)為客戶分別在發展期、成熟期和衰退期的利潤函數,是對歷史客戶利潤進行擬合得到的函數。客戶利潤函數反映了客戶利潤在客戶生命周期的變化趨勢,是CLV模型中的一個重要參數。d為折現率。
r(t)為由Cox回歸模型得到的客戶保持率函數。令r(r,t+1)表示客戶在時間段[t,t+1]上的條件客戶保持率,r(t)表示客戶在時刻t的累積客戶保持率,是由動態變量確定的各期客戶條件保持率之積,即:

當客戶利潤保持不變時,累積客戶保持率越大,此客戶的生命周期價值就越大;反之,則越小。
T為客戶生命周期時間,由上述公式(3)求得的解。T越大,說明客戶生命周期時間越長,也即客戶在企業內停留得越久,此客戶的生命周期價值也越大;反之,會越小。t1和t2分別為客戶由發展期進入成熟期、由成熟期進入衰退期的時間點,分別由式(6)、式(7)求得。它們可很好地定位某當前客戶生命周期的所處階段。
CLV模型的三個部分是隨著時間的推移逐漸地加入到客戶生命周期價值的計量中的,并且隨著時間的推移,三個部分在CLV模型中的比例會逐漸發生變化,直至客戶退出。
本案例所采用的數據集為某電信公司客戶數據記錄。抽取其中1000條記錄組成本次研究的樣本,對其進行分析。客戶數據包含 42個屬性,有 tenure、age、marital、address、ed、employ、retire、gender、custcat、ebill、internet、churn等。 其中churn為狀態變量,若其值為1,則表示該客戶在觀察期內流失;若其值為0,則表示該客戶在觀察期結束時未流失,仍然在企業內。
表1展示了全部屬性中的一部分(因屬性較多,此處并未展示全部屬性):

表1 部分客戶屬性及其解釋
一般來說,原始數據是“臟”數據,不可避免地存在著一些空缺值、噪聲數據、不正確數據等。直接采用“臟”數據進行分析,可能使建模過程陷入混亂,導致不可靠的輸出,因此在對數據進行建模分析之前,需要對原始數據進行預處理,如屬性規約、數據變換等。
通過對數據的預處理,刪除了具有較強相關性的11個屬性,其余31個屬性進行生存分析。
采用Cox回歸分析法進行生存分析。在對數據進行模型建立前需要對成比例危險性假設進行檢驗。運用SPSS 13.0中的Analyze對各分層屬性進行逐個檢驗,即在保持其他協變量不變的前提下,分別作出每層的累積危險性與時間對數曲線,并根據以下依據進行判別:若曲線之間是接近平行且垂直等距的,那么該協變量滿足PH假設;若曲線之間相互交叉,則不滿足PH假設。
判別結果所有屬性都符合成比例危險性的假設,因此所有屬性都將進入Cox回歸分析。
運用SPSS 13.0進行Cox回歸分析,得生存函數圖和累積危險函數圖,分別如圖4、圖5所示:

圖4 生存函數圖
結果表明,在最初的10個月里,客戶的累積生存率基本為1,其累積危險率基本為0,兩者在此期間沒有太大的波動。表明在最初的10個月里,很少有客戶會離開該電信公司。在隨后的50個月里(由10個月到近60個月),客戶的生存率急速下降,到60個月幾乎為0,而累積危險率也急速上升。表明此時間段客戶流失現象比較嚴重。60個月之后,客戶的累積保持率曲線趨于平緩,如圖4所示,這表明活過60個月的客戶以后存活機會趨向穩定,但生存率非常低。

圖5 累積危險函數圖
同時,通過對數據的Cox回歸分析,得到進入Cox回歸模型的屬性及其回歸系數,如下表(表2)所示:

表2 方程中的變量
表2中,各協變量都是以0.05的顯著性水平以逐步向前最大似然法(LR)篩選出來的。
表2中,address變量的風險度為0.574,而回歸系數為負,可認為employ是一個保護變量,客戶在現在住處所待的年數越長,在該電信企業中存留的可能性也就越高。同時,由表 2可知,address的風險度的 95%置信區間 (CI)為:[0.335,0.928]。其他各協變量的解釋以此類推。
故其危險函數的回歸模型為:

其中,xi(i=1,2,…,7)依次表示表3中的協變量。如x1表示address、x2表示employ等;h(t)表示客戶在時刻t的流失概率,h0(t)表示當所有危險因素都不存在時,時刻t的基準流失概率。
由表3可知,對式(10)、式(11)所表示的模型進行有效性檢驗,Sig.值多為0.000,以0.05檢驗水平,拒絕無效假設,因此該模型是有效的。

表3 模型系數檢驗(Step:6)
客戶的動態保持率函數如下所示:

其中,t>0,S(t)為客戶在時刻的累積保持率;為典型客戶在時刻的基準累積保持率,可由生存表Survival Table查得。
假設有某客戶,其在現居住地已居住15年,在現被雇傭的公司待了10年,沒有ebill業務,上個月的長途花費在取對數后為0.31,在除上個月的long distance、calling card花費之外的從進入該電信公司的所有的long distance、calling card花費在取自然對數后分別為1.52和1.63,需要求出客戶在第13個月仍在該電信公司的可能性,或此客戶的累積保持率。
將各協變量的取值及基準累積生存率代入式(11),有

此即為該客戶在此電信公司能留存 13個月的生存率。與其原值(0.72111)相比,預測值只和它相差約0.0066,即誤差百分比為0.9%。說明該模型的預測效果較好。
由Survival Table可知:

表4 Survival Table的一部分
t1=45,r(t1)=0.504,t2=46,r(t2)=0.479。則由線性內插法知,當r(T)=0.5時,可得下式:

也即,

則,T≈45.2,即客戶的平均全生命周期時間約為45.2個月,約為3.8年。
假設該企業典型客戶生命周期利潤函數如下:

由式(6)(7)可得,t1和t2分別為15個月(1.25年)和37個月(3.1年)。
根據基于生存特征的客戶生命周期價值計量模型,假設折現率為10%,則客戶的生命周期價值為:

對于該電信企業,當某客戶的具體屬性的取值已知時,其在全生命周期下的CLV可由上式(14)求得。
本文通過引入生存函數中的Cox回歸模型,很好地解決了客戶的生存時間分布未知的情況下,如何求解客戶保持率的問題,并依據由此得到的客戶保持率估計出了典型客戶的全生命周期時間,最終得到了基于生存特征的CLV計量模型,并通過實例中分析驗證了模型的可行性與適用性。
[1]Yun Chen,Guozheng,Zhang,Dengfeng,Hu,Shanshan,Wang.Customer Segmentation in Customer Relationship Management Based on Data Mining[J].IFIP International Federation for Information Processing(IFIP),2006,207.
[2]Barbara Bund Jackson.Building Customer Relationship that Last [J].Harvard Business Review,1985,(11~12).
[3]Berger,P.D.,Nasr,NI.Customer Lifetime Value:Marketing Model and Application[J].Journal of Interactive Marketing,1998,12(1).
[4]齊佳音,舒華英,客戶價值評價、建模及決策[M].北京:北京郵電大學出版社,2004.
[5]譚躍雄,周娜.基于動態客戶保持的企業客戶生命周期價值模型研究[J].管理科學,2004,(6).
[6]ELISA T.LEE.譯者:陳家鼎、戴中維.生存數據分析的統計方法[M].北京:中國統計出版社,1998.