謝宇 許紅
(成都信息工程大學(xué) 四川成都 610103)
在第三次工業(yè)革命的推動(dòng)下,信息時(shí)代繼往開(kāi)來(lái),重塑了各行各業(yè),其中金融業(yè)也不例外。中國(guó)人民銀行、工業(yè)和信息化部、公安部等十部委聯(lián)合發(fā)布《關(guān)于促進(jìn)互聯(lián)網(wǎng)金融健康發(fā)展的指導(dǎo)意見(jiàn)》,落實(shí)了互聯(lián)網(wǎng)支付、眾籌融資和互聯(lián)網(wǎng)消費(fèi)金融等業(yè)態(tài)的監(jiān)管責(zé)任,明確其業(yè)務(wù)邊界?;ヂ?lián)網(wǎng)公司的入局,一方面爭(zhēng)奪傳統(tǒng)金融業(yè)的市場(chǎng)份額,另一方面以客戶(hù)至上為核心的理念在算法和流量加持下得到長(zhǎng)足發(fā)展。歸根結(jié)底,這是對(duì)客戶(hù)的爭(zhēng)奪。很多銀行總是不停地獲得新用戶(hù),而對(duì)于現(xiàn)有客戶(hù)缺少關(guān)注。而現(xiàn)在,金融市場(chǎng)用戶(hù)增長(zhǎng)放緩,拉取新用戶(hù)的成本遠(yuǎn)高于維護(hù)現(xiàn)有客戶(hù)的成本,且現(xiàn)有客戶(hù)也有著更高的價(jià)值。更嚴(yán)重的是,流失的客戶(hù)會(huì)壯大競(jìng)爭(zhēng)對(duì)手的客戶(hù)隊(duì)伍和規(guī)模,還會(huì)導(dǎo)致銀行的聲譽(yù)受損。
針對(duì)潛在流失客戶(hù)進(jìn)行積極聯(lián)系和營(yíng)銷(xiāo)活動(dòng),可以極大挖掘這部分用戶(hù)的價(jià)值。這也是在私域流量大熱下,銀行日常運(yùn)營(yíng)應(yīng)當(dāng)關(guān)注的重點(diǎn)工作,根據(jù)客戶(hù)現(xiàn)有特征,預(yù)測(cè)客戶(hù)流失意向,有的放矢地進(jìn)行召回,是提升銀行運(yùn)營(yíng)能力的關(guān)鍵一步。
對(duì)于客戶(hù)流失的研究,一般集中于三個(gè)方面。
首先是關(guān)于客戶(hù)流失因素的探究。國(guó)外學(xué)者提出服務(wù)缺失、定價(jià)問(wèn)題、便利性缺失是商業(yè)銀行客戶(hù)流失的主要原因。國(guó)內(nèi)學(xué)者在對(duì)流失因素進(jìn)行多角度分析后,建立忠誠(chéng)用戶(hù)分類(lèi)模型,專(zhuān)門(mén)針對(duì)商業(yè)銀行客戶(hù)流失因素進(jìn)行相關(guān)性分析,并指出主動(dòng)交易時(shí)間間隔最為重要。
其次是對(duì)于客戶(hù)流失的預(yù)測(cè)研究。客戶(hù)流失問(wèn)題屬于分類(lèi)問(wèn)題,國(guó)內(nèi)外學(xué)者運(yùn)用邏輯回歸、決策樹(shù)、隨機(jī)森林及神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行相關(guān)研究。盧美琴結(jié)合某商業(yè)銀行客戶(hù)流失狀況,運(yùn)用決策樹(shù)進(jìn)行客戶(hù)流失預(yù)測(cè),再采用聚類(lèi)方法進(jìn)行用戶(hù)分類(lèi),提出挽救措施。
最后是客戶(hù)的挽回策略研究。國(guó)外學(xué)者Farquhar通過(guò)與英國(guó)銀行業(yè)各級(jí)職員訪談,指出客戶(hù)價(jià)值、品牌價(jià)值、產(chǎn)品質(zhì)量和管理渠道等七個(gè)要素是挽留客戶(hù)的關(guān)鍵要素。國(guó)內(nèi)學(xué)者陳明亮根據(jù)客戶(hù)的當(dāng)前價(jià)值和未來(lái)潛在價(jià)值進(jìn)行分類(lèi),根據(jù)每類(lèi)客戶(hù)的特征制定召回策略。李賽結(jié)合金融互聯(lián)網(wǎng)背景下的外部壓力,提出多渠道發(fā)揮優(yōu)勢(shì),差異化提供產(chǎn)品,提升用戶(hù)體驗(yàn)的對(duì)策。
本文涉及的建模問(wèn)題為機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí),屬于分類(lèi)問(wèn)題中的二分類(lèi),有較多的經(jīng)典模型可以使用。本文擬采用及時(shí)性和效果均得到認(rèn)可的主流分類(lèi)機(jī)器學(xué)習(xí)模型,如表1所示。

表1 主要分類(lèi)器
本文需針對(duì)客戶(hù)的信息,構(gòu)建分類(lèi)模型以預(yù)測(cè)客戶(hù)流失情況。在實(shí)際的生產(chǎn)情況下,流失的用戶(hù)所占比例較大幅度低于留存客戶(hù),所以該問(wèn)題又屬于樣本不平衡的分類(lèi)問(wèn)題。對(duì)于此類(lèi)問(wèn)題,除了平時(shí)常用的基于ROC(Receiver Operating Characteristic)的曲線AUC(Area Under Curve),評(píng)價(jià)指標(biāo)需要顧及多個(gè)方面,尤其是要關(guān)注召回率。本文結(jié)合混淆矩陣,對(duì)準(zhǔn)確率、召回率指標(biāo)進(jìn)行簡(jiǎn)單介紹。
在監(jiān)督學(xué)習(xí)中,通常將關(guān)注的類(lèi)看作正類(lèi),一般標(biāo)注為1,其余的類(lèi)為負(fù)類(lèi)(標(biāo)注為0),根據(jù)分類(lèi)器在測(cè)試集的預(yù)測(cè)結(jié)果,將以上實(shí)際情況和預(yù)測(cè)結(jié)果進(jìn)行兩兩組合,可以得到四種情況的數(shù)量情況,分別是:Ture Positive(TP)——正類(lèi)預(yù)測(cè)為正類(lèi)數(shù);False Negative(FN)——正類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù);False Positive(FP)——負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù);True Negative(TN)——負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù)?;诖?,部分常用指標(biāo)如表2所示。

表2 常用評(píng)價(jià)指標(biāo)
本文所用數(shù)據(jù)來(lái)自kaggle——?jiǎng)?chuàng)建于2010年的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)。該平臺(tái)通過(guò)眾包的形式,由一方發(fā)布數(shù)據(jù)或者問(wèn)題,平臺(tái)用戶(hù)提供解決方案。本文所用數(shù)據(jù)是一份銀行客戶(hù)流失數(shù)據(jù),總共有10000個(gè)樣本,含有年齡、地區(qū)、賬戶(hù)余額和購(gòu)買(mǎi)產(chǎn)品數(shù)等14個(gè)特征。
從流失客戶(hù)比例來(lái)看,在10000個(gè)樣本數(shù)據(jù)中,流失客戶(hù)占比為20.4%,屬于一般不均衡問(wèn)題。
再看部分分類(lèi)特征,其柱狀圖如圖1所示。從中可以看出,在地區(qū)上,法國(guó)人數(shù)最多,西班牙與德國(guó)人數(shù)相當(dāng)。有趣的是,德國(guó)的流失客戶(hù)反而最多,法國(guó)整體的運(yùn)營(yíng)情況良好。在性別上,男性人數(shù)高于女性,但其流失客戶(hù)數(shù)略低于女性。這說(shuō)明男性客戶(hù)相對(duì)更為穩(wěn)定,而女性用戶(hù)則是需要特別維護(hù)。有信用卡用戶(hù)的數(shù)量是無(wú)信用卡用戶(hù)的兩倍,但是流失比例在有無(wú)信用卡方面差距不大,這也是與常識(shí)略有不同的地方。活躍客戶(hù)人數(shù)略高于非活躍客戶(hù),但是活躍客戶(hù)流失比例低于非活躍客戶(hù)。銀行或考慮通過(guò)一些活動(dòng),促進(jìn)非活躍客戶(hù)轉(zhuǎn)化為活躍客戶(hù)。

圖1 分類(lèi)變量與流失客戶(hù)柱狀圖
部分連續(xù)型變量與客戶(hù)流失情況的箱線圖如圖2。從年齡來(lái)看,流失客戶(hù)的年齡分布極端值較少,但是流失客戶(hù)的年齡整體大于未流失客戶(hù)。未流失客戶(hù)的分布相較于流失客戶(hù)較為集中,銀行應(yīng)當(dāng)更加關(guān)注新獲取的用戶(hù)和高于平均留存年限的客戶(hù)。令人擔(dān)憂的是,流失客戶(hù)的賬戶(hù)余額分布更為均勻,且數(shù)額更大,這或許是由于含有部分加入時(shí)間長(zhǎng)的客戶(hù)。而在用戶(hù)的信用分?jǐn)?shù)、工資或者產(chǎn)品數(shù)方面,客戶(hù)流失與否沒(méi)有太明顯差異。整體來(lái)看,對(duì)流失客戶(hù)的關(guān)注是有章可循的,并且會(huì)產(chǎn)生積極影響。

圖2 連續(xù)變量與客戶(hù)流失箱線圖
在傳統(tǒng)的數(shù)據(jù)科學(xué)建模步驟中,特征工程是第一步,是在描述性統(tǒng)計(jì)的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)處理會(huì)根據(jù)變量類(lèi)型采取不同方法。本次對(duì)連續(xù)變量,比如年齡、余額進(jìn)行最大最小值編碼,以實(shí)現(xiàn)不同量綱的數(shù)據(jù)去量綱化,剔除了不同特征在數(shù)值絕對(duì)值上的差異,同時(shí)提升模型在訓(xùn)練時(shí)的速度。而對(duì)于離散型變量,如性別、國(guó)籍等,借鑒于數(shù)字電路,運(yùn)用二進(jìn)制表示特征的取值。啞變量的引入使得屬性數(shù)據(jù)得到很好的處理,而獨(dú)熱編碼也會(huì)造成特征空間的膨脹,本次實(shí)踐中,特征數(shù)量不多,可以直接使用,在數(shù)據(jù)維度更加豐富的情況下,可以結(jié)合主成分分析等降維手段,提升模型的擬合能力。
預(yù)處理過(guò)后的特征工程,是建模中的關(guān)鍵環(huán)節(jié)。在輸入數(shù)據(jù)確定的情況下,通過(guò)特征工程,可以使模型的能力逼近真實(shí)情況,得到最接近實(shí)際情況的預(yù)測(cè)結(jié)果。常見(jiàn)的特征工程有結(jié)合業(yè)務(wù)背景的特征構(gòu)造和基于數(shù)理變換的暴力構(gòu)造。在數(shù)據(jù)科學(xué)的比賽中,選手為了提升精度會(huì)使用暴力構(gòu)造,但該方法往往解釋性弱,故在實(shí)際工作中會(huì)缺少指導(dǎo)意義,也就用得相對(duì)較少。
根據(jù)該問(wèn)題的背景和數(shù)據(jù),構(gòu)造余額薪酬比、會(huì)籍年限年齡比和信用評(píng)分年齡比幾個(gè)特征。余額薪酬比一定程度上反映客戶(hù)的消費(fèi)透支情況,并能反映客戶(hù)的風(fēng)險(xiǎn)偏好和信用情況。會(huì)籍年限年齡比反映開(kāi)通信用卡和年齡的相對(duì)關(guān)系,可以用于區(qū)分不同年齡段對(duì)卡的持有情況。信用評(píng)分年齡比,因?yàn)樾庞迷u(píng)分和客戶(hù)流失沒(méi)有描述性上的差異,這里創(chuàng)造性構(gòu)造該指標(biāo),用于探究。
通過(guò)隨機(jī)種子200進(jìn)行抽樣,以獲得8∶2的訓(xùn)練集和測(cè)試集,以用于本地模型測(cè)試。
一般的超參數(shù)調(diào)優(yōu)方法有網(wǎng)格搜索、隨機(jī)搜索和貝葉斯優(yōu)化,關(guān)于其原理此處不再贅述。本文采用應(yīng)用最為廣泛、性能穩(wěn)定的網(wǎng)格搜索方法進(jìn)行最優(yōu)超參數(shù)的選擇。具體調(diào)參結(jié)果如表3所示。

表3 主要超參數(shù)結(jié)果
從網(wǎng)格篩選的結(jié)果來(lái)看,樹(shù)模型在訓(xùn)練集上的效果略?xún)?yōu)于其他模型,但是會(huì)出現(xiàn)過(guò)擬合的情況。因此,在求得最優(yōu)參數(shù)的基礎(chǔ)上,利用各種方法的最優(yōu)模型進(jìn)行測(cè)試集上的效果測(cè)試。
利用上一節(jié)中的結(jié)果,訓(xùn)練各個(gè)方法下的最優(yōu)模型。各個(gè)模型在正類(lèi)上的評(píng)價(jià)指標(biāo)結(jié)果如表4所示。

表4 主要模型結(jié)果
由上表可知,樹(shù)模型的整體表現(xiàn)較好。由于屬于樣本不均衡問(wèn)題,準(zhǔn)確率方面不會(huì)有太明顯的差異。而極限提升決策樹(shù)的召回率最高,實(shí)現(xiàn)了最大限度地預(yù)測(cè)流失客戶(hù),但是其精確率略低于支持向量機(jī)或者隨機(jī)森林,這表明預(yù)測(cè)結(jié)果中有少量錯(cuò)誤的預(yù)測(cè)。
為了糾正模型的偏差,發(fā)揮模型的優(yōu)勢(shì),通過(guò)對(duì)模型結(jié)果進(jìn)行軟投票,以避免投票影響整體結(jié)果,最終樣本量為2000的驗(yàn)證集精確率為0.80,召回率為0.37,F(xiàn)1值為0.51。模型精度尚可,有實(shí)際參考價(jià)值。
對(duì)于具體特征情況,可以參考圖3的極限提升決策樹(shù)特征重要性。這個(gè)特征重要性是根據(jù)特征在分類(lèi)時(shí)所使用的次數(shù)得出的。從圖中可以看出,賬戶(hù)余額和年齡是較為重要的原始特征。這兩個(gè)變量在前面的描述性分析部分已體現(xiàn)出較為明顯的差異。緊隨其后的是余額薪酬比和信用評(píng)分年齡比兩個(gè)構(gòu)造特征,證明了根據(jù)業(yè)務(wù)背景進(jìn)行特征工程的實(shí)用性。

圖3 特征重要性樹(shù)狀圖
樹(shù)模型可以為我們提供特征的重要程度,即特征在分類(lèi)時(shí)可以帶來(lái)最大信息增益的次數(shù),反映特征的有用性。但是,特征對(duì)于客戶(hù)的流失情況起正向還是負(fù)向作用則需要借助回歸模型,通過(guò)其系數(shù)的正負(fù)來(lái)判斷對(duì)流失情況是積極還是消極影響。
在回歸模型的系數(shù)中,信用分、賬戶(hù)余額薪酬比和賬戶(hù)余額是對(duì)客戶(hù)流失有正向作用的特征。尤其是信用分高的優(yōu)質(zhì)客戶(hù),需要格外重視,而賬戶(hù)余額高的客戶(hù)流失也不是好的現(xiàn)象,需要進(jìn)一步了解主要的流失原因,采取針對(duì)措施。信用評(píng)分年齡比、是否為活躍用戶(hù)和產(chǎn)品數(shù)量是抑制客戶(hù)流失的特征,證明高信用低年齡是穩(wěn)定的客戶(hù)群體。活躍用戶(hù)和購(gòu)買(mǎi)產(chǎn)品更多的客戶(hù)留存可能性更大,也是符合常識(shí)的。
綜上所述,活躍用戶(hù)及高信用低年齡的客戶(hù)群體是銀行的基本盤(pán),需要重點(diǎn)監(jiān)測(cè),比如當(dāng)活躍度降低,銀行應(yīng)當(dāng)通過(guò)一些類(lèi)似優(yōu)惠券的活動(dòng)對(duì)客戶(hù)進(jìn)行召回。而賬戶(hù)余額高的客戶(hù)存在著高流失風(fēng)險(xiǎn),這部分用戶(hù)需要重點(diǎn)維護(hù)??蛻?hù)本來(lái)有著較強(qiáng)的購(gòu)買(mǎi)力,卻沒(méi)有挖掘出其價(jià)值,銀行應(yīng)當(dāng)針對(duì)這部分用戶(hù)進(jìn)行有的放矢的營(yíng)銷(xiāo)。而對(duì)于信用分指標(biāo),高分值用戶(hù)也有著較高的流失可能性,一方面需要進(jìn)一步研究信用分打分體系是否符合實(shí)際情況,能否對(duì)業(yè)務(wù)進(jìn)行指導(dǎo),另一方面則是關(guān)注這部分用戶(hù)流失的現(xiàn)實(shí)狀況,進(jìn)一步探究。
本文的目的是識(shí)別流失客戶(hù)的概率并且提前采取運(yùn)營(yíng)措施以實(shí)現(xiàn)客戶(hù)召回,所以對(duì)于模型的整體準(zhǔn)確率不必過(guò)多關(guān)注。數(shù)據(jù)整體的流失概率為20%,只要精確率大于這一比率,隨著該比例的增大,模型就越少浪費(fèi)資源在錯(cuò)誤的分類(lèi)上。該模型已經(jīng)較好地預(yù)測(cè)出流失客戶(hù)并且沒(méi)有過(guò)多浪費(fèi)資源。
未來(lái)的工作可以收集更多數(shù)據(jù)維度,明確針對(duì)已有重點(diǎn)特征的召回或激活策略,并持續(xù)跟蹤,持續(xù)優(yōu)化。
現(xiàn)代營(yíng)銷(xiāo)(創(chuàng)富信息版)2022年7期