陳 靜 余建波 李艷冰
(1.同濟(jì)大學(xué) 機(jī)械與能源工程學(xué)院 上海201804;2.上海質(zhì)量管理科學(xué)研究院 上海200052)
近年來(lái)用戶流失預(yù)測(cè)問(wèn)題在學(xué)術(shù)界引起了廣泛關(guān)注, 范圍涉及 MOOC 平臺(tái)、社交平臺(tái)、電信等多個(gè)領(lǐng)域。它是結(jié)合用戶的歷史數(shù)據(jù),對(duì)其進(jìn)行建模,從而訓(xùn)練出能判別用戶是否流失的分類器,是一個(gè)常見(jiàn)的二分類問(wèn)題[1]。 流失用戶在傳統(tǒng)意義是指曾經(jīng)某時(shí)間段內(nèi)使用過(guò)某產(chǎn)品或服務(wù),后期由于種種原因退訂該產(chǎn)品或服務(wù)。對(duì)于流失用戶的定義依行業(yè)不同而不同,APP領(lǐng)域以用戶一定時(shí)期內(nèi)不再登錄、卸載軟件且不再二次安裝以及選擇其他同類APP為標(biāo)準(zhǔn)界定流失用戶[2],而商業(yè)銀行用戶流失是指終結(jié)與商業(yè)銀行所有業(yè)務(wù)往來(lái)的情形,包括交易銳減、停止交易或者清戶[3]。
1.1.1 數(shù)據(jù)清洗
對(duì)數(shù)據(jù)集進(jìn)行分析發(fā)現(xiàn),無(wú)重復(fù)值,而對(duì)于缺失值和異常值,考慮銀行數(shù)據(jù)的敏感性本文未進(jìn)行處理,對(duì)無(wú)關(guān)字段用戶ID進(jìn)行了刪除。
1.1.2 數(shù)據(jù)轉(zhuǎn)換
通過(guò)數(shù)據(jù)觀察可以了解到,性別、家庭住址和電話信息為字符型變量,本文采用LabelEncoder編碼,將文本數(shù)據(jù)轉(zhuǎn)換成連續(xù)的數(shù)值型變量,即對(duì)不連續(xù)的數(shù)字或者文本進(jìn)行編號(hào)。如表1所示。

表1 字符型變量編碼
數(shù)據(jù)不平衡,又稱樣本比例失衡,以二分類問(wèn)題為例,假設(shè)正類的樣本數(shù)量遠(yuǎn)大于負(fù)類的樣本數(shù)量,即稱為不平衡數(shù)據(jù)集。正類的樣本數(shù)量如圖 1所示。

圖1 正負(fù)樣本數(shù)量
由圖1可知,本文數(shù)據(jù)集的正負(fù)樣本比例接近10:1,采用SMOTE合成少數(shù)類過(guò)采樣技術(shù),其基本原理是利用自助法和K近鄰法,基于特征空間生成與少數(shù)類相似的新數(shù)據(jù),來(lái)降低分類器的誤差。由于該算法產(chǎn)生了新的少數(shù)類數(shù)據(jù),與采用對(duì)少數(shù)類數(shù)據(jù)簡(jiǎn)單復(fù)制的隨機(jī)上采樣的方式有很大不同,盡量避免了模型過(guò)擬合現(xiàn)象,有效解決了數(shù)據(jù)不平衡所帶來(lái)的分類器性能下降問(wèn)題[4-5]。
特征工程是將原始數(shù)據(jù)轉(zhuǎn)換成能被計(jì)算機(jī)算法所理解的特征體系的工程活動(dòng),為了提高模型的準(zhǔn)確度和泛化能力,就要從原始數(shù)據(jù)中提取盡可能多的有用信息供算法使用[6]。
1.3.1 特征選取
1) 隨機(jī)森林特征重要性排序
隨機(jī)森林/CART樹(shù)在使用時(shí)一般通過(guò)gini值作為切分節(jié)點(diǎn)的標(biāo)準(zhǔn),將變量的重要性評(píng)分用 VIM來(lái)表示,gini 值用 CI 表示,假設(shè)有 m 個(gè)特征x1,x2,x3,…,xm,現(xiàn)在要計(jì)算出每個(gè)特征 xj的gini 指數(shù)評(píng)分VIMj,即第j 個(gè)特征在隨機(jī)森林所有決策樹(shù)中節(jié)點(diǎn)分裂不純度的平均改變量,gini指數(shù)的計(jì)算公式如下表示[7]:

式中,K表示樣本數(shù);Pmk表示節(jié)點(diǎn)m (將第m 個(gè)特征逐行對(duì)節(jié)點(diǎn)計(jì)算gini 值變化量)中類別K所占的比例;表示特征Xj在節(jié)點(diǎn)m的重要性,即節(jié)點(diǎn)m 分枝前后的gini 指數(shù);表示如果特征Xj在決策樹(shù)i中出現(xiàn)的節(jié)點(diǎn)在集合M中,那么Xj在第i棵樹(shù)的重要性;最后把所有求得的重要性評(píng)分進(jìn)行歸一化處理就得到重要性的評(píng)分:

2) 皮爾遜相關(guān)系數(shù)
本文采用皮爾遜相關(guān)系數(shù),分析各個(gè)特征之間的相關(guān)程度。其公式如下:

其中Cov(X,Y) 為X和Y的協(xié)方差,σx,σy分別為X和Y的標(biāo)準(zhǔn)差。
3) 特征提取
首先利用隨機(jī)森林 指數(shù)計(jì)算所有特征的重要性分?jǐn)?shù)并降序排序,選取排名前30的特征,并查看這些特征的Person相關(guān)系數(shù),對(duì)一些相關(guān)性極強(qiáng)的特征進(jìn)行剔除,消除多重共線性。同時(shí)為了防止減少特征量會(huì)出現(xiàn)過(guò)擬合,此處特征剔除的邏輯設(shè)置為: (1)兩個(gè)特征相關(guān)系數(shù)大于等于0.8;(2)對(duì)因變量的解釋性更弱。對(duì)此提取出特征及各特征的重要性分?jǐn)?shù)值見(jiàn)表2。

表2 選取特征及其重要性分?jǐn)?shù)
提取特征的相關(guān)性熱力圖如圖2所示。

圖2 選取特征的相關(guān)性熱力圖
1.3.2 one-hot編碼
one-hot編碼又稱為獨(dú)熱編碼,其方法是使用N位狀態(tài)寄存器來(lái)對(duì) N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由他獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效[7]。本文共選取特征數(shù)量19個(gè),故編碼示意圖如下圖3所示。

圖3 特征獨(dú)熱編碼示意圖
TGI指數(shù)反應(yīng)目標(biāo)群體在特定研究范圍內(nèi)的強(qiáng)勢(shì)或弱勢(shì)的指數(shù)。其中TGI指數(shù)大于100,表明某類用戶更具有相應(yīng)的傾向或者偏好,數(shù)值越大傾向性和偏好性越強(qiáng),TGI指數(shù)小于100則相反,而等于100表示在平均水平。圖3表示不同性別流失情況的TGI指數(shù),其中0表示男性, “1”表示女性,“2”表示未知性別。性別與流失率關(guān)系如圖4所示。

圖4 性別與流失率關(guān)系圖
由上圖可知,由于未知性別用戶其樣本量過(guò)小,所以參考價(jià)值不大,男性用戶流失的 TGI指數(shù)為113,女性用戶流失的TGI指數(shù)為87,表明男性用戶較女性用戶更易流失。
年齡與流失率關(guān)系如圖5所示。

圖5 年齡與流失率關(guān)系圖
由上圖可知,年齡在40~80歲之間的中老年用戶TGI指數(shù)小于100,不容易流失,而小于40歲的用戶,尤其是小于20歲的用戶流失率更高。
開(kāi)戶時(shí)長(zhǎng)與流失率關(guān)系的如圖6所示。

圖6 開(kāi)戶時(shí)長(zhǎng)與流失率關(guān)系圖
可以看出,開(kāi)戶時(shí)長(zhǎng)小于 50天或者大于 160天的用戶TGI指數(shù)小于100,容易流失,而開(kāi)戶時(shí)長(zhǎng)在50到160天之內(nèi)的用戶更穩(wěn)定而不易流失。
隨機(jī)森林算法(RandomForest,RF)是一種組成式的有監(jiān)督學(xué)習(xí)方法。它通過(guò)Bagging集成學(xué)習(xí)的思想組合多個(gè)決策樹(shù),最終結(jié)果通過(guò)投票法或取均值法取得,使模型整體的性能得以提升。隨機(jī)森林中的決策樹(shù)在分裂過(guò)程中先是從所有的待選特征中隨機(jī)選取一個(gè)包含多個(gè)特征的子集,然后根據(jù)特征劃分準(zhǔn)則從隨機(jī)選取的特征中選擇最優(yōu)的特征劃分當(dāng)前節(jié)點(diǎn),這樣能使系統(tǒng)更具多樣性,提升模型的分類能力[2]。算法原理流程圖如圖7所示。

圖7 隨機(jī)森林原理流程圖
為增強(qiáng)實(shí)驗(yàn)的可靠性和實(shí)用性,對(duì)隨機(jī)森林參數(shù):決策樹(shù)個(gè)數(shù)n_estimators、構(gòu)建決策樹(shù)最優(yōu)模型時(shí)考慮的最大特征 max_features、決策樹(shù)最大深度max_depth、葉子節(jié)點(diǎn)含有的最少樣本min_samples_leaf、節(jié)點(diǎn)可分的最小樣本數(shù)min_samples_split以及是否使用袋外樣本評(píng)估模型好壞。參數(shù)設(shè)置如表3。

表3 實(shí)驗(yàn)參數(shù)范圍
網(wǎng)格搜索法是指定參數(shù)值的一種窮舉搜索方法,其核心原理是先設(shè)置好要搜索的參數(shù)區(qū)域,然后將該區(qū)域劃分成網(wǎng)格,而網(wǎng)格中所有的交叉點(diǎn)就是要搜索的所有參數(shù)組合[8-9]。
通過(guò)網(wǎng)格搜索法,得到模型訓(xùn)練數(shù)據(jù)如下表4。

表4 最優(yōu)實(shí)驗(yàn)參數(shù)表
對(duì)調(diào)整參數(shù)后的模型進(jìn)行評(píng)估,評(píng)估得到準(zhǔn)確率、召回率、F1分?jǐn)?shù)如表5所示。

表5 分類結(jié)果評(píng)估分?jǐn)?shù)表
從表5可看出,模型對(duì)留存客戶和流失客戶的預(yù)測(cè)準(zhǔn)確性相差不大,在所有判定為流失的客戶中有75%是真實(shí)流失的,在所有實(shí)際流失的客戶中判定為流失的客戶有82%,模型總體的精確度為78%,召回率為77%,F(xiàn)1值為77%,準(zhǔn)確度為77%,較未調(diào)參的模型提高了0.4個(gè)百分點(diǎn)。
實(shí)驗(yàn)得到的ROC曲線如圖8所示。

圖8 ROC曲線圖
ROC是反應(yīng)敏感性與特異性之間的關(guān)系的曲線,橫坐標(biāo)X軸為FPR,即假陽(yáng)率,縱坐標(biāo)Y軸為TPR,表示真陽(yáng)率,曲線下方的面積AUC用來(lái)預(yù)測(cè)準(zhǔn)確性,值越大表示預(yù)測(cè)準(zhǔn)確率越高,曲線越接近左上角,預(yù)測(cè)準(zhǔn)確率越高。觀察 ROC曲線圖可以看出,曲線靠近左上角,即在假陽(yáng)率很低的情況下真陽(yáng)率較高,并且AUC面積為0.77,表示模型效果良好,可用于預(yù)測(cè)。
在獲客成本越來(lái)越高的今天,如何留住客戶是一個(gè)值得考慮的問(wèn)題。由隨機(jī)森林Gini指數(shù)得到特征重要性排序可知,ASSET_CUR_ALL_BAL(活期資產(chǎn)總金額)、AGE(年齡)、OPEN_ACC_DUR(開(kāi)戶時(shí)長(zhǎng))是影響客戶流失的最重要因素,由此建議銀行:(1明確目標(biāo)客戶群,鎖定目標(biāo)收入和年齡層的客戶,有助于銀行實(shí)行針對(duì)性策略和精細(xì)化運(yùn)營(yíng),提高競(jìng)爭(zhēng)力;(2)采取用戶關(guān)懷策略,對(duì)開(kāi)戶時(shí)長(zhǎng)不同的用戶群采用不同的關(guān)懷策略,可以采用會(huì)員積分、會(huì)員優(yōu)先等活動(dòng),為了吸引新用戶,可以通過(guò)各種優(yōu)惠方式如開(kāi)戶免傭金、發(fā)送代金券、等優(yōu)惠方式激勵(lì)新用戶向老用戶轉(zhuǎn)化。
本文通過(guò)建立基于隨機(jī)森林的用戶流失預(yù)警模型,在用戶尚未發(fā)生流失前采取一定的召回策略,可以有效地防范用戶流失。通過(guò)分析各個(gè)階段流失率的變化,也可以了解企業(yè)運(yùn)營(yíng)健康情況。