基于隨機(jī)森林的用戶流失預(yù)警研究

2021-06-06 09:23:02余建波李艷冰

精密制造與自動(dòng)化 2021年2期

陳靜余建波李艷冰

（1.同濟(jì)大學(xué) 機(jī)械與能源工程學(xué)院上海201804；2.上海質(zhì)量管理科學(xué)研究院上海200052）

近年來(lái)用戶流失預(yù)測(cè)問(wèn)題在學(xué)術(shù)界引起了廣泛關(guān)注, 范圍涉及 MOOC 平臺(tái)、社交平臺(tái)、電信等多個(gè)領(lǐng)域。它是結(jié)合用戶的歷史數(shù)據(jù)，對(duì)其進(jìn)行建模，從而訓(xùn)練出能判別用戶是否流失的分類器，是一個(gè)常見(jiàn)的二分類問(wèn)題[1]。流失用戶在傳統(tǒng)意義是指曾經(jīng)某時(shí)間段內(nèi)使用過(guò)某產(chǎn)品或服務(wù)，后期由于種種原因退訂該產(chǎn)品或服務(wù)。對(duì)于流失用戶的定義依行業(yè)不同而不同，APP領(lǐng)域以用戶一定時(shí)期內(nèi)不再登錄、卸載軟件且不再二次安裝以及選擇其他同類APP為標(biāo)準(zhǔn)界定流失用戶[2]，而商業(yè)銀行用戶流失是指終結(jié)與商業(yè)銀行所有業(yè)務(wù)往來(lái)的情形，包括交易銳減、停止交易或者清戶[3]。

1 數(shù)據(jù)預(yù)處理與特征工程

1.1 數(shù)據(jù)預(yù)處理

1.1.1 數(shù)據(jù)清洗

對(duì)數(shù)據(jù)集進(jìn)行分析發(fā)現(xiàn)，無(wú)重復(fù)值，而對(duì)于缺失值和異常值，考慮銀行數(shù)據(jù)的敏感性本文未進(jìn)行處理，對(duì)無(wú)關(guān)字段用戶ID進(jìn)行了刪除。

1.1.2 數(shù)據(jù)轉(zhuǎn)換

通過(guò)數(shù)據(jù)觀察可以了解到，性別、家庭住址和電話信息為字符型變量，本文采用LabelEncoder編碼，將文本數(shù)據(jù)轉(zhuǎn)換成連續(xù)的數(shù)值型變量，即對(duì)不連續(xù)的數(shù)字或者文本進(jìn)行編號(hào)。如表1所示。

表1 字符型變量編碼

1.2 數(shù)據(jù)不平衡問(wèn)題處理

數(shù)據(jù)不平衡，又稱樣本比例失衡，以二分類問(wèn)題為例，假設(shè)正類的樣本數(shù)量遠(yuǎn)大于負(fù)類的樣本數(shù)量，即稱為不平衡數(shù)據(jù)集。正類的樣本數(shù)量如圖 1所示。

圖1 正負(fù)樣本數(shù)量

由圖1可知，本文數(shù)據(jù)集的正負(fù)樣本比例接近10：1，采用SMOTE合成少數(shù)類過(guò)采樣技術(shù)，其基本原理是利用自助法和K近鄰法，基于特征空間生成與少數(shù)類相似的新數(shù)據(jù)，來(lái)降低分類器的誤差。由于該算法產(chǎn)生了新的少數(shù)類數(shù)據(jù)，與采用對(duì)少數(shù)類數(shù)據(jù)簡(jiǎn)單復(fù)制的隨機(jī)上采樣的方式有很大不同，盡量避免了模型過(guò)擬合現(xiàn)象，有效解決了數(shù)據(jù)不平衡所帶來(lái)的分類器性能下降問(wèn)題[4-5]。

1.3 特征工程

特征工程是將原始數(shù)據(jù)轉(zhuǎn)換成能被計(jì)算機(jī)算法所理解的特征體系的工程活動(dòng)，為了提高模型的準(zhǔn)確度和泛化能力，就要從原始數(shù)據(jù)中提取盡可能多的有用信息供算法使用[6]。

1.3.1 特征選取

1) 隨機(jī)森林特征重要性排序

隨機(jī)森林/CART樹(shù)在使用時(shí)一般通過(guò)gini值作為切分節(jié)點(diǎn)的標(biāo)準(zhǔn)，將變量的重要性評(píng)分用 VIM來(lái)表示，gini 值用 CI 表示，假設(shè)有 m 個(gè)特征x1，x2，x3，…，xm，現(xiàn)在要計(jì)算出每個(gè)特征 xj的gini 指數(shù)評(píng)分VIMj，即第j 個(gè)特征在隨機(jī)森林所有決策樹(shù)中節(jié)點(diǎn)分裂不純度的平均改變量，gini指數(shù)的計(jì)算公式如下表示[7]：

式中，K表示樣本數(shù)；Pmk表示節(jié)點(diǎn)m （將第m 個(gè)特征逐行對(duì)節(jié)點(diǎn)計(jì)算gini 值變化量）中類別K所占的比例；表示特征Xj在節(jié)點(diǎn)m的重要性，即節(jié)點(diǎn)m 分枝前后的gini 指數(shù)；表示如果特征Xj在決策樹(shù)i中出現(xiàn)的節(jié)點(diǎn)在集合M中，那么Xj在第i棵樹(shù)的重要性；最后把所有求得的重要性評(píng)分進(jìn)行歸一化處理就得到重要性的評(píng)分：

2) 皮爾遜相關(guān)系數(shù)

本文采用皮爾遜相關(guān)系數(shù)，分析各個(gè)特征之間的相關(guān)程度。其公式如下：

其中Cov（X,Y）為X和Y的協(xié)方差，σx,σy分別為X和Y的標(biāo)準(zhǔn)差。

3) 特征提取

首先利用隨機(jī)森林指數(shù)計(jì)算所有特征的重要性分?jǐn)?shù)并降序排序，選取排名前30的特征，并查看這些特征的Person相關(guān)系數(shù)，對(duì)一些相關(guān)性極強(qiáng)的特征進(jìn)行剔除，消除多重共線性。同時(shí)為了防止減少特征量會(huì)出現(xiàn)過(guò)擬合，此處特征剔除的邏輯設(shè)置為： (1)兩個(gè)特征相關(guān)系數(shù)大于等于0.8；(2)對(duì)因變量的解釋性更弱。對(duì)此提取出特征及各特征的重要性分?jǐn)?shù)值見(jiàn)表2。

表2 選取特征及其重要性分?jǐn)?shù)

提取特征的相關(guān)性熱力圖如圖2所示。

圖2 選取特征的相關(guān)性熱力圖

1.3.2 one-hot編碼

one-hot編碼又稱為獨(dú)熱編碼，其方法是使用N位狀態(tài)寄存器來(lái)對(duì) N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由他獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效[7]。本文共選取特征數(shù)量19個(gè)，故編碼示意圖如下圖3所示。

圖3 特征獨(dú)熱編碼示意圖

2 描述性統(tǒng)計(jì)分析

2.1 性別與流失率的關(guān)系

TGI指數(shù)反應(yīng)目標(biāo)群體在特定研究范圍內(nèi)的強(qiáng)勢(shì)或弱勢(shì)的指數(shù)。其中TGI指數(shù)大于100，表明某類用戶更具有相應(yīng)的傾向或者偏好，數(shù)值越大傾向性和偏好性越強(qiáng)，TGI指數(shù)小于100則相反，而等于100表示在平均水平。圖3表示不同性別流失情況的TGI指數(shù)，其中0表示男性， “1”表示女性，“2”表示未知性別。性別與流失率關(guān)系如圖4所示。

圖4 性別與流失率關(guān)系圖

由上圖可知，由于未知性別用戶其樣本量過(guò)小，所以參考價(jià)值不大，男性用戶流失的 TGI指數(shù)為113，女性用戶流失的TGI指數(shù)為87，表明男性用戶較女性用戶更易流失。

2.2 年齡與流失率的關(guān)系

年齡與流失率關(guān)系如圖5所示。

圖5 年齡與流失率關(guān)系圖

由上圖可知，年齡在40～80歲之間的中老年用戶TGI指數(shù)小于100，不容易流失，而小于40歲的用戶，尤其是小于20歲的用戶流失率更高。

2.3 開(kāi)戶時(shí)長(zhǎng)與流失率的關(guān)系

開(kāi)戶時(shí)長(zhǎng)與流失率關(guān)系的如圖6所示。

圖6 開(kāi)戶時(shí)長(zhǎng)與流失率關(guān)系圖

可以看出，開(kāi)戶時(shí)長(zhǎng)小于 50天或者大于 160天的用戶TGI指數(shù)小于100，容易流失，而開(kāi)戶時(shí)長(zhǎng)在50到160天之內(nèi)的用戶更穩(wěn)定而不易流失。

3 基于隨機(jī)森林的用戶流失預(yù)警模型建立

隨機(jī)森林算法（RandomForest,RF）是一種組成式的有監(jiān)督學(xué)習(xí)方法。它通過(guò)Bagging集成學(xué)習(xí)的思想組合多個(gè)決策樹(shù)，最終結(jié)果通過(guò)投票法或取均值法取得，使模型整體的性能得以提升。隨機(jī)森林中的決策樹(shù)在分裂過(guò)程中先是從所有的待選特征中隨機(jī)選取一個(gè)包含多個(gè)特征的子集，然后根據(jù)特征劃分準(zhǔn)則從隨機(jī)選取的特征中選擇最優(yōu)的特征劃分當(dāng)前節(jié)點(diǎn)，這樣能使系統(tǒng)更具多樣性，提升模型的分類能力[2]。算法原理流程圖如圖7所示。

圖7 隨機(jī)森林原理流程圖

4 模型求解與參數(shù)調(diào)優(yōu)

4.1 實(shí)驗(yàn)參數(shù)設(shè)置

為增強(qiáng)實(shí)驗(yàn)的可靠性和實(shí)用性，對(duì)隨機(jī)森林參數(shù)：決策樹(shù)個(gè)數(shù)n_estimators、構(gòu)建決策樹(shù)最優(yōu)模型時(shí)考慮的最大特征 max_features、決策樹(shù)最大深度max_depth、葉子節(jié)點(diǎn)含有的最少樣本min_samples_leaf、節(jié)點(diǎn)可分的最小樣本數(shù)min_samples_split以及是否使用袋外樣本評(píng)估模型好壞。參數(shù)設(shè)置如表3。

表3 實(shí)驗(yàn)參數(shù)范圍

4.2 網(wǎng)格搜索（Grid Search）尋找最優(yōu)參數(shù)

網(wǎng)格搜索法是指定參數(shù)值的一種窮舉搜索方法，其核心原理是先設(shè)置好要搜索的參數(shù)區(qū)域，然后將該區(qū)域劃分成網(wǎng)格，而網(wǎng)格中所有的交叉點(diǎn)就是要搜索的所有參數(shù)組合[8-9]。

通過(guò)網(wǎng)格搜索法，得到模型訓(xùn)練數(shù)據(jù)如下表4。

表4 最優(yōu)實(shí)驗(yàn)參數(shù)表

4.3 模型求解與評(píng)估

對(duì)調(diào)整參數(shù)后的模型進(jìn)行評(píng)估，評(píng)估得到準(zhǔn)確率、召回率、F1分?jǐn)?shù)如表5所示。

表5 分類結(jié)果評(píng)估分?jǐn)?shù)表

從表5可看出，模型對(duì)留存客戶和流失客戶的預(yù)測(cè)準(zhǔn)確性相差不大，在所有判定為流失的客戶中有75%是真實(shí)流失的，在所有實(shí)際流失的客戶中判定為流失的客戶有82%，模型總體的精確度為78%，召回率為77%，F(xiàn)1值為77%，準(zhǔn)確度為77%，較未調(diào)參的模型提高了0.4個(gè)百分點(diǎn)。

實(shí)驗(yàn)得到的ROC曲線如圖8所示。

圖8 ROC曲線圖

ROC是反應(yīng)敏感性與特異性之間的關(guān)系的曲線，橫坐標(biāo)X軸為FPR，即假陽(yáng)率，縱坐標(biāo)Y軸為TPR，表示真陽(yáng)率，曲線下方的面積AUC用來(lái)預(yù)測(cè)準(zhǔn)確性，值越大表示預(yù)測(cè)準(zhǔn)確率越高，曲線越接近左上角，預(yù)測(cè)準(zhǔn)確率越高。觀察 ROC曲線圖可以看出，曲線靠近左上角，即在假陽(yáng)率很低的情況下真陽(yáng)率較高，并且AUC面積為0.77，表示模型效果良好，可用于預(yù)測(cè)。

5 結(jié)語(yǔ)

在獲客成本越來(lái)越高的今天，如何留住客戶是一個(gè)值得考慮的問(wèn)題。由隨機(jī)森林Gini指數(shù)得到特征重要性排序可知，ASSET_CUR_ALL_BAL（活期資產(chǎn)總金額）、AGE（年齡）、OPEN_ACC_DUR（開(kāi)戶時(shí)長(zhǎng)）是影響客戶流失的最重要因素，由此建議銀行：（1明確目標(biāo)客戶群，鎖定目標(biāo)收入和年齡層的客戶，有助于銀行實(shí)行針對(duì)性策略和精細(xì)化運(yùn)營(yíng)，提高競(jìng)爭(zhēng)力；（2）采取用戶關(guān)懷策略，對(duì)開(kāi)戶時(shí)長(zhǎng)不同的用戶群采用不同的關(guān)懷策略，可以采用會(huì)員積分、會(huì)員優(yōu)先等活動(dòng)，為了吸引新用戶，可以通過(guò)各種優(yōu)惠方式如開(kāi)戶免傭金、發(fā)送代金券、等優(yōu)惠方式激勵(lì)新用戶向老用戶轉(zhuǎn)化。

本文通過(guò)建立基于隨機(jī)森林的用戶流失預(yù)警模型，在用戶尚未發(fā)生流失前采取一定的召回策略，可以有效地防范用戶流失。通過(guò)分析各個(gè)階段流失率的變化，也可以了解企業(yè)運(yùn)營(yíng)健康情況。