999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)森林的用戶流失預(yù)警研究

2021-06-06 09:23:02余建波李艷冰
精密制造與自動(dòng)化 2021年2期
關(guān)鍵詞:重要性特征用戶

陳 靜 余建波 李艷冰

(1.同濟(jì)大學(xué) 機(jī)械與能源工程學(xué)院 上海201804;2.上海質(zhì)量管理科學(xué)研究院 上海200052)

近年來(lái)用戶流失預(yù)測(cè)問(wèn)題在學(xué)術(shù)界引起了廣泛關(guān)注, 范圍涉及 MOOC 平臺(tái)、社交平臺(tái)、電信等多個(gè)領(lǐng)域。它是結(jié)合用戶的歷史數(shù)據(jù),對(duì)其進(jìn)行建模,從而訓(xùn)練出能判別用戶是否流失的分類器,是一個(gè)常見(jiàn)的二分類問(wèn)題[1]。 流失用戶在傳統(tǒng)意義是指曾經(jīng)某時(shí)間段內(nèi)使用過(guò)某產(chǎn)品或服務(wù),后期由于種種原因退訂該產(chǎn)品或服務(wù)。對(duì)于流失用戶的定義依行業(yè)不同而不同,APP領(lǐng)域以用戶一定時(shí)期內(nèi)不再登錄、卸載軟件且不再二次安裝以及選擇其他同類APP為標(biāo)準(zhǔn)界定流失用戶[2],而商業(yè)銀行用戶流失是指終結(jié)與商業(yè)銀行所有業(yè)務(wù)往來(lái)的情形,包括交易銳減、停止交易或者清戶[3]。

1 數(shù)據(jù)預(yù)處理與特征工程

1.1 數(shù)據(jù)預(yù)處理

1.1.1 數(shù)據(jù)清洗

對(duì)數(shù)據(jù)集進(jìn)行分析發(fā)現(xiàn),無(wú)重復(fù)值,而對(duì)于缺失值和異常值,考慮銀行數(shù)據(jù)的敏感性本文未進(jìn)行處理,對(duì)無(wú)關(guān)字段用戶ID進(jìn)行了刪除。

1.1.2 數(shù)據(jù)轉(zhuǎn)換

通過(guò)數(shù)據(jù)觀察可以了解到,性別、家庭住址和電話信息為字符型變量,本文采用LabelEncoder編碼,將文本數(shù)據(jù)轉(zhuǎn)換成連續(xù)的數(shù)值型變量,即對(duì)不連續(xù)的數(shù)字或者文本進(jìn)行編號(hào)。如表1所示。

表1 字符型變量編碼

1.2 數(shù)據(jù)不平衡問(wèn)題處理

數(shù)據(jù)不平衡,又稱樣本比例失衡,以二分類問(wèn)題為例,假設(shè)正類的樣本數(shù)量遠(yuǎn)大于負(fù)類的樣本數(shù)量,即稱為不平衡數(shù)據(jù)集。正類的樣本數(shù)量如圖 1所示。

圖1 正負(fù)樣本數(shù)量

由圖1可知,本文數(shù)據(jù)集的正負(fù)樣本比例接近10:1,采用SMOTE合成少數(shù)類過(guò)采樣技術(shù),其基本原理是利用自助法和K近鄰法,基于特征空間生成與少數(shù)類相似的新數(shù)據(jù),來(lái)降低分類器的誤差。由于該算法產(chǎn)生了新的少數(shù)類數(shù)據(jù),與采用對(duì)少數(shù)類數(shù)據(jù)簡(jiǎn)單復(fù)制的隨機(jī)上采樣的方式有很大不同,盡量避免了模型過(guò)擬合現(xiàn)象,有效解決了數(shù)據(jù)不平衡所帶來(lái)的分類器性能下降問(wèn)題[4-5]。

1.3 特征工程

特征工程是將原始數(shù)據(jù)轉(zhuǎn)換成能被計(jì)算機(jī)算法所理解的特征體系的工程活動(dòng),為了提高模型的準(zhǔn)確度和泛化能力,就要從原始數(shù)據(jù)中提取盡可能多的有用信息供算法使用[6]。

1.3.1 特征選取

1) 隨機(jī)森林特征重要性排序

隨機(jī)森林/CART樹(shù)在使用時(shí)一般通過(guò)gini值作為切分節(jié)點(diǎn)的標(biāo)準(zhǔn),將變量的重要性評(píng)分用 VIM來(lái)表示,gini 值用 CI 表示,假設(shè)有 m 個(gè)特征x1,x2,x3,…,xm,現(xiàn)在要計(jì)算出每個(gè)特征 xj的gini 指數(shù)評(píng)分VIMj,即第j 個(gè)特征在隨機(jī)森林所有決策樹(shù)中節(jié)點(diǎn)分裂不純度的平均改變量,gini指數(shù)的計(jì)算公式如下表示[7]:

式中,K表示樣本數(shù);Pmk表示節(jié)點(diǎn)m (將第m 個(gè)特征逐行對(duì)節(jié)點(diǎn)計(jì)算gini 值變化量)中類別K所占的比例;表示特征Xj在節(jié)點(diǎn)m的重要性,即節(jié)點(diǎn)m 分枝前后的gini 指數(shù);表示如果特征Xj在決策樹(shù)i中出現(xiàn)的節(jié)點(diǎn)在集合M中,那么Xj在第i棵樹(shù)的重要性;最后把所有求得的重要性評(píng)分進(jìn)行歸一化處理就得到重要性的評(píng)分:

2) 皮爾遜相關(guān)系數(shù)

本文采用皮爾遜相關(guān)系數(shù),分析各個(gè)特征之間的相關(guān)程度。其公式如下:

其中Cov(X,Y) 為X和Y的協(xié)方差,σx,σy分別為X和Y的標(biāo)準(zhǔn)差。

3) 特征提取

首先利用隨機(jī)森林 指數(shù)計(jì)算所有特征的重要性分?jǐn)?shù)并降序排序,選取排名前30的特征,并查看這些特征的Person相關(guān)系數(shù),對(duì)一些相關(guān)性極強(qiáng)的特征進(jìn)行剔除,消除多重共線性。同時(shí)為了防止減少特征量會(huì)出現(xiàn)過(guò)擬合,此處特征剔除的邏輯設(shè)置為: (1)兩個(gè)特征相關(guān)系數(shù)大于等于0.8;(2)對(duì)因變量的解釋性更弱。對(duì)此提取出特征及各特征的重要性分?jǐn)?shù)值見(jiàn)表2。

表2 選取特征及其重要性分?jǐn)?shù)

提取特征的相關(guān)性熱力圖如圖2所示。

圖2 選取特征的相關(guān)性熱力圖

1.3.2 one-hot編碼

one-hot編碼又稱為獨(dú)熱編碼,其方法是使用N位狀態(tài)寄存器來(lái)對(duì) N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由他獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效[7]。本文共選取特征數(shù)量19個(gè),故編碼示意圖如下圖3所示。

圖3 特征獨(dú)熱編碼示意圖

2 描述性統(tǒng)計(jì)分析

2.1 性別與流失率的關(guān)系

TGI指數(shù)反應(yīng)目標(biāo)群體在特定研究范圍內(nèi)的強(qiáng)勢(shì)或弱勢(shì)的指數(shù)。其中TGI指數(shù)大于100,表明某類用戶更具有相應(yīng)的傾向或者偏好,數(shù)值越大傾向性和偏好性越強(qiáng),TGI指數(shù)小于100則相反,而等于100表示在平均水平。圖3表示不同性別流失情況的TGI指數(shù),其中0表示男性, “1”表示女性,“2”表示未知性別。性別與流失率關(guān)系如圖4所示。

圖4 性別與流失率關(guān)系圖

由上圖可知,由于未知性別用戶其樣本量過(guò)小,所以參考價(jià)值不大,男性用戶流失的 TGI指數(shù)為113,女性用戶流失的TGI指數(shù)為87,表明男性用戶較女性用戶更易流失。

2.2 年齡與流失率的關(guān)系

年齡與流失率關(guān)系如圖5所示。

圖5 年齡與流失率關(guān)系圖

由上圖可知,年齡在40~80歲之間的中老年用戶TGI指數(shù)小于100,不容易流失,而小于40歲的用戶,尤其是小于20歲的用戶流失率更高。

2.3 開(kāi)戶時(shí)長(zhǎng)與流失率的關(guān)系

開(kāi)戶時(shí)長(zhǎng)與流失率關(guān)系的如圖6所示。

圖6 開(kāi)戶時(shí)長(zhǎng)與流失率關(guān)系圖

可以看出,開(kāi)戶時(shí)長(zhǎng)小于 50天或者大于 160天的用戶TGI指數(shù)小于100,容易流失,而開(kāi)戶時(shí)長(zhǎng)在50到160天之內(nèi)的用戶更穩(wěn)定而不易流失。

3 基于隨機(jī)森林的用戶流失預(yù)警模型建立

隨機(jī)森林算法(RandomForest,RF)是一種組成式的有監(jiān)督學(xué)習(xí)方法。它通過(guò)Bagging集成學(xué)習(xí)的思想組合多個(gè)決策樹(shù),最終結(jié)果通過(guò)投票法或取均值法取得,使模型整體的性能得以提升。隨機(jī)森林中的決策樹(shù)在分裂過(guò)程中先是從所有的待選特征中隨機(jī)選取一個(gè)包含多個(gè)特征的子集,然后根據(jù)特征劃分準(zhǔn)則從隨機(jī)選取的特征中選擇最優(yōu)的特征劃分當(dāng)前節(jié)點(diǎn),這樣能使系統(tǒng)更具多樣性,提升模型的分類能力[2]。算法原理流程圖如圖7所示。

圖7 隨機(jī)森林原理流程圖

4 模型求解與參數(shù)調(diào)優(yōu)

4.1 實(shí)驗(yàn)參數(shù)設(shè)置

為增強(qiáng)實(shí)驗(yàn)的可靠性和實(shí)用性,對(duì)隨機(jī)森林參數(shù):決策樹(shù)個(gè)數(shù)n_estimators、構(gòu)建決策樹(shù)最優(yōu)模型時(shí)考慮的最大特征 max_features、決策樹(shù)最大深度max_depth、葉子節(jié)點(diǎn)含有的最少樣本min_samples_leaf、節(jié)點(diǎn)可分的最小樣本數(shù)min_samples_split以及是否使用袋外樣本評(píng)估模型好壞。參數(shù)設(shè)置如表3。

表3 實(shí)驗(yàn)參數(shù)范圍

4.2 網(wǎng)格搜索(Grid Search)尋找最優(yōu)參數(shù)

網(wǎng)格搜索法是指定參數(shù)值的一種窮舉搜索方法,其核心原理是先設(shè)置好要搜索的參數(shù)區(qū)域,然后將該區(qū)域劃分成網(wǎng)格,而網(wǎng)格中所有的交叉點(diǎn)就是要搜索的所有參數(shù)組合[8-9]。

通過(guò)網(wǎng)格搜索法,得到模型訓(xùn)練數(shù)據(jù)如下表4。

表4 最優(yōu)實(shí)驗(yàn)參數(shù)表

4.3 模型求解與評(píng)估

對(duì)調(diào)整參數(shù)后的模型進(jìn)行評(píng)估,評(píng)估得到準(zhǔn)確率、召回率、F1分?jǐn)?shù)如表5所示。

表5 分類結(jié)果評(píng)估分?jǐn)?shù)表

從表5可看出,模型對(duì)留存客戶和流失客戶的預(yù)測(cè)準(zhǔn)確性相差不大,在所有判定為流失的客戶中有75%是真實(shí)流失的,在所有實(shí)際流失的客戶中判定為流失的客戶有82%,模型總體的精確度為78%,召回率為77%,F(xiàn)1值為77%,準(zhǔn)確度為77%,較未調(diào)參的模型提高了0.4個(gè)百分點(diǎn)。

實(shí)驗(yàn)得到的ROC曲線如圖8所示。

圖8 ROC曲線圖

ROC是反應(yīng)敏感性與特異性之間的關(guān)系的曲線,橫坐標(biāo)X軸為FPR,即假陽(yáng)率,縱坐標(biāo)Y軸為TPR,表示真陽(yáng)率,曲線下方的面積AUC用來(lái)預(yù)測(cè)準(zhǔn)確性,值越大表示預(yù)測(cè)準(zhǔn)確率越高,曲線越接近左上角,預(yù)測(cè)準(zhǔn)確率越高。觀察 ROC曲線圖可以看出,曲線靠近左上角,即在假陽(yáng)率很低的情況下真陽(yáng)率較高,并且AUC面積為0.77,表示模型效果良好,可用于預(yù)測(cè)。

5 結(jié)語(yǔ)

在獲客成本越來(lái)越高的今天,如何留住客戶是一個(gè)值得考慮的問(wèn)題。由隨機(jī)森林Gini指數(shù)得到特征重要性排序可知,ASSET_CUR_ALL_BAL(活期資產(chǎn)總金額)、AGE(年齡)、OPEN_ACC_DUR(開(kāi)戶時(shí)長(zhǎng))是影響客戶流失的最重要因素,由此建議銀行:(1明確目標(biāo)客戶群,鎖定目標(biāo)收入和年齡層的客戶,有助于銀行實(shí)行針對(duì)性策略和精細(xì)化運(yùn)營(yíng),提高競(jìng)爭(zhēng)力;(2)采取用戶關(guān)懷策略,對(duì)開(kāi)戶時(shí)長(zhǎng)不同的用戶群采用不同的關(guān)懷策略,可以采用會(huì)員積分、會(huì)員優(yōu)先等活動(dòng),為了吸引新用戶,可以通過(guò)各種優(yōu)惠方式如開(kāi)戶免傭金、發(fā)送代金券、等優(yōu)惠方式激勵(lì)新用戶向老用戶轉(zhuǎn)化。

本文通過(guò)建立基于隨機(jī)森林的用戶流失預(yù)警模型,在用戶尚未發(fā)生流失前采取一定的召回策略,可以有效地防范用戶流失。通過(guò)分析各個(gè)階段流失率的變化,也可以了解企業(yè)運(yùn)營(yíng)健康情況。

猜你喜歡
重要性特征用戶
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
讀《邊疆的重要性》有感
主站蜘蛛池模板: 精品人妻一区无码视频| 亚洲第一极品精品无码| 先锋资源久久| 在线欧美一区| 99久久婷婷国产综合精| 亚洲天堂日韩av电影| 女人18毛片久久| 狠狠色噜噜狠狠狠狠色综合久 | 天天摸天天操免费播放小视频| 亚洲一级毛片免费看| 少妇露出福利视频| 色色中文字幕| 国产麻豆福利av在线播放| 欧美亚洲欧美区| 91视频国产高清| 91久久青青草原精品国产| 亚洲成人福利网站| 日韩色图区| 高清不卡一区二区三区香蕉| 欧美成在线视频| 国产日本欧美亚洲精品视| 亚洲精品国产综合99久久夜夜嗨| 九色在线视频导航91| 国产欧美日韩在线在线不卡视频| 2022国产91精品久久久久久| 久久男人资源站| 五月天综合婷婷| 婷婷六月综合网| 欧美一级在线看| 欧美专区日韩专区| 91亚洲视频下载| 色噜噜狠狠色综合网图区| 亚洲欧美精品日韩欧美| 欧美亚洲另类在线观看| 国产精品视频999| 日韩精品资源| 丁香六月激情综合| 九九热精品视频在线| 2020国产免费久久精品99| 91久久夜色精品国产网站 | 黄色在线不卡| 亚洲最大综合网| 久久精品免费国产大片| 91啪在线| 日韩欧美国产精品| 毛片视频网| 国产中文一区二区苍井空| 999精品色在线观看| 久久久久88色偷偷| 日韩第一页在线| 亚洲性日韩精品一区二区| 亚洲欧美日本国产专区一区| 欧美亚洲一二三区| 亚洲另类第一页| 欧美一区二区啪啪| 午夜三级在线| a亚洲视频| AV不卡在线永久免费观看| 日韩精品一区二区三区免费| 色偷偷综合网| 日韩免费中文字幕| 欧美日韩在线第一页| 亚洲一区二区三区国产精华液| 9久久伊人精品综合| 欧美19综合中文字幕| 日韩东京热无码人妻| 超级碰免费视频91| 日韩不卡免费视频| 久久精品视频一| 久久久久久久久亚洲精品| 国产亚洲欧美日韩在线一区| 日本道综合一本久久久88| 欧美日韩国产综合视频在线观看| 精品無碼一區在線觀看 | 免费av一区二区三区在线| 玖玖免费视频在线观看| 天堂成人在线| 国产无码精品在线播放| 精品午夜国产福利观看| 综合色天天| 97视频在线精品国自产拍| 9啪在线视频|