999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社交網絡分析和XGBoost算法的互聯網客戶流失預測研究*

2017-12-18 11:05:11王重仁韓冬梅
網絡安全與數據管理 2017年23期
關鍵詞:用戶模型

王重仁,韓冬梅

(上海財經大學 信息管理與工程學院,上海 200433)

基于社交網絡分析和XGBoost算法的互聯網客戶流失預測研究*

王重仁,韓冬梅

(上海財經大學 信息管理與工程學院,上海 200433)

針對互聯網行業的客戶流失預測問題,提出了一種社交網絡分析和機器學習相結合的客戶流失預測方法。考慮到社交活動對用戶流失的影響,首先采用社交網絡分析方法從用戶社交數據中提取特征,然后使用XGBoost(Extreme Gradient Boosting)算法來進行客戶流失預測,最后將該方法與其他機器學習算法(Logistic回歸、支持向量機和隨機森林)進行比較。實驗結果表明,所提出的社交網絡分析和XGBoost相結合的客戶流失預測方法優于傳統方法。

客戶流失預測;社交網絡分析;機器學習;XGBoost

0 引言

近年來,國內互聯網行業發展迅速,市場競爭越來越激烈,同時,隨著市場的逐漸飽和,獲取新客戶變得越來越困難。因為獲取一個新客戶的成本遠遠大于留存一個現有客戶的成本[1],因此,越來越多的企業關注客戶留存,客戶留存可以維系客戶關系,有效延長客戶生命周期[2]。

客戶留存的關鍵點在于防止客戶流失,客戶流失是指客戶終止或者顯著減少使用企業提供的產品或服務,而轉向了其他企業[1]。客戶流失模型的實質是基于客戶的人口統計特征、歷史行為等信息,建立流失預測模型,計算客戶的流失概率。進行潛在流失客戶的預測分析并制定有針對性的挽留策略,能夠減少企業客戶流失率和利潤損失[3]。

目前客戶流失預測研究中,大多專注于研究客戶個體行為,沒有考慮用戶之間關系的影響。近幾年,在一些研究中,社交網絡分析方法開始應用于客戶流失預測模型,并且研究表明,考慮社交網絡影響后模型預測能力得到了提升[4]。這種方法是從社交網絡中提取特征作為變量,然后結合其他的特征,使用機器學習分類算法來進行預測。比如,Benedek等人[5]利用社交網絡分析來進行電信行業客戶流失預測研究。

隨著經濟與社會的發展,數據挖掘技術廣泛應用到各個領域[6]。近年來,陳天奇[7]對GBDT(Gradient Boosting Decision Tree)算法進行改進,提出了一種設計高效、靈活并且可移植性強的最優分布式決策梯度提升庫(Extreme Gradient Boosting,XGBoost),該算法曾經在國外數據競賽平臺Kaggle的比賽中多次取得了最好的成績。目前該算法已被用于銀行破產預測[8]、網絡入侵檢測[9]等領域,然而目前尚未有研究將該算法用于用戶流失預測。

本文以國內一家互聯網金融平臺為研究對象。在互聯網金融行業,為更好地吸引新用戶注冊,一般都會建立一套好友推薦獎勵機制,這種好友推薦行為就構成一個復雜的社交網絡。隨著互聯網行業中好友推薦數據的不斷積累,這部分數據中隱藏了大量有價值的信息,因此如何深入挖掘這部分信息的價值,以此來提升流失模型的預測能力,是一個值得研究的問題。

1 方法

1.1 變量

本文將變量分為兩類:個體變量和社會網絡變量。個體變量包括用戶的基本信息和用戶行為變量,這些變量描述用戶的個體特征,未考慮個體之間的關聯信息。相反,社會網絡變量考慮了用戶之間的關聯信息。

個體變量分為用戶基本信息變量和用戶行為變量。用戶基本信息變量包括:性別、年齡和地區。行為變量是從用戶的交易行為數據中提取的變量,包括:時間長度、頻率、金額、間隔時間4類,共計12個變量。變量如表1所示。

表1 變量列表

社交網絡變量對于模型的預測效果的提升可以解釋為社交網絡同質性。同質性是指人們傾向于與自己具有相似特征的個體成為朋友,它可以用來預測互動頻繁的人之間的相似性或者預測具有相似行為的人之間的交互行為[10]。

社交網絡結構由結點和邊組成,其中結點表示用戶,而邊(結點之間的連接)則表示用戶之間建立的關系,社交網絡的拓撲結構用圖G=(V,E)表示,其中n=|V|表示結點數;vi表示結點i;eij表示結點i和j之間的邊;A表示圖的鄰接矩陣。

中心性定義了網絡中一個結點的重要性。本文選擇常用的度中心性、特征向量中心性和中間中心性作為變量。最直接的中心性度量方式是度中心性,是在網絡分析中刻畫結點中心性的最直接度量指標。一個結點的結點度越大就意味著這個結點的度中心性越高,該結點在網絡中就越重要。

結點vi的度中心性Cd為:

(1)

其中n代表結點數。

本文使用圖的鄰接矩陣A記錄鄰居結點,設Ce(vi)表示結點vi的特征向量中心性,該值是其鄰居結點中心性的函數,并且在它的鄰居結點中心性的總和中占一定的比例:

(2)

其中,ρ是某個固定的常量。

中間中心性考慮結點在連接其他結點時所表現出的重要性。首先計算其他結點通過結點vi的最短路徑數目:

(3)

其中σst代表從結點s到結點t的最短路徑的數目,σst(vi)是從結點s到t經過vi的最短路徑數目,這種度量方法稱為中間中心性。

(4)

最后共選擇了7個社交網絡變量,社交網絡變量如表1所示。

1.2 算法

GBDT是2001年Friedman等人提出的一種Boosting算法。它是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論加起來作為最終答案。XGBoost是一種改進的GBDT算法[7],該算法與GBDT有很大的區別[9]。GBDT在優化時只用到一階導數,XGBoost則同時用到了一階導數和二階導數,同時算法在目標函數里將樹模型復雜度作為正則項,用以避免過擬合。

XGBoost算法目標函數:

(5)

根據泰勒展開式:

(6)

同時令:

(7)

決策樹復雜度計算公式:

(8)

將式(6)、 (7)、 (8)代入式(5),求得目標函數:

(9)

(10)

(11)

利用式(11)來尋找出一個最優結構的樹,加入到模型中,通常情況下枚舉出所有可能的樹結構是不可能的,因此使用貪心算法來尋找最優樹結構。

決策樹分割時,增益計算公式如下:

Gain(φ)=

(12)

在樹的學習中一個關鍵問題是根據式(12)找到最優的分割方案,也就是一種分割尋找算法,這個算法稱為精確貪心算法。

在本文中,為了證明XGBoost在用戶流失預測問題上的優越性,選擇了三個在客戶流失預測研究中常用的算法進行對比:Logistic回歸(LR)、支持向量機(SVM)、隨機森林(RF)。

1.3 評價指標

樣本實際狀態和預測狀態對比如表2所示。

表2 分類結果混淆矩陣

準確率和提升系數計算公式:

(13)

(14)

提升系數是指使用模型的預測能力與不用模型相比,預測能力提高的倍數。因互聯網用戶較多,在企業資源有限的情況,企業只能選擇流失率最高的一部分用戶來進行客戶挽留措施,因此本文選擇客戶流失研究領域中常用的Lift(10%)作為本文的一個評價指標,該指標側重衡量流失風險最高的那一部分用戶。該指標首先將用戶按照算法預測的流失概率進行排序,然后選擇概率前10%用戶,計算這部分用戶的實際命中率(TP/(TP+FP)),最后用命中率除以總數據中的流失人數比例即得到Lift(10%)值。

ROC(Receiver Operating Characteristic)和AUC(Area under Curve)指標。首先計算真陽性率(TPR)和假陽性率(FPR)的值,然后以FPR和TPR為坐標形成折線圖,即ROC曲線。

(15)

(16)

ROC曲線越靠近左上角,分類模型的準確性就越高。AUC是ROC曲線下方的面積,AUC越大,代表模型分類性能越好。

2 結果

2.1 數據預處理

本文數據來源于國內一家互聯網金融平臺,本文獲得的數據共包含4 143條用戶數據信息。數據包含用戶的基本信息、交易行為數據和社交數據。

將數據分為觀察期和預測期兩個時間段,最后選定了10個月的數據來進行流失預測研究,前7個月為觀察期,接下來的3個月作為預測期。利用觀察期的數據進行模型訓練,預測期的數據只用于建立目標變量標簽。根據公司業務的實際情況,將流失用戶定義為:用戶預測期內無任何交易記錄并且用戶賬戶內無余額。

本文首先基于用戶邀請關系,使用社交網絡分析軟件構建社交網絡,然后計算網絡指標并輸出,從用戶交易行為數據中提取行為變量,最后將所有的變量進行合并。將類別型變量,如性別,轉換為One-hot編碼,同時將連續型變量進行了Z-score標準化處理。

為了對比網絡變量對于模型的預測能力的提升,本文將數據集劃分為兩類,一類為不包含網絡變量的數據集,另一類為包含所有變量的數據集。在這兩類不同的數據集上分別運行模型。

2.2 結果分析

實驗結果如表3和表4所示,表中顯示了4種模型在不同數據集上實驗結果的準確率、AUC值、提升系數。從表中可以看到,對于兩類數據集,XGBoost都具有最高的準確率、AUC值和提升系數,隨機森林次之,SVM和邏輯回歸效果較差。同時從圖1和圖2可以看到,XGBoost的ROC曲線始終處于最左上方,這表明XGBoost具有最好的客戶流失預測性能。

表3 算法運行結果(不包含網絡變量數據集)

表4 算法運行結果(包含所有變量數據集)

圖1 ROC曲線(不包含網絡變量數據集)

圖2 ROC曲線(包含所有變量數據集)

對于兩個數據集而言,不同分類算法在包含網絡變量的數據集上的表現普遍優于不包含網絡變量數據集上的表現,其中準確率提升2.5%~5.3%,AUC提升2.1%~4.4%,Lift(10%)提升8.1%~9.8%。對于所有模型而言,包含網絡變量的XGBoost模型預測效果最佳。

3 結論

本文針對互聯網行業的客戶流失預測問題,提出了一種社交網絡分析和機器學習相結合的客戶流失預測方法,首先采用社交網絡分析方法從用戶社交數據中提取特征,將社交網絡特征作為用戶流失預測的輸入變量,然后使用XGBoost算法來對客戶流失進行預測,最后將該方法與其他機器學習算法進行比較。

實驗結果表明,XGBoost模型的客戶流失預測性能要優于其他模型的預測性能。進一步而言,包含網絡變量的模型表現性能均優于不包含網絡變量的模型表現性能,從而說明,社交網絡分析和XGBoost相結合的客戶流失預測方法優于傳統方法。本文提出的客戶流失模型有助于互聯網企業開發不同的留存策略,針對流失用戶采取措施,以更好地挽留用戶。

[1] HADDEN J, TIWARI A, ROY R, et al. Computer assisted customer churn management: State-of-the-art and future trends[J]. Computers & Operations Research, 2007, 34(10): 2902-2917.

[2] 文篤石. 基于數據倉庫的客戶挽留系統[J]. 微型機與應用, 2015, 34(18): 11-13.

[3] 徐子偉,王傳啟,王鵬,等.基于分步特征提取和組合分類器的電信客戶流失預測模型[J].微型機與應用,2016,35(13):51-54.

[4] OSKARSDOTTIR M, BRAVO C, VERBEKE W, et al. A comparative study of social network classifiers for predicting churn in the telecommunication industry[C].IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, 2016: 1151-1158.

[5] BENEDEK G, LUBLY, VASTAG G. The importance of social embeddedness: churn models at mobile providers[J]. Decision Sciences, 2014, 45(1): 175-201.

[6] 黃海新, 吳迪, 文峰. 決策森林研究綜述[J]. 電子技術應用, 2016, 42(12): 5-9.

[7] CHEN T, GUESTRIN C. XGBoost: a scalable tree boosting system[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016: 785-794.

[8] ZIEBA M, TOMCZAK S K, TOMCZAK J M. Ensemble boosted trees with synthetic features generation in application to bankruptcy prediction[M].Pergamon Press,Inc.,2016.

[9] 封化民, 李明偉, 侯曉蓮,等. 基于SMOTE和GBDT的網絡入侵檢測方法研究 [J/OL].(2017-01-23)[2017-04-30].http://www.cnki.net/kcms/detail/51.1196.TP.20170123.1559.090.html

[10] OSKARSDOTTIR M, BRAVO C, VERBEKE W, et al. A comparative study of social network classifiers for predicting churn in the telecommunication industry[C]. IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. IEEE, 2016: 1151-1158.

A study on Internet customer churn prediction based on social network analysis and XGBoost

Wang Chongren, Han Dongmei

(Department of Information Management and Engineering, Shanghai University of Finance and Economics, Shanghai 200433, China)

In this paper, a method of customer churn prediction in the Internet industry is proposed, which is based on the combination of social network analysis and machine learning. Considering the influence of social activities for churn, firstly, social network analysis is used to extract features from the user's social data, then XGBoost (Extreme Gradient Boosting) is used to predict customer churn. Finally, the proposed method is compared with other machine learning algorithms (suoh as Logistic regression, support vector machine, and random forest). The experimental results show that the combination of social network analysis and XGBoost is better than the traditional method of customer churn prediction.

customer churn prediction; social network analysis; machine learning; extreme gradient boosting

TP391

A

10.19358/j.issn.1674- 7720.2017.23.017

王重仁,韓冬梅.基于社交網絡分析和XGBoost算法的互聯網客戶流失預測研究[J].微型機與應用,2017,36(23):58-61.

上海財經大學研究生教育創新計劃項目(2015111101)

2017-05-09)

王重仁(1984-),男,博士研究生,主要研究方向:數據挖掘。

韓冬梅(1961-),女,博士生導師,教授,主要研究方向:經濟分析與預測。

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: av一区二区无码在线| 永久在线精品免费视频观看| 亚洲精品国产综合99| 无码久看视频| 九色91在线视频| 99国产精品一区二区| 无码人妻免费| 久久久久久久蜜桃| 三区在线视频| 亚洲成a人片| 成人午夜亚洲影视在线观看| 亚洲中文字幕在线观看| 成人a免费α片在线视频网站| 亚洲男人的天堂视频| 国产成人免费手机在线观看视频| 日韩欧美国产成人| 青青青草国产| 亚洲性影院| 国产精品久久精品| 国产日本一区二区三区| 欧美日韩亚洲综合在线观看| 国产伦精品一区二区三区视频优播 | 午夜视频在线观看免费网站 | 亚洲第一成年网| 伊人中文网| 日韩精品专区免费无码aⅴ| 日日碰狠狠添天天爽| 久久不卡国产精品无码| 亚洲天堂视频在线观看免费| 少妇人妻无码首页| 欧美日本视频在线观看| 久久久久夜色精品波多野结衣| 国产免费a级片| 亚洲精品大秀视频| 中国一级特黄视频| 色噜噜中文网| 亚洲精品va| 四虎免费视频网站| 国内精品九九久久久精品| 国产欧美日韩va另类在线播放| 99国产精品免费观看视频| 日韩大片免费观看视频播放| 天天综合网在线| 国产日本欧美在线观看| 日本成人不卡视频| 天天色综合4| 国产精品对白刺激| 免费国产黄线在线观看| 在线精品亚洲一区二区古装| a在线亚洲男人的天堂试看| 中文字幕伦视频| 国产精品视频系列专区| 亚洲欧洲一区二区三区| 欧美精品亚洲精品日韩专区| 日韩AV无码免费一二三区| 91人人妻人人做人人爽男同| 中文字幕亚洲精品2页| 精品福利国产| 亚洲区欧美区| 91成人免费观看在线观看| 色婷婷狠狠干| 亚洲综合色婷婷| 精品午夜国产福利观看| 1769国产精品视频免费观看| 欧美福利在线观看| 国产精品国产主播在线观看| 国产精品密蕾丝视频| 美女高潮全身流白浆福利区| 天天综合网色中文字幕| 99精品视频播放| 久久久久免费看成人影片| 国产精品无码翘臀在线看纯欲| 欧美激情视频一区二区三区免费| 国产日韩精品一区在线不卡| 久久久久国色AV免费观看性色| 亚洲欧美在线综合图区| 日韩第一页在线| 国产女人在线视频| 激情综合图区| 国产十八禁在线观看免费| 国产精品片在线观看手机版| 免费福利视频网站|