張馭思,于明亮
(上海理工大學(xué),上海 200093)
目前我國(guó)網(wǎng)絡(luò)建設(shè)發(fā)展極為迅速,涉及到互聯(lián)網(wǎng)經(jīng)濟(jì)的產(chǎn)業(yè)均迎來(lái)快速發(fā)展,線上客戶(hù)數(shù)量的不斷提高使得企業(yè)的經(jīng)營(yíng)重點(diǎn)逐漸從產(chǎn)品/服務(wù)本身向維持現(xiàn)有客戶(hù)資源偏移。以酒店服務(wù)業(yè)務(wù)為例,目前的綜合性酒店旅行服務(wù)企業(yè)大多通過(guò)線上APP 和網(wǎng)站以數(shù)字信息的形式為數(shù)量龐大的會(huì)員提供全方位的酒店旅行信息。通過(guò)對(duì)我國(guó)目前相關(guān)企業(yè)進(jìn)行研究發(fā)現(xiàn),目前針對(duì)線上酒店預(yù)定平臺(tái)的服務(wù)調(diào)研主要聚焦在客戶(hù)的滿(mǎn)意度管理,有關(guān)交易行為和消費(fèi)轉(zhuǎn)化率等信息在一定程度上被忽略。
對(duì)于客戶(hù)數(shù)據(jù)進(jìn)行分析,進(jìn)而對(duì)其流失傾向進(jìn)行分析總結(jié),能夠企業(yè)的客戶(hù)關(guān)系維護(hù)和管理提供理論指導(dǎo)與數(shù)據(jù)支撐。研究者曾采用支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和貝葉斯模型分別客戶(hù)流失傾向進(jìn)行分析和預(yù)測(cè),通過(guò)與實(shí)際數(shù)據(jù)對(duì)比驗(yàn)證了模型的有效性。隨后,有研究者開(kāi)始在現(xiàn)有模型中添加插件模塊以?xún)?yōu)化算法,提升預(yù)測(cè)精度,Xu等研究者將模糊語(yǔ)言和貝葉斯模型進(jìn)行融合,將模糊信息以概率的形式精確呈現(xiàn),使信息缺失、模糊的流失客戶(hù)數(shù)據(jù)分析成為可能。近年來(lái),模型間的耦合被證明在某些領(lǐng)域擁有比傳統(tǒng)單一模型更高的預(yù)測(cè)準(zhǔn)確性。Aron等人將邏輯回歸模型和決策樹(shù)模型耦合,通過(guò)實(shí)驗(yàn)及驗(yàn)證分析,表明耦合模型在精度和可靠性、可解釋性方面均有著比各自獨(dú)立模型預(yù)測(cè)結(jié)果更好的表現(xiàn)。在數(shù)據(jù)處理過(guò)程中,Sebastiaan 團(tuán)隊(duì)在數(shù)據(jù)前期處理中引入最大利潤(rùn)度這一概念,并作為模型的評(píng)價(jià)和分析指標(biāo),以該標(biāo)準(zhǔn)進(jìn)化算法并驅(qū)動(dòng)決策樹(shù)模型,獲得了同時(shí)考慮企業(yè)成本和利潤(rùn)的更合理且解釋性更強(qiáng)的模型。
上述研究對(duì)在企業(yè)客戶(hù)管理和運(yùn)營(yíng)方面的提升和完善具有十分積極的推進(jìn)作用,但針對(duì)酒店線上客戶(hù)流失的分析模型亟待構(gòu)建。本文以線上綜合服務(wù)型酒店對(duì)現(xiàn)有客戶(hù)流失運(yùn)營(yíng)管理為主題,以高效預(yù)測(cè)客戶(hù)流失為目的,通過(guò)對(duì)諸多算法進(jìn)行比較,將數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)理論融入管理理論,實(shí)現(xiàn)學(xué)科的融合,為線上酒店解決用戶(hù)流失問(wèn)題提供具有參考價(jià)值的理論模型和數(shù)據(jù)支持。
本文實(shí)驗(yàn)的原始數(shù)據(jù)來(lái)源于攜程用戶(hù)的脫敏訪問(wèn)數(shù)據(jù),構(gòu)建模型之前,需對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、整合與構(gòu)建,最后按照既定標(biāo)準(zhǔn)進(jìn)行格式化。
本次實(shí)驗(yàn)樣本共有689 945 條數(shù)據(jù),變量總結(jié)歸納為三類(lèi)相關(guān)指標(biāo):訂單、客戶(hù)行為和酒店相關(guān)指標(biāo),如圖1所示,除去標(biāo)簽列和id 列共有49 項(xiàng)特征。

圖1 變量分類(lèi)
1.2.1 異常值處理
在數(shù)據(jù)獲取過(guò)程中往往會(huì)出現(xiàn)某些數(shù)據(jù)點(diǎn)的異常,這在后期建模過(guò)程中會(huì)影響模型的準(zhǔn)確性,因此應(yīng)提前進(jìn)行篩選處理。本文以customer_value_profit 和ctrip_profits 為例將處理前后的數(shù)據(jù)散點(diǎn)圖對(duì)比如圖2所示。

圖2 異常值處理前后的數(shù)據(jù)散點(diǎn)圖變化
1.2.2 相關(guān)性分析及PCA 降維
在建模之前還需要對(duì)數(shù)據(jù)的相關(guān)性進(jìn)行分析,進(jìn)而降低建模過(guò)程的數(shù)據(jù)維度,根據(jù)圖1我們可以看到訂單相關(guān)指標(biāo)只涉及四個(gè)小類(lèi)且明顯彼此間相關(guān)性不高,因此本文僅注重用戶(hù)特征的相關(guān)性分析,相關(guān)性矩陣熱度圖如圖3所示。

圖3 用戶(hù)特征的相關(guān)性矩陣熱度圖
我們將數(shù)據(jù)維度從最開(kāi)始的(689 945,49)降至(689 845,41),數(shù)據(jù)條數(shù)未改變,將建模input 的變量維度從49 降至41。隨后將數(shù)據(jù)標(biāo)準(zhǔn)化之后,開(kāi)始建模計(jì)算。
首先我們采用邏輯回歸模型對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行建模分析,得到模型的準(zhǔn)確率為0.737 4,ROC 曲線如圖4所示,AUC 值為0.7,精確度、召回率等信息如表1所示。

圖4 邏輯回歸模型的ROC 曲線

表1 邏輯回歸模型相關(guān)信息
我們隨后采用樸素貝葉斯模型對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行建模分析,得到該模型的預(yù)測(cè)準(zhǔn)確率為0.637 1,ROC 曲線如圖5所示,AUC 值為0.67,精確度、召回率等信息如表2所示。

圖5 樸素貝葉斯模型的ROC 曲線

表2 樸素貝葉斯模型相關(guān)信息
我們繼續(xù)采用支持向量機(jī)模型對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行建模分析,得到該模型的預(yù)測(cè)準(zhǔn)確率為0.550 2,ROC 曲線如圖6所示,AUC 值為0.49,精確度、召回率等信息如表3所示。

表3 支持向量機(jī)模型相關(guān)信息

圖6 支持向量機(jī)模型的ROC 曲線
我們繼續(xù)采用決策樹(shù)模型對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行建模分析,得到該模型的預(yù)測(cè)準(zhǔn)確率為0.881 8,ROC 曲線如圖7所示,AUC 值為0.86,精確度、召回率等信息如表4所示。

圖7 決策樹(shù)模型的ROC 曲線

表4 決策樹(shù)模型相關(guān)信息
我們繼續(xù)采用隨機(jī)模型對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行建模分析,得到該模型的預(yù)測(cè)準(zhǔn)確率為0.925 0,ROC 曲線如圖8所示,AUC 值為0.97,精確度、召回率等信息如表5所示。

圖8 隨機(jī)森林模型的ROC 曲線

表5 隨機(jī)森林模型相關(guān)信息
最后,我們采用極端梯度提升模型對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行建模分析,最終得到該模型的預(yù)測(cè)準(zhǔn)確率為0.925 0,ROC 曲線如圖9所示,AUC 值為0.97,精確度、召回率等信息如表6所示,可以看出極端梯度提升模型的ROC 曲線和隨機(jī)森林的ROC 曲線基本一致,具體比較將在下一節(jié)討論。

圖9 極端梯度提升模型的ROC 曲線

表6 極端梯度提升模型相關(guān)信息
通過(guò)對(duì)模型預(yù)測(cè)準(zhǔn)確率的比較可以看出,隨機(jī)森林和極端梯度提升模型的準(zhǔn)確率最好,說(shuō)明在本文客戶(hù)流失信息預(yù)測(cè)方面隨機(jī)森林模型和極端梯度模型具有更好的表現(xiàn),而支持向量機(jī)模型的準(zhǔn)確率最低,為0.550 2,說(shuō)明該模型相對(duì)而言并不適合客戶(hù)流失信息的預(yù)測(cè)研究。為了進(jìn)一步比較,我們進(jìn)將六類(lèi)模型的ROC 曲線繪制于如圖10 所示。

圖10 六種模型的ROC 曲線
隨機(jī)森林以及XGBoost 的的ROC 曲線表現(xiàn)最佳,但在訓(xùn)練過(guò)程中我們發(fā)現(xiàn),XGBoost 明顯更加耗時(shí),且其準(zhǔn)確率和AUC 值均低于隨機(jī)森林模型,因此我們認(rèn)為隨機(jī)森林模型更適用于本文酒店線上客戶(hù)流失的情況的預(yù)測(cè)和分析。
本文以酒店服務(wù)類(lèi)綜合性企業(yè)的現(xiàn)有客戶(hù)流失情況為研究對(duì)象,以線上綜合服務(wù)型酒店對(duì)現(xiàn)有客戶(hù)流失運(yùn)營(yíng)管理為主題,以高效預(yù)測(cè)客戶(hù)流失為目的,針對(duì)移動(dòng)通信用戶(hù)流失問(wèn)題進(jìn)行了定量分析。通過(guò)對(duì)邏輯回歸、樸素貝葉斯、支持向量機(jī)、決策樹(shù)、隨機(jī)森林、極端梯度提升(XGBoost)等諸多算法進(jìn)行比較,獲得更適合客戶(hù)管理的流失預(yù)測(cè)模型。通過(guò)不同模型運(yùn)行結(jié)果對(duì)比分析,發(fā)現(xiàn)隨機(jī)森林、極端梯度提升(XGBoost)比傳統(tǒng)的邏輯回歸、樸素貝葉斯、支持向量機(jī)、決策樹(shù)模型在各項(xiàng)評(píng)價(jià)指標(biāo)上均有較強(qiáng)的優(yōu)勢(shì),為線上酒店解決用戶(hù)流失問(wèn)題提供支持。