廖開際 鄒珂欣 莊雅云
(華南理工大學(xué)工商管理學(xué)院 廣州 510641)
目前我國電商行業(yè)發(fā)展迅速,電子商務(wù)數(shù)據(jù)作為國家大數(shù)據(jù)戰(zhàn)略的重要組成要素,不僅有很高的應(yīng)用價值,還有很高的經(jīng)濟價值[1]。目前,電子商務(wù)競爭愈發(fā)激烈,各大電子商務(wù)企業(yè)在推進業(yè)務(wù)增長的同時均在發(fā)展以客戶為中心的企業(yè)戰(zhàn)略,而如今企業(yè)發(fā)展新客戶的成本越來越高甚至大幅超過用以維系老客戶的成本,所以,如何有效精準(zhǔn)識別潛在的客戶流失對電商企業(yè)的長期戰(zhàn)略發(fā)展有著舉足輕重的意義。
目前國內(nèi)外通常采用的客戶流失預(yù)測研究主要有基于傳統(tǒng)統(tǒng)計學(xué)方法的客戶流失預(yù)測,如朱志勇等[2]利用貝葉斯分析客戶流失特征,創(chuàng)建貝葉斯網(wǎng)絡(luò)模型;張宇等[3]利用決策樹算法,創(chuàng)建了所需的流失預(yù)測模型,并用中國郵政的業(yè)務(wù)數(shù)據(jù)對模型進行了驗證;Arno De Caigny[4]將決策樹與邏輯回歸結(jié)合,為兩階段客戶創(chuàng)建了相應(yīng)的流失預(yù)測模型,但這兩種方法較為簡單,對于數(shù)據(jù)維度較高的問題不太適用。
近幾年由于人工智能等技術(shù)的發(fā)展,利用機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)構(gòu)建的客戶流失預(yù)測模型,也取得了很大的進展。如Ruiyun 等[5]提出了一種優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)來預(yù)測電信公司流失客戶。Yaya Xie[6]提出改進平衡隨機森林算法的預(yù)測模型并將其應(yīng)用于銀行客戶流失數(shù)據(jù)集,結(jié)果表示該方法效果更優(yōu)。朱幫助等[7]提出了基于最小二乘SVM 的三階段客戶流失預(yù)測模型并驗證了模型的有效性。王重仁[8]等通過把社交網(wǎng)絡(luò)分析、XGBoost 兩者結(jié)合起來,最終發(fā)現(xiàn)具有更好的效果。
以上基于人工智能和機器學(xué)習(xí)的算法雖然都能有效地提高客戶流失的預(yù)測精準(zhǔn)度,但是其研究所涉及領(lǐng)域與電商大數(shù)據(jù)領(lǐng)域的特點仍有一定差異。如今,在研究客戶流失預(yù)測狀況時,主要把契約型客戶當(dāng)作研究對象,其流失有著較為明確的標(biāo)志。然而以電子商務(wù)客戶為典型代表的非契約型客戶與企業(yè)之間并不存在契約關(guān)系,企業(yè)無法準(zhǔn)確觀察到客戶的流失時間點,因此該類客戶的流失預(yù)測是現(xiàn)階段研究的難點和重點。
本文基于多種模型和算法,開發(fā)了相應(yīng)的客戶流失預(yù)測方法,在最終的預(yù)測模型中還對預(yù)測過程中對電商領(lǐng)域?qū)φ骊栃藻e誤更敏感的情況進行了針對性的算法改進,使得方法和模型更加符合電商領(lǐng)域的使勁應(yīng)用情境。
圖1 展示了模型的基本流程,該方法含有三個不同的模塊,包括流失預(yù)測模型模塊,客戶細(xì)分模塊、客戶特征篩選模塊。

圖1 預(yù)測方法流程圖示
由于電子商務(wù)客戶的特征數(shù)量較多且維度較高,在進行客戶流失預(yù)測之前首先采用隨機森林算法進行降維和特征篩選操作。隨機森林算法通過計算數(shù)據(jù)誤差來衡量特征的好壞程度,其中的數(shù)據(jù)誤差來源自訓(xùn)練決策樹時隨機抽取的樣本數(shù)據(jù)所帶來的隨機誤差[9]。特征X 的重要性由式(1)計算得出。

其中,N 表示的是決策樹的數(shù)量。error1 代表去掉被抽取樣本數(shù)據(jù)外的數(shù)據(jù)誤差,error2 代表加入隨機干擾后去掉被抽取樣本數(shù)據(jù)外的數(shù)據(jù)誤差。
對于原始數(shù)據(jù)集合首先使用Boot-Strapping隨機采樣方法來獲取n 個數(shù)據(jù)樣本集合。再對數(shù)據(jù)子集進行單獨訓(xùn)練,變?yōu)闃浞诸惼鳎瑢τ诿恳粋€樹分類器,在實施分裂操作時,會需要按照信息增益情況,選擇最佳的分裂特征[10]。隨后每棵樹繼續(xù)分裂,直到所有的訓(xùn)練樣本分為同一類結(jié)束,然后組合不同的決策樹,形成隨機森林,此時每個特征的影響程度也會被計算出來。最終選取影響程度高且其累計營銷程度超過90%的特征進行流失客戶預(yù)測。
客戶細(xì)分是指根據(jù)客戶的某些特征來識別客戶群體的方法,其中基于客戶價值的細(xì)分是近年來較為常見且應(yīng)用廣泛的方法,其中,對于RFM 模型而言,是從眾多交易數(shù)據(jù)中篩選出來的,可以有效地判斷用戶的價值,常被用于研究顧客忠誠度和活躍度[11]。
本文提出的客戶細(xì)分模塊是以RFM 客戶價值模型為重要依據(jù)與分類基礎(chǔ),確定RFM 模型的三大指標(biāo),組成相應(yīng)的數(shù)據(jù)集,然后通過K-means 方法,實施聚類操作,詳細(xì)地劃分電子商務(wù)客戶的類型。主要指標(biāo)如下所示,分別為Recency、Frequency、Monetary[12]。其中,R 代表的是最近購買與現(xiàn)在相距的時間,反映了用戶活躍程度;F 代表的是某一階段的購買頻次,反映的是用戶的忠誠度;M 代表的是某一階段購買的總金額,反映了用戶消費能力[13]。

圖2 客戶細(xì)分模塊流程圖
將通過RFM 模型確定的指標(biāo)數(shù)據(jù)放入K-means聚類算法中得到一個收斂的聚類結(jié)果,對于K-means 算法,它是最常用的聚類算法,是一種劃分為主的聚類算法[14]。最后對聚類結(jié)果進行分析并根據(jù)每一個客戶類別顯示出來的特點對聚類結(jié)果中的客戶類別進行命名,最終對客戶進行細(xì)分。
根據(jù)電子商務(wù)領(lǐng)域的情境,將客戶流失錯分為非客戶流失視為第一類錯誤。在此種情況下,企業(yè)不會挽留這部分客戶,企業(yè)將會錯失此類客戶。而對于非客戶流失,錯誤的看作是客戶流失,這屬于第二類錯誤,此時企業(yè)會對被錯分為客戶流失的客戶采取相挽留措施,從而增加了企業(yè)的運營成本。然而,通過研究發(fā)現(xiàn),與維持老客戶相比,發(fā)展新客戶所需的成本更高,所以在預(yù)測電子商務(wù)客戶流失時,第一類錯誤能夠?qū)е赂蟮膿p失,遠(yuǎn)遠(yuǎn)超過了第二類錯誤。因此,通過分析電子商務(wù)客戶流失預(yù)測發(fā)現(xiàn),對真陽性錯誤更敏感。
XGBoost 算法在處理大數(shù)據(jù)集時能夠保持較高的精度,其原理通過不斷對誤差進行進一步分類,來改善系統(tǒng)的訓(xùn)練準(zhǔn)確率[15]。因此本文選擇XGBoost 來構(gòu)建流失客戶預(yù)測模型。在處理分類問題時,XGBoost 一般把對數(shù)函數(shù)當(dāng)作損失函數(shù),見式(2)。本文基于電子商務(wù)的特殊情境,在XGBoost 算法的損失函數(shù)中,需要添加上懲罰系數(shù)α(0.5<α≤1),對上述兩類錯誤的損失比例進行了調(diào)整,見式(3)。

當(dāng)樣本yi=1 時,相應(yīng)的損失函數(shù)為ln(1+e-αy^t) ,如果樣本yi=0 時,那么損失函數(shù)為ln(1+e(1-α)y^t)。可見經(jīng)過對損失函數(shù)的改進,發(fā)生一類錯誤的損失會高于二類錯誤損失,更加符合電子商務(wù)領(lǐng)域場景特征。經(jīng)過多次實驗,當(dāng)懲罰系數(shù)α取0.6 時,AUC 值達(dá)到最優(yōu),因此預(yù)測模型中懲罰系數(shù)α取值為0.6。
本文采用國內(nèi)某電子商務(wù)平臺中4439 名客戶在2018 年1 月至8 月產(chǎn)生的數(shù)據(jù)作為原始數(shù)據(jù)對提出的方法進行驗證。通過準(zhǔn)確率、召回率、ROC曲線、AUC值等指標(biāo),對其進行評價。
采用隨進森林算法對上述數(shù)中21 個特征進行篩選,得到表1 中重要性程度較高的7 個特征,且這7 個變量對結(jié)果的解釋貢獻(xiàn)率達(dá)到了90%,因此選取這7 個特征變量作為最終輸入預(yù)測模型的特征。

表1 特征變量重要性結(jié)果
通過標(biāo)準(zhǔn)化等預(yù)處理操作之后,再通過K-means聚類算法,實施相應(yīng)的聚類操作。經(jīng)過反復(fù)試驗,發(fā)現(xiàn)當(dāng)類數(shù)K=3 時結(jié)果達(dá)到收斂,故最終結(jié)果將客戶分為三類,最終聚類結(jié)果見表2。

表2 客戶細(xì)分結(jié)果
對結(jié)果中的三類客戶的三項指標(biāo)分別進行描述統(tǒng)計后發(fā)現(xiàn),第二類客戶的R 指標(biāo)均值最小為7.52,同時這類客戶的F 指標(biāo)與M 指標(biāo)均值在三類客戶中均為最大且遠(yuǎn)大于其他兩類客戶,即這類客戶最后一次在該電子商務(wù)平臺的購買時間距現(xiàn)在普遍較近而且他們的累計訂單數(shù)與累計銷售額遠(yuǎn)高于其他兩類客戶。可以認(rèn)為這類客戶經(jīng)常在該平臺消費且消費金額較大,可見此類客戶對電子商務(wù)企業(yè)具有重要的價值,因此將聚類結(jié)果中的第二類客戶定義為重要價值客戶。
聚類結(jié)果中的第三類客戶的R 指標(biāo)均值最大為159.17,并且該類客戶的F 指標(biāo)與M 指標(biāo)的均值遠(yuǎn)小于其他兩類指標(biāo),即第三類客戶最后一次在該電子商務(wù)平臺的購買時間較現(xiàn)在較遠(yuǎn)且這類客戶的累計訂單數(shù)與累計消費金額較小,這就表示該類客戶在該平臺購買的頻率較低且消費力度較小,該類用戶更容易變成潛在的客戶流失,因此需要企業(yè)針對他們開展相應(yīng)的挽留措施,所以,在得出聚類結(jié)果之后,往往把第三類客戶當(dāng)作價值最低的客戶。
聚類結(jié)果中的第一類客戶的三項指標(biāo)的均值均處于中等水平,這表示該類客戶在活躍度、忠誠度以及消費能力上均處于三類客戶的中間水平,因此,把這部分客戶當(dāng)作一般價值的客戶。
算法改進前后預(yù)測結(jié)果的各項評價指標(biāo)見表3,可知改進后的算法在各個指標(biāo)上的表現(xiàn)均優(yōu)于改進前的算法。

表3 XGBoost改進前后預(yù)測結(jié)果對比表
這里選取了邏輯回歸、支持向量機、BP 神經(jīng)網(wǎng)絡(luò)這三種常用的算法模型來與改進后的XGBoost算法進行對比分析,結(jié)果見表4。可以看出,除了召回率與其他算法存在較小差距之外,改進后的XGBoost 算法的預(yù)測結(jié)果在其余各項指標(biāo)的表現(xiàn)均明顯優(yōu)于其他算法,即說明改進后的XGBoost 算法較其他算法來說在預(yù)測客戶流失的效果上表現(xiàn)更好。

表4 各類算法預(yù)測結(jié)果對比表
經(jīng)過客戶細(xì)分后再進行預(yù)測與用總體客戶即不進行客戶細(xì)分進行預(yù)測的結(jié)果對比見表5(均采用改進后的XGBoost 算法進行預(yù)測),可以看出經(jīng)過客戶細(xì)分后再進行預(yù)測時各個評價指標(biāo)的結(jié)果均有明顯上升,說明在預(yù)測前對客戶進行細(xì)分能夠有效提升價值客戶的流失預(yù)測精度。

表5 客戶細(xì)分前后預(yù)測結(jié)果對比
研究結(jié)果表明經(jīng)過預(yù)先進行客戶細(xì)分能更有效地進行客戶流失的預(yù)測,預(yù)測結(jié)果的各評級指標(biāo)均有明顯提升。同時,結(jié)合電子商務(wù)客戶流失的特征,對損失函數(shù)作出一定的修正,改進后的XGBoost 算法的預(yù)測效果相比改進前也有更好的表現(xiàn),預(yù)測結(jié)果AUC 值提高了2.4%,準(zhǔn)確率提升了2.8%,精確率提升了3.8%,召回率提升了2%。由此可以說明,所提出的預(yù)測方法是行之有效的。
根據(jù)客戶價值對電子商務(wù)客戶進行了細(xì)分并預(yù)測了不同群體中的客戶流失情況,但是現(xiàn)有研究主要基于結(jié)構(gòu)化的客戶數(shù)據(jù),圖片、音視頻等其他類型的復(fù)雜數(shù)據(jù)并沒有涉及,后續(xù)有待進一步深入研究。