吳 濤
(安徽工業職業技術學院,安徽 銅陵 244000)
近年來電商市場競爭異常激烈,電子商務的特殊性和競爭的激烈性,導致其客戶流失率高達90%以上,客戶流失是電子商務應用所面臨的棘手問題。因此如何有效挽留客戶,成為企業急待解決的問題。傳統的流失客戶挽留方法是在客戶流失之后才采取措施挽救,這是因為在客戶流失前期沒有快速、準確地捕捉客戶即將流失的“信號”,采取相應地措施。在客戶流失之后再做挽留,其維護成本高并且成功率低。近些年,數據挖掘技術發展迅速,該技術可自動從大量的數據樣本中尋找數據間隱藏的特殊關系。面對傳統客戶挽留方法的不足,數據挖掘技術提供了有效的解決方案,它可以對歷史海量數據進行學習,建立客戶流失預測模型,動態地捕捉客戶即將流失的信號,使得電商平臺在客戶流失之前提前介入,采取針對性、個性化的營銷策略,從而有效地挽留客戶。本文運用數據挖掘技術中的決策樹、支持向量機算法分別對電商客戶流失進行建模預測,旨在尋找預測精度高的模型。
決策樹算法原理簡單、計算量小、泛化能力強,可有效的找出變量間的相互關系,已被廣泛應用于數據挖掘技術中。但是決策樹算法具有兩個缺點。一是對于各類別樣本數量不一致的數據,其穩定性與抗震蕩性較差,決策樹中的信息增益結果偏向于具有更多數值的特征。二是決策樹內部節點的判別具有明確性,會帶來一定的誤差。
決策樹構造分2步進行:第1步,決策樹的生成,是由訓練樣本集生成決策樹的過程;第2步,決策樹的剪枝,是對上一階段生成的決策樹進行檢驗、校正和修正的過程。
支持向量機(Support Vector Machine,SVM)是一種對數據進行二分類的廣義線性分類器,它在解決小樣本、非線性、高維度問題中具有絕對的優勢。
在二分類問題中,SVM通過在n維空間中找到一個能夠實現二分類的最優超平面H(滿足wT·x+b=0),并且能夠使得兩類中距離最近的點間隔盡量大。其中,H0(滿足wT·x+b=1)和H1(滿足wT·x+b=-1)與H平行,且分別經過兩類樣本中距離H最近的樣本,則對于任意點xi滿足式(1)的條件
(1)

s.t.yi(wT·xi+b)≥1,i=1,2,…,n
(2)
將Lagrange乘子法引入公式(2)中,可得:

(3)
其中,ai為拉格朗日乘子。求得最優w和b后,可得決策函數為:

(4)
若解決非線性分類問題,可通過內積核函數,將數據映射到高維空間,進而在高維空間中將非線性問題轉化為線性問題。
客戶流失的特征體現在如下3個方面:消費總頻率低,消費總金額少,最后購買日期與當前日期相距的天數長,故本文構造的客戶流失特征分別為消費總頻率F( Frequency),消費總金額M( monetary) ,最后購買日期與當前日期相距的天數R( Recency)。本文電子商務客戶流失分析選用2018年某電商平臺客戶交易數據庫中的2000個訂單數據,其中非流失客戶有580個,流失客戶有1420個,并將非流失客戶量化為0,流失客戶量化為1。
決策樹預測模型建立的具體步驟為:
(1)導入數據。數據文件每組數據分4個字段:前3個字段分別為電子商務客戶的消費總頻率F( Frequency),消費總金額M( monetary) ,最后購買日期與當前日期相距的天數R( Recency)變量,第4個字段為客戶流失狀態。共2000組數據,為不失一般性,隨機選取1600組數據作為訓練集,剩余400組數據作為測試集。
(2)創建決策樹分類器。利用MATLAB自帶函數ClassificationTree.fit,即可基于訓練數據創建一個決策分類器。
(3)仿真測試。利用MATLAB自帶工具箱函數predict,即可對測試集數據進行仿真實驗。
(4)找出葉子節點所含的最小樣本數。如圖1所示,本文將葉子節點所包含的最小樣本數(minleaf)設置為10,此時交叉驗證誤差最小。
(5)剪枝。通過剪枝操作,使決策樹分類器更加簡化,同時交叉驗證誤差不變。根據訓練數據創建剪枝后的決策樹分類器,如圖2所示。

圖1 葉子節點含有的最小樣本數對決策樹性能的影響

圖2 剪枝后的決策樹分類器
將電子商務客戶的消費總頻率F(Frequency),消費總金額M(monetary) ,最后購買日期與當前日期相距的天數R(Recency)3個變量作為輸入特征值,客戶流失狀態作為輸出特征值。隨機選擇1600組數據作為SVM模型的訓練樣本,剩余400組數據作為測試樣本。具體步驟為:
(1)歸一化處理。用MATLAB中的mapminmax函數來對2000組樣本數據進行歸一化處理,防止特征值范圍過大或過小,影響模型的精確度。其中歸一化的范圍為[0,1]。
(2)選擇SVM的類型選為C-SVC,核函數選取精度較高的RBF函數。
(3)懲罰參數C與核函數參數g的選取兩者。對預測精度的影響較大,本文采用K-fold交叉驗證(K-fold Cross Validation,K-CV)的參數優化方法選擇最優參數,如圖3、圖4所示。

(4)將最佳參數(C,g)和訓練樣本代入SVC中,并得到精度較高的SVC模型。SVC模型預測結果,如圖5所示。

圖5 SVC模型預測結果
決策樹、支持向量機預測結果如表1所列。對表1預測結果進行分析,得到的結論如下:①相較于決策樹分類模型,支持向量機模型分類準確率更高。這主要是由于本文樣本數據量較少,支持向量機在解決小樣本問題中具有絕對的優勢。②決策樹分類精度較低,可能是因為本文數據樣本中各類別樣本數量不均衡,非流失客戶數量遠遠少于流失客戶數量,決策樹中信息增益結果偏向于具有更多數值的特征,故決策樹用在電子商務客戶流失預測中還有待優化。

表1 模型對預測樣本預測精度比較
本文的研究結果可為電商平臺提供決策支持,平臺可以根據預測結果采取相應措施挽留客戶,有效減少客戶的流失,具有較強的實用性。隨著電商網絡的發展,電商行業產生的客戶信息數據進一步增多,未來可考慮使用更深層次的數據挖掘技術處理海量數據。