999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的電商客戶流失預測建模方法研究

2022-01-08 08:58:24
關鍵詞:數據挖掘模型

吳 濤

(安徽工業職業技術學院,安徽 銅陵 244000)

近年來電商市場競爭異常激烈,電子商務的特殊性和競爭的激烈性,導致其客戶流失率高達90%以上,客戶流失是電子商務應用所面臨的棘手問題。因此如何有效挽留客戶,成為企業急待解決的問題。傳統的流失客戶挽留方法是在客戶流失之后才采取措施挽救,這是因為在客戶流失前期沒有快速、準確地捕捉客戶即將流失的“信號”,采取相應地措施。在客戶流失之后再做挽留,其維護成本高并且成功率低。近些年,數據挖掘技術發展迅速,該技術可自動從大量的數據樣本中尋找數據間隱藏的特殊關系。面對傳統客戶挽留方法的不足,數據挖掘技術提供了有效的解決方案,它可以對歷史海量數據進行學習,建立客戶流失預測模型,動態地捕捉客戶即將流失的信號,使得電商平臺在客戶流失之前提前介入,采取針對性、個性化的營銷策略,從而有效地挽留客戶。本文運用數據挖掘技術中的決策樹、支持向量機算法分別對電商客戶流失進行建模預測,旨在尋找預測精度高的模型。

1 數據挖掘方法

1.1 決策樹

決策樹算法原理簡單、計算量小、泛化能力強,可有效的找出變量間的相互關系,已被廣泛應用于數據挖掘技術中。但是決策樹算法具有兩個缺點。一是對于各類別樣本數量不一致的數據,其穩定性與抗震蕩性較差,決策樹中的信息增益結果偏向于具有更多數值的特征。二是決策樹內部節點的判別具有明確性,會帶來一定的誤差。

決策樹構造分2步進行:第1步,決策樹的生成,是由訓練樣本集生成決策樹的過程;第2步,決策樹的剪枝,是對上一階段生成的決策樹進行檢驗、校正和修正的過程。

2.2 支持向量機

支持向量機(Support Vector Machine,SVM)是一種對數據進行二分類的廣義線性分類器,它在解決小樣本、非線性、高維度問題中具有絕對的優勢。

在二分類問題中,SVM通過在n維空間中找到一個能夠實現二分類的最優超平面H(滿足wT·x+b=0),并且能夠使得兩類中距離最近的點間隔盡量大。其中,H0(滿足wT·x+b=1)和H1(滿足wT·x+b=-1)與H平行,且分別經過兩類樣本中距離H最近的樣本,則對于任意點xi滿足式(1)的條件

(1)

s.t.yi(wT·xi+b)≥1,i=1,2,…,n

(2)

將Lagrange乘子法引入公式(2)中,可得:

(3)

其中,ai為拉格朗日乘子。求得最優w和b后,可得決策函數為:

(4)

若解決非線性分類問題,可通過內積核函數,將數據映射到高維空間,進而在高維空間中將非線性問題轉化為線性問題。

2 樣本數據選取

客戶流失的特征體現在如下3個方面:消費總頻率低,消費總金額少,最后購買日期與當前日期相距的天數長,故本文構造的客戶流失特征分別為消費總頻率F( Frequency),消費總金額M( monetary) ,最后購買日期與當前日期相距的天數R( Recency)。本文電子商務客戶流失分析選用2018年某電商平臺客戶交易數據庫中的2000個訂單數據,其中非流失客戶有580個,流失客戶有1420個,并將非流失客戶量化為0,流失客戶量化為1。

3 模型建立與評估

3.1 決策樹預測模型建立

決策樹預測模型建立的具體步驟為:

(1)導入數據。數據文件每組數據分4個字段:前3個字段分別為電子商務客戶的消費總頻率F( Frequency),消費總金額M( monetary) ,最后購買日期與當前日期相距的天數R( Recency)變量,第4個字段為客戶流失狀態。共2000組數據,為不失一般性,隨機選取1600組數據作為訓練集,剩余400組數據作為測試集。

(2)創建決策樹分類器。利用MATLAB自帶函數ClassificationTree.fit,即可基于訓練數據創建一個決策分類器。

(3)仿真測試。利用MATLAB自帶工具箱函數predict,即可對測試集數據進行仿真實驗。

(4)找出葉子節點所含的最小樣本數。如圖1所示,本文將葉子節點所包含的最小樣本數(minleaf)設置為10,此時交叉驗證誤差最小。

(5)剪枝。通過剪枝操作,使決策樹分類器更加簡化,同時交叉驗證誤差不變。根據訓練數據創建剪枝后的決策樹分類器,如圖2所示。

圖1 葉子節點含有的最小樣本數對決策樹性能的影響

圖2 剪枝后的決策樹分類器

3.2 支持向量機預測模型建立

將電子商務客戶的消費總頻率F(Frequency),消費總金額M(monetary) ,最后購買日期與當前日期相距的天數R(Recency)3個變量作為輸入特征值,客戶流失狀態作為輸出特征值。隨機選擇1600組數據作為SVM模型的訓練樣本,剩余400組數據作為測試樣本。具體步驟為:

(1)歸一化處理。用MATLAB中的mapminmax函數來對2000組樣本數據進行歸一化處理,防止特征值范圍過大或過小,影響模型的精確度。其中歸一化的范圍為[0,1]。

(2)選擇SVM的類型選為C-SVC,核函數選取精度較高的RBF函數。

(3)懲罰參數C與核函數參數g的選取兩者。對預測精度的影響較大,本文采用K-fold交叉驗證(K-fold Cross Validation,K-CV)的參數優化方法選擇最優參數,如圖3、圖4所示。

(4)將最佳參數(C,g)和訓練樣本代入SVC中,并得到精度較高的SVC模型。SVC模型預測結果,如圖5所示。

圖5 SVC模型預測結果

3.3 模型的評估

決策樹、支持向量機預測結果如表1所列。對表1預測結果進行分析,得到的結論如下:①相較于決策樹分類模型,支持向量機模型分類準確率更高。這主要是由于本文樣本數據量較少,支持向量機在解決小樣本問題中具有絕對的優勢。②決策樹分類精度較低,可能是因為本文數據樣本中各類別樣本數量不均衡,非流失客戶數量遠遠少于流失客戶數量,決策樹中信息增益結果偏向于具有更多數值的特征,故決策樹用在電子商務客戶流失預測中還有待優化。

表1 模型對預測樣本預測精度比較

4 結束語

本文的研究結果可為電商平臺提供決策支持,平臺可以根據預測結果采取相應措施挽留客戶,有效減少客戶的流失,具有較強的實用性。隨著電商網絡的發展,電商行業產生的客戶信息數據進一步增多,未來可考慮使用更深層次的數據挖掘技術處理海量數據。

猜你喜歡
數據挖掘模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 亚洲国产综合自在线另类| 色婷婷在线影院| 欧美日韩激情在线| 毛片视频网址| 色婷婷综合激情视频免费看| 无码一区二区波多野结衣播放搜索| 老司机久久99久久精品播放| 香蕉视频在线观看www| 九色视频线上播放| 国产又粗又猛又爽| 成人一级免费视频| 一级毛片网| 欧美特级AAAAAA视频免费观看| 成人在线观看不卡| 亚洲另类第一页| 多人乱p欧美在线观看| 国产欧美另类| 亚洲三级影院| 91亚洲视频下载| 在线免费亚洲无码视频| 在线观看视频一区二区| 伊人国产无码高清视频| 国产欧美视频综合二区| 国产精品成人免费视频99| 国产在线97| 四虎亚洲精品| 久久青草免费91观看| 很黄的网站在线观看| 91伊人国产| 精品视频一区二区观看| 日本一区高清| 69免费在线视频| 亚洲国产无码有码| 久久综合色播五月男人的天堂| 成人午夜视频免费看欧美| 欧美日本在线| 91网址在线播放| 免费看a毛片| www中文字幕在线观看| 精品91在线| 国产乱人免费视频| 视频在线观看一区二区| 欧美国产成人在线| 国产原创第一页在线观看| 亚洲无码不卡网| 国产一区二区三区精品久久呦| 国产精品福利在线观看无码卡| 亚洲人成在线精品| 欧美a级在线| 国产在线观看一区精品| 亚洲中文字幕av无码区| 香蕉99国内自产自拍视频| 好吊色妇女免费视频免费| 国产免费人成视频网| 99999久久久久久亚洲| 四虎永久在线精品影院| 九色视频最新网址| 国产成人亚洲精品蜜芽影院| 国产精女同一区二区三区久| 8090成人午夜精品| 亚洲高清无在码在线无弹窗| 日韩精品一区二区三区视频免费看| 日韩午夜福利在线观看| 国产中文在线亚洲精品官网| 精品99在线观看| 在线观看无码av五月花| 青青久久91| 亚洲男人在线天堂| 久久99热这里只有精品免费看| jizz在线观看| 亚洲制服丝袜第一页| 精品无码国产自产野外拍在线| 国产激情国语对白普通话| 免费国产不卡午夜福在线观看| 真实国产乱子伦视频| 自拍欧美亚洲| 国产精品永久久久久| 在线免费观看a视频| 亚洲人成在线精品| 欧美h在线观看| 久久永久免费人妻精品| 国产99视频在线|