王克利 鄧飛其
【摘要】淘寶網(wǎng)站能夠收集到海量用戶的購物行為日志,它使得掌握用戶的購物偏好成為了可能。盡管用戶的購買模式具有高度的多樣性和自由性,但是周期性的購買是非常頻繁的現(xiàn)象。因此尋找用戶的周期行為對了解用戶對商戶的偏好非常重要。本文基于2017年阿里巴巴競賽所獲得的數(shù)據(jù),從海量的購物行為數(shù)據(jù)中挖掘了用戶特征、商戶特征和用戶-商戶特征,對尋常情境下新用戶未來在同一家店鋪再次購買行為的預(yù)測進行了研究。此外,針對訓(xùn)練數(shù)據(jù)中類別及不平衡的問題,提出隨機抽樣并賦予各類別不同權(quán)重相結(jié)合的策略,并基于該策略將訓(xùn)練樣本劃分為6組,分別用SVM與隨機森林訓(xùn)練多個預(yù)測模型。最后,通過集成將這多個預(yù)測模型共同進行預(yù)測。通過實驗驗證,所提出的組合預(yù)測方法具有很高的有效性。
【關(guān)鍵詞】組合預(yù)測方法 SVM模型 隨機森林 集成學(xué)習(xí) 客戶重復(fù)購買
一、引言
隨著人類進入信息時代的步伐加快,電子商務(wù)網(wǎng)站也越來越流行。截至2017年6月,中國網(wǎng)民規(guī)模達7.51億,其中網(wǎng)絡(luò)購物用戶規(guī)模達到5.14億。商家為了發(fā)展忠誠的客戶,有時在特定日期(例如,“雙11(11月11日)”)進行大型促銷以吸引大量的新買家,但是許多吸引的買家是一次性的交易獵手,這些促銷活動對銷售可能沒有長期的影響,因此為了大大降低促銷成本提高投資回報率(ROI),商家必須確定誰可以轉(zhuǎn)化為重復(fù)的買家。本文基于424170個不同的用戶、4995個不同的商戶從某年5月11日到11月12日在天貓的約5000萬條海量行為日志,建立用戶的商戶偏好,進行商戶篩選并預(yù)測他們在未來6個月內(nèi)再次在同一個商戶的購買行為。
傳統(tǒng)的用戶興趣度估計方法有:王微微等結(jié)合用戶的瀏覽內(nèi)容,采用期望最大化算法實現(xiàn)用戶聚類,將用戶劃分到對應(yīng)的簇,創(chuàng)建用戶的興趣度模型。但是聚類可能收斂到局部最小值,在大規(guī)模的數(shù)據(jù)集上收斂的較慢,而且運用期望不能準確的預(yù)測用戶的重復(fù)購買行為。
本文根據(jù)用戶對商戶的行為數(shù)據(jù)進行研究,提取了用戶對商戶的重要行為特征。根據(jù)這些特征,我們分別基于隨機森林和SVM構(gòu)造了分類模型。對新用戶未來六個月內(nèi)是否會再購買該商戶的商品進行預(yù)測,并實現(xiàn)了理想的預(yù)測結(jié)果。經(jīng)研究發(fā)現(xiàn),對于用戶海量購物行為數(shù)據(jù),若提取重要的特征信息,對于準確預(yù)測該用戶的行為取向具有重要的現(xiàn)實意義。針對訓(xùn)練數(shù)據(jù)中類別及不平衡的問題,我們對負樣本進行隨機欠采樣,對正樣本進行隨機過采樣。最后,通過集成將這多個預(yù)測模型共同進行預(yù)測如圖1所示:
二、模型算法
(一)SVM原理介紹
支持向量機的主要理念可以概括為兩點:第一,通過學(xué)習(xí)尋找最優(yōu)的分割超平面使得兩類之間的分割距離最大;第二,基于結(jié)構(gòu)風險最小化的理論去特征空間中找最優(yōu)的超平面。當支持向量機用于解決非線性問題時,這個方法是通過非線性映射將樣本空間映射到高維空間中或是無限維度的特征空間以至線性支持向量機的方法可用于求解非線性樣本空間中的分類問題。從樣本空間到特征空間的非線性映射如圖2。
(二)隨機森林原理
訓(xùn)練過程是從樹根節(jié)點開始,遞歸學(xué)習(xí)最優(yōu)的分裂函數(shù)來劃分該節(jié)點上的樣本,使得新生成的孩子節(jié)點上樣本純度不斷增加,直到滿足下列條件之一:(a)達到樹生成的最大深度;(b)節(jié)點樣本純度達到要求;(c)節(jié)點上樣本數(shù)目達到最小值。因此可使用該模型進行分類預(yù)測。
(三)集成原理
集成學(xué)習(xí)通過將多個分類器進行結(jié)合,獲得比單一分類器顯著優(yōu)越的泛化性能。為了使集成的分類器獲得盡可能好的性能,應(yīng)該使單個分類器間盡可能呈現(xiàn)多樣性。為獲取分類器的多樣性,我們的工作主要從三個方面進行:
第一,使用不完全相同的訓(xùn)練樣本訓(xùn)練分類器;
第二,使用不同的分類器模型進行訓(xùn)練,我們選擇SVM和隨機森林這兩類優(yōu)秀的分類器;
第三,設(shè)置分類器不同的參數(shù)進行訓(xùn)練。具體而言,我們將訓(xùn)練3個SVM模型和3個隨機森林模型,并且每一個模型所設(shè)置的參數(shù)都不一致。在預(yù)測階段,我們將每個分類器的輸出值進行簡單評價獲得最終的預(yù)測結(jié)果。
三、實證分析
阿里巴巴大數(shù)據(jù)競賽是阿里巴巴集團主辦,在阿里巴巴大數(shù)據(jù)科研平臺—“天池”上開展的基于“天貓”(購物網(wǎng)站)海量真實用戶訪問數(shù)據(jù)的Repeat Buyers Prediction-Challenge the Baseline大賽。阿里巴巴大數(shù)據(jù)競賽官方提供了某年5月到11月天貓部分購物行為數(shù)據(jù)。在競賽官方網(wǎng)站上提供的數(shù)據(jù)有9類,分別為用戶ID、商品ID、類別ID、商戶ID、品牌ID、用戶年齡、用戶性別、用戶對商戶的行為和操作時間。
其中,用戶對商戶行為類型包括點擊、加入購物車、購買和收藏4種。操作時間隱藏了年份但精確到了天的級別。每個商品ID僅限一家商戶所用。每個用戶ID對于相應(yīng)商戶都是新用戶。
(一)數(shù)據(jù)清洗及歸一化處理
在實驗之前,需要對數(shù)據(jù)進行清洗,使之有效。通過分析,我們對異常值做了處理:在所給數(shù)據(jù)中,我們將空值和記錄為NULL的值記為異常值。這種情況分別出現(xiàn)在用戶的年齡和性別中,為了提高預(yù)測的準確性我們分別用年齡的平均值與性別的平均值來代替年齡與性別中的異常值。
選取的特征在尺度上可能存在很大的差別。假設(shè)特征向量由兩個解釋變量構(gòu)成,第一個變量值范圍[0,1],第二個變量值范圍[0,1000000],這時就要把第二個變量的值調(diào)整為[0,1],這樣才能保證數(shù)據(jù)是單位方差。如果變量特征值的量級比其他特征值的方差還大,這個特征值就會主導(dǎo)學(xué)習(xí)算法的方向,導(dǎo)致其它變量的影響被忽略。通過對所選特征的統(tǒng)計分析,我們計算了所有訓(xùn)練集中每一維特征的均值(圖4)和標準差(圖5),因為數(shù)量級差別較大,為方便視圖我們?nèi)×藢?shù)來作圖。
由圖5可知,這些維度特征的數(shù)量級差別較大。為了使分類器的訓(xùn)練更加穩(wěn)定有效,我們對每一維特征都進行了標準化處理,將其歸一化至“0”均值和“1”方差的分布。endprint
(二)處理類別不平衡
為解決訓(xùn)練樣本類別不平衡的問題,研究者們過去進行了大量的工作,主要可以概括為四個方面:
第一,對大類別的樣本數(shù)據(jù)采用欠采樣的策略,減少大類別的樣本數(shù)量,使得各個類別的樣本數(shù)量均衡。
第二,使用一些策略人工生成一些小類別的樣本數(shù)據(jù)。
第三,為各類樣本賦予不同的權(quán)重值,對大類賦予較小的權(quán)重,而對于小類則賦予較大的權(quán)重,使得類別在分布上達到平衡。
第四,對小類別樣本數(shù)據(jù)進行重復(fù)采樣以增加小類別的樣本數(shù)量。
其中第一中的方法不失為一種簡潔的策略,但是會造成樣本的極大浪費。而第二中的方法通過人工生成樣本數(shù)據(jù)在一些情況下生成的數(shù)據(jù)真實可靠性有待評估,甚至在某些情況人工生成的樣本反而導(dǎo)致系統(tǒng)最終性能的下降。為不浪費寶貴的訓(xùn)練數(shù)據(jù),充分發(fā)揮數(shù)據(jù)本身的價值。我們結(jié)合第二與第三中的方法,先對各類別的樣本以不同的采樣系數(shù)進行隨機抽樣,獲得6組訓(xùn)練集,然后對每組訓(xùn)練集中不同的類別賦予不同的權(quán)重系數(shù)。然后使用這6組訓(xùn)練集訓(xùn)練不同的分類器。在預(yù)測階段,平均各個分類器的預(yù)測值獲得最終的預(yù)測。使用這種策略有兩個好處:一方面可以很好解決類別不平衡的問題,不至于浪費樣本;另一方面,我們將訓(xùn)練樣本分成多組不同訓(xùn)練集訓(xùn)練分類器,可以使得各分類器間的多樣性更加豐富,最終使集成更加有效。
(三)特征分析
為分析用戶成為某一商店忠實客戶的概率,我們所選取的特征分為如下三類:基于用戶的特征、基于商戶的特征與基于用戶-商戶之間的特征。統(tǒng)計基于用戶的特征主要目的是分析用戶自身的偏好及購物習(xí)慣;統(tǒng)計基于商戶的特征主要目的是分析商戶在當前市場的受歡迎程度及商戶自身對忠實用戶的吸引力;統(tǒng)計用戶-商戶之間的特征主要目的是分析給定用戶及商戶之間所形成的關(guān)系,以得到更好的預(yù)測效果。具體提取的特征如表1:
(四)實驗結(jié)果分析
我們所獲取的淘寶用戶行為記錄數(shù)據(jù)由天池競賽平臺發(fā)布,其中帶有標簽的訓(xùn)練數(shù)據(jù)中包括20萬的負樣本和2萬的正樣本。我們使用其中的10萬負樣本和1萬正樣本用于模型的訓(xùn)練,總共分成6組訓(xùn)練集訓(xùn)練6個分類器模型,而剩余的樣本用于評估所訓(xùn)練的分類器的預(yù)測性能。
基于表1所列的特征,我們分別訓(xùn)練了SVM和隨機森林預(yù)測模型,將未來半年新用戶是否會再次在同一家商戶購買的問題轉(zhuǎn)化為一個樣本分類的問題,這樣可以運用機器學(xué)習(xí)的分類算法來預(yù)測未來的購買行為,最后運用集成將分類器的效果組合起來。
我們使用AUC來作為預(yù)測精度的指標。統(tǒng)計一下所有的 M×N(M為正類樣本的數(shù)目,N為負類樣本的數(shù)目)個正負樣本對中,有多少個組中的正樣本的score大于負樣本的score。當二元組中正負樣本的score相等的時候,按照0.5計算,然后除以MN。實現(xiàn)這個方法的復(fù)雜度為O(n^2),n為樣本數(shù)(即n=M+N)。
從實驗結(jié)果中可以觀察到,在單個分類器的情形下,使用我們的特征基本可以獲得0.64的分數(shù)。如果使用我們的采樣策略訓(xùn)練分類器,結(jié)合多個分類器的輸出,可以進一步大幅提升預(yù)測結(jié)果的準確性。
我們使用AUC作為模型的性能評價指標,各模型的AUC分數(shù)如表2所示:
由上表可知:SVM模型的精度要高于隨機森林模型的精度,但運用集成將兩種模型組合起來的精度更高,效果更好。根據(jù)以上信息可知,我們能夠有效的根據(jù)用戶的偏好進行再次購買行為的預(yù)測。
四、結(jié)束語
本文基于2017年阿里巴巴大數(shù)據(jù)競賽,在所給數(shù)據(jù)中研究用戶及商戶的特點,并從中提取有效特征,得出了預(yù)測用戶未來購買商戶的有效辦法。正確管理和利用這部分大數(shù)據(jù)基礎(chǔ)將為企業(yè)帶來豐厚利潤。運用大數(shù)據(jù)營銷,還可以有效幫助企業(yè)進行市場預(yù)測,及時發(fā)現(xiàn)市場機會、加快業(yè)務(wù)決策。該研究有助于在海量數(shù)據(jù)交易下商戶對電子用戶行為的把握,對商家大大降低促銷成本,提高投資回報率(ROI)具有重要的現(xiàn)實意義。
參考文獻
[1]中國互聯(lián)網(wǎng)信息中心.第40次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201708 /t20170803_69444.htm,2017-08-03.
[2]中國產(chǎn)業(yè)信息中心.2017年中國網(wǎng)絡(luò)購物應(yīng)用行業(yè)用戶規(guī)模及使用率走勢分析[EB/OL].http://www.chyxx.com/industry/201708/ 549105.html,2017-08-09.
[3]王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].計算機工程與應(yīng)用,2012,(08):148-151+199.
[4]Liu Z,Lv X,Liu K,etal.Study on SVM compared with the other text classification methods[C]//Education Technology and Computer Science (ETCS),2010 Second International Workshop on.IEEE,2010:219-222.
[5]Shi J,Lee W J,Liu Y,etal.Forecasting power output of photovoltaic systems based on weather classification and support vector machines[J].IEEE Transactions on Industry Applications,2012,48(3):1064-1069.
[6]Lin J Y,Cheng C T,Chau K W.Using support vectormachines for longterm discharge prediction[J].Hydrological Sciences Journal,2006,51(4):599-612.endprint
[7]Cui W,Yan X.Adaptive weighted least square support vector machine regression integrated with outlier detection and its application in QSAR[J].Chemometrics and Intelligent Laboratory Systems,2009,98(2):130-135.
[8]Li P,Xu S.Support vector machine and kernel function characteristic analysis in pattern recognition[J].Computer Engineering and Design,2005,26(2):302-304.
[9]Yongyi Chen,Xiaoding Yu,Xuehao Gao,Hanzhong Feng.A New Method For Non-Linear Classify And Non-Linear Regression:Introduction To Support VectorMachine[J].Quarterly Journal of Applied Meteorology,2004,15(03):345-354.
[10]Xiaodan Wang,Jiqin Wang.Research and Application of Support Vector Machine[J].Journal of Air Force Engineering University(Natural Science Edition),2004,5(03):49-55.
[11]Liaw A,Wiener M.Classification and regressionby random Forest[J].R news,2002,2(3):18-22.
[12]Biau G,Devroye L.On the layered nearest neighbor estimate,the bagged nearest neighbour estimateand the random forest method in regression and classification[J].Journal of Multivariate Analysis,2010,101(10):2499-2518.
[13]Immitzer M,Atzberger C,Koukal T.Tree species classification with random forest using very high spatial resolution 8-band WorldView-2 satellite data[J].Remote Sensing,2012,4(9):2661-2693.
[14]Jiang P,Wu H,Wang W,etal.MiPred:classification of real and pseudo microRNA precursors using random forest prediction model with combined features[J].Nucleic acids research,2007,35(suppl_2):W339-W344.
[15]Shi T,Seligson D,Belldegrun A S,etal.Tumor classification by tissue microarray profiling:random forest clustering applied to renal cell carcinoma[J].Modern Pathology,2005,18(4):547.
[16]Dietterich T G.Ensemble methods in machine learning[C]//International workshop on multiple classifier systems.Springer Berlin Heidelberg,2000:1-15.
[17]Yen S J,Lee Y S.Cluster-based under-sampling approaches for imbalanced data distributions[J].Expert Systems with Applications,2009,36(3):5718-5727.
[18]Huang J,Ling C X.Using AUC and accuracy in evaluating learning algorithms[J].IEEE Transactions on knowledge and Data Engineering,2005,17(3):299-310.
作者簡介:王克利(1991-),女,漢族,河南平頂山,華南理工大學(xué)碩士研究生,研究方向:數(shù)據(jù)挖掘;鄧飛其(1962-),男,教授,博士生導(dǎo)師,研究方向:隨機系統(tǒng)建模、分析與控制理論。endprint