卞天宇 張昌兵 李琛霖

摘? ?要:文章以研究隱式反饋數據中識別用戶購買行為為中心,應用特征工程和Lightgbm算法進行消費者購買行為研究,挖掘在線購物行為數據背后的深層次關系,從用戶的行為軌跡,分析用戶的行為特征、偏好與興趣,從而了解顧客的購物需求,最終達到提升電商平臺的購買預測效果的目的。
關鍵詞:隱式反饋;購買預測;特征工程;Lightgbm算法
1? ? 問題的提出
隨著互聯網技術的發展,人們步入信息過載時代。為了解決用戶搜尋有效信息需求以及提高商家的營銷能力,電商平臺需要挖掘用戶行為以此向客戶推送個性化商品提高購買轉化率。隱式反饋基于用戶使用APP時留下的自然行為,比如點擊、加入購物車、購買等行為,從用戶行為中“揣摩”喜好。隱式反饋的優勢不僅限于數據收集效率,對用戶行為的深度挖掘可以提高平臺收入,準確定位用戶需求,基于用戶行為的特征提取以及模型構建可以提高購買預測準確率,減少用戶搜索時間,從而減少用戶流失。
近年來,一些學者正嘗試將機器學習算法和顧客購物行為數據結合起來構建預測模型。相關研究有:胡東波等[1]使用Decision tree算法對電子商務消費者調查問卷進行挖掘。張少帥[2]使用聚類克隆馬爾科夫模型對電子商務用戶的購買行為進行預測。楊瓊等[3]使用樸素貝葉斯對滿足特定條件的顧客購買行為進行預測。Silahtaroglu G等[4]使用了神經網絡來預測消費者是否會購買購物車里的商品。上述文獻在特征構造上沒有重視構造基于原始特征的組合和交叉特征,在模型方面仍處于對傳統樹模型的改進階段。本文將以消費者購買行為為研究中心,通過特征工程和將Lightgbm算法應用于對隱式反饋數據中購買行為的識別,發現用戶的行為特征,了解顧客的需求,實現精準營銷,以期提升電商平臺的購買預測效果。
2? ? Lightgbm算法的相關理論
2016年中國學者陳天奇設計Xgboost算法模型在眾多機器學習任務和國際重大數據競賽取得了優異成績,2017年,Lightgbm作為微軟亞洲研究院開源的模型,則是在Xgboost上進一步改進,而這兩者都是基于GBDT梯度提升決策樹這一經典模型衍變而來的。
GBDT具有訓練效果好、不易過擬合等優點,在工業界有著較廣泛的應用,常被用于點擊率的預測、搜索排序等任務。
Xgboost較傳統的GBDT算法的優勢在于:傳統的GBDT只利用了一階的導數信息,而Xgboost對損失函數進行了二階的泰勒展開,求得模型最優解的效率更高。
Lighgbm中的決策樹子模型是采用葉子分裂方法分裂節點的,因此,計算代價比較小,也正是因為選擇了這種分裂方式,需要控制樹的深度和每個葉子節點的最小數據量,從而避免過擬合現象的發生。
由于本文隱式反饋數據具有數據量大、數據稀疏、后期構造的特征維度大且許多特征存在缺失值等諸多劣勢,而Lighgbm的數據并行和投票并行恰好可以解決上述問題。
由于樣本嚴重失衡,正負樣本比達1∶67,所以本次實驗中模型的效果評估采用F1指標,F1指標實際上是預測準確率和召回率的調和平均數。
3? ? 模型檢驗
3.1? 數據來源
本文數據集來源于阿里AI天池社區,包含了2017年11月25日至2017年12月3日,約100萬隨機用戶的所有行為。即數據集的每一行表示一條用戶行為,由用戶ID、商品ID、商品類目ID、行為類型和時間戳組成,并以逗號分隔。
3.2? 數據處理
從原始數據1 000 000萬用戶中隨機抽取9 688個用戶, 通過數據觀察可發現部分用戶在2017年11月25日至2017年12月3日只有瀏覽行為,沒有購買行為,這類用戶疑似刷單用戶。部分用戶瀏覽、收藏、加購物車記錄均為0,但是卻有購買記錄,這類用戶疑似刷單用戶。剔除這兩類用戶及這兩類用戶的所有行為后,還剩下9 076個用戶及所產生的956 287條行為。
3.3? 數據分析
通過數據可視化探索,可以發現重要規律。圖1為購買轉化率在距考察日(12月3日)時間上的分布。
基于圖1數據探索,將重點關注考察日前3日的用戶行為及他們加購購物車的行為,為了加快訓練速度,訓練集最終只保留3日內有交互信息的用戶和商品。所以,實驗將12月3日的購買記錄作為測試集,12月2日當日的數據作為驗證集,將11月29日至12月1日作為訓練集并構建特征,然后用12月2日的購買記錄來標記訓練集并用于調節訓練集模型效果,最終訓練好模型后,將11月29日至12月2日的數據合并構建特征,然后一起放入模型,并將模型預測結果與測試集進行比對。
3.4? 特征工程及數據結構
隱式反饋的原始數據未經過特征提取這一重要步驟,基本學習不到任何信息,更何況用戶對商品的喜好信息。所以,本次實驗構造了6個特征群,分別是U基礎特征群、I基礎特征群、C基礎特征群、U_I交叉特征群、U_C交叉特征群和I_C交叉特征群,總計為510個特征。
部分特征舉例:U_51為用戶在據觀察日一日內加購物車的購買轉化率,該轉化率越高,在一定程度上說明該用戶的購買能力就越強。
U_I_37為用戶在據觀察日一日內對該商品的交互次數占該用戶當日總交互次數的比例,占比越高,在一定程度上反映了該用戶對該商品關注是大于其他商品的。
3.5? 模型檢驗
將處理好的數據送進Lightgbm模型中去,經過參數調節,在最終的測試集上F1得分為6.79,同時選取了跟Lightgbm原理相似的兩個經典機器學習模型作為對比,xgboost和GBDT在測試集上F1得分分別為:6.32和5.96,可以看出Lightgbm在3個模型中效果最好,同時訓練耗時也可以接受,不失為一個不錯的結果。
4? ? 結語
實驗在對原始隱式反饋數據做了大量的特征工程的基礎上,Lightgbm算法能很好地運用于電商隱式反饋數據的購買預測,并且性能優異。本研究成果可以為電商平臺處理隱式反饋數據和進行購買預測提供一定有價值的參考。本課題有待進一步深入研究的領域主要有:(1)特征提取完全依賴人工,除工作量巨大外,盡管構建了大量豐富的特征,但有時難免出錯或遺漏,如能引入一些自動化特征提取方法,可以解決這個問題。(2)最終的預測結果僅使用了單一模型,如能使用模型融合的方法,可以克服單一模型的缺陷。
[參考文獻]
[1]胡東波,肖璇,周錦.基于數據挖掘的移動電子商務用戶群體特征分析[J].科技管理研究,2013(9):222-226.
[2]張少帥,唐莉莉,鄭署琳.預測模型在購物網站中的應用[J].現代計算機,2013(6):40-42.
[3]楊瓊,唐振平,陳建華,等.基于模糊樸素貝葉斯方法的客戶消費行為預測研究[J].湖南科技學院學報,2013(12):122-127.
[4]SILAHTAROGLU G,DONERTASLI H.Analysis and prediction of E-customers behavior by mining clickstream data[C]. Canifornia:International Conference on Big Data. IEEE,2015.