●劉瑞琪 宋子琨
數據是生產的關鍵要素之一,它已經滲透到各行各業的功能領域。大數據又稱海量數據,主要是指其中所包含的數據規模龐大且結構復雜、從而無法通過傳統的方式將信息轉化為可以直觀理解的數據信息。因此,通過對大數據進行處理和分析,進一步挖掘出更深層次的價值并加以利用,將顯著提升企業的決策能力。
近年來,我國正在全面利用大數據等信息技術推動傳統產業的結構轉型與發展,實現新的經濟增長點及各產業間的融合發展。隨著移動互聯網的迅猛發展,各類電商平臺的運營逐漸趨于成熟,商家及用戶數量龐大、商品種類繁多,當消費者在網購平臺瀏覽商品時,大量無用商品的推薦無疑將會降低消費者的購買率。因此,運用大數據技術建立對用戶行為進行分析的推薦系統,挖掘用戶行為特征并進行個性化的商品推薦,從而有針對性地喚回老用戶并吸引新用戶,不僅可以降低用戶的選購時長并提高用戶對于網購平臺消費體驗的滿意度,還可以增加商家及網購平臺的收益。
基于此,本文利用天貓商城的真實消費數據,使用RFM模型與K-Means聚類分析對天貓用戶進行價值分類,從而為不同用戶提供個性化服務,實現了基于用戶分類的精準營銷。
本文的數據來源為天池平臺提供的天貓商城的真實消費數據,該數據集中包括了用戶基本信息數據、用戶消費數據及用戶購物行為數據3個部分,涵蓋了2018年4月1日至2019年3月31日期間在天貓平臺購買商品的用戶數據,共計539438條。其中,用戶基本信息數據集中主要記錄了性別、年齡層次、消費檔次等字段;用戶購物行為數據集中主要記錄了商品種類編號、消費者行為類型和訂單日期等字段。
在數據處理階段,本文對數據進行去除重復值、處理缺失值、特征選擇等預處理。第一是將字符型格式等日期字段轉換為DateTime類型,并計算用戶購買時間與2019年4月1日的時間間隔。第二是使用timedelta類型屬性的days方法實現諸如“1”“2”等天數的提取。第三是篩選行為類型為“pv”的記錄,再根據日期分組排序,并統計每天對應的購買記錄數量,即從用戶購物行為數據集中,篩選behavior_type字段等于“pv”的記錄,按照date字段分組同時進行升序排列,并計算出每日進行消費的用戶數量。
1.基于RFM模型的用戶價值分析。RFM模型通過消費時間間隔、消費頻率、消費金額3個指標對消費者的活躍度進行分層,從而實現對用戶價值的評估。其中,指標R代表最近一次消費(最近一次消費到截止時間的間隔),可以類比為消費者近期的活躍度;指標F代表客戶消費頻率,用以反映用戶近期的購物次數;指標M代表消費金額,用以反映消費者的消費能力。綜上所述,RFM模型就是對每一個用戶都從R、F、M三個維度進行評估,并據此將用戶劃分為重點潛力用戶、重點發展用戶、重點喚回用戶、高價值用戶、低價值用戶、一般發展用戶、一般維系用戶和一般價值用戶等八類。
本文在將數據引入RFM模型前,為了進一步了解用戶的消費習慣、消費行為及用戶本身的特性,首先根據用戶的購買行為進行數據分析與探索,計算用戶在各流程之間的漏斗模型,研究發現用戶在最后實際下單的流程中流失最多(見圖一、圖二)。
圖1 加購漏斗圖
圖2 收藏漏斗圖
接著,本文采用五分法(0.2、0.4、0.6、0.8)對經過預處理后的R、F、M數據進行分箱處理,將用戶等分為5個層級,分別標記為1-5分并賦予每一個用戶其相應的分類標簽,據此便可以有針對性的進行符合此類用戶特征的精準營銷,同時實現了平臺資源的利益最大化。
經數據處理后,天貓商城用戶消費數據集中的用戶被分為8類,其中高價值用戶占比為21%,此類用戶為平臺的核心用戶,因此需要保證該類用戶的留存率,即可以分析此類用戶的行為特征或進行用戶訪談,了解產品對于此類用戶的吸引力和平臺有待優化的問題。重點喚回用戶占比為14%,此類用戶過去在平臺上消費較多而最近并未產生消費,此類用戶在產品中有一定財富積累,但最近沒有消費可能是受競品影響或消費習慣發生改變,因此需要根據用戶歷史偏好,推送個性化內容從而喚回此類用戶。重要發展用戶和重點潛力用戶人數較少,占比僅為6.2%左右,此類用戶在平臺的消費次數較少但是在金額上貢獻較大,說明用戶一旦活躍就會大筆消費,因此需要提高此類用戶在平臺的活躍度。值得注意的是,低價值客戶占比為41.1%,在各種用戶類型中占比最大,此類用戶具有較大的流失風險,但可以不將其作為平臺的運營重點。
2.基于K-Means聚類的用戶價值分析。K-Means算法是一種基于數據劃分的無監督聚類算法,它以k為參數,把n個數據對象分成k個簇,使簇內具有較高的相似度,而簇間的相似度較低。由于RFM模型只涉及了天貓用戶消費數據集中order_count、time_gap、total_amount等變量,然而通過上述變量并不能充分挖掘用戶特征,因此本文使用K-Means聚類方法將其他變量引入,從而對用戶特征進行進一步挖掘。
由于K-Means算法中的隨機因數將導致每次運行結果都存在差異,本文為減少結果的偶然性,對每個k值重復計算了10次并對比每次計算結果的趨勢圖,選擇最明顯的拐點所對應的k值。受篇幅所限,本文并未報告拐點的趨勢圖,但計算結果顯示k=3時滿足要求,因此確定用戶被分為3類。接著,本文通過選取刻畫用戶的重要指標,用戶的id、用戶的年齡及用戶的購物深度以及性別這4個重要指標,將數據進行標準化,并通過K-Means聚類得到聚類后的3類。
K-Means聚類結果與RFM模型分類結果較為相似,其中聚類結果為一類的用戶特征較為明顯,此類用戶多為女性,購買頻次較高且消費金額較大,因此一類用戶為高價值用戶,其用戶數量為27347人,占比為53.21%;聚類結果為0類的消費群體年齡段較高,具有購買頻次多但消費金額較小的消費行為特征,因此0類用戶為中價值用戶,其用戶數量為13110人,占比為25.51%;聚類結果為二類的消費者中各指標均相對較低,因此二類用戶為低價值用戶,其用戶數量為10937人,占比為21.28%。
運用大數據的技術建立用戶推薦系統,挖掘用戶行為特征并進行個性化商品的推薦,不僅可以降低用戶的選購時長并提高用戶對于網購平臺消費體驗的滿意度,還可以增加網購商家及網購平臺的收益。本文利用天池平臺提供的天貓商城的真實消費數據,首先對數據進行了相應的預處理,最終數據集中包含51394條購買記錄,接著分別基于RFM模型和K-Means聚類方法實現了對天貓用戶的分類,從而為平臺為用戶提供精準營銷提供了相應建議。
RFM模型的分析結果顯示,重點發展客戶占比5%,高價值客戶占比22%,應重點關注這兩類客戶并提高用戶付費率,維系高價值用戶、重點發展用戶的忠誠度,保持企業良好收入。在客戶總數中占比為21.9%的高價值客戶和占比13.8%的重點發展客戶貢獻了85.8%的銷售額,因此,應當提高高價值客戶和重點發展客戶的消費金額,或是把重點發展客戶轉化為高價值客戶,即提升該客戶群的消費頻次。重要挽留客戶為1090人,首先應當考慮是否在計算周期內有大型促銷或降價活動,若有則轉化這部分客戶的難度會較大,平臺應重點發展其他類型客戶,若沒有則應當分析此類顧客的購買產品的特性從而提高其消費頻率并培養其在此平臺的消費習慣。新客戶人數為2143人,由于需要先把新客戶轉化為留存用戶,因此,在實際運營過程中,可以考慮把這部分客戶和重要挽留客戶放在一起轉化,提升消費頻率。流失客戶人數為1400人,對于銷售金額的貢獻占比較低,因此,需要進一步分析此類用戶群體的消費商品和消費時間,但由于此類用戶人數較多,對其進行分析耗時較長故可將其作為提升銷量的次要考慮因素。重要喚回客戶人數占比約為12%,此類用戶人數較少,但消費意愿和消費價值較高,可作為短期提升銷量的重點關注對象,通過運營活動,優惠活動刺激消費。
K-Means聚類分析的結果顯示,聚類結果中消費能力高,購物深度與層次較高,年齡指數較小,性別指數較大,這部分群體可能多為年輕女士,比較追求時尚、品牌及服務,對于此類在平臺有消費記錄且過往消費頻率和金額較高的用戶,屬于具有較高價值的核心用戶,本文認為可以為這類用戶提供VIP特權和更多的專屬服務,后續還可以對客戶追根溯源,找到高價值用戶對應標簽的客戶的個人信息,重點關注此類用戶的行為路徑或者對其開展用戶訪談,了解產品的優勢及反饋。針對近期活躍度較低、過往消費頻率和金額都較高的用戶,需要將其進行喚回并重新成為平臺的核心用戶。此外,還應當提高一般維系用戶、一般發展用戶的活躍度,并將其轉化為潛在客戶。