郭磊 郭湖斌 趙荔
摘 要:隨著電子商務的快速發展,用戶之間異質性逐漸明顯。為了對用戶合理細分,本文通過逐次遞進的思想,借助經典RFM模型中的關鍵指標,選擇最后購買時間R作聚類簇類的控制因素。借助改進的K-Means算法對電商企業用戶進行聚類研究,從而得到合理的聚類分類結果及各簇類用戶的特征行為,為電子商務企業的精準營銷奠定了基礎。
關鍵詞:大數據;K-means;聚類分析;精準營銷
一、引言
大數據與人工智能的發展給人們生活帶來諸多的便利,主要得益于企業對信息技術和應用模型開發的大力投入。在電子商務領域,沃爾瑪和亞馬遜兩家行業領軍企業在用戶識別,分類和精準營銷等終端用戶行為研究和實際應用奠定了該領域的研究基礎。國內不少學者和企業在研究創新和管理實踐等方面做出了積極探索,并在提高用戶的購買轉化率和降低營銷成本等方面為企業帶來了一定經濟效益。在企業的客戶關系管理方面,如何有效地對用戶進行合理分類,是企業精準營銷的基礎。Cheng(2009)和Khajvand(2011)基于RFM(Recency,Frequency, Monetary)三個重要指標,應用數據挖掘技術通過計算價值貢獻對用戶進行分類,Jain對近50年的K-Mean的數據聚類分析方法進行了全面研究,龔婷和辛愛莉等分別在航空旅客和電子商務領域的用戶聚類做出了實踐研究。
綜上可見,在國內電子商務領域中,對用戶的分類研究多從特定的指標考慮,建立不同需求的模型進行分析。因此本文借助用戶分類模型中的經典指標及其歷史數據,選擇某一關鍵指標作為控制因素,利用K-Means算法對滿足特定要求用戶的歷史數據進行聚類分類。基于機器學習的原理,使其屬性相似的用戶可以聚類在一簇,從而使得電子商務企業可以較為直觀地得到不同簇類的用戶特征,其研究結果對大數據背景下的用戶合理分類和精準營銷具有較強的參考價值。
二、理論及數據基礎
早在上個世紀初,意大利經濟學家Pareto在研究國民財富分配時,發現意大利20%的人口擁有該國80%的財富,從而提出著名的80/20法則。隨后一百多年的時間里,人們發現80/20法則不僅在經濟學領域,在管理學等領域也具有廣泛的應用,如公司80%的利潤來自于20%的用戶,即企業努力與該20%的用戶拓展合作,則對企業發展最有益處。
在當前大數據時代,企業在推廣、獲取和維系用戶等方面已經出現了革命性的創新。用戶及其指標之間也存在著巨大的差異,為此,針對不同的企業需要深入分析用戶及行為所產生的指標數據。假設企業共有n個用戶,則用戶們的多維指標數據可表示為:
在管理實踐方面,本文以國內某知名電子商務網站三年內近萬名注冊用戶數據為研究基礎,從中選擇至少登錄過一次,且有購買記錄的7418位用戶為研究對象,進行數據分類驗證。前期對用戶進行初始統計分析,發現用戶的購買次數與購買金額之間的相關性系數僅為0.517,屬于中性相關的,其兩者的分布分別如圖1、圖2所示
深入分析發現用戶平均購買金額為3198.9元,標準差為56321.6,其變異系數為17.6;用戶平均購買次數為16.8次,標準差為126.6,其變異系數為7.5,可見企業用戶之間異質性非常明顯,為了精準服務和管理,則需要對其進行合理分類。
三、聚類數據分析
隨著聚類簇數值的增大,用戶的分組也將更精確,同時簇中的聚合度也變得更高,即SSE下降趨勢會逐漸變小,在聚類數達真實值時,SSE下降緩慢,且趨于平穩,即再進行細分的話,已無實際意義。從圖3、圖4中可看出隨著族類數K繼續變大,當K值大于4時,SSE下降趨勢大幅減少,基本上趨于平穩,即應用K-Means算法分析時,選擇K=4時是適合當前用戶聚類分類精度要求的。
用戶的購買次數和購買金額是電商企業另外兩個重要的指標,為此本文應用K-Means算法進行分析,其實現的基本思想和路徑如下:
在K-Means分析結果中出現兩個特殊的聚類,即每個聚類之中僅各包括一值,購買金額分別為4820248.45元和1352426.22元。在這兩個聚類用戶數量極少,但是從購買金額角度來看,該用戶對電商企業來說又是極為重要的用戶,故需要電商企業投入較多資源進行重點維系。另外兩個聚類之中含有絕大數的用戶,且購買金額最大僅為912380.89元,故可對用戶購買金額角度不超過百萬的用戶群體重新K-Means聚類分析,其結果如圖6所示。為了達到電商企業對用戶合理分類的要求,再次應用上述理論和方法,運行程序后得到分析結果分別如圖7、圖8所示:
逐次應用K-Means聚類分析,一方面可以識別出數據中的奇異點,但是實際上又極為重視的用戶,另一方面使得用戶分類程度可控,結構清晰,其各聚類中的用戶分特征如下表所示。
從購買金額視角來看,其變異系數由整體17.6,降維到變異系數最大的一類僅1.34,其余各聚類的效果顯著,聚類內的變異系數均不超過0.4,即整體聚類分類效果成效顯著。在聚類0內,用戶購買金額與購買次數之相關性極低,即此類用戶購買次數的增加,并不會帶來用戶購買金額的增加,而是受到電商企業單筆超過百元免費配送的政策影響,此類用戶對于價格極為敏感,購買頻次也特別低,則需要增加低價值的產品品種數量,引導該類用戶購買電商企業高價值產品的營銷策略,從而提高該類用戶的貢獻度。聚類1用戶極少,但該用戶購買金額與聚類0的全部用戶金額接近,且其購買頻次和單均金額都特高,屬電商的戰略企業用戶,電商企業則需要派專業人員維系與該用戶的關系 。聚類2的用戶購買金額較大,購買頻次更高,但是單均金額不高,應屬電商企業的代銷用戶,電商企業則需派技術人員進行技術指導或幫助。其他聚類的用戶也表現了各自的特征,為電商企業的服務分配和精準營銷提供數據依據。
四、結論及擴展
隨著信息技術,特別是大數據等相關的技術快速發展,企業已有以較低經濟成本獲取用戶相關特性及用戶行為等數據的技術能力,同時隨著用戶數量的增加,用戶之間的差異性也逐漸擴大,本文通過選擇經典用戶行為影響指標,然后逐次運用K-means分析方法對已有歷史數據進行聚類研究,使得用戶分類層次清晰,同類用戶之間屬性和行為相對一致,便于企業對用戶進行合理分類,從而可為用戶提供精準服務,從而實現企業和用戶的雙贏。
參考文獻:
[1]Kumar, R., Analysis of wealth Walmart, in Strategic Financial Management Casebook[B]. Academic Press 2017(1).
[2]Boratto, L., et al., Using neural word embeddings to model user behavior and detect user segments[J]. Knowledge-Based Systems, 2016(108).
[3]李海麗.數據分析和挖掘在電商精細化運營中的應用[J].中國經貿,2017(15).
[4]劉春艷,等.客戶細分下的電商營銷策略研究[J].商業經濟研究,2016(1).
[5]Cheng,C.-H. and Y.-S. Chen,Classifying the segmentation of customer value via RFM model and RS theory[J].Expert Systems with Applications,2009(36).
[6]Khajvand,M.,et al.,Estimating customer lifetime value based on RFM analysis of customer purchase behavior: Case study[J].Procedia Computer Science,2011(3).
[7]Jain,A.K.,Data clustering:50 years beyond K-means[J].Pattern Recognition Letters,2010(31).
[8]龔婷,等.基于K-means的航空旅客聚類研究[J].價值工程,2018(37).
[9]辛愛莉,等.聚類算法在電子商務客戶細分中的應用[J].商場現代化,2008(5).
[10]Han,S.H et.al., Segmentation of telecom customers based on customer value by decision tree model[J]. Expert Systems with Applications, 2012(39).