基于K-means算法的客戶價值分析

2020-06-18 10:04:00

福建質量管理 2020年11期

(西安財經大學陜西西安 710100)

一、緒論

(一)研究背景

當今社會，不管是方便快捷的第三方支付工具，還是品類齊全的海淘網購，都從根本上改變了人們原有的生活狀態。從目前社會發展的狀況看，過去以產品價格為中心的策略不再是企業資源的主要投放重心，企業之間的競爭由之前以搶占市場份額的直接競爭逐漸演變為對于優質用戶的競爭。企業用戶價值管理是企業用戶關系管理成功應用的基礎和核心，對于現代企業來說，誰能夠更好的觸達用戶，誰就能夠能好掌握用戶的價值規律，從而將其轉變成企業自己的價值，得用戶者得天下。用戶價值管理的關鍵問題，則是對用戶進行分類，通過系統和科學的方法對用戶進行分類，分類出不同價值類型的用戶，然后針對他們制定個性化服務，采取分層的營銷策略，力求將有限營銷資源最大化的集中于高價值用戶，從而為實現企業利潤的最大化目標提供有力保障。

(二)本文的研究思路、目的

本論文主要研究的是某電商平臺客戶價值分析，應用機器學習分類算法中的K-means算法結合用戶管理RFM模型對客戶進行分類。

研究思路：本文依據在某電商平臺爬取的用戶交易數據，從用戶價值管理的角度進行該平臺用戶價值分析，目的在于對該平臺用戶關系進行細分，以幫助平臺維護現有用戶關系，有效管理平臺用戶網，從而對平臺用戶進行個性化營銷服務。通過提取一定時間區間內用戶交易數據并對其進行處理和分析，建立合理的用戶價值評估模型，將用戶分為不同的群體，然后通過分析比較不同用戶群的價值特征，提取出相應的行為偏好，平臺針對這些行為偏好采取相對應的營銷策略，從而增加用戶的粘性和各類型用戶的價值。

研究框架：

(1)提取一定時間段內的該電商平臺用戶交易數據作為原始數據進行分析研究。

(2)在原始數據的基礎上，進行數據清洗、屬性規約、數據變換等處理，并進行標準化處理。

(3)在用戶關系管理RFM模型的基礎上，對該平臺的用戶進行價值分析。

(4)運用聚類分析算法對用戶行為數據進行聚類，將用戶分為不同價值的群體。

(5)對于不同用戶群的價值特征進行分析，為該平臺制定分層的營銷策略提供參考意見。

二、理論基礎

(一)聚類分析

聚類分析是數據挖掘中的一項重要技術，是分析數據并從中發現有用信息的一種有效手段。聚類是按照事物的某些屬性，將數據對象分類，即與“物以聚類”相似。聚類分析就是使用聚類算法來發現有意義的類，將未標記的樣本自動劃分成由類似的對象組成的多個類簇，用于對未知類別的樣本進行劃分，將它們按照一定的規則劃分成若干個類族，把相似的樣本聚在同一個類簇中，把不相似的樣本分為不同類簇，從而揭示樣本之間內在的性質以及相互之間的聯系規律。

(二)k-means算法

1.k-means算法思想

k-means聚類算法是基于原型的聚類算法，即假設聚類結構可以通過一組樣本空間中具有代表性的點來刻畫，是目前最簡單、最常用的方法，這類算法就是對樣本空間中具有代表性的點進行初始化，然后對原型進行迭代更新求解。通過將對象劃分為互斥的簇進行聚類，每個對象屬于且僅屬于一個簇，劃分結果旨在使簇之間的相似性低，簇內部的相似度高，該算法通過計算樣本點與類簇質心的距離，與類簇質心相近的樣本點劃分為同一類簇。k-means算法通過樣本間的距離來衡量它們之間的相似度，兩個樣本距離越遠，則相似度越低，否則相似度越高。其中選用不同的原型表示，不同的求解方式，產生的算法不同。k-means是聚類算法中常見的一種，其中k表示所要聚的類別數，means表示均值。通常我們預先定好類別數k，然后再確定每個類別初始的聚類中心，再通過每個類別的初始聚類中心對相似的樣本數據點進行分類，最后通過不斷重新優化聚類中心來達到對聚類結果的優化。

k值決定了初始聚類中心的數量。在初始階段，選擇合適的聚類中心是算法訓練到好結果的關鍵。常見的方法是隨機選取初始聚類中心，這樣往往會使形成的類別質量不高，對聚類結果會產生一定的影響。目前最簡單的選取初始聚類中心的方法是產生多組隨機初始聚類中心，然后根據每組聚類中心分別計算他們的誤差平方和，在結果中選取最小的那一個分類作為初始聚類中心。這種方法執行起來簡單，但是誤差可能較大。另一種選擇初始聚類中心的方法是首先隨機產生第一個聚類中心或者選取所有樣本點作為初始聚類中心，然后選擇離上一個聚類中心最遠的點作為新的聚類中心。這種方法不僅使初始聚類中心隨機產生，而且還保證了不同聚類中心之間是相互分散的。這種方法的問題是有可能選中離群點作為聚類中心，所以該方法通常用作求點樣本的初始聚類中心，原因是點樣本的離群點很少，大多數情況下不會出現在隨機樣本中。因此k-means聚類算法難點是隨機選擇聚類中心位置、個數。

2.k-means算法步驟

首先隨機選取k個類簇的質心，然后對剩余的每個樣本點，計算它們到各個質心的歐式距離，并將其歸入到相互間距離最小的質心所在的簇，計算各個新簇的質心。其次在所有樣本點都劃分完畢后，根據劃分情況重新計算各個簇的質心所在位置，然后迭代計算各個樣本點到各簇質心的距離，對所有樣本點重新進行劃分。最后重復以上過程,直到迭代計算后，所有樣本點的劃分情況保持不變，此時說明k-means算法得到了最優解，將運行結果返回。

3.k-means算法優缺點

k-means算法原理簡單、容易實現且運行效率比較高；k-means算法聚類結果容易解釋，適用于高維數據的聚類。k-means算法采用貪心策略，導致容易局部收斂，在大規模數據集上求解較慢；該算法對離群點和噪聲點非常敏感，少量的離群點和噪聲點可能對算法求平均值產生極大影響，從而影響聚類結果；k-means算法中初始聚類中心的選取對算法結果影響很大，不同的初始中心可能會導致不同的聚類結果；k-means只能處理數值型數據或者凸型數據分布的樣本。

三、基于RFM模型的客戶價值分析

客戶關系管理已成為企業管理戰略轉變的關鍵部分，而客戶關系管理的核心問題是對不同類型的客戶進行價值分類，采用不同的定制化營銷策略，更好地服務顧客，以最大限度地實現企業的效益。客戶細分是20世紀50年代中期由美國學者溫德爾史密斯提出的，其理論依據是顧客需求的異質性和企業需要在有限資源的基礎上進行有效的市場競爭，是指企業在明確的戰略業務模式和特定的市場中，根據客戶的屬性、行為、需求、偏好以及價值等因素對客戶進行分類，并提供有針對性的產品，服務和營銷模式。

(一)RFM模型簡介

1.RFM模型思想

RFM(Recency,Frequency,Monetary)模型是上世紀90年代提出的一種從企業角度考慮的可較全面分析客戶購買行為的客戶價值模型。模型包括3個指標：近度(Recency)R、頻率(Frequency)F及額度(Monetary)M，分別表示最近的上次消費時間離樣本數據截止日的時間距離、研究期限內(樣本的時間跨度)的消費次數和消費總金額。消費近度越小，表示客戶在近段時間內有消費行為，并且消費近度越小和消費頻率越大，表示客戶忠誠度較高，下一次消費可能性較大；額度是企業衡量客戶利益價值的直接標準，額度越大說明客戶價值越高。RFM模型計算所需的客戶消費數據簡單易得且模型計算方便，因此，企業可以使用RFM模型衡量客戶價值，并使用RFM模型指標對客戶進行分類。RFM模型是最典型的衡量用戶價值和用戶創利能力的重要工具與手段，是用于評估客戶已有價值和用戶潛在價值的一套重要方法，企業通過對用戶群體分層能夠更準確地將成本和精力花在更精確的用戶層次身上，該模型早被廣泛應用在各個行業中。

RFM模型計算客戶價值公式如下所示：

其中：CRFMi指客戶i的綜合RFM值；

ωR、ωF、ωM分別是R、F、M在計算客戶價值的權重；

在大多數的RFM模型應用時，識別客戶價值時各指標的權重相同，評估模型的關鍵在指標和權重兩個方面。

2.RFM模型指標含義

R(Recency):客戶最近一次交易時間的間隔。R值越大，表示客戶交易發生的日期越久，反之則表示客戶交易發生的日期越近。

F(Frequency):客戶在最近一段時間內交易的次數。F值越大，表示客戶交易越頻繁，反之則表示客戶交易不夠活躍。

M(Monetary):客戶在最近一段時間內交易的金額。M值越大，表示客戶價值越高，反之則表示客戶價值越低。

R、F、M三個值，R與效果成反比，其他兩個均成正比。根據R、F、M指標值以及企業自身需求可以將客戶類型靈活劃分為4類或8類等。本文以將用戶劃分為4個類別為例。

表1 RFM模型指標客戶分類表

(二)RFM聚類分析

RFM模型是計算客戶價值并進行客戶細分的重要方法，使企業和客戶能夠相互進行個性化與精準化的管理服務，并且RFM模型能夠使企業快速的計算出客戶的潛在價值及客戶的生命周期價值。聚類分析方法是一種屬于非監督型機器學習的數據挖掘方法，適用于大數據樣本和多變量分析任務。聚類分析是進行客戶細分的重要手段，在使用RFM模型時，有必要進行聚類分析。聚類可作為獨立的工具獲得數據分布情況，作為其他算法的預處理步驟，簡化計算工作，提高分析效率，其中K-means聚類算法常于客戶細分。綜上，本文在基于RFM模型的基礎上利用K-means聚類算法對某電商平臺交易數據對客戶價值進行細分識別。

(三)RFM模型建立

本文以在某電商平臺爬取的200條用戶交易數據為例，首先清洗出用戶首次投資時間、最近一次投資時間、投資總金額、投資總次數等數據，然后使用Python數據分析軟件構造R、F、M三個核心指標為維度進行聚類分析，其次利用K-means聚類算法將用戶分為4個類別，根據這4個類別的R、F、M指標值，對用戶進行標注。

RFM模型不需要任何的算法支撐，與數據建模中的邏輯回歸、聚類分析等是完全不同的概念。本文所有實現過程用Python代碼實現，RFM模型的核心就是將三個指標進行標簽化，然后根據實際場景業務需求進行分層即可。

1.數據抽取

本文數據來源于爬取的某電商平臺交易數據。數據以2019年7月20日為結束時間并作為提數日，選取從2019年6月至7月20為時間段作為分析觀測窗口，期間所有用戶的詳細交易數據形成原始數據。從數據結果來看，這一時間段內有過交易用戶數據總共有200條記錄。其中清洗出所需要的用戶ID、用戶首次投資時間、最近一次投資時間、投資總金額、投資總次數等屬性數據。

2.數據預處理

數據預處理主要包括三個步驟，第一是數據清洗，第二是屬性規約，第三是數據變換。

(1)數據清洗

通過觀察發現，數據中存在部分缺失值，由于這部分數據在原始數據中占比較小，對分析研究沒有太大的影響，因此對其進行刪除。

(2)屬性規約

由于原始數據中的屬性太多，其中有些屬性對于分析研究并沒有太大的意義，所以需要對其進行篩選。根據需要選取用戶ID、用戶首次投資時間、最近一次投資時間、投資總金額、投資總次數等屬性，刪除其他不相關、弱相關或者冗余的屬性，例如：性別、年齡、交易方式等屬性。

(3)數據變換

數據變換是指需要將數據轉換成“適當的”格式，以適應挖掘任務及算法的需要。首先，由于原始數據中并沒有直接給出用戶交易的在投時長，只給出了用戶首次的交易時間，所以需要通過數據變換得出用戶在投時長這一指標。由于選取的分析觀測窗口為2019年6月1日到2019年7月20日，所以用戶在投時長指標可以表示為：

用戶在投時長=提數日-首次交易時間

其次，得出用戶在投時長后需要構造RFM模型的三個指標值，其計算方式如下：

R(最近一次投資時間距提數日的天數)=提數日-最近一次投資時間

F(月均投資次數)=投資總次數/用戶在投時長

M(月均投資金額)=投資總金額/用戶在投時長

最后，從數據中可以發現，R指標、F指標及M指標取值范圍數據差異較大，在利用k-means聚類算法分析數據之前，需要將數據進行標準化變換，上述指標數據標準化處理之后，將原始數據均轉換為無量綱化指標評估值，即各指標值都處于相同的數量級別，進行綜合評估分析。考慮到RFM模型各特征的計量單位對聚類分析產生差異化影響，為消除數量級帶來的影響，因此對RFM模型中各指標進行取對數log10標準化變換。

3.基于RFM模型的K-means聚類

首先利用機器學習中k-means聚類算法將用戶分為4個類別；其次根據這4個類別的R、F、M指標，對所有用戶的進行標注，標注出哪些是超價值客戶、哪些是高價值客戶、哪些是一般價值客戶、哪些是低價值客戶。K-means聚類算法流程：

(1)首先，從N個樣本數據范圍中，隨機選擇K個樣本，將它們作為初始的聚類中心；

(2)然后分別計算每個樣本到各個聚類中心的距離，將對象歸到離它們距離最近的那個聚類中心所屬的類別中；

(3)所有對象分配到相應的類別完成后，再一次重新計算K個聚類的中心；

(4)將(3)新得到的K個聚類中心與前一次計算得到的K個聚類中心比較，如果聚類中心發生變化，轉向過程(2)，否則轉向過程(5)；

(5)當所有聚類中心不發生變化時，算法停止，并將聚類結果輸出。

采用K-means聚類算法對抽取的用戶群體進行分層，選取聚類中心為4個，獲得部分用戶類別標簽結果如下表：

表2 用戶類別標簽

按照用戶類別標簽分組統計R、F、M指標的均值，結果如下表所示：

表3 用戶聚類價值表

最后將4個類別用戶的三個指標值進行標準化均值處理，便于可視化觀察。

依據K-means聚類算法將200個用戶分為4類，分組計算出每個類別的R、F、M指標均值，根據得到的各指標均值可將200個用戶分為4類分別為超級用戶、高價值用戶、一般價值用戶、低價值用戶(如表3)。

4.客戶價值結果分析

對于本文基于RFM模型聚類得到的4類用戶分析如下：

超級用戶：這類用戶投資總金額(M)非常高，是該平臺最應該保持和持續發展的優質用戶。然而雖然該類用戶貢獻大，但這類用戶占比很小，該平臺應該優先將優勢資源集中投放到該類用戶身上，對他們進行差異化管理和一對一營銷，提高這類客戶的粘性。

高價值用戶：該類用戶的投資金額(M)、投資次數(F)相對較高，且投資時間(R)相對較低，說明是該平臺的老顧客，需要盡可能在維持該類用戶現有價值的基礎上，通過不同的引導消費提升其自身價值。

一般價值用戶：該類用戶的投資金額(M)、投資次數(F)相對較低，且投資時間(R)相對較長，該類用戶可能是該平臺的新用戶，對于平臺商品投資程度不高。應該給予他們適當關注，引導他們增加投資次數和金額。

低價值用戶：該類用戶的投資金額(M)、投資次數(F)最低，且投資時間(R)較長，可能該類用戶對平臺商品不太認可，可能造成用戶流失，總體表現為用戶價值較低。

當然，根據企業或者平臺需要，可以聚類為多個類別，進而依據聚類分析結果，為用戶提供個性化服務，或者精準營銷方式，提高客戶粘性，提升客戶的自身價值。

四、結論

本文依據爬取的某電商平臺某商品一段時間內的交易數據，基于用戶關系管理中的RFM模型以及機器學習K-means聚類算法，使用Python數據分析軟件對該平臺200位用戶交易數據進行聚類分析，將用戶分為超級用戶、高價值用戶、一般價值用戶、低價值用戶4個價值群，并對每一類用戶進行特征分析，對該平臺分析用戶的不同價值特征，增加客戶粘性，從而針對不同用戶層設計不同的分層營銷策略提供參考意見。

從聚類結果看，具有較高價值的重要保持用戶占該平臺用戶比例較小，而低價值用戶和一般價值用戶占比較高，說明該平臺用戶整體價值較低，可以根據用戶群體特征為不同用戶群提供不同的營銷方案以及商品推薦，達到最大化提升平臺利益。