基于K-means算法的RFM模型的客戶細分研究

2023-06-25 23:37:59魏建兵

電腦知識與技術 2023年13期

魏建兵

摘要：客戶決定著企業存在的價值，能否滿足客戶需求是公司商業運作成功與否的關鍵所在。在復雜多變的市場情形中，只有那些了解客戶，把握市場變化，學習使用現階段先進的管理理論，將信息技術與數量分析方法相結合，對現有市場情況進行數據分析與決策的企業才可能成為市場的贏家。因此，愈來愈多的企業將關注的重點從以產品為中心的商業模式向以客戶為中心的新型商業模式轉移。該文通過結合RFM理論，運用數據挖掘，進行聚類分析并提取出相關規則，證明基于RFM模型的組合數據挖掘技術進行客戶細分及規則挖掘是有效的。

關鍵詞：K-means；RFM；客戶細分；數據挖掘

中圖分類號：TP391.9? ? ? ? ?文獻標識碼：A

文章編號：1009-3044（2023）13-0073-03

開放科學（資源服務）標識碼（OSID）

0 引言

H公司其主要產品是各類型電流穩壓器，是國家穩壓器定點生產廠家之一，具備全系列交流穩壓器的生產經驗。H公司同眾多企業一樣，迫切需要解決的一個問題也是其業務過程中累積的大量數據需要分析處理。H公司在數據分析處理中進行了三次數據處理：第一次為數據報表的統計階段，業務人員利用一些常用的計算機相關的統計軟件，對企業相關的靜態數據進行分類統計，這些數據將成為企業領導進行最終決策的重要依據；第二次是聯機事務處理或聯機分析處理階段，這個階段對統計報表進行優化，會進行一些多維分析及原因分析，如分析調查今年以來哪些產品是最有利潤的？最有利潤產品是不是和去年一樣？同時，進行一些簡單的預測功能，如銷售量的預測等；第三次是數據挖掘技術的應用，公司對經營運行過程匯總產生的數據，利用數據挖掘工具建立數學模型，如聚類模型、分類與預測、K-means[1]，快速聚類，系統聚類等。

1 數據的分析過程及方法

文章利用衡量客戶價值和客戶創造利益能力的RFM模型[2]，對相應客戶進行分析工作。第一步，預處理相關的數據集；第二步，利用RFM模型，利用聚類分析方法，輸入近度、頻度、值度，輸出客戶價值；第三步，利用數據挖掘相關算法，對每個類別的規則特征進行分析提取；第四步，客戶信息的結果描述，輸出按照類型分類的客戶規則，客戶數據庫為最近購買時間、購買頻率和總購買金額等。

1.1 數據預處理

排序處理對消費金額（值度）、購買頻率（頻度）分別進行排序，見表1和表2。

1.2 市場細分

溫德爾·史密斯（Wendell R·Smith）在其 1958 年發表的《市場營銷策略中的產品差異化與客戶細分》一文中指出：市場細分是指企業按照客戶屬性將客戶群體分為若干個子客戶群體，細分后客戶群體之間的差異最大化，每個客戶群體盡可能相似[3]。

為進一步有效地挖掘不同類別客戶，利用聚類分析對客戶數據進行有效分析，輸出不同類別客戶所隱藏的信息。針對不同客戶，企業利用這些信息可以采取不同的營銷策略，根據企業貢獻度的高低，優選相應的客戶類別，并在持續做好貢獻度高的客戶的同時，將貢獻度較低類的客戶通過優化策略發展成為貢獻度高的客戶[4]。

基于RFM的聚類分析可以按以下步驟進行：

第一步：確定聚類算法[5]，將數據集D劃分為若干個類C={C1，C2，...，Cp}。其中，D=C1∪C2∪...∪p；

第二步：選取：近度R（Re-cency）、頻度F（Frequency）和值度M（Monetary Value）。

第三步：對每一個Ci，i=1，2，...，p，歸納出能描述其特征的一條或幾條規則。

1.3 規則的挖掘

數據挖掘最關鍵的步驟就是挖掘數據庫中的潛在規則。可以利用數據挖掘工具完成，這也是數據分析過程的關鍵所在。

2 建模仿真

本案例采用TipDM 數據挖掘在線建模平臺中的k-Means聚類分析[4]和Apriori關聯規則挖掘等算法進行模型構建。

2.1 數據預處理

在C-company業務數據表中共收集了2019年到2022年的客戶交易記錄，刪除冗余。轉變成合適的格式，保存規范的業務記錄，業務記錄表包括最近購買時間、購買頻次和總購預買金額等。對原始數據進行預處理得到合適的格式，詳細步驟如下：

1）定義RFM的取值范圍[6]，如劃分為5等份，分別為5至1等。對于R-Recency值，如最近合同時間是2022年定為5，2021年定義為4，依此類推。對F-Frequency、M-Monetary也分別類似處理。

2）對客戶數據表中的每一條客戶記錄量化以后，得到RFM 量化結果，包括客戶ID、R-Recency、F-Frequency、M-Monetary。

3）分別評估R（近度）、F（頻度）、M（值度）的權重，事實上它們的權重應該是相同的。

2.2 K-means聚類分析

預處理后產生的RFM數值，利用聚類方法對各大區的x個客戶分5類得到的初始聚類中心值為：C1（3.21， 1.38， 1.76） C2（1.84， 1.24， 1.70）

C3（1.95， 1.27， 1.11） C4（2.29， 2.13， 3.78）

C5（1.89， 1.22， 1.08）

然后，運用K-均值聚類算法[3]，完成數據集的聚類分析，這樣，我們就得到了每一個客戶所屬的聚類類別，通過聚類方法找到了對企業具有重要價值的客戶[7]。

2.3 特征規則提取

選取UCI數據集中balance scale ，congressional voting records， hepatitis， iris plant ， statlogaustralian credit approval及 statlog german credit共六個數據集作為實驗數據集，分別應用Single NN（single neural network）方法、GMDH網絡方法（Knowledgeminer）、神經網絡方法（Clementine）、C4.5決策樹方法（weka）進行對比分析。將每一個數據集分成5部分，以每一個為檢測集，其他四個為學習集，五次運行后的平均結果為最終結果。

對于balance-scale數據集，按順序選取500個樣本構成學習集，125個樣本構成檢測集，運用GMDH網絡分類得到的結果是：學習集中47個錯誤，錯誤率9.4%；在檢測集中8個錯誤，錯誤率6.4%。再分別任選一部分作檢測集，其余四部分作為學習集重復運行五次，對檢測集中分類錯誤平均，得到檢測集中平均錯誤率為13.44%（5次共84個錯誤）。

提取的 L 類特征規則是：

IF NOT - A1& C1 OR NOT - B1&D1

THEN L

如果左、右兩邊重量都不是1，或者左、右兩邊距離都不為1，則屬于L類。

對于其他數據集，使用不同方法同樣處理，得到分類錯誤率如表3所示。同樣，對于連續型屬性，將某個連續屬性的取值分成若干個區間，將連續屬性離散化，再建立規則輸入輸出模型。

上面列出一些錯誤情況對比，可用Friedman統計檢驗方法對各算法之間是否有顯著差異進行判斷。設[rji]是第j個算法在第i個數據集上的排序，Firedman檢驗比較各種算法的平均排序[Rj=1Nirji]。Firedman檢驗的零假設是各算法表現是一樣的，即它們的平均排序相同。

Firedman檢驗：

[x2F=12Nk（k+1）jR2j-k（k+1）24]，服從自由度為k?1的卡方分布。在此基礎上，Iman 和 Davenport指出Firedman過于保守，他們提出了另一種更好的統計檢驗：[FF=（N-1）x2FN（k-1）-x2F]服從自由度為k?1和（k?1）（N?1）的F分布。

引入秩后表后，GMDH網絡方法要好于其他三種方法，因GMDH的平均秩為最大，所以可用Holm方法對算法進行進一步的檢驗。Holm檢驗從最顯著的p1值開始，如果p1<α/（k?1），拒絕相應的零假設，同時進一步比較p2和α/（k?2），如果第2個假設被拒絕，則繼續第3個比較，直至被接受為止。令[z=（Ri-Rj）k（k+1）6N]，z值用于從正態分布表中查找相應的概率值（[p（x≥z）=2*（1-p（x≤z））]），然后將概率值與相應的α（0.05）進行比較。

從Holm檢驗可以看到，0.004<0.017，顯然， C4.5 Rule要劣于GMDH方法。但由于0.072>0.025，0.116>0.05，因此，在95%的置信度下不能拒絕零假設，即神經網絡方法劣于GMDH方法并不明顯。

通過實驗，GMDH網絡方法具備較好的特征提取能力，由于需要預先知道樣本的類型，所以在企業面對眾多客戶的情況下，結合聚類和GMDH網絡進行特征規則挖掘是一種有效而實用的方法。在本例中，通過TIPDM完成對客戶進行聚類分析后，我們就知道了每個客戶分別屬于哪類客戶（客戶價值），然后在此基礎上運用GMDH網絡方法提取出一些規則特征。這樣，聚類后通過提取規則，就從客戶關系數據庫中得到了一些描述規則，這些規則概括了數據集中不同概念的特征，從而使公司的營銷活動更有針對性。有了這些特征規則，決策者可以作出一個正確的銷售和廣告宣傳決策[6]。

2.4 Apriori算法產生強關聯規則

2.4.1 算法過程

通過Apriori算法，對數據庫的多次掃描來發現所有的頻繁項目集，在每一次掃描中只考慮具有同一長度（即項目集中所含項目的個數）的所有項目集，在第一次掃描中計算所有單個項目的支持度，生成所有長度為1的頻繁項目集。在后續的每一次掃描中，首先以K-1次掃描所生成的所有頻繁項目集為基礎產生新的候選項目集。然后，掃描數據庫，計算這些候選項目集的支持度，刪除其支持度低于用戶給定的最小支持的項目集。最后，生成所有長度為K的頻繁項目集。重復過程，直至再也找不到新的頻繁項目集為止[8]。產品項目表如表4所示。

這樣，就得到一個頻繁 3 項集{SBW?30，SBW?50，SBW?100}，它的所有非空真子集有：{SBW?30}，{SBW?50}，{SBW?100}，{SBW?30，SBW?50}，{SBW?30，SBW?100}，{SBW?50，SBW?100}，設最小置信度為50%，則可以輸出強關聯規則如：SBW?50?SBW?30∧SBW?100，置信度（2/3=67%），支持度（2/3=67%）。

2.4.2 TIPDM挖掘關聯規則

通過TIPDM對 Apriori算法的實現，就可以從銷售數據庫中挖掘出關聯規則了。如計算得到的{SBW?30? SBW?50? SBW?100}及{SBW?100? SBW?180? SBW?400}，均為支持度大于2的頻繁3項集，同樣可以計算出各個產品間的置信度。例：SBW?100?SBW?180∧SBW?400，因SBW?100的支持度計數為38，而SBW?180∧SBW?400的支持度計數為2，即SBW?100?SBW?180∧SBW?400的置信度（2/38=5.26%），購買SBW100的5.26%的客戶，可能性會同時購買SBW180和SBW400，但由SBW?180?SBW?400置信度（10/18=55.56%），即購買了SBW180的客戶很可能（55.56%的可能性）會同時購買SBW400。這樣，企業就可以據此采取相應的促銷措施，開展交叉銷售活動，從而促進更多產品的銷售，更好地滿足客戶需求。

3 結論

隨著世界經濟一體化進程的加速，企業可利用數據挖掘技術進行客戶特征規則提取及關聯規則挖掘。利用RFM模型，聚類方法，通過對神經網絡方法、C4.5方法及GMDH網絡方法在六個UCI數據集上的比較實驗，確認幾種算法之間是有差異的，并指出結合聚類（客戶細分）與GMDH網絡方法建立模型，從而提取出特征規則是比較理想與可行的一種方法。

綜上，文章通過運用組合數據挖掘技術，將改進的K-means方法用于客戶細分，結合聚類與GMDH網絡提取客戶特征規則及Apriori挖掘出產品的關聯規則，證明進行客戶細分和規則挖掘是有效的。

參考文獻：

[1] 李明倩，王苗，劉芳.改進k-means的電網控制自動化系統數據聚類方法[J].機械與電子，2023，41（3）： 34-38.

[2] 程汝嬌，徐鴻雁.基于RFM模型的半監督聚類算法[J].計算機系統應用，2017，26（11）：170-175.

[3] 李明楊.基于無監督K-means聚類方法的移動公司客戶細分研究[J].通訊世界，2019，26（2）：8-10.

[4] 謝鵬壽，張寬，范宏進，等.汽車4S店TFM客戶細分模型及其方法研究[J].小型微型計算機系統，2019，40（10）：2165-2169.

[5] 才東陽.基于K-means聚類的計算機網絡信息安全風險評估方法[J].網絡安全技術與應用，2022（11）：30-31.

[6] 趙偉.基于RFM模型X公司客戶關系管理研究[D].北京：北京化工大學，2018.

[7] 白燕燕.基于客戶細分的潛在高價值客戶挖掘實證研究[D].蘭州：蘭州財經大學， 2017.

[8] 楊一男.基于數據挖掘技術的B2C企業客戶關系管理研究[D].沈陽：沈陽工業大學，2016.

【通聯編輯：代影】