999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means算法的RFM模型的客戶細分研究

2023-06-25 23:37:59魏建兵
電腦知識與技術 2023年13期
關鍵詞:數據挖掘

魏建兵

摘要:客戶決定著企業存在的價值,能否滿足客戶需求是公司商業運作成功與否的關鍵所在。在復雜多變的市場情形中,只有那些了解客戶,把握市場變化,學習使用現階段先進的管理理論,將信息技術與數量分析方法相結合,對現有市場情況進行數據分析與決策的企業才可能成為市場的贏家。因此,愈來愈多的企業將關注的重點從以產品為中心的商業模式向以客戶為中心的新型商業模式轉移。該文通過結合RFM理論,運用數據挖掘,進行聚類分析并提取出相關規則,證明基于RFM模型的組合數據挖掘技術進行客戶細分及規則挖掘是有效的。

關鍵詞:K-means;RFM;客戶細分;數據挖掘

中圖分類號:TP391.9? ? ? ? ?文獻標識碼:A

文章編號:1009-3044(2023)13-0073-03

開放科學(資源服務)標識碼(OSID)

0 引言

H公司其主要產品是各類型電流穩壓器,是國家穩壓器定點生產廠家之一,具備全系列交流穩壓器的生產經驗。H公司同眾多企業一樣,迫切需要解決的一個問題也是其業務過程中累積的大量數據需要分析處理。H公司在數據分析處理中進行了三次數據處理:第一次為數據報表的統計階段,業務人員利用一些常用的計算機相關的統計軟件,對企業相關的靜態數據進行分類統計,這些數據將成為企業領導進行最終決策的重要依據;第二次是聯機事務處理或聯機分析處理階段,這個階段對統計報表進行優化,會進行一些多維分析及原因分析,如分析調查今年以來哪些產品是最有利潤的?最有利潤產品是不是和去年一樣?同時,進行一些簡單的預測功能,如銷售量的預測等;第三次是數據挖掘技術的應用,公司對經營運行過程匯總產生的數據,利用數據挖掘工具建立數學模型,如聚類模型、分類與預測、K-means[1],快速聚類,系統聚類等。

1 數據的分析過程及方法

文章利用衡量客戶價值和客戶創造利益能力的RFM模型[2],對相應客戶進行分析工作。第一步,預處理相關的數據集;第二步,利用RFM模型,利用聚類分析方法,輸入近度、頻度、值度,輸出客戶價值;第三步,利用數據挖掘相關算法,對每個類別的規則特征進行分析提取;第四步,客戶信息的結果描述,輸出按照類型分類的客戶規則,客戶數據庫為最近購買時間、購買頻率和總購買金額等。

1.1 數據預處理

排序處理對消費金額(值度)、購買頻率(頻度)分別進行排序,見表1和表2。

1.2 市場細分

溫德爾·史密斯(Wendell R·Smith) 在其 1958 年發表的《市場營銷策略中的產品差異化與客戶細分》一文中指出:市場細分是指企業按照客戶屬性將客戶群體分為若干個子客戶群體,細分后客戶群體之間的差異最大化,每個客戶群體盡可能相似[3]。

為進一步有效地挖掘不同類別客戶,利用聚類分析對客戶數據進行有效分析,輸出不同類別客戶所隱藏的信息。針對不同客戶,企業利用這些信息可以采取不同的營銷策略,根據企業貢獻度的高低,優選相應的客戶類別,并在持續做好貢獻度高的客戶的同時,將貢獻度較低類的客戶通過優化策略發展成為貢獻度高的客戶[4]。

基于RFM的聚類分析可以按以下步驟進行:

第一步:確定聚類算法[5],將數據集D劃分為若干個類C={C1,C2,...,Cp}。其中,D=C1∪C2∪...∪p;

第二步:選取:近度R(Re-cency)、頻度F(Frequency)和值度M(Monetary Value)。

第三步:對每一個Ci,i=1,2,...,p,歸納出能描述其特征的一條或幾條規則。

1.3 規則的挖掘

數據挖掘最關鍵的步驟就是挖掘數據庫中的潛在規則。可以利用數據挖掘工具完成,這也是數據分析過程的關鍵所在。

2 建模仿真

本案例采用TipDM 數據挖掘在線建模平臺中的k-Means聚類分析[4]和Apriori關聯規則挖掘等算法進行模型構建。

2.1 數據預處理

在C-company業務數據表中共收集了2019年到2022年的客戶交易記錄,刪除冗余。轉變成合適的格式,保存規范的業務記錄,業務記錄表包括最近購買時間、購買頻次和總購預買金額等。對原始數據進行預處理得到合適的格式,詳細步驟如下:

1) 定義RFM的取值范圍[6],如劃分為5等份,分別為5至1等。對于R-Recency值,如最近合同時間是2022年定為5,2021年定義為4,依此類推。對F-Frequency、M-Monetary也分別類似處理。

2) 對客戶數據表中的每一條客戶記錄量化以后,得到RFM 量化結果,包括客戶ID、R-Recency、F-Frequency、M-Monetary。

3) 分別評估R(近度)、F(頻度)、M(值度)的權重,事實上它們的權重應該是相同的。

2.2 K-means聚類分析

預處理后產生的RFM數值,利用聚類方法對各大區的x個客戶分5類得到的初始聚類中心值為:C1(3.21, 1.38, 1.76) C2(1.84, 1.24, 1.70)

C3(1.95, 1.27, 1.11) C4(2.29, 2.13, 3.78)

C5(1.89, 1.22, 1.08)

然后,運用K-均值聚類算法[3],完成數據集的聚類分析,這樣,我們就得到了每一個客戶所屬的聚類類別,通過聚類方法找到了對企業具有重要價值的客戶[7]。

2.3 特征規則提取

選取UCI數據集中balance scale ,congressional voting records, hepatitis, iris plant , statlogaustralian credit approval及 statlog german credit共六個數據集作為實驗數據集,分別應用Single NN(single neural network)方法、GMDH網絡方法(Knowledgeminer) 、神經網絡方法(Clementine) 、C4.5決策樹方法(weka)進行對比分析。將每一個數據集分成5部分,以每一個為檢測集,其他四個為學習集,五次運行后的平均結果為最終結果。

對于balance-scale數據集,按順序選取500個樣本構成學習集,125個樣本構成檢測集,運用GMDH網絡分類得到的結果是:學習集中47個錯誤,錯誤率9.4%;在檢測集中8個錯誤,錯誤率6.4%。再分別任選一部分作檢測集,其余四部分作為學習集重復運行五次,對檢測集中分類錯誤平均,得到檢測集中平均錯誤率為13.44%(5次共84個錯誤)。

提取的 L 類特征規則是:

IF NOT - A1& C1 OR NOT - B1&D1

THEN L

如果左、右兩邊重量都不是1,或者左、右兩邊距離都不為1,則屬于L類。

對于其他數據集,使用不同方法同樣處理,得到分類錯誤率如表3所示。同樣,對于連續型屬性,將某個連續屬性的取值分成若干個區間,將連續屬性離散化,再建立規則輸入輸出模型。

上面列出一些錯誤情況對比,可用Friedman統計檢驗方法對各算法之間是否有顯著差異進行判斷。設[rji]是第j個算法在第i個數據集上的排序,Firedman檢驗比較各種算法的平均排序[Rj=1Nirji]。Firedman檢驗的零假設是各算法表現是一樣的,即它們的平均排序相同。

Firedman檢驗:

[x2F=12Nk(k+1)jR2j-k(k+1)24],服從自由度為k?1的卡方分布。在此基礎上,Iman 和 Davenport指出Firedman過于保守,他們提出了另一種更好的統計檢驗:[FF=(N-1)x2FN(k-1)-x2F]服從自由度為k?1和(k?1)(N?1)的F分布。

引入秩后表后,GMDH網絡方法要好于其他三種方法,因GMDH的平均秩為最大,所以可用Holm方法對算法進行進一步的檢驗。Holm檢驗從最顯著的p1值開始,如果p1<α/(k?1),拒絕相應的零假設,同時進一步比較p2和α/(k?2),如果第2個假設被拒絕,則繼續第3個比較,直至被接受為止。令[z=(Ri-Rj)k(k+1)6N],z值用于從正態分布表中查找相應的概率值([p(x≥z)=2*(1-p(x≤z))]) ,然后將概率值與相應的α(0.05)進行比較。

從Holm檢驗可以看到,0.004<0.017,顯然, C4.5 Rule要劣于GMDH方法。但由于0.072>0.025,0.116>0.05,因此,在95%的置信度下不能拒絕零假設,即神經網絡方法劣于GMDH方法并不明顯。

通過實驗,GMDH網絡方法具備較好的特征提取能力,由于需要預先知道樣本的類型,所以在企業面對眾多客戶的情況下,結合聚類和GMDH網絡進行特征規則挖掘是一種有效而實用的方法。在本例中,通過TIPDM完成對客戶進行聚類分析后,我們就知道了每個客戶分別屬于哪類客戶(客戶價值),然后在此基礎上運用GMDH網絡方法提取出一些規則特征。這樣,聚類后通過提取規則,就從客戶關系數據庫中得到了一些描述規則,這些規則概括了數據集中不同概念的特征,從而使公司的營銷活動更有針對性。有了這些特征規則,決策者可以作出一個正確的銷售和廣告宣傳決策[6]。

2.4 Apriori算法產生強關聯規則

2.4.1 算法過程

通過Apriori算法,對數據庫的多次掃描來發現所有的頻繁項目集,在每一次掃描中只考慮具有同一長度(即項目集中所含項目的個數)的所有項目集,在第一次掃描中計算所有單個項目的支持度,生成所有長度為1的頻繁項目集。在后續的每一次掃描中,首先以K-1次掃描所生成的所有頻繁項目集為基礎產生新的候選項目集。然后,掃描數據庫,計算這些候選項目集的支持度,刪除其支持度低于用戶給定的最小支持的項目集。最后,生成所有長度為K的頻繁項目集。重復過程,直至再也找不到新的頻繁項目集為止[8]。產品項目表如表4所示。

這樣,就得到一個頻繁 3 項集{SBW?30,SBW?50,SBW?100},它的所有非空真子集有:{SBW?30},{SBW?50},{SBW?100},{SBW?30,SBW?50},{SBW?30,SBW?100},{SBW?50,SBW?100},設最小置信度為50%,則可以輸出強關聯規則如:SBW?50?SBW?30∧SBW?100,置信度(2/3=67%) ,支持度(2/3=67%) 。

2.4.2 TIPDM挖掘關聯規則

通過TIPDM對 Apriori算法的實現,就可以從銷售數據庫中挖掘出關聯規則了。如計算得到的{SBW?30? SBW?50? SBW?100}及{SBW?100? SBW?180? SBW?400},均為支持度大于2的頻繁3項集,同樣可以計算出各個產品間的置信度。例:SBW?100?SBW?180∧SBW?400,因SBW?100的支持度計數為38,而SBW?180∧SBW?400的支持度計數為2,即SBW?100?SBW?180∧SBW?400的置信度(2/38=5.26%) ,購買SBW100的5.26%的客戶,可能性會同時購買SBW180和SBW400,但由SBW?180?SBW?400置信度(10/18=55.56%),即購買了SBW180的客戶很可能(55.56%的可能性)會同時購買SBW400。這樣,企業就可以據此采取相應的促銷措施,開展交叉銷售活動,從而促進更多產品的銷售,更好地滿足客戶需求。

3 結論

隨著世界經濟一體化進程的加速,企業可利用數據挖掘技術進行客戶特征規則提取及關聯規則挖掘。利用RFM模型,聚類方法,通過對神經網絡方法、C4.5方法及GMDH網絡方法在六個UCI數據集上的比較實驗,確認幾種算法之間是有差異的,并指出結合聚類(客戶細分)與GMDH網絡方法建立模型,從而提取出特征規則是比較理想與可行的一種方法。

綜上,文章通過運用組合數據挖掘技術,將改進的K-means方法用于客戶細分,結合聚類與GMDH網絡提取客戶特征規則及Apriori挖掘出產品的關聯規則,證明進行客戶細分和規則挖掘是有效的。

參考文獻:

[1] 李明倩,王苗,劉芳.改進k-means的電網控制自動化系統數據聚類方法[J].機械與電子,2023,41(3): 34-38.

[2] 程汝嬌,徐鴻雁.基于RFM模型的半監督聚類算法[J].計算機系統應用,2017,26(11):170-175.

[3] 李明楊.基于無監督K-means聚類方法的移動公司客戶細分研究[J].通訊世界,2019,26(2):8-10.

[4] 謝鵬壽,張寬,范宏進,等.汽車4S店TFM客戶細分模型及其方法研究[J].小型微型計算機系統,2019,40(10):2165-2169.

[5] 才東陽.基于K-means聚類的計算機網絡信息安全風險評估方法[J].網絡安全技術與應用,2022(11):30-31.

[6] 趙偉.基于RFM模型X公司客戶關系管理研究[D].北京:北京化工大學,2018.

[7] 白燕燕.基于客戶細分的潛在高價值客戶挖掘實證研究[D].蘭州:蘭州財經大學, 2017.

[8] 楊一男.基于數據挖掘技術的B2C企業客戶關系管理研究[D].沈陽:沈陽工業大學,2016.

【通聯編輯:代影】

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲开心婷婷中文字幕| 亚洲精品你懂的| 久久久久国产精品嫩草影院| 在线观看国产网址你懂的| 国产系列在线| 99视频全部免费| 亚洲欧美日韩天堂| 亚洲欧美色中文字幕| 国产女人在线| 最新国产你懂的在线网址| 国产无人区一区二区三区| 免费va国产在线观看| 精品人妻AV区| AV无码国产在线看岛国岛| 天堂网亚洲系列亚洲系列| 啪啪啪亚洲无码| 又爽又大又黄a级毛片在线视频| 久久精品人人做人人| 99偷拍视频精品一区二区| 国产成人精品一区二区| 久久精品视频亚洲| 久久99热66这里只有精品一| 九九热免费在线视频| 国产尹人香蕉综合在线电影| 国产精品女主播| 国产97视频在线| 狠狠色狠狠综合久久| 99热这里只有精品在线观看| 日韩精品亚洲精品第一页| 午夜国产小视频| 国产乱人伦偷精品视频AAA| 国产成人一区| 高清欧美性猛交XXXX黑人猛交| 色哟哟国产精品一区二区| www.99在线观看| 一级成人a做片免费| 福利视频一区| 亚洲无码高清视频在线观看| 国产91久久久久久| 日韩免费无码人妻系列| 久久久亚洲国产美女国产盗摄| 婷婷六月综合网| 国产一区二区三区精品欧美日韩| 日韩天堂视频| 亚洲黄网视频| 国产精品久久久久久久久| 久久精品一品道久久精品| 国产在线98福利播放视频免费| 97精品国产高清久久久久蜜芽| 日本一区二区不卡视频| 99视频精品全国免费品| 米奇精品一区二区三区| 国产精品嫩草影院视频| 欧美一级特黄aaaaaa在线看片| 日韩高清成人| 2020精品极品国产色在线观看 | 欧美在线视频a| 666精品国产精品亚洲| 熟妇人妻无乱码中文字幕真矢织江| 国产女人在线| 青青青视频免费一区二区| 亚洲看片网| 漂亮人妻被中出中文字幕久久| 亚洲综合极品香蕉久久网| 国产女人爽到高潮的免费视频 | 国产精品欧美日本韩免费一区二区三区不卡 | 久久久久久久久亚洲精品| 黄色免费在线网址| 成年网址网站在线观看| 91福利在线看| 亚洲系列无码专区偷窥无码| 91福利在线看| 精品亚洲国产成人AV| 国产精品久久久久久久伊一| 国产第二十一页| 国产精品黑色丝袜的老师| 高清不卡一区二区三区香蕉| 中文字幕av一区二区三区欲色| 欧美国产视频| 国产精品无码制服丝袜| 久久久波多野结衣av一区二区| 日韩av无码精品专区|