999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means算法的RFM模型的客戶細(xì)分研究

2023-06-25 23:37:59魏建兵
電腦知識(shí)與技術(shù) 2023年13期
關(guān)鍵詞:數(shù)據(jù)挖掘

魏建兵

摘要:客戶決定著企業(yè)存在的價(jià)值,能否滿足客戶需求是公司商業(yè)運(yùn)作成功與否的關(guān)鍵所在。在復(fù)雜多變的市場情形中,只有那些了解客戶,把握市場變化,學(xué)習(xí)使用現(xiàn)階段先進(jìn)的管理理論,將信息技術(shù)與數(shù)量分析方法相結(jié)合,對現(xiàn)有市場情況進(jìn)行數(shù)據(jù)分析與決策的企業(yè)才可能成為市場的贏家。因此,愈來愈多的企業(yè)將關(guān)注的重點(diǎn)從以產(chǎn)品為中心的商業(yè)模式向以客戶為中心的新型商業(yè)模式轉(zhuǎn)移。該文通過結(jié)合RFM理論,運(yùn)用數(shù)據(jù)挖掘,進(jìn)行聚類分析并提取出相關(guān)規(guī)則,證明基于RFM模型的組合數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶細(xì)分及規(guī)則挖掘是有效的。

關(guān)鍵詞:K-means;RFM;客戶細(xì)分;數(shù)據(jù)挖掘

中圖分類號(hào):TP391.9? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2023)13-0073-03

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)

0 引言

H公司其主要產(chǎn)品是各類型電流穩(wěn)壓器,是國家穩(wěn)壓器定點(diǎn)生產(chǎn)廠家之一,具備全系列交流穩(wěn)壓器的生產(chǎn)經(jīng)驗(yàn)。H公司同眾多企業(yè)一樣,迫切需要解決的一個(gè)問題也是其業(yè)務(wù)過程中累積的大量數(shù)據(jù)需要分析處理。H公司在數(shù)據(jù)分析處理中進(jìn)行了三次數(shù)據(jù)處理:第一次為數(shù)據(jù)報(bào)表的統(tǒng)計(jì)階段,業(yè)務(wù)人員利用一些常用的計(jì)算機(jī)相關(guān)的統(tǒng)計(jì)軟件,對企業(yè)相關(guān)的靜態(tài)數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì),這些數(shù)據(jù)將成為企業(yè)領(lǐng)導(dǎo)進(jìn)行最終決策的重要依據(jù);第二次是聯(lián)機(jī)事務(wù)處理或聯(lián)機(jī)分析處理階段,這個(gè)階段對統(tǒng)計(jì)報(bào)表進(jìn)行優(yōu)化,會(huì)進(jìn)行一些多維分析及原因分析,如分析調(diào)查今年以來哪些產(chǎn)品是最有利潤的?最有利潤產(chǎn)品是不是和去年一樣?同時(shí),進(jìn)行一些簡單的預(yù)測功能,如銷售量的預(yù)測等;第三次是數(shù)據(jù)挖掘技術(shù)的應(yīng)用,公司對經(jīng)營運(yùn)行過程匯總產(chǎn)生的數(shù)據(jù),利用數(shù)據(jù)挖掘工具建立數(shù)學(xué)模型,如聚類模型、分類與預(yù)測、K-means[1],快速聚類,系統(tǒng)聚類等。

1 數(shù)據(jù)的分析過程及方法

文章利用衡量客戶價(jià)值和客戶創(chuàng)造利益能力的RFM模型[2],對相應(yīng)客戶進(jìn)行分析工作。第一步,預(yù)處理相關(guān)的數(shù)據(jù)集;第二步,利用RFM模型,利用聚類分析方法,輸入近度、頻度、值度,輸出客戶價(jià)值;第三步,利用數(shù)據(jù)挖掘相關(guān)算法,對每個(gè)類別的規(guī)則特征進(jìn)行分析提??;第四步,客戶信息的結(jié)果描述,輸出按照類型分類的客戶規(guī)則,客戶數(shù)據(jù)庫為最近購買時(shí)間、購買頻率和總購買金額等。

1.1 數(shù)據(jù)預(yù)處理

排序處理對消費(fèi)金額(值度)、購買頻率(頻度)分別進(jìn)行排序,見表1和表2。

1.2 市場細(xì)分

溫德爾·史密斯(Wendell R·Smith) 在其 1958 年發(fā)表的《市場營銷策略中的產(chǎn)品差異化與客戶細(xì)分》一文中指出:市場細(xì)分是指企業(yè)按照客戶屬性將客戶群體分為若干個(gè)子客戶群體,細(xì)分后客戶群體之間的差異最大化,每個(gè)客戶群體盡可能相似[3]。

為進(jìn)一步有效地挖掘不同類別客戶,利用聚類分析對客戶數(shù)據(jù)進(jìn)行有效分析,輸出不同類別客戶所隱藏的信息。針對不同客戶,企業(yè)利用這些信息可以采取不同的營銷策略,根據(jù)企業(yè)貢獻(xiàn)度的高低,優(yōu)選相應(yīng)的客戶類別,并在持續(xù)做好貢獻(xiàn)度高的客戶的同時(shí),將貢獻(xiàn)度較低類的客戶通過優(yōu)化策略發(fā)展成為貢獻(xiàn)度高的客戶[4]。

基于RFM的聚類分析可以按以下步驟進(jìn)行:

第一步:確定聚類算法[5],將數(shù)據(jù)集D劃分為若干個(gè)類C={C1,C2,...,Cp}。其中,D=C1∪C2∪...∪p;

第二步:選?。航萊(Re-cency)、頻度F(Frequency)和值度M(Monetary Value)。

第三步:對每一個(gè)Ci,i=1,2,...,p,歸納出能描述其特征的一條或幾條規(guī)則。

1.3 規(guī)則的挖掘

數(shù)據(jù)挖掘最關(guān)鍵的步驟就是挖掘數(shù)據(jù)庫中的潛在規(guī)則??梢岳脭?shù)據(jù)挖掘工具完成,這也是數(shù)據(jù)分析過程的關(guān)鍵所在。

2 建模仿真

本案例采用TipDM 數(shù)據(jù)挖掘在線建模平臺(tái)中的k-Means聚類分析[4]和Apriori關(guān)聯(lián)規(guī)則挖掘等算法進(jìn)行模型構(gòu)建。

2.1 數(shù)據(jù)預(yù)處理

在C-company業(yè)務(wù)數(shù)據(jù)表中共收集了2019年到2022年的客戶交易記錄,刪除冗余。轉(zhuǎn)變成合適的格式,保存規(guī)范的業(yè)務(wù)記錄,業(yè)務(wù)記錄表包括最近購買時(shí)間、購買頻次和總購預(yù)買金額等。對原始數(shù)據(jù)進(jìn)行預(yù)處理得到合適的格式,詳細(xì)步驟如下:

1) 定義RFM的取值范圍[6],如劃分為5等份,分別為5至1等。對于R-Recency值,如最近合同時(shí)間是2022年定為5,2021年定義為4,依此類推。對F-Frequency、M-Monetary也分別類似處理。

2) 對客戶數(shù)據(jù)表中的每一條客戶記錄量化以后,得到RFM 量化結(jié)果,包括客戶ID、R-Recency、F-Frequency、M-Monetary。

3) 分別評估R(近度)、F(頻度)、M(值度)的權(quán)重,事實(shí)上它們的權(quán)重應(yīng)該是相同的。

2.2 K-means聚類分析

預(yù)處理后產(chǎn)生的RFM數(shù)值,利用聚類方法對各大區(qū)的x個(gè)客戶分5類得到的初始聚類中心值為:C1(3.21, 1.38, 1.76) C2(1.84, 1.24, 1.70)

C3(1.95, 1.27, 1.11) C4(2.29, 2.13, 3.78)

C5(1.89, 1.22, 1.08)

然后,運(yùn)用K-均值聚類算法[3],完成數(shù)據(jù)集的聚類分析,這樣,我們就得到了每一個(gè)客戶所屬的聚類類別,通過聚類方法找到了對企業(yè)具有重要價(jià)值的客戶[7]。

2.3 特征規(guī)則提取

選取UCI數(shù)據(jù)集中balance scale ,congressional voting records, hepatitis, iris plant , statlogaustralian credit approval及 statlog german credit共六個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,分別應(yīng)用Single NN(single neural network)方法、GMDH網(wǎng)絡(luò)方法(Knowledgeminer) 、神經(jīng)網(wǎng)絡(luò)方法(Clementine) 、C4.5決策樹方法(weka)進(jìn)行對比分析。將每一個(gè)數(shù)據(jù)集分成5部分,以每一個(gè)為檢測集,其他四個(gè)為學(xué)習(xí)集,五次運(yùn)行后的平均結(jié)果為最終結(jié)果。

對于balance-scale數(shù)據(jù)集,按順序選取500個(gè)樣本構(gòu)成學(xué)習(xí)集,125個(gè)樣本構(gòu)成檢測集,運(yùn)用GMDH網(wǎng)絡(luò)分類得到的結(jié)果是:學(xué)習(xí)集中47個(gè)錯(cuò)誤,錯(cuò)誤率9.4%;在檢測集中8個(gè)錯(cuò)誤,錯(cuò)誤率6.4%。再分別任選一部分作檢測集,其余四部分作為學(xué)習(xí)集重復(fù)運(yùn)行五次,對檢測集中分類錯(cuò)誤平均,得到檢測集中平均錯(cuò)誤率為13.44%(5次共84個(gè)錯(cuò)誤)。

提取的 L 類特征規(guī)則是:

IF NOT - A1& C1 OR NOT - B1&D1

THEN L

如果左、右兩邊重量都不是1,或者左、右兩邊距離都不為1,則屬于L類。

對于其他數(shù)據(jù)集,使用不同方法同樣處理,得到分類錯(cuò)誤率如表3所示。同樣,對于連續(xù)型屬性,將某個(gè)連續(xù)屬性的取值分成若干個(gè)區(qū)間,將連續(xù)屬性離散化,再建立規(guī)則輸入輸出模型。

上面列出一些錯(cuò)誤情況對比,可用Friedman統(tǒng)計(jì)檢驗(yàn)方法對各算法之間是否有顯著差異進(jìn)行判斷。設(shè)[rji]是第j個(gè)算法在第i個(gè)數(shù)據(jù)集上的排序,F(xiàn)iredman檢驗(yàn)比較各種算法的平均排序[Rj=1Nirji]。Firedman檢驗(yàn)的零假設(shè)是各算法表現(xiàn)是一樣的,即它們的平均排序相同。

Firedman檢驗(yàn):

[x2F=12Nk(k+1)jR2j-k(k+1)24],服從自由度為k?1的卡方分布。在此基礎(chǔ)上,Iman 和 Davenport指出Firedman過于保守,他們提出了另一種更好的統(tǒng)計(jì)檢驗(yàn):[FF=(N-1)x2FN(k-1)-x2F]服從自由度為k?1和(k?1)(N?1)的F分布。

引入秩后表后,GMDH網(wǎng)絡(luò)方法要好于其他三種方法,因GMDH的平均秩為最大,所以可用Holm方法對算法進(jìn)行進(jìn)一步的檢驗(yàn)。Holm檢驗(yàn)從最顯著的p1值開始,如果p1<α/(k?1),拒絕相應(yīng)的零假設(shè),同時(shí)進(jìn)一步比較p2和α/(k?2),如果第2個(gè)假設(shè)被拒絕,則繼續(xù)第3個(gè)比較,直至被接受為止。令[z=(Ri-Rj)k(k+1)6N],z值用于從正態(tài)分布表中查找相應(yīng)的概率值([p(x≥z)=2*(1-p(x≤z))]) ,然后將概率值與相應(yīng)的α(0.05)進(jìn)行比較。

從Holm檢驗(yàn)可以看到,0.004<0.017,顯然, C4.5 Rule要劣于GMDH方法。但由于0.072>0.025,0.116>0.05,因此,在95%的置信度下不能拒絕零假設(shè),即神經(jīng)網(wǎng)絡(luò)方法劣于GMDH方法并不明顯。

通過實(shí)驗(yàn),GMDH網(wǎng)絡(luò)方法具備較好的特征提取能力,由于需要預(yù)先知道樣本的類型,所以在企業(yè)面對眾多客戶的情況下,結(jié)合聚類和GMDH網(wǎng)絡(luò)進(jìn)行特征規(guī)則挖掘是一種有效而實(shí)用的方法。在本例中,通過TIPDM完成對客戶進(jìn)行聚類分析后,我們就知道了每個(gè)客戶分別屬于哪類客戶(客戶價(jià)值),然后在此基礎(chǔ)上運(yùn)用GMDH網(wǎng)絡(luò)方法提取出一些規(guī)則特征。這樣,聚類后通過提取規(guī)則,就從客戶關(guān)系數(shù)據(jù)庫中得到了一些描述規(guī)則,這些規(guī)則概括了數(shù)據(jù)集中不同概念的特征,從而使公司的營銷活動(dòng)更有針對性。有了這些特征規(guī)則,決策者可以作出一個(gè)正確的銷售和廣告宣傳決策[6]。

2.4 Apriori算法產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則

2.4.1 算法過程

通過Apriori算法,對數(shù)據(jù)庫的多次掃描來發(fā)現(xiàn)所有的頻繁項(xiàng)目集,在每一次掃描中只考慮具有同一長度(即項(xiàng)目集中所含項(xiàng)目的個(gè)數(shù))的所有項(xiàng)目集,在第一次掃描中計(jì)算所有單個(gè)項(xiàng)目的支持度,生成所有長度為1的頻繁項(xiàng)目集。在后續(xù)的每一次掃描中,首先以K-1次掃描所生成的所有頻繁項(xiàng)目集為基礎(chǔ)產(chǎn)生新的候選項(xiàng)目集。然后,掃描數(shù)據(jù)庫,計(jì)算這些候選項(xiàng)目集的支持度,刪除其支持度低于用戶給定的最小支持的項(xiàng)目集。最后,生成所有長度為K的頻繁項(xiàng)目集。重復(fù)過程,直至再也找不到新的頻繁項(xiàng)目集為止[8]。產(chǎn)品項(xiàng)目表如表4所示。

這樣,就得到一個(gè)頻繁 3 項(xiàng)集{SBW?30,SBW?50,SBW?100},它的所有非空真子集有:{SBW?30},{SBW?50},{SBW?100},{SBW?30,SBW?50},{SBW?30,SBW?100},{SBW?50,SBW?100},設(shè)最小置信度為50%,則可以輸出強(qiáng)關(guān)聯(lián)規(guī)則如:SBW?50?SBW?30∧SBW?100,置信度(2/3=67%) ,支持度(2/3=67%) 。

2.4.2 TIPDM挖掘關(guān)聯(lián)規(guī)則

通過TIPDM對 Apriori算法的實(shí)現(xiàn),就可以從銷售數(shù)據(jù)庫中挖掘出關(guān)聯(lián)規(guī)則了。如計(jì)算得到的{SBW?30? SBW?50? SBW?100}及{SBW?100? SBW?180? SBW?400},均為支持度大于2的頻繁3項(xiàng)集,同樣可以計(jì)算出各個(gè)產(chǎn)品間的置信度。例:SBW?100?SBW?180∧SBW?400,因SBW?100的支持度計(jì)數(shù)為38,而SBW?180∧SBW?400的支持度計(jì)數(shù)為2,即SBW?100?SBW?180∧SBW?400的置信度(2/38=5.26%) ,購買SBW100的5.26%的客戶,可能性會(huì)同時(shí)購買SBW180和SBW400,但由SBW?180?SBW?400置信度(10/18=55.56%),即購買了SBW180的客戶很可能(55.56%的可能性)會(huì)同時(shí)購買SBW400。這樣,企業(yè)就可以據(jù)此采取相應(yīng)的促銷措施,開展交叉銷售活動(dòng),從而促進(jìn)更多產(chǎn)品的銷售,更好地滿足客戶需求。

3 結(jié)論

隨著世界經(jīng)濟(jì)一體化進(jìn)程的加速,企業(yè)可利用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶特征規(guī)則提取及關(guān)聯(lián)規(guī)則挖掘。利用RFM模型,聚類方法,通過對神經(jīng)網(wǎng)絡(luò)方法、C4.5方法及GMDH網(wǎng)絡(luò)方法在六個(gè)UCI數(shù)據(jù)集上的比較實(shí)驗(yàn),確認(rèn)幾種算法之間是有差異的,并指出結(jié)合聚類(客戶細(xì)分)與GMDH網(wǎng)絡(luò)方法建立模型,從而提取出特征規(guī)則是比較理想與可行的一種方法。

綜上,文章通過運(yùn)用組合數(shù)據(jù)挖掘技術(shù),將改進(jìn)的K-means方法用于客戶細(xì)分,結(jié)合聚類與GMDH網(wǎng)絡(luò)提取客戶特征規(guī)則及Apriori挖掘出產(chǎn)品的關(guān)聯(lián)規(guī)則,證明進(jìn)行客戶細(xì)分和規(guī)則挖掘是有效的。

參考文獻(xiàn):

[1] 李明倩,王苗,劉芳.改進(jìn)k-means的電網(wǎng)控制自動(dòng)化系統(tǒng)數(shù)據(jù)聚類方法[J].機(jī)械與電子,2023,41(3): 34-38.

[2] 程汝嬌,徐鴻雁.基于RFM模型的半監(jiān)督聚類算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(11):170-175.

[3] 李明楊.基于無監(jiān)督K-means聚類方法的移動(dòng)公司客戶細(xì)分研究[J].通訊世界,2019,26(2):8-10.

[4] 謝鵬壽,張寬,范宏進(jìn),等.汽車4S店TFM客戶細(xì)分模型及其方法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(10):2165-2169.

[5] 才東陽.基于K-means聚類的計(jì)算機(jī)網(wǎng)絡(luò)信息安全風(fēng)險(xiǎn)評估方法[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2022(11):30-31.

[6] 趙偉.基于RFM模型X公司客戶關(guān)系管理研究[D].北京:北京化工大學(xué),2018.

[7] 白燕燕.基于客戶細(xì)分的潛在高價(jià)值客戶挖掘?qū)嵶C研究[D].蘭州:蘭州財(cái)經(jīng)大學(xué), 2017.

[8] 楊一男.基于數(shù)據(jù)挖掘技術(shù)的B2C企業(yè)客戶關(guān)系管理研究[D].沈陽:沈陽工業(yè)大學(xué),2016.

【通聯(lián)編輯:代影】

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 国产激情无码一区二区三区免费| 国产精品妖精视频| 国产第四页| 一级毛片免费的| 国产成人综合久久精品下载| 亚洲欧洲AV一区二区三区| 99er精品视频| 国产欧美精品一区aⅴ影院| 97国产在线视频| 东京热av无码电影一区二区| 国产在线观看高清不卡| 婷婷六月在线| 久久伊人操| 欧美一区中文字幕| 亚洲天堂啪啪| 91精品国产情侣高潮露脸| 国产精鲁鲁网在线视频| 这里只有精品免费视频| 一本一道波多野结衣av黑人在线| 福利视频一区| 国产精品99久久久| 欧美在线国产| 国产精品久久久久久久久| 91小视频在线播放| 婷婷综合色| 国产激情无码一区二区APP | 亚洲第一成年网| 青草精品视频| 亚洲日韩高清无码| 亚洲黄色成人| 日韩免费视频播播| 欧美精品H在线播放| 国产成人一区免费观看| 国产美女自慰在线观看| 国产一区二区福利| 黄色网站不卡无码| 欧美日韩v| 99ri国产在线| 久久精品无码国产一区二区三区| 蝌蚪国产精品视频第一页| 亚洲精品欧美日韩在线| 丁香综合在线| 亚洲天堂色色人体| 亚洲黄色高清| 在线观看国产精品第一区免费 | 在线观看视频一区二区| 99偷拍视频精品一区二区| 在线人成精品免费视频| 青青草综合网| 亚洲视频一区| 国产高清在线精品一区二区三区| 波多野结衣一区二区三区AV| 欧洲免费精品视频在线| 精品国产成人a在线观看| 亚洲AV无码久久精品色欲| av色爱 天堂网| 亚洲欧美不卡| 国产精品视频白浆免费视频| 国产精品久久久久无码网站| 亚洲一区国色天香| 国产激情无码一区二区三区免费| 亚洲综合色吧| 中文毛片无遮挡播放免费| 操国产美女| 99re在线免费视频| 99久久精品久久久久久婷婷| 麻豆国产在线不卡一区二区| 91福利免费视频| 国产精品国产三级国产专业不| 91福利国产成人精品导航| 亚洲国产成人超福利久久精品| 免费日韩在线视频| 国产第一色| 免费看黄片一区二区三区| 亚洲AV无码乱码在线观看裸奔| 久久一色本道亚洲| 国产免费自拍视频| www.亚洲色图.com| 成人午夜天| 超碰aⅴ人人做人人爽欧美 | 最新国产成人剧情在线播放| 亚洲高清中文字幕在线看不卡|