[摘要] 國(guó)內(nèi)外電子商務(wù)類網(wǎng)站日益興起。許多電子商務(wù)類網(wǎng)站都提供了一定程度的個(gè)性化服務(wù),最明顯的就是提供商品推薦服務(wù)。而構(gòu)成這些個(gè)性化服務(wù)的基礎(chǔ)主要就是數(shù)據(jù)挖掘技術(shù)。本文研究了數(shù)據(jù)挖掘技術(shù)及其在電子商務(wù)中客戶細(xì)分的應(yīng)用,提出了數(shù)據(jù)挖掘在電子商務(wù)營(yíng)銷服務(wù)各方面的具體應(yīng)用內(nèi)容。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 客戶細(xì)分 聚類算法
一、數(shù)據(jù)挖掘在電子商務(wù)中的引入與應(yīng)用
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery In Database,KDD),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式,它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域中得到了比較普遍的應(yīng)用,它是以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ),其基本假定是“消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明”。對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷,這與傳統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營(yíng)銷手段相比,大大節(jié)省了營(yíng)銷成本,提高了營(yíng)銷效果,從而為企業(yè)帶來(lái)更多的利潤(rùn)。
數(shù)據(jù)挖掘是進(jìn)行數(shù)據(jù)查詢,它能夠找出過(guò)去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。數(shù)據(jù)挖掘工具能夠?qū)?lái)的趨勢(shì)和行為進(jìn)行預(yù)測(cè),從而很好地支持人們的決策。將其運(yùn)用到客戶關(guān)系管理中,就能在數(shù)據(jù)量龐大的客戶數(shù)據(jù)庫(kù)中,將看似無(wú)關(guān)聯(lián)的數(shù)據(jù)進(jìn)行篩選,凈化,提取出有價(jià)值的客戶關(guān)系,對(duì)客戶需求作出恰當(dāng)?shù)幕貞?yīng),并預(yù)測(cè)需求趨勢(shì)。
二、聚類算法用于電子商務(wù)客戶細(xì)分
聚類是數(shù)據(jù)挖掘中的一種主要技術(shù),是把一組個(gè)體按照相似性歸成若干類別,即“物以類聚”。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能地小,而不同類別上的個(gè)體間的距離盡可能地大。聚類和分類根本不同的是:分類問(wèn)題中我們知道訓(xùn)練例的分類屬性,而在聚類中,就需要我們?cè)谟?xùn)練例中找到這個(gè)分類屬性值。聚類分析問(wèn)題可描述為:給m維空間Rm中的n個(gè)向量,把每個(gè)向量歸屬到S聚類中的某一個(gè),使得每個(gè)向量與其聚類中心的“距離”最小。聚類分析問(wèn)題的實(shí)質(zhì)是一個(gè)全局最優(yōu)問(wèn)題。在這里m可認(rèn)為是樣本參與聚類的屬性個(gè)數(shù),n是樣本的個(gè)數(shù),S是由用戶預(yù)先設(shè)定的分類數(shù)目。本文采用層次方法實(shí)現(xiàn)聚類分析。
層次方法就是對(duì)給定的數(shù)據(jù)對(duì)象集進(jìn)行層次的分解。根據(jù)層次的分解如何形成,層次聚類分析算法分為“分解算法”和“凝聚算法”,分別體現(xiàn)了“自頂向下”和“自底向上”兩種互逆的思想。分解算法從整個(gè)樣本集開(kāi)始,把它分成幾個(gè)子集,然后把每個(gè)子集分成更小的集合,逐步分區(qū),最終,分區(qū)算法生成一個(gè)由粗到細(xì)的分區(qū)系列。凝聚算法首先把每個(gè)單獨(dú)的對(duì)象當(dāng)作一個(gè)初始類。然后把這些特征相近的合并成一個(gè)更粗略的分區(qū),反復(fù)合并直至得到最后一個(gè)分區(qū),所有的對(duì)象都在一個(gè)大類內(nèi)。這種聚類過(guò)程是一個(gè)自底向上的過(guò)程,分區(qū)是從細(xì)到粗。在凝聚或者分裂層次聚類方法中,通常以用戶定義希望得到的類的數(shù)目作為結(jié)束條件。在類的合并或分裂過(guò)程中,需要考察類間的距離。分解算法和凝聚算法的過(guò)程示意如圖所示:
1.聚類算法的處理流程
(1)從n個(gè)數(shù)據(jù)對(duì)象中任意選取k個(gè)對(duì)象作為初始聚類中心;
(2)循環(huán)過(guò)程3、4,直到每個(gè)聚類不再發(fā)生變化;
(3)計(jì)算每個(gè)對(duì)象與聚類中心距離,根據(jù)最小距離把對(duì)象歸到最相似的類中;
(4)重新計(jì)算整個(gè)聚類對(duì)象的均值,作為新的聚類中心。
2.聚類算法框架
(1)給出n個(gè)混合樣本,令I(lǐng)=1,選取K個(gè)初始聚類中心 Zj(I), j=1,2,3,…,K;
(2)計(jì)算每個(gè)樣本與聚類中心的距離
D(xi,Zj(I)), i=1,2,3,…,n, J=1,2,3,…,K
如果滿足
D(xi,Zk(I))=min{D(xi,Zj(I)), i=1,2,3,…,n}
則xi ∈wk;
(3)令I(lǐng)=I+1,計(jì)算新的聚類中心
Zj(2)=Xi(j), j=1,2,3,…, K
和誤差平方和準(zhǔn)則Jc值
Jc(2)= 2
(4)判斷:若(Jc(I+1)- Jc(I))<ξ,則算法結(jié)束,否則I=I+1,返回2步。
利用以上規(guī)則可以發(fā)現(xiàn)對(duì)公司營(yíng)銷十分有用的模式。給出分類模型后,要用測(cè)試集評(píng)估模型的預(yù)測(cè)正確率,測(cè)試集中的數(shù)據(jù)是從樣本集中隨機(jī)取出并獨(dú)立于訓(xùn)練樣本的。模型的準(zhǔn)確率可以用被模型正確分類的測(cè)試樣本的百分比表示,若模型的準(zhǔn)確率是可以接受的,公司就可以依據(jù)模型將客戶群分類,針對(duì)不同的客戶群展開(kāi)有針對(duì)性的業(yè)務(wù)。
至此,已經(jīng)初步完成了一個(gè)聚類算法的分類技術(shù)用于客戶分類的簡(jiǎn)單示例。但實(shí)際應(yīng)用中大多數(shù)決策樹(shù)分類過(guò)程要復(fù)雜得多,計(jì)算量也要大很多,這主要是因?yàn)橛糜诜诸惖臉颖緮?shù)據(jù)量往往很大,屬性字段也很多,而且決策樹(shù)的生成算法也有很多,選擇何種算法也是一個(gè)反復(fù)綜合評(píng)估的過(guò)程。
三、結(jié)論
隨著電子商務(wù)的日益興起,對(duì)電子商務(wù)進(jìn)行數(shù)據(jù)挖掘,讓電子商務(wù)網(wǎng)站可以提供更具個(gè)性化的服務(wù),可以提高電子商務(wù)網(wǎng)站的競(jìng)爭(zhēng)力,以實(shí)現(xiàn)更大的商業(yè)價(jià)值。本文在探討了電子商務(wù)中引入數(shù)據(jù)挖掘技術(shù),詳細(xì)闡述了該技術(shù)在客戶關(guān)系管理的客戶細(xì)分中的重要應(yīng)用及其實(shí)現(xiàn)。
參考文獻(xiàn):
[1]帕翠珊·B·希波爾德:客戶關(guān)系管理理念與實(shí)例[M].北京:機(jī)械工業(yè)出版社,2002
[2]周良等.客戶關(guān)系管理系統(tǒng)設(shè)計(jì)與研究.計(jì)算機(jī)研究與應(yīng)用,2002.9(108~131)
[3]威廉·G·齊克蒙德等:客戶關(guān)系管理.北京:中國(guó)人民大學(xué)出版社,2005
[4]崔杰張穎:數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用.遼寧工學(xué)院學(xué)報(bào),2006
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。