基于K—means算法的電子商務(wù)客戶細(xì)分研究

2014-04-29 17:55:48盧丹丹

時(shí)代金融 2014年23期

【摘要】本文首先對客戶細(xì)分理論、聚類分析與K-means算法進(jìn)行了闡述與分析，然后運(yùn)用實(shí)例分析完成了對K-Means聚類算法在電子商務(wù)客戶細(xì)分中應(yīng)用的研究。通過本文的研究來識別、分析電子商務(wù)的客戶信息，從客戶信息中挖掘出潛在知識，對客戶進(jìn)行分類管理，為電子商務(wù)企業(yè)了解客戶、挖掘潛在客戶、實(shí)現(xiàn)差異化營銷提供有力的幫助，同時(shí)為聚類技術(shù)在電子商務(wù)客戶細(xì)分中的應(yīng)用研究提供一些新思路。

【關(guān)鍵詞】客戶細(xì)分聚類分析 K-means算法

一、引言

在競爭日益激烈的網(wǎng)絡(luò)商業(yè)時(shí)代，電子商務(wù)企業(yè)越來越強(qiáng)烈的感覺到客戶資源是企業(yè)獲勝的法寶之一。因此企業(yè)開始從以產(chǎn)品為中心的模式向以客戶為中心的模式轉(zhuǎn)變，主要圍繞保留現(xiàn)有顧客和挖掘潛在顧客展開，預(yù)測出客戶未來的購買趨勢，制定相應(yīng)的營銷策略。但是隨著企業(yè)產(chǎn)品的個(gè)性多樣化，客戶的需求日益增加，傳統(tǒng)的應(yīng)用統(tǒng)計(jì)學(xué)的方法對客戶進(jìn)行細(xì)分顯得力不從心。采用聚類挖掘算法可以處理幾個(gè)甚至上百個(gè)變量，通過收集整理客戶相關(guān)信息，發(fā)現(xiàn)存在于客戶整體內(nèi)部具有不同需求特點(diǎn)、購買行為、瀏覽興趣等特征的客戶群體，分析出具有相似瀏覽或購買行為的客戶群，進(jìn)而對客戶進(jìn)行細(xì)分，幫助電子商務(wù)企業(yè)深入了解自己的客戶，為客戶群體提供更加全面的個(gè)性化服務(wù)，提高客戶的滿意度和忠誠度，為企業(yè)創(chuàng)造更多的價(jià)值。

二、客戶細(xì)分相關(guān)理論

客戶細(xì)分是20世紀(jì)50年代中期由美國學(xué)者溫德爾·史密斯（Wendell R.Smith）提出的，他認(rèn)為“客戶細(xì)分是基于某一時(shí)期市場中個(gè)體需求的不同特點(diǎn)而做出的產(chǎn)品決策，而產(chǎn)品差異策略則僅定位于市場競爭者，不考慮需求的復(fù)雜性[1]。”其理論依據(jù)在于顧客需求的異質(zhì)性和企業(yè)需要在有限資源的基礎(chǔ)上進(jìn)行有效地市場競爭。簡單地說，客戶細(xì)分是指在明確的戰(zhàn)略業(yè)務(wù)模式和特定的市場中，根據(jù)客戶的屬性，行為，需求，偏好以及價(jià)值等因素對客戶進(jìn)行分類，并提供有針對性的產(chǎn)品，服務(wù)和銷售模式。

三、聚類分析

聚類（clustering）是一個(gè)將數(shù)據(jù)集劃分為若干組（class）或類（cluster）的過程，并使得同一個(gè)組內(nèi)的數(shù)據(jù)對象具有較高的相似度，而不同組內(nèi)的數(shù)據(jù)對象則是不相似的。一個(gè)聚類（cluster）就是由彼此相似的一組對象所構(gòu)成的集合，不同聚類中的對象通常是不相似的。相似或不相似的度量是基于數(shù)據(jù)對象描述屬性的取值來確定的。聚類源于很多領(lǐng)域，包括數(shù)學(xué)，計(jì)算機(jī)科學(xué)，統(tǒng)計(jì)學(xué)，生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域（如商業(yè)、地理、保險(xiǎn)業(yè)、因特網(wǎng)、電子商務(wù)），很多聚類技術(shù)都得到了發(fā)展，這些技術(shù)方法被用作描述數(shù)據(jù)，衡量不同數(shù)據(jù)源間的相似性，以及把數(shù)據(jù)源分類到不同的簇中。聚類分析的結(jié)果不僅可以揭示數(shù)據(jù)間的內(nèi)在聯(lián)系與區(qū)別，同時(shí)也為進(jìn)一步的數(shù)據(jù)分析與知識發(fā)現(xiàn)提供了重要的依據(jù)，如數(shù)據(jù)間的關(guān)聯(lián)規(guī)則，分類模式以及數(shù)據(jù)的變化趨勢等。

目前在文獻(xiàn)中存在大量的聚類算法，算法的選擇取決于數(shù)據(jù)的類型以及聚類的目的和應(yīng)用。圖1展示了常用聚類算法之間的層次關(guān)系[2]。本文即采用K-means聚類算法。

四、K-means算法

（一）K-means算法的基本原理

K-means算法是最為經(jīng)典的基于劃分的聚類方法，是十大經(jīng)典數(shù)據(jù)挖掘算法之一。給定一個(gè)包含n個(gè)數(shù)據(jù)對象的數(shù)據(jù)庫，以及要生成簇的數(shù)目k，隨機(jī)選取k個(gè)對象作為初始的k個(gè)聚類中心；然后計(jì)算剩余各個(gè)樣本到每一個(gè)聚類中心的距離，把該樣本歸到離它最近的那個(gè)聚類中心所在的類，對調(diào)整后的新類使用平均值的方法計(jì)算新的聚類中心；如果相鄰兩次的聚類中心沒有任何變化，說明樣本調(diào)整結(jié)束且聚類平均誤差準(zhǔn)則函數(shù)已經(jīng)收斂。本算法在每次迭代中都要考察每個(gè)樣本的分類是否正確，若不正確，就要調(diào)整。在全部樣本調(diào)整完成后修改聚類中心，進(jìn)入下一次迭代。如果在一次迭代算法中，所有的樣本被正確分類，則不會有調(diào)整，聚類中心不會有變化。在算法迭代中值在不斷減小，最終收斂至一個(gè)固定的值。該準(zhǔn)則也是衡量算法是否正確的依據(jù)之一。

（二）K-means算法的步驟

1.給定一個(gè)包含n個(gè)數(shù)據(jù)的數(shù)據(jù)集D，給定聚類個(gè)數(shù)k和k個(gè)初始聚類中心Zj（I），j=1，2，…k；

2.計(jì)算每個(gè)數(shù)據(jù)到聚類中心的距離D（xi，Zj）（I），i=1，2，…k，若滿足

D（xi，Zk（I））=min{D（xi，Zj（I），j=1，2，3，…n）}，xi∈wk （3-1）

并根據(jù)距離最小將每個(gè)對象分派到最相近的聚類；

3.重新計(jì)算每個(gè)聚類的均值并確定新的聚類中心；計(jì)算誤差平方和準(zhǔn)則函數(shù)J；

5.輸出k個(gè)聚類集合。

五、K-means算法在電子商務(wù)客戶細(xì)分中的應(yīng)用

（一）K-means算法在客戶細(xì)分中的步驟

通常我們根據(jù)電子商務(wù)網(wǎng)站中的訪客日志或者CRM中的相關(guān)信息，先進(jìn)行數(shù)據(jù)預(yù)處理，然后建立相關(guān)模型，用聚類的方法把客戶進(jìn)行細(xì)分，并為企業(yè)做出決策提供依據(jù)。

K-means算法應(yīng)用于客戶細(xì)分的步驟：

1.從電子商務(wù)網(wǎng)站獲取相關(guān)的數(shù)據(jù)；

2.判斷所獲取的數(shù)據(jù)是否可以進(jìn)行分類，如有明顯的聚類趨勢就進(jìn)行聚類，否則取消聚類；

3.將K-Means算法結(jié)合SPSS軟件應(yīng)用與所獲取的客戶數(shù)據(jù)集中，并將客戶分為C1、C2、C3......等類。

4.根據(jù)分類的結(jié)果，總結(jié)出每一類的規(guī)則。

5.評價(jià)聚類結(jié)果。若聚類結(jié)果可信，則可應(yīng)用于實(shí)際當(dāng)中，企業(yè)可以據(jù)此制定相應(yīng)的營銷策略，如若不可信，則需要重新聚類。

（二）數(shù)據(jù)獲取

本文采用的數(shù)據(jù)來自淘寶網(wǎng)的某服裝網(wǎng)店。由于web日中記錄了客戶相當(dāng)齊全的信息，這些海量數(shù)據(jù)（客戶ID、姓名、注冊日期、年齡、性別、電話、通訊地址）我們沒必要全部提取，在這里我們僅僅提取一些代表性的信息，如客戶ID，年齡，受教育程度，通訊地址，收入。由于這個(gè)網(wǎng)店是專門做女裝的，所以性別對我們分類的意義不大，在這里不再提取。

對于表中數(shù)據(jù)的具體解釋：

1.年齡段（age）。根據(jù)分析結(jié)果中客戶年齡段的統(tǒng)計(jì)，把客戶年齡分為四個(gè)階段：A-小于20歲；B-20歲至30歲；C-30歲至40歲；D-40歲以上。

2.受教育程度。根據(jù)客戶受教育的程度分為高學(xué)歷、一般、低學(xué)歷。

3.通訊地址。全國不同城市的統(tǒng)計(jì)，分為一線城市、二線城市、三線城市。

4.根據(jù)電子商務(wù)中統(tǒng)計(jì)的數(shù)據(jù)集合，把客戶收入劃分為高收入、中等收入、低收入。

此外，我們需要根據(jù)客戶ID、商品ID、商品價(jià)格、購買數(shù)量、每次的消費(fèi)總價(jià)、交易日期計(jì)算出每個(gè)客戶在一段時(shí)間的平均購買次數(shù)和平均購買價(jià)格。

（三）數(shù)據(jù)處理

1.數(shù)據(jù)清理。數(shù)據(jù)清理是補(bǔ)充缺失數(shù)據(jù)、平滑噪聲數(shù)據(jù)、識別或刪除離群點(diǎn)，解決不一致的數(shù)據(jù)。在本實(shí)驗(yàn)中，客戶的數(shù)據(jù)并不一定是完整的，尤其是客戶的受教育程度和收入較難獲取。此時(shí)我們需要采用人工處理法、估計(jì)填充法對其進(jìn)行補(bǔ)充。噪聲數(shù)據(jù)是包含錯(cuò)誤或存在偏離期望的離群值。比如年齡在90歲以上就是噪聲數(shù)據(jù)。對于這類數(shù)據(jù)需要剔除，不在考慮范圍內(nèi)。

2.數(shù)據(jù)轉(zhuǎn)換。在聚類時(shí)，SPSS對數(shù)值型的數(shù)據(jù)較為敏感，因此我們應(yīng)該盡量將字符型的數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。比如將受教育程度，小學(xué)、初中、高中、學(xué)士、碩士、博士分別轉(zhuǎn)換成0、1、2、3、4、5；將收入高、中、低轉(zhuǎn)換成1、2、3；將不同的通訊地址一線、二線、三線轉(zhuǎn)換成1、2、3。對于年齡這樣的連續(xù)變量，我們需要采用等寬離散化，客戶屬于哪個(gè)年齡段就將那個(gè)年齡段標(biāo)記為1，其余的年齡段為0。

（四）運(yùn)用K-means算法進(jìn)行客戶細(xì)分

我們使用SPSS軟件對客戶進(jìn)行細(xì)分，選取淘寶平臺上的某一家服裝網(wǎng)店。從中選取了150個(gè)數(shù)據(jù)作為樣本，將客戶平均購買次數(shù)和平均購買金額作為客戶細(xì)分變量，數(shù)據(jù)經(jīng)過預(yù)處理和標(biāo)準(zhǔn)化后，應(yīng)用k-means算法對其進(jìn)行細(xì)分。

（五）客戶細(xì)分結(jié)果分析

從表中我們可以看出，4類客戶購買人數(shù)較多，平均購買次數(shù)較少，平均購買金額最少，這類客戶年齡和地址分布不均，大多是低學(xué)歷，低收入的；3類客戶人數(shù)比4類人數(shù)較少，這類客戶平均購買次數(shù)最多，平均購買金額較少，他們大多處于30歲左右，學(xué)歷和收入一般，多來自二三線城市；2類客戶人數(shù)和平均購買次數(shù)最少，但這類客戶的平均購買金額最多，他們大多學(xué)歷高，收入高，聚集在北京、上海等一線城市，年齡在25到35歲；1類客戶平均購買次數(shù)和平均購買金額都較多，年齡集中在35歲到45歲，他們經(jīng)常光顧本店。

根據(jù)表6客戶級別的劃分，我們可以得出如下結(jié)論：一類客戶人數(shù)雖不多，但企業(yè)大部分的利潤由他們創(chuàng)造，因此稱他們?yōu)榘捉鹂蛻簦髽I(yè)應(yīng)當(dāng)不遺余力的去保護(hù)和維持他們；2類客戶人數(shù)最少，卻創(chuàng)造了較高的價(jià)值，屬于潛在客戶，企業(yè)應(yīng)當(dāng)重點(diǎn)投入，高水平的維護(hù)，使他們盡可能的成為白金客戶；3類客戶的人數(shù)一般，為企業(yè)創(chuàng)造的價(jià)值一般，因此企業(yè)可以關(guān)系再造，使他們向2類客戶靠攏；4類客戶人數(shù)最多，這部分客戶對企業(yè)的價(jià)值不大，企業(yè)不需要投入太多的資源。

六、結(jié)論

在網(wǎng)絡(luò)和電子商務(wù)快速發(fā)展的今天，企業(yè)的數(shù)據(jù)庫中存儲了大量的商業(yè)信息，電子商務(wù)企業(yè)要想盈利，在競爭中立于不敗之地，就必須對自己的客戶深入了解，挖掘客戶的潛在的價(jià)值，從而制定相應(yīng)的營銷策略。本文采用K-Means方法對某電子商務(wù)網(wǎng)站的客戶細(xì)分，運(yùn)用SPSS軟件，最終取得了可行性的結(jié)果，為企業(yè)做出合理的決策提供了有力的幫助。

參考文獻(xiàn)

[1]Smith，Wendel1.R Product differentiation and market segmentation as alternative product strategies[J].Journal of Marketing，1956，11（7）：3-8.

[2]包穎.基于劃分的聚類算法研究與應(yīng)用[D].大連：大連理工大學(xué)，2008.

[3]李鑫鑫.聚類算法在電子商務(wù)客戶細(xì)分中的應(yīng)用研究[D].山東：中國海洋大學(xué)，2012.

作者簡介：盧丹丹（1989-），女，漢族，河南濟(jì)源人，西安財(cái)經(jīng)學(xué)院碩士研究生，研究方向：電子商務(wù)與商務(wù)智能研究。

時(shí)代金融2014年23期

時(shí)代金融的其它文章: 中澳鐵礦石價(jià)格博弈的SWOT分析; 我國服裝行業(yè)對外貿(mào)易分析; 縣域農(nóng)村支付結(jié)算推廣存在的問題與建議; 現(xiàn)金流通與經(jīng)濟(jì)結(jié)構(gòu)關(guān)系的實(shí)證研究; 論如何加強(qiáng)高校財(cái)務(wù)管理工作; EPC總承包建設(shè)項(xiàng)目計(jì)劃進(jìn)度管理與施工工期索賠管理分析