基于數據挖掘技術的超市顧客忠誠度評價模型的構建

2015-09-30 01:51:27鄶淑娥

中國管理信息化 2015年19期

關鍵詞：數據挖掘模型

鄶淑娥

（東北財經大學職業技術學院，遼寧大連 116023）

基于數據挖掘技術的超市顧客忠誠度評價模型的構建

鄶淑娥

（東北財經大學職業技術學院，遼寧大連 116023）

隨著計算機技術、網絡技術等的迅速發展，顧客忠誠度系統對數據存儲、查找、統計、報表等能力有了很大的提高，隨著數據不斷累積，這些數據背后隱藏著怎樣的信息鑰能否通過對數據的多角度分析為企業提供更加豐富和有利的決策支持呢鑰文章通過數據挖掘技術，構建了超市顧客忠誠度評價模型，以期對企業的管理者提供借鑒。

數據挖掘；顧客忠誠度；評價模型；構建

0 引言

顧客忠誠度是指顧客忠誠的程度，是一個量化概念。它是指由于質量、價格、服務等諸多因素的影響，使顧客對某一企業的產品或服務產生感情，形成偏愛并長期重復購買該企業產品或服務的程度。

顧客忠誠度的數據系統中蘊藏著大量的信息資源，企業雖然可以針對明確的信息，利用查詢等工具直接獲取，但隱藏在大量數據中的關系、趨勢等信息卻無法從數據表層獲得。需要有新的、更有效的技術對大量的數據進行挖掘以發揮其潛能，從中迅速萃取有用的信息以幫助企業提高顧客忠誠度。因此，有必要在研究顧客忠誠度的評價體系中引入數據挖掘技術，以提高企業的顧客忠誠度和競爭能力。數據挖掘是解決數據豐富而知識貧乏的有效途徑，其實質是從數據庫中提取隱含的、未知的和潛在有用信息的過程，被公認為是數據庫研究中的一個極具應用前景的新領域。數據挖掘技術包括聚類分析、分類與預測以及關聯分析等功能，它們可以從評價數據中找出大量真正有價值的信息和知識，能夠更好地對顧客忠誠做出定量的分析和預測，進而有效的提高顧客忠誠度，更好的為企業和社會服務。

1 利用數據挖掘建立評價體系的方法

數據挖掘涉及的學科領域和方法很多，有人工智能、數據統計、可視化、并行計算等。根據挖掘任務可將數據挖掘分為分類模型發現、聚類、關聯規則發現、序列分析、偏差分析、數據可視化等類型。

（1）分類：其旨在生成一個分類函數或分類模型，該模型能把數據庫中的數據項映射到給定類別中的某一個。既可以用此模型分析已有的數據，也可以用它來預測未來的數據。

（2）聚集：聚集是對記錄分組，把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴于預先定義好的類，不需要訓練集。

（3）數據可視化：數據可視化嚴格地講不是一個單獨的數據挖掘任務，它被用來支持其他挖掘任務。可視化是采用圖形、圖表等易于理解的方式表達數據挖掘結果。

（4）關聯規則：關聯規則是尋找數據庫中值得相關性，主要是尋找在同一個事件中出現的不同項的相關性，比如在一次購買活動中所買不同商品的相關性。

（5）序列分析：序列模式分析同樣也是試圖找出數據之間的聯系。但它的側重點在于分析數據之間前后關系，因此對數據往往要求引入時間屬性。序列模式分析非常適于尋找事物的發生趨勢或重復性模式。

（6）偏差分析：偏差分析是用來發現與正常情況不同的異常和變化，并進一步分析這種變化是否有意的詐騙行為，還是正常的變化。如果是異常行為，則提示預防措施：如果是正常的變化，那么就需要更新數據庫記錄。

2 顧客忠誠度模型的構建

2.1 超市顧客數據準備和數據選擇處理

2.1.1 數據準備

數據挖掘的對象是數據，只有對數據充分了解之后才能進行數據挖掘工作。結合超市企業的商業目標，理解、熟悉顧客信息，能將商業目標轉化為對數據的理解，從而準確地進行數據挖掘。在超市數據庫中可獲得如下數據：持會員卡的會員此次消費商品的品牌、型號、價格、數量、消費時間等。建立的度量指標為：

（1）超市顧客忠誠度的衡量。超市銷售的商品大部分為生活日用品。會員卡購物多以家庭為單位，家庭購物存儲期一般不超過6周，故以周為平均計算單位。建立超市顧客忠誠度系數的衡量指標計算方式為：每周購物次數標準差比上平均每周購物次數再加上每周購物金額標準差比上平均每周購物金額，式中，兩項之比都表示重要性權重，用層次分析法確定。認為在超市購物中，忠誠顧客是那些在一段時間內購物次數和購物金額相對穩定的顧客，即具備較穩定的購物習慣的顧客。結果的數值越大，表明該顧客購物行為波動越大，越不忠誠；結果的數值越小，則相反。

（2）超市客戶盈利性的衡量?；跀祿目色@得性和可實現性的考慮，認為購物金額高的客戶為企業帶來的利潤也高，即近似用購物金額的高低來衡量客戶盈利性的高低。

2.1.2 數據選擇處理

數據選擇：通過確定數據挖掘目標和進行數據理解，從XXX市某超市數據庫中抽取顧客數據，其中一部分數據用于建立模型、獲取規律，最后剩余數據用于模型檢驗。

數據預處理：數據預處理技術可改進數據的質量，從而有助于提高其挖掘過程的精度和性能。主要為：

（1）缺失的值處理。本研究存在兩種類型的缺失的值：一是正常缺失，表現為當周的購物次數和購物金額同時表現為缺失。這種缺失是由于顧客在當周并沒有發生購買引起的，缺失用數字“0”填充。二是非正常缺失，表現為當周購物次數和購物金額任意一者缺失。這種缺失是由于人為的疏忽和錯誤引起的，可采用各屬性均值填充。SPSS能很方便地對缺失的值進行處理，可替換滿足特定條件的屬性值，也可用這個節點來替換、填補空缺值。

（2）極值處理。少數顧客的個別行為可能引起聚類中心的偏移，從而影響聚類分群的準確性。在研究各屬性值的圖形分布后，去掉部分極值。利用SPSS可產生各屬性值的分布圖，能直觀地看出少數極值分布的區域。

（3）數據規范化。對基于距離的聚類算法，規范化可幫助防止具有較大或較小初始值域的屬性權重過大引起聚類中心偏移而影響聚類的準確度。由于顧客的月消費額對顧客價值存在正相關影響，即M值越大，顧客價值越大。

2.2 超市顧客群模型的建立和評估

2.2.1 聚類分析模型

根據商業目標，建立盈利性、忠誠度系數模型，運用聚類算法對超市顧客進行聚類分析。本模型中的顧客分類是將每個顧客的類別聚類中心盈利值和忠誠度值分別與當月的總盈利值和總忠誠度的平均值進行比較來決定的。而單個指標的比較只能有兩種情況，即大于、等于或小于平均值，因此可能有4種類別。選定顧客細分數目的值為4，將SPSS中聚類節點中的值設為4。在SPSS中建立聚類模型的流程，分別對數據庫中的客戶數據進行聚類分析。在聚類過程中，聚類算法結束后自動產生類別標號如“cluster-n”，其中n代表第n類，且類別標號是按照各類數據出現的先后順序依次標記的。因此，為了方便分析比較各個月的顧客細分群的變化，在聚類前將類別標號進行統一：A表示盈利值的簇均值小于當月盈利值的總均值，忠誠度的簇均值大于總均值的簇；B表示盈利值和忠誠度的簇均值大于當月的總均值的簇；C表示盈利值的簇均值大于當月盈利值的總均值，忠誠度的簇均值小于總均值的簇；D表示盈利值和忠誠度的簇均值小于當月的總均值的簇。結果分析：根據以上聚類模型，可得到A，B，C，D四類顧客：

（1）A類顧客具有很高的消費能力，但是忠誠度很低，這類顧客是企業應該著重爭取的顧客，是推銷的重點顧客。對這類顧客進行詳細分析，并針對這類顧客的特點和需求制定有針對性的服務和推銷策略，將他們從競爭對手中爭取過來變為自己的忠誠顧客。

（2）B類顧客是產生利潤最高和忠誠度最高的顧客。這部分顧客是企業的“黃金顧客”，是企業最有價值的顧客，也是企業應重點保持的顧客。

（3）C類顧客的忠誠度很高，但購物水平相對較低。這樣的顧客可能更傾向于物美價廉的產品，他們可能更注重性價比而不是品牌。對于這類顧客應向其推銷一些價格較低、性價比適中的產品。

（4）D類顧客的忠誠度較低，消費額也相對較低，他們是競爭對手的忠誠客戶，對他們推銷存在很大的風險，應適當放棄。2.2.2序列分析模型

SPSS中的序列節點用來建立序列分析模型，序列節點是基于CARMA關聯的規則演算法，此外由序列節點創建生成的模型節點可插入到流程中生成預測。從數據庫中抽取數據，在SPSS中建立序列模型的流程。其中，序列節點參數過大或者過小，都會導致信息的丟失或產生無用信息，從而影響模型的準確性。因此，參數的設定應該反復調試、謹慎進行。最小規則支持度可設定限定標準，規則支持度是指數據的集中包括完整序列的ID比例，規則支持度數值越大，序列越普遍。本研究中的序列分析對象是超市顧客群的忠誠度。通過統計客戶聚類數據發現，數據中A、B、C和D平均每個月的顧客人數占總的顧客人數的百分比分別為17%、24%、20%和39%。為了不丟失有用的信息，將設為最小規則支持度6.0，最小置信度是指在所有做預測的ID中預測正確的ID百分數。置信度的計算方法是用序列中包含完整序列的ID數目除以僅含有前提條件的ID數目。由于此參數表示預測的準確率，故本研究將其設為50.0。最大序列規模可指定序列中項的最大個數。如果有用序列相對較短，可降低該項值。本研究的最大序列為4，因此將次參數設為4。加入流程的預測數指定添加到最終生成模型節點流中的預測數。由于最終生成的預測結果是按照置信度由高到低排列的，即第一個預測的置信度是最高的，對研究也是最有意義的，因此本研究將此參數設為1。

運行序列分析流程，生成的序列模型結果的每一行都代表一個滿足模型參數的規律，該規律是按照置信度的降序排列的。前項規律的“if”部分，結果規律的“then”部分，例子包含整個序列的ID數，支持度的記錄只包含前項ID的百分比，置信度的顯示所有作為預測的ID中正確預測的ID百分數；規則支持度與支持度不同，規則支持記錄包含整個序列的ID百分數，即同時包含前項和結果的ID百分數。如果顧客有2個月屬于B，接下來有89.7%的可能性仍然屬于B。這說明忠誠的高價值顧客保持兩個階段將很可能成為企業的長期忠誠高價值客戶，這種客戶的流失率較小，是企業的重要利潤源。C是相對較穩定的顧客群。C類顧客忠誠程度高，但是消費水平較低，如果超市考慮為這類顧客提供價格較低、性價比較好的商品，這類顧客是很容易保持的。在兩個階段都屬于D的顧客，有82.2%的可能仍屬于D。顧客在某一階段表現為D類顧客，接下來的階段有53.5%的可能仍然表現為D。這就說明，當顧客表現出低忠誠低消費的特征之后將很難被挽回。A類顧客如果在2個階段內，超市對其提供的顧客挽留策略沒有使其成為忠誠顧客，則這類顧客在以后階段將很難再挽回，可能出現永久性流失。C類顧客通過實施相應的策略，如為他們提供符合其消費特點的商品，使其成為超市企業的高忠誠、高價值顧客后，很可能在下階段成為企業永久性的高忠誠、高價值顧客。仔細分析A類顧客的消費傾向，將其轉變為B類顧客，很可能成為企業永久性的高忠誠、高盈利顧客。

3 結語

數據挖掘能幫助公司管理者從海量數據中識別顧客的購買行為特征，發現顧客購買模式和趨勢，提高顧客的購買效率和服務質量，提升顧客的忠誠度，從而達到提升顧客層次、保持有價值顧客的目的。

［1］張永賓.基于數據倉庫和數據挖掘的客戶忠誠度的分析［J］.商場現代化，2011（21）.

［2］錢鋒，徐麟文.基于數據挖掘的客戶忠誠度提升［J］.經濟論壇，2006（21）.

10.3969/j.issn.1673-0194.2015.19.036

F274

1673-0194（2015）19-0063-03

2015-08-03