楊慧慧 梁艷 蘇輝輝
[摘要]本文根據該公司數據庫中的客戶信息,利用數據挖掘中的Apfiofi算法對客戶購買服務進行關聯性分析,發現企業客戶的購買行為。進而幫助企業將自身的服務業務對客戶進行相關的推薦或者對一些關聯性服務業務進行精準營銷,提高公司的銷售業績,挖掘潛在客戶群。
[關鍵詞]關聯分析 spass clementine 客戶關系管理
客戶就上帝,客戶是企業盈利的源泉,在目前這個大數據時代,企業如何更好的管理客戶數據信息,如何更好地保持老客戶、不斷開發新客戶更成為其成功的關鍵所在。
越來越多的企業注意到客戶信息的管理與挖掘,并且大部分的企業管理者,已經投入了不小的人力以及資金用于客戶信息的管理與客戶購買行為的建設與實施。很多企業項目實施也并未得到很好的預期效果。因此,本文將利用數據挖掘關聯規則中的Apriori算法,以該公司數據庫中的客戶信息為基礎,挖掘出客戶購買行為的關聯性,找出內在的規律,從而幫助企業更好的了解客戶,開發客戶價值,進而更好的進行客戶服務,提高企業收益。
一、Clemntine簡介
Spass clementine軟件是在1999年被ISL公司收購后將clementine產品重新進行整合和開發,用來進行數據挖掘的軟件產品。該軟件作為一個開放式的數據工具,它主要是應用了多種圖形接口分析技術,通過節點的鏈接來完成整個數據挖掘過程,使得整個過程變得直觀明了。
spass clementine具有對數據進行預處理和轉換的強大功能,使用該軟件時對使用者的要求簡單,使用者不需要會大量的編程語言,并且該挖掘軟件提供了大量的數據挖掘模型,例如分類模型,決策樹模型等,以及靈活的算法例如神經網絡算法,多元回歸算法等,所以在應用的過程中受到了用戶的喜愛和追捧。
本文基于數據挖掘軟件spass clementine平臺,利用數據挖掘算法中的Apriori算法,對某貨代公司購買服務的客戶信息進行分析,從大量的客戶信息中發現有價值的規則和模式,進而為物流企業管理者在客戶關系管理及營銷決策中提供理論依據。
二、基本原理
(一)關聯規則
R.Agrawal等人于1993年首先提出了挖掘顧客交易數據庫中項集間的關聯規則問題,對于該公司數據庫中的客戶信息挖掘的目的是找出客戶購買行為的關聯關系。
設I={i1,i2,i3,L,im}是由m個不同的項組成的,給定一個事務數據集D,則事務數據集D={t1,t2,t3,L,tk,L,tn},其中tk={k=1,2,3,L,n}稱之為事務,事務數據集D中的每一個事務tk是I中一組項目的集合,設A與B是I的子集:
若Support(A)不小于用戶給定的最小支持度min sup,則稱A頻繁項集;反之,稱A為非頻繁項集。
一條關聯規則形如A→B的蘊含式,其中A與B為項集,且AIB=?與,項集A∪B的支持度稱為關聯規則A→B的支持度,則Support(A∪B)Support(A→B)。
關聯規則A→B的置信度:
從上述可得出,關聯規則A→B成立的條件:①如果關聯規則的支持度為s,則事務數據集D中至少有集s%有的事務包含A∪B;②如果關聯規則的置信度為C,則事務數據集D中包含的事務數至少有c%也同時包含B。
關聯規則挖掘問題中就是在事務數據集D中找出具有用戶給定的最小支持度min sup和最小置信度min conf的關聯關系。若Support(A→B)≥min sup且confidence(A→B)≥min conf,則關聯規則A→B是強關聯規則。所以關聯規則挖掘問題可以分為以下2個子問題。
(1)根據最小支持度找出數據集D中的所有頻繁項集。
(2)根據頻繁項集和最小置信度產生關聯規則。
(二)Apriori算法
Apriori算法的核心問題是頻繁項集的取得,首先由事務數據庫和給定的支持度閾值得到所有的頻繁項集,所有支持度不小于支持度閾值的項集稱為頻繁項集。然后由頻繁項集產生滿足置信度要求的關聯規則。
(1)遍歷計算每個項集的支持度,找出支持度大于或等于最小支持度閾值min sup的項集,丟棄小于最小支持度閾值min sup的項集,第一次掃描得出頻繁項集L1。
(2)利用第一次掃描出的頻繁項集L1,進行自然連接產生新的候選集C1,并利用(1)步的方法,找出滿足最小支持度的頻繁項集L2,同理,第k(k>1)次掃描前先利用第k-1次的掃描結果(即頻繁項集Lk-1),以此類推,重復上述過程,直到沒有頻繁項集產生為止。
三、數據挖掘中的關聯算法在貨代企業中的實證分析
某國際貨運代理有限公司自該公司自成立以來,與海關,檢驗檢疫,船代,港區及相關行業保持持久密切的聯系,和多家的船公司,國際性貨貨運代理機構建立了長期互為代理關系。該公司在同行業中名列前茅。該公司的主要服務內容有承辦各種海運、空運進出口貨物的國際運輸代理業務。具體包括:各船公司貨運訂艙業務;世界各地拼箱、拆箱業務;代理報關、報檢、保險業務,以及中轉、倉儲、運輸服務。本文從該公司中獲取了30590位客戶信息,客戶屬性包括企業性質,企業ID號,購買的服務,其中包括,報關,清關,換單,國內運輸,倉儲,包裝,保險拼箱等業務。
(1)數據預處理。數據預處理是指在對數據進行數據挖掘分析之前對原始數據進行的清洗,集約,轉換等一系列的處理工作,通過對這些數據的處理,能夠使數據集達到數據挖掘算法進行分析所要求的規范和標準。由于從公司獲取的數據不符合數據挖掘的標準格式,因此首先對數據進行處理,處理后的數據格式滿足了做關聯分析對格式的要求,數據預處理流程如下圖1所示: