[摘 要] 以決策樹算法為例,從算法和實例兩方面介紹了數據挖掘技術在連鎖經營領域的應用,展示了數據挖掘技術在提高連鎖超市決策水平、提升核心競爭力方面的重大價值。
[關鍵詞] 連鎖超市 數據挖掘 決策樹 ID3
近年來,國內大型連鎖超市都建立起以進銷存系統為核心的信息系統,積累了海量經營數據,但其中蘊含的商業規律卻很少得到開發和利用。將這些寶貴的資料轉化為決策信息,需要借助于數據挖掘技術。
一、有關數據挖掘
數據挖掘是從海量數據中發現規律的過程。常用的挖掘算法有決策樹、樸素貝葉斯等。決策樹算法具有理解方便等優點,Quinlan提出的ID3算法是最具影響力的決策樹算法。本文以ID3為例,介紹數據挖掘技術在連鎖超市的應用。
1.ID3算法思想
設:每個樣本由多個訓練屬性AK(K=1,2,…,k)和一個預測屬性組成,N個樣本按照預測屬性取值Ci(i=1,2,…,c)的不同,劃分成c個不同的樣本集合,類別Ci中的樣本個數為Ni。決策樹的構造過程為:
(1)決策樹的初始信息量為:。
(2)選擇一個訓練屬性作為分類節點:①設每個訓練屬性AK(K=1,2,…,k)有JK個不同的取值akj,按akj將N個樣本分為JK個樣本集。設akj樣本集的樣本數為nkj;②對于每個分支的nkj個樣本,屬于類別Ci的樣本數目是nkji,則以訓練屬性AK為根的期望熵為:;③計算由訓練屬性AK引起的信息增益,即Gain(AK)=I(C1,C2,…,Cc)-E(I,AK);④選擇產生最大信息增益的訓練屬性Ak0作為決策樹的根,即Ak0滿足Gain(k0) >Gain(k) (k=1,2,…,K;且k≠k0);
(3)按訓練屬性Ak0將樣本分成Jk0個樣本集。對每個葉節點上的樣本子集依次利用上面的方法,選擇一個訓練屬性作為該葉節點的下一級節點。
(4)按照上述步驟不斷構造決策樹,直至各樣本子集只有一個類別。
2.ID3算法應用分析。下表是某超市所作的關于客戶購買某商品意向的調查報告,下面以“年齡”、“性別”、“經濟狀況”為訓練屬性、“是否購買”為預測屬性,構造一棵決策樹,揭示年齡、性別、經濟狀況等因素對購買行為的影響。
在16個樣本中,只有4個樣本計劃購買該商品,則根分支的初始信息量為:
如按“年齡”屬性分類,6位小于35歲的樣本中有1位計劃購買,10位大于35歲的樣本中有3位計劃購買,故按“年齡”分類的期望熵為:
同理,可得E(性別)=0.7142、
E(經濟狀況)= 0.7937。
由“年齡”屬性引起的信息增益為:Gain(年齡)=I(4,12)-E(年齡)= 0.0167;
同理,可得Gain(性別)= 0.0971、
Gain(經濟狀況)=0.0176。
Gain(性別)最大,故根節點按“性別”屬性分類。按照上述算法繼續分類,得到圖1所示決策樹。
二、數據挖掘實例
下面采用微軟的Analysis Services平臺,分析連鎖超市Foodmart的經營數據,考察“性別”、“婚姻狀況”、“年收入”等訓練屬性與預測屬性“會員卡類型”之間的關系,得到圖2所示的決策樹。
根據圖2,第一層分支以“年收入”為分類標準,說明年收入是決定客戶辦理何種會員卡的首要因素。年收入最高(150K以上)的分支顏色最深,說明此類客戶辦金卡的概率最高。
根據圖3,在年收入達150K的客戶分支上,分類標準為“婚姻狀況”,表明婚姻狀況是決定該分支客戶是否辦金卡的首要因素,即已婚客戶辦金卡的概率遠大于單身客戶。
三、結束語
上例揭示的規律對連鎖超市提高廣告的針對性、開發優質客戶具有重要意義。目前,數據挖掘技術還被國際連鎖巨頭廣泛用于防止客戶流失、商品擺放布局等方面的決策。國內連鎖超市經營企業應該重視數據挖掘技術的應用,以提高決策的科學性,在激烈的競爭中求得生存和發展。
參考文獻:
[1]Quinlan J R.Induction of decision trees[J].Machine Learning,1986,(1):81~106
[2]沈兆陽:SQL Server 2000 OLAP解決方案——數據倉庫與Analysis Services[M].北京:清華大學出版社,2001.9:8~9,13~14,87,104~10