摘要:兩步聚類模型是一種新型的分層聚類算法,目前一般應用在數據挖掘與多元統計的交叉領域——模式分類中,其算法適合任何尺度的變量。以??市卷煙零售可戶分類為例,運用兩步聚類模型進行客戶分類模擬研究,模擬結果顯示,基于兩步聚類算法的卷煙零售客戶分類,具有較高的科學性和精準性。
關鍵詞:兩步聚類;客戶分類;類間差異
中圖分類號:F22 文獻標志碼:A 文章編號:1673-291X(2012)34-0210-05
一、兩步聚類
聚類(Cluster)就是按照一定的要求和規則對事物進行區分和分類的過程,聚類分析(Cluster Analysis)則是指用數學方法研究和處理給定對象的分類,是研究“物以類聚”問題的一種有效方法。聚類分析通常用于解決多因素、多指標的分類問題,其基本思想是根據對象間的相關程度進行類別的聚合,其所用的方法大致可分為兩類:系統聚類法(Hierarchical Cluster)和非系統聚類法(Non-hierarchical Cluster)。其中,系統聚類的原理是先將所有N個變量(即觀測值)看成不同的N類,然后將性質最接近(距離最近)的兩類合并為一類;再從這N-1類中找到最接近的兩類加以合并,依次類推,直到所有的變量被合為一類。顯然,在系統聚類法中,一旦變量被劃定在了一個類別中,以后它的分類結果就不會再進行更改,這是它和非系統聚類法的顯著區別。
兩步聚類模型是一種新型的分層聚類算法(Herarchical Algorithms),目前一般應用在數據挖掘與多元統計的交叉領域——模式分類中,其算法適合任何尺度的變量。兩步聚類分析主要是利用距離測度假設聚類模型的變量均為自變量,即假設連續型變量為正態分布,分類變量為多項式。使用經驗內部檢驗方法穩定自變量假設及分布假設的干擾。兩步聚類分析可以產生不同的聚類判別信息、最終聚類的聚類頻數和描述性統計量,而且可以產生聚類頻數的條形圖和變量的重要性圖。兩步聚類分析具有如下特征:(1)可以處理分類變量和連續型變量。通過假設變量為自變量,綜合處理多項正態分布的數據資料;(2)自動選擇聚類數。通過比較不同聚類結果的模型選擇準則,程序自動確定最優聚類數;(3)有效地分析大樣本數據。而計算過程則分為兩步:1)構建聚類特征樹;2)使用聚類法對聚類特征樹的節點進行分組。
二、客戶分類
1.自動聚類表
自動聚類表可表示聚類分析中選擇聚類數的過程。一個好的聚類數不僅由BIC值決定(按照將最小的BIC值所對應的聚類數作為最優聚類數的確定原則),還應該要求BIC的變化率和距離測度的變化率盡可能地相對大一些。綜合考慮聚類數確定原則,由下頁表1可知,聚類數為4是最優的選擇。
2.聚類分布表
(2)聚類3的經營結構特征:聚類3的1-9檔占比呈先逐級上升,后大幅下降的態勢,分別在5、7檔占比處形成兩個漸次上升的峰值,其8、9檔占比則大幅回落至低位;與其余三類相比,聚類3的1-4檔占比名列第二,5、6檔占比位居第一,7-9檔占比則位居第三。
(3)聚類2的經營結構特征:聚類2的1-9檔占比態勢與聚類3相似;與其余三類相比,聚類2的1-5檔占比名列第三,6檔占比位居第二,7檔占比位居第一,8、9檔占比則位居第二。
(4)聚類1的經營結構特征:聚類1的1-9檔占比態勢與聚類2、3相似;與其余三類相比,聚類1的1-6檔占比名列末位,7檔占比位居第二,8、9檔占比則位居第一。
總體上看,聚類4的經營結構優于聚類3,聚類3的經營結構優于聚類2,而聚類2的經營結構優于聚類1,即有:聚類4>聚類3>聚類2>聚類1。
4.聚類變量的類間差異
參考文獻:
[1] 李綱,畢振力.國產轎車市場競爭格局的聚類分析[J].統計與決策,2007,(22):125-127.
[2] 杜棟,龐慶華,吳炎.現代綜合評價方法與案例精選:第2版[M].北京:清華大學出版社,2008.
[3] 黃鐘穎.兩步聚類分析法在汽車市場研究中的應用[J].管理觀察,2008,(9):200-201.
[4] 仲秋雁,莫佳卉.基于拓展自組織神經網絡方法的客戶市場細分[J].中國管理科學,2008,(10):551-555.
[5] 統計預測與決策:第3版[M].上海:上海財經大學出版社,2008.
[6] 何俊德.項目評估——理論與方法:第2版[M].武漢:華中科技大學出版社,2009.
[7] 劉樂山,雷丁.論農村消費需求潛力向現實消費需求的轉化[J].新疆財經,2010,(2):22-24.
[8] 吳耀宇,黃震方.江蘇省入境旅游客流波動性問題研究[J].經濟經緯,2010,(2):117-121.
[9] 楊萬平.中國省際環境污染的動態綜合評價及影響因素[J].經濟管理,2010,(8):159-165
[10] 尹小平,王艷秀.中國汽車銷量影響因素的實證分析[J].統計與決策,2011,(8):98-100.
[責任編輯 安世友]