基于兩步聚類算法的卷煙零售客戶分類研究

2012-12-31 00:00:00張紅梅李以鋼

經濟研究導刊 2012年34期

摘要：兩步聚類模型是一種新型的分層聚類算法，目前一般應用在數據挖掘與多元統計的交叉領域——模式分類中，其算法適合任何尺度的變量。以??市卷煙零售可戶分類為例，運用兩步聚類模型進行客戶分類模擬研究，模擬結果顯示，基于兩步聚類算法的卷煙零售客戶分類，具有較高的科學性和精準性。

關鍵詞：兩步聚類；客戶分類；類間差異

中圖分類號：F22 文獻標志碼：A 文章編號：1673-291X（2012）34-0210-05

一、兩步聚類

聚類（Cluster）就是按照一定的要求和規則對事物進行區分和分類的過程，聚類分析（Cluster Analysis）則是指用數學方法研究和處理給定對象的分類，是研究“物以類聚”問題的一種有效方法。聚類分析通常用于解決多因素、多指標的分類問題，其基本思想是根據對象間的相關程度進行類別的聚合，其所用的方法大致可分為兩類：系統聚類法（Hierarchical Cluster）和非系統聚類法（Non-hierarchical Cluster）。其中，系統聚類的原理是先將所有N個變量（即觀測值）看成不同的N類，然后將性質最接近（距離最近）的兩類合并為一類；再從這N-1類中找到最接近的兩類加以合并，依次類推，直到所有的變量被合為一類。顯然，在系統聚類法中，一旦變量被劃定在了一個類別中，以后它的分類結果就不會再進行更改，這是它和非系統聚類法的顯著區別。

兩步聚類模型是一種新型的分層聚類算法（Herarchical Algorithms），目前一般應用在數據挖掘與多元統計的交叉領域——模式分類中，其算法適合任何尺度的變量。兩步聚類分析主要是利用距離測度假設聚類模型的變量均為自變量，即假設連續型變量為正態分布，分類變量為多項式。使用經驗內部檢驗方法穩定自變量假設及分布假設的干擾。兩步聚類分析可以產生不同的聚類判別信息、最終聚類的聚類頻數和描述性統計量，而且可以產生聚類頻數的條形圖和變量的重要性圖。兩步聚類分析具有如下特征：（1）可以處理分類變量和連續型變量。通過假設變量為自變量，綜合處理多項正態分布的數據資料；（2）自動選擇聚類數。通過比較不同聚類結果的模型選擇準則，程序自動確定最優聚類數；（3）有效地分析大樣本數據。而計算過程則分為兩步：1）構建聚類特征樹；2）使用聚類法對聚類特征樹的節點進行分組。

二、客戶分類

1.自動聚類表

自動聚類表可表示聚類分析中選擇聚類數的過程。一個好的聚類數不僅由BIC值決定（按照將最小的BIC值所對應的聚類數作為最優聚類數的確定原則），還應該要求BIC的變化率和距離測度的變化率盡可能地相對大一些。綜合考慮聚類數確定原則，由下頁表1可知，聚類數為4是最優的選擇。

2.聚類分布表

（2）聚類3的經營結構特征：聚類3的1-9檔占比呈先逐級上升，后大幅下降的態勢，分別在5、7檔占比處形成兩個漸次上升的峰值，其8、9檔占比則大幅回落至低位；與其余三類相比，聚類3的1-4檔占比名列第二，5、6檔占比位居第一，7-9檔占比則位居第三。

（3）聚類2的經營結構特征：聚類2的1-9檔占比態勢與聚類3相似；與其余三類相比，聚類2的1-5檔占比名列第三，6檔占比位居第二，7檔占比位居第一，8、9檔占比則位居第二。

（4）聚類1的經營結構特征：聚類1的1-9檔占比態勢與聚類2、3相似；與其余三類相比，聚類1的1-6檔占比名列末位，7檔占比位居第二，8、9檔占比則位居第一。

總體上看，聚類4的經營結構優于聚類3，聚類3的經營結構優于聚類2，而聚類2的經營結構優于聚類1，即有：聚類4>聚類3>聚類2>聚類1。

4.聚類變量的類間差異

參考文獻：

[1] 李綱，畢振力.國產轎車市場競爭格局的聚類分析[J].統計與決策，2007，（22）：125-127.

[2] 杜棟，龐慶華，吳炎.現代綜合評價方法與案例精選：第2版[M].北京：清華大學出版社，2008.

[3] 黃鐘穎.兩步聚類分析法在汽車市場研究中的應用[J].管理觀察，2008，（9）：200-201.

[4] 仲秋雁，莫佳卉.基于拓展自組織神經網絡方法的客戶市場細分[J].中國管理科學，2008，（10）：551-555.

[5] 統計預測與決策：第3版[M].上海：上海財經大學出版社，2008.

[6] 何俊德.項目評估——理論與方法：第2版[M].武漢：華中科技大學出版社，2009.

[7] 劉樂山，雷丁.論農村消費需求潛力向現實消費需求的轉化[J].新疆財經，2010，（2）：22-24.

[8] 吳耀宇，黃震方.江蘇省入境旅游客流波動性問題研究[J].經濟經緯，2010，（2）：117-121.

[9] 楊萬平.中國省際環境污染的動態綜合評價及影響因素[J].經濟管理，2010，（8）：159-165

[10] 尹小平，王艷秀.中國汽車銷量影響因素的實證分析[J].統計與決策，2011，（8）：98-100.

[責任編輯安世友]

經濟研究導刊2012年34期

經濟研究導刊的其它文章: 淺談大眾健身常見運動損傷的處理及預防措施; 關于房屋損害評估的探討; 以職業規劃為切入點促進優良學風形成; 淺談科學構建高職英語教學; 語塊理論在對外漢語綜合課中的應用; 論高校英語專業教學中學生自主學習能力的培養