摘要:兩步聚類模型是一種新型的分層聚類算法,目前一般應(yīng)用在數(shù)據(jù)挖掘與多元統(tǒng)計(jì)的交叉領(lǐng)域——模式分類中,其算法適合任何尺度的變量。以??市卷煙零售可戶分類為例,運(yùn)用兩步聚類模型進(jìn)行客戶分類模擬研究,模擬結(jié)果顯示,基于兩步聚類算法的卷煙零售客戶分類,具有較高的科學(xué)性和精準(zhǔn)性。
關(guān)鍵詞:兩步聚類;客戶分類;類間差異
中圖分類號(hào):F22 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2012)34-0210-05
一、兩步聚類
聚類(Cluster)就是按照一定的要求和規(guī)則對(duì)事物進(jìn)行區(qū)分和分類的過程,聚類分析(Cluster Analysis)則是指用數(shù)學(xué)方法研究和處理給定對(duì)象的分類,是研究“物以類聚”問題的一種有效方法。聚類分析通常用于解決多因素、多指標(biāo)的分類問題,其基本思想是根據(jù)對(duì)象間的相關(guān)程度進(jìn)行類別的聚合,其所用的方法大致可分為兩類:系統(tǒng)聚類法(Hierarchical Cluster)和非系統(tǒng)聚類法(Non-hierarchical Cluster)。其中,系統(tǒng)聚類的原理是先將所有N個(gè)變量(即觀測(cè)值)看成不同的N類,然后將性質(zhì)最接近(距離最近)的兩類合并為一類;再?gòu)倪@N-1類中找到最接近的兩類加以合并,依次類推,直到所有的變量被合為一類。顯然,在系統(tǒng)聚類法中,一旦變量被劃定在了一個(gè)類別中,以后它的分類結(jié)果就不會(huì)再進(jìn)行更改,這是它和非系統(tǒng)聚類法的顯著區(qū)別。
兩步聚類模型是一種新型的分層聚類算法(Herarchical Algorithms),目前一般應(yīng)用在數(shù)據(jù)挖掘與多元統(tǒng)計(jì)的交叉領(lǐng)域——模式分類中,其算法適合任何尺度的變量。兩步聚類分析主要是利用距離測(cè)度假設(shè)聚類模型的變量均為自變量,即假設(shè)連續(xù)型變量為正態(tài)分布,分類變量為多項(xiàng)式。使用經(jīng)驗(yàn)內(nèi)部檢驗(yàn)方法穩(wěn)定自變量假設(shè)及分布假設(shè)的干擾。兩步聚類分析可以產(chǎn)生不同的聚類判別信息、最終聚類的聚類頻數(shù)和描述性統(tǒng)計(jì)量,而且可以產(chǎn)生聚類頻數(shù)的條形圖和變量的重要性圖。兩步聚類分析具有如下特征:(1)可以處理分類變量和連續(xù)型變量。通過假設(shè)變量為自變量,綜合處理多項(xiàng)正態(tài)分布的數(shù)據(jù)資料;(2)自動(dòng)選擇聚類數(shù)。通過比較不同聚類結(jié)果的模型選擇準(zhǔn)則,程序自動(dòng)確定最優(yōu)聚類數(shù);(3)有效地分析大樣本數(shù)據(jù)。而計(jì)算過程則分為兩步:1)構(gòu)建聚類特征樹;2)使用聚類法對(duì)聚類特征樹的節(jié)點(diǎn)進(jìn)行分組。
二、客戶分類
1.自動(dòng)聚類表
自動(dòng)聚類表可表示聚類分析中選擇聚類數(shù)的過程。一個(gè)好的聚類數(shù)不僅由BIC值決定(按照將最小的BIC值所對(duì)應(yīng)的聚類數(shù)作為最優(yōu)聚類數(shù)的確定原則),還應(yīng)該要求BIC的變化率和距離測(cè)度的變化率盡可能地相對(duì)大一些。綜合考慮聚類數(shù)確定原則,由下頁(yè)表1可知,聚類數(shù)為4是最優(yōu)的選擇。
2.聚類分布表
(2)聚類3的經(jīng)營(yíng)結(jié)構(gòu)特征:聚類3的1-9檔占比呈先逐級(jí)上升,后大幅下降的態(tài)勢(shì),分別在5、7檔占比處形成兩個(gè)漸次上升的峰值,其8、9檔占比則大幅回落至低位;與其余三類相比,聚類3的1-4檔占比名列第二,5、6檔占比位居第一,7-9檔占比則位居第三。
(3)聚類2的經(jīng)營(yíng)結(jié)構(gòu)特征:聚類2的1-9檔占比態(tài)勢(shì)與聚類3相似;與其余三類相比,聚類2的1-5檔占比名列第三,6檔占比位居第二,7檔占比位居第一,8、9檔占比則位居第二。
(4)聚類1的經(jīng)營(yíng)結(jié)構(gòu)特征:聚類1的1-9檔占比態(tài)勢(shì)與聚類2、3相似;與其余三類相比,聚類1的1-6檔占比名列末位,7檔占比位居第二,8、9檔占比則位居第一。
總體上看,聚類4的經(jīng)營(yíng)結(jié)構(gòu)優(yōu)于聚類3,聚類3的經(jīng)營(yíng)結(jié)構(gòu)優(yōu)于聚類2,而聚類2的經(jīng)營(yíng)結(jié)構(gòu)優(yōu)于聚類1,即有:聚類4>聚類3>聚類2>聚類1。
4.聚類變量的類間差異
參考文獻(xiàn):
[1] 李綱,畢振力.國(guó)產(chǎn)轎車市場(chǎng)競(jìng)爭(zhēng)格局的聚類分析[J].統(tǒng)計(jì)與決策,2007,(22):125-127.
[2] 杜棟,龐慶華,吳炎.現(xiàn)代綜合評(píng)價(jià)方法與案例精選:第2版[M].北京:清華大學(xué)出版社,2008.
[3] 黃鐘穎.兩步聚類分析法在汽車市場(chǎng)研究中的應(yīng)用[J].管理觀察,2008,(9):200-201.
[4] 仲秋雁,莫佳卉.基于拓展自組織神經(jīng)網(wǎng)絡(luò)方法的客戶市場(chǎng)細(xì)分[J].中國(guó)管理科學(xué),2008,(10):551-555.
[5] 統(tǒng)計(jì)預(yù)測(cè)與決策:第3版[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2008.
[6] 何俊德.項(xiàng)目評(píng)估——理論與方法:第2版[M].武漢:華中科技大學(xué)出版社,2009.
[7] 劉樂山,雷丁.論農(nóng)村消費(fèi)需求潛力向現(xiàn)實(shí)消費(fèi)需求的轉(zhuǎn)化[J].新疆財(cái)經(jīng),2010,(2):22-24.
[8] 吳耀宇,黃震方.江蘇省入境旅游客流波動(dòng)性問題研究[J].經(jīng)濟(jì)經(jīng)緯,2010,(2):117-121.
[9] 楊萬平.中國(guó)省際環(huán)境污染的動(dòng)態(tài)綜合評(píng)價(jià)及影響因素[J].經(jīng)濟(jì)管理,2010,(8):159-165
[10] 尹小平,王艷秀.中國(guó)汽車銷量影響因素的實(shí)證分析[J].統(tǒng)計(jì)與決策,2011,(8):98-100.
[責(zé)任編輯 安世友]