陳 俊 蔡付斌 肖碧云
(景德鎮陶瓷學院,江西 景德鎮333403)
聚類分析(Cluster Analysis)是根據事物本身的特性來定量研究分類問題的一種多元統計分析方法。其基本思想是同一類中的個體有較大的相似性,不同類中的個體差異較大,于是根據一批樣品的多個測量指標,找出能夠度量樣品(或變量)之間相似度的統計量,并以此為依據,采用某種聚類法(Method),將所有的樣品(或變量)分別聚合到不同的類中。
聚類分析使用的方法大致分為兩類:系統聚類法(Hierarchical Clustering)和非系統聚類法(Non - hierarchical Clustering),前者用于所給數據所分類別數目未知的情形,后者用于所給數據所分類別數目已知的情形。本文選擇系統聚類法。
在實際應用中,根據分類對象的不同有樣品(Case)聚類(又稱Q 型聚類)和變量(Variable)聚類(或稱R 型聚類)之分。前者對樣品(或事件)進行分類,后者以變量為單位進行聚類。本文選擇前者進行聚類。
目前進行聚類分析的軟件很多,SPSS、SAS、R、S -plus、Matlab 等,本文采用SPSS18.0 測試版進行聚類分析,其基本步驟如下:
第一步,選擇分析變量,生成變量矩陣X =(xij),i =1,2,…,n,j=1,2,…,p,n、p 分別為樣本數和變量數。
第二步,數據標準化。本文采用標準化變換來消除各變量間的量綱。具體做法如下,通過標準化公式

將原始數據X=(xij)變換為X*=(x*ij),其中,Sj為第j 個變量的樣本標準差。經過這樣標準化變換后的數據,每個變量的樣本均值為0,標準差為1,與變量的量綱無關。
第三步,選擇距離或相似系數的計算公式,生成距離矩陣或相似矩陣作為相應的聚類統計量,距離主要用于樣品分類,相似系數主要用于變量的分類。本文是對樣品進行分類,所以選擇歐氏距離平方作為聚類統計量,其矩陣表達形式為:

其中,p 為變量個數,i=1,2,…,n 為樣品數目。
第四步,選擇聚類方法,將距離最近的兩個樣品合成一類。本文選擇離差平方和法(WARD 法)進行聚類,WARD 法必須采用歐式距離計算。當Gp和Gq合并為Gr后,Gr與其他類Gk的距離遞推公式為:

其中,nk、np、nr和nq分別為Gk、Gp、Gr和Gq各類中樣品的數目。
第五步,重復上述步驟,直至所有樣品歸為一類。
第六步,輸出聚類結果和系統聚類圖,并根據實際情況、分類準則等得出最終分類結果。
數據的收集一般分為一手資料和二手資料兩大類,一手資料是指研究者本身為了其研究目的經過自身搜集整理或直接經驗所得,一手資料是經過研究者實地考察、親身走訪搜集的實證研究資料;二手資料是指某些特定研究組織受企業、政府等機構委托,對于一手資料進行調查統計的資料。二手資料包括各地年鑒、企業統計報表、產業統計便覽、地圖等。
本文考慮二手資料的可得性以及年鑒的可靠性,選擇《江西省統計年鑒》中的數據,選取2007—2009年(整理)江西省各地市旅游多種指標作為本文分析數據,經過多種變量組合聚類分析的結果比較,最終采用X·1=國內游客數(人次),X·2=外國游客數(人次),X·3=香港游客數(人次),X·4=澳門游客數(人次),X·5=臺灣游客數(人次),X·6=旅游收匯(萬美元),X·7=星級飯店數目這7 個指標進行聚類,得到11 ×7 矩陣X:

該矩陣的行向量的分量分別表示江西省各地級市,具體X1·=南昌市,X2·=景德鎮市,X3·=萍鄉市,X4·=九江市,X5·=新余市,X6·=鷹潭市,X7·= 贛州市,X8·=吉安市,X9·=宜春市,X10·=撫州市,X11·=上饒市。
在SPSS 軟件中實現聚類過程時,系統聚類共輸入11個樣本,有效樣本為11 個,且沒有缺失值的存在,所得到聚類統計量用如下距離矩陣D 表示:

與原始矩陣X 的行向量相對應,元素d11表示南昌與南昌的距離,d12表示南昌與景德鎮的距離,d13表示南昌與萍鄉的距離,以此類推。由距離矩陣,我們發現萍鄉和宜春的相似性最大(即距離d39最小),其次是宜春和撫州,接著是撫州和新余,以此類推,新余和九江之間的差距最大。
值得注意的是,根據距離矩陣只是將11 個樣本分成10 類,隨后在新的10 類中SPSS 將再次根據離差平方和法計算新的類間距離矩陣D10×10,并根據D10×10將10 類分成9 類,在此基礎上重復前述方法計算聚類統計量,直將11 個地級市按照WARD 距離法一步一步分類的過程可以如圖1 所示的譜系聚類圖看出,圖中橫軸表示距離,縱軸表示樣品,即11 個地級市。

圖1 江西各地區譜系聚類到將所有樣本分為一類,SPSS 便會輸出最終聚類結果。
從譜系圖中,我們不難看出,萍鄉和宜春首先歸為一類,此后撫州也被歸為這一類,然后贛州和吉安歸為一類,景德鎮和上饒歸為一類,依次類推,最終將這11 個城市歸為四類:萍鄉、宜春、撫州和新余屬于綜合以上7 項指標相對較低的一類,景德鎮、上饒、鷹潭和南昌為次低的一類,贛州和吉安為相對較高的一類,九江屬于相對最高的一類。
在對江西各市發展旅游產業制定區域對策時,可以根據這種聚類,對同一類中的城市建立聯盟,共同發展,對不同類型的城市,采取高一級的帶動低一級的城市發展的整體區域規劃。具體而言:在處于同一類的城市中,一方面,在發展目標上,共同以高一級的城市旅游發展現狀為目標;另一方面,各城市旅游業的各類資源實現共享和互補,旅游產品及市場的開發與推廣策略,可以互相參照,以聯盟的方式形成規模,達到縮減成本、創造共同收益的目的。在處于不同類型的城市中,較低發展水平的以較高發展水平為目標,較高發展水平以“手拉手”的形式帶動較低發展水平的城市,呈現鏈條反應,以縮小差距。具體來看,要從以下幾點來做:
1. 萍鄉、宜春、新余以及撫州四市旅游業發展狀況相似度較高,且同位于江西省中部,故而在制定旅游發展規劃或政策時就應該在基礎設施建設、旅游線圖設計、旅游產品開發、信息共享方面協同考慮。
2. 景德鎮、上饒、鷹潭以及南昌四市旅游業發展狀況相似度較高,而且這四個地區均位于江西省第一個國家戰略“環鄱陽湖生態經濟區”,因而在制定旅游業發展規劃時,要充分考慮國家對該區“生態文明與經濟社會發展協調統一、人與自然和諧相處的生態經濟示范區和中國低碳經濟發展先行區”的要求,并結合該地區所具有的自然生態資源稟賦,大力發展綠色生態家園旅游業。
3. 贛州、吉安與九江旅游業發展狀況相似度較高,且位于江西省北部與南部,因此要注重以旅游業發展程度相對較高的九江旅游業的發展經驗指導規劃贛州、吉安的旅游業發展,并且在江西省南北部的旅游業基礎設施建設、旅游業空間布局等方面加強協作,以期貫穿整個江西省全景,進而帶動江西省旅游業的發展壯大。
江西省在其11 個地級市的旅游區域規劃方面,應注意聯系九江旅游業發展的先進經驗,注重聯系贛州及吉安的旅游業發展,并結合南昌、景德鎮、上饒及鷹潭旅游業資源的區位及政策優勢,而萍鄉、宜春、撫州及新余旅游業的發展則要緊密跟隨其他地級市旅游業發展進行科學規劃與發展。
此外,以上分類僅從市場數據入手,只能從整體上對江西省旅游業發展給出區域對策,每個城市旅游的特色不應被這些市場數據所表現出的共性所掩蓋。
[1]高惠璇. 實用統計方法與SAS 系統[M]. 北京:北京大學出版社,2001.
[2]張立軍,任英華. 多元統計分析實驗[M]. 北京:中國統計出版社,2008.
[3]李仲來. 系統聚類分析中應注意的兩類問題[J].數理統計與管理,1993(6).
[4]于春燕. 吉林省海外旅游流統計分析[M]. 東北師范大學,2006.
[5]李曉丹,吳楊偉. 構建環鄱陽湖旅游圈旅游業增長極的實證研究[J].改革與戰略,2009(11).
[6]劉勇. 基于資源整合提升的江西省旅游發展戰略創新研究[J]. 江西農業大學學報(社會科學版) ,2012(3).
[7]邱榮飛,林坤. 江西旅游發展現狀分析與策略探討[J].企業經濟,2011(9).