楊志恒
(山東經濟學院山東區域經濟研究院,山東濟南 250014)
基于Ward法的區域空間聚類分析
楊志恒
(山東經濟學院山東區域經濟研究院,山東濟南 250014)
作為數據挖掘和數據信息分析的一個重要技術,空間聚類方法是確定區域劃分方案的一種定量分析方法。本文以Ward系統聚類法為基礎,采用自下而上的層次方法,定義了由地理空間距離與空間鄰接關系提取的空間鄰近指數,將其作為判斷離差平方和增幅最小類別是否聚合的指示值,對給定的數據進行逐層篩選判別,進行空間聚合分析。將該算法應用于昆明市經濟發展分區,所得結果較好的體現了昆明市經濟發展水平的地域特征,實現了空間上自動聚合,使得分區結果符合區域劃分原則。
Ward法;空間鄰近指數;空間聚類算法;優先度
聚類分析又稱群分析,是研究(樣本或指標)分類問題的一種多元統計方法。聚類分析中的類,通俗地說,指的就是相似元素的集合。對于區域樣本來說,通過聚類分析得到的分類結果在空間上表現為不同的類型區,可以作為區域劃分的依據。目前較為成熟的聚類方法主要有采用層次的方法(亦稱系統聚類法)(hierarchicalmethod)、劃分的方法(partitioningmethod)、基于密度的方法(densitybased method)、基于網格的方法(grid-based method)和基于模型的方法(model-based method)等。本文選用Ward系統聚類法,強調同類事物的內部差異(相當于方差或標準差)應該很小,而不同類之間的差異應該很大,突出強調類型區內部的同質性,適用于以區域為樣本的集群聚類,輔助分區決策。地理空間上的區域分區研究,其實質就是將地理特征(包括空間信息特征和非空間信息特征)相似的區域聚合在一起,是聚類方法在地理空間上的推廣應用,目前這方面的研究雖然體現了樣本區域的空間信息特征,但在反映區域樣本的綜合地理空間信息上有所失真[1-8],僅考慮區域樣本之間的空間距離[9]或空間鄰接關系[10-11]的單一指標,這樣聚類后的結果有可能出現同類區域地域上相互分離和“飛地型”的空間表現形式,無法滿足區劃要求的同一類型的區域樣本在地域上相互流通,空間上“集結成片”之需要。本文在經典統計學定義的距離聚類算法基礎上,深入探討區域樣本在地理空間特征上的相似性,實現相同類型的聚類對象在空間上能夠自動合并為一個連通的區域,而不同類型的聚類對象之間在空間上相互獨立,這種空間聚類算法可以有效解決三維空間聚類問題,幫助發掘更具地理信息價值的區域類型。
1.1 聚類準則
(1)Tobler地學第一定律提出的空間自相關性,即鄰近的位置將具有相互類似的值;
(2)區域劃分要求地理屬性一致,空間上相互毗鄰。
1.2 Ward法
Ward法又稱離差平方和法[12-14],即以平方歐氏距離作為兩類之間的距離,先將集合中每個樣本自成一類,在進行類別合并時,計算類重心間方差,將離差平方和增加的幅度最小的兩類首先合并,再依次將所有類別逐級合并。具體算法如下:

1.3 空間信息表征
影響區域樣本聚類合并的地理空間信息主要表現為類間的空間距離與空間鄰接關系,空間距離zij可以用類在地理空間上的幾何中心O(m,n)兩兩之間的歐幾里德距離量算。

相對于空間集聚效應來說,空間距離是一個負指標,即空間距離愈大,類間的距離愈遠,空間集聚效應愈小,為此,需要對zij進行轉換,形成空間距離矩陣,用Z表示。

空間鄰接關系aij表征樣本區域類型i與類型j在空間上是否鄰接。類別的兩兩鄰接關系可以寫成空間鄰接矩陣,用A表示。

為了表征同一類型區域樣本的空間信息,空間距離矩陣與空間鄰接矩陣可以通過元素求積,形成空間鄰近指數nij,寫成矩陣N,獲取空間上鄰接、類間距離最近的最小累積成本[1314]。

這樣就構造出不同區域類型兩兩對應的空間鄰近指數矩陣,nij愈大,空間鄰近度愈大,nij=0,說明空間上不鄰近。當進行聚類時,兩個類別合并后形成了一個新的區域類型后,空間鄰近指數需要重新計算。
1.5 空間聚類算法
空間聚類算法采用自下而上的層次方法,從每個對象均為一個(單獨的)組開始;逐步將這些(對象)組進行合并,直到組合并在層次頂端或滿足終止條件為止,其具體思路為:在優先體現樣本系統聚類指標集群度的基礎上,將空間鄰近指數作為聚合的判別依據,參與聚類過程。也就是說,首先計算類兩兩之間的離差平方和增幅,確定Ward法合并類的距離矩陣,然后篩選離差平方和增幅最小的類內所有樣本,比較空間鄰近指數,取對應最大鄰近值的樣本優先聚類,對聚合后的新類重新計算離差平方和空間鄰近指數,依照方差最小、空間最鄰近原則將所有樣本逐級搜索聚類,確保類內樣本在空間上相連。具體算法如下:
依照p個系統聚類指標將n個區域樣本分成k類,計算St,Ward法合并類的距離公式為:

得到距離矩陣,篩選距離最小的對應的類別Git和Gjt,比較Git和Gjt的空間鄰近指數N(t)ij,當:聚合后形成新類G(k+1),重新計算空間鄰近指數Niji,j

∈(1,n-1),重復以上步驟,直至所有樣本聚合完畢(見圖1)。

圖1 基于Ward法的空間聚類算法流程圖
1.4 空間聚類算法的實現
依據上述算法,利用ArcGIS Desktop9.0與MATLAB6.5軟件聯合實現空間聚類。首先,利用ArcGIS軟件中SpatialAnalysis模塊,導入GR I D數據,利用已有程序計算空間距離和空間鄰接關系;利用Cost-Weighted Distance工具計算得到空間鄰近指數矩陣;然后,利用MATLAB軟件中Statistics Toolbox模塊,輸入系統聚類指標,計算離差平方和,比較對應最小離差平方和類別的樣本的空間鄰近指數,篩選優先合并類別;繼而,將結果返回ArcGIS,合并記為新的一類,重新計算空間鄰近指數矩陣,再返回MATLAB進行聚類;最后,依次將所有類別逐級合并,得到最終結果。
對昆明市域(除滇池外)經濟發展水平進行聚類分析,試驗數據包括昆明市14個區(縣、市)的經濟發展數據(2006年)與1:10000行政區劃圖。擬將昆明市經濟發展水平分為四類經濟區,結合當地特點制訂經濟發展戰略并以此作為規劃分區的依據。為了便于說明,本文以14個區(縣、市)為樣本進行空間聚類分析,與采用傳統系統聚類方法得到的聚類結果進行對比,分析兩種方法對昆明市的經濟發展水平類型劃分的影響。
2.1 系統聚類指標選取
選擇人均GDP、GDP增速、產業結構比、人均財政收入、固定資產投資總額、對外出口額等六項指標分別用來表征經濟規模、經濟結構、增長質量、發展潛力、對外開放度等經濟發展特征。指標值經過極差標準化處理后,得出系統聚類指標值。
2.2 空間信息提取
將14個區(縣、市)每一個樣本看作一類,見表1。
在ArcGIS里將區域轉換成點,得到區域幾何中心,計算兩兩中心之間的空間距離,進行歸一化處理后得到地理空間距離矩陣:
2.3 空間聚類結果
優先采用Ward法進行聚類,將14個樣本各自看成一類,此時類內離差平方和S=0;將一切可能的任意兩列合并,計算所增加的離差平方和,列表如下:

表1 聚類樣本

自動搜索樣本的邊界,根據圖形拓撲關系,判斷共有公共邊界的相鄰接樣本,得到空間鄰接指示表。寫成矩陣形式為:

累積計算所得的空間鄰近指數矩陣為:

表中非對角線最小元素是0.01,說明將G13、G14增加的S最少,從空間鄰近指數矩陣獲取N13,14為0.70,G13、G14在空間上鄰近,合并為新類G15,繼續計算G1-G12與
G15的空間鄰近指數,G15與其它類的距離見表3:

表2 兩兩合并的離差平方和

表3 兩兩合并的離差平方和(D2(1))

圖3 空間聚類結果
本文以昆明市14個區(縣、市)的經濟發展分區聚類為例,在Ward法聚類過程中,加入類別之間的地理空間鄰近信息作為聚類的判別指示,將昆明經濟發展特征落實到地域上,從圖1來看,劃分到同一類別的樣本在空間上集結成片,而采用傳統系統聚類方法得到的分類結果,有兩組同一類別的樣本在空間上是相互分離的。不同的聚類方法劃分的結果差別較大,除盤龍區、五華區、西山區和官渡區組成的一類沒有變動外,其它樣本的類別歸屬都有較大改變,如采用空間聚合方法,東川區與北部的祿勸縣、尋甸縣和富民縣合并;安寧市與晉寧縣、呈貢縣合并為環滇池區域;由于宜良縣的空間鄰接傳遞作用,使得嵩明縣和石林縣最終合并為一類。這樣的分類聚合結果與昆明市對區(縣、市)的規劃分區結果接近,類內樣本的同質性較強,滿足了同一類樣本在地理空間上的自動聚合目的,較好的體現出昆明市域內的經濟發展差異,解決了區域樣本聚類過程中產生相互分離和“飛地”問題,該算法在進行區域樣本的空間聚類方面具有良好的應用效果。
本研究僅根據各區(縣、市)的經濟特征進行分類,并未就經濟發展水平進行評價,所以劃分出的類別不代表級別。另外,在聚類指標選擇上只照顧到樣本間的經濟特征一致性,所劃分的類別作為經濟區來說,沒有設計體現樣本間的經濟聯系和經濟互補性的指標。
在今后的研究中,本算法將逐步考慮尺度對樣本的類別信息的影響,增加對研究對象的粒度和幅度的研究,將研究樣本擴展到鄉鎮級別,研究范圍擴展到區域,并探索應用空間自相關分析等技術在空間聚類過程中的應用,指導區域劃分。
(編輯:于 杰)
[1]王平,史培軍.自下而上進行區域自然災害綜合區劃的方法研究──以湖南省為案例[J].自然災害學報,1999,(3):54-60.
[2]駱劍承,梁怡.多尺度空間單元區域劃分方法[J].地理學報,2002,57(2):167-173.
[3]陳明.區域化變量的空間聚類分析[J].長春科技大學學報,1995,(2):222-228.
[4]王博,遲忠先,岳訓.一種面向GIS系統的新型雙層聚類方法[J].計算機工程,2006,32(7):84-85,125.
[5]曹陽,陳天滋,柴勇.基于GIS的道路事故黑點聚類應用研究[J].微計算機信息,2006,(11S):253-255.
[6]周前祥,敬忠良.高光譜遙感圖像聯合加權隨機分類器的設計與應用[J].測繪學報,2004,33(3):254-257.
[7]張燕文.基于空間聚類的區域經濟差異分析方法[J].經濟地理,2006,26(4):557-560.
[8]王海軍,張德禮.基于空間聚類的城鎮土地定級方法研究[J].武漢大學學報:信息科學版,2006,31(7):628-631.
[9]厙向陽等.基于GIS的空間聚類算法研究[J].計算機工程與應用,2005,41(29):24-26,31.
[10]文俊浩等.基于鄰接關系的空間聚類算法研究[J].計算機工程與應用.2003,39(34):184-186.
[11]Christophe Dematte,NicolasMolinari,Jean-PierreDaurès.Arbitrarily ShapedMultiple Spatial ClusterDetection Forcase EventData[J].Computational Statistics&Data Analysis,2007,(51):3931–3945.
[12]羅伯特.約翰遜,帕特里夏.庫貝著,屠俊如等譯.基礎統計學[M].北京:科學出版社,2003:7.
[13]張建同.以Excel和SPSS為工具的管理統計[M].北京:清華大學出版,2005:8.
[14]趙驊,朱莉華,劉丹.Ward系統聚類法在多變量分層抽樣技術中的運用[J].統計與決策,2006,(23):67-68.
AbstractThe cluster analysis called the group analysis,is the multi-dimensional statistical method to research(sample or target)classifies.In the cluster analysis,the kind refers the similar element set.For regional samples,the classified result which obtains through the cluster analysis displays in the space for the different type areas,which can be used as the basis for the region division.As an i mportant technology of data mining and data information analysis,spatial clustermethod is a type of quantitative analysismethod to definite regional assignment program.This article takesWard systemic cluster method as foundation,uses hierarchical method(from bottom to top),defines neighborhood index refined from geographical space distance and spatial adjacency relationship,which judges whether the classeswithminimal SSD(sum of squaresof deviations)amplitude could cluster,and then filters prior data layer-by-layer,carries out spatial cluster analysis.Applying this algorithm in economical region assignment of Kunming,the results preferably reflect regional characterof Kunming economic development level,realize spatial auto-cluster,and correspondwith regional assignmentprinciple.Thismethod haswide range applicability and affectivity.
Key wordsWard method;the spatial neighborhood index;the spatial clustermethod;the precedence
Region Spatial Cluster Algorithm Based on WardM ethod
YANG Zhi-heng
(Regional Economy Institute of Shandong Economic University,Jinan Shandong 250014,China)
P208,TP301.6
A
1002-2104(2010)03專-0382-05
2010-01-10
楊志恒,博士,副教授,主要研究方向為區域分析與區域規劃。