張淑麗
對我國各地區的基本經濟狀況進行聚類分析可以采用的方法有多種,但最常用的有兩種,即系統聚類和K均值聚類,因此本報告將分這兩種方法對數據進行聚類分析。然后從中找出聚類最合適的結果進行分析。
一、系統聚類分析法對我國各地區的經濟水平的分析
一般地,常用的系統聚類方法有最短距離法、最長距離法、中間距離法、中心法、類平均法、可變類平均法、可變法和離差平方和等八種方法。本文采用最短距離法進行系統聚類分析。本文選取人均GDP、人均工業總產值、客運量、貨運量、地方政策預算內收入、固定資產投資總額、在崗職工占總人口的比例、在崗職工人均工資額、城鄉居民年底儲蓄余額作變量,對31個省、市、直轄市的基本經濟狀況做聚類分析。在SPSS軟件分析得出的結果:若將樣品分為兩類,則廣東為一類,其余的為一類;若將樣品分為三類,則廣東為一類,山東和江蘇為一類,其余的為一類;以此類推。本文將樣品分為四類,第一類為廣東;第二類包括山東、江蘇;第三類包括上海、北京;其余地區包含在第四類。
二、K均值聚類分析法對我國各地區的經濟水平的分析
在SPSS軟件中以人均GDP、人均工業總產值、客運量、貨運量、地方政策預算內收入、固定資產投資總額、在崗職工占總人口的比例、在崗職工人均工資額、城鄉居民年底儲蓄余額為對象,對全國各地區基本經濟狀況進行K均值聚類分析。得到初始類中心表,該表給出了K均值迭代的初始類中心坐標,這些坐標是由SPSS自動給定的,反應了各個指標在每一類中的平均水平,給出了K均值的迭代過程,表中的每一行代表每次迭代導致類中心的變化量。從表中可以看出,迭代共進行了3次,每次迭代導致類中心的變換量逐漸減少,直到第4次為0,達到收斂。然后根據迭代結果得到分類變量的方差分析表,該表可用于檢驗各個分析變量的均值在不同類中是否存在顯著性差異,同樣可以用于對分類效果是否顯著的檢驗。該檢驗的原假設是分析變量在不同類中不存在顯著性差異,備擇假設是分析變量在不同類中存在顯著性差異。通過分析可知:在崗職工平均工資這個變量的p值大于0.05,所以在的顯著性水平下接受原假設,即認為分析變量在不同類中不存在顯著性差異,也就是說這個變量的分類效果不顯著。其余變量的p值都小于0.05,這說明這些變量對于分類具有顯著作用。最終的聚類中心的結果反映了各個指標經過聚類后的平均水平,與初始類中心不同的是,該中心坐標不是由SPSS自動給定的,而是系統經過計算得到的。
分析結果表明:31個地區被分成4類。第一類包括1個地區,為山東;第二類包括21個地區,包括北京、天津、山西、內蒙古、吉林、黑龍江、上海、福建、江西、湖北、廣西、海南、重慶、貴州、云南、西藏、山西、甘肅、青海、寧夏、新疆;第三類包括1個地區,為廣東;第四類包括8個地區,有河北、遼寧、江蘇、浙江、安徽、河南、湖南、四川。
三、結論
通過對以上兩種聚類方法進行比較分析后發現:系統聚類的效果明顯優于K均值聚類,前者的分組情況更符合實際情況。所以本文采用系統聚類方法對我國各省市地區的基本經濟狀況進行分析,得到以下結論:
第一類為廣東,地處東南沿海,與東南亞地區的經濟往來緊密,而且在改革開放以后,廣東省的各地區成為對外開放的首試對象,從此廣東省的經濟有了較快較好的發展。在2010年廣東舉辦了亞運會,成為了萬眾矚目的焦點,加大了廣東省的貨運量、客運量等。這使得廣東省的基本經濟狀況更為較高水平。
第二類為山東和江蘇,這兩個地區位于沿海地區,成為近年來經濟發展勢頭較為強勁的地區,主要以輕工業為主要經濟發展路徑。
第三類為北京和上海,北京作為中國的首都、政治中心,經濟發展狀況自然較為突出,而上海中國的金融中心,經濟發展勢頭仍是不容小覷的。
第四類包括其余的地區,其中有東三省和華北和華南的部分省市自治區、西北和西南地區的全部省市自治區。這些地區大部分都以重工業為基礎產業,經濟發展較為落后,經濟技術的與時俱進性差。