何遠霞 王蘭 焦登丹



[摘 要]文章主要以我國31個省、自治區和直轄市的經濟發展水平為研究對象,選取能反映經濟發展水平的18個經濟指標,運用主成分分析法(Principal Component Analysis,PCA)和系統聚類分析法,對31個省市的經濟發展水平進行綜合評價。
[關鍵詞]主成分分析;系統聚類法;經濟發展水平;綜合評價
doi:10.3969/j.issn.1673 - 0194.2023.14.058
[中圖分類號]F124[文獻標識碼]A[文章編號]1673-0194(2023)14-0177-03
0? ? ?引 言
我國部分地區因地理環境及氣候條件等因素的制約,發展速度較慢,導致我國整體經濟發展受到影響。此外,研究發現,我國各省市間經濟發展存在嚴重的不平衡現象。研究各省市間的經濟發展情況,對促進各省市更快更好地發展和充分發揮城市在經濟社會生活中的主導作用都具有重要意義。
1? ? ?數據來源和指標選取
本文數據源于《2022中國統計年鑒》,由Matlab軟件完成數據分析。為更加全面地評價2021年我國31個省、自治區和直轄市(以下簡稱31個省市)的經濟發展狀況,本文結合各省市經濟發展實際情況和數據的科學性、可得性及可操作性等原則,選取能夠反映我國31個省市經濟發展水平的18個指標:人均國內生產總值(Gross Domestic Product,GDP)(元)、地方一般公共預算收入(億元)、社會消費品零售總額(億元)、固定資產投資(不含農戶)同比增長率(%)、地區生產總值(億元)、在崗職工人均工資額(元)、房地產開發投資額(億元)、地方財政預算支出(億元)、城鄉居民年底儲蓄余額(億元)、客運總量(萬人)、貨運總量(萬噸)、貨物進出口總額(億元)、人均擁有公共圖書館藏量(冊/人)、公共圖書館電子閱覽室終端數(臺)、普通高等學校數(所)、每十萬人口高等學校平均在校生數(人)、人均公園綠地面積(平方米/人)、農林牧漁業總產值(億元)。將18個指標變量分別表示為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X12、X13、X14、X15、X16、X17、X18。
2? ? ?基于主成分-系統聚類分析法的31個省市經濟發展水平綜合分析過程
2.1? ?選擇分析方法——主成分分析
2.1.1? ?主成分分析方法簡介
主成分分析的基本思想是將有一定相關性的多個原變量重新組合成少數幾個不相關的綜合變量來代替原變量,并反映出原變量的大部分信息[1]。假設某實際問題中有n個樣品,對每個樣品觀測p個指標,分別用X1,X2,…,XP表示,按各個主成分的累計貢獻率提取p個主成分(F1,F2,…,Fp)的PCA信息轉移方程如下:
(1)
式(1)中aij(i=1,2,…,p;j=1,2,…,p)為第j主成分Fj和第i個原變量Xi的線性相關系數。
一般情況下,當前m個主成分的累積貢獻率達到85%時[2],就選取m(m<p)個主成分來重新表示p維隨機向量X,也實現了降維。
2.1.2? ?PCA模型的適宜性檢驗
本文使用KMO檢驗統計量和Bartlett球形檢驗方法來檢驗變量間是否存在相關性,當KMO值接近1,Bartlett球形檢驗的P值小于或等于0.01時,適合作主成分分析。由表1可知,KMO值0.775>0.6,且Bartlett球形檢驗P值接近于0,表明所選指標數據可以作主成分分析。
2.1.3? ?主成分提取
本文由Matlab軟件計算得出特征值、貢獻率及累計貢獻率,具體如表2所示。
由表2可知,當主成分為3個時,累積貢獻率為83.186%,能解釋原始變量所包含的信息,因此,本文提取前3個主成分,記作:第一主成分F1、第二主成分F2和第三主成分F3。
由式(1)和Matlab計算得到的3個主成分表達式如下:
F1=0.129X1+0.293X2+0.308X3+0.079X4+0.310X5
+0.024X6+0.304X7+0.309X8+0.302X9+0.264X10+
0.260X11+0.261X12+0.034X13+0.283X14+0.283X15+
0.053X16+0.060X17+0.241X18(2)
F2=0.449X1+0.158X2+0.015X3+0.040X4+0.026X5
+0.490X6+0.018X7+0.014X8+0.028X9+0.063X10+
0.149X11+0.233X12+0.479X13+0.165X14+0.136X15+
0.185X16+0.181X17+0.328X18(3)
F3=0.075X1+0.119X2+0.050X3+0.582X4+0.072X5
+0.160X6+0.099X7+0.049X8+0.010X9+0.112X10+
0.003X11+1851X12+0.057X13+0.049X14+0.206X15+
0.640X16+0.283X17+0.109X18(4)
由式(2)、式(3)、式(4)可知,第一主成分F1所有變量的系數都大于0,反映了綜合經濟發展水平情況,F1值可粗略反映整體經濟發展水平的高低;第二主成分F2只有變量X1、X6和X13的系數較大,剩余變量的系數都比較小或小于0,因此F2反映了在崗職工工資和圖書投入經濟情況;第三主成分F3只有變量X4和X16的系數較大,其他變量的系數比較小或小于0,因此F3反映了固定資產投資或高等教育投資經濟情況。
F1、F2和F3分別從不同方面反映了各省市的經濟發展水平,為更好利用F1、F2和F3的信息,本文將它們按貢獻率綜合如下。
綜合主成分表達式如下:
(5)
式(5)中,F數值大小反映了各省市經濟發展的綜合效果,即F的值越大,經濟綜合水平越高,反之越低。
2.1.4? ?主成分得分及綜合得分
本文由Matlab軟件計算出各省市的F1、F2、F3及F的值,并按F值排名,具體如表3所示。
由表3可知,排名前10的省市分別為廣東省、江蘇省、浙江省、山東省、上海市、四川省、北京市、河南省、湖北省和湖南省,這些省市的工農業發展規模較大、產值較高,且發展水平居全國前列[3]。排名靠后的省份,如海南省,旅游業是海南省的支柱產業,第一、第二產業都不發達,又受近兩年特殊情況的影響,旅游產業非常不景氣,所以海南省的經濟狀況不好。對于寧夏回族自治區、青海省和西藏自治區,都是我國西部的?。ㄗ灾螀^),人口均不足1 000萬人,由于地理環境、氣候環境等各方面因素的影響,這些地區的生產力欠發達,所以經濟實力比較差。
2.2? ?系統聚類分析法
2.2.1? ?系統聚類法介紹
系統聚類法又叫分層聚類法,是目前最常用的聚類分析方法,指利用距離和相似系數把分類對象分成若干類的過程[4]。
本文選用離差平方和法(Ward)來測量類間距離。Ward方法是利用方差分析的思想來推導類間距離,如果分類正確,則同類之間的離差平方和應當較小,而不同類樣品之間的離差平方和應當較大[5]。
2.2.2? ?31個省市經濟發展水平的分類
本文選取上述PCA提取的3個主成分F1、F2和F3指標作系統聚類分析,利用Matlab軟件得到系統聚類樹形圖,如圖1所示。
基于圖1,本文把31個省市的經濟發展水平分為5類。第1類是綜合水平高的省市,有江蘇省、浙江省和廣東省。這3個省的各主成分和綜合成分的得分都比較高,尤其F1和F值均排名前三。因此,從綜合經濟發展情況來看,這3個省的經濟發展水平遠高于其他省份,這與實際相符。第2類是綜合水平中高的省市,有北京市和上海市。這兩個市的各主成分和綜合成分得分較高,但綜合成分得分較第1類中的3個省次之,說明北京市和上海市整體綜合經濟發展水平在31個省市中居于中上水平。第3類是綜合水平居中的省份,有河北省、安徽省、山東省、河南省、湖北省、湖南省和四川省。其特點是F1值較高,說明這幾個省的綜合經濟發展比較好,主要原因是這幾個省的農業發展相對成熟,居31個省市前列。雖然綜合經濟發展較好,但F2值均為負值,說明這幾個省的在崗職工工資和圖書投入等情況不太理想。第4類是綜合水平中低的省市,有天津市、山西省、內蒙古、遼寧省、吉林省、黑龍江、福建省、江西省、廣西壯族自治區、海南省、重慶市、貴州省、云南省、陜西省、甘肅省以及新疆維吾爾自治區。這幾個?。ㄗ灾螀^)的F1值次于第3類,F2值與第3類相近。第5類是綜合水平低的省市,有西藏自治區、青海省和寧夏回族自治區。這3個省(自治區)的F1、F2以及F3的值都極低,說明這3個省的綜合經濟發展水平是31個省市中最低的。
3? ? ?研究結論
本文主要運用PCA法和系統聚類法對31個省市的18個經濟指標進行處理分析,對31個省市的經濟發展水平作了綜合評價。從PCA法的分析中可知,第一主成分F1的表達式中每個變量系數均為正值,雖然部分系數很小,但整個F1的貢獻率達55.81%,說明各省市要想提高經濟發展的總體水平,需要考慮每個指標;F2主要反映在崗職工薪資和圖書館館藏量情況,貢獻率為19.589%。一個發達的省市,員工薪資和文化建設也一定發達,所以員工薪酬和文化建設對一個省市經濟發展水平的衡量來說是必須考慮因素的;F3反映了固定資產投資或高等教育投資經濟情況。由主成分F1、F2和F3的值可知,31個省市之間的經濟發展差距是比較大的。
主要參考文獻
[1]朱建平.應用多元統計分析[M].北京:北京大學出版社,2017:119-137.
[2]潘若愚,賀爾蓉.我國沿海鋼鐵產業基地布局研究[J].經濟研究參考,2011(56):29-35.
[3]李文軍.山東省地級市經濟發展水平評價[J].臨沂師范學院學報,2003(6):77-80.
[4]周品.MATLAB概率與數理統計(最新版)[M].北京:清華大學出版社,2012:11.
[5]韓文革,于曉春.聚類分析在鷹嘴豆農藝性狀分類上的應用[J].內蒙古農業科技,2006(6):40-41,45.