職文爽(河南大學歐亞國際學院)
當前我國處于經濟發展快速時期,但是地區經濟發展水平不平衡的問題日漸突出,是我國經濟發展的一個焦點問題。對各個地區經濟水平進行研究,能夠宏觀把握好地區的經濟狀況,幫助正確采取措施減小地區經濟發展失衡的問題,促進我國經濟發展。
聚類分析是根據研究對象的特征,對研究對象進行分類的方法,以減少研究對象的數目。它把相似度較大的樣品聚合為一類,把另外一些彼此之間相似度較大的樣品聚合為另一類,直到將所有樣品聚合完畢為止。通常用距離來度量樣品之間的相似程度。一般地,用表示樣品與之間的距離,常用的距離有歐氏距離和馬氏距離。
最短距離法:類與類之間的距離定義為兩類中相距最近的樣品之間的距離,即類和之間的距離定義為:


主成分分析是一種將多個指標化為少數幾個綜合指標的統計分析方法。它利用降維的思想,將相關的指標化為不相關的指標,以較少的變量代替原來較多的變量,減少計算量的同時避免了信息重復,簡化了問題。
主成分個數的選取原則:若使累積貢獻率達到80%以上的主成分個數為x,則選取前x 個主成分比較合適。
用R 軟件進行系統聚類,采用最短距離法,如圖1 所示:

圖1 系統聚類法
(1)上述聚類譜系圖給出了2019 年我國31 個省市自治區的經濟發展狀況作為樣品聚類分為三類時的各樣品所屬類別。觀察譜系圖,我們看出,第一類包括2 個樣品(包含:北京市、上海市)。由地區分布情況和經濟狀況知,第一類所包含的地區主要位于我國經濟發達、資源豐富、交通便利的位置。

圖2 主成分的累積方差貢獻率及因子載荷
(2)第二類包括27 個樣品(包含:天津市、河北省、山西省、遼寧省、吉林省、黑龍江、浙江省、安徽省、福建省、江西省、山東省、河南省、湖北省、湖南省、廣西壯族自治區、海南省、重慶市、四川省、貴州省、云南省、西藏自治區、陜西省、甘肅省、青海省、內蒙古自治區、寧夏回族自治區、新疆維吾爾自治區)。根據地區分布情況,第二類包含的省、市、自治區相對于第一類來說資源較少、人才較為缺乏、經濟水平較低。
(3)第三類包括2 個樣品(包含:江蘇省、廣東省)。根據所學的地理及經濟學知識,第三類所包含的地區主要分布于我國東南沿海和臨海的華中地區。這些地區經濟水平較高,教育資源豐富,并且工業高度發達,有中國尖端技術亦有國外先進管理文化滲入,具有得天獨厚的地理優勢和發展前景。但同時這也使得我國不同地區的資源和發展不平衡的問題更加突出,加大國內地區貧富差距。
由于主成分分析要求變量之間要有顯著的相關性,即變量之間存在多重共線性,且變量的數目比較多,故先用軟件計算變量之間的相關系數。可以得到,有絕大多數變量間的相關系數都大于0.3,甚至有的達到了0.98,因此使用這些數據做主成分分析是合適的。
用R 軟件輸出主成分的累積方差貢獻率及因子載荷如圖2所示:
由圖2 可以看出,主成分1(Comp.1)的累積方差貢獻率為75%,說明主成分1 包含原始變量75%的信息,主成分1 至主成分2 的累積方差貢獻率為99.6%,說明這兩個主成分包含了原始變量99.6%的信息。根據主成分個數的選取原則,使累積方差貢獻率達到80%以上的主成分個數都是比較合適的,因此選取前兩個主成分。
圖2 Loadings 顯示的因子載荷表明,主成分1 主要由人均生產總值這個指標來反映。由于主成分1 已有75%的把握評價各地區的經濟發展水平,所以該項指標可視為主要指標。而主成分2 則主要從地區生產總值這個指標來反映經濟發展水平,并且用這2 個主成分來考核不同地區經濟發展水平具有99.6%的可靠性,具有較優的代表性。
用SPSS 軟件進行主成分分析,如圖3、圖4 所示。
圖3 為成分矩陣,給出了標準化原始變量用求得的主成分線性表示的近似表達式,分別用,表示各個主成分,則標準化的地區生產總值等于0.801+0.599,其他可以此類推。
圖4 為成分得分系數矩陣,可以寫出主成分用標準化后的原始變量表 示的表達式。用X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11分別表示地區生產總值、農林牧漁業、工業、建筑業、批發和零售業、交通運輸業、住宿和餐飲業、金融業、房地產業、其他、人均生產總值,則表達式為:

為了根據不同的經濟水平實現對各省份的劃分,我們可以用樣本主成分得分進行排序。構造綜合評價函數,由于第一主成分系數全為正,且第一主成分與原變量綜合相關度最強,包含數據量信息最多,因此用第一主成分進行排序可計算出各省市自治區的經濟發展水平,用R 軟件的predict 函數運算并依據第一主成分得分進行排序,得出排名如下:
江蘇、北京、上海、廣東、浙江、福建、山東、湖北、天津、河南、重慶、四川、湖南、安徽、陜西、內蒙古、遼寧、河北、江西、云南、新疆、海南、貴州、廣西、山西、寧夏、吉林、青海、西藏、黑龍江、甘肅。
其中,根據名次和得分,大體上地區可以分為三類:

圖3 成分矩陣

圖4 成分得分系數矩陣
第一類:江蘇、北京、上海、廣東、浙江、福建;
第二類:山東、湖北、天津、河南、重慶、四川、湖南、安徽、陜西、內蒙古、遼寧、河北、江西、云南、新疆、海南、貴州;
第三類:廣西、山西、寧夏、吉林、青海、西藏、黑龍江、甘肅。
由于主成分是根據地區經濟發展水平進行分類的,可以看出,我國2019 年經濟發展水平總體上屬于待發展狀態。從各省份自治區經濟發展水平總得分及排名情況可以看出,排名位于第一類的是經濟發達地區,這些地區擁有得天獨厚的地理環境優勢,區域經濟發達,經濟水平位于各地區平均水平之上;第二類是經濟較發達地區,經濟水平在各地區平均水平左右,這類地區數目較多,反映了我國的總體情況;第三類是經濟不發達地區,由于氣候、地理位置、資源等因素,其經濟水平在各地區平均水平之下。
本文通過應用聚類分析和主成分分析兩種多元統計方法,對2019 年我國31 個省市自治區的影響地區經濟發展的11 項指標進行深入分析,得出以下結論:
(1)我國地區經濟東西部發展不均衡現象尤為突出,我國南方地理位置優越、資源豐富,尤其是東南沿海地區,不僅具有地理環境優勢,而且位于我國與外界發達地區的交通要塞,同時也是頂尖人才的匯集地。這些優勢都使得我國東南沿海地區經濟發展迅猛,始終處于我國經濟發展前列。因此,在今后的經濟發展中,國家應該對于我國欠發達的中西部地區和少數中部地區加大投入力度,增加財政支持和政策傾向,盡快通過提高這些地區的經濟發展水平,減輕國內經濟發展不平衡問題的程度。
(2)通過以上分析可知,房地產業與工業的發展與地區生產總值關系最為密切。為使地區經濟發展,應大力發展地區房地產業和工業。然而我們不能只追求眼前的經濟發展而犧牲未來的發展,我們應該在尊重自然發展客觀規律的基礎上,大力發展工業和房地產業,同時加強對環境的保護,從而促進我國可持續發展。
