李 賢,徐常青,王明月,吳 田
(蘇州科技大學 數理學院,江蘇 蘇州 215009)
基于加權主成分聚類分析探究地方經濟發展潛力
李 賢,徐常青*,王明月,吳 田
(蘇州科技大學 數理學院,江蘇 蘇州 215009)
應用加權主成分聚類分析法探究江蘇省13個地級市2014年第三產業發展潛力。先對樣本點數據進行主成分分析,以消除指標過多造成的共線性問題;再通過對主成分進行加權;最后進行聚類分析,實現樣本點的分類與分析。與傳統的聚類分析相比,此方法既不會改變分類結果,又減少聚類過程中的計算量。
主成分分析;加權主成分分析;聚類分析;最短距離法
在中國經濟發展的高速快車道上,第二產業發展始終起引領作用。但隨著第三產業的興起,第二產業逐漸被第三產業趕超。據統計,我國第二產業在1990年總值占全年GDP總量約40%,1990-2010年期間該比例始終保持在45%上下;而第三產業所占比重則從1990年的30%逐年上漲,到2013年達46.1%,比第二產業比重43.9%高2.2%,這是第三產業比重首次超過第二產業,而到2014年比重更是達到了48.2%,所占比重進一步提高。這表明,盡管第二產業仍然是經濟增長的主導產業,其霸主地位已出現被撼動的跡象。這種現象與目前發達國家的發展狀況完全一致。第三產業對經濟發展影響較大的行業主要集中在批發零售業、房地產業和金融服務業等。經濟的增長在得益于第二產業的強勁拉動的同時,第三產業對全國經濟發展的作用也基本與第二產業相當。但與世界發達國家的產業結構相比,還是有較大的不同。與我國第三產業占比45%相比,發達國家第三產業占比達70%以上。
江蘇省位于我國東部沿海長三角地區,經濟發展位于我國前列,其第二產業的強勁帶動了第三產業的發展。據2014年《江蘇統計年鑒》,江蘇省2014年地區GDP為65 088.3億元,比上年增長8.7%,其中第三產業增加值30 396.5億元,增長9.3%,占GDP比重46.7%,比上年提高1.2%;全省規模以上第三產業單位實現營業收入9 860億元,比上年增長12%,增速比上年提高1.1%;營業利潤1 091.5億元,增長8.4%。
主成分分析是特征提取和數據降維的主要方法之一。主成分分析法可用于多元統計分析模型中的因子分析[1],它在經濟預測[2-3]、區域經濟分析[4]、經濟指標綜合評價[5-7]等方面有廣泛應用。找出第三產業發展的一些主要因素,同時也可以對不同地區的經濟發展狀況進行比對剖析[5]。
筆者首先利用主成分分析法對江蘇省13個地級市第三產業14個領域2013、2014年度經濟增長數據進行分析,找出第三產業發展對該14個領域的依賴程度,通過加權主成分分析和系統聚類給出13個地市的第三產業發展相似度分布和差距。
為探究江蘇各地級市第三產業發展潛力,收集了江蘇省13個地級市2013、2014年度第三產業中14個重點行業的數據,通過計算得出2014年度各行業增長比。記第三產業中的14個主要行業依次為X1,X2,…,X14(見表1)。表1反映2013、2014年江蘇省第三產業14個行業生產總值與增長比情況。表2反映13個地市第三產業各行業增長比情況。

表1 第三產業中分行業生產總值(單位:億元)及增長比

表2 區域第三產業各行業增長比/%
由于受地理環境、政策和已有經濟發展水平等因素影響,省內不同地區第三產業發展存在較大差異,主要體現在第三產業基礎總量和發展速度方面[8-10]。
多元統計分析可用于處理多指標問題。一般情況下,這些指標間存在一定相關性。主成分分析法用少量指標代替較多的相關性指標,避免了指標的重疊性。傳統的主成分分析方法[1]首先將原始數據標準化,以消除量綱影響,并生成數據矩陣

其中X的每行對應一個樣本點(n為樣本點個數),列向量Xj對應第j個指標(p為指標個數)。文中每個城市的數據為一個樣本點,每個行業為一個指標,因此,有 n=13,p=14。令 Xi*=σ(Xi)-1[Xi-E(Xi)],i=1,…,p。 E(Xi)為第i個指標的均值,這里為第i個指標的平均狀況。為第i個指標標準偏差,反映第i個指標發展均衡狀況。記X*=(X1*,…,Xp*)∈Rn×p。稱矩陣

為指標相關矩陣,R為對稱半正定,其p個特征根λ1,λ2,…,λp非負。對特征值排序

公式(3)反映了p個指標的重要性情況。若λi1=max{λj:1,2,…,p},那么發展最快的為第i1個行業。給定足夠小ε>0,若有正整數k:1<k≤p,使λik<ε,那么認為指標ik,ik+1,…,ip在第三產業總體發展中可忽略不計。
以上衡量指標重要性方法簡單,但不夠合理,在ε選取方面也缺乏好的策略。一種更加科學且常用的方法是通過累積方差貢獻率來確定主成分個數,即重要指標數k。定義為第i個成分貢獻率,ψk=為主成分Y1,…,Yk的累積貢獻率。
經主成分分析處理后得到的主成分因子一般不具有相關性,但由于主成分為原因子的線性組合,一般不具備可解釋性。加權主成分分析對主成分分析后的數據再次降維得一維數據(單指標數據)[9]。這種降維得到的加權數據并沒有實際意義,只是主成分的一種線性組合,目的是再次優化數據處理過程,為系統聚類帶來方便。令是主成分。這樣,多指標的樣本數據已“簡化”為單指標的一維數據,根據大小對樣本點進行排序,Z(1),…,Z(n)。
加權主成分聚類。假設樣本點集合為π={X1,…,Xn}。令Gj(1)={Xj},j=1,2,…,n。記第k步產生Nk個類,且分別為Gj(k),j=1,…,Nk。定義類間距為,其中dij=||Xi-Xj||為Xi,Xj間距離。若有1≤p<q≤Nk,d(Gi(k),Gj(k)),則令Gp(k+1)=Gp(k)∪Gq(k)。第k+1步類數Nk+1=Nk-1。即除了合并的兩類Gp(k)和Gq(k)生成一類外,其余類不發生變化。重復該過程,直至所有類合為一類,聚類結束。畫出譜系聚類圖并進行分類分析。
上述過程中,由于一維數據可排序,在用最短距離法時,無需計算類間所有樣本點對的距離,只需計算類間相鄰樣本點距離,不僅降低了多維數據的計算量,同時簡化了處理過程。
對式(2)定義的實對稱陣R,由MATLAB指令eig(R)計算其特征值,按式(3)排列,依次為:56.694 4,31.468 8,21.863 3,16.221 8,11.993 7,11.723 7,8.225 7,5.577 2,2.544 7,0.887 3,0.536 0,0.263 5,0,0。
按累計貢獻率 θ=0.85計算,得主成分主成分個數 m=7,貢獻率依次為:φ1=33.75%、φ2=18.73%、φ3=13.01%、φ4=9.66%、φ5=6.98%、φ6=6.98%、φ7=4.90%累積貢獻率ψ7=94.01%,故已包含原數據大部分信息,7個主成分相應特征向量為
T1=[-0.181 0 0.034 3 0.015 2 0.027 0-0.005 1-0.241 6 0.334 3-0.168 8 0.171 7-0.415 9 0.359 8 -0.431 6-0.429 4 0.252 6]
T2=[0.195 3 0.308 4 0.326 6 0.416 2 0.341 7 0.347 0 0.196 8 0.289 9 0.251 7 -0.0984 -0.074 1 0.021 2 0.142 6 0.357 2]
T3=[-0.256 1 0.168 2 0.491 6 -0.350 3 0.1561 -0.261 5 0.240 9 0.062 7 -0.528 9 0.057 2 0.037 5 0.211 6 0.104 2 0.216 7]
T4=[0.5361 -0.5224 0.1701 -0.059 5 0.397 6 -0.1093 0.240 0 -0.3051 -0.0713 -0.212 1 -0.160 4-0.012 6 0.071 5-0.139 2]
T5=[0.059 0-0.500 5 0.031 7 -0.3321 -0.1363 -0.001 8 0.058 2 0.596 8 0.289 0 0.019 7 0.334 0 0.105 6 0.112 6 0.193 3]
T6=[0.398 0-0.096 5 0.323 2 0.212 2-0.628 0 0.005 7-0.197 4-0.150 7-0.239 0 0.087 7 0.043 9 -0.089 2-0.069 3 0.383 7]
T7=[0.068 3 0.019 4-0.333 5 0.171 7-0.173 9-0.442 8 0.195 8 0.421 4-0.168 4 -0.252 1-0.550 4 -0.036 5 0.033 4 0.121 4]
得第一主成分
Y1=-0.181 0X1+0.034 3X2+0.015 2X3+0.027 0X4-0.005 1X5-0.241 6X6+0.334 3X7-0.168 8X8+0.171 7X9-0.415 9X10+0.359 8X11-0.431 6X12-0.429 4X13+0.252 6X14
第二主成分
Y2=0.195 3X1+0.308 4X2+0.326 6X3+0.416 2X4+0.341 7X5+0.347 0X6+0.196 8X7+0.289 9X8+0.251 7X9-0.098 4X10-0.074 1X11+0.021 2X12+0.142 6X13+0.357 2X14
第三主成分
Y3=-0.256 1X1+0.168 2X2+0.491 6X3-0.350 3X4+0.156 1X5-0.261 5X6+0.240 9X7+0.062 7X8-0.528 9X9+ 0.057 2X10+0.037 5X11+0.211 6X12+0.104 2X13+0.216 7X14
第四主成分
Y4=0.536 2X1-0.522 4X2+0.170 1X3-0.059 5X4+0.397 6X5-0.109 3X6+0.240 0X7-0.305 1X8-0.071 3X9-0.212 1X10-0.160 4X11-0.012 6X12+0.071 5X13-0.139 2X14
第五主成分
Y5=0.059 0X1-0.500 5X2+0.031 7X3-0.332 1X4-0.136 3X5-0.001 8X6+0.058 2X7+0.596 8X8+0.289 0X9+ 0.019 7X10+0.334 0X11+0.105 6X12+0.112 6X13+0.193 3X14
第六主成分
Y6=0.398 0X1-0.096 5X2+0.323 2X3+0.212 2X4-0.628 0X5+0.005 7X6-0.197 4X7-0.150 7X8-0.239 0X9+ 0.087 7X10+0.043 9X11-0.089 2X12-0.069 3X13+0.383 7X14
第七主成分
Y7=0.068 3X1+0.019 4X2-0.333 5X3+0.171 7X4-0.173 9X5-0.442 8X6+0.195 8X7+0.421 4X8-0.168 4X9-0.252 1X10-0.550 4X11-0.036 5X12+0.033 4X13+0.121 4X14
由加權主成分知:Z=0.337 5Y1+0.187 3Y2+0.130 1Y3+0.096 6Y4+0.069 8Y5+0.069 8Y6+0.049 0Y7。經MATLAB計算,得各市加權主成分值 Z1-Z14依次為:0.532 8,-0.956 6,1.235 3,-0.252 7,-0.198 5,-2.097 2,0.094 7,-0.123 8,0.180 4,0.551 0,-0.078 6,0.503 5,0.609 7。
將Zi從大到小排列,根據系統聚類法,對地級市進行排序,得譜系聚類圖(見圖1)。

圖1 譜系聚類圖
筆者基于加權主成分聚類分析對江蘇省13個地級市的第三產業進行了聚類分析,這種聚類法既有分類作用,又有排序作用。所以從圖1中可以看出,如果根據第三產業的發展情況把13個地級市分為四類,則徐州是第一類,增長速度較快;宿遷、揚州、南京、泰州、鹽城、連云港、鎮江、淮安、蘇州和常州可以歸為第二類,增長速度第二;無錫是第三類,增長速度第三;南通是第四類,增長速度第四。文中僅僅只是對江蘇13個地級市的第三產業在2014年的增長情況作了聚類分析,并沒有考慮第三產業發展的動力,所以還有待進一步的研究。
[1]高惠璇.應用多元統計分析[M].北京:北京大學出版社,2005:265-276.
[2]王淑芝,紀躍芝.經濟預測方法及應用[J].現代情報,2004,12:184-185.
[3]王德青,朱建平,謝邦昌.主成分聚類分析有效性的思考[J].統計研究,2012,11:84-87.
[4]李雪梅,張素琴.主成分分析在區域經濟分析中的應用[J].計算機工程與應用,2009,45(19):204-206.
[5]吳殿廷,吳迪.用主成分分析法作多指標綜合評價應該注意的問題[J].數學的實踐與識,2015(20):143-150.
[6]黃炎磊.主成分聚類分析在區域經濟評價中的應用——以廣東省城鎮居民可支配收入為例[J].福建電腦,2009,25(9):108-109.
[7]魏煒,隋祎.聚類分析法在區域經濟劃分中的應用——以江蘇省作實證研究[J].市場周刊(理論研究),2008(10):46-47.
[8]劉旭霞.基于主成分分析法的江蘇經濟發展研究[J].陜西農業科學,2011,57(2):174-176.
[9]王宏建,易柱新.主成分方法用于聚類分析[J].經濟數學,1996,13(1):93-96.
[10]姚澤清,趙世玲.江蘇省13城市國民經濟主要指標聚類分析[J].解放軍理工大學學報(自然科學版),2003,4(3):91-94.
Exploration of local economic potential based on weighted principal component cluster analysis
LI Xian,XU Changqing*,Wang Mingyue,WU Tian
(School of Mathematics and Physics,SUST,Suzhou 215009,China)
In this paper we applied the weighted principal component cluster analysis method to explore the third industry development potential of thirteen cities in Jiangsu Province in 2014.Firstly,we made the principal component analysis of the sample points to eliminate colinearity caused by too many indexes.Then we weighted the principal components.Finally,we did the cluster analysis of the sample points.Compared with the traditional cluster analysis,this method does not change the classification effect but reduces the amount of calculation in the process of clustering.
principal component analysis;weighted principal component analysis;cluster analysis;the shortest distance method
責任編輯:謝金春
O212MR(2010)Subject Classification:62H25;62H30
A
:2096-3289(2017)02-0028-05
2016-03-14
國家自然科學基金資助項目(11171373);蘇州科技大學研究生科研創新資助項目(SKYCX16_002)
李 賢(1990-),男,安徽亳州人,碩士研究生,研究方向:應用統計。
*通信作者:徐常青(1966-),男,博士,教授,碩士生導師,E-mail:cqxurichard@mail.usts.edu.cn。