谷偉偉,程 坤
(1.中國礦業大學理學院,中國 徐州 221116;2.南京航空航天大學理學院,中國 南京 210016)
分組主成分法的應用
谷偉偉1*,程 坤2
(1.中國礦業大學理學院,中國 徐州 221116;2.南京航空航天大學理學院,中國 南京 210016)
分別利用正交因子法和分組主成分法,對2010年江蘇省13個市的經濟發展水平進行對比分析,發現分組主成分法分析的結果更加合理,并分析了原因,最后對江蘇未來的經濟發展提出了建議,供有關部門決策參考.
因子分析模型;分組主成分分析;SPSS

1.1 正交因子模型
設有n個樣品,每個樣品觀測p個變量,這p個變量具有較強的相關性.為了消除量綱不同造成的影響,將樣本觀測數據進行標準化處理的變量為X=(x1,x2,…,xp)′,其相關矩陣R的秩為r.
設λ1,λ2,…,λr,0,…,0為R的p個特征值,不失一般性,設λ1≥λ2≥…≥λr>0.

(2)


這里取r個,是使得特征值做分母有意義.
設因子載荷矩陣為A=(aij)p×m,m≤r,公因子為F=(f1,f2,…,fm)′. 誤差項為ε=(ε1,ε2,…,εp)′.取


ε=Aε·Fε.
又Cov(Y)=Cov(L′X)=L′Cov(X)L=L′RL=diag(λ1,λ2,…,λr,0,…,0),故(yr+1,yr+2,…,yp)′=0,即yr+1=yr+2=…=yp=0.
則(2)式變為正交因子模型
(3)
即X=AF+ε.不難證明E(ε)=0,E(F)=0,Cov(F)=Im,Cov(F,ε)=0.
旋轉后的因子載荷陣和公因子可以類似地證明,詳細內容參見文獻[12].
作者發現這樣取的ε并不完全滿足因子模型的條件,因為把(2)式中主成分系數和主成分的第m+1項到第r項看成了ε(第r項之后全為0),而它們之間是有關聯的,即Cov(ε)不是對角陣.但從文獻[13]可知ε的影響是最小的.因此這從理論上和SPSS操作上來說都是沒有影響的.
1.2 分組主成分法的基本思想

本文選取的數據來自《江蘇省統計年鑒2011》中8個國民經濟指標,具體指標如下:
x1: 地區生產總值GDP(億元);x2:第一產業產值(億元);x3:進出口總額(億元);x4: 社會消費品零售總額(億元);x5:城鎮居民人均收入(元);x6:農村居民人均收入(元);x7: 全社會固定資產投資(億元);x8:公路里程(km).
這8個指標都是正向化指標.為了消除量綱的影響,作者對原始數據進行標準化,標準化變量為Zx1~Zx8(見表1).

表1 標準化后的數據
經過SPSS計算,KMO值為0.670>0.6,Bartlett球形檢驗值為0.000,說明適合進行因子分析.旋轉前的方差貢獻為66.006、25.135,旋轉后的方差貢獻為63.158、27.982(因篇幅有限,此處圖表從略).本例中以旋轉后載荷矩陣為分組的依據.表2中的f1和f2為SPSS中提出的公因子,矩陣中的數字表示公因子對變量的載荷.

表2 旋轉載荷陣和因子得分系數陣
從旋轉因子載荷陣中不難發現:f1對變量x1,x3,x4,x5,x6,x7的載荷較高,f2對變量x2,x8的載荷較高,不妨將f1命名為城市發展和居民生活因子,f2命名為第一產業和交通因子.
公因子f1和f2的因子得分分別記為F1和F2,由成分得分系數矩陣可知因子得分:
F1=0.206x1+0.038x2+…+0.086x8,F2=0.066x1+0.448x2+…+0.472x8.
在F1表達式中,x1,x3,x4,x5,x6,x7前的系數都為正;在F2表達式中,x2,x8前的系數都為正.說明它們是正相關關系.對那些和F1,F2相關性較低的變量,它們前面的系數則有正有負.

下面用分組主成分法分析.
將x1,x3,x4,x5,x6,x7作為第1組,將x2,x8作為第2組.分別對第1組和第2組進行主成分分析,分別提出第一主成分,它們的特征值分別為5.122和1.946,第一組中因子載荷分別為0.981,0.958,0.923,0.922,0.903,0.852;第二組為0.986,0.986.



把Y1與Y2的表達式輸入SPSS中,利用“轉換”中的“計算變量”功能進行計算.最后利用文獻[14]中的熵值法計算總得分,為了使對數有意義,先將Y1,Y2得分矩陣的各個元素都加上2.6,得2010年Y1,Y2的熵權,即ω1=0.011 7,ω2=0.004 4.
注意:謝智聰在文獻[15]中,先對各組主成分的得分值進行了標準化,然后將各組得分值放在一起進行主成分分析,進而算出綜合得分.但本例中沒有運用這種方法,如果對Y1和Y2進行標準化處理,那么Y1和Y2就不是主成分得分,而是因子得分(見預備知識).另外,本文將Y1和Y2的得分值進行主成分分析發現:Bartlett球形檢驗值為0.49(遠大于0.05),說明不適合做主成分分析,其原因:雖然Y1和Y2不是完全無關的,但是它們的相關性已經非常弱了.
將以上兩種方法的計算結果放在一起對比分析.結果見表3.

表3 兩種方法的結果對比
CLU5表示用聚類方法將樣本分為5類.F1,F2,F,CLU5-1是正交因子模型做出的結果;Y1,Y2,Y,CLU5-2是用分組主成分法做出的結果.
從常規上判斷:蘇南工業發達,蘇北農業發達,蘇中介于兩者之間.
F1和Y1對比:南通的得分應該小于蘇南的常州,鹽城的得分應小于揚州,鎮江.Y1較合理.
F2和Y2對比:蘇州是發達的工業城市,尤其是工廠很多,但它的農業相對不發達,因此蘇州的得分不應該比農業經濟占很大比重的連云港、淮安高許多.因此,F2不合理.
之所以出現F1,F2的部分數據不合理的情況,是因為F1,F2受相關性較低變量的影響,由上文可知f1在變量x1,x3,x4,x5,x6,x7上的載荷較高,f2在變量x2,x8上的載荷較高.但F1=0.206x1+0.038x2+…+0.086x8,F2=0.066x1+0.448x2+…+0.472x8中,F1的值受相關性較低的x2,x8值影響,F2的值受相關性較低的x1,x3,x4,x5,x6,x7值影響,具體情況見表1中的因子得分系數矩陣.相反,Y1,Y2則不受相關性較低的變量影響,因此比較準確.
F和Y對比:由F和Y的表達式和上面的F1,F2和Y1,Y2的對比討論,我們發現Y的得分較為合理.例如:徐州的綜合得分應該低于蘇南的常州;鎮江、泰州的綜合得分不應該比蘇北的連云港、淮安低;鹽城的綜合得分不能比無錫高,比常州高很多.
另外,Y的表達式不能是


以F1和F2為變量進行聚類得CLU5-1,以Y1和Y2為變量進行聚類得CLU5-2.在CLU5-2中:①蘇州在Y1上的得分最高,這和它顯著的區位優勢(受到上海經濟的輻射帶動作用)和發達的個體私營經濟是分不開的,而且工業十分發達(尤其是昆山),在Y2上的得分也高于平均水平,在Y上的得分最高,所以把它單獨分為一類較合理;②南京(江蘇省省會,擁有良好的地理環境和悠久的歷史,高等教育又在全省遙遙領先)和無錫(太湖流域的交通樞紐)在Y1上的得分都較高,基礎設施十分完善,無錫在Y2上得分比南京低些,所以將南京,無錫分為一類較合理;③常州、揚州、鎮江、泰州的制造業較發達,在Y1上的得分也較高,但遠不如蘇州、無錫、南京;它們在Y2上的得分不是很高,尤其是鎮江最低,所以把它們分為一類較合理;④徐州、南通在Y2上的得分很高,在Y1得分也高于平均水平,因此它們在Y上得分也很高.鹽城在Y2上得分達最大,因為鹽城的面積很大,農業用地很多,公路里程長.農村經濟發展較快,農村產業結構發生很大變化,但和蘇南相比,工業產業結構層次還有差距[17],所以將它們分為一類較合理;⑤淮安、連云港、宿遷在Y2上的得分較高,但在Y1上的得分很低,工業主要以勞動密集型為主,輕工業中以農產品為原料,所占比重依然很高[17],高等教育發展程度全省最低,所以將它們分為一類較合理.顯然CLU5-1中將連云港,淮安,揚州,泰州,宿遷分為一類是不合理的.
江蘇發展的主要問題是經濟發展不均衡.蘇南是江蘇發展水平最高的地區,蘇中次之,蘇北最低.
對于蘇北:“沒有蘇北的小康,就沒有江蘇的小康”.由上述統計分析可知,蘇北整體在Y1上得分不高,而在Y2上得分很高,所以應努力加快農村城鎮化進程,著力提高居民的收入水平和改善人民的就業層次,逐步推進產業結構調整.省政府應該加強宏觀調控,適當有些政策傾斜.當地政府也應該因地制宜,發展當地的特色產業.同時,要注重基礎設施建設,過去支持蘇北基礎設施建設主要指交通、水利、電力等硬件設施.今后,基礎設施建設支持范圍擴展到信息化、城鄉社會服務體系、環境設施等方面.最后,還要注重提高蘇北的教育水平,尤其是蘇北的廣大農村地區.
對于蘇中,蘇南:在保持傳統優勢的情況下,加大科研投入,改變目前的研究成果轉化率不高的情況,加大人才引進力度,逐步依靠勞動者素質的提高來促進經濟發展.
[1] JONATHON S. A tutorial on principal component analysis[EB/OL].(2007-01-01)[2012-12-01].http://www.cs.otago.ac.nz/cosc453.
[2] RAJKIRAN G, ASARI V K. An improved face recognition technique based on modular PCA approach [J]. Pattern Recog Lett, 2004,25(4):429-436.
[3] YANG J, ZHANG D, FRANGI A F,etal. Two-dimensional PCA: A new approach to appearance-based face representation and recognition [J]. IEEE Trans Pattern Anal Machine Intell, 2004,26(1):131-137.
[4] 張珍花. 運用多元統計分析綜合評判江蘇省經濟效益[J]. 統計與決策, 2001(9):23,43.
[5] 孟 瑩,謝守祥,彭 瀟. 江蘇省區域經濟差異的多元統計分析[J]. 特區經濟, 2010(4):51-52.
[6] 錢存陽,李丹青. 多元統計分析在課堂教學質量評價元中的應用[J]. 數理統計與管理, 2005,24(6):40-43.
[7] 吳 棟,李樂夫,李陽子. 近年居民消費結構統計分析的研究綜述[J]. 數理統計與管理, 2007,26(5):776-781.
[8] 劉曉娥,康艷芳,王 立. 河南省區域經濟發展比較的因子分析[J]. 統計與決策, 2010(5):119-121.
[9] 陳希鎮,林俊濤. 用多元統計方法分析浙江省各地區的經濟結構[J]. 數理統計與管理, 2010,29(6):1043-1051.
[10] 殷明娥. 分組主成分評價法及其應用[J]. 遼寧師范大學學報, 2005,28(4):408-409.
[11] 侯 文. 對應用主成分法進行綜合評價的探討[J]. 數理統計與管理, 2006,25(2):211-214.
[12] 汪東華. 多元統計分析與SPSS應用[M]. 上海:華東理工大學出版社, 2010.
[13] 林海明. 因子分析模型的改進與應用[J]. 數理統計與管理, 2009,28(6):998-1012.
[14] 孫劉平,錢吳永.基于主成分分析法的綜合評價方法的改進[J].數學的實踐與認識, 2009,39(18):17-20.
[15] 謝智聰. 運用因子載荷陣分組變量的新主成分法及應用[J]. 統計與決策, 2008(12):19-22.
[16] 徐雅靜,汪遠征. 主成分分析應用方法的改進[J].數學的實踐與認識, 2006,36(6):68-75.
[17] 李載成. 江蘇省各市區域經濟發展水平聚類分析[J]. 全國商情(理論研究), 2011(3):13-14.
(編輯 沈小玲)
Application of Grouped Principal Component Analysis
GUWei-wei1*,CHENGKun2
(1.School of Science, China University of Mining and Technology, Xuzhou 221116, China;2.College of Science, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)
On the basis of both orthogonal factor analysis method and grouped principal component analysis method, a comparative study is made on the 13 cities of Jiangsu province in 2010. Results show that grouped principal component analysis is more reasonable than orthogonal factor analysis in the investigation. Some suggestions are put forward to improve the economic development of Jiangsu province, and can be used as a reference for government decision.
factor analysis model; grouped principal component analysis; SPSS
2012-12-17
南京航空航天大學基本科研業務專項科研資助項目(NS2012118)
*
,E-mail864037364@qq.com
F224.9
A
1000-2537(2014)01-0076-05