摘要:文章從主成分分析、因子分析的發展過程、基本原理、應用等方面出發來全面地介紹多元數據處理的主要方法。文章以江蘇省各地市經濟發展水平為例,根據江蘇省各市2005年的國民經濟主要統計指標,利用SPSS軟件處理的結果來說明上述方法在評價江蘇省各地市的經濟發展水平中的應用。
關鍵詞:主成分分析;因子分析;區域經濟
一、 引言
我國是一個經濟與社會發展水平,資源與環境稟賦情況在各區域間差異非常大的國家。自科學發展觀提出以來,區域經濟協調發展的研究得到了充分的重視。要制訂出促進區域經濟協調發展的有效政策,首先,必需對區域經濟發展的水平做出合理的評價,從中找出形成區域經濟發展水平差異的關鍵因素。主成分分析和因子分析是多元統計中十分常用的兩種方法,本文將著重介紹這兩種方法的基本原理、數學模型以便從根本上揭示出這兩種方法的區別。本文還將介紹主成分分析和因子分析的發展歷程和應用領域。結合江蘇省區域經濟發展的現狀,選取反映2005年江蘇省13個地級市經濟發展水平的12個主要統計指標,運用因子分析方法對江蘇省各地級市的經濟發展的基本狀況進行綜合評價。
二、 分析方法簡介
統計推斷的理論工作大多數都是基于總體為多元正態的假定,然而在高于一維的情況下,要說明一組樣本來自多元正態總體是非常困難的,而且多個變量使用的測量單位也可能各不相同或者變量間的數值大小相差很大。因此,要對多元數據進行處理,通常將初始變量標準化。
1. 主成分分析。
(1)主成分綜合評價的產生和發展。主成分分析(Principle Component Analysis)的概念最早在1901年由皮爾遜(Karl Pearson)首先引入,對非隨機變量討論,1933年數學家霍特林(Hotelling)把它推廣到隨機向量。Jollife I.T.和J.Edward Jackson對主成分分析進行了較為系統地分析和闡述,而郭亞軍教授系統地論述了綜合評價的理論和方法,雖然目前還沒有關于主成分綜合評價方法的專著,但很多專家學者對其進行了探討和研究。一些學者從不同的角度提出PICA的穩健性問題,對此進行了研究,并且提出了各自的改進算法。有學者提出了獨立主成分分析(IPCA)的概念,引入非線性PCA算法。也有學者從如何去除或減弱有限的樣本集中少量“劣點”樣本的影響從而獲得準確主方向。常用的主成分分析是從樣本協方差矩陣來計算的,而協方差矩陣對劣點值相當敏感,為了增強主成分分析的穩健性,對協方差進行算法改進,從而提高主成分分析的穩健性。
主成分綜合評價應用中也存在很大爭議,有的學者就提出了究竟應選取多少個主成分來對樣本進行排序的問題。一般來說,主要有兩種觀點:一是只用第一主成分,英國統計學家肯德爾認為:第一主成分能夠最大限度地反映樣本間的差異,是概括指標差異信息的最佳線性函數。因此,只能用第一主成分對樣本綜合排序。我國也有部分學者持這種觀點,南開大學孟生旺老師從幾何投影角度闡明,在多指標綜合評價中,只有第一主成分結合原始數據的信息最多,因而也就只能以第一主成分值作為綜合評價值才合理。另一種觀點則認為,不僅要充分重視第一主成分,而且也要顧及其它主成分在綜合評價中所起的作用,否則,損失的信息較多,有時甚至回歪曲樣本間的實際相對地位。提出的改進辦法是:先按累積方差貢獻率不低于某個閥值(比如85%)的原則確定前幾個主成分,然后以每個主成分各自的貢獻率為權數將選定主成分線性加權求和來綜合評價樣本的優劣。
(2)主成分分析的原理。主成分分析是一種通過降維技術把多個變量把多個變量化為少數幾個主成分的統計分析分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的某種線形組合。當原來p個變量的總變差能夠由少數幾個線形組合來概括的話,那么這些線形組合中包含的信息與原來p個變量幾乎一樣多,可以用這些線形組合替代原來的p個變量,這樣會是觀測數據從高維降到低維,簡化了數據。主成分就是p個變量Y1,Y2,…,Yp的一些特殊線形組合,這些線形組合把Y1,Y2,…,Yp構成的坐標系旋轉產生新的坐標系,在新坐標系中提供了協差陣的簡潔表示。以Xi(i=1,2,…,p)表示標準化的原變量,Zi(i=1,2,…,p)表示主成分,Cij(i=1,2,…,p;j=1,2,…,p)表示組合系數,主成分分析的模型為:
Z1= C11X1+C12X2+…+C1pXp
Z2= C21X1+C22X2+…+C2pXp
……
Zp= Cp1X1+Cp2X2+…+CppXp
(3)主成分分析的應用。主成分分析一般不是目的,而是研究的某個中間環節,通過這一處理來發現重要的變量和變量間的某種關系。在因子分析法中,通常用主成分分析法來確定公共因子。
2. 因子分析。
(1)因子分析方法的產生和發展。因子分析(Factor Analysis)方法最早是在1904年由斯皮爾曼(Charles Spearman)和皮爾遜(Karl Pearson)在一篇著名論文《對智力測驗得分進行統計分析》中提出,之后被用于解決心理學和教育學方面的問題。由于這種方法計算量大,到了20世紀60年代得益于計算機的應用才有新的發展。R 型因子分析認為變量中存在一些不可觀測的共同因素同時對原始變量產生影響,需要通過一定的方法提取“重要”的公共因子;“重要性”取決于因子對變量的影響程度,用二者之間的相關系數(因子載荷)表示。根據變量與各因子的“緊密”程度,把原始變量歸結到各因子中,通過這些“精煉”的因子認識復雜現象。因子分析的目的是用幾個不可觀測的隱變量來解釋原始變量間的協方差關系。
(2)因子分析的原理。因子分析是假定p個變量的變異主要是一些共同的因子引起的,希望用少數幾個公共因子來解釋變量中的主要變化。由于樣本內含樣品和指標的兩維性,因子分析分為R型和Q型,前者是基于指標的分析,而后者是基于樣品的分析。因子分析的數學模型(正交因子模型)為:
X1=b11F1+ b12F2+…+b1mFm+ξ1
X2=b21F1+ b22F2+…+b2mFm+ξ2
……
Xp=bp1F1+ bp2F2+…+bpmFm+ξp
當X1,X2,…,Xp表示p個指標時該模型為R型模型,當X1,X2,…,Xp表示p個樣品時該模型為Q型模型。式中:X=(X1,X2,…,Xp)是可測p個指標構成的p維隨機向量;F=(F1,F2,…,Fm)是不可觀測的向量,F稱為X的公共因子;bij稱為因子載荷,它是第i個變量在第j個公共因子上的負荷,矩陣B稱為因子載荷矩陣;ξ稱為X的特殊因子,ξ中包括了隨機誤差。因子分析可以分解為確定因子載荷、因子旋轉及計算因子得分三個步驟。
系數陣Bp×m是初始因子載荷陣,因子載荷bij的統計意義就是第i個變量與第j個公共因子之間的相關系數。估計Bp×m 有多種方法,如主成分分析法、主軸因子法、最小二乘法、極大似然法、a因子提取法等。其中主成分法應用最為廣泛,因子分析與主成分分析并沒有原理上的實質聯系,主要是外觀的聯系。因為用主成分法得到初始載荷陣Bp×m=(■e1,■e2,…,■em),ei是R的特征根λi對應的單位特征向量,它也是主成分分析系數陣C’p×m第i個系數向量,所以Bp×m第i列系數向量與C’p×m第i行系數向量僅相差倍數■。
用主成分法確定因子載荷的方法比較簡單,但是這種方法所得到的特殊因子ξ1,ξ2,…,ξp之間并不相互獨立,因此,用主成分法確定因子載荷不完全符合因子模型的假設前提,也就是說所得的因子載荷并不完全正確。但是當共同度較大時,特殊因子所引起的作用較小,因而特殊因子之間的相關性所帶來的影響就幾乎可以忽略。由于滿足上述模型的系數陣Bp×m不唯一,這成為因子載荷陣旋轉的理論依據。一般情況下,初始因子載荷陣中各變量對因子的系數沒有靠近兩極數值“0”和“1”,說明各變量在每個因子上“分量”差不多,各因子并不“偏向”某些變量,這樣很難提煉公共因子的意義,因此要旋轉Bp×m,改變它的坐標系,使變量“偏向”不同的因子,并根據系數絕對值對變量歸類命名,最常用的旋轉方法是最大方差正交旋轉。
(3)因子分析的應用。近年來,隨著現代高速電子計算機的出現,人們將因子分析的理論成功地應用于心理學、社會學、經濟學、人口學、地質學,甚至在化學和物理學中也得到成功地運用,這使得因子分析的理論和方法更加豐富。
三、 實證研究
本文選取2005年江蘇省各地級市的12個國民經濟主要統計指標(資料來源:江蘇省統計局,2006),相關數據見表1。利用SPSS統計軟件對表1的數據進行處理,在因子分析的過程中使用主成分法提取公共因子。(注:Yi表示原始變量,Xi表示標準化后的變量)
表2因子旋轉后的載荷矩陣、特征值貢獻率和累計貢獻率
表3 因子得分及綜合排名
因子分析要求原始變量之間有比較強的相關性,如果原始變量之間不存在較強的相關關系,那么就無法從中綜合出共同特征的少數因子來。因此,在作因子分析時,需要對原始變量做相關分析。SPSS數據處理系統提供KMO和Bartlett檢驗來判斷變量是否適合做因子分析:Bartlett檢驗目的是確定所要求的數據是否取自多元正態分布的總體,若差異檢驗的F值顯著,表示所取的數據來自正態分布總體,可以做進一步分析;KMO檢驗目的是分析觀測變量之間的簡單相關系數和偏相關系數的相對大小來確定該數據是否適合進行因子分析,取值變化在0~1之間,若KMO過小,說明變量之間的相關不能被其他變量解釋,進行因子分析不適合。通過SPSS軟件計算得到以上數據的Bartlett檢驗的F值等于0.000,表明所取的數據來自正態分布的總體;KMO檢驗值為0.726,因此適合做因子分析。
本文使用SPSS13.0對數據進行因子分析,采用主成分法提取特征值大于1的主成分作為公共因子,得到方差最大正交旋轉后的因子載荷矩陣、特征值、貢獻率和累計貢獻率。特征值大于1的前兩個公因子的累計貢獻率已達到90.008%,可見提取2個因子后,它們反映了原始變量的大部分信息。從旋轉后的因子載荷矩陣可以得到12個原始變量與這2個因子之間的表達式如下:
X1= 0.938F1+0.020F2
X2=0.682F1-0.374F2
……
X12=0.822F1-0.287F2
從表2可以看出,第一主因子在規模以上工業利稅總額、地方財政總收入、第二產業產值、第三產業產值等指標上具有較大的載荷,這些指標均反映了地區的經濟總量,因此可以將第一主因子命名為“經濟總量因子”。而第二主因子在第三產業產值增長率上具有較大的載荷,這是反映經濟增長速度的指標,因此可以將第二主因子命名為“經濟增長速度因子”。從表三的綜合因子的分的數值來看,得分值大的三個地區為蘇州、南京、無錫,它們的綜合因子得分值大于1,可見這三個地區的經濟發展水平居于前列,明顯好于其它地區的經濟發展狀況。而位于蘇北地區的宿遷、淮安、連云港三個地區,其綜合因子得分的分值很低,說明它們的經濟發展水平與蘇州、南京、無錫三個地區相比要落后很多,屬于經濟欠發達地區,其它地區的經濟發展處于居中水平。
參考文獻:
1.Jean Boivin,Serena Ng.Are more data always better for factor analysis?.Journal of Econometrics,2006,(132):169-194.
2.Congde Lu,Chunmei Zhang,Taiyi Zhang,Wei Zhang.Kernel based symmetrical principal component analysis for face.Classification.Neurocomputing,2006.
3.葉其孝,沈永歡.應用數學手冊(第二版).北京:科學出版社,2006.
重點項目:江蘇區域經濟協調發展水平測度與促進政策研究項目(BR2006029)。
作者簡介:何建敏,東南大學經濟管理學院教授、博士生導師;賈萬敬,東南大學經濟管理學院管理科學與工程碩士生。
收稿日期:2007-07-15。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。