張 圓
(江蘇教育學院 思想政治理論課教學科研中心,南京 210013)
從我國政策層面來看,研究造成各地區經濟發展差異的原因可以準確的得到在經濟發展中存在的問題、改革造成的結果等,這些可以使我們選擇更正確的經濟政策理論引導經濟發展。本文以2011年數據為例利用統計產品與服務解決方案(SPSS)軟件,對選出的經濟指標項進行因子分析后,獲得五個比較準確的公共因子;然后根據所得的公共因子為我國31個省、市、自治區的行政區進行聚類分析,最后得出了我國地區經濟發展的層次分布情況。
1.1.1 因子分析的模型
設p維可觀測的隨機向量x=(x1,x2…,xp)′的均值為μ=(μ1,μ2,…,μp)′,協方差矩陣為 ∑(σij),因子分析的一般模型為:

其中,f1,f2,…,fm為公因子,特殊因子是ε1,ε2…,εp,公因子與特殊因子均是隨機變量且不可觀測。前者在各個原始變量表達的公式里出現,可將其看成是各個原始變量均擁有的公共因素;任何一個公因子都會對兩個以上的原始變量產生作用,若達不到這一點則將其視為特殊因子。特殊因子是在xi的表達公式中出現,xi為第i個原始變量的矩陣,這一因子只會對這一變量產生作用。可用矩陣表示為:
x=μ+Af+ε
式中,f=(f1,f2,…fm)′(m≤p)為公共因子向量,ε=(ε1,ε2,…εp)′為特殊因子向量,A=(aij):p×m稱為因子載荷矩陣,并假設A的秩為m。
通常假定:

1.1.2 參數估計


1.1.3 因子旋轉法
本文使用的是正交的因子旋轉法。

則A*的第j列元素平方的相對方差可定義為


V=V1+V2+…+Vm達到最大。
1.1.4 因子得分
因子得分的計算并不是通常意義下的參數估計,而是對不可觀測的隨機變量 f1,f2,…,fm作出估計。
1.2.1 距離
第i個樣品與第j個樣品間的閔考夫斯基距離定義為

這里q為某一自然數
當q=1時,稱為絕對距離;當q=2時,稱為歐氏距離;當q=∞時,稱為切比雪夫距離。
1.2.2 系統聚類

對樣本相關系數矩陣進行統計學檢驗,其Bartlett檢驗值為827.84(P<0.0001),表明相關系數矩陣不是單位矩陣,可以進行因子分析;本樣本的KMO值為0.763,表示因子分析可以得到比較滿意的結果。
通過SPSS11.0且利用因子分析法分析原始數據,公共因子由主成分析法獲得。表1中是獲得的特征值、貢獻率和累計貢獻率。

表1 主成分的貢獻率、特征值和累計貢獻率
選擇前面五個因子當作主成分,它們可以全面的概括原始變量的信息量。由于累計的貢獻率為88.005%,則能替代原指變量對其分析。這18個原始變量就形成了五個互無關系,且降維的綜合項,分析問題將變得容易。
通過對主成分的載荷矩陣最大方差的因子旋轉,使每一項主成分能在實際中能有明顯的意義,以達到能夠正確解釋各主成分和原始變量的目的。
從因子載荷矩陣來看,X1,X2,X3,X9,X14,X18在F1上有較大的載荷,即因子1主要反映了經濟規模、市場化進程、非國有部門收入和FDI水平;X7,X8,X11,X12,X13,X15在F2上有較大的載荷,即因子2主要反映了勞動生產率、經濟效益、農民勞動力收入和人力資本情況;X4,X5,,X6在F3上有較大的載荷,即因子3主要反映了GDP、第二產業的增長速度和第三產業增長速度;X17在F4上有較大的載荷,即因子4主要反映了就業系數;X10,X16在F5上有較大的載荷,即因子5主要反映了投資效率和投資率。
地區經濟的發展情況通過主成分的刻畫有了體現,累計的貢獻比率有88.005%。所以,利聚類分析地區經濟的發展情況是正確的。基于每個因子對原始變量產生的貢獻比率不同,
如F1是30.069%,F2貢獻率為27.718%,F3貢獻率為13.360%,F4貢獻率為9.350%,F5是7.508%,因此,它們的地位也不同。聚類分析可以使每個因子解釋原始變量的重要性突顯出來,這一方法也更為科學。將每個因子的貢獻比率在總貢獻比率中所占的比值當成修正的系數,并修正因子的得分,表2中是修正后得到的結果。

表2 修正所得的因子得分
利用SPSS11.0,通過聚類分析的方法用5個主成分分析我國所有的行政區。聚類的結果有4類,如下表3所示。

表3 2011年聚類結果
表3中的分類4為其他省份,為了再一次研究這一分類,依舊使用相同的方法,用5個主成分對其進行因子分析和聚類分析,得到的主成分的貢獻率、特征值、累計的貢獻率、因子載荷矩陣、旋轉后因子載荷矩陣。從因子載荷矩陣來看,X1,X2,X3,X14在F1上有較大的載荷,即因子1主要反映了經濟規模和非國有部門收入;X7,X8,X11,X12在F2上有較大的載荷,即因子2主要反映了勞動生產率和經濟效益;X9,X13,X17,X18在F3上有較大的載荷,即因子3主要反映了市場化程度,農民勞動力收入,就業率和FDI情況;X4,X5,X6,X10,X16在F4上有較大的載荷,即因子4主要反映了GDP和第二產業的增長速度,第三產業增長速度,投資率和投資效率;X15在F5上有較大的載荷,即因子5主要反映了人力資本情況。

表4 修正后的因子得分

表5 2011年其他地區聚類結果
[1]張紹基,許菡.基于空間數據挖掘聚類分析的城市房價分布規律研究[J].蘭州學刊,2011,(5).
[2]梁昌勇,顧東曉,范昕,陳文恩.面向不確定多屬性決策問題的范例檢索算法研究[J].中國管理科學,2009,(1).
[3]鄒漢斌,周學清.基于聚類的模糊支持向量機入侵檢測算法[J].情報雜志,2009,(3).