李 華,唐義杰
(長春大學 理學院,長春130022)
在多元統計分析的學習中,我們知道了每一個傳統的統計分析方法都有其明顯的缺點和適用范圍。因此我們想看一下在實際數據分析中如何巧妙的利用所學的方法中的主成分分析,因子分析,聚類分析和非參數統計方法,巧妙地規避各個方法的局限性,使得在實際問題的分析中有較好的統計說明結果。
當今世界經濟全球化越來越明顯,各國經濟依賴性逐漸加大,我國經濟發展主要特點是呈現經濟多年持續增長,經濟規模和經濟效益在全國范圍內的發展出現不平衡的狀況也愈發明顯,因而分析我國各地區的經濟效益發展狀況就十分必要。本文分析了全國31 個省市自治區2011 年工業企業的經濟效益的5 個指標變量:全社會固定資產投資(億元)、單位地區生產總值能耗(等價值)(噸標準煤/萬元)、經營單位所在地進出口總額(千美元)、地區生產總值(億元)、地方財政稅收收入(億元)的數據進行分析。主要用到統計學的一般方法以這些城市的經濟效益劃分等級進行比較分析,找出它們之間的差別并分析可能的原因。
采用的數據主要是從網上搜集的,關于全國31 個省市自治區2011 年工業企業的經濟效益的5 個指標變量:全社會固定資產投資(億元)、單位地區生產總值能耗(等價值)(噸標準煤/萬元)、經營單位所在地進出口總額(千美元)、地區生產總值(億元)、地方財政稅收收入(億元)數據的5 個指標的數據都由國家統計局網(http://www.stats.gov.cn/tjsj/ndsj/2009/indexce.htm)收集整理得到。
2.3.1 評價經濟效益相關指標的選取
X1:全社會固定資產投資(億元)
X2;單位地區生產總值能耗(等價值)(噸標準煤/萬元)
X3:經營單位所在地進出口總額(千美元)
X4:地區生產總值(億元)
X5:地方財政稅收收入(億元)
2.3.2 評價經濟效益的指標含義
(1)稅收收入:國家憑借其政治權力,依據法定標準,從單位和個人無償取得的一種財政收入。稅收歷來是國家財政收入的主要來源。從一定程度上稅收收入能反映一定的經濟效益情況,更能體現地區間的差異。
(2)固定資產投資:是建造和購置固定資產的經濟活動,即固定資產再生產活動。固定資產再生產過程包括固定資產更新(局部和全部更新)、改建、擴建、新建等活動。它是反映固定資產投資規模、速度、比例關系和使用方向的綜合性指標。固定資產投資能反映國家經濟建設以及經濟活動的情況,從而具有代表評價各省市經濟效益的能力。
(3)地區生產總值:指本地區所有常住單位在一定時期內生產活動的最終成果。地區生產總值等于各產業增加值之和。國民經濟各行業的增加值之和等于地區生產總值。國民經濟各行業的增加值之和等于地區生產總值。
(4)單位地區生產總值能耗:是衡量一個地區能耗水平的綜合指標,通常以萬元GDP 消耗的能源(折算為標準煤)來計算。它是衡量一個地區能耗水平的綜合指標。常常用萬元GDP 能耗的下降來考核一個地區的節能降耗的工作成效。
(5)進出口:指國家(地區)與國家(地區)之間的貿易往來,進為購入,出為外銷,進口和出口的綜合。對于各省市的進出口一定程度上能夠說明該地區的貿易往來,從而能夠說明經濟效益,可以作為評價各省市經濟效益的指標。
2.5.1 聚類分析的基本思想
所要研究的樣本數據和指標變量之間存在一定程度的相似性。于是根據一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統計量,將選定的這些統計量作為劃分不同類型的依據。把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,直到把所有的樣品(或指標)聚合完畢,這就是分類的基本思想。在聚類分析中,通常我們將根據分類對象的不同分為Q 型聚類分析和R 型聚類分析兩大類。
2.5.2 聚類分析的結果及分析
下面是對我國31 個省市地區運用SAS 軟件進行聚類分析得出的劃分情況如下:

圖1 聚類質心之間的距離
由圖1 的軟件運行結果結合實際得出的聚類結果如下:
第一類地區:廣東;第二類地區:北京、上海、江蘇、浙江、山東;第三類地區:遼寧、福建、天津;第四類地區:四川、海南、湖北、山西、陜西、吉林、西藏、黑龍江、貴州、安徽、江西、河南、湖南、廣西、重慶、云南、、新疆、內蒙古、甘肅、青海、寧夏、河北。
2.6.1 因子分析的基本思想
因子分析的基本思想是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數幾個主要的因子變量,以及如何使這幾個主要因子變量具有較強解釋性的一種多元統計分析方法。這幾個共同因素也稱之為公共因子,它們均是不可觀測的。因子分析主要反映了降維的思想,通過降維手段將相關性度較高的變量聚集在一起,以便提取容易解釋的某些特征,而以降低需要分析的變量數目和解釋問題的復雜性和難度。
2.6.2 因子分析的結果及解釋
從表1、表2 的因子分析的結果中可以看出第一主因子在變量X1,X2,X3,X4,X5 上的因子載荷顯著的區別于第二主成分,第一主成分承擔了系統的大多數信息,根據兩個因子在各變量的載荷可以分別給第一第二因子命名為進口-收入因子和地方財政因子。上述因子分析的因子載荷結果結合我們聚類的結果在下面的表格給出:

表1 旋轉因子模式

表2 每個因子已解釋方差
從上面表3 的分析結果可以看到由第一主成分和第二主成分作為劃分標準時,出現較大的變異性,結果相差顯著,由綜合得分看到的分類結果在第一第二個聚類較為合理,第三第四聚類的結果會出現一定的差異性,但總體效果相對較好。
2.7.1 非參數統計的特點
非參數統計問題中對分析數據的總體分布要求較為寬泛,因而針對某些總體分布不好給出的數據的問題可以考慮構造非參數統計的方法,加以分析,這樣可以不因為由于對總體分布的假定不當而導致重大錯誤,因而這樣的分析方法往往有著較好的統計效果,可以視為穩健統計,由于這一重要的特點。由于使用非參數統計方法分析數據時,需要照顧范圍很廣的數據分布,在某些情況下會導致其效率的降低。不過,近代理論證明了:一些重要的非參數統計方法,當與相應的參數方法比較時,即使在最有利于后者的情況下,效率上的損失也很小。
2.7.2 非參數統計的結果與解釋
進行非參統計分析的目的在于分析我們上面給定的聚類分析的結果是否合理的問題。首先在使用非參方法考慮四個樣本的差異時,先考察四個樣本是否來自同一總體,這里僅假設總體服從正態或指數分布的情況,再考察四個樣本是否存在顯著性差異。這里分別以主成分1,主成分2 和綜合得分作為評判的依據,分別對其進行分析。下面是具體的分析過程和軟件的運行結果。
(1)樣本分布的Kolmogorov-Smirnov 檢驗
H0:四個樣本的分布相同;H1:四個總體的分布不同

表4

Cramer-vonMises 0.18937182 0.007 Anderson-Darling 1.26529374 <0.005

表5
從表4、表5 可以看到由第一主成分factor1 作為的分類依據時,假設來自正態總體和指數分布總體,由上述總體可以看出顯著性水平均在0.05 以下,拒絕原假設,不服從正態或是指數分布。

表6

表7
由表6、表7 第二主成分factor2 作為的分類依據,由上述總體可以看出顯著性水平均在0.05 以下,拒絕原假設,不服從正態或是指數分布。

表8

UNIVARIATE PROCEDURE Fitted Exponential Distribution for Factor2 Cramer-vonMises 0.29657377 <0.005 Anderson-Darling 1.76694749 <0.005

表9
由表8、表9 的綜合得分sum 作為的分類依據,假設來自正態總體和指數分布總體,顯著性水平均在0.05 以下,拒絕原假設,不服從正態或是指數分布。
綜上可以認為四個樣本是來自于四個總體,下面再分析四個總體的差異性。
(2)獨立樣本位置的Kruskal-Wallis 檢驗
H0:四個總體沒有顯著性差異;H1:四個總體至少有兩個存在顯著性差異

表10

表11

2 5 94.0 80.0 18.618987 18.800000 3 3 48.0 48.0 14.966630 16.000000 4 22 324.0 352.0 22.978251 14.727273 Kruskal-Wallis 檢驗卡方 3.2762自由度 3 Pr >卡方 0.3510

表12
由上述表10、表11、表12 的四個表格分析四個總體的Kruskal-Wallis 檢驗的結果可以看到,當以第一主成分作為分類的依據時,顯著性水平達到0.0041,顯著小于0.05,拒絕原假設,認為組間存在顯著性差異,當以第二主成分作為分類依據時,顯著性水平達到0.351,不能拒絕原假設,不能認為類間差異顯著。當以綜合得分作為分類的依據時,可以看到顯著性水平達到0.0009,拒絕原假設,認為上述4 個總體是相互獨立的。因而結合實際考慮的對聚類結果做出的調整具有合理性。
2.8.1 廣東省分析情況:
廣東省被作為單獨的一類,是由于其特殊的地理位置。廣東省作為我國發展較早的一批城市,從我們數據分析的結果中可以看出,廣東省的稅收收入和固定資產投資均處于中等水平,分析可知廣東省的經濟增長不是由于能源消耗型企業的大量存在,而主要是進出口外貿行業和綜合服務型行業的主要作用,第三產業在廣東省的經濟發展中的重要作用。因此,廣東省進出口貿易較為發達,因此對于能源資源的消耗就較低。廣東省的發展更多的是外向型和服務型的社會經濟形態。
2.8.2 北京市、上海市、江蘇省、浙江省、山東省分析情況:

表13

表14
表13、表14 中我們采用因子分析的方法確定2 個因子來解釋這組變量認為是合適的,由因子分析的結果如下:

第2 個因子在X3 變量上的因子載荷較大,而在其他變量上的載荷較小,因而可以將其命名為進出口因子。第1 個因子第二個變量在X2,X4,X5 變量上的因子載荷較其他變量的載荷更大且與第2 個因子的載荷顯著不同,因而第1 個因子可以命名為生產要素因子。分析數據可以得出這幾個發達地區由于靠近沿海地區。較早的發展了工業,商業也發展的快速且高效,且由于所處的地理位置,經濟的發展有很強的地方政府財政補助的因素,以及國家相關政策的支持作用,因而總體而言發展的情況較好。
2.8.3 天津市、遼寧省、福建省分析情況:

表15

表16
表15、16 是對于第三類地區天津、遼寧、福建而言,五種經濟效益的指標都對其有相關影響。但同時運用多元統計回歸主成分分析法,研究得出三所城市的進出口得分相對其稅收收入、固定資產投資、地區生產總值以及單位地區生產總值能耗這四種經濟效益指標相對較低,說明這三類地區的經濟效益相對不發達,可能是由于缺乏相應的政策支持和資源缺乏,后期發展動力缺乏,這三省在四類中經濟效益居于中等水平,尚有改進的空間。
2.8.4 河北省、山西省、內蒙古自治區、吉林省、黑龍江省、安徽省、江西省、河南省、湖南省、湖北省、廣西自治區、海南省、重慶市、四川省、貴州省、云南省、西藏自治區、陜西省、甘肅省、青海自治區、寧夏自治區、新疆自治區情況分析:

表17

表18
從表17、表18 可知這些省市劃分為一類最主要的原因之一這些省市地區的單位地區生產總值能耗較其他省市較高,從因子分析結果也顯示了單位地區生產總值能耗與其他經濟效益因素有所不同,因此可將此類劃分省市的原因歸結為單位地區生產總值能耗型地區,由于技術相對落后,而資源相對較多,發展資源型企業使得發展水平一般。稅收收入或者其他經濟效益因素也能反映了這一問題,主成分分析法得出了分類依據,四類地區屬消耗型地區,看出四類地區生產總值也較低。從而影響了稅收水平,進而影響了固定資產投資水平及進出口貿易。過分依賴其資源消耗性企業的發展,第三產業匱乏,上述各省市經濟效益較差。
[1] 李裕奇,趙聯文,王芯,等.非參數統計方法[M].成都:西南交通大學出版社.
[2] 王學民.應用多元分析[M].上海:上海財經大學出版社.
[3] 阮敬,紀宏.實用SAS 統計分析教程[M].北京:中國統計出版社.
[4] 陳在余,陶應龍.統計學原理與實務[M].北京:清華大學出版社.
[5] 胡平,崔文田,徐青川.應用統計分析教學實踐案例集[M].北京:清華大學出版社.
[6]汪遠征,徐雅靜.SAS 軟件與統計應用教程[M].北京:機械工業出版社.