王芳
摘 要:本文運用R軟件對重慶市各區(自治縣、市)國民經濟主要指標進行分析,最后根據分析結果,將這這些地區分為了四類。
關鍵詞:判別分析;國民經濟主要指標
聚類分析和判別分析都是根據對象之間的距離遠近對對象進行歸類,但二者之間的不同點在于,在聚類分析中,一般事先不知道應該將數據分為幾類,完全根據數據來確定;而在判別分析中,至少有一個已經明確知道的類別的“訓練樣本”,利用這個數據,來建立基本的判別準則,并通過預測變量來為未知類別的觀測樣本進行判別分類。
1 判別分析
采用重慶市各區國民經濟主要指標作為原始數據,并利用快速聚類后各區分類結果進行判別分析,得到判別函數,具體結果如下:
上表是分類統計量的表格,包括各個類別以及總和的未加權和加權的有效值。
2 結論
在使用SPSS時設置各組的先驗概率均相等,由于分為了4個組,因此先驗概率為0.25。另外還給出了參與分析的未加權的和加權的個案數。
上表給出的分類函數系數是貝葉斯得分系數,使用的是貝葉斯原理而不是fisher原理。在SPSS中,也是使用這個系數來計算得分的,如果想利用fisher判別方法就要用表中的系數來計算得分。將自變量的值與上表中系數相乘,哪類得出的值大就屬于哪一類。例如,將重慶市江北區作為待判數據,將江北區的人均GDP,工業GOV,消費TRS,IBFR,YEDBFI分別和上表中對應項相乘,在于對于的常量相加,就可以得出一類的得分,將四類的得分都計算出來,比較大小,得出第四類得分最高,因此江北區屬于第四類經濟區。
[參考文獻]
[1](美)約翰遜(Johnson,R.A.).實用多元統計分析.清華大學出版社,2008.
[2]薛毅.統計建模與R軟件.清華大學出版社.