李 華,石榮平
(長春大學 理學院,長春130022)
根據參考文獻[1]第三部分內容“社會主義和諧社會綜合評價指標的設立”,參考其遵循的原則以及最終社會主義和諧社會綜合評價指標體系所確立的因子,對于各省市自治區總體發展水平的研究,我們確立了經濟、科技、文化和資源四大因子來衡量我國不同省市自治區綜合發展狀況。通過中國統計網查詢,尋找到2012 年關于各省市自治區的四大因子25 個指標的數據,從指標的基本性質上分析,可以知道我們選取的指標體系也具有較好的系統性、科學性、可比性和可操作性。由于指標之間仍存一定的相關性,在構建綜合評價的數學模型時必須充分注意到這一點。下面將分別介紹所選指標的名稱和它們所代表的含義。
因子F1(經濟因子)
(1)地方財政一般預算收入,單位億元,指標代碼x1;
(2)地區生產總值,單位億元,指標代碼x2;
(3)第一產業增加值,單位億元,指標代碼x3;
(4)第二產業增加值,單位億元,指標代碼x4;
(5)第三產業增加值,單位億元,指標代碼x5;
(6)經營單位所在地進出口總額,單位千美元,指標代碼x6;
(7)人均地區生產總值,單位元每人,指標代碼x7;
(8)居民消費價格指數,以上年100 計算,指標代碼x8。
因子F2(科技因子)
(1)規模以上工業企業新產品項目數,單位項,指標代碼x9;
(2)規模以上工業企業專利申請數,單位件,指標代碼x10;
(3)國內專利申請受理量,單位項,指標代碼x11;
(4)技術市場成交額,單位億元,指標代碼x12;
(5)公有經濟企事業單位專業技術人員數,單位人,指標代碼x13。
因子F3(文化因子)
(1)版權合同登記數,單位份,指標代碼x14;
(2)普通高等學校本專科授予學位數,單位萬人,指標代碼x15;
(3)教育經費,單位萬元,指標代碼x16;
(4)圖書出版種數,單位種,指標代碼x17;
(5)公共圖書館組織各類講座次數,單位次,指標代碼x18;
(6)藝術表演團體機構數,單位個,指標代碼x19。
因子F4(資源因子)
(1)工業污染治理完成投資,單位萬元,指標代碼x20;
(2)人均水資源量,單位立方米每人,指標代碼x21;
(3)造林總面積,單位千公頃,指標代碼x22;
(4)自然保護區占轄區面積比重,單位百分比,指標代碼x23;
(5)森林覆蓋率,單位百分比,指標代碼x24;
(6)廢水排放總量,單位萬噸,指標代碼x25。
通過考察上面四個主要因子25 個指標來評價我國各省市社會發展綜合情況。
在所選取的基本指標中,存在著各種不同類型、不同性質、不同量綱和不同數量級的指標,從而使得各指標的評價方向和價值都各不相同。對于不同類型:地方財政的一般預算收入等正程指標,我們希望它的取值越大越好;而廢水排放總量等逆程指標我們則希望其取值越小越好。在不同性質方面,例如居民消費指數等一些指標則是屬于區間限制指標,它只在某一區間中取值才屬正常。并且各個指標的量綱一般是不一樣的,例如地區生產總值的單位是“億元”,人均水資源量是“立方米/人”,造林總面積是“千公頃”等其他的單位。有些指標存在數值上相差巨大,即各個指標不在同一數量級下,例如經營單位所在地進出口總額這類數據的數量都在千萬以上,數量級為7,而自然保護區占轄區面積比重的數量在一百以內,數量級為1,這樣不便于相互之間進行比較。由于指標存在著這些差異,所以在綜合評價中必須對其進行標準化的變換。

2.2.1 相關分析
本文采用數據有四大因子25 個指標,將不同指標之間的聯系擴展到兩組因子之間的相互依賴關系,考慮使用相關分析,典型相關分析能夠研究兩組變量之間相關關系的一種多變量統計分析方法,能夠真正反映兩組變量之間相互依賴的線性關系,分別對四大因子兩兩之間綜合指標來反映兩者之間相關關系。
探究F1 與F2 之間相關關系:經過卡方檢驗,發現前三對典型變量的相關系數是顯著的,即通過檢驗。故我們只需分析前三對典型相關變量。同時由于r1=0.988,r2=0.947,r3=0.841,說明前三對典型變量之間分別有較高的相關性,r1和r2尤為明顯。
通過兩變量的典型載荷可以得到前三對典型變量的線性組合,分別記為u1與v1,u2與v2,u3與v3。在第一組典型變量中,u1為經濟因子的線性組合,其中x3,x4和x5較其他變量有較大的載荷,這說明經濟因子主要受第一、第二和第三產業增加值的影響。v1為科技因子的線性組合,其中x10和x13的載荷較大,說明這兩個因素對科技因子影響較大,并且對于經濟的發展中工業企業專利申請數與公有經濟企事業單位專業技術人員數對其有著一定的促進作用。
根據以上方法依次也可以探究因子F1 與F3,F1 與F4,F2 與F3,F2 與F4,F3 與F4 的相關關系。由相關分析可以看出,對于四個因子來說,進行兩兩因子分析,彼此之間都有很大的影響,除了經濟因子外,對于突出影響的變量在兩兩因子分析中各不相同,但這也表明這些因子的有效性,同時讓我們對這些變量以及各因子有了基本的了解。
2.2.2 系統聚類分析
由于數據主要分四大因子,典型相關分析說明彼此之間都有各自突出的影響,若直接對所有指標進行聚類預想效果不會很好,為力求達到獨立性和準確性,考慮從四個方面針對于不同省市自治區進行系統聚類分析,進行比較。由于定義類與類之間的距離不同產生了不同的系統聚類分析方法,不同的方法彼此之間有不同的優缺點。經過比較考慮選擇采用類平均法和離差平方和法使得結果更加精確穩定。
2.2.2.1 類平均法
類平均法將兩類之間距離平方定義為這兩類元素兩兩之間的平均來計算距離,即

其遞推公式為:

分別對各因子變量按類平均法進行聚類,得到表1:

表1 采用類平均法個因子分類
由上表可以看出,北京、上海、江蘇、浙江和山東五個省在經濟、科技以及文化方面較其他省、市、自治區有較顯著差異,但在資源方面西藏自治區、山東省、內蒙古自治區和青海省較其他省、市、自治區有較顯著差異,這是符合實際情況的,且通過四個方面比較山東省都有比較突出優勢。
2.2.2.2 離差平方和法(Ward 法)
類內離差平方和反映了各自類內樣品的分散程度,如果兩類相距較近,則合并后所增加的離差平方和應較小,否則應較大。于是定義Gp和Gq之間的平方距離為:

其中,Gr=Gp∪Gq,類間距離的遞推公式為:

分別對各因子按Ward 法進行聚類,運行結果可以將經濟與科技分別分三類,文化與資源分別分四類。同時也可以看出,寧夏回族自治區、海南省、青島省以及西藏自治區在經濟、科技和文化方面要落后于其他省、市、自治區,而在資源方面相比其他省分要充足。這也反應了我國目前的狀況,南方沿海大部分地區經濟文化等都十分發達,而中西部資源充分但經濟建設等方面要落后于其他地區。
2.2.3 主成分分析與聚類分析
2.2.3.1 主成分分析
結果比較發現通過Ward 法聚類結果要比類平均法聚類要更加恰當,且更加符合實際情況,但通過上述聚類兩者都不能很好地反應各省市的綜合狀況,只能單方面的去描述。對于這種多項指標,且某些指標之間存在很強的的共線性,若是將四個因子一起進行聚類,由于相關性等突出影響我們需要重新組合成一組新的相互無關的綜合指標來代替原來的指標。對于這種情況我們考慮先用主成分分析進行初步判斷,再依據主成分分析結果對其進行聚類。
主成分分析(PCA)是將多指標化為少數幾個綜合指標的一種的統計方法,主要目的是降維。
通過計算相關矩陣,求相關矩陣的特征值和主成分負荷,計算貢獻率與累積方差貢獻率,求出主成分載荷,最終確定主成分。
按照累積方差貢獻率和碎石圖可以選取四個主成分。
進一步計算主成分得分,由主成分得分得到綜合得分及排名。
綜合得分:以各主成分的方差貢獻率為權,將其線性組合得到綜合評價函數

故由加權估計綜合得分,以各主成分的方差貢獻率占兩個主成分總方差貢獻率的比重進行加權匯總,得出各省、市、自治區的綜合得分,即

就綜合得分來看,廣東、江蘇、山東、浙江、河南這5 個省的綜合狀況居于全國水平前列,西藏、青海、寧夏、海南和甘肅居全國平均水平之末。由于是考慮綜合水平,所以北京、上海這些中國一線城市主要是經濟文體教育方面十分領先,但類似于資源這些方面并不突出相反處于全國最后,所以最終排名前列并不包括這類城市。
2.2.3.2 主成分分析后聚類
通過主成分分析只能得到各省、市、自治區的排名,缺乏對其整體的了解以及各自之間的聯系,考慮對主成分分析后數據進行聚類分析。結合前面結果選擇用Ward 法進行聚類。聚類圖如圖1:

圖1 綜合聚類圖

表2 主成分分析后綜合分類
由上表以及結合聚類圖可以看出,北京、山東、浙江、江蘇、廣東這五個省可以分為一類,其總體發展狀況較其他省、市、自治區有顯著優勢,而西藏、貴州、甘肅、新疆、青海、海南和寧夏這七個省整體水平處于下游。說明我們要加強中西部發展,因為資源對于一個國家來說就是燃料,要縮小內部差距,提倡西部建設,不能只片面的追求經濟發展,要全面綜合發展。
采用不同的方法從不同方面考慮得到的結果都大不一樣,很多時候需要結合實際去進行主觀判斷,缺乏客觀性。但結合實際可以使我們也更加容易去理解和判斷,得到一般性結果。
在數據分析過程中不同的因子對最后結果影響很大,所以還有待進一步處理,可能是綜合指標體系建立不恰當導致的,需要引入其他指標使得指標體系變得更加完整合理。
[1] 歐陽建國.社會主義和諧社會綜合評價體系研究[J].浙江社會科學,2006(2):16-22.
[2] 劉孝超,黃承鋒,王亮.主成分分析在地區經濟社會發展綜合評價的應用[J].重慶交通大學學報(社科版),2007(4):67-70.
[3] 王斌會.多元統計分析及R 語言建模[M]廣州:暨南大學出版社,2014.
[4] 薛毅,陳立萍.R 統計建模與R 軟件[M].北京:清華大學出版社,2007.