童鵬


針對傳統主成分分析方法和熵值法的缺點,分別對數據進行均值億和標準變換法的改進,然后分別采用改進的主成分分析法與改進的熵值法進行評價,經由KENDALL-W 一致性檢驗進行集成綜合評價,若評價結果不一致,則采用因子分析法。結果發現主成分分析和熵值法得載的結果有偏差,最后用集成綜合評價法對重慶市24個區的綜合競爭力進行評價,集成綜合評價法的結果最切合實際。
主成分分析 熵值法
KENDALL-W
因子分析 集成綜合評價
引言
主成分分析法通過降維技術運用少數部分具有代表性的綜合指標代表原始的多個變量指標的統計分析方法。徐雅靜、汪遠征[1]提出數據均值化的處理方法。童新安、許超[2]采用中心標準化進行無量綱化的處理。張圓[3]采用因子分析和聚類分析對全國31個省、市、自治區的經濟發展進行分析,得出我國地區經濟發展的層次分布情況。蔡若男、馬丹[4]采用因子分析法提取主成分因子,得出主成分得分,然后對黑龍江省各城市綜合競爭力進行排序,利用聚類分析對進行分類。楊光[5]采用綜合經濟效益指數法對江蘇各地區的經濟發展程度比較分析。基于以上研究提出先對原始數據進行改進,然后采取改進的主成分分析法、熵值法對各個對象進行評價。對使用兩種方法得到的結果作一致性檢驗,若通過一致性檢驗就將兩種結果進行集成評價。最后運用改進的集成綜合評價法對重慶市24個地區縣的經濟綜合發展程度進行實證分析。
數據來源及研究方法
采用《重慶市統計年鑒2016》的數據分析重慶市24個區的綜合競爭力。首先選取8個代表性指標,x1-地區生產總值,x2-人均生產總值,X3-第三產業生產總值,X4-公共財政收入,x5-居民人均可支收入,X6-城鎮非私營單位就業人員年平均工資,X7-社會消費品零售總額,x8-全社會固定資產投資。
(1)主成分的改進
主成分分析的關鍵是依據協方差矩陣求出主成分。但是協方差矩陣容易受原始數據的量綱和數量級的影響。常用方法是對原始數據作標準化處理,但該方法在消除原始數據指標量綱和數量級影響的同時,也抹殺了反映各原始數據指標之間變異程度的差異信息,不能準確的反映原始數據所包含的全部信息。而“均值化”后得到的協方差矩陣能夠完全反映原始數據指標所包含的全部信息,因此,可以把“均值化”作為一種新的無量綱化方法。假設V=(vij)n×p中各項指標的相關系數為,其中rij為原始數據各項指標之間的相關系數。由rij=rij可知,原始數據經過均值化后各指標之間的相關系數不發牛改變,同時在相應的協方差陣中將反映全部的相關系數矩陣的信息。
(2)熵值法
假設有n個待評價的對象,每個待評價對象各有p項評價指標,所有評價指標的數據矩陣是x=(xij)n×p,對于某個指標j,如果所有待評價的對象的指標值xij之間的差距越大,則就表明該指標在綜合評價中的效用越大;相反,其效用越小。 信息熵表達式是個狀態值(共有n個狀態),p(xi)是第i個狀態值出現的概率。在數據矩陣X中,若指標值的差異程度越大,相應的信息熵就越小,則該指標的權重相對就越大;反之,該指標的權重相對就越小。因此可依據各指標的變異程度,借助信息熵[6],解出各指標的權重,為多指標的評價提供相關依據。所以熵值法計算步驟為計算出第i個樣本在第j個指標上的比重
(三)熵值法的改進
在上面的計算過程中負數不能參于計算,所以應當對極值做一些變動。常用方法有功效系數法和標準化變換法。雖然功效系數法對負數和極端值做了相應的處理,但調節指標系數的權重由于受人為的影響,評價結果必然受主觀性的影響。而標準化變換法不受任何主觀因素的影響,屬于完全意義上的客觀賦權發法,因此可采用標準化變換法對熵值法進行改進。
由于不同的指標具有不同的量綱和單位,為了消除不同的量綱和單位的不同所帶來的影響,首先對原始數據進行無量綱化的處理,即
,其中xij為同度量化的指標值,xj為第j項指標的平均值,σj為第j項指標的標準差[13]。為了消除負值的影響,將坐標進行平移,記xij=k+xij,其中K為坐標平移的幅度。
(3)集成綜合評價
若按照某些性質由m個評價者對n個待評價對象進行排序或評估,若評價結果不相一致,那么它的隨機性就比較大,實用性就比較小。為分析評判結果是否一致,需對m個不同排序結果進行一致性檢驗。原假設(H0):結果(對于不同評價者來說)是沒有相關關系的或隨機產生的;備擇假設(H1):結果是多少一致的或相關的。協和系數可評價m個評價者對于n個待評價對象的評價結果是否具有一致性。先求協和系數W再對它進行檢驗,用來證明樣本數據以最大可能性符合同一總體分布的差異程度。KENDALL-W協和系數法一致性檢驗用于檢驗m種評價方法對于n個待評價對象的評價結果間是否有一致性。KENDALL-W協和系
數為:
式中m是評價方法的數量,n是待評價對象的數量;R是各待評價對象的等級之和。形的檢驗:Ho:m種評價方法的結果無一致性;H1:m種評價方法的結果有一致性;檢驗統計量x2=m(n-1)w在大樣本情況下近似服從于x2(n-1)。當x2≥X2時,認為m種評價方法的評價結果間具有一致性,反之不具有一致性。用KENDALL-W協和系數對熵值法和主成分分析法作綜合評價時結果進行一致性檢驗,如果兩種結果具有一致性,就說明這兩種方法的評價結果基本上一致,經由改進的主成分分析法得到的第i個評價對象的評價數值記為fi,經由改進的熵值法得到的評價數值記為vi,則建立起第i評價對象的綜合評價得分Yi=Tfi+UviY=Tfi+Uvi,其中T、U是權重,T+U=1。根據評價對象的最終評價得分大小進行排序,即可得到最終的評價結果。
重慶24區城市發展差異的實證分析
首先利用均值化的主成分和標準變換法的熵值法分別對重慶24個區的綜合競爭力進行評價,根據其主成分得分和熵值法得分進行排名,部分結果如表l所示:
從表1中可以看出,部分城市的排名不同,其中,萬州區、南岸區、大渡口區、綦江區的排名差別較大。不能比較兩種方法的效果,對各區的綜合競爭力也不能進行很好的評價。
下面我們利用均值化的主成分分析法和標準變換法的熵值法進行綜合評價,并運用Kendall-W協和系數進行一致性檢驗,計算W為0.989565217,檢驗統計量x2= 45.52>x20.05(23)= 35.17說明在95%的置信度下兩種評價結果是一致的,可進行集成綜合評價,文中T、U分別取值0.5,根據綜合得分進行排名,部分結果如下:
從原始數據中觀察,南岸區在人均生產總值、公共財政收入、居民人均可支收入、城鎮非私營單位就業人員年平均工資、社會消費品零售總額方面比萬州區要高,僅在地區生產總值、第三產業生產總值、全社會固定資產投資方面略低,說明南岸區的城市綜合競爭力要高于萬州區。沙坪壩區在人均生產總值、第三產業生產總值、居民人均可支收入、城鎮非私營單位就業人員年平均工資、社會消費品零售總額方面比萬州區要高,僅在地區生產總值、公共財政收入、全社會固定資產投資比萬州區稍低,說明沙坪壩區的綜合競爭力要比萬州區高。銅梁區在地區生產總值、社會消費品零售總額方面要比大渡口區高一倍左右,在全社會固定資產投資方面是大渡口區的兩倍以上,其他方面相差很小,說明銅梁區的城市綜合競爭力比大渡口區的大。綜上所述,集成綜合評價法得到的結果更切合實際,從實際數據出發也驗證了這一結論。
[1]徐雅靜,汪遠征.主成分分析應用方法的改進[J].數學實踐與認識,2006,6(36):69-71.
[2]童新安,許超.基于非線性主成分和聚類分析的綜合評價方法[J].統計與信息論壇,2008,23(2):37-46.
[3]張圓.地區經濟發展差異的聚類統計分析[J].統計與決策,2013,(24):112-114.
[4]蔡若男,馬丹.黑龍江省各城市綜合競爭力統計分析[J].齊齊哈爾大學學報,2013,29(02):81-83.
[5]楊光.江蘇省各地區經濟發展程度比較分析[J].統計與咨詢,2010,(03):35.
[6]孫劉平,錢吳永.基于主成分分析法的綜合評價方法的改進[J].數學實踐與認識.2009,99(39):17-18.