[摘要] 采用模糊聚類分析方法,利用主成分分析對聚類的特征變量降維,依據2005年和2006年的有關數據,對西部12省區的經濟發展狀況進行模糊分類,初步劃分具有不同經濟發展狀況特征的類型,這有助于對各類省區的發展狀況做深入分析及制定相應的發展對策。
[關鍵詞] 數據挖掘 主成分分析 模糊聚類 西部經濟
自從實施西部大開發戰略以來,西部經濟得到了快速發展。但是,西部地區內部各省區經濟發展狀況是不平衡的。因此,對西部各省區經濟發展狀況進行合理分類,有針對性地促進西部各省區經濟發展,具有重要的現實意義。
但是,現有關于西部各省區經濟發展狀況的分類方法尚存在一些缺陷和不足。這主要表現在對西部各省區經濟發展狀況的分類無法用精確的度量來表示,因此,采用模糊聚類的方法對西部各省區經濟發展狀況進行分類就顯得更客觀合理。
一、原始數據的預處理
1.評價指標的選取
綜合有關文獻的研究,本文選取7項指標以反映西部各省區經濟發展狀況,即地區生產總值(R1)、人均地區生產總值(R2)、固定資產投資(R3)、居民消費價格指數(l4)、城鎮居民人均消費性支出(R5)、人均財政收入(R6)、海關進出口總額(R7)。根據所研究問題的性質,在上述指標中,指標l4是逆指標,其他均為正指標。對于逆指標,直接求其倒數為正指標,即R4=l/l4。對于轉換后的指標向量,為分析方便統一定義為:R=(R1,R2,R3,R4,R5,R6,R7)。樣本集用X表示,樣本對象數為12省區,即內蒙古、廣西、重慶、四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆,分別表示為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11、X12。
2.基于主成份分析法的數據預處理
本文根據2006年~2007年《中國統計年鑒》,選取了主要反映西部12個省區2005年~2006年的7個經濟指標的平均值數據[4-5]。即2005年~2006年西部各省區的地區生產總值(當年價)、人均地區生產總值(當年價)、固定資產投資、城鎮居民人均消費性支出、人均財政收入、海關進出口總額的平均值,2005年~2006年西部各省區居民消費價格指數的幾何平均值。
首先求出數據矩陣的特征值、特征值的方差貢獻率和累積貢獻率。由于各指標的量綱和單位不同,本文采用最小最大法對原始數據進行標準化處理。將數據輸入MATLAB7.0進行主成分分析[6],由于前四個主成分的方差貢獻率可達96.5569%,故可選取前四個主成分作為反映經濟發展實力的綜合指標。設Y1、Y2、Y3、Y4分別代表第一、第二、第三、第四主成份,其線性組合為:
Y1=-0.4563*R1-0.2196* R2-0.5179* R3-0.2984* R4+ 0.2918* R5-0.2026* R6-0.5101* R7
Y2=0.2702* R1-0.5486* R2+0.1365* R3-0.6631* R4-0.4027* R5-0.0635* R6+0.0386* R7
Y3=-0.1955* R1+0.1268* R2-0.0822* R3+0.1352* R4-0.6773* R5+0.4994* R6-0.4611* R7
Y4=0.0076* R1-0.3136* R2+0.0360* R3-0.0859 * R4+0.4648* R5+0.8186* R6+0.0828* R7
二、西部各省區經濟發展狀況模糊聚類分析
在獲得Y1、Y2、Y3、Y4作為模糊聚類的聚類變量后,可以采用最大樹法,由模糊相似矩陣R求出最大樹T,然后將T剪枝產生連通子樹,最后完成聚類。
1.建立模糊相似矩陣R
以絕對值減數法建立相似關系矩陣,方法易懂且明確,其公式如下:
式中,為第i行第k列的屬性值,為第j行第k列的屬性值,其中c為適當選取數,使。本文令屬性個數 ,計算得到的R矩陣如表所示。
表 模糊相似矩陣R
2.求最大樹T
最大樹T可利用Prim算法得出,T中各頂點遍歷所有樣本對象,每一條邊被賦以某一權值,取值為R中的元素rij,如圖1所示。
3.將T剪枝產生連通子樹
設定一個合適的λ值,λ∈[0,1],設T中某邊e的權值為T(e),若T(e)<λ,則將邊e去掉,如此這樣就將T截成互不連通的幾棵子樹,這些子樹就是基于λ的分類。
取λ=0.78,由連通子樹可得X分為兩類(簇):{X1,X2, X4, X5, X6, X7, X8, X9, X10, X11, X12},{X3}。
取λ=0.82,由連通子樹可得X分為三類(簇):{X2, X4, X5, X6, X7, X8, X9, X10, X11 , X12},{ X1},{ X3}。
取λ=0.83,由連通子樹可得X分為五類(簇):{X2, X5, X6, X7, X8, X9, X10, X11},{ X1},{ X3},{X4},{X12}。
其他同理可求。當取λ=0.83時連通子樹如圖2所示。
圖1 最大樹T圖2 連通子樹
三、結語
利用結合主成分分析的模糊聚類技術實現了西部各省區經濟發展狀況的分類,獲得具有不同的經濟發展狀況特征的西部各省區類型,這有助于對西部各類省區的經濟狀況做進一步分析,并根據不同的具體情況制定針對性的發展政策,提供有效的激勵或扶持措施,更合理地開發西部,為西部實現經濟騰飛創造條件,并最終達到西部大發展的目的。
參考文獻:
[1]溫家寶:開拓創新,扎實工作,不斷開創西部大開發的新局面 [N].人民日報,2005~02~05(2)
[2]蔣志華顧振海:西部12省經濟發展狀況對比研究——基于聚類因子分析法的實證分析[J].經濟體制改革,2006,(12):138~141