王玥 孫德山



摘要:選取2017年遼寧省14個城市的相關經濟數據,首先對數據進行歸一化、標準化處理,然后進行投影尋蹤分析、主成分分析和Robust主成分分析,并根據降維后的數據進行聚類分析,觀察各個城市的經濟發展狀況。根據投影方向,對各個影響因素進行分析,為經濟發展提供參考。
關鍵詞:投影尋蹤;Robust主成分分析;聚類分析;經濟評價
改革開放40年,中國逐步走向了富強的道路,社會發展水平和綜合實力不斷提高,生活水平也不斷提高。但是,由于不同地區發展受到自然條件、人口、位置、資源的影響,不同地區出現了發展不平衡的問題。如何正確的、客觀的評價地區發展情況,了解各個地區的發展價值成為了人們的研究對象。
投影尋蹤(project pursuit)作為70年代中期發展起來的一種用來分析和處理高維觀測數據的技術,可以有效的把高維數據投影到低維子空間上。投影尋蹤可以排除與數據結構無關的或關系很小的變量的干擾,通過分析低維空間的投影特性來研究高維數據的特征,是一種處理復雜問題的統計方法。文獻建立投影尋蹤模型,對2004~2014年的全國各省經濟轉型做出研究。文獻通過投影尋蹤分類模型對地區節能消耗程度做出了評價。
主成分分析作為重要的降維方法之一,被廣泛用于各個領域,它通過一個線性變換,將數據變換到一個新的坐標系統中。主成分分析保持數據方差最大化,并提取相應的貢獻特征,這些特征可以盡可能的保留較多的原始數據的信息。
一、投影尋蹤模型構建
投影尋蹤的基本原理是將高維數據通過一定的線性組合,投影到1~3維子空間上,通過構建指標函數,并尋找指標函數的最大值來計算最佳投影方向。在低維空間進行分析,以達到研究高維數據的目的。具體步驟如下:
1. 為了消除量綱性的影響,對指標進行歸一化,對越大越優的指標有
其中,Xmax(j)和Xmin(j)為第j列指標的最大值和最小值,X*(i,j)為指標數值,X′(i,j)為歸一化后的序列,將X′(i,j)進行標準化處理,即
其中,Ez為z(i)序列的均值。本文通過投影后的數據,進行主成分分析,Robust主成分分析,并對結果進行分析。
二、Robust主成分分析介紹
Robust是把Robust統計的思想與多變量分析方法相結合,使多變量分析方法出現的統計量具有穩健性。而主成分分析通過分析少數主成分,來掌握和維持數據的結構,將少數主成分代表數據中的所有變量。但是,在實際過程中,數據中往往存在一定的噪聲點,因此,Robust主成分分析被廣泛使用。
根據投影的低維度和噪音的稀疏性,Robust主成分分析模型可以被定義為以下優化問題:
其中,X=X(i,j),i=1,2,…,n,j=1,2,…,p是數據矩陣,L和E分別是低秩矩陣和噪聲矩陣,‖·‖0是指矩陣的零范數,表示矩陣中非零個數,λ為折中因子,可以平衡L和E的比重。
三、實證分析
選取2017年遼寧省14個城市的11個主要經濟指標,分別為生產總值(單位:億元)、年末總人口(單位:萬人)、在崗職工平均工資(單位:元)、固定資產投資(單位:億元)、地方公共財政預算支出(單位:億元)、城鎮常駐居民人均可支配收入(單位:元)、農林牧漁業總產值(單位:億元)、社會消費品零售總額(單位:億元)、進出口總額(單位:億美元)、國內旅游收入(單位:億元)、金融機構存款余額(單位:億元)。數據來源于2017年遼寧省統計年鑒,實驗使用軟件為matlab2018a和r語言。
對數據進行分析,根據上述步驟計算出目標函數最優值為Q(a)=9.3548,投影向量為:
α=(-0.3261,-0.2909,-0.2920,0.3118,
0.3236,0.2386-0.2895,0.3158,0.2923,0.3026,
0.3231)
從投影向量來看,影響經濟的主要指標依次為:地方公共財政預算支出(0.3236)、金融機構存款余額(0.3231)、社會消費品零售總額(0.3158)、固定資產投資(0.3118)、國內旅游收入(0.3026)、進出口總額(0.2923)、城鎮常駐居民人均可支配收入(0.2386)、農林牧漁業總產值(-0.2895)、年末總人口(-0.2909)、在崗職工平均工資(-0.2920)、生產總值(-0.3261).
根據投影尋蹤結果,提取前3個投影向量,計算各個主成分,并計算各個樣本的綜合評價得分,將得分進行排名。同時,選用基于Croux &RuizGazen算法的Robust主成分和基于網格搜索的Robust主成分分析進行排名,結果表1所示。
由表1可知,大連和沈陽為遼寧經濟最好的2個城市,阜新和鐵嶺的經濟相對比較落后。將經濟狀況做等級劃分,使用聚類分析中的k-均值聚類,將上述主成分分析的結果分別進行聚類,結果如表2。
根據表1和表2可知,第一類地區,沈陽和大連為遼寧省內較為發達的地區,這兩個地區資金較其他地區充足,人口較多,GDP較高;第二類地區在三種分類結果中包含鞍山、錦州、營口、盤錦,此類屬于發展中地區,經濟發展速度一般;第三類地區發展較為落后,主要包含丹東、阜新、鐵嶺、朝陽,這些地區應該加快發展速度,引進外資,與其他較發達地區增加交流。
四、結論
通過建立投影尋蹤模型,對遼寧省2017年數據進行分析,可知遼寧省發展中心在沈陽和大連兩個城市,其余城市的發展和這兩個城市相比相差較大。沈陽和大連應該著重于周邊發展,從而帶動整個省的發展。第三類城市的發展相對落后,遼寧省應該著重致力于發展不平衡的問題治理。將遼寧省城市進行主成分排名,可以有效的觀察各個城市經濟情況,方便進一步了解經濟走向。
參考文獻:
[1]李祚泳.投影尋蹤技術及其應用進展[J].自然雜志,1997(04).
[2]方必和,程志宏,劉慧萍.投影尋蹤模型在國民經濟綜合評價中的應用[J].運籌與管理,2005(05).
[3]陳治,張媛.基于投影尋蹤的省域經濟轉型評價[J].統計與決策,2017(23).
[4]高大偉,姚奕,仵雁鵬.基于投影尋蹤分類模型的各地區節能降耗評價研究[J].數理統計與管理,2010(03).
[5]王玥,任靚.基于主成分聚類的地區綜合評價[J].中國科技信息,2018(10).
[6]付強,趙小勇.投影尋蹤模型原理及其應用[M].科學出版社,2006.
[7]Croux C, Filzmoser P, Oliveira M R. Algorithms for Projection–Pursuit robust principal component analysis[J].Chemometrics & Intelligent Laboratory Systems,2007(02).