韓慶艷 李文濤
(1.安徽郵電職業技術學院 合肥 230031)(2.陸軍軍官學院 合肥 230031)
失業率是反應社會形態的重要指標,是國民經濟中極其重要的問題。近年來,國外學者非常關注城鎮失業率預測問題[1~3],我國的向東進[4]、向小東[5]、楊帥國[6]、曹燦[7]等從不同角度,采用各種方法對城鎮失業率進行了預測,取得了較好的效果。但是,從這些文獻中可以看出,為了完備地描述這一問題,分析人員盡可能多地選取影響城鎮失業率的因素,在城鎮失業率預測系統中往往會出現影響因素多重共線現象。王惠文在文獻[8]指出,無視這種多重共線性,會影響分析的客觀性,使結果產生嚴重偏差。
偏 最 小 二 乘 回 歸[9~10](Partial Least-Squares Regression,PLSR)是一種新型的多元統計分析方法,集多元線性回歸、典型相關分析和主成分分析的功能為一體,能有效解決自變量因子間的多重共線性影響的問題,因此,本文擬對PLSR建模方法在城鎮失業率預測中的應用加以探討,以提高模型擬合效果和預測精度。
失業的統計方法各國差異較大,我國采用城鎮登記失業率,是指城鎮登記失業人數同城鎮從業人數與城鎮登記失業人數之和的比。其中,城鎮登記失業人員是指有非農業戶口,在一定的勞動年齡內(16歲以上及男50歲以下、女45歲以下),有勞動能力,無業而要求就業,并在當地就業服務機構進行求職登記的人員[11]。
通過查閱相關資料,選取勞動力因素、國家政策類因素、居民消費類因素、投資與經濟類因素和產能結構因素等五類影響因素,具體指標包括:
1)勞動力因素類,包括年度總人口、經濟活動人口、城鎮就業人員數、城鎮單位就業人口平均工資、城鎮單位勞動人員就業總報酬。
2)國家政策因素類,包括教育經費投入和財政支出。
3)居民消費因素類,包括居民消費價格指數(CPI)增長率、最終消費支出以及社會消費品零售總額。
4)投資和經濟因素類,包括進出口總額、城鎮固定資產投資、GDP、GDP增長率、匯率等。
5)產能結構因素類,包括第一產業、第二產業和第三產業的產值比重。
綜上所述,得出了影響城鎮登記失業率的五大因素和18個指標,并且給出了結構框架表,如表1所示。

表1 城鎮登記失業率影響因素和指標結構圖
選定的城鎮登記失業率影響因素有18個,可能將存在一些近似線性的變量選作解釋變量,這種解釋變量間的近似線性關系在統計中稱之為多重共線性(multicollinearity)[12]。由于多重共線性的存在,違背了線性回歸模型的假定,使得具有良好特性的最小二乘估計與最小二乘理論遭到嚴重破壞,所作的預測也就完全失效。因此有必要進行多重共線性診斷。
目前較為常用的診斷方法主要有:條件指標法、特征分解法、方差擴大因子法、本征值與病態指數檢驗法等。本文采用本征值與病態指數檢驗法[13~14]。
該檢驗法是由貝爾斯等人1980年提出的。首先對影響因素矩陣X中心化、標準化,再計算出R-1=(X′X)-1,設λmax與λmin為R-1的最大本征值和最小本征值,設k為病態數,定義為k=λmax/λmin,病態指數CI定義為

根據經驗,如果k∈[100,1000],則認為有中度多重共線性,如果k>1000,則認為存在嚴重的多重共線性;如果CI∈[10,30],則認為有中度多重共線性,如果CI>30,則認為存在嚴重的多重共線性。
利用該方法,對影響因素數據進行計算得:λmax=180.52與λmin=3.2219×10-2,代入式(1)得:k=5602.9,CI=74.8526,說明在18個影響因素之間存在著嚴重的多重共線性。
考慮p個變量y1,y2,y3,…,yp與m 個自變量x1,x2,x3,…,xm的建模問題。偏最小二乘回歸的基本作法是首先在自變量集中提取第一成分t1,同時在因變量集中也提取第一成分u1,并要求t1與u1相關程度達到最大。然后建立因變量y1,y2,y3,…,yp,與t1的回歸,如果回歸方程已達到滿意的精度,則算法中止。否則繼續第二對成分的提取,直到能達到滿意的精度為止。若最終對自變量集提取r個成分t1,t2,t3,…,tr,偏最小二乘回歸將通過建立y1,y2,y3,…,yp與t1,t2,t3,…,tr的回歸式,然后再表示為y1,y2,y3,…,yp與原自變量x1,x2,x3,…,xm的回歸方程式,即偏最小二乘回歸方程式。
為了方便起見,不妨假定p個因變量y1,y2,y3,…,yp與m個自變量均為標準化變量。因變量組和自變量組的n次標準化觀測數據陣分別記為

偏最小二乘法的簡潔算法的步驟如下:





根據中國統計年鑒中的統計數據,并查閱相關資料,得出1997~2011年間這18個指標和城鎮登記失業率的數據,按照3.2中的偏最小二乘法回歸算法,采用Matlab程序編程[15],通過程序運算得我國城鎮登記失業率的偏最小二乘回歸模型為

偏最小二乘回歸方程并不需要選用全部的成分進行回歸建模,而是與主成分分析一樣,采用截尾的方式選擇幾個成分就可以得到一個預測性能較好的模型。對于因變量y,成分th的交叉有效性為,經計算交叉有效性如表2所示。

表2 成分th對因變量y的交叉有效性
根據交叉有效性計算結果,從自變量系統中提取了五個成分,由成分對變量解釋能力定義,計算成分th(h=1,2,3,4,5)對自變量X和因變量y的累計解釋能力,如表3所示。

表3 成分th(h=1,2,3,4,5)的解釋能力
從表3可見,提取五個成分時,對的X累計解釋能力達到99.6%,對y的累計解釋能力達到96%,自變量系統與因變量系統相關性較高。
根據式(2)中的偏最小回歸方程,將數據代入計算得擬合值,并進行誤差分析,結果如表4所示。

表4 城鎮登記失業率預測/擬合誤差對比表
根據數據繪制了預測/實際值對比圖和誤差分析圖,如圖1、圖2所示。

圖1 預測/實際值對比圖

圖2 誤差分析圖
從以上圖表的計算結果可以看出,偏最小二乘回歸模型的預測誤差為-0.00343,最大相對誤差為0.01107,預測精度高,擬合效果較好,
本文根據以往研究,總結出了城鎮登記失業率的五類影響因素:勞動力因素、國家政策類因素、居民消費類因素、投資與經濟類因素和產能結構因素和18個預測指標,采用本征值與病態指數檢驗法進行多重共線性進行診斷,說明在18個影響因素之間存在著嚴重的多重共線性。為了克服多重共線性導致的預測失真問題,運用偏最小二乘回歸模型,以我國城鎮登記失業率為研究對象,按照Q2h≥0.0975的決策原則,由于Q24=0.2501,而Q25<0,提取5個主成分時,對的X累計解釋能力達到99.6%,對y的累計解釋能力達到96%,方程的預測性能為最佳,自變量系統與因變量系統相關性較高。該方法還可以進一步推廣到類似問題的解決中去。
[1]Chen,chun-I.Application of the novel nonlinear grey Bernoulli model for forecasting unemployment rent[J].Chaos,Solitons and Fractals,2008(37):278-287.
[2]Proietti,Tommaso.Forecasting the US unemployment rate[J].Statistics and Data Analysis,2003(42):451-476.
[3]Chiu,Chih-chou,Su,chao-ton.Novel neural network model using Box-Jenkins technique and response surface methodology to predict unemployment rate[J].Proceeding of the International Conference on Tools with Artificial Intelligence,1998(23):74-80.
[4]向東進,范輝.我國城鎮登記失業率的影響因素分析及預測[J].湘潭大學學報,2010(5):73-77.
[5]向小東,宋芳.基于核主成分與加權支持向量機的福建省城鎮登記失業率預測[J].系統工程理論與實踐,2009(1):73-79.
[6]楊帥國,胡曉華,朱冬和.我國城鎮登記失業率的數學模型與預測[J].海南師范大學學報,2010(4):372-374.
[7]曹燦,趙聯文.基于多元回歸分析中的中國城鎮失業率問題研究[J].長春大學學報,2011(4):50-53.
[8]王惠文.偏最小二乘回歸方法及其應用[M].北京:國防工業出版社,1999:65-97.
[9]Erikson L,Johansson E,Kettaneh W N,et al.Mutiple and mega variate data analysis:Principles and applications[M].umea:umetrics,2001:84-104.
[10]Schreiber T.Extremely simple nonlinear noise reduction method[J].Phys Rev E,1993(47):2401-2405.
[11]張車偉.失業率定義的國際比較及中國城鎮失業率[J].世界經濟,2003(5):73-76.
[12]Moore,William L.A cross-validity comparision of ratingbased and choice-based conjoint analysis models[J].International Journal of Research in Marketing,2004(3):299-312.
[13]高輝.多重共線性的診斷方法[J].統計與信息論壇,2003(1):73-76.
[14]趙松山,白雪梅.關于多重共線性檢驗方法的研究[J].中國煤炭經濟學院學報,2001(4):296-300.
[15]周品,趙新芬.Matlab數理統計分析[M].北京:國防工業出版社,2009:103-126.