王 銳
(上海理工大學 管理學院,上海 200093)
多元線性回歸模型是處理數據常用的方法,但經濟數據集中高維數據頻繁地出現,使得經典線性回歸統計方法受到較大沖擊。較高維數據常會出現多重共線性問題[1]。多重共線性不是模型設定的錯誤,但使用傳統的最小二乘法(OLS,Ordinary Least Squares)處理這類經濟數據時,往往會出現回歸系數計算不穩定、模型解釋性較差、預測準確性較低等問題[2]。目前,嶺回歸(Ridge Regression)是處理嚴重共線性常用方法[2]。Hoerl于1962年最早提出嶺回歸,這是一種改進的最小二乘估計法,到1970年,Hoerl&Kennard對該方法進行了更詳細的討論[3]。
一般,多元回歸模型假設各個預測變量之間沒有很強的依賴關系,即模型[4]:

或用矩陣形式表示:

預測變量 X1,X2,…,Xp是相互獨立,或(X′X)不接近奇異矩陣,但當預測變量間存在較強的線性關系,稱之為(多重)共線性問題。通常,多重共線性問題的產生有如下原因:經濟變量相關的共同趨勢;滯后變量的引入;樣本資料的限制[4]。
方差膨脹因子(VIF,Variance Inflation Factor)[2]是度量共線性常用的方法,VIF是回歸系數OLS估計平方誤差之和的期望與正交條件下期望的比值,定義式為:

通常帶截距項OLS回歸,VIFj取值從1到無窮大。當VIFj=1時,認為模型中各變量間沒有任何線性關系,當VIFj值逐漸增大,變量之間逐步走向共線性,當VIFj>10時,認為模型存在多重共線性[2]。
對于回歸模型,當預測變量具有較高的共線性時,嶺回歸提供了一種有效的估計方法,其基本思想[2]是:對回歸模型進行中心化和標準化處理,建立模型:

其中,響應變量 Z=(Z1,Z2,Zj,…,Zp),Zj是原始數據,是通過以下變換所得:

那么嶺回歸正規方程組變為:

由上式中解得參數α估計為:

上式中,嶺參數K值選取準則是調和總方差和偏倚兩者的關系,過小或過大都會導致估計誤差擴大[2]。常用方法包括固定點方法、迭代方法、嶺跡法[2],其中,嶺跡法是一種圖像方法,通過觀察嶺跡圖選取合適的K值。一般要求各嶺回歸系數估計值基本穩定,即嶺跡平穩。
實際應用中,回歸模型所涉及的預測變量往往不是事先確定的,確定一組優秀的變量子集不僅能更清晰地解釋預測變量和響應變量之間的關系,同時能提高預測精度。
嶺回歸能產生一個系數穩定的回歸方程,借鑒嶺跡法進行變量剔除,該剔除過程有兩個準則[2]:第一準則,刪去那些系數穩定但絕對值很小的預測變量;第二準則,剔除那些不穩定但是回歸系數θ^j(K)隨著K值的變大而趨向于0的變量。
第一次嶺回歸剔除一個或幾個變量后,可重復以上過程,直到剩下的變量嶺跡穩定,最后運用OLS對所選變量進行回歸,但若所保留變量仍有共線性,可考慮使用嶺回歸方法進行參數估計,建立嶺回歸模型。
實例分析為我國就業情況與相關經濟指標的關系,數據為1997—2016年的宏觀經濟數據,源于《中國統計年鑒》[5]。指標選擇參考Longley數據集[6],設定1個響應變量和5個預測變量組成的宏觀經濟數據集,包含就業人員(萬人)(Y)、年份(X1)、人均國內生產總值(元)(X2)、年末總人口(萬人)(X3)、法人單位數(個)(X4)、城鎮登記失業人數(萬人)(X5)。
本文為研究以上5個變量對就業人員的影響,擬建立多元線性回歸模型,即:

為了確保模型設定合理性及預測結果有效性,需要對模型進行回歸診斷。首先,使用SPSS軟件運用OLS回歸分析,結果(見表 1)。

表1 數據OLS回歸分析結果
由表1可得,用OLS擬合線性回歸方程為:

雖然從表1中R2來看,模型解釋性很好,同時標準化殘差檢驗顯示出模型無明顯誤設問題,但OLS擬合回歸方程中p值及部分系數符號并不合理。
所以,考慮把兩兩預測變量的散點圖排成矩陣圖1)。通過散點圖—相關系數矩陣觀察可得,各指標相關系數都在0.75以上,散點圖基本都呈線性模式。

圖1 散點圖—相關系數矩陣
再使用SPSS軟件中共線性檢驗功能,可以得到各變量方差膨脹因子:

該經濟數據的VIF值的變化范圍為21—4 792,預測變量VIF值均大于10,由檢查數據集中預測變量的相關系數,方差膨脹因子VIF,都說明該數據存在嚴重的多重共線性,必須采取措施消除共線性的影響。
運用SPSS軟件實現對經濟數據嶺回歸分析,嶺參數K的取值從0~0.2,間隔為0.005,共記錄了40個嶺參數取值,做嶺跡圖。對全部5個變量嶺跡進行分析,發現嶺跡比較雜亂,且變量之間存在高度線性關系,故首先考慮剔除部分變量。
根據選擇變量準則,先考慮剔除X4,因為標準化回歸系數估計變化較穩定,但絕對值趨于0;當K=0時,變量X3的標準回歸系數最大,但當K增加時迅速下降,變量X1則變化相反,且當K增大后,X1、X3與X5嶺跡幾乎重合,三者相關系數達到0.94以上,三個變量可近似合并為一,故試著保留X3。最終,去掉X1、X4、X5(剔除這 3 個變量不違反經濟常識)。再次,進行嶺回歸分析,生成2變量的嶺跡圖,圖中嶺跡基本穩定。最終,選擇人均國內生產總值(元)(X2)、年末總人口(萬人)(X3)作為模型預測變量。

圖2 5變量嶺跡圖

圖3 變量X1、X3嶺跡圖
在剔除X1、X4、X5之后,保留變量之間仍存在一定線性關系,計算得X2、X3的OLS回歸系數方差膨脹因子接近10,分別為 VIF2=9.55,VIF3=9.55。
故對保留變量進行嶺回歸分析,通過兩變量嶺跡來看,當K值達到0.7~0.9的范圍時,各個θj(K)(j=2,3)大體上趨于穩定,選取嶺參數K=0.8,計算可得嶺回歸結果(見表 2)。

表2 嶺回歸分析結果(K=0.8)

由表2最終獲得嶺回歸方程:X2、X3系數更加合理。同時,嶺回歸后各變量的方差膨脹因子極大地降低,VIFj(0.1)<10(j=2,3),表示非共線性狀態。
并且,從表2中結果可知,2預測變量數據變異總和占響應變量變異的84.4%。雖然,該占比不及OLS回歸,但嶺回歸后
求得經濟數據集的嶺回歸方程后,將實際總就業人數Y與模型預測值Y^進行對比,可得到該模型平均相對誤差(MRE,Mean Relative Error):

式中,yi為第i個樣本的實際值為通過嶺回歸模型求得對應的預測值。由(11)式求得MRE為0.97%,這意味著基于嶺回歸建立的模型誤差較小,擬合效果較好。
將多元回歸模型應用于經濟數據時,若該數據集存在多重共線性,OLS無法進行有效的估計和預測,而嶺回歸方法引入正數K修正OLS正規方程組,通過一種有偏估計方法,消除多重共線性對模型的影響。在實例分析時,首先對宏觀經濟數據集進行模型假設檢驗,在模型設定無誤情況下,運用變量相關矩陣圖、VIF對共線性進行診斷,在確定數據存在嚴重共線性后,運用嶺跡圖剔除變量,再進行嶺回歸。回歸結果通過顯著性檢驗且消除了共線性的影響,同時模型誤差小,擬合效果較好。
但嶺回歸參數的選擇原則和方法存在一定主觀性,沒有明確的含義,所以選擇變量時需要特別謹慎,要靈活運用嶺回歸方法,如比較剔除不同變量子集的回歸效果。當然,對于共線性問題可根據具體情況采用其他方法,如主成分分析、Lasso 回歸[7]等。