多重共線性的解決：剔除變量的新標準

2013-07-27 08:42:28劉明

統計與決策 2013年5期

劉明

（蘭州商學院a.甘肅經濟發展數量分析研究中心；b.統計學院，甘肅蘭州 730020）

0 引言

線性回歸模型的多重共線性的本質是解釋變量之間存在線性相關。多重共線性的解決有多種經驗性方法，這些方法因模型和樣本數據的不同而各異，其中一類比較常用而且簡單的辦法是“剔除變量法”，即剔除引起多重共線性的解釋變量，以達到解決多重共線性問題的目的。實施剔除變量法的關鍵是確定哪一個或哪些變量應該被剔除，因此需要確立剔除依據。文獻[1,2]認為可以根據方差膨脹因子（VIF）的大小來選擇被剔除變量，VIF最大的變量應首先剔除。該依據的理由是，VIF最大的變量與其余變量的相關性最強，因而是多重共線性的罪魁禍首，因此應首先剔除。為考察這種方法的效果，首先看一個實例，這也是研究的出發點。

1 剔除變量法的一個實例：以方差膨脹因子為準則

為展示以方差膨脹因子為準則的剔除變量的方法，這里利用朗利數據構造一個例子。數據如下表，其中Y=被雇傭人數（千人），X1=GNP價格縮減指數，X2=GNP（百萬美元），X3=失業人數（千人），X4=服役人數（千人），X5=14歲以上非編制人口，X6=時間。原數據參見文獻[3]。

表1 朗利數據

利用上述數據，以Y為被解釋變量，其余變量為解釋變量構建線性回歸模型如下：思想，選擇方差膨脹因子最大的解釋變量予以首先剔除。解釋變量的方差膨脹因子計算結果依次為：

顯然，X2的方差膨脹因子最大，先將其剔除。剔除后重新構建的回歸模型為：

其中括號內為t檢驗統計值，為節約篇幅，其余統計量均未給出。此模型整體擬合效果較好，可決系數R2=0.9955接近于1，但部分解釋變量不顯著，因而可能存在多重共線性問題，經過進一步診斷，模型確實受到共線性問題干擾。考慮使用剔除變量法解決多重共線性問題，依據該方法的

經檢驗，該模型仍存在多重共線性問題，繼續實施剔除變量法，選擇該模型中方差膨脹因子最大的解釋變量予以剔除，剔除后繼續構建回歸模型并檢驗是否存在多重共線性問題，若存在，繼續按上述過程剔除變量，直到無多重共線性問題存在為此。最終得到的模型是：

該模型的可決系數R2=0.5608，相對偏小，而且模型中僅剩余兩個解釋變量X3、X4，因此該模型沒有達到對原問題的正確表述。

2 選擇被剔除變量的新標準：t統計量

上述例證說明，以方差膨脹因子為標準實施的剔除變量法不能夠很好的解決多重共線性問題，甚至不能解決多重共線性問題。究其原因，方差膨脹因子僅考慮了解釋變量間的相互關系，盡管這種關系對于模型是否存在多重共線性問題來說也很重要，但沒有考慮解釋變量與被解釋變量之間的關系，即不同的解釋變量對被解釋變量的影響作用是不同的。因此，僅考慮解釋變量之間的關系來解決多重共線性問題是不全面的。方差膨脹因子就是一類僅考慮解釋變量關系的統計指標，因而不能作為解決多重共線性問題中選擇被剔除變量的標準。

t統計量可以作為選擇被剔除變量的標準。其理由有二：一是t統計量的構造既包含了解釋變量之間相關性的信息——估計量的標準差的估計量中含有方差膨脹因子，如前所述，這是反映解釋變量間相關性的統計指標，同時也包含了解釋變量對被解釋變量的影響關系——參數估計量即表述了解釋變量對被解釋變量的影響；二是t統計量的取值反映了所對應的解釋變量對被解釋變量影響貢獻程度的大小[4]，在同一模型的所有解釋變量中，t統計量絕對值越小，該解釋變量對被解釋變量的影響作用就越小，相反，t統計量絕對值越大，影響作用就越大。因此，選擇t統計量作為剔除標量的標準是全面的，可靠的。

利用t統計量作為選擇被剔除變量的標準，其具體做法是，最先剔除對被解釋變量貢獻最小的解釋變量，即t統計量絕對值最小的解釋變量，利用剩余變量重新構造回歸模型，若仍存在共線性問題，則重復前一過程，直到無多重共線性問題為止。下面即利用該方法來解決上述例子中的多重共線性問題。

首先將所有解釋變量納入到模型中構建回歸模型，如前文中所建的第一個模型。選擇首先被剔除的解釋變量，依據是未通過t檢驗的t統計量絕對值最小。當然，若所有的t檢驗均通過，則不需要剔除變量了。顯然，X1首先被剔除。重新構建的回歸模型如下：

不難發現，該模型仍受到多重共線性的干擾，繼續使用剔除變量法，根據t統計量的絕對值大小選擇X5被剔除。剔除后構建的回歸模型為：

通過檢驗發現，此模型不再受到多重共線性的干擾，各解釋變量均顯著，整體擬合效果較好，其可決系數R2=0.9954，因而此模型解決了多重共線性問題，是排除多重共線性后的最優模型。

根據上述例證，將以方差膨脹因子為準則的多重共線性解決方法和以t統計量絕對值為準則的方法相比較，不難發現，前者所構建的回歸模型結果不夠理想，主要表現為刪除的解釋變量過多、模型整體擬合效果較差、計算步驟繁瑣等。而后者得到了一個包含盡可能多解釋變量的模型，大大降低了存在設定誤差的可能性，同時模型的擬合效果更好，計算更簡便。因此，以t統計量絕對值為準則剔除變量的多重共線性解決辦法更優。

3 結論

簡單地說，以t統計量為準則剔除變量的多重共線性解決辦法就是剔除模型中不顯著的解釋變量，是否剔除的判斷依據就是該變量顯著性t檢驗統計量絕對值的大小。當然，這不是說將所有未通過t檢驗的解釋變量全部剔除——這樣做可能會將一些顯著的解釋變量排在模型之外，而是逐一的剔除，直到多重共線性問題得到解決為止。選擇t統計量作為被剔除變量選擇的標準，是因為它不僅含有解釋變量間相關性的內容，還反映了解釋變量對被解釋變量的影響作用，信息涵蓋更全面。由于t統計量在一般計算機軟件計算中都會給出，因而這種解決辦法更方便快捷。

[1]李占風.經濟計量學[M].北京:中國統計出版社,2010.

[2]龐皓.計量經濟學（第2版）[M].北京:科學出版社,2010.

[3]古扎拉蒂.計量經濟學基礎（第4版）[M].北京:中國人民大學出版社,2005.

[4]劉明,王仁曾.基于t檢驗的逐步回歸的改進[J].統計與決策,2012,(6).