黃恒君,劉 明
(蘭州商學院a.統計學院,b.甘肅省經濟發展數量分析研究中心,蘭州 730020)
線性回歸模型最基本的參數估計方法是普通最小二乘法,在最小二乘法下線性回歸模型具有良好的統計性質,從數理的角度來分析,最小二乘估計方法及估計結果的數學特征也非常顯著,用數學思想對最小二乘估計方法及估計結果進行分析和研究,能夠將其直觀化、系統化。我們曾利用正交和投影對普通最小二乘法原理作出了幾何解釋[1],在此基礎上,本文利用“長度”和“角度”等幾何概念,分別對普通最小二乘估計形成的回歸系數、相關系數、可決系數R2、F統計量作出幾何分析,以期用數學語言表述它們,得到直觀的、系統的分析結果。


圖1 長度與角度解釋

由于-1≤cosθ≤1,-1≤r≤1,這就容易對相關系數作出解釋。在坐標軸的第一象限,θ越接近于0,則正相關程度越高;在坐標軸第二象限,θ越接近于π,則負相關程度越高。特別地,當r=cosθ=0時,θ=π/2,此時,向量y與x相互垂直(正交),即兩者完全線性不相關;當r=cosθ=1時,θ=0,向量 y與x方向相同(平行或重合),即兩者完全線性正相關;當r=cosθ=-1時,θ=π,向量y與x方向相反(平行或重合),即兩者完全線性負相關。
上述二維歐氏空間的分析容易推廣到n維。若x和y是n維歐氏空間中向量,其相關系數表現x和y在n維空間中的形成的兩個點與原點形成的夾角,上述結論仍然成立。因此不難看出,相關系數就是cosθ。


考慮更一般的情形——把空間擴張成n維,x與y表現為n維歐氏空間中的兩個向量,則有:

根據上述相關系數的幾何分析,并進一步結合圖1,可以對可決系數作出幾何解釋。根據圖1及勾股定理

由cos2θ的取值范圍[0,1],不難得到R2的取值范圍為[0,1]。
同樣可以對F檢驗作出幾何解釋。通過上述分析過程可知,回歸方程總體顯著性F檢驗可寫為:

其中,df表示自由度。在樣本量n和變量數K給定的情況下,df1/df2為常數,不妨設為A,因此

即F統計量是向量夾角的余切平方的線性函數。
若樣本容量為n,可設向量y、x1和x2來自n維歐氏空間,則x1和x2可生成n維歐氏空間的一個子空間(記為X),在子空間X中,必然存在x1*與x2正交(如圖2)。

圖2 多元投影幾何解釋



在多元線性回歸模型中,如果解釋變量之間相互正交,那么多元回歸模型可以獨立地分解為一元回歸模型,即多元回歸模型的回歸系數估計結果與對應的單個解釋變量與原被解釋變量所構建的一元回歸模型的回歸系數估計結果相同。借鑒這一思路,我們對一般的情況進行分解,并由此說明多元線性回歸模型的多重共線性問題。


同理,若先將y投影到x2方向,并進一步投影到x1,最終擬合結果以及殘差相同,但中間分解過程不同。因此,在x1和x2非正交的一般情況下,多元回歸不能獨立地分解為一元回歸。
若x1*與方向一致,即x1與x2正交,α=π/2,此時,B*、B和E三點重合,多元回歸可獨立分解為數個一元回歸的情形。方差膨脹因子為1。當解釋變量相互正交時,被解釋變量對所有解釋變量進行回歸所得到的偏回歸系數估計量分別與對單個解釋變量回歸時的系數估計量對應相等。
由上述分析過程可以看出,普通最小二乘法的數學本質是將研究對象即被解釋變量分解為相互正交的兩部分。本文通過一元、二元線性回歸模型,對普通最小二乘估計結果及檢驗統計量進行幾何分析,發現參數估計結果、檢驗統計量等都可以在向量空間內用幾何方法進行描述。該分析方法可以擴展到對多元線性回歸模型的分析:最終表現為兩個向量(被解釋變量、解釋變量線性組合)的長度和角度關系。
[1]劉明.普通最小二乘法的幾何分析[J].統計與決策,2012,(4).
[2]龐浩.計量經濟學[M].北京:科學出版社,2010.
[3]Kreyszig E.Introductory Functional Analysis with Applications[M].New York:John Wiley&Sons,1978.