北京大學生育健康研究所(100191) 李宏田
線性回歸分析(linear regression analysis)是研究事物之間線性關系最常用的統計分析方法之一,據自變量數目是否單一可分為簡單線性回歸分析(simple linear regression)和多元線性回歸分析(multiple linear regression)。簡單線性回歸的數學模型簡單,回歸直線形象直觀,回歸系數的解釋也通俗易懂。多元線性回歸的數學模型及變量間的關系相對復雜,其回歸系數常被解釋為“在固定其他自變量或扣除其他自變量影響時,Xi每改變一個單位時應變量Y的平均變化量”。但究竟如何固定或扣除,以及扣除的回歸貢獻的去向,各類參考書籍中少有提及。筆者以鄭俊池教授制作的多元線性回歸教學模型(圖1)為基礎,剖析了多元線性回歸與簡單線性回歸函數圖像的空間投影關系,進而給出了有關多元線性回歸系數固定或扣除含義的圖形解釋〔1〕。
1.知識回顧
簡單線性回歸方程^Y=b0+b1X1的回歸系數b1指自變量X1每改變1個單位時Y的平均變化量,其函數圖像是截距為b0、斜率為b1的直線。多元線性回歸方程^Y=b0+b1X1+b2X2+…+bnXn的回歸系數b1指固定X1以外的其他自變量或扣除X1以外的其他自變量影響后,X1每改變1個單位時 Y的平均變化量〔2,3〕,僅含2個自變量的多元線性回歸方程的函數圖像是一個回歸平面,含3個及以上自變量的多元線性回歸方程難于用函數圖像表示。
2.含2個自變量的多元線性回歸方程的圖示
本文以制作三維模型時所用的回歸方程(Y=2+1.33X1+0.20X2,假定完全擬合)為例,給出了僅含2個自變量的多元線性回歸方程的示意圖(圖2)。當X1=0時,回歸方程變為Y=2+0.20X2,其圖形為X2軸與Y軸所確定的平面內的直線OB;當X2=0時,回歸方程變為Y=2+1.33X1,其圖形為X1軸與Y軸所確定的平面內的直線OA;當X1=X2=0時,回歸方程變為Y=2,其圖形即為點O。據以上分析可知,含2個自變量的多元線性回歸方程的圖形即為等截距(OO″)、定斜率(多元線性回歸方程的回歸系數)的兩條簡單回歸直線所確定的回歸平面。滿足回歸方程的任何一點(X1,X2,Y),如圖 2 中的 M(3,5,7)點,均應位于平面AOB上。

圖1 多元統計教學模型

圖2 回歸方程Y=2+1.33X1+0.20X2函數圖形(AOBM)

圖3 回歸方程Y=2+1.33X1+0.20X2函數圖形解析
3.投影、固定和扣除
圖2中M點在X1軸與X2軸所確定的平面內的投影為M'(3,5,0)點(圖3),M 點的含義可解釋為當X1=3、X2=5時,全部自變量(含截距)對應變量Y的總回歸貢獻大小為7(MM'),其中截距的貢獻量為2(OO'),X1的貢獻量為 4(AA0),X2的貢獻量為 1(BB0)。由解析幾何知識可知平面AA'O'O平行于平面MM'B'B,故直線OA與BM永不相交;又因OA和BM同在平面OAMB內,故OA恒平行于BM;那么BM在X1軸與Y軸所確定的平面內的投影B″M″也恒平行于OA。由以上分析可知,不論X2取何值,只要其取值固定,BM在X1軸與Y軸所確定的平面內的投影的斜率都不會改變,且恒等于直線OA(X2=0)的斜率,故X1的回歸系數可解釋為“在其他自變量(X2)固定時,X1每改變一個單位時應變量 Y的平均變化量為1.33”。盡管X2取不同值時,BM在X1軸與Y軸所確定的平面內的投影的斜率不變,但對比(X1=3,X2=5)時 Y=7(MM')和(X1=3,X2=0)時 Y=6(AA')可知,因X2取值改變(由5變為0)而被扣除(X2=0,即X2的貢獻被扣除)的貢獻量實為BB0或OB″,故據此X1的回歸系數亦可解釋為“在扣除其他自變量(X2)的影響(即貢獻量)后,X1每改變一個單位時應變量Y的平均變化量為1.33”。同理,因X1取值改變所致的扣除情況與此類同,本處從略。
4.討論
本文通過對比僅含2個自變量的多元線性回歸方程的函數圖像與相應的簡單線性回歸函數圖像的幾何關系,形象直觀地闡明了有關多元線性回歸系數固定、扣除作用的具體含義,并對扣除的回歸貢獻進行了幾何定位,對于正確理解多元線性回歸乃至其他多元回歸系數的含義有一定的參考價值。
(致謝:筆者有幸師從鄭俊池教授,在鄭教授的指導下撰寫了此文。鄭教授于20世紀90年代初制作了該模型(圖1),并用于醫學研究生多元統計教學,效果極好。
1.李竹,鄭俊池主編.新編實用醫學統計方法與技能.北京:中國醫藥科技出版社,1997:137-148.
2.金丕煥主編.醫用統計方法(第2版).上海:復旦大學出版社,2003:309-316.
3.陳峰主編.醫用多元統計分析方法.北京:中國統計出版社,2000:30-31.