寧波大學醫學院預防醫學系(315211) 代魯燕 沈其君 張 波 黃啟風
在多元線性回歸模型中,如果自變量各自獨立,確定它們相對重要性的傳統估計方法有三類〔1〕:(1)簡單相關系數(ryxi);(2)以斜率為基礎的指標如標準回歸系數(βi)等;(3)各種方差降低指標如半偏相關系數(ry(xt|x1…xj))等。然而上述方法都具有嚴重的模型依賴性,當自變量之間存在相關時,以上方法是不合適的。鑒于此,2000年 Johnson〔2〕提出了一種新的估計自變量相對重要性的方法,即“相對權重(relative weight,εi)”,該方法受到大多數學者的推薦。本文在系統介紹相對權重方法原理的基礎上將其應用于實際資料分析中。
1.相對權重的基本原理
相對權重方法〔2-4〕分別通過原始變量對正交變量、因變量對正交變量建立線性回歸方程,自變量的相對重要性為兩組回歸系數平方的積和。
圖1表示含有三個自變量的相對重要性示意圖,各個自變量和因變量的關系可以用兩個獨立的回歸方程表示。以第一個自變量為例:第一個回歸方程描述原始變量(Xi)和正交變量(Zk)的關系,可表示為:

λik表示Xi關于Zk的回歸系數。第二個回歸方程描述正交變量(Zk)和因變量(Y)之間的關系,可表示為:

βk表示Y關于Zk的回歸系數。因此,X1的相對權重ε1可以表示為:

2.相對權重的數學原理
設因變量(y)為n×1列矩陣,自變量(x)為滿秩的n×p階矩陣,且所有變量均為標準化形式,則原始變量矩陣X的正交轉換可表示為:Z=PQ' (3)

圖1 三個自變量的相對重要性示意圖〔1〕
P為矩陣XX'的特征向量,Q為矩陣X'X的特征向量。矩陣Z為彼此之間不相關但與原始自變量高度相關的正交變量矩陣,y關于矩陣Z的回歸系數β可表示為:

因為正交變量之間是彼此不相關的,所以可以用β2表示正交變量矩陣Z所占因變量y的貢獻比例,可近似地表達原始變量矩陣X中各變量的相對重要性。然而只是近似而已,為了克服該局限,通過原始變量對正交變量建立線性回歸方程,用公式可表示為:


由于這些權重是由原始變量的正交轉換產生的,因此可以更好地解決自變量間多重共線性的問題。除此之外,相對權重的一大特性為各個自變量權重之和等于整個模型的R2,即:

因此,相對權重可以表示為因變量的變異(方差)可被各自變量解釋的比例,其同時考慮了各個自變量的直接效應和與回歸方程中其他變量結合時的效應。
1.資料來源
某醫院為研究某種肝手術病人的預計存活時間(Y)與手術前的血凝素(X1)、預后指數(X2)、酶功能(X3)等指標的關系,調查了54例肝手術病人〔5〕。由于存活時間的分布是偏態的,因此取存活時間的對數作為因變量。各變量間的相關系數估計見表1。

表1 各變量間相關系數矩陣
2.結果分析
下面分別應用傳統的方法和本文提出的相對權重方法估計各指標對存活時間影響的相對重要性,結果見表2。

表2 不同估計方法的各自變量相對重要性估計結果
由表2可知,傳統的估計方法盡管有時能較準確地確立各自量的相對重要性,但是無法精確確定各自變量的相對重要性程度。而相對權重法不僅可以準確估計變量的重要性排序,并且可以對各自變量重要性進行定量估計。該方法估計的各自變量重要性之和等于總模型的R2。因此,各自變量之間的相對重要性可表示為各自變量所能解釋的因變量的貢獻占已知方差的百分比,從而使各自變量相對重要性表達更精確、直觀。由此,可得出:酶功能對肝手術病人預計存活時間的影響最大,其次為預后指數,血凝素最小。
1.相對權重方法中產生的這些權重是由原始變量的正交轉換產生的,并且正交變量彼此是不相關的,因此該方法可以更好地解決存在相關性的自變量相對重要性問題,其得出的各自變量相對重要性結果要比傳統的估計方法更可靠。上述結果表明,相對權重法確立的重要性排序與傳統估計方法得出的結果可能有差異,當傳統估計方法與相對權重法估計的結果不同時,鑒于相對權重法的多種特性,建議采用相對權重法估計的結果。
2.相對權重方法產生的各自變量相對重要性之和等于總模型的決定系數,其同時考慮了各個自變量的直接效應和與其他變量結合時的效應,因此各自變量的相對重要性可被表達為各自變量所能解釋的因變量貢獻所占已知方差的百分比,從而使各自變量的重要性表達更精確、直觀。
3.相對權重計算方便快捷。盡管運用相同的數據時,相對權重法和優勢分析法的估計結果是十分接近的〔1,6〕,但相對權重與優勢分析相比較計算量少,計算更快捷,并且相對權重為自變量個數大于15時自變量相對重要性估計的最佳選擇方法。但相對權重在正交化過程中不穩定,這需要我們進一步研究。
1.Johnson JW,Lebreton JM .History and use of relative importance indices in orga-nizational research .Organizational ResearchMethods,2004,7(3):238-257.
2.Johnson JW.A heuristic method for estimating the relative weight of predictor variables in multiple regression.Multivariate Behavioral Research,2000,35(5):1-19.
3.Johnson JW.Determining the statistical significance of relative weights.PsychologicalMethods,2009,4(1):387-399.
4.James M.Multivariate relative importance:extending relative weight analysis to multivariate criterion spaces.Journal of Applied,2008,93(2):329-345.
5.John NT,Michael H.Applied linear statistical model.3nd ed.Illinson:Homewood,2005.
6.Chao YCE,Zhao Y,Kupper LL.Quantifying the relative importance of predictors in multiple linear regression analyses for public health studies.Journal of Occupational and Environmental Hygiene,2008,5(8):519-529.
7.李宏田.多元線性回歸系數的圖形解析.中國衛生統計,2011,28(1):91-93.