張敏強(qiáng),王宣承
(1.華南師范大學(xué) 心理應(yīng)用研究中心,廣州 510631;2.上海財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與管理學(xué)院,上海 200433)
在現(xiàn)有的心理統(tǒng)計(jì)模型中,最小二乘回歸(Ordinary Least-Square Regression,簡稱OLSR)模型是一種最常用的統(tǒng)計(jì)分析技術(shù),它主要用于研究一個(gè)因變量與多個(gè)自變量之間的相關(guān)關(guān)系。例如某產(chǎn)品的銷售量與價(jià)格,考生的學(xué)業(yè)成績與地域、性別和智商之間的關(guān)系等等。最小二乘回歸模型利用觀測(cè)數(shù)據(jù)來擬合因變量與各個(gè)自變量之間的函數(shù)關(guān)系式,分析這些影響變量之間的作用程度,進(jìn)而對(duì)相關(guān)變量進(jìn)行估計(jì)、預(yù)測(cè)和控制。
最小二乘回歸模型具有其顯而易見的優(yōu)點(diǎn),包括:意義直觀,便于理解;計(jì)算簡明,其優(yōu)越性在前計(jì)算機(jī)時(shí)代無可比擬;以條件均值為目標(biāo)函數(shù),具有精密完整的數(shù)學(xué)形式等。
設(shè)多元回歸模型為:

將所有的自變量用矩陣X表示,可以得到:

對(duì)(2)式求解,需要求出使殘差的最小二乘方之和最小化的β估計(jì)值,即需要滿足:

其一階導(dǎo)數(shù)為:

Markov于1900年證明了Gauss-Markov定理:若觀測(cè)樣本滿足最小二乘回歸模型的基本假定,則在所有的無偏估計(jì)量中,最小二乘估計(jì)量是最優(yōu)線性無偏估計(jì)量(Best Linear Unbiased Estimator,簡稱BLUE)。即若滿足回歸模型的假設(shè)條件,可以證明,最小二乘估計(jì)量具有如下性質(zhì):

(3)有效性。在所有線性無偏估計(jì)量中,最小二乘估計(jì)量β^的方差最小。其最小方差為:

盡管最小二乘回歸具有易于理解的優(yōu)點(diǎn)和BLUE等優(yōu)良的統(tǒng)計(jì)特性,但是最小二乘法的假設(shè)比較嚴(yán)格,隨機(jī)誤差項(xiàng)需要滿足零均值、同方差、無自相關(guān)、與自變量之間不相關(guān)、正態(tài)分布等條件,一般條件下這些假設(shè)難以全部滿足。此時(shí)就可能產(chǎn)生異方差、自相關(guān)等問題,從而影響回歸系數(shù)估計(jì)的準(zhǔn)確性和有效性。
由于OLSR的條件假設(shè)比較嚴(yán)格,且只能求出關(guān)于因變量條件分布上平均水平的描述,對(duì)于條件分布上其他水平的細(xì)節(jié)信息無法測(cè)算。Koenker和 Bassett(1978)提出了基于gh分布的分位數(shù)回歸方法(quantile regression,簡稱QR),它對(duì)于殘差的分布沒有特定的要求,因而比OLSR具有更大的適用性;它可以根據(jù)不同的分位點(diǎn)來構(gòu)建回歸方程,從而在不同的因變量條件分布上,提供更加細(xì)致全面的關(guān)于的各局部信息。
設(shè)xi(i=1,2,…n)是一個(gè)K×1階矩陣,則QR方程可以表示為:

或以矩陣形式表示為:



分位數(shù)回歸通過設(shè)定不同的分位點(diǎn),來代表因變量的不同水平,在(1.8)式中用表示。當(dāng)τ=0.5時(shí),由于是在中位數(shù)水平上構(gòu)建回歸方程,此時(shí)的分位數(shù)回歸也叫中位數(shù)回歸(Median Regression,簡稱MR)。
最小二乘回歸模型的一個(gè)重要假設(shè)是進(jìn)入總體回歸方程的隨機(jī)誤差項(xiàng)ui同方差,即Var(uj)=E(uj2)=σ2。若方差隨觀測(cè)值不同而發(fā)生變化,即Var(uj)=σj2,這就是異方差情況。圖1描述了回歸模型存在同方差和異方差時(shí)的不同情況。

圖1 同方差和異方差直觀圖
產(chǎn)生異方差的原因很多。如果回歸模型構(gòu)建得不合適,測(cè)量誤差和模型中被忽略的一些因素對(duì)因變量發(fā)生了影響,即潛在的自變量被納入到隨機(jī)誤差項(xiàng)中,導(dǎo)致誤差變異隨著自變量的變化而變化,可能產(chǎn)生異方差;如果來自不同抽樣單元的因變量觀測(cè)值存在較大差異,也可能產(chǎn)生異方差。異方差問題多存在于截面數(shù)據(jù)中而非時(shí)間序列數(shù)據(jù)中,如在社會(huì)調(diào)查中研究者經(jīng)常采用大規(guī)模問卷施測(cè)的方式收集數(shù)據(jù),被試的單位可能具有不同的規(guī)模,如大公司、中等公司和小公司,由規(guī)模效應(yīng)導(dǎo)致方差隨著自變量變化而波動(dòng)。因此異方差在心理研究中應(yīng)具有重要的研究和使用價(jià)值。
異方差的存在對(duì)OLSR模型的影響表現(xiàn)在:
(1)最小二乘估計(jì)量仍然是線性無偏的,但不再具有有效性(最小方差性)。
當(dāng)異方差發(fā)生時(shí),式(5)依然成立,但是公式(6)需調(diào)整為:

其中

這里Ω是一個(gè)正定矩陣且Ω≠I。

(3)建立在t分布和F分布上的置信區(qū)間和假設(shè)檢驗(yàn)是不可靠的,如果沿用OLSR的檢驗(yàn)方法,很可能導(dǎo)致錯(cuò)誤的結(jié)論。
由此可見,當(dāng)隨機(jī)誤差分布出現(xiàn)異方差情況時(shí),OLSR不再是最優(yōu)線性無偏估計(jì)量,而且會(huì)產(chǎn)生誤差方差和參數(shù)檢驗(yàn)的有偏估計(jì),對(duì)于研究者來說統(tǒng)計(jì)方法上這樣的偏差是無疑致命的,它將直接影響到結(jié)論的穩(wěn)定性和可靠性。此時(shí)的樣本觀測(cè)值并未在因變量條件分布的平均水平周圍呈現(xiàn)規(guī)則的分布,而是離散于條件分布的各水平中。若使用QR模型,就有可能將各水平上的回歸效應(yīng)分離出來,克服OLSR的缺陷。以下將用模擬數(shù)據(jù)和實(shí)測(cè)數(shù)據(jù)加以驗(yàn)證。
模擬生成一批數(shù)據(jù)集,包含自變量X,因變量Y和殘差項(xiàng)e,共有500個(gè)觀測(cè)樣本。其中自變量從0到5均勻分布的區(qū)間內(nèi)抽取,殘差項(xiàng)e=z*(X+1),z~N(0,1)。即殘差項(xiàng)與自變量存在著同向相關(guān)關(guān)系。因變量Y的值可通過關(guān)系式Y(jié)=3X+e求出。

圖2 異方差X-散點(diǎn)圖

表1 異方差條件下QR和OLSR的系數(shù)比較
對(duì)這批異方差數(shù)據(jù)同時(shí)進(jìn)行OLSR與QR對(duì)比分析,其結(jié)果如表1。
利用OLSR估計(jì)出來的結(jié)果是:

其中,回歸系數(shù)β1差異顯著(p<0.01),R2=0.61。
在QR模型中,我們?nèi)匀贿x取5個(gè)分位點(diǎn):0.1、0.25、0.5、0.75、0.9,從而可以得到一組方程:

對(duì)比OLSR和MR,二者的回歸系數(shù)估計(jì)值幾乎相等,兩條回歸線在圖3中已經(jīng)重疊在一起。異方差對(duì)于OLSR的影響在于其參數(shù)估計(jì)的有效性,并不影響參數(shù)估計(jì)的線性無偏性,當(dāng)模擬條件控制較好時(shí),OLSR的參數(shù)估計(jì)仍然是準(zhǔn)確的,它和MR都代表了條件分布的中等水平,只是一個(gè)是以均值的角度來度量、而另一個(gè)是以中位數(shù)來度量。
對(duì)比不同分位點(diǎn)上的QR方程,由表1所示:自變量X的回歸系數(shù)隨著的增大而依次遞增,變化的范圍從1.88到4.22,全距為2.34。在0.1的分位數(shù)水平上,每增加1個(gè)單位的X,Y增加1.88個(gè)單位;而在0.9的高分位數(shù)水平上,每增加一個(gè)單位X,就可以增加4.22個(gè)單位的Y。說明自變量X對(duì)于因變量Y的解釋作用隨著因變量水平的增加逐漸增強(qiáng),在圖3中表現(xiàn)為5條QR曲線的傾斜越來越陡。
對(duì)比QR和OLSR隨著分位點(diǎn)變動(dòng)的情況,OLSR的回歸系數(shù)及其置信區(qū)間依舊在各個(gè)分位點(diǎn)上保持恒定,但是QR的回歸系數(shù)隨著的增加而依次遞增。在低分位點(diǎn)處,即在因變量Y的低水平上,QR的回歸系數(shù)普遍小于OLSR的;在高分位點(diǎn)處,即在因變量Y的高水平上,QR的回歸系數(shù)普遍大于OLSR的。而且在高低分位點(diǎn)處,QR的回歸系數(shù)估計(jì)值都在OLSR回歸系數(shù)的置信區(qū)間以外,說明此時(shí)兩種方法求出的回歸系數(shù)具有顯著差異。

圖3 異方差下的OLSR曲線和QR曲線

圖4 異方差時(shí)在各分位點(diǎn)的變化
關(guān)于社會(huì)支持對(duì)于心理健康的影響,許多心理學(xué)研究者如梁鐵成(2007),錢勝等(2008)在不同地區(qū)、不同職業(yè)群體中都對(duì)該問題進(jìn)行了研究,大多數(shù)研究表明社會(huì)支持可以促進(jìn)心理健康。其中社會(huì)支持變量以社會(huì)支持評(píng)定量表(SSAS)的總分為指標(biāo),SSAS分?jǐn)?shù)越高則被試受到的社會(huì)支持越多;心理健康變量以癥狀自評(píng)量表(SCL90)總分為指標(biāo),SCL90分?jǐn)?shù)越高則其心理健康水平越低。
首先,對(duì)模型進(jìn)行異方差的檢驗(yàn),檢驗(yàn)方法除了觀察散點(diǎn)圖外,還可以使用一些統(tǒng)計(jì)量,如Park檢驗(yàn)和Glejser檢驗(yàn)。如果模型存在異方差,則異方差可能與一個(gè)或多個(gè)自變量系統(tǒng)相關(guān)。要確認(rèn)這一點(diǎn),可以做(或|ui|)對(duì)自變量X(或自變量的線性組合的回歸。由于隨機(jī)誤差項(xiàng)ui難以觀察,在實(shí)踐中可以用ei代替ui。
如:

其中(3)式為Park檢驗(yàn),(14)~(16)式為Glejser檢驗(yàn)。在本例中以上各式的參數(shù)估計(jì)結(jié)果如表2。
所有模型中α2系數(shù)都是統(tǒng)計(jì)顯著的(P<0.05),因此,存在異方差的情況,本例有使用QR模型分析之必要。分別使用傳統(tǒng)的最小二乘回歸分析和分位數(shù)回歸方法分別對(duì)這批數(shù)據(jù)進(jìn)行建模分析。在QR模型中,選取0.25、0.50和0.75三個(gè)分位點(diǎn),代表因變量(SCL90總分)由低到高的3個(gè)水平。計(jì)算結(jié)果如圖5所示。

表2 案例的異方差檢驗(yàn)結(jié)果

圖5 SCL90對(duì)SSAS的回歸圖
圖5中的黑色實(shí)線是OLSR模型計(jì)算出來的回歸線,回歸線向下傾斜,說明自變量X(SSAS總分)的邊際效果是負(fù)向的。SSAS總分越高,SCL90分?jǐn)?shù)越低。社會(huì)支持對(duì)心理健康有正向的預(yù)測(cè)作用,與之前的研究結(jié)論一致。最小二乘回歸方程為:

圖5中的3條虛線由下到上依次對(duì)應(yīng)著0.25、0.50和0.75共三個(gè)分位點(diǎn)上的QR回歸線,它們對(duì)應(yīng)的回歸方程分別是:


表3 各百分位點(diǎn)上回歸方程的參數(shù)估計(jì)結(jié)果
與OLSR的結(jié)果一致的是:3個(gè)QR模型的回歸系數(shù)估計(jì)值都是負(fù)的,即證實(shí)了社會(huì)支持確實(shí)對(duì)心理健康具有正向的預(yù)測(cè)作用。而與OLSR不同的是,QR模型揭示了因變量不同水平上,回歸系數(shù)的大小并不恒定,而是變化的。見表3。
隨著分位點(diǎn)τ逐漸增大,自變量的回歸系數(shù)越來越小(絕對(duì)值越來越大)。25%的回歸線可用來代表SCL90總分處于較低水平的一類被試群體(心理健康狀況較好的被試),則在這一層的被試群體中,社會(huì)支持每增加1個(gè)單位,SCL90總分將恰好減少1個(gè)單位。即社會(huì)支持能促進(jìn)心理健康,邊際效果為1.00。
相對(duì)應(yīng)的,75%的回歸線則可以代表SCL90總分處于較高水平的一類被試群體(心理健康水平較差、可能存在心理問題或心理障礙的被試),在這一層的被試群體中,社會(huì)支持每增加1個(gè)單位,SCL90總分將減少3.41個(gè)單位。即社會(huì)支持能更好的促進(jìn)心理健康,邊際效果為3.41。同理可知,SCL90總分處于中等水平的被試群體,社會(huì)支持對(duì)心理健康的邊際效果為1.89。
綜上所述,社會(huì)支持確實(shí)會(huì)促進(jìn)心理健康,但是社會(huì)支持的影響力是受被試當(dāng)前的心理健康狀態(tài)影響的。對(duì)于心理健康水平較差的人,社會(huì)支持的效果更明顯;對(duì)于心理健康水平較好的被試,或許由于自身已具有較強(qiáng)的自我調(diào)節(jié)能力,外界的社會(huì)支持因素所起的作用相對(duì)較小。
以條件均值為目標(biāo)函數(shù)的最小二乘回歸模型具有意義直觀、計(jì)算簡明等優(yōu)點(diǎn),且根據(jù)Gauss-Markov定理證明,其參數(shù)估計(jì)值為最優(yōu)線性無偏估計(jì)值。但是最小二乘回歸模型需要滿足嚴(yán)格的假設(shè)要求,其中包括同方差假設(shè)。
當(dāng)同方差假設(shè)無法滿足時(shí),尤其是當(dāng)誤差方差呈現(xiàn)有規(guī)律的遞增或遞減時(shí),最小二乘回歸參數(shù)估計(jì)的有效性將無法保證,進(jìn)而可能導(dǎo)致誤差方差的有偏估計(jì)和F檢驗(yàn)、T檢驗(yàn)的失效。此時(shí)分位數(shù)回歸具有明顯的優(yōu)勢(shì)。
在異方差條件下,回歸系數(shù)的估計(jì)值會(huì)隨著分位點(diǎn)的不同而發(fā)生變化,而分位數(shù)回歸可以將這些層次間的差異分離出來,在不同的因變量水平上分析自變量對(duì)因變量的影響,從而全面、動(dòng)態(tài)地刻畫出變量間局部 “特殊”的回歸關(guān)系。而最小二乘估計(jì)則將這些差異相互抵消了,以一條“平均的”回歸線概括了總體信息,同時(shí)也掩蓋了各個(gè)局部的信息。
分位數(shù)回歸和最小二乘回歸實(shí)際上是一種互為補(bǔ)充的關(guān)系。分位數(shù)回歸既不是要替代傳統(tǒng)的最小二乘回歸,也并未與其存在矛盾。若觀測(cè)數(shù)據(jù)滿足同方差假設(shè)時(shí),最小二乘回歸可提供最優(yōu)無偏估計(jì)值;若觀測(cè)數(shù)據(jù)出現(xiàn)異方差情況,則恰好可以發(fā)揮分位數(shù)回歸的強(qiáng)大分析能力,挖掘出不同分位點(diǎn)上,尤其是因變量的高低水平上不同的回歸關(guān)系。兩個(gè)回歸模型并無優(yōu)劣之分,只有結(jié)合研究背景和數(shù)據(jù)分布情況,合理選擇方法,才能最大限度地發(fā)揮統(tǒng)計(jì)方法的優(yōu)越性,提高研究的效率和精度。
[1]Koenker R,Bassett G.Regression Quantilez[J].Econometrica,1978,(46).
[2]Koenker R,Bassett G.Robust Tests for Heteroscedasticity Based on Regression Quantiles[J].Econometrica,1982,(50).
[3]Gujarati D.N,張濤.計(jì)量經(jīng)濟(jì)學(xué)精要[M].北京:機(jī)械工業(yè)出版社,2000.
[4]焦璨,王宣承,張敏強(qiáng)等.分位數(shù)回歸:心理統(tǒng)計(jì)方法的重要補(bǔ)充[J].中國考試,2009,(1).
[5]梁鐵成.警察心理健康狀況之調(diào)查[J].中國健康心理學(xué)雜志,2007,15 (11).
[6]錢勝,王文霞,王瑤.232名河南省農(nóng)民工心理健康狀況及影響因素[J].中國健康心理學(xué)雜志,2008,(04).
[7]張敏強(qiáng).教育與心理統(tǒng)計(jì)學(xué)[M].北京:人民教育出版社,2002.