李金德
(廣西大學行健文理學院,南寧530005)
元分析(Meta -analysis)是定量綜述的有效方法,其核心是效應量(Effect Size)的合并。效應量的指標很多:計量資料包括相關系數ρ、均數差(mean difference)、加權均數差(weight mean difference)和標準化均數差(standardized mean differences)等;計數資料包括如率(odds)、比值比(odds ratios)、相對危險度(relative risk)、危險度比(risk ratio)、危險度差(risk difference)和比率差(rate difference)等。近年來中國心理和教育學界的元分析逐漸增多,但絕大部分集中在對差異的效應量分析上,而對相關的效應量做分析的只有極少數。這部分受醫學領域元分析的影響,但最重要的是受限于目前的技術,因為國內極少有文獻對r 的合并和分析做系統性的介紹,同時目前流行的元分析統計軟件例如MA,Rev-Man 等沒有分析r 的功能,而Ralf Schwarzer 編寫的軟件meta-analysis5.3 盡管可以進行效應量r 的元分析,但因其操作界面是DOS 系統,使用起來很不方便。本文擬就效應量r 的合并與分析做相應介紹以填補國內該領域的空缺。
假設(X1,Y1),(X2,Y2),……,(Xn,Yn)隨機抽樣自平均數為(μ1,μ2)、方差為()、相關為ρ的總體,對于大樣本,有以下分布(Hartung,Knapp,& Sinha,2011,pp.11 -12):
其中r 為兩變量樣本的相關系數,ρ 為兩變量總體的相關系數。
其中:


z 是Fisher’s z(Fisher,1925)。若要把Fisher’s z 轉化成r,公式為:

其中,r' 為轉換后的相關系數,z 為Fisher’s z。
2.2.1 基本步驟
兩變量間相關的真值可用ρ 和ζ 表示,但真值ρ和ζ 是未知的,所以一般用樣本r 和z 估計ρ 和ζ,兩者的方差可近似估計為(Rao,1973):

若要對兩者進行顯著性檢驗,即H0:ρ = 0 和H1:ρ ≠0(H0:ζ = 0 和H1:ζ ≠0),一般基于正態分布,兩者的檢驗統計量分別為:

若Zr或Zz超過臨界值Zα/2,則拒絕H0接受H1,即效應量顯著不為0。
元分析一般都會報告置信區間(Confidential Interval),若置信區間包括0,則接受H0拒絕H1,公式如下:


表1 單個相關系數的顯著性檢驗及其置信區間的計算
2.2.2 舉例計算
表1 原始數據來自Hedges 等人的研究(Hedges et al.,1985,p.25),第2 列是樣本,第3 列是效應量r,第4 列是對效應量的檢驗,據公式(6)可得;第5列是r 的置信區間,可用公式(8)完成;第6 列是通過公式(1)轉換的Fisher’s z;通過公式(7)可以對其顯著性進行檢驗,即第7 列數據;通過公式(9)可得到第8 列的Fisher’s z 的95% 置信區間;第9 列是通過公式(3)轉化而得的r;而第10 列的置信區間也可通過公式(3)通過轉化而得。以研究1 為例:
(1)采用直接方式
其95% 的置信區間下限(LB)和上限(UB)分別為:
LB = -0.073 -1.96 ×0.266 = -0.594
UB = -0.073 +1.96 ×0.266 = 0.488
(2)采用Fisher 轉化
其95% 的置信區間下限(LB)和上限(UB)分別為:
LB = -0.073 -1.96 ×0.266 = -0.594
UB = -0.073 +1.96 ×0.266 = 0.488
3.1.1 基本假設和步驟
該模型中效應量r 的合并遵循效應量的一般性合 并 過 程(Hartung,Knapp,& Sinha,2011,pp.35 -37;Cooper,Hedges,& Valentine,2009,pp.261 - 262)。假設所有的效應量都是來自同一總體:


其中,wi為第i 個研究的權重,Ti為第i 個研究的效應量。
方差體現出測量指標的準確性與否,因此用各個研究的方差倒數表示權重:


其方差為:


可以估計效應量真值置信區間為:

把上面公式的θ 換成ρ 或ζ,Ti換成r 或Fisher’s z,該過程便成了對效應量r 或Fisher’s z 的合并。
3.1.2 直接合并法
基本步驟如下(Cooper,Hedges,& Valentine,2009,p.265)(結果見表2):

第三步:根據公式(14)對ρ~進行檢驗:

第四步:根據公式(15)計算95% 置信區間:

表2 相關系數合并的基本過程
3.1.3 Fisher 轉化法
Fisher 轉化法和直接合并法過程基本一致(Cooper,Hedges,& Valentine,2009,pp.264 -265)。

第三步:根據公式(14)對ζ~進行檢驗:

第四步:根據公式(15)計算95% 置信區間:
有研究者習慣把Fisher’s z 轉化為r,可通過公式(3)完成,經轉化r' = 0.297,其95% 的置信區間為[0.093,0.477]。
3.2.1 基本假設
固定效應模型假設納入研究的效應量是同質的,即θ1= θ2= …… = θk= θ。但隨機效應模型假設θ1≠θ2≠……≠θk≠θ,即θi是異質的,是隨機的,且有其自身的分布。因此效應量的觀察方差(observed variance)有兩部分,一是隨機效應方差(random effect variance),一是抽樣誤差(sampling error)(Cooper,Hedges,& Valentine,2009,p.270):

若σ2= 0,意味著總效應量的總變異都是來自于抽樣誤差,研究間不存在差異,這便是固定效應模型;但在隨機效應模型中,σ2≠0,研究間異質,合并是不合適的,但一般做法還是會合并,然后對影響其變異的因素加以分析。在隨機效應模型中,效應的合并也遵循公式(10)到(15)的步驟,不同的是計算合并量方差的方式。
3.2.2 合并方法一
據上文所述,效應量總變異包括隨機效應方差和抽樣誤差方差:



通過公式(17)可推出隨機效應方差為:

(1)直接合并。以表2 為例,根據公式(18)和(19)得:

(2)Fisher 合并。根據公式(18)和(19)得:

3.2.3 合并方法二
直接從原始效應量出發推算出隨機效應方差σ2(Cooper,Hedges,& Valentine,2009,pp.270 -271):

公式(21)可以轉化為:

因此s2(ri)的期望值可以表示為:

總方差或觀察方差可由公式(21)直接算出來,它是E[s2(ri)]的無偏估計;要計算σ2(ri| ρi),可采用公式(4)和公式(5)得到近似估計;因此隨機效應方差就可以近似估計為:

采用該公式計算隨機效應方差也可能得到負數, 這 種 情 況 也 設 定 為 0(Cooper,Hedges,&Valentine,2009,p.270)。
(1)直接合并。以表2 的數據為例,根據公式(21)和(22)得:

(2)Fisher 合并。根據公式(21)和(22)得:

異質性分析是合并效應量前的必要工作,若各個研究的效應量同質,則采用固定效應合并效應量,若異質則采用隨機效應模型來合并效應量。常用方法如下:
Q 檢驗法的假設檢驗如下:

統計量為:

其中,wi為第i 篇文獻的權重,ri為第i 個研究的效應量為平均效應量,Q 服從df = k -1 的χ2分布,k 為文獻數量(王沛,馮麗娟,2005)。當Q >時,拒絕H0,接受H1,表明研究間的效應量異質,反之則同質。以表2 數據為例,直接法和Fisher 轉化法的Q 值分別為:

Q 受樣本影響較大,檢驗效能較低,為此研究者提出I2(Higgins & Thompson,2002):

Q 即公式(25)計算的統計量,df 是自由度。當I2超過25%、50%、75% 時,分別提示有低、中和高度異質性,大于50% 時存在實質性的異質性。
以表2 數據為例,直接法和Fisher 轉化法的I2值分別為:

第一個值為負數,設定為0,說明同質,第二個值說明研究間有低度的異質性。
有研究者認為效應量的觀察方差等于抽樣誤差方差和殘差方差相加(Hunter,Schmidt,& Jachson,1982,pp.35 -92):

發表偏倚是指陽性比陰性結果的研究更容易發表,由此造成的誤差。常用方法有失安全系數和漏斗圖。
失安全系數指當元分析的合并效應量有統計學意義時,需要多少未發表的文獻才能使結論逆轉(從顯著到不顯著)(Rosenthal,1984,p.89)。在p 為0.05或0.01 水平上估計失安全系數,公式分別為:

其中Zi為第i 個效應量對應的Z 值,k 為文獻的個數。
失安全系數越大效應值越穩定,失安全系數小于10 說明可能存在發表偏倚。
以表2 數據為例,對于直接合并法:

說明需要24 或10 篇陰性文獻可以使效應量在0.05 或0.01 水平上不再顯著。
對于Fisher 轉化法:

說明需要14 或5 篇陰性文獻可以使效應量在0.05 或0.01 水平上不再顯著。
失安全系數的優點是量化簡潔,但有時值很大,還可能是負數,不好理解,因此有些研究以漏斗圖的方式表達發表偏倚。其基本思想是每個納入研究的效應值的精度應隨樣本含量的增加而增加。以效應大小為橫坐標,以標準誤(或標準誤倒數)為縱坐標作圖,若沒有發表偏倚,應呈一個倒置的漏斗形,漏斗以真值為準左右對稱;圖形不對稱有偏向,表示存在偏倚。漏斗圖的優點是形象直觀,但若一篇綜述需要同時研究多個、甚至幾十個效應量時,同時呈現幾十個漏斗圖則不夠現實。這里采用Excel 完成漏斗圖的制作(圖1 和圖2),但因數據較少,不好對該漏斗圖做判斷。

圖1 效應量r 的漏斗圖

圖2 效應量的漏斗圖
研究間異質時,需要進行異質性分析。若需要分析的變量只有一個或很少,可對數據進行亞組分析,即按照變量把原始數據分層重新進行元分析;需要分析的變量很多時,則可以做一般性相關分析和回歸分析。這里介紹兩種比較特殊的分析方式。
在對年代效應分析上可采用橫斷歷史元分析(Cross - temporal Metal - analysis),即“橫斷歷史研究”(辛自強,池麗萍,2008)。橫斷歷史分析首先出現在Twenge 的系列研究中(Twenge,2001a;Twenge & Im,2007;Twenge,2000;Twenge et al.,2010;Twenge & Campbell,2001),該方法目標是分解出年代對效應量間變異的解釋能力,做法很簡單,即把出版的文章年代系統性的減去2 年然后與效應量做相關。例如年代和某一效應量的相關系數r =0.8,則年代可以解釋該效應量變異的64% 的變異(r2= 0.82= 0.64)。
但年代對心理變量的解釋有時候會讓人困惑,即僅僅是因為年代的變化人的心理量就變化?還是因為年代變化背后蘊含著其他的社會因素的變化,是這些因素造成了心理量的變化?顯然,后者更能明確的指出心理變量變化的真實原因。基于此,橫斷歷史研究發展出了一種特殊的分析技術,即“滯后分析”,即做心理量與5 年前(或10 年)和5 年后(或10年)的社會性指標的相關,分析社會因素和心理量間的相互作用(Twenge,2001b;辛自強,張梅,2009)。若是社會環境改變了心理量,那么當年的心理量應該與5 年或10 年前的社會指標顯著相關;若是心理量影響了社會文化環境,心理量應該與5 年或10 年后的社會指標顯著相關。可見滯后分析實際上連接了個體層面的心理變量和整體層面的變量,并試圖解釋兩者的關系。但這種做法可能存在不足,心理變量屬于個體層面的變量,而年代的特征屬于更高一層的變量,各個研究可以看做鑲嵌于年代中的個案,因為各個年代的特征變量是不一樣的,若簡單的把效應量和年代中的特征變量做相關或者一般線性回歸,在方法論上是不恰當的,更合適的做法是采用多層線性模型分析(張雷,雷靂,郭伯良,2003)。
元分析的多層線性模型法在理論上是解決多效果量非獨立性問題最為有效的一種方法,應用該方法可以得到更精確的平均效果量的估計值,還能進行更有效的假設檢驗。
利用多層線性模型的思維,參與元分析的各個研究結果數據可以被看做是一個多層結果的數據,各個研究中的不同結果可以看做是第一層的單位,各個研究可被看做是第二層的單位(第二層的每個單位只有一個個案),通過建立一個多層模型來探討第二層(各個研究)的特征對研究結果的影響,使用多層分析技術,把各個研究的特征作為第二層的自變量加入到模型的方程中,從而探討這些特征對因變量即各研究結果變異的影響。
若不考慮各研究特征對研究結果的影響,則基本的分析模型可以表示為(張雷,雷靂,郭伯良,2003,pp.160 -1163):

其中,ri是第i 個研究的效應量,ρi是第i 個研究結果相應的總體參數值,ei是第i 個研究的抽樣誤差,假定ei服從方差為σ2的正態分布。若是固定效應模型,則各個研究間的ρ 是相等的。若假設各個研究的ρ 在各個研究之間是隨機變異的,并且是各個研究特征的函數,可建立方程:

其中,X 為各個研究的特征值(第二水平的解釋變量);p 為第二層預測變量的個數;μi為第二層的殘差項,假定μi服從方差為τ00的正態分布。合并上述兩個方程:

若方程中沒有第二層的解釋變量,則方程還原為基本的截距模型:

此時β0就是所有研究結果的平均值,μi的方差τ00是各研究結果分布的方差,表明各研究結果的離散程度。這樣,對不同研究結果同質性的檢驗就等同于對殘差項μi的方差τ00是否等于0 的檢驗,若顯著不為0 說明各研究結果間異質。這時就可以進一步把第二層的變量(即各個研究的特征值)擬合到方程中探索它們對第一層變異的解釋程度。具體操作請參考張雷等《多層線性模型應用》一書(pp.166 -175)(張雷,雷靂,郭伯良,2003)。
很多讀者關心如何完成這一系列過程,Ralf Schwarzer 編寫的軟件meta - analysis5.3 采用的是隨機效應模式合并相關系數r,它提供的主要指標有未加權合并系數、加權合并系數、方差、置信區間、Q 檢驗等。其實有了公式后效應量的合并、效應量的方差、置信區間、顯著性檢驗、異質性檢驗和發表偏倚都可以通過EXCEL 完成,而若要分析影響效應量變異的因素則可以采用多層線性模型HLM 輕松完成。
王沛,馮麗娟.(2005). 元分析方法評介.西北師大學報(社會科學版),42(5),65 -69.
辛自強,池麗萍.(2008).橫斷歷史研究:以元分析考察社會變遷中的心理發展.華東師范大學學報(教育科學版),26(2),44 -51.
辛自強,張梅.(2009).1992 年以來中學生心理健康的變遷:一項橫斷歷史研究.心理學報,41(1),69 -78.
張雷,雷靂,郭伯良.(2003).多層線性模型應用.北京:教育科學出版社.
Cooper,H.,Hedges,L. V.,& Valentine,J. C. (2009). Handbook of research synthesis and meta - analysis. New York:Russell Sage Foundation.
Fisher,R. A. (1925). Statistical methods for research workers.Edinburger:Oliver and Boyd.
Glass,G.V.,Mcgaw,B.,& Smith,M.L.(1981).Meta -analysis in social research.Beverly Hills,CA:Sage Publications.
Hartung,J.,Knapp,G.,& Sinha,B.K.(2011).Statistical meta-analysis with applications.New Jersey:Wiley.
Hedges,L.V.,Olkin,I.,Statistiker,M.,Olkin,I.,& Olkin,I.(1985). Statistical methods for meta -analysis. Boston:Academic Press.
Higgins,J.,& Thompson,S.G.(2002).Quantifying heterogeneity in a meta -analysis.Statistics in Medicine,21(11),1539-1558.
Hunter,E.J.,Schmidt,L.F.,& Jachson,B.G.(1982).Meta -analysis:Cumulating research findings across studies. Beverly Hills,CA:Sage.
Rao,C. R. (1973). Linear statistical inference and its applications.New York:Wiley.
Rosenthal,R. (1984). Meta - analytic procedures for social research.Beverly Hills,CA:Sage.
Twenge,J. M. (2000). The age of anxiety?The birth cohort change in anxiety and neuroticism,1952 -1993. Journal of Personality and Social Psychology,79(6),1007 -1021.
Twenge,J.M.(2001a). Birth cohort changes in extraversion:A cross - temporal meta - analysis,1966 - 1993. Personality and Individual Differences,30(5),735 -748.
Twenge,J. M. (2001b). Changes in women’s assertiveness in response to status and roles:A cross-temporal meta-analysis,1931 -1993. Journal of Personality and Social Psychology,81(1),133 -145.
Twenge,J.M.,& Campbell,W.K.(2001).Age and birth cohort differences in self-esteem:A cross -temporal meta -analysis.Personality and Social Psychology Review,5(4),321 -344.
Twenge,J. M.,Gentile,B.,Dewall,C. N.,Ma,D.,Lacefield,K.,& Schurtz,D. R. (2010). Birth cohort increases in psychopathology among young Americans,1938 -2007:A cross-temporal meta -analysis of the MMPI.Clinical Psychology Review,30(2),145 -154.Twenge,J.M.,& Im,C.(2007).Changes in the need for social approval,1958 -2001. Journal of Research in Personality,41(1),171 -189.