999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

定量數據分析效應值:意義、計算與解釋*

2016-04-07 05:28:12蒲顯偉
心理學探新 2016年1期
關鍵詞:意義

蒲顯偉

(南京理工大學外國語學院,南京 210094)

?

定量數據分析效應值:意義、計算與解釋*

蒲顯偉

(南京理工大學外國語學院,南京 210094)

摘要:由于零假設顯著性檢驗存在的問題,近年來國外許多研究者、期刊編輯和研究學會建議或要求定量研究結果報告效應值作為對顯著性檢驗結果的補充,然而國內心理學、教育學等社會科學領域還很少有學者對效應值進行專門研究。文章將討論顯著性檢驗存在的問題,效應值的定義及其重要性,效應值的分類、效應值的計算方法和效應值的解釋標準。

關鍵詞:效應值;意義;計算;解釋

1引言

近幾十年來,零假設顯著性檢驗(又被稱為零假設檢驗、顯著性檢驗、統計檢驗或統計顯著性檢驗,以下簡稱顯著性檢驗)被廣泛地應用于心理學、教育學等社會科學的定量研究中。然而,顯著性檢驗從出現開始,就有學者指出了其存在的問題。Joseph Berkson于1938年在美國統計學會期刊上發表了一篇文章,對顯著性檢驗的內在邏輯和檢驗效力提出了挑戰(Cohen,1994;Kirk,1996)。近年來,研究者對顯著性檢驗的批評更加猛烈(Cohen,1994;Ferguson,2009;Kirk,1996;Schimidt,1996;Sun et al.,2010)。鑒于此,許多研究者建議在定量研究中報告效應值(effect size)作為對顯著性檢驗結果的補充,因為顯著性檢驗只表明研究的統計顯著性,而效應值代表研究的實際顯著性;同時,國外的一些期刊,也在其編輯方針中明確要求定量研究必須報告效應值;美國心理學會于2010年出版的格式手冊第6版(APA 2010,p.33)也明確要求研究者匯報定量研究結果的效應值。受這些建議和要求的影響,國外社會科學領域的一些學者開始在其發表的文章中報告效應值,國內一些心理學期刊,如《心理學探新》,也于2014年開始對效應值的報告作出了明確要求。然而,國內社會科學領域僅有幾位學者對效應值的意義和計算方法進行了簡單介紹(胡竹菁,2010;胡竹菁,戴海琦,2011;盧謝峰,唐源鴻,曾凡梅,2011;蒲顯偉,2014;權朝魯,2003,等)。因此,本文將對顯著性檢驗存在的問題,效應值的重要性,效應值的分類、效應值的計算方法和效應值的解釋標準作一介紹和討論。

2顯著性檢驗存在的問題

顯著性檢驗是用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質差別造成的推斷統計方法。具體作法是:根據問題的需要對所研究的總體作某種假設,稱為零假設,如控制組和接受某種實驗處理的試驗組沒有顯著性差異;然后選取合適的統計量,然后根據實測的樣本,計算出統計量的值,并根據預先設定的顯著性水平進行檢驗,做出拒絕或接受零假設的判斷。通常的判斷規則是:當被檢驗的統計量隨機發生的概率等于或小于0.05或0.001時,拒絕零假設;反之就接受零假設。

國外的研究者對顯著性檢驗的批評主要有以下幾點。第一、顯著性檢驗的結果與我們所想要知道的研究結果背道而馳(Cohen,1994;Kirk,1996;Larson-Hall,2010)。研究者真正想要知道的是P(H0|D),即在給定樣本的情況下零假設成立的概率。而顯著性檢驗告訴研究者的是P(D|H0),即在零假設成立的情況下樣本發生的概率。第二、顯著性檢驗受樣本容量的影響較大(Ellis,2010;Ferguson,2009;Grissom & Kim,2005)。第三、以點為界的二分決策容易讓研究者產生誤解(Cohen,1994;Kirk,1996;Rosnow & Rosenthal,2003)。統計結果判斷的臨界點(p=0.05或0.001)是人為設定的,但許多研究者把這一臨界點當著判斷是非的客觀標準,甚至把臨界點神圣化了。第四、研究者對顯著性檢驗還有其他方面的錯誤理解。其中最為普遍的是把統計顯著性與實際顯著性等同,以及把顯著性水平當著是能夠成功復制該研究的概率(Cohen,1994;Ferguson,2009;Kirk,1996;Larson-Hall,2010;Volker,2006)。然而,顯著性水平只表示在零假設成立的情況下樣本發生的概率,效應值才能表明研究結果的實際重要性,檢驗功效才表示成功復制的概率。

3效應值的重要性

由于顯著性檢驗存在的問題以及人們對顯著性檢驗結果的錯誤理解和運用,國外好幾位學者(如Schmidt,1996)建議禁止使用顯著性檢驗,他們認為顯著性檢驗不僅沒有促進,反而嚴重阻礙了心理科學的發展。然而更多的研究者認為,雖然顯著性檢驗有其內在的缺陷,但大多數問題是由于研究者對其錯誤的理解和運用而產生的。顯著性檢驗并非完全無用,至少它能證明某一個試驗結果是否是由于抽樣誤差而產生的。因此,這些研究者建議在定量研究結果中增加效應值的報告作為對顯著性檢驗結果的補充(Kirk,1996;Vacha-Haase & Thompson,2004;Volker,2006)。

效應值(又被譯為效應量、效果量、效應大小或效應幅度)是指用來量化樣本結果與零假設預期偏離程度的統計量(Alhija & Levy,2009;Cohen,1988,1994;Sun et al.,2010),是獨立于測量尺度的統計量,能非常直觀地表明組間差異的大小或變量之間關系的強弱,代表的是研究結果的實際顯著性,即研究結果在實際生活中的有效性(Ellis,2010)。

效應值的報告不僅是許多研究者的建議,而且是一些學會和期刊編輯方針的要求。早在1994年,美國心理學會出版手冊第4版就“鼓勵”研究者提供效應值的信息。隨著關于顯著性檢驗的爭論日趨激烈,美國心理學會又成立了一個推斷統計小組(TFSI:the Task Force on Statistical Inference)以研究和解決包括顯著性檢驗在內的關于統計應用的一些有爭議的問題(Wilkinson & TFSI,1999)。該小組由各方面的專家組成,包括統計學家、統計學教師、期刊編輯、統計書籍作者、計算機專家和其他特邀的資深專家學者。專門小組的研究結果于1999年在American Psychologist期刊上發表,同時小組建議對出版手冊第4版關于統計的章節進行修改。2001年出版手冊第5版進一步“建議”研究者在報告顯著性檢驗結果的同時報告效應值。而到了2010年,出版手冊第6版則“要求”研究者報告效應值(APA 2010,p.33)。2006年美國教育研究學會(the American Educational Research Association)也發表文章,要求其旗下期刊所刊登的文章必須報告效應值(AREA,2006)。到目前為止,國外社會科學領域共有不同學會的近30種期刊對效應值的報告做出了要求(Sun et al.,2010)。

除了專家學者的建議和要求,效應值在實際運用方面也具有極為重要的作用(Ellis,2010;Grissom & Kim,2005;Larson-Hall,2010;Volker,2006)。首先、效應值能直觀地表明組間差異的大小或變量之間關系的強弱,它代表的是研究結果的實際顯著性。第二、效應值可以幫助研究者在實驗前估計出要使得研究具有統計上的顯著性所需要的樣本容量。第三、效應值也是功效分析不可或缺的參數。此外、效應值也是元分析者不可或缺的參數。效應值的報告不僅能節省元分析者處理數據的時間,而且能提高元分析的準確性。

4效應值的分類

5效應值的計算

5.1參數檢驗效應值

表1是常用的參數檢驗效應值的計算方法(Ellis 2010;Ferguson,2009;Field,2005;Grissom & Kim,2005;Larson-Hall,2010;Levine & Hullett,2002;Volker,2006)。參數檢驗是在總體分布已知的情況下,對總體分布的參數如均值、方差等進行推斷的方法。參數檢驗的數據必須滿足一定的前提條件,如數據呈正態分布、方差齊性、樣本獨立等(Field,2005;Leech & Onwuegbuzie,2002)。

在t檢驗中,最為常用的效應值是Cohen’sd,計算方法如表1中公式(1),即用兩組均值差除以兩組的平均方差(SDpooled)。其實在Cohen(1988)最初提出的公式中,分母是用總體的方差(σ)而非樣本的方差(s),然而總體的方差難以知曉,因此在實際研究中,一般用樣本方差來代替總體方差。當兩個組樣本容量和方差相似時,可用公式(1)來計算效應值。當兩組樣本容量相似但方差有較大差異時,用公式(2),即分母為控制組的方差,因為該組沒有接受實驗處理,因此其方差更接近總體方差,此效應值被稱為Glass’s △。當兩組樣本容量差異較大時,使用公式(3)來計算效應值,其中分母也是兩個組的平均方差。但與公式(1)所不同的是,公式(3)中平均方差是通過對各組的樣本方差按樣本容量進行加權處理(Ellis,2010,p.10)。

表1 常用參數檢驗的效應值計算方法

相關分析是研究兩個變量之間的相關程度以及相關方向,相關系數為Pearson’sr,也即是分析結果的效應值。統計軟件SPSS可以直接輸出r值。此外為了便于理解也可以用r2作為效應值。例如,考試焦慮和考試成績之間的相關系數r為-0.32,那么r2=0.10,該值表示考試焦慮能解釋考試成績10%的變異。平方類的效應值雖然更好理解,但丟失了相關方向(正相關還是負相關)的信息。

回歸分析研究一個或多個自變量(其中至少一個是分類變量)與一個因變量之間的關系,尤其是其中一個自變量發生變化對因變量產生的影響。回歸分析結果的效應值通常用R2或△R2(adjustedR2)來表示,其含義與r2相同。△R2是對R2所做的校正。統計軟件SPSS可以直接輸出R2和△R2值。

5.2非參數檢驗效應值

表2是常用的非參數檢驗效應值的計算方法(Ellis,2010;Field,2005;Volker,2006)。非參數檢驗是在總體分布未知或知道甚少的情況下,利用樣本數據對總體分布形態等進行推斷的方法。非參數檢驗方法在推斷過程中不涉及有關總體分布的參數,因而被稱為“非參數”檢驗。如前所述,參數檢驗的一個重要前提條件是數據呈正態分布,雖然參數檢驗也能容忍數據在一定程度上偏離正態分布,但如果偏離過多,使用參數檢驗會影響研究結果的準確性。因此,在這種情況下,非參數檢驗比參數檢驗更有效力,因為非參數檢驗對于數據分布和樣本大小等沒有嚴格的要求。

在相關分析中,Spearman相關系數(ρorrs)和Kendall tau(τ)相關系數是Pearson相關系數的非參數形式,也是非參數相關分析的效應值。由于數據偏離正態分布,非參數相關分析首先要把原始數據轉換為秩(rank)進行檢驗。當樣本容量較小而且轉換后的數據有很多相同的秩時一般使用kendall tau系數。

表2 常用非參數檢驗的效應值計算方法

卡方檢驗主要是檢測列聯表中兩個分類變量之間的關系,即實際頻數與指定分布的頻數是否相符。統計軟件SPSS輸出結果中包含卡方檢驗統計量χ2及其效應值,如phi (φ)和Cramer’sV(φc)等。另外Cohen’sw也是較常用的效應值。phi (φ) 、Cramer’sV(φc)和Cohen’sw可以分別用表2中公式(6)、(7)和(8)來計算,其中k為列聯表中較小的列或聯的數值。當列聯表為2×N時(N≥2),那么k值為2,φ、φc和w三個效應值是相等的。需要注意的是,phi (φ)是用來表示2×2列聯表的效應值,Cramer’sV(φc)和Cohen’sw可以用來表示任何大小的列聯表效應值。此外,更為直觀的卡方檢驗效應值是OR優比值(odds ratio),其計算方法也比較簡單,可參考Field(2005)一書第694頁。

Mann-Whitney檢驗和Wilcoxon符號秩檢驗分別是獨立樣本和配對樣本t檢驗對應的非參數檢驗,其效應值均可用相關系數r來表示。統計軟件SPSS不能直接輸出r值,但我們可以通過輸出結果中的檢驗統計量Z值用公式(9)來計算,公式中的N為觀測個數(observations)。需要注意的是,在Mann-Whitney U檢驗中,觀測個數等于樣本大小,而在Wilcoxon符號秩檢驗中,觀測個數等于樣本大小乘以2,因為Wilcoxon符號秩檢驗中同一組受試參加了兩次測試。

Kruskal-Wallis檢驗是一元方差分析對應的非參數檢驗,其總體效應值為η2,計算方式如公式(10),即用Kruskal-Wallis檢驗的統計量χ2除以樣本容量減1,SPSS也不能直接輸出η2值。與一元方差分析一樣,僅知道Kruskal-Wallis檢驗的總體效應值對于研究者沒有太大意義,更重要的是要知道多個獨立樣本中兩兩之間的組間差異效應值。然而,Kruskal-Wallis檢驗并不像一元方差分析一樣提供post-hoc多重比較,因此只能用Mann-Whitney U檢驗對各組進行組間兩兩比較。

5.3效應值計算軟件

在表1和表2中列出的定量研究常用的參數和非參數檢驗效應值中有一些是統計軟件SPSS可以直接輸出的,而其他的效應值只能通過SPSS輸出結果中包含的描述性數據(如均值、方差等)和檢驗的統計量(如t值、F值、χ2值等)根據表中所列公式來進行計算。互聯網上也可以搜索到很多計算效應值的在線或可下載的軟件(表3)。其中功能較強大的是Devilly開發的效應值生成器4.1(Effect Size Generator 4.1)和Wilson的效應值計算器(Effect Size Calculator)。這兩款軟件都提供不同類型的統計檢驗效應值的計算,以及不同類型效應值的互相轉換。另外效應值生成器4.1還能對保存的檢驗結果進行元分析。

表3 常用參數和非參數檢驗效應值計算軟件

6效應值的解釋

表4是Cohen(1988)提出的解釋效應值大小的標準(Ellis,2010,p.41)。以兩類效應值最基本的代表d和r為例,當d小于0.2或r小于0.1時,效應值可忽略不計;d大于0.2小于0.5或r大于0.1小于0.3為較小的效應值;d在0.5到0.8之間或r在0.3到0.5之間是中等效應值;而d大于0.8或r大于0.5為較大效應值。

這些標準是Cohen根據多年的研究經驗總結出的,一些研究者認為還是比較準確的(Sun et al.,2010),但也有人對這些標準提出了質疑。Ferguson(2009)在對前人研究進行分析后總結出的社會學領域的解釋標準比Cohen的標準要大很多,分別為d=0.41,1.15和2.70。Oswald和 Plonsky(2010)在比較了第二語言習得領域的27個元分析研究后提出的效應值標準分別為d=0.40,0.70和1.00,也比Cohen的標準要大一些。因此,研究者在解釋研究結果的效應值時不能機械地照搬這些標準,而應該結合自己研究的領域和研究的目的。更為重要的是,研究者應把自己研究結果的效應值與同領域前人的研究結果的效應值進行對比分析和解釋,同時報告效應值的置信區間,提高效應值估計的準確性,這樣經過不斷的積累和元分析者的努力,各個研究領域就能制定出適合自身特點的效應值解釋標準。機械地照搬Cohen提出的效應值解釋標準也會使研究者又一次陷入顯著性檢驗以點為界二分決策的錯誤中。

表4 效應值解釋標準

7結語

本文介紹了統計顯著性檢驗存在的問題、效應值的定義及其重要性、效應值的分類、效應值的計算方法和效應值的解釋標準,以期為國內社會科學領域對效應值不太熟悉的研究者提供一定的參考。在實際研究中,研究者應該根據自己所采用的檢驗方法選擇合適的效應值。本文的另一目的是引起國內社會科學領域定量研究者對效應值的重視。國外的許多研究者、期刊編輯和研究學會都建議或者要求定量研究者在其研究結果中報告效應值,但國內還很少有人進行專門研究。因此,定量研究者不能僅僅滿足于匯報研究結果的統計顯著性,還應該在此基礎上報告研究結果的實際顯著性并結合自身的研究領域對其做出更為科學的解釋。

參考文獻

胡竹菁.(2010).平均數差異顯著性檢驗統計檢驗力和效果大小的估計原理與方法.心理學探新,30(1),68-73.

胡竹菁,戴海琦.(2011).方差分析的統計檢驗力和效果大小的常用方法比較.心理學探新,31(3),254-259.

盧謝峰,唐源鴻,曾凡梅.(2011).效應量:估計、報告和解釋.心理學探新,31(3),260-264.

蒲顯偉.(2014).定量數據分析效應值研究綜述.統計與信息論壇,24(11),18-22.

權朝魯.(2003).效果量的意義及測定方法.心理學探新,23(2),39-44.

Alhija,F.N.,& Levy,A.(2009).Effect size reporting practices in published articles.EducationandPsychologicalMeasurement,69(2),245-265.

American Educational Research Association.(2006).Standards on reporting on empirical social science research in AERA publications.EducationalResearcher,35(6),33-40.

American Psychological Association.(2010).PublicationmanualoftheAmericanPsychologicalAssociation(6th ed.).Washington,DC:Author.

Cohen,J.(1988).Statisticalpoweranalysisforthebehavioralsciences(2nd ed.).Hillsdale,NJ:Erlbaum.

Cohen,J.(1994).The earth is round (p<0.05).AmericanPsychologist,49(12),997-1003.

Ellis,P.D.(2010).Theessentialguidetoeffectsizes.Cambridge:Cambridge University Press.

Ferguson,C.(2009).An effect size primer:A guide for clinicians and researchers.ProfessionalPsychology:ResearchandPractice,40(5),1-7.

Field,A.(2005).DiscoveringstatisticsusingSPSS(2nd ed.).London:Sage Publications.

Grissom,R.,& Kim,J.(2005).Effectsizesforresearch:Abroadpracticalapproach.Mahwah,NY:Lawrence Erlbaum Associates.

Kirk,R.E.(1996).Practical significance:A concept whose time has come.EducationalandPsychologicalMeasurement,56(5),746-759.

Larson-Hall,J.(2010).AguidetodoingstatisticsinsecondlanguageresearchusingSPSS.New York:Routledge.

Leech,N.L.,& Onwuegbuzie,A.J.(2002).Acallforgreateruseofnonparametricstatistics.Paper presented at the annual meeting of the Mid-South Educational Research Association(Chattanooga,TN,Nov.6-8).

Levine,T.R.,& Hullett,C.R.(2002).Eta squared,partial eta squared,and misreporting of effect size in communication research.HumanCommunicationResearch,28(4),612-625.

Oswald,F.L.,& Plonsky,L.(2010).Meta-analysis in second language research:Choices and challenges.AnnualReviewofAppliedLinguistics,30(1),85-110.

Rosenthal,R.,& DiMatteo,M.(2001).Meta analysis:Recent developments in quantitative methods for literature reviews.AnnualReviewofPsychology,52,59-82.

Rosnow,R.,& Rosenthal,R.(2003).Effect sizes for experimenting psychologists.CanadianJournalofExperimentalPsychology,57(3),221-237.

Schmidt,F.(1996).Statistical significance testing and cumulative knowledge in psychology:Implications for the training of researchers.PsychologicalMethods,1(2),115-129.

Sun,S.,Pan,W.,& Wang,L.(2010).A comprehensive review of effect size reporting and interpreting practices in academic journals in education and psychology.JournalofEducationalPsychology,102(4),989-1004.

Vacha-Haase,T.,& Thompson,B.(2004).How to estimate and interpret various effect sizes.JournalofCounselingPsychology,51(4),473-481.

Volker,M.A.(2006).Reporting effect size estimates in school psychology research.PsychologyintheSchools,43(6),653-672.

Wilkinson,L.,& APA Task Force on Statistical Inference.(1999).Statistical methods in psychology journals:Guidelines and explanations.AmericanPsychologist,54(8),594-604.

Effect Sizes in Quantitative Analysis:Significance,Computation and Interpretation

Pu Xianwei

(Nanjing University of Science and Technology,Nanjing 210094)

Abstract:Considering the problems related with null hypothesis significance testing,many foreign researchers,journal editors and research associations have recently encouraged or required the reporting of effect sizes as part of the statistical results in empirical studies.However,few domestic researchers of social sciences have ever studied effect sizes.This article serves as a primer of effect sizes in order to assist researchers of quantitative studies in understanding the significance of effect sizes and in the computation and interpretation of the various types of effect sizes.

Key words:effect sizes;significance;computation;interpretation

中圖分類號:B841.2

文獻標識碼:A

文章編號:1003-5184(2016)01-0064-06

*基金項目:江蘇省高校哲學社會科學研究基金項目(2013SJD740018),中央高校基本科研業務費專項資金項目(NJUSTWGY14001,30920140132029),南京理工大學教改項目“英語專業創新實驗教學體系建設”。

猜你喜歡
意義
一件有意義的事
新少年(2022年9期)2022-09-17 07:10:54
“k”的幾何意義的應用
有意義的一天
生之意義
文苑(2020年12期)2020-04-13 00:54:10
“k”的幾何意義及其應用
有意義和無意義
幼兒100(2019年35期)2019-02-11 03:10:36
k,b幾何意義的應用
“無意義”修行
不要無意義地羞辱他人
詩里有你
北極光(2014年8期)2015-03-30 02:50:51
主站蜘蛛池模板: 色综合久久无码网| 国产毛片片精品天天看视频| 亚洲V日韩V无码一区二区| 亚洲人成电影在线播放| 国产在线一区二区视频| 中文字幕人妻av一区二区| 日本道综合一本久久久88| 亚洲中文字幕久久无码精品A| 在线观看的黄网| 国产91色在线| 国产精品午夜福利麻豆| 欧美啪啪精品| 国产精品手机在线播放| 欧美黄网在线| 国内a级毛片| 国产日本欧美亚洲精品视| 国产精品第一区| 夜夜爽免费视频| 欧美黄色网站在线看| 91丨九色丨首页在线播放 | 国产在线精品人成导航| 精品久久久久久中文字幕女| 久热精品免费| 久久夜色精品国产嚕嚕亚洲av| 四虎永久在线| 一级毛片a女人刺激视频免费| 国产三级毛片| 777午夜精品电影免费看| 亚洲一区二区精品无码久久久| 手机精品视频在线观看免费| 久久无码高潮喷水| 911亚洲精品| 97久久精品人人| 亚洲综合亚洲国产尤物| 国产熟女一级毛片| 久久九九热视频| 国产免费一级精品视频| 亚洲精品你懂的| 97在线视频免费观看| 久久这里只有精品免费| 欧美一级黄色影院| 久久99国产综合精品女同| 亚洲中久无码永久在线观看软件| 日本免费一区视频| 一级不卡毛片| 久久精品人妻中文系列| 日本欧美一二三区色视频| 欧美无专区| 亚洲成a∧人片在线观看无码| 成年A级毛片| 国产精品成人久久| 亚洲精品免费网站| 国产午夜无码片在线观看网站 | 国产美女精品一区二区| 亚洲色图欧美| 欧洲亚洲一区| 日韩欧美中文字幕在线韩免费| 亚洲无码视频图片| 久久这里只有精品2| 日本不卡在线播放| 老司机久久99久久精品播放| 99久久精品免费看国产电影| 四虎精品黑人视频| 毛片一区二区在线看| 久久人妻xunleige无码| 欧美三级日韩三级| 免费人成在线观看成人片 | 国产自产视频一区二区三区| 91偷拍一区| 国产综合无码一区二区色蜜蜜| 欧美激情视频二区| 国产在线拍偷自揄拍精品| 久久精品国产在热久久2019| 久久精品一品道久久精品| 色综合热无码热国产| www.国产福利| 欧美翘臀一区二区三区| 天天色天天综合| 久久黄色视频影| 在线观看91香蕉国产免费| 乱系列中文字幕在线视频| 免费人成又黄又爽的视频网站|