999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)的誤解與誤用

2012-01-27 00:48:50濱州醫(yī)學(xué)院264003孫紅衛(wèi)董兆舉趙擁軍
中國衛(wèi)生統(tǒng)計(jì) 2012年1期
關(guān)鍵詞:科學(xué)研究差異實(shí)驗(yàn)

濱州醫(yī)學(xué)院(264003) 孫紅衛(wèi) 董兆舉 趙擁軍

統(tǒng)計(jì)假設(shè)檢驗(yàn)是生物醫(yī)學(xué)、臨床醫(yī)學(xué)、流行病學(xué)、心理學(xué)、教育學(xué)等領(lǐng)域中廣泛使用的統(tǒng)計(jì)分析方法,數(shù)據(jù)分析中通常要給出統(tǒng)計(jì)假設(shè)檢驗(yàn)的結(jié)果。但是應(yīng)用者對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)有很多的誤解,在很多方面假設(shè)檢驗(yàn)并不適合作為數(shù)據(jù)分析的主要方法。本文討論對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)的各種誤解及其作為科學(xué)研究工具的局限性,并進(jìn)一步討論了統(tǒng)計(jì)改革的狀況以及統(tǒng)計(jì)假設(shè)檢驗(yàn)一直大規(guī)模使用的原因,最后提出應(yīng)該樹立正確的統(tǒng)計(jì)觀念。

對(duì)統(tǒng)計(jì)假設(shè)檢驗(yàn)的誤解

統(tǒng)計(jì)假設(shè)檢驗(yàn)是一種利用實(shí)驗(yàn)或調(diào)查數(shù)據(jù)作決策的方法,即在假設(shè)零假設(shè)成立的情況下,計(jì)算統(tǒng)計(jì)量獲得現(xiàn)有數(shù)據(jù)以及更不利于零假設(shè)的概率,由此判斷是否拒絕零假設(shè)。它由Fisher在20世紀(jì)早期提出,現(xiàn)在廣泛應(yīng)用的統(tǒng)計(jì)假設(shè)檢驗(yàn)是Fisher和Neyman-Pearson理論的混合體。統(tǒng)計(jì)假設(shè)檢驗(yàn)從提出以來不斷受到批評(píng)〔1-7〕,這些批評(píng)主要集中在方法的應(yīng)用上。本文對(duì)假設(shè)檢驗(yàn)不同角度的誤解整理提煉,提出最關(guān)鍵的幾點(diǎn),分析如下:

誤解一,P值的大小衡量了原假設(shè)成立的可能性

不少應(yīng)用認(rèn)為,P值越小,表示零假設(shè)越不可能成立,結(jié)果越不可能由隨機(jī)誤差產(chǎn)生。而P值是H0成立的前提下,統(tǒng)計(jì)量獲得現(xiàn)有數(shù)據(jù)以及更不利于零假設(shè)的概率,即P(D|H0)。零假設(shè)成立的可能性是在現(xiàn)有觀測數(shù)據(jù)下H0成立的可能性,應(yīng)該是條件概率P(H0|D)。而Bayes公式需在實(shí)驗(yàn)前已知零假設(shè)的先驗(yàn)概率P(H0),才可以計(jì)算P(H0|D)。

Lindley-Jeffreys悖論〔8〕揭示了 P(H0|D)與 P(D|H0)可以差異很大。在文獻(xiàn)〔8〕例子中,雖然拒絕了H0,即P(D|H0)≤α,但是即零假設(shè)成立的可能性 P(H0|D)卻接近于1。

Fisher指出:P值是由它們的零假設(shè)計(jì)算出來的假設(shè)概率,它不會(huì)導(dǎo)出關(guān)于世界上某個(gè)事件的概率,而是關(guān)于是否愿意接受所檢驗(yàn)假設(shè)的一個(gè)合理定義的度量。〔9〕

對(duì)于應(yīng)用者而言,很容易將這兩個(gè)條件概率混淆。應(yīng)用者希望得到P(H0|D),即結(jié)果由隨機(jī)誤差造成的可能性,殊不知統(tǒng)計(jì)假設(shè)檢驗(yàn)不會(huì)提供這個(gè)信息。

誤解二,檢驗(yàn)水準(zhǔn)α皆取0.05

檢驗(yàn)水準(zhǔn)α即犯第一類錯(cuò)誤的概率。現(xiàn)在的應(yīng)用傾向是,無論是t檢驗(yàn)、方差分析或回歸分析,無論分析的是什么問題,α基于長期的傳統(tǒng)都取0.05。在Neyman-Pearson的理論中,α是在實(shí)驗(yàn)前,根據(jù)錯(cuò)誤拒絕原假設(shè)引起的損失程度,主觀來確定。

Fisher也指出:沒有一個(gè)科學(xué)工作者年復(fù)一年無論什么情況下,都有一個(gè)固定的檢驗(yàn)水準(zhǔn),而更應(yīng)該依據(jù)自己的證據(jù)和思想,對(duì)每一種情況給予不同的考慮。〔10〕

固定α的一個(gè)矛盾在“多重比較”中。假設(shè)甲通過做實(shí)驗(yàn)來比較A、B、C三種藥物,乙通過做實(shí)驗(yàn)來比較A、B兩種藥物。甲對(duì)于零假設(shè)“A、B、C三種藥物的平均療效相同”的檢驗(yàn)水準(zhǔn)設(shè)定為0.05,乙對(duì)于零假設(shè)“A、B兩種藥物的平均療效相同”檢驗(yàn)水準(zhǔn)也是0.05。甲為了控制整個(gè)實(shí)驗(yàn)的一類錯(cuò)誤在0.05以內(nèi),如果比較A、B兩種藥物有何差別,其檢驗(yàn)水準(zhǔn)就要在進(jìn)行校正后小于0.05。這樣乙的實(shí)驗(yàn)就更容易得到陽性結(jié)果。甲的實(shí)驗(yàn)可以獲得更多信息,卻因此受到懲罰,這顯然是不合理的。

誤解三,P值越小,代表所檢驗(yàn)總體差異越大

P值的大小,除了受差異量的影響外,還受樣本量的影響,即同樣的差異,樣本量大的,其P值就小。即便總體之間的很小差異,只要有足夠的樣本量就可以得到很小的P值。一個(gè)有實(shí)際意義的差異,如果檢驗(yàn)功效不大,可能沒有統(tǒng)計(jì)意義;同樣,有統(tǒng)計(jì)學(xué)意義的差異,可能沒有實(shí)際意義。

誤解四,假設(shè)檢驗(yàn)?zāi)軌蚧卮稹皹颖镜牟町愂且驗(yàn)榭傮w確有差異引起的,還是僅由隨機(jī)誤差造成的”

假設(shè)檢驗(yàn)不能夠完全做到這一點(diǎn),實(shí)際上,假設(shè)檢驗(yàn)作出結(jié)論可能犯兩類錯(cuò)誤。其中第一類錯(cuò)誤,即實(shí)際上樣本的差異僅由隨機(jī)誤差造成的,卻錯(cuò)誤拒絕了H0,認(rèn)為總體確有差異。犯第一類錯(cuò)誤的概率由檢驗(yàn)水準(zhǔn)控制在α水平。第二類錯(cuò)誤是當(dāng)樣本的差異是由總體的差異造成的,卻錯(cuò)誤地不拒絕H0,認(rèn)為僅由隨機(jī)誤差造成的。犯第二類錯(cuò)誤的概率β往往比較大,Cohen〔11〕指出,發(fā)表在主要的心理學(xué)雜志上的實(shí)驗(yàn),平均只有0.5的機(jī)會(huì)鑒別出一個(gè)中等大小的效應(yīng),而在樣本量較小的生物醫(yī)學(xué)實(shí)驗(yàn)中這個(gè)數(shù)值會(huì)更低。

處理隨機(jī)誤差問題的需要是個(gè)很強(qiáng)的動(dòng)力使得假設(shè)檢驗(yàn)得以大規(guī)模地應(yīng)用,但是假設(shè)檢驗(yàn)不能完全正確地回答這個(gè)問題,回答錯(cuò)誤的可能性還比較大。

誤解五,P值越小,表示了在重復(fù)實(shí)驗(yàn)中出現(xiàn)有統(tǒng)計(jì)學(xué)意義結(jié)果的可能性越大

實(shí)驗(yàn)結(jié)果的可重復(fù)性代表了結(jié)果的可靠性。而對(duì)一次實(shí)驗(yàn)的假設(shè)檢驗(yàn),其P值容易誤解成在重復(fù)實(shí)驗(yàn)中出現(xiàn)有統(tǒng)計(jì)學(xué)意義結(jié)果的可能性。比如P=0.01,被誤解成如果做100次實(shí)驗(yàn)會(huì)出現(xiàn)99次有統(tǒng)計(jì)學(xué)意義結(jié)果。設(shè)A=“出現(xiàn)有統(tǒng)計(jì)學(xué)意義結(jié)果”,重復(fù)實(shí)驗(yàn)中出現(xiàn)有統(tǒng)計(jì)學(xué)意義結(jié)果的可能性即為P(A),P(A)=P(H0)P(A|H0)+P(H1)P(A|H1)=P(H0)α+P(H1)(1-β),其需要知道原假設(shè)先驗(yàn)概率P(H0),備擇假設(shè)的先驗(yàn)概率P(H1),以及檢驗(yàn)功效(1-β),僅知道P值是無法知道在重復(fù)實(shí)驗(yàn)中出現(xiàn)有統(tǒng)計(jì)學(xué)意義結(jié)果的可能性的。

假設(shè)檢驗(yàn)應(yīng)用于科學(xué)研究的局限性

統(tǒng)計(jì)方法是科學(xué)研究的工具,一個(gè)好的統(tǒng)計(jì)方法應(yīng)該能促進(jìn)科學(xué)研究,然而假設(shè)檢驗(yàn)應(yīng)用于科學(xué)研究具有局限性。

首先,在科學(xué)研究中,對(duì)一個(gè)結(jié)論的可靠性,不是僅通過一次實(shí)驗(yàn),而是通過重復(fù)實(shí)驗(yàn)獲得的。一個(gè)負(fù)責(zé)任的研究者不會(huì)僅憑一次實(shí)驗(yàn)的結(jié)果就下結(jié)論。而假設(shè)檢驗(yàn),每做一次實(shí)驗(yàn)就得出結(jié)論,這樣造成的一個(gè)情形是,“P≤0.05”的結(jié)論容易被雜志接收,而“P>0.05”的文章容易被拒,由此造成“發(fā)表偏倚”。假設(shè)檢驗(yàn)適用于“必須通過一次實(shí)驗(yàn)就下結(jié)論”的問題(比如質(zhì)量控制中的抽樣檢查),而科學(xué)研究需要的是對(duì)某個(gè)問題“認(rèn)知”的累積,而不是“決策”的累積。

其次,科學(xué)研究中需要的數(shù)據(jù)分析方法應(yīng)該能提供兩個(gè)關(guān)鍵信息,一是感興趣的效應(yīng)量是多少,二是效應(yīng)量估計(jì)的精確程度。如果一個(gè)研究者拒絕了零假設(shè)“A等于B”,可以接受備擇假設(shè)“A大于B”,他僅得到這個(gè)信息,而至于“A比B大多少”卻無法得知。假設(shè)檢驗(yàn)并不能直接反映這兩點(diǎn),反而會(huì)造成誤解(P值越小,差異越大)。與假設(shè)檢驗(yàn)相比,置信區(qū)間更適合于科學(xué)研究,它的估計(jì)值代表效應(yīng)量大小,區(qū)間長度代表抽樣誤差大小。

效應(yīng)量估計(jì)〔12〕被提出用來解決假設(shè)檢驗(yàn)不能回答的問題,其優(yōu)點(diǎn)是避免了由樣本量的變化影響P值從而引起的對(duì)P值的誤解。實(shí)驗(yàn)結(jié)果的可靠性和穩(wěn)健性仍然需要通過重復(fù)實(shí)驗(yàn)來獲得,研究結(jié)果在重復(fù)實(shí)驗(yàn)中的一致性更適合證明效應(yīng)的存在。在科學(xué)研究中,對(duì)每個(gè)實(shí)驗(yàn)應(yīng)該思考如何呈現(xiàn)結(jié)果最合適,而不是每個(gè)實(shí)驗(yàn)都用同樣的方法。

統(tǒng)計(jì)改革狀況及思考

假設(shè)檢驗(yàn)從提出后就不斷受到批評(píng),在這些批評(píng)下一些雜志改變了編輯原則,提倡置信區(qū)間而非假設(shè)檢驗(yàn)。1977年,New England Journal of Medicine雜志,Journal of the American Medical Association雜志和Circulation Research雜志相繼對(duì)結(jié)果報(bào)告進(jìn)行改革。1986年,British Medical Journal提出在結(jié)果報(bào)告中鼓勵(lì)使用置信區(qū)間。1988年,國際醫(yī)學(xué)期刊編輯委員會(huì)修訂了其“對(duì)生物醫(yī)學(xué)期刊投稿的統(tǒng)一要求”:如果可能,將結(jié)果量化并且用合適的指標(biāo)對(duì)誤差和不確定性進(jìn)行合適的測量(例如置信區(qū)間),避免單一地依賴統(tǒng)計(jì)假設(shè)檢驗(yàn),例如P值的使用,它不能傳達(dá)重要的量化信息……〔13〕。

1996年,美國心理學(xué)會(huì)的The Board of Scientific Affairs(BSA)成立了Task Force on Statistical Inference(TFSI)組織,該組織的目的是澄清圍繞統(tǒng)計(jì)應(yīng)用有爭議的問題,包括假設(shè)檢驗(yàn)以及其替代方法;替代的基本模型和數(shù)據(jù)轉(zhuǎn)換;能夠用計(jì)算機(jī)實(shí)現(xiàn)的新方法等〔14〕。

雖然在統(tǒng)計(jì)觀念的改革上有進(jìn)步,但是統(tǒng)計(jì)假設(shè)檢驗(yàn)仍然是科學(xué)研究中的主要分析方法之一。究其原因,主要有以下幾個(gè):

1.最主要是源于對(duì)假設(shè)檢驗(yàn)的誤解,以為它能解決科學(xué)研究中關(guān)心的問題:假設(shè)成立的可能性有多少?研究結(jié)果的可靠性是多少?效應(yīng)量是多少?但實(shí)際上,假設(shè)檢驗(yàn)不能回答這些問題。

2.雜志的編輯發(fā)表的標(biāo)準(zhǔn)是“P值越小越好”,這樣研究者就努力以盡量小的P值呈現(xiàn)結(jié)果。

3.假設(shè)檢驗(yàn)在統(tǒng)計(jì)課程中占有很大一部分,這樣讓學(xué)生感覺假設(shè)檢驗(yàn)是主要的統(tǒng)計(jì)方法。

4.軟件的使用給人帶來方便高效,但是使得研究者不關(guān)心方法的原理,更給人一種錯(cuò)覺,即統(tǒng)計(jì)假設(shè)檢驗(yàn)是一種標(biāo)準(zhǔn)的、任何時(shí)侯都適用的統(tǒng)計(jì)方法。

結(jié) 論

作假設(shè)檢驗(yàn)已經(jīng)成為很多數(shù)據(jù)分析的例行程序,無論假設(shè)檢驗(yàn)?zāi)懿荒芴峁┯行畔ⅲ家o出P值。統(tǒng)計(jì)方法作為科學(xué)研究的工具,應(yīng)該是不同的問題用適合的統(tǒng)計(jì)方法來解決。對(duì)每個(gè)問題需要研究者好好思考用什么統(tǒng)計(jì)方法來呈現(xiàn)結(jié)果會(huì)得到更有效的信息,而不是不作思考只是用例行的程序來分析所有的問題。樹立這樣的觀念,需要雜志編輯、研究者、學(xué)校老師等各個(gè)領(lǐng)域人員共同的努力。也許這個(gè)過程充滿矛盾和沖突,但最終會(huì)引導(dǎo)我們正確地應(yīng)用統(tǒng)計(jì)方法來促進(jìn)科學(xué)研究。

1.William WR.The fallacy of the null-hypothesis significance test.Psychological Bulletin,1960,57:416-428.

2.Bakan D.The test of significance in psychological research.Psychological Bulletin,1966,66:1-29.

3.Ronald PC.The case against statistical significance testing.Harvard Educational Review,1978,48(3):378-399.

4.Fark R.Misconceptions of statistical significance.,Journal of structural learning,1986,9:83-96.

5.Cohen J.Things I have learned(so far),American Psychologist,1990,45(12):1304-1312.

6.Falk R,Greenbaum W.Significance tests die hard.Theory & Psychology,1995,5:75-98.

7.Gigerenzer G.Mindless statistics,The journal of Socio-Economics,2004,33:587-606.

8.Lindley V.A statistical paradox.Biometrika,1957,44(1-2):187-192.

9.Fisher RA.Statistical methods and scientific inference.In:Bennett JH,editor.Statistical methods,experimental design and scientific inference.Oxford:Oxford University Press,1990.

10.Fisher RA.statistical methods and scientific inference.Edinburgh:Oliver& Boyd,1956.

11.Cohen J.The statistical power of abnormal-social psychological research:A review.Journal of Abnormal and Social Psychology,1962,65:145-153.

12.Friedman H.Magnitude of experimental effect and a table for its rapid estima tion.Psychological Bulletin,1968,70:245-251.

13.International Committee of Medical Journal Editors.Uniform Requirements for manuscripts submitted to biomedical journals.Annals of International Medicine,1988,108:258-265.

14.American Psychological Association.Task Force on Statistical Inference.http://www.a(chǎn)pa.org/science/leadership/bsa/statistical/index.a(chǎn)spx,2010-10-9.

猜你喜歡
科學(xué)研究差異實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
歡迎訂閱《林業(yè)科學(xué)研究》
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
歡迎訂閱《紡織科學(xué)研究》
紡織科學(xué)研究
紡織科學(xué)研究
做個(gè)怪怪長實(shí)驗(yàn)
找句子差異
生物為什么會(huì)有差異?
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
主站蜘蛛池模板: 亚洲最猛黑人xxxx黑人猛交 | 视频二区中文无码| 国产亚洲现在一区二区中文| 国产制服丝袜91在线| 亚洲国产看片基地久久1024| 亚瑟天堂久久一区二区影院| 狼友av永久网站免费观看| 日本午夜精品一本在线观看| 99视频在线免费观看| 國產尤物AV尤物在線觀看| 亚洲欧美一级一级a| 国产精品播放| 亚洲人成网站色7799在线播放| 91成人免费观看在线观看| 伊人大杳蕉中文无码| 国产日韩欧美一区二区三区在线| 国产高颜值露脸在线观看| 99精品国产自在现线观看| 无码精品国产VA在线观看DVD| 国产第一色| 久久免费视频6| 欧美一级黄色影院| 五月综合色婷婷| 成人日韩精品| 毛片在线区| 国产91精品最新在线播放| 亚洲妓女综合网995久久| 国产剧情国内精品原创| 精品三级网站| 亚洲欧美日韩另类| 99国产精品国产高清一区二区| 精品视频福利| 国产特一级毛片| 久久免费看片| 中文字幕 91| 在线观看av永久| 亚洲一区二区三区国产精华液| 亚洲色中色| 精品国产成人三级在线观看| 欲色天天综合网| 亚洲人成电影在线播放| 欧美在线一二区| 免费人欧美成又黄又爽的视频| 精品国产一二三区| 亚洲一级毛片在线观| 91久久精品日日躁夜夜躁欧美| 国产永久在线视频| 亚洲va欧美ⅴa国产va影院| 成人午夜免费视频| 亚洲人成色77777在线观看| 国产熟女一级毛片| 亚洲愉拍一区二区精品| 久久黄色免费电影| 99热免费在线| 国产凹凸视频在线观看| 99久久人妻精品免费二区| 国产无码网站在线观看| 美女免费精品高清毛片在线视| 蜜桃视频一区二区| 色天堂无毒不卡| 精品福利视频导航| 伊人色婷婷| 91精品国产91久久久久久三级| 中文字幕有乳无码| 熟妇丰满人妻| 国产AV无码专区亚洲精品网站| 五月综合色婷婷| 国产国产人在线成免费视频狼人色| 欧美在线天堂| 国产小视频a在线观看| 亚洲天堂.com| 98超碰在线观看| 亚洲bt欧美bt精品| 欧美日韩中文字幕在线| 亚洲人成网7777777国产| 国产欧美精品一区二区 | 久久综合色视频| 亚洲色图在线观看| 亚洲人成电影在线播放| 国产成人亚洲精品蜜芽影院 | 无码日韩精品91超碰| 激情亚洲天堂|