999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ASA關于統計意義和p-值的聲明

2016-02-06 00:31:252016年2月5日
中國衛生統計 2016年3期
關鍵詞:效應意義科學

2016年2月5日

Ronald L.Wasserstein,執行主席代表美國統計學會理事會

(方積乾譯)

ASA關于統計意義和p-值的聲明

2016年2月5日

Ronald L.Wasserstein,執行主席代表美國統計學會理事會

(方積乾譯)

近些年,科學研究的日益定量化和大型復雜數據集的激增擴充了統計學方法應用的范圍。它創造了科學進步的新途徑,但也帶來對從研究數據提取結論的關注。科研結論的真實性,包括其可再現性,不僅僅取決于統計學方法。合適地選擇技術、恰當地進行分析以及正確解釋統計結論,在保證結論正確和確切表達結果的不確定性上也起了關鍵作用。許多發表的科學結論是以p-值這個指標評估的“統計學意義”概念為支撐的。雖然p-值是一個有用的統計學測度,但它普遍地被錯誤使用和錯誤解釋。這已經導致某些科學雜志不鼓勵使用p-值,某些科學家建議廢棄它,自從引入p-值以來某些爭論就基本上沒有變過。在這個背景下,ASA相信,以一個正式的聲明來澄清關于正確使用和解釋p-值的若干廣泛贊同的原則,可以使科學界從中得益。這里提及的內容不僅影響科研,而且也影響研究基金、雜志工作、職業發展、科學教育、公共政策、新聞和法律。這個聲明并不想解決與合理統計實踐有關的所有問題,也不想平息基本爭議。而是借這個聲明以非技術的語言,按照統計學界的廣泛共識,闡明若干原則,有助于改善定量科學的實施或解釋。

什么是p-值?

非正式而言,p-值是在一個特定統計模型之下,數據(例如,兩個比較組樣本均數之差)的一個統計學概括,等于其觀察值或取更極端值的概率。

原 則

1.p-值可以表明數據和特定統計模型之間如何不相容。

p-值提供一個辦法來概括一個特定數據集和為其建議的一個模型之間的不相容性。最常見的情形是在一組假定之下構建的一個模型和一個所謂的“零假設”。零假設常常是效應不存在,諸如兩組之間無差異,或者一個因素和一個結局之間無關系。如果用以計算p-值的基本假定成立,p-值越小,數據和零假設之間不相容性越大。這個不相容性可以解釋為質疑或提供證據反對零假設或基本假定。

2.p-值并不度量研究假設為真的概率,或者數據純系隨機產生的概率。

研究者常常希望把p-值放到關于零假設為真,或者觀察數據系隨機產生的敘述中。p-值并非如此。它描述數據和特定假設之間的關系,而不是描述假設本身。

3.科學結論和商務或政策決定不可以僅僅基于一個p-值是否通過特定的閾值。

將數據分析或科學推斷簡化為機械的“一刀切”裁定(諸如“p<0.05”),這樣來證明科學論斷或結論會導致錯誤的信念和糟糕的決策。在“一刀切”的一側,結論立即是“正確”,在另一側,立即是“錯誤”。研究者作科學推斷時必須考慮許多因素,包括研究的設計、測量的品質、所研究現象的外部證據,以及數據分析背后的假定是否成立。實踐固然常要求二擇一,作“yes-no”決定,但是,并不意味單靠p-值就能保證一個決定正確與否。將廣泛使用的“統計學意義”(通常解釋為“p≤0.05”)作為宣布一個科學發現(或真理)的合格證會導致科學過程相當大的歪曲。

4.正確恰當的推斷要求完整的報告和透明度

p-值和有關的分析決不可選擇性地報告。數據作了多重分析,卻只報告特定部分的p-值(一般報告通過了閾值的那些)會使得所報告的p-值根本不可解釋。專挑有前途的發現,又稱為數據捕撈、意義追逐、意義尋覓、選擇性推斷和“p-黑客”,導致已發表文獻中虛假的、過度統計學意義的結果,必須嚴格避免。人們一定不要正規地實施多重統計檢驗而產生這個問題:每當研究者基于根據統計結果選擇報告什么,如果不告訴讀者如何選擇及其偏倚,那些結果的解釋必是嚴重歪曲不實的。研究者必須公開研究階段被探索假設的個數、所有數據收集的決策、實施過的所有統計分析和計算過的所有p-值。至少要知道進行了多少分析和什么分析以及怎樣選擇某些分析(包括p-值)來報告,才能基于p-值和相關的統計量作出真實的結論。

5.p-值或統計學意義并不度量效應的大小或結果的重要性。

統計學意義并不等價于科學、人類或經濟意義。較小的p-值不一定意味較大或較重要效應的出現,較大的p-值不一定意味缺乏重要性或沒有效應。任何效應,不論多小,如果樣本量足夠大或測量精度足夠高,總能產生一個小的p-值;如果樣本量小或測量不精確,大的效應也可能產生不起眼的p-值。類似地,如果估計的精度不同,同一個被估計的效應將有不同的p-值。

6.p-值本身并不對模型或假設提供一個好的度量

研究者必須知道,沒有背景或其他證據,p-值提供的信息是有限的。例如,一個接近0.05的p-值本身只是反對零假設的微弱證據。類似地,一個相對大的p-值并不意味證據有利于零假設;許多其他的假設可能和觀察到的數據同樣或者更加一致。由于這些原因,當其他方法適宜和可行時,數據分析決不可止于一個p-值的計算。

其他方法

鑒于出現p-值的錯誤使用和錯誤概念,有些統計學家愿意以其他方法補充甚至取代p-值。包括比檢驗更強調估計,諸如置信區間、可信區間或預測區間;貝葉斯方法;證據的其他測度,諸如似然比或貝葉斯因子;以及其他途徑,諸如決策理論模型和錯誤發現率。所有這些測度和方法依賴于更多假定,但它們較多直接關注效應的大小(及其連帶的不確定性)或假設是否正確。

結 論

好的統計實踐,作為好的科學實踐的基本成分,強調好的研究設計和實施原則,數據的多種數值和圖形概括、理解所研究的現象、結果的全面和完整的報告,以及正確邏輯和定量地理解數據概括意味什么。沒有任何單一的指標可以取代科學推理。

(致謝:ASA理事會感謝下列人士在此聲明發展過程中和我們分享他們的專業知識和見解。這份聲明未必反映所有人的觀點,實際上,有些觀點可能完全或部分與本聲明相反。無論如何,我們深深地感謝他們的貢獻。

Naomi Altman,Jim Berger,YoavBenjamini,Don Berry,Brad Carlin,John Carlin,George Cobb,Marie Davidian,Steve Fienberg,Andrew Gelman,Steve Goodman,Sander Greenland,Guido Imbens,John Ioannidis,Valen Johnson,Michael Lavine,MichaelLew,Rod Little,Deborah Mayo,Chuck McCulloch,Michele Millar,Sally Morton,ReginaNuzzo,Hilary Parker,Kenneth Rothman,Don Rubin,Stephen Senn,Uri Simonsohn,DaleneStangl,Philip Stark,Steve Ziliak.)

一份關于p-值和統計學意義的簡短文獻清單

以下清單與ASA關于p-值和統計學意義的聲明相伴,它并不全面,但為希望詳細探索本聲明所提及內容的人們提供一個好的起點。

(排列以字母為序)

1.A ltman,D.G.,Bland,J.M.(1995),“Absence of evidence is not evidence of absence,”British Medical Journal,311:485.

2.Altman,D.G.,Machin,D.,Bryant,T.N.,Gardner,M.J.,eds.(2000),Statisticswith Confidence,2nd ed.,London:BMJ Books.

3.Berger,J.O.,Delampady,M.(1987),”Testing precise hypotheses,”Statistical Science,2,317-335.

4.Berry,D.(2012),“Multiplicities in Cancer Research:U-biquitous and Necessary Evils,”Journalof the National Cancer Institute,104,1124-1132.

5.Christensen,R.(2005),“Testing Fisher,Neyman,Pearson,and Bayes,”The American Statistician,59,2,121-126.

6.Cox,D.R.(1982),“Statistical Significance Tests,”British Journal of Clinical Pharmacology,14,325-331.

7.Edwards,W.,Lindman,H.,and Savage,L.J.(1963),“Bayesian statistical inference forpsychological research,”Psychological Review,70,193-242.

8.Gelman,A.,Loken,E.(2014),“The Statistical Crisis in Science[online],”American Scientist,102.Available at http://www.americanscientist.org/issues/feature/2014/6/thestatisticalcrisis-in-science

9.Gelman,A.,Stern HS.(2006),“The difference between‘significant’and‘not significant’is notitself statistically significant,”The American Statistician,60:328-331.

10.Gigerenzer,G.(2004),“Mindless statistics,”Journal of Socioeconomics,33:567-606.

11.Goodman,S.N.(1999a),“Toward Evidence-Based Medical Statistics 1:The P Value Fallacy,”Annals of Internal Medicine,130,995-1004.

12.____________(1999b),“Toward Evidence-Based Medical Statistics.2:The Bayes Factor,”Annals of Internal Medicine,130,1005-1013.

13.____________(2008),“A Dirty Dozen:Twelve p-Value Misconceptions,”Seminars in Hematology,45,135-140.

14.Greenland,S.(2011),“Nullm isinterpretation in statistical testing and its impact on health riskassessment,”Preventive Medicine,53,225-228.

15.___________(2012).Nonsignificance plus high power does not imply support for the null overthe alternative.Annals of Epidemiology,22:364-368.

16.Greenland,S.,and Poole,C.(2011),“Problems in common interpretations of statistics inscientific articles,expert reports,and testimony,”Jurimetrics,51,113-129.

17.Hoenig,J.M.,and Heisey,D.M.(2001).The abuse of power:The pervasive fallacy of power calculations for data analysis.The American Statistician,55:19-24.

18.Ioannidis,J.P.(2005),“Contradicted and initially stronger effects in highly cited clinical research.”Journal of the American Medical Association,294,218-228.

19.___________(2008),“Why most discovered true associations are inflated(with discussion),”Epidemiology,19:640-658.

20.Johnson,V.E.(2013),“Revised standards for statistical evidence,”Proceedings of the National Academy of Sciences,110(48),19313-19317.

21.__________(2013),“Uniform ly most powerful Bayesian tests,”Annals of Statistics,41,1716-1741.

22.Lang,J.,Rothman K.J.,and Cann,C.I.(1998),“That confounded P-value.(Editorial),”Epidemiology,9,7-8.

23.Lavine,M.(1999),“What is Bayesian Statistics and Why Everything Else is Wrong,”UMAP Journal,20:2.

24.Lew,M.J.(2012),“Bad statistical practice in pharmacology(and other basic biomedical disciplines):you probably don′t know P,”British Journal of Pharmacology,166:5,1559-1567.

25.Phillips,C.V.(2004),“Publication bias in situ,”BMC Medical Research Methodology,4:20.

26.Poole,C.(1987),“Beyond the confidence interval,”A-merican Journal of Public Health,77,195-199.

27.Poole,C.(2001).Low P-values or narrow confidence intervals:Which are more durable?Epidemiology,12,291-294.

28.Rothman,K.J.(1978),“A show of confidence(Editorial),”New England Journal of Medicine,299,1362-1363.

29.___________(1986),“Significance questing(Editorial),”Annals of Internal Medicine,105,445-447.

30.___________(2010),“Curbing type I and type II errors,”European Journal of Epidemiology,25,223-224.

31.Rothman,K.J.,Weiss,N.S.,Robins,J.,Neutra,R.,and Stellman,S.(1992),“Amicus Curiaebrief for the U.S.Supreme Court,Daubert v.Merrell Dow Pharmaceuticals,Petition for W rit of Certiorari to the United States Court of Appeals for the Ninth Circuit,”No.92-102,October Term,1992.

32.Rozeboom,W.M.(1960),“The fallacy of the null-hypothesis significance test,”Psychological Bulletin,57:416-428.

33.Schervish,M.J.(1996),“P Values:What They A re and What They Are Not,”The American Statistician,50:3,203-206.

34.Simmons,J.P.,Nelson,L.D.,Simonsohn,U.(2011),“False-Positive Psychology:Undisclosed Flexibility in Data Collection and Analysis A llows Presenting Anything as Significant,”Psychological Science,22(11),1359-1366.

35.Stang,A.,and Rothman,K.J.(2011),“That confounded P-value revisited,”Journal of Clinical Epidemiology,64(9),1047-1048.

36.Stang,A.,Poole,C.,and Kuss,O.(2010),“The ongoing tyranny of statistical significance testing in biomedical research,”European Journal of Epidemiology,25(4),225-30.

37.Sterne,J.A.C.(2002).“Teaching hypothesis tests-time for significant change?”Statistics in Medicine,21,985-994.

38.Sterne,J.A.C.Smith,G.D.(2001).“Sifting the evidence-what′s wrong with significancetests?”British Medical Journal,322,226-231.

39.Ziliak,S.T.(2010),“The Validus Medicus and a New Gold Standard,”The Lancet,376,9738,324-325.

40.Ziliak,S.T.,and McCloskey,D.N.(2008),The Cult of Statistical Significance:How the Standard Error Costs Us Jobs,Justice,and Lives,Ann Arbor:University of Michigan Press.

欲了解英文原文,請參閱:

Ronald L.Wasserstein&Nicole A.Lazar(2016):The ASA′s statement on p-values:context,process,and purpose,The American Statistician,DOI:10.1080/00031305.2016.1154108

To link to this article:http://dx.doi.org/10.1080/00031305.2016.1154108

(責任編輯:郭海強)

猜你喜歡
效應意義科學
一件有意義的事
新少年(2022年9期)2022-09-17 07:10:54
鈾對大型溞的急性毒性效應
有意義的一天
懶馬效應
今日農業(2020年19期)2020-12-14 14:16:52
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
應變效應及其應用
科學
科學拔牙
詩里有你
北極光(2014年8期)2015-03-30 02:50:51
衰落的科學
雕塑(1999年2期)1999-06-28 05:01:42
主站蜘蛛池模板: 欧美日韩午夜视频在线观看| 久久黄色影院| 午夜免费视频网站| 亚洲第一成年网| 欧美一区二区福利视频| 国产一区二区精品福利| 在线观看无码av免费不卡网站 | 国产又爽又黄无遮挡免费观看 | 亚洲美女操| 激情综合五月网| 97国产在线观看| 先锋资源久久| 久久精品免费看一| 亚洲最猛黑人xxxx黑人猛交| 国产三级成人| 国产激爽爽爽大片在线观看| 日本国产一区在线观看| 精品视频第一页| 国产精品视频白浆免费视频| 日韩少妇激情一区二区| 99久久精品免费看国产免费软件 | 亚洲一区二区三区香蕉| 天天综合网色中文字幕| 中文字幕日韩欧美| 亚洲AV永久无码精品古装片| 国产美女自慰在线观看| 婷婷午夜天| 午夜无码一区二区三区在线app| 亚洲高清免费在线观看| 国产精欧美一区二区三区| 国产精品观看视频免费完整版| 色窝窝免费一区二区三区 | 国产微拍精品| 国产欧美日韩精品综合在线| 中文字幕av无码不卡免费 | 国产69囗曝护士吞精在线视频| 国产一二三区视频| 综合色在线| 国产尤物视频网址导航| 国产真实乱了在线播放| 欧美亚洲欧美区| 日韩国产一区二区三区无码| 国产成人成人一区二区| 亚洲日本一本dvd高清| 9999在线视频| 亚洲精品日产精品乱码不卡| 亚洲经典在线中文字幕| 国产福利大秀91| 日本草草视频在线观看| 亚洲欧洲AV一区二区三区| 少妇精品在线| 91久久国产成人免费观看| 88av在线| 91小视频在线观看| 亚洲熟女中文字幕男人总站| 国产精品一区在线麻豆| 久久99国产视频| 中文字幕无码av专区久久 | 国产浮力第一页永久地址| 一级一级一片免费| 亚洲精品自产拍在线观看APP| 麻豆国产精品一二三在线观看| 97人人做人人爽香蕉精品| 色综合日本| 亚洲啪啪网| 乱人伦99久久| 中文字幕在线看| 成人免费午夜视频| 在线a视频免费观看| 特级毛片8级毛片免费观看| 精品国产污污免费网站| 免费人成网站在线高清| 特黄日韩免费一区二区三区| 国产精品免费福利久久播放| 波多野结衣国产精品| 欧美激情,国产精品| 亚洲成av人无码综合在线观看| 在线综合亚洲欧美网站| 亚洲精品成人片在线播放| 午夜一区二区三区| 日韩欧美成人高清在线观看| 国产精品黄色片|