999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

P值和置信區間:聯系與區別、誤用與爭論

2023-02-13 10:03:30蔣青青王世琦曹世義
數理醫藥學雜志 2023年1期
關鍵詞:效應差異

黃 申,蔣青青,王世琦,曹世義

華中科技大學同濟醫學院公共衛生學院(武漢 430030)

假設檢驗理論的創立者—R·A·Fisher(1890-1962)首先提出P值的概念后,P值被廣泛使用和接受,直到成為現代統計學中常用的指標。預防和干預措施對健康結果的有效性需要研究結果證明,而研究結果又取決于P值。P值是決定研究結果是真實的還是偶然的、治療是否有效、論文將被接受或拒絕、資助是否會被拒絕,或者藥物是否會被美國食品和藥物管理局 (FDA)批準的必要條件。毫不夸張地說,人類的福祉已深受P值的影響。然而,在所有生物醫學研究中,P值可能是最常被誤解和錯誤計算的指標[1]。兩個最常見的誤解是:①使用P值來表示現實世界的概率,將顯著性與檢驗假設為真的概率為95%與5%的假幾率相關聯;②使用P=0.05作為可觀察結果證據的閾值(即P<0.05被認為可觀察效應;P≥0.05被認為不可觀測效應)[2]。錯誤計算包括盲目地應用假設檢驗,或者在某些情況下,效應為零的點零假設不太可能為真,但卻在這種情況下,詢問是否可以拒絕零假設[3-4]。甚至“在統計學家中,幾乎普遍存在將P值誤解為頻率錯誤概率”。 而另一由美國統計學家耶日·奈曼提出的常用統計指標置信區間,目前也被廣泛使用,但對于置信區間的使用爭論卻少得多。盡管P值和置信區間已是兩個司空見慣的統計指標,但如何讓更多的科研工作者正確地使用它們,仍是一項任重道遠的工作。因此,本文圍繞P值和置信區間的定義、聯系與區別、誤用與爭論進行一系列闡述,以便更多的科研工作者能夠在今后的工作中正確地理解及使用它們。

1 真正理解P值與置信區間

1.1 P值是什么

大部分文獻給出的解釋是:“P值是在假定原假設為真時,得到與樣本相同或者更極端的結果的概率”[3,5-6]。這句解釋也許對于部分學者來說晦澀難懂。首先,我們可能最疑惑的是:什么是原假設,又為什么假定原假設?這個問題需要從假設檢驗說起。假設檢驗是指用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。 顯著性檢驗是假設檢驗中最常用的一種方法,其基本原理是先對總體的特征做出某種假設,然后通過抽樣研究的統計推斷,判斷對此假設是應該拒絕還是尚不能拒絕。

通過舉例幫助讀者理解假設檢驗。例如,根據大量調查,已知某地健康成年男子平均身高為173 cm,現在該地某工廠隨機測量85名健康成年男性工人的身高,其身高均數為168.9 cm,標準差為3.9 cm。目前已知總體均數為173 cm,樣本均數為168.9 cm,如果想知道樣本均數所代表的總體和已知總體(該地健康成年男子)是否存在差別,會出現兩種情況:①該樣本是來自總體均數為173 cm的總體,均數的差異為抽樣誤差所導致;②該樣本不是來自總體均數為173 cm的總體,而是來自于另外一個總體,其差異主要是由于環境因素差異導致(本質不同)。

要比較樣本均數與總體均數是否有差別,此時就需要進行假設檢驗。假設有兩種:①無效假設H0:該樣本是來自總體均數為173 cm的總體,均數差由抽樣誤差引起;②備擇假設H1:樣本所代表總體與上述總體存在本質差別。同時也需要確定檢驗水準,即當H0正確時,拒絕H0所犯的錯誤,也稱為I類錯誤或α錯誤,是指拒絕了實際上成立的、正確的假設,即“棄真”的錯誤。一般認為低于5%的事件是小概率事件,那么就注定了會有5%的可能性犯錯,因為人為規定的那些小概率事件在現實中是可能發生的,而發生的概率就是我們規定的5%,即犯錯的概率便等于小概率事件發生的概率,通常取0.05。

這時,再回頭看一下P值的定義,在示例中,原假設是H0,現假定H0成立,得出P值與先前設定的檢驗水準比較,當P小于0.05時,可認為得到樣本是來自總體均數為173 cm的總體這一結果的概率非常小,此時就可以拒絕H0接受H1,樣本均數與總體均數之間的差異有統計學意義,可認為樣本與總體本質不同;P≥0.05,則不拒絕H0,差異無統計學意義,不能認為該樣本不是來自于上述總體。通過示例可知,其實P值的本質是用來判定假設檢驗結果的一個參數。總之,P值指如果H0假設是正確的,那么統計結果出現的可能性有多大,P值越小,說明在H0假設的前提下,這個統計結果出現的可能性越低,此時我們傾向于推翻H0假設,此時也設定了一個最大容忍限度(I類錯誤,意味著研究者的結論并不正確,即觀察到了實際上并不存在的處理效應),只有發生小概率事件(P<0.05)時才推翻H0。

1.2 置信區間是什么

置信區間(confidence interval)相對來說更容易理解。在生活中,由于各種資源的限制,在實際工作中大部分時候往往無法對全部個體進行檢測或調查,此時,就會從總體中隨機抽取一定數量的觀察單位作為樣本,通過樣本參數去估計總體參數,包括點估計和區間估計兩種方法。點估計是用相應的樣本統計量直接作為總體參數的估計值,區間估計是指從點估計值和抽樣標準誤差出發,按預先給定的概率建立包含總體參數的一個區間范圍。預先給定的概率稱為置信度或置信水平(confidence level),常取 95% 或 99%,而建立起來的有95%或99%的概率包含總體參數的區間范圍就是置信區間。

置信區間的計算公式取決于所用到的統計量。置信區間是在預先確定好的顯著性水平下計算出來的,顯著性水平通常稱為α,絕大多數情況會將α設為0.05。置信度為(1-α),或者100×(1-α)%。于是,如果α=0.05,那么置信度則是0.95或95%,后一種表示方式更為常用。置信區間的常用計算方法如下:

其中:α是顯著性水平(例:0.05或0.10);Pr表示概率,是單詞 probability的縮寫;100%*(1-α)或(1-α)或指置信水平(例如:95%或0.95);c1和c2表示置信區間的上限值和下限值。

1.3 P值與置信區間的差異

前文已經描述過P值代表在假定原假設為真時,得到與樣本相同或者更極端結果的概率,但并不能通過P值知道計算的結果與無效假設差別會有多大。上述示例中,置信區間不僅可以看出兩組是否有差異,還能說明差異大小,明確最小臨床意義差異。依然用前述的示例幫助讀者理解,假如樣本均數變為172.9 cm,總體均數為173 cm不變,當總體調查人數及樣本量調查人數足夠大,抽樣誤差足夠小時,即使樣本均數和總體均數的差值為0.1 cm,也可能會出現P<0.05的結論。但0.1 cm的差值是否有實際意義呢?僅從P值是看不出來的。但置信區間可以提示與無效假設的參數偏離有多遠,如無效假設為樣本均數和總體均數的差值為0.1,最后計算95%置信區間為(0.05,0.85),這至少提示兩點:第一,因為置信區間沒有包含0,兩組差異有統計學意義,即樣本代表的總體和上述總體并不相同; 第二,樣本均數與總體均數的差值較小,有95% 的信心認為兩組差值在0.05~0.85之間。但即使結果有統計學意義,從專業角度來看,身高均數差別太小,并無太大的實際價值,這一信息是P值所無法提供的。

2 P值與置信區間的聯系

2.1 P值與置信區間的相同點

一般來說,樣本量越大,抽樣誤差越小,計算的置信區間越窄,精度越高,此時P值也會越小。P值和置信區間在做出統計學結論的時候,結果是一樣的。在進行普查時,直接獲取總體,無抽樣過程,不會引入抽樣誤差,也無需進行從樣本到總體的統計推斷過程。此時計算的置信區間只有一個值,而P值也就不存在了。

2.2 P值與置信區間的近似轉換

(1)根據置信區間計算P值[7]。基于正態分布的研究數據,如果 95% 置信區間的上限和下限分別為u和l,可通過以下步驟計算P值:

第一步,計算標準誤差:SE=(u-l)/(2×1.96)

第二步,計算檢驗統計量:z=Est/SE

第三步,計算P值:P=exp(-0.717×z- 0.416×z2)

以下使用更具體的示例來介紹步驟。例如,一項試驗的受試者分為使用普伐他汀抗高血壓治療和安慰劑治療組。作者報告說,普伐他汀治療組的治療效果略差于安慰劑組。兩組間高血壓均值之間的估計差異為 1.9[95%CI(0.6,4.3)]mmHg,求P值是多少[8]?按以上步驟計算P值:

本文作者并未給出P值為0.13。

(2)同樣基于正態分布的研究數據,有一些文章只報告了觀察到的效應估計值(該效應值為絕對效應量,如均數差和危險度差,相對效應指標需要進行log轉換后再進行計算)和P值,這種情況下,也可以獲得置信區間。使用P值和估計值獲取效應估計值置信區間的步驟如下[9]:

第一步,根據P值計算正態分布檢驗的檢驗統計量z:

第二步,計算標準誤差:

第三步,計算 95%置信區間:

以下使用更具體的示例來介紹步驟。例如,一項隨機試驗報告的摘要對文章進行了這樣的描述:“比起對照組的患者更多的服用鋅的患者在兩天內康復(49% vs. 32%,P=0.032)[10]。”兩個組別比例差異為17%,那么95%置信區間(CI)是多少?我們按以上步驟計算置信區間:

95% 置信區間為 17.0-15.56 至 17.0+15.56,或 1.4% 至 32.6%。

3 P值與置信區間的錯用與誤用

P值是公認的統計有效性的“黃金標準”[11]。在計算機時代,無論多么復雜的統計,P值也變得容易計算[12]。P值的出現給我們的科學研究帶來了極大的便利,增加了各種科學研究論文成功發表的機會。在各類期刊出版中使用P值及置信區間報告結果成為一項共識,但在P值被大量錯誤使用的情況下,對P值錯誤使用進行批評的聲音也越來越大[1]。2016年,美國統計協會(ASA)在《美國統計學家》上發表聲明,警告不要在科學研究中濫用統計顯著性和P值[13]。《新英格蘭醫學雜志》最近也宣布了一套新準則:不鼓勵使用P值,但強調報告置信區間(CI)。目前對于

P值的批判可概括為以下幾個方面:第一,它們普遍被錯誤解讀[14],例如,如果原假設的P值為0.08,則錯誤的認為僅由機會產生關聯的概率為8%[15];第二,它們是善變的,例如,當在兩個不同的總體中檢驗相同的假設,但得到的P值是相互矛盾的[15-16];第三,它們經常夸大反對無效假設的證據,例如,重復t檢驗的模擬試驗說明了小樣本夸大效應的趨勢[16];第四,P值也被指責具有內在的欺騙性,因為將顯著性水平(即P值的大小)與效應大小相關聯。例如,一些讀者可能會將P<0.0001解釋為不僅表明術后結果改善有統計學意義,而且還可能得出,由于P值太小,術后結果改善的效果非常好,但真實情況并非總是如此[17];第五,還有研究認為P值不是客觀的衡量標準,不具備證據性措施應該具備的品質,如提供更加直接的證據,而不僅僅只是一個只能比較兩個或多個假設的指數[18-19]。此外,它們在邏輯上似乎也不符合支持或反對任何事物的衡量標準[3]。

而對置信區間的誤解主要有以下幾個:第一,95%置信區間預測未來研究中 95% 的估計值將落在觀測區間內;第二,特定95%置信區間有95%的機會包含真實效應值;第三,如果一個 95%置信區間包含空值,而另一個排除空值,則排除空值的置信區間更精確;第四,如果兩個置信區間重疊,則兩個估計值或研究之間的差異不顯著[20];第五,數據駁斥(或排除)了95%置信區間之外的效應大小[15,21]。

4 P值與置信區間的使用爭論

前面談到了P值的濫用現況,鑒于人們對P值的濫用日益加劇,對于P值和置信區間的使用選擇,也在學術界引起了爭論。主要有以下兩種觀點:

4.1 推薦更多地使用置信區間

該觀點受到更多主流觀點認可,目前有向著這種觀點發展的積極趨勢。ASA強調,P值既不衡量所研究的零假設(例如,與參考療法相比,指數沒有顯示其他組有治療效果)為真的概率,也不衡量數據因為隨機產生的概率。因此,P值或統計顯著性沒有衡量效應的大小或結果的重要性,它本身并不能提供有關模型或假設的良好證據度量。

在隨機試驗中,P值是由治療效果大小(表示為相對效應和絕對效應)和樣本量所驅動。在一個大型的試驗中,較小的P值與較小的治療效果相關,如相對風險為0.90或風險差異為0.5%也能得到較小的P值(如P<0.001),而在一個小型試驗中,較小的治療效果與P值可能相關性并不顯著。因此,P值的作用除去對治療效果的評估,還應對相對風險和風險差異方面進行評估。估計的治療效果的準確度,可用假設檢驗的結果判斷,而治療效果的精確度,則體現為置信區間的寬度,個體間效應的差異,它基本上代表了與試驗觀察相一致的治療效果范圍。如果95%的置信區間排除了相對風險的1(或風險差異的0),則試驗結果與無治療效果的零假設不一致。P值跟隨95%的置信區間:如果95%的置信區間排除了相對風險的1或風險差異的0,相關的P值就會下降到小于0.05。換句話說,P值對95%的置信區間幾乎沒有任何補充[22]。因此推薦更多也報告置信區間而非P值。

4.2 置信區間替換P值可能不會實現任何效果

一些學者提出了和上述觀點相反的意見,Seo Young Park認為用置信區間取代P值可能不會對醫學研究的進行和結果的理解帶來任何真正的改變[23]。由于其雙重性,P值和置信區間提供的信息基本相同——收集的數據和事先假定的模型的兼容性。事實上,與假設檢驗相比,置信區間更強調估計,而且它們提供了關于估計精度的線索。但是,置信區間的位置或寬度并不能轉化為臨床意義,而且我們都知道,通過檢查置信區間是否包括空值(通常為0或1)而將結果一分為二的簡單化做法將持續存在。此外,對置信區間的解釋并不是直接的。她認為P值仍然有自己的用武之地。

無論是在文章中選擇使用P值還是置信區間,首先,最重要的還是正確地理解P值和置信區間。只有我們正確地理解它們,才能夠準確地使用它們去解釋文章的研究結果和意義,這對于文章的質量和發表都至關重要。至于到底是選擇報告P值還是置信區間,作為一名普通的科研工作者,從科學嚴謹的角度出發,我們應該根據自己文章實際情況及所投期刊的要求而定。

猜你喜歡
效應差異
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
鈾對大型溞的急性毒性效應
懶馬效應
今日農業(2020年19期)2020-12-14 14:16:52
場景效應
找句子差異
DL/T 868—2014與NB/T 47014—2011主要差異比較與分析
生物為什么會有差異?
應變效應及其應用
M1型、M2型巨噬細胞及腫瘤相關巨噬細胞中miR-146a表達的差異
偶像效應
主站蜘蛛池模板: 91午夜福利在线观看| 在线无码九区| 在线无码av一区二区三区| 福利国产微拍广场一区视频在线 | 97国产成人无码精品久久久| 人人澡人人爽欧美一区| 欧美激情综合| 538国产视频| 8090成人午夜精品| 色偷偷一区二区三区| 国产精品视频系列专区| 99成人在线观看| 国产精品香蕉| 精品久久久久成人码免费动漫| 青草国产在线视频| 日韩高清成人| 亚洲av色吊丝无码| AV无码无在线观看免费| 国产又色又刺激高潮免费看| 18禁色诱爆乳网站| 国产h视频免费观看| 欧美国产日韩在线| 国产高清不卡视频| 91麻豆精品国产91久久久久| 欧美亚洲国产精品久久蜜芽| 国产幂在线无码精品| 国产又爽又黄无遮挡免费观看 | 在线精品视频成人网| 久久综合九色综合97婷婷| 国产理论一区| 成人午夜网址| 国产精品福利导航| 91国内外精品自在线播放| 18禁黄无遮挡网站| 久久永久视频| 99精品久久精品| 欧美区一区| 午夜视频日本| 18禁高潮出水呻吟娇喘蜜芽| 国产免费看久久久| 四虎永久在线精品影院| 亚洲av无码片一区二区三区| 凹凸国产分类在线观看| 最新国产麻豆aⅴ精品无| 伊人久久大线影院首页| 911亚洲精品| 亚洲免费黄色网| 亚洲成人福利网站| 热re99久久精品国99热| 美女免费黄网站| 国产丝袜啪啪| 亚洲国产成人麻豆精品| 久久这里只有精品66| 精品无码日韩国产不卡av| 1级黄色毛片| 99视频在线免费| 亚洲永久视频| av一区二区三区高清久久| 亚洲动漫h| 亚洲一区二区三区中文字幕5566| 欧美黄色网站在线看| 色噜噜中文网| 久久久波多野结衣av一区二区| 国产精品区视频中文字幕| 日韩国产精品无码一区二区三区| 亚洲一级毛片在线观播放| 欧美精品在线观看视频| 天堂在线www网亚洲| 亚洲欧美极品| 女同国产精品一区二区| 国内精品伊人久久久久7777人| 亚洲 欧美 偷自乱 图片| 久久无码免费束人妻| 国产成人无码AV在线播放动漫| 成人免费黄色小视频| 亚洲中文字幕日产无码2021| 亚洲婷婷六月| 国产精品成人啪精品视频| 女人18毛片水真多国产| 日本三级欧美三级| 毛片网站观看| 成人在线视频一区|