耿瑞瑞 李慧君 白 璐 丁伯春 湯在祥
蘇州大學蘇州醫(yī)學院公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系(215123)
【提 要】 McNemar檢驗是配對計數(shù)資料中檢驗兩種處理是否有差異的常用方法,但該檢驗的結(jié)果只依據(jù)不一致的部分,并未充分利用樣本所提供的全部信息,而且樣本量過大,可能會出現(xiàn)結(jié)果與真實情況不符,即陽性率有統(tǒng)計學差異,而實際并無差異的情況。由于該檢驗應用范圍廣,且在多數(shù)統(tǒng)計教材中未明確指出該局限性,為了使初學者或者臨床研究者更加全面了解McNemar檢驗,文章通過具體簡便的案例,闡述McNemar檢驗在應用中存在的問題,以及目前的改良方法和應用該檢驗比較靈敏度和特異度差異的前提條件。旨在幫助使用者可以正確合理地選擇該檢驗處理配對設計資料,避免產(chǎn)生錯誤的推論。
在醫(yī)學研究中,經(jīng)常會遇到四格表的配對設計資料,常見的形式有[1]:同一對子內(nèi)兩個個體接受不同的處理;同一批樣品用兩種不同的方法檢測;以及同一個個體,接受處理的時間(前后)或位置(左右臂)不同等。針對上述資料,若比較兩種結(jié)果的陽性頻數(shù)分布是否相同(即兩樣本率或構(gòu)成比的比較),采用的統(tǒng)計方法是配對卡方檢驗,也即McNemar檢驗。
關(guān)于McNemar檢驗,在目前通用的醫(yī)學統(tǒng)計學書籍上,一般是針對兩種檢測方法的檢查結(jié)果或者陽性率有無差別做假設檢驗。如文獻[2-3]中,假設檢驗是兩種檢測方法的“陽性率或者陽性概率”是否有差異;而文獻[4-5]中,其假設檢驗是“檢查結(jié)果”是否有差異。從McNemar檢驗公式可看出,針對“檢查結(jié)果”是否有差異做假設檢驗時,錯誤地將檢驗范圍擴大了,因檢查結(jié)果既包含陽性結(jié)果也包含陰性結(jié)果,而McNemar檢驗僅僅是在陽性結(jié)果基礎(chǔ)上的檢驗,因此針對“檢查結(jié)果”做假設檢驗是不合理的。但若不考慮總樣本量,直接對“陽性率或者陽性概率”做假設檢驗,在應用中也可能得到錯誤的結(jié)論。在配對設計研究中,可能會出現(xiàn)經(jīng)McNemar檢驗后陽性率相同,但實際是檢查結(jié)果完全相反的情況[6],同時也可能遇到陽性率有統(tǒng)計學差異,實際并無差異的研究[7]。所以,對陽性率或檢查結(jié)果下結(jié)論時,還需考慮應用條件及實際意義。本文主要通過案例清晰地解釋該檢驗的缺陷,并列舉出目前的改良方法和推薦應用場景。從而使臨床研究者對于配對研究可以更準確地進行評價。
McNemar檢驗是在1947年提出的用于四格表配對設計資料的檢驗[8]。在應用McNemar檢驗前,需先根據(jù)資料,整理成四格表,形式如表1。

表1 配對設計的四格表

當b+c≥40時,
(1)
當b+c<40時,校正公式為:
(2)
從表1及公式(1)、(2)可看出,該檢驗只反映在b和c提供的信息上,與a和d無關(guān),與總樣本數(shù)n也無關(guān)。即該檢驗僅僅只考慮了檢測結(jié)果不一致的對子數(shù),并未充分利用全部信息,因此有些情況就不能如實反映。在應用中,可能就會遇到以下問題:


表2 兩種檢測方法檢測結(jié)果情況(n=100)

表3 兩種檢測方法檢測結(jié)果情況(n=10000)


表4 兩種檢測方法檢測結(jié)果情況(檢測結(jié)果相似)

表5 兩種檢測方法檢測結(jié)果情況(檢測結(jié)果相反)
上述問題也已經(jīng)引起了國內(nèi)外諸多學者的關(guān)注,并且提出了一些相應的解決方法。比如早在1995年,國內(nèi)學者Lu[10]提出的McNemar檢驗的合理修正公式:
(1)陸修正公式

(3)
或者
(4)
該公式是在原公式的分母上增加了修正項,把總樣本量以及一致部分(a和d)的數(shù)據(jù)信息納入進去。通過計算可發(fā)現(xiàn)其結(jié)果比原檢驗的結(jié)果小,且隨著樣本量的增加,結(jié)果越來越小。陸運清[12]在文中也抽取幾篇研究,將他們的數(shù)據(jù)用修正公式重新檢驗,所得χ2值與原文相比均有不同程度的減小,也即說明修正后的檢驗糾正了因僅考慮不一致部分而放大差異性的問題。
(2)W檢驗
王敏于2016年根據(jù)新方法證明McNemar檢驗,得到新的改進公式[13],即W檢驗,公式如下:
(5)

運用修正公式對本文表2、表3中不同樣本量及b和c所占比重不同的案例進行檢驗,所得結(jié)果見表6。

表6 不同修正公式的檢驗結(jié)果
由以上結(jié)果可知,當b和c不變,樣本量n增大時,運用陸公式得到的結(jié)果雖然會減少,但是b和c對結(jié)果依然有較大的影響。在b和c一定的情況下,W檢驗的卡方值隨著a和d的增大而減小,對于表3案例,運用W檢驗,所得P=0.841>0.05,即兩種檢驗方法之間沒有差異,這個結(jié)果更具有合理性。所以,對于b和c比重較低,且有較大樣本量的研究時,可選擇采用W檢驗判斷兩種方法是否有差異。但對于樣本量不大的研究,需謹慎選擇修正公式。如研究評價兩種方法對副溶血性弧菌的識別能力[14],根據(jù)三個公式可得卡方值結(jié)果見表7。

表7 文獻中三種修正公式的檢驗結(jié)果

除上述改良方法之外,羅明奎[15]提出的改進方法,在四格表中a、b、c、d數(shù)據(jù)相差不大時,與McNemar檢驗的結(jié)論一致,但當b、c相對于a、d較大時,選用改進方法更符合實際情況。在2004年,Agresti[16]比較了McNemar檢驗和研究者們推導出的其他用于檢驗四格表統(tǒng)計方法的差異。wu[17]在2019年發(fā)表的文章中也對McNemar做了穩(wěn)健性調(diào)整,提出的修正McNemar檢驗可以適用于樣本量較小的研究。
(1)靈敏度和特異度比較
在實際應用中,McNemar檢驗除可比較陽性率差異外,通常也可用于比較兩種檢測方法的靈敏度和特異度的差異。如梁暢等[18]在探討兩種方法對乳腺“結(jié)構(gòu)扭曲”樣病變的診斷效能時,采用的即為McNemar 檢驗比較兩種方法的靈敏度和特異度。但在做差異性比較之前,需先將樣本根據(jù)金標準,分出患病組和非患病組,在患病組中檢驗靈敏度是否一致,在非患病組中檢驗特異度是否一致[6,19]。具體原理為:如表8數(shù)據(jù)顯示的是應用金標準檢測出的患病人群中和未患病人群中的結(jié)果。其中a為有病患者中兩種檢測方法均為陽性的患者數(shù),d為有病患者中兩種檢測方法均為陰性的患者數(shù),c為有病患者中檢測方法1陽性,檢測方法2陰性的患者數(shù),d則為有病患者中檢測方法1陰性,檢測方法2陽性的患者數(shù);未患病人群中單元格為a0、b0、c0、d0,邊際總數(shù)為m0i、n0i(i=1,2),總數(shù)為n01。

表8 患病和未患病情況下兩種檢測方法的結(jié)果

(2)樣本量估計
由表3可看出,當n很大且b和c相對較小時,即使檢驗有統(tǒng)計學意義,其實際意義往往也不大[23],因此應用該檢驗時需要有合適的樣本量。在做配對的醫(yī)學研究時,常需根據(jù)以下指標估算樣本量[2,24]:確定檢驗水準α以及單雙側(cè)檢驗;期望的檢驗效能;由樣本推斷總體的信息以及預估的脫落率等。此外對于試驗采用什么比較類型(如優(yōu)效性試驗、等效性試驗或非劣效性試驗),也是估計樣本量的重要條件[25]。如比較兩個方法的靈敏度是否相同時,可以使用公式(6)和(7)來確定所需的樣本量[26],其公式如下:
(6)

(7)
其中η=(1-Se1)×Se2+(1-Se2)×Se1,δ=(1-Se1)×Se2-(1-Se2)×Se1,n1表示在n個總體中有n1個患病總體,p是樣本中推測的疾病患病率,Se1、Se2是兩個檢驗的靈敏度,Zα為正態(tài)分布累積概率等于α時的Z值,Zβ為正態(tài)分布累積概率等于β時的Z值。給出檢驗水準α,以及檢驗功效1-β,根據(jù)文獻或者預實驗確定Se1,Se2和p值,即可計算研究所需的樣本量。比如,某傳統(tǒng)的診斷試劑靈敏度為70%,現(xiàn)有一種新的有望提高靈敏度的方法,設計一項配對研究比較兩種方法的靈敏度差異。已知該疾病在目標人群中的患病率為30%,期望新方法的靈敏度為90%,α為0.05,1-β為80%,帶入公式計算出n約為160,假設預估的脫落率為10%,則得出此研究的樣本量為178人。也可利用其他方法計算樣本量,如黃[27]在評價SARS-CoV-2抗體檢測試劑盒時,即根據(jù)靈敏度計算病例組所需的樣本量、根據(jù)特異度計算對照組的樣本量。
McNemar檢驗不僅可用于配對設計資料的比較,也有研究顯示,McNemar檢驗在行為生態(tài)學研究和其他領(lǐng)域也是可行的[28]。另外對于配對計數(shù)資料,McNemar檢驗并不是唯一的選擇,還可用Pearson卡方檢驗做關(guān)聯(lián)性分析[3]。也可采用Kappa一致性檢驗評價某種檢測方法與金標準的一致性或評價兩種方法結(jié)果是否一致[29],該檢驗與McNemar檢驗的主要區(qū)別是前者重點在于檢驗兩種方法之間的一致性,而后者重在檢驗兩者間的差異性。對于同一個樣本數(shù)據(jù),這兩種檢驗可能得到相互矛盾的結(jié)論。比如一項基于體重識別有低血糖風險的嬰兒與使用生長百分位曲線識別是否一致的研究顯示[30],兩種方法做一致性檢驗,顯示中等一致,但做McNemar檢驗評估其差異性時,又顯示差異有統(tǒng)計學意義。因此,在應用中需根據(jù)研究目的選擇合適的評價方法。如對診斷試驗資料進行分析時可以分為三個層面:(1)計算多個診斷性指標(如敏感性、特異度等)進行描述性統(tǒng)計;(2)采用Kappa檢驗考察試驗方法檢測結(jié)果與金標準的一致性;(3)采用McNemar檢驗考察試驗方法測定的結(jié)果與金標準測定的結(jié)果不一致部分之間的差別是否具有統(tǒng)計學意義[31]。
綜上,在應用該檢驗之前,需考慮樣本的適用性,McNemar檢驗未考慮總樣本量的大小,樣本量過大,可能出現(xiàn)檢驗結(jié)果與實際結(jié)果不符的情況,所以該檢驗適用于樣本量不太的資料。對于樣本量大的研究,可以選擇W檢驗的修正公式。也需考慮統(tǒng)計推論的合理性,公式中只考慮兩種方法不一致的信息,未利用全部信息,因此,為防止出現(xiàn)陽性概率相同但檢查結(jié)果相反的情況,可僅僅只對陽性率做統(tǒng)計推論。也可根據(jù)該檢驗是檢驗邊際概率是否相等的特征,在患病人群、非患病人群中分別比較靈敏度和特異度的差異。