診斷性試驗準(zhǔn)確性的評估

2018-10-18 01:30:14FangyuLIHuaHE

上海精神醫(yī)學(xué) 2018年3期

關(guān)鍵詞：分類

Fangyu LI, Hua HE*

1．背景

根據(jù)全球疾病負擔(dān)研究的估計，精神性疾病的全球發(fā)病率很高，僅次于心血管疾病[1]。在精神性疾病中，抑郁癥目前是導(dǎo)致全球殘疾負擔(dān)的主要原因。在中國，抑郁癥是殘疾調(diào)整生命年（DALYs）的四個主要原因之一[2]。2012年中國所有成年人的抑郁癥總患病率為37.68%，重度抑郁癥患病率為4.08%，2013年至2015年，中國的疾病負擔(dān)估計增加了10%[3-4]。對于抑郁癥的診斷，DSMIV的結(jié)構(gòu)化臨床訪談（SCID）被普遍認為是臨床實踐和研究的金標(biāo)準(zhǔn)，并將繼續(xù)被廣泛使用[5-8]。然而，SCID的使用受到一系列諸如成本和精神科醫(yī)生嚴重短缺等因素的限制。因為SCID不能用作自動提供精神病診斷的絕對可靠的清單，它必須由訓(xùn)練有素的精神科醫(yī)生[9]執(zhí)行，最終導(dǎo)致高費用和部分患者難以承受的精神衛(wèi)生保健。中國精神科醫(yī)生的短缺也限制了患者獲得精神衛(wèi)生專職人員治療的機會。此外，對一些患者（例如老年患者）進行檢查可能很困難且耗時。由于SCID的限制，一些易于操作的篩查工具，如漢密爾頓抑郁量表（HAM-D）、貝克抑郁量表（BDI），甚至更簡單的篩查工具，如患者健康問卷（PHQ-2，PHQ-9），被設(shè)計并用于對患者進行抑郁癥診斷[10]。例如，最常用的工具HAM-D量表是一種提供抑郁癥指征的多項問卷，它也是一份評估抑郁癥康復(fù)的指南[11]。同樣，貝克抑郁量表（BDI）的21個問題的多選式自我報告條目也被廣泛用于衡量抑郁癥的嚴重程度。然而，在篩選工具可以應(yīng)用于患者之前，評估這些篩查工具相對于金標(biāo)準(zhǔn)SCID的準(zhǔn)確性至關(guān)重要[12]。如果篩查工具可以正確地將患病受試者分類為患病，將非患病的受試者分類為未患病，則可以提倡將該篩查工具用于醫(yī)療實踐。否則，其實際使用應(yīng)謹慎。在本文中，我們將討論如何評估診斷性試驗的準(zhǔn)確性。

2．診斷性試驗的準(zhǔn)確性

當(dāng)診斷性試驗結(jié)果為二分類變量時，例如是和否，陽性與陰性，靈敏度和特異度被廣泛用于評估診斷性試驗的準(zhǔn)確性。靈敏度是患病受試者中檢驗為陽性的概率，即檢驗正確地將患病受試者分類為患病的概率，而特異度是非患病受試者中檢驗呈陰性的概率，即檢驗可以正確地將未患病的受試者歸類為無病的可能性[13]。例如，靈敏度90%的檢驗?zāi)苷_地將90%的患病受試者分類為患者，但將10%的患病受試者錯誤分類為非患病受試者。類似地，特異度90%的檢驗可以正確地將90%的非患病受試者分類為非患病，但將10%的非患病受試者錯誤地分類為患者。靈敏度和特異度范圍從0到1，其中1表示該檢驗可以正確地將所有患病受試者分類為患者并且所有未患病的受試者分類為非患病者。為了評估檢驗的準(zhǔn)確性，必須綜合考慮靈敏度和特異度。顯然，良好的診斷性試驗需要高靈敏度和高特異度。具有100%靈敏度和特異度的檢驗可以正確地對所有患病和非患病受試者進行分類，因此是完美的檢驗。

然而，在實踐中，指標(biāo)為連續(xù)性變量的診斷性試驗是非常常見的。在這種情況下，使用受試者工作特征曲線（ROC）評估該檢驗區(qū)分疾病的準(zhǔn)確性。通過對連續(xù)性檢驗分數(shù)進行二分，可以在每個截點處計算靈敏度和特異度。通過連接連續(xù)性檢驗的所有可能截點處所有（1-特異度，靈敏度）對來構(gòu)建ROC曲線。ROC曲線是一種在一系列截點上以圖形方式顯示真陽性與假陽性的方式[14]，并提供該檢驗如何準(zhǔn)確區(qū)分疾病狀態(tài)的圖片信息。不同的截點會得到不同的靈敏度和特異度。對于給定的檢驗，在靈敏度和特異度之間存在折衷。例如，如果較高的檢驗分數(shù)表明患病的可能性較大，則較低的臨界值將產(chǎn)生較高的靈敏度但特異度較低，在這種情況下，該檢驗可以正確地將大多數(shù)患病受試者分類為患者，但也有很高的幾率將非患病者歸類為患者，對于高臨界值，反之亦然。ROC曲線為我們提供了檢驗如何區(qū)分患病和非患病的全貌，其中靠近左上角的部分能夠更好地區(qū)分。對角線表示沒有區(qū)分能力。

ROC曲線是描述檢驗在每個截點區(qū)分患病狀態(tài)能力的極好的方法，但在實踐中，使用單個指標(biāo)來總結(jié)該檢驗的整體性能也是非常重要的。ROC曲線下面積（AUC）是評估整體能力的指標(biāo)。 AUC測量該檢驗正確分類患有和不患有疾病的能力。ROC曲線越接近左上角，曲線下面積越大，而值為1時表示完美區(qū)分。

接下來，我們將通過一項實際研究使用R來說明如何估計一項試驗的準(zhǔn)確性。

3．舉例說明：老年服務(wù)客戶抑郁癥篩查

3.1 研究樣本

簽訂知情同意書后，377名講英語并接受初步家庭評估的老年受試者參與了試驗。

3.2 測量指標(biāo)

SCID：SCID[15]作為確定當(dāng)前重度抑郁發(fā)作（MDE）存在與否的金標(biāo)準(zhǔn)。在該研究中，SCID被用于研究樣本中的所有受試者。

PHQ-9/PHQ-2：患者健康問卷（PHQ-9）是患者健康問卷的九項抑郁量表，給予初級保健機構(gòu)中的患者以篩查抑郁癥的存在和嚴重程度。每個問題的項目得分范圍從0到3，PHQ-9的總得分范圍從0到27。PHQ-2僅包括PHQ-9的前兩項，因此具有總得分范圍為0到6。盡管PHQ-9和PHQ-2總分可以被認為是連續(xù)性的，但通常使用10和3兩個截點來分別對PHQ-9和PHQ-2診斷抑郁癥。對于PHQ-9，分數(shù)低于10的受試者將被診斷為抑郁癥陰性，其他被診斷為陽性。同樣，對于PHQ-2，只有分數(shù)低于3的人才會被視為非抑郁癥。我們將通過將它們分別視為二分類和連續(xù)性檢驗來評估PHQ-9/PHQ-2在判斷SCID抑郁和非抑郁方面的準(zhǔn)確程度。

3.3 二分類檢驗的靈敏度和特異度計算：

我們首先分析二分類PHQ-9的準(zhǔn)確性，其截點為總分10分。在這種情況下，PHQ-9 < 10的受試者具有陰性檢驗結(jié)果，而PHQ-9 ≥ 10的受試者具有陽性檢驗結(jié)果。因此，PHQ-9陽性/陰性和SCID抑郁/非抑郁可以使用下面的R代碼的2 x 2表進行匯總。

temp <- roc

temp$PHQ_9_SCORE <- ifelse(temp$PHQ_9_SCORE> 9,1,0)

crosstab<-table(temp$PHQ_9_SCORE, temp$SCID)

數(shù)據(jù)總結(jié)在下表3中：

表3．金標(biāo)準(zhǔn)

靈敏度和特異度計算如下

靈敏度=陽性檢驗結(jié)果數(shù)量/患病受試者數(shù)量

= 82/100

= 0.82

特異度=陰性檢驗結(jié)果數(shù)量/非患病受試者數(shù)量

= 242/277

= 0.87

當(dāng)使用10為截點時，該檢驗對于PHQ-9> = 10受試者定義為陽性，對于PHQ-9 <10的受試者定義為陰性，并且靈敏度估計為82%，即82%真正患有抑郁癥的受試者可以成功歸類為抑郁癥，特異度估計為87%，即87%的非抑郁癥患者被正確歸類為非抑郁。

當(dāng)PHQ-2使用3為截點時，即PHQ-2 < 3定義為陰性，PHQ-2 ≥ 3定義為陽性，結(jié)果總結(jié)在表4中：

表4．金標(biāo)準(zhǔn)

靈敏度和特異度估計為

靈敏度=陽性檢驗結(jié)果數(shù)量/患病受試者數(shù)量

= 82/100

= 0.82

特異度=陰性檢驗結(jié)果數(shù)量/非患病受試者數(shù)量

= 216/277

= 0.78

當(dāng)檢驗陽性/陰性的截點定義為3時，80%的抑郁受試者可被正確分類為抑郁癥，78%的非抑郁癥受試者被正確分類為非抑郁癥。

不同的截點，其靈敏度和特異度將不同。例如，如果使用4為截點，PHQ-2的靈敏度和特異度分別為57%和90%。對于PHQ-9，截點為11時的靈敏度和特異度為0.74和0.91。表1列出了PHQ-9和PHQ-2的一系列截點下的靈敏度和特異度。

從表1中可以明顯看出，靈敏度和特異度之間存在權(quán)衡。較低的截點可以得到較高的靈敏度和較低的特異度，這意味著更多抑郁癥的受試者可被正確分類為抑郁，但也有更多非抑郁的受試者被錯誤分類為抑郁癥。由于靈敏度和特異度之間的權(quán)衡，通常在臨床實踐中使用最佳截點。通常靈敏度和特異度的總和最大化的截點被確定為最佳截點。對于PHQ-2，最佳截點為3.0，因為相應(yīng)的靈敏度（80%）和特異度（78%）達到最大值。PHQ-9的最佳截點為10，因為靈敏度為82%，特異度為87%，其總和達到最大值。

表1．不同截點下的靈敏度和特異度

3.4 受試者工作特征曲線(ROC)的構(gòu)建

在連續(xù)性診斷性試驗的每個截點，靈敏度和特異度顯示患病受試者和非患病受試者分類的準(zhǔn)確程度。由于不同的截點產(chǎn)生不同的靈敏度和特異度，因此使用ROC曲線描述該檢驗區(qū)分患病和非患病的能力。而ROC曲線是連續(xù)性檢驗的每個可能的截點的靈敏度與（1-特異度）的關(guān)系圖。對于每個截點，可以根據(jù)檢驗分數(shù)是大于還是小于閾值來定義陽性和陰性檢驗結(jié)果，然后可以基于二分類陽性/陰性檢驗結(jié)果和真實疾病狀態(tài)的2X2表來估計特異度和靈敏度。通過連接所有截點處靈敏度（y軸）與（1-特異度）（x軸）來構(gòu)建ROC曲線。PHQ_9和PHQ_2的ROC曲線如圖1所示，下面分別提供了構(gòu)建PHQ_2和PHQ_9的ROC曲線的R代碼：

圖1．PHQ-2和PHQ-9的ROC曲線

3.5 ROC曲線下的面積（AUC）的測量及其解釋

盡管ROC曲線可以描述檢驗在每個截點區(qū)分患病與非患病的能力，但它無法提供一個總體指標(biāo)來總結(jié)該檢驗的整體性能。ROC曲線下面積（AUC）是連續(xù)性檢驗診斷辨別能力的總體指標(biāo)，它能衡量受試者被正確分類為患病和非患病的能力。AUC范圍為0.5到1。AUC值為0.5對應(yīng)于ROC曲線的對角線，表示不提供用于分類的信息，而值為1表示該檢驗可以正確地將所有患病的受試者分類為患者，并且所有未患病的受試者分類為未患病，這是一個完美檢驗。表2總結(jié)了診斷性試驗準(zhǔn)確性分類的粗略指南。AUC在0.90和1.00之間的檢驗具有極好的辨別能力，AUC從0.80到0.90，0.70到0.80，0.60到0.70和0.50到0.60分別表示區(qū)分能力良好、一般、較差和極差。下面提供了用于獲得PHQ-2和PHQ-9的AUC的R代碼。我們還可以通過檢驗兩個試驗之間的AUC是否存在顯著性差異來檢驗兩個診斷性試驗是否具有相同的辨別能力。

roc.test(roc1,roc2,paired=TRUE)

DeLong’s test for two correlated ROC curves

data: roc1 and roc2

Z = 2.6064, p-value = 0.00915

alternative hypothesis: true difference in AUC is not equal to 0

sample estimates:

AUC of roc1 AUC of roc2

0.9062635 0.8690794

在這種情況下，PHQ-9的AUC為0.9063，PHQ-2的AUC為0.8691。PHQ-9在將受試者分類為抑郁和非抑郁時達到了極好的準(zhǔn)確度，而PHQ-2的準(zhǔn)確度相對較低，但仍然相當(dāng)不錯。檢驗PHQ-9和PHQ-2之間AUC差異的p值為0.00915，這表明PHQ-9和PHQ-2區(qū)分抑郁癥與非抑郁癥受試者的能力不同，并且PHQ-9診斷抑郁和非抑郁的受試者更準(zhǔn)確。

表2．根據(jù)AUC對診斷性檢驗準(zhǔn)確性分類指南

4．討論

DSM-IV（SCID）的結(jié)構(gòu)化臨床訪談一直被認為是臨床上診斷抑郁癥的金標(biāo)準(zhǔn)。然而，由于許多原因，SCID的實施不適用，需要替代性的診斷性試驗/篩選工具。在將診斷性試驗/篩查工具應(yīng)用于目標(biāo)人群之前，評估診斷性試驗/篩查工具的準(zhǔn)確性至關(guān)重要。

在實踐中，除靈敏度和特異度外，還廣泛使用陽性預(yù)測值（PPV）和陰性預(yù)測值（NPV）。PPV是檢驗結(jié)果陽性的受試者也患病的可能性，NPV是檢驗結(jié)果為陰性的受試者也是非患者的概率。給定該疾病的患病率，PPV和NPV可以通過靈敏度和特異度來確定，反之亦然。

在臨床實踐中，金標(biāo)準(zhǔn)檢驗可能是侵入性的、價格昂貴并且風(fēng)險較高（例如血管造影、活體組織檢查和手術(shù)），患者和醫(yī)生可能不愿意接受這樣的金標(biāo)準(zhǔn)檢驗。如果不對每個人進行金標(biāo)準(zhǔn)檢驗，則靈敏度和特異度的估計可能會有偏差，因為僅使用有金標(biāo)準(zhǔn)檢驗的受試者來估計靈敏度和特異度。這種偏倚稱為證實偏倚。目前已設(shè)計出一些方法來校正這種證實偏倚[19,20]。

資金來源

本研究沒有獲得任何外部資助。

利益沖突

作者報告沒有與本文相關(guān)的利益沖突。