南方醫(yī)科大學(xué)生物統(tǒng)計學(xué)系(510515) 李丹玲 段重陽 鄧居敏 陳平雁
?
基于靈敏度和特異度任意賦權(quán)的加權(quán)比數(shù)積*
南方醫(yī)科大學(xué)生物統(tǒng)計學(xué)系(510515) 李丹玲 段重陽 鄧居敏 陳平雁△

【關(guān)鍵詞】加權(quán)比數(shù)積 權(quán)重 靈敏度 特異度
*國家自然科學(xué)基金項目(81273191,81402759);全國統(tǒng)計科學(xué)研究計劃項目(2013LY059);廣東省醫(yī)學(xué)科研基金(B2013222)資助;廣東省自然科學(xué)基金(2015A030310279)
自Yerushalmy(1947)[1]提出靈敏度(sensitivity,SEN)和特異度(specificity,SPE)以來,它們一直是評價診斷試驗最基本和最重要的兩項指標(biāo)。然而在不同診斷方法進(jìn)行比較時,一者的靈敏度較高而另一者的特異度較高時,難以對其做出綜合評價。于是結(jié)合靈敏度和特異度的綜合評價指標(biāo)由此產(chǎn)生,如Youden指數(shù)[2-3]、標(biāo)準(zhǔn)化診斷符合率[4]、比數(shù)積[5-8]。然而,當(dāng)靈敏度和特異度的重要性不同時,此類綜合評價指標(biāo)不能反映診斷的真實價值[6]。為此,我們之前的研究已經(jīng)建立了基于靈敏度與特異度任意賦權(quán)的加權(quán)Youden指數(shù)[9]以及廣義加權(quán)標(biāo)準(zhǔn)化診斷符合率[10]。比數(shù)積方法先后由陳平雁[5]和Glas[8]獨立提出,目前在診斷試驗評價領(lǐng)域有廣泛應(yīng)用,但其加權(quán)方法尚未產(chǎn)生。因此,本研究將建立一種新的診斷試驗評價指標(biāo)加權(quán)比數(shù)積。
診斷試驗的結(jié)果如表1,縱標(biāo)目是以“金標(biāo)準(zhǔn)”(gold standard)或稱參照標(biāo)準(zhǔn)(reference standard)確診的受試個體屬于“患者”(D +)或“非患者”(D-);橫標(biāo)目為診斷方法所判定的結(jié)果“陽性”(T +)或“陰性”(T-)。

表1 某方法診斷某病種的結(jié)果(例數(shù))
其中靈敏度與特異度的定義如下:

比數(shù)積的直觀意義很明顯,即比數(shù)積愈大,診斷的準(zhǔn)確性愈高,診斷試驗的效果愈好。
對φ取對數(shù),易求得lnφ的近似方差,

假設(shè)有兩個相互獨立φ1和φ2,欲檢驗H0:φ1=φ2(兩樣本的比數(shù)積來自同一總體)是否成立。在H0下,根據(jù)中心極限定理,當(dāng)兩樣本量均較大時,無論φ服從何種分布,總有

從而可構(gòu)建檢驗比數(shù)積的統(tǒng)計量Z,

其中

由上面推導(dǎo)可見,比數(shù)積檢驗不受病例組構(gòu)成的限制,克服了Youden指數(shù)的缺陷,且在計算上較標(biāo)化診斷符合率檢驗簡單。但應(yīng)注意,比數(shù)積檢驗要求四格表內(nèi)的數(shù)均不為0。
加權(quán)比數(shù)積φw的構(gòu)造滿足以下三個原則:靈敏度和特異度的權(quán)重(w)之和為1,0≤w≤1;滿足特殊性:當(dāng)靈敏度和特異度等權(quán)時,即w =0.5時,加權(quán)比數(shù)積φw等于比數(shù)積φ;加權(quán)比數(shù)積φw的取值范圍與比數(shù)積φ的取值范圍相同,為[0,+∞]。所構(gòu)造的加權(quán)比數(shù)積為:

將φw取對數(shù):

用Delta法求方差:

從而得lnφw的近似方差:

所構(gòu)造的檢驗統(tǒng)計量為:

樣本量較大時,Z近似服從標(biāo)準(zhǔn)正態(tài)分布。
血漿中的腎上腺素(A試驗)和尿中腎上腺素聯(lián)合去甲腎上腺素(B試驗)可用于診斷嗜鉻細(xì)胞瘤[11],結(jié)果見表2。A診斷試驗的對象是20例嗜鉻細(xì)胞瘤確診病人以及62例對照,其靈敏度與特異度分別為40%和88.7%,B診斷試驗的對象是15例病人以及53例對照,靈敏度與特異度分別為93.3%和58.5%,為比較A診斷試驗與B診斷試驗的臨床診斷價值,我們在權(quán)重為0.3,0.5,0.8三種情況下分別計算兩者的加權(quán)比數(shù)積與相應(yīng)的檢驗統(tǒng)計量Z,結(jié)果見表2。

表2 診斷嗜鉻細(xì)胞瘤的結(jié)果
當(dāng)靈敏度與特異度賦以相同的權(quán)重(即同等重要),此時的加權(quán)比數(shù)積與比數(shù)積是相等的。A試驗與B試驗的加權(quán)比數(shù)積φw分別為5.233(95%CI 1.591 ~17.217)和19.630(95%CI 2.406-160.160),差異沒有統(tǒng)計學(xué)意義(Z =-1.074,P =0.282)。當(dāng)靈敏度的權(quán)重為0.3(特異度的權(quán)重為0.7),加權(quán)比數(shù)積的值分別為14.032與7.853,差異沒有統(tǒng)計學(xué)意義(Z =0.603,P =0.546)。當(dāng)靈敏度的權(quán)重為0.8,這兩個診斷試驗的φw分別為1.192與77.577,B試驗的加權(quán)比數(shù)積顯著高于A試驗(Z =-2.296,P =0.022)。
筆者通過理論證明得知權(quán)重w對Z的影響如下:
(1)若SEN1≤SEN2,SPE1≥SPE2,則隨著w的增大,Z減?。ó?dāng)且僅當(dāng)SEN1=SEN2,SPE1=SPE2時,Z≡0);
(2)若SEN1<SEN2,SPE1<SPE2,則隨著w的增大,Z先減小后增大,最小值點為

(3)若SEN1≥SEN2,SPE1≤SPE2,則隨著w的增大,Z增大;
(4)若SEN1>SEN2,SPE1>SPE2,則隨著w的增大,Z先增大后減小,最大值點w0同上。
我們通過舉例來演示上述四種不同情況下Z如何隨w的變化而變化(見圖1)。其中甲試驗樣本量為124,乙試驗樣本量為154,甲試驗病例占比為0.6,乙試驗病例占比為0.195
診斷試驗設(shè)計中的非平衡性始終是各類綜合性指標(biāo)需要考慮的一個重要問題,加權(quán)比數(shù)積亦存在這一問題,見下表3,表4

表3 病例占比不同時對加權(quán)比數(shù)積比較的影響
表3與表4中資料A、B法的靈敏度、特異度與權(quán)重均保持不變,若將A組病例占比由表3中的10%變?yōu)楸?中80%,將B組病例占比由表3中的80%變?yōu)楸?中10%,病例組占比變化后雖然A法,B法的加權(quán)比數(shù)積保持不變,可是比較結(jié)果卻由原來的有顯著性差異(P =0.01)變成無顯著性差異(P =0.07),可見病例組占比對加權(quán)比數(shù)積比較的影響是不容忽視的。本文后續(xù)工作可探討不同權(quán)重、病例占比、病例占比的差值以及靈敏度與特異度大小關(guān)系等參數(shù)情況下的Ⅰ類錯誤以及檢驗效能的進(jìn)行比較,為臨床工作者在實際應(yīng)用中提供依據(jù)。

表4 病例占比不同時對加權(quán)比數(shù)積比較的影響
本文所構(gòu)建的Z檢驗統(tǒng)計量,適用于樣本量較大的時候,若小樣本時或H0成立但檢驗統(tǒng)計量未知時,若仍按照±1.96的界值計算該指標(biāo)相應(yīng)的Ⅰ類錯誤會偏離事先設(shè)定0.05附近,說明此時我們用標(biāo)準(zhǔn)正態(tài)分布逼近所構(gòu)造的檢驗統(tǒng)計量不準(zhǔn),可采用基于靈敏度與特異度的參數(shù)Bootstrap方法調(diào)整該指標(biāo)的界值。
本文所提出兩種診斷方法比較的統(tǒng)計推斷是基于兩個獨立樣本的比較提出的,如何構(gòu)建配對診斷試驗設(shè)計下的加權(quán)比數(shù)積是接下來有待解決的問題之一。
相對于比數(shù)積,加權(quán)比數(shù)積不僅允許靈敏度和特異度任意賦權(quán),而且更滿足特殊性,當(dāng)靈敏度和特異度等權(quán)時(均為0.5),加權(quán)比數(shù)積等價于比數(shù)積。

圖1 檢驗統(tǒng)計量Z為權(quán)重w的單調(diào)函數(shù)
本研究根據(jù)比數(shù)積指標(biāo)的特性,構(gòu)建了對靈敏度和特異度的賦權(quán)處理,保證了比數(shù)積是加權(quán)比數(shù)積在靈敏度和特異度等權(quán)情況下的一種特例,并推導(dǎo)出相應(yīng)的標(biāo)準(zhǔn)誤和兩樣本比較的統(tǒng)計推斷公式,從而建立了一種新的基于靈敏度和特異度任意賦權(quán)的評價診斷試驗的統(tǒng)計方法,即加權(quán)比數(shù)積,為診斷試驗評價的臨床應(yīng)用提供了更為豐富、實用的工具。
參考文獻(xiàn)
[1]Yerushalmy J.Statistical problems in assessing methods of medical diagnosis,with special reference to X-ray techniques.Public Health Reports,1947,62:1432-49.
[2]Youden WJ.Index for rating diagnostic tests.Cancer,1950,3(1):32-35.
[3]Chen F,Xue Y,Tan M,et al.Efficient Statistical Tests to Compare Youden Index:Accounting for Contingency Correlation.Statistics in Medicine,2015,34:1560-1576.
[4]Galen RS,Gambino SR.Beyond Normality:The Predictive Value and Efficiency of Medical Diagnosis.JoneWiley:New York,1975:50-53.
[5]陳平雁,郭祖超,胡琳.比較兩種診斷試驗的統(tǒng)計方法.中國衛(wèi)生統(tǒng)計,1990,7(2):22-25.
[6]陳平雁.評價診斷試驗的統(tǒng)計指標(biāo)及其應(yīng)用.中國衛(wèi)生統(tǒng)計,1991,8(5):53-57.
[7]陳平雁,王斌會,莫一心.幾種診斷試驗推斷方法的比較.中國衛(wèi)生統(tǒng)計,1995,12(5):8-11.
[8]Glas AS,Lijmer JG,Prins MH,et al.The diagnostic odds ratio:a single indicator of testperformance.Journal of Clinical Epidemiology,2003,56:1129-1135.
[9]Li D,Shen F,Yin Y,et al.Weighted Youden index and its two-independent-sample comparison based on weighted sensitivity and specificity.Chinese Medical Journal,2013,126(6):1150-1154.
[10]李丹玲,陳平雁.基于靈敏度與特異度任意賦權(quán)的廣義標(biāo)準(zhǔn)化診斷符合率.中國衛(wèi)生統(tǒng)計,2012,29(6):794-796.
[11]Unger N,Pitt C,Schmidt IL,et al.Diagnostic value of various biochemical parameters for the diagnosis of pheochromocytoma in patients with adrenal mass.Eur J Endocrinol,2006,154:409-417.
(責(zé)任編輯:鄧 妍)
Weighted Odds Product Based on Weighted Sensitivity and Specificity
Li Danling,Duan Chongyang,Deng Jumin,et al.(Department of Biostatistics,Southern Medical University(510515),Guangzhou)
【Abstract】Objective To develop a weighted odds product(φw)method for evaluating and comparing diagnostic tests based on weighted sensitivity and specificity.Methods Three principles of constructing weighted odds product φware as follows:firstly,the sum of two weights which are attached to the sensitivity and specificity should equal to 1;secondly,φwequals to φ when the sensitivity and specificity have the same weights.finally the range of possible values of φwis within[0,+∞],which is the same as the odds product φ.Then,the φwis defined by(0≤w≤1) .According to the central-limit theorem,we obtain the standard error of lnφwand propose a statistical inference method to compare two weighted indexes.Furthermore,we also deduce the test statistics Z can be either a monotonously increasing/ decreasing function or non-monotone function of the weight w under different conditions.Results The proposed φwsatisfied the above-mentioned three principles.Conclusion For different weights attached to the sensitivity and specificity,φwcan be used to deal with such kinds of problems as provide a new and practical tool to evaluate diagnostic tests.
【Key words】Weighted odds product;Weights;Sensitivity;Specificity
通信作者:△陳平雁