劉小華 何 鵬 徐 凱 李紹東 馬 紅 趙華碩
R軟件OptimalCutpoints包在影像診斷中的應用*
劉小華1何 鵬2徐 凱1李紹東1馬 紅1趙華碩3△
目的探討通過使用R軟件OptimalCutpoints程序包來解決影像學數據中常見截斷值求取結果的智能化、可視化的實現。方法通過對搜集的50例腦膠質瘤MRI數據,采用OptimalCutpoints包,根據不同目的選取常見的選擇截斷值的方法分別進行最佳截斷值的求取,并將結果加以比較。結果OptimalCutpoints包不但實現了在不同情況下最佳截斷點的智能選取,還給出了相應的可視化結果和ROC分析結果。結論OptimalCutpoints包不需要太深的統計基礎,使用方便,可供選擇的方法豐富,能自動實現對診斷指標的最佳截斷值的選取,結果直觀、形象。
診斷試驗 ROC分析 最佳截斷值 R軟件
在臨床上,醫生常需要對某種可疑疾病的指標采用影像學設備,如CT、核磁共振成像(MRI)及超聲波診斷等進行檢查。為更好地讓臨床醫生根據指標結果迅速做出決策,常需要將指標值定性為陽性(異常)或陰性(正常),以便對患者是否正常進行判別[1]。但不同的疾病其診斷界值的選取要求不同,如某些疾病較罕見,其治療對“無病”患者危害較大、對“有病”患者療效較差,需要特異度高;如果某些疾病治療對“無病”患者危害較小、對“有病”患者療效較好,則需要靈敏度高;而有些要求兩者均衡考慮。不同的要求所進行的統計往往不同。對臨床醫生來講,最佳截斷點的選擇和計算是一個比較常見且復雜的問題。因此,如何根據醫學影像檢查數據對疾病進行快速、準確地定位成為困擾臨床醫生的一個亟待解決的難題。
2014年10月美國生物統計學家Lopez-Raton M[2]開發了一種專門為診斷試驗求取最佳截斷值的R軟件包OptimalCutpoints,為這類分析的實現提供了極大便捷,國內少有介紹R軟件在影像診斷中應用的文獻,本文以實例呈現使用R軟件OptimalCutpoints程序包實現最佳截斷值分析的過程,以期為廣大臨床醫生提供參考,也為R軟件的應用提供新思路。
R軟件是近年出現的一種免費開放式的統計編程軟件,具備完整的數據處理、計算和作圖功能,還可以根據使用者的需要定制擴展包以完成特定的工作[3]。用戶可以從 R軟件的官方網站(http://www.rproject.org)獲取最新的軟件及相應的統計包。本文講解中使用的版本為R-3.2.0。在R軟件安裝完畢后,雙擊桌面的R軟件圖標,即可啟動R的交互式窗口(R-GUI)。于命令提示符“>”后輸入命令 install.packages(“OptimalCutpoints”),在彈出的對話框中選擇某個鏡像安裝(CRAN),安裝完成后可由library(“OptimalCutpoints”)命令完成加載。至此,軟件及OptimalCutpoints程序安裝完畢。
本文數據來源于徐州醫學院附屬醫院影像科關于腦膠質瘤的MRI數據,其主要目的是研究4個不同的MRI參數對腦膠質瘤的鑒別診斷能力及各參數的截斷值,4個指標中,除了ADC指標值越大其惡性程度越低外,其他指標值越大惡性程度越高。
在數據加載前,需要對數據進行格式排列,排列后的形式見表1。數據排列完成后,為便于R讀入數據,將其轉換為常見的SPSS軟件讀取的“.sav”格式儲放在桌面并用foreign包進行數據加載,具體命令如下:

表1 導入數據的格式
install.packages(“foreign”)
library(foreign)
w <-read.spss (“C:/Users/Administrator/Desktop/MRI.sav”)#讀入 spss數據格式
在完成數據加載后,即可實現數據的分析。該程序包執行數據分析時,通常用到optimal.cutpoints函數進行ROC曲線面積及截斷點相關計算、summary函數對數據分析完成后執行匯總及用plot函數以圖形化形式呈現統計分析結果。以下將展示具體命令及相關說明。
(1)不含協變量的情況
①診斷指標越大異常概率越大的情況
以MRI診斷指標ACBF采用“Youden指數最大法”計算最佳截斷點為例:
library(“OptimalCutpoints”)
>ACBFcutoff<-optimal.cutpoints(X=“ACBF”,status=“result”,tag.healthy=1,methods=“Youden”,data=w,ci.fit=TRUE,conf.level=0.95)
>summary(ACBFcutoff)
>plot(ACBFcutoff,which=c(1,3),pch=22,col=“blue”,ylim=c(0,1))
第一個命令“>ACBFcutoff”讀者可以理解為將計算結果保存于 ACBFcutoff。其中,命令參數X=“ACBF”指定診斷指標變量 ACBF;status=“result”指定金標準指標;tag.healthy=1為金標準正常時的標志;methods=“Youden”表明計算截斷值時采用包中最常用的方法Youden指數最大法;ci.fit=TRUE要求計算可信區間;conf.level=0.95為計算各個指標的95%可信區間。第二個命令“>summary(ACBFcutoff)”將顯示相關計算結果內容,其中AUC為ROC分析的面積,cutoff為最佳截斷值,Se為靈敏度,Sp為特異度,PPV為陽性預測值,NPV為陰性預測值,Optimal criterion為Youden指數原則最大值。第三個命令“>plot”為以圖形化形式呈現具體結果(圖1-2)。

圖1 ABCF指標的ROC曲線

圖2 ABCF指標的診斷界值和Youden指數值

表2 不同原則求取最佳截斷點常見方法結果比較
②診斷指標越大,異常概率越小的情況
由于ADC指標反映的是其值越大惡性程度越低,如果直接采取上面的代碼進行統計分析,得到的結果可能剛好相反,故只需要對上述代碼添加條件設置,具體代碼如下:
>ADCcutoff<-optimal.cutpoints(X=“ADC”,status=“result”,tag.healthy=1,direction=“>”,methods=“Youden”,data=w,ci.fit=TRUE,conf.level=0.95)
其中direction=“>”表明該指標大于截斷值為正常,默認情況為大于該截斷值為異常,其他參數命令意義同上。
(2)含協變量的情況
在臨床實踐中,不僅要考慮到該診斷試驗的固有正確度,還應該考慮到病人的性別、患病率、病情嚴重程度或解剖部位等對診斷指標的影響[4],故在此以病人性別為例加以說明,來探討性別對診斷準確度的影響,實例如下:
>ACBFcutoff_gender<-optimal.cutpoints(X=“ACBF”,status=“result”,tag.healthy=1,methods=“Youden”,data=w,categorical.cov=“gender”,ci.fit=TRUE,conf.level=0.95)
>plot(ACBFcutoff_gender,which=c(1,3),pch=22,col=“red”,ylim=c(0,1))
其中第一條命令中categorical.cov=“gender”說明考慮協變量性別的影響。其他命令同上文,詳細結果見圖3~6。

圖3 男性ABCF指標的ROC曲線

圖4 女性ABCF指標的ROC曲線

圖5 男性ABCF指標的診斷界值和Youden指數值

圖6 女性ABCF指標的診斷界值和Youden指數值
從圖中我們可以清楚地看出,不同性別的診斷指標截斷值不同,ABCF的診斷能力在女性中強于男性,ABCF的截斷值男性要大于女性。
科學研究中,進行ROC曲線分析的軟件非常多,除常見的SPSS軟件外,還有SAS軟件、ROC曲線分析專用工具如ROCKIT、ROCPWR等。但是他們要么不能很好地直接求取截斷點,要么就是選取截斷點的規則較單一或需要繁瑣的編程[5]。
隨著R軟件OptimalCutpoints程序包的發布,使得繁瑣的計算變得簡單,結果表達更加形象、直觀,而且它綜合考慮到各個學科的應用可能,提供截斷點選擇參考原則的方法多達34種。
本文只選取了不同原則常見的幾種方法加以說明,由表2可知,在診斷價值(AUC值)相等的情況下,根據不同目的選取的方法不同,得出的最佳截斷值亦有所差異。臨床醫生可以綜合考慮疾病的發病概率、特征和治療效果以及成本來選擇合適的方法進行計算。
盡管如此,OptimalCutpoints程序包還有許多需要完善的地方,最大的缺陷是沒有集合不同指標ROC間的AUC面積比較功能。要實現ROC曲線面積間的差異比較,還需要特調用 Daim包、ROCR包或 pROC包[6]。
本文結合實例,主要對R軟件中實現最佳截斷點分析時相關的函數調用及繪圖功能作簡要的說明,涉及更多的選項請參照R的幫助文檔。
[1]宇傳華.ROC分析方法及其在醫學研究中的應用.第四軍醫大學,2000.
[2] López-Ratón M,Rodríguez-09 lvarez MX,Cadarso-Suárez C,et al.Optimal Cutpoints:An R Package for Selecting Optimal Cutpoints in Diagnostic Tests.Journal of Statistical Software,2014,61(8).
[3]紀威,張濤,崔軍.R軟件在慢性病監測數據清洗中的應用.中國衛生統計,2014,31(4):718-719.
[4]Zhou XH,Obuchowski NA,M cclish DK.Statistical Methods in Diagnostic Medicine.W iley&Sons,2010.
[5]Gonen M.Analyzing Receiver Operating Characteristic Curves with SAS.American Statistician,2008,62(4):1036-1036.
[6]Sing T.ROCR:visualizing classifier performance in R.Bioinformatics,2005,21(20):3940-3941.
江蘇高校哲學社會科學研究基金項目(No:2014SJD440)
1.徐州醫學院附屬醫院影像科(221002)
2.上海常笑健康管理咨詢有限公司
3.徐州醫學院流行病與衛生統計教研室
△通信作者:趙華碩.E-mail:hszhao@xzmc.edu.cn
(責任編輯:郭海強)