季聰華梁建鳳劉 姍張 穎洪雪文
ROC分析方法在病因學研究中的應用*
季聰華1梁建鳳2劉 姍1張 穎1洪雪文1
疾病發生發展過程中的基本醫學研究問題包括:致病因素引起疾病的發生,對疾病進行診斷,預防和治療疾病,疾病轉歸產生結局等。圍繞這一系列過程可以產生很多研究命題,可以運用到很多統計學方法,其中ROC分析方法在診斷試驗中應用較多,在其他疾病發生發展環節尚未被充分應用,值得我們進一步深入研究。本文探討ROC分析方法在病因學研究中的應用。
ROC分析是一種把靈敏度和特異度結合起來綜合評價診斷準確度的方法。其基本思想是把靈敏度和特異度看作一個連續變化的過程,用ROC曲線描述診斷系統的特性,用曲線下面積說明診斷的準確度。同時,根據曲線拐點,可選取理論上最合適的臨界值(cut off point),使試驗的靈敏度和特異度達到最優[1]。美國生物統計百科全書[2]中關于ROC的定義是:“對于可能或將會存在混淆的兩種條件或自然狀態,需要試驗者、專業診斷學工作者以及預測工作者作出精細判別,或者準確決策的一種定量方法。”
ROC分析方法中作為診斷金標準的一般是兩分類變量,而新的診斷系統一般是連續型資料,通過ROC分析的臨界值處理可轉換為兩分類變量,用于做出是與否的診斷。所以ROC分析方法同時又是進行兩分類變換、尋找合適分界點的有效方法。在我們的病因學研究、疾病防治研究和預后研究中,有疾病發生(是、否)、療效(有效、無效)和預后終點事件(死亡、存活)等類似于金標準的兩分類變量,也有連續型資料需要轉化成兩分類變量的情況,所以應用ROC分析方法原理進行分析處理是不錯的選擇。
1.“金標準”的確定
在ROC分析中,兩分類的“金標準”是進行評價的關鍵性指標。病因學研究常采用隊列研究或者病例對照研究,所以在病因學研究中的“金標準”實際上就是病因的結局——疾病的發生。在隊列研究中,是病例與對照的觀察終點——疾病發生與否;在病例對照研究中,是分組依據。
2.研究因素
病因學研究中的研究因素,即可疑的疾病危險因素。危險因素一般是多因素的,有兩分類變量,也有連續型變量。對于連續型變量,確定其是否為危險因素,一般采用logistic回歸分析。對同一資料的分析,變量采用不同的取值形式,參數的含義、量值及符號都可能發生變化[3]。logistic回歸只回答某個連續型變量總體上是不是危險因素,危險程度如何(用RR或OR值表示),但不能回答具體在哪個臨界點以上或以下危險性增大。直接采用數值型變量參與計算時,得到的exp(b)表示每增加一個單位的優勢比,實際意義不大。將數值型變量劃分為分類變量時則容易解釋專業意義。連續型變量可以轉換成分類變量進行logistic回歸分析,但不同的分類依據,所取得的OR值(或RR值)是不一樣的,這也給我們分類依據的科學性提出考驗。
3.閾值的判斷
將數值型變量轉化成分類變量的方法,可以是依據平均數或者中位數為界進行劃分,也可以按照專業知識大致按某個整數點位進行劃分,這些方法都帶有粗略的特征。采用ROC分析進行閾值判斷的基本原理是連續型變量值與“金標準”進行ROC分析,選取靈敏度+特異度值最大時候的連續型變量值作為危險因素兩分類轉換的分界點,因采用的“金標準”是疾病發生與否,所以以獲得的分界值為分類臨界點的兩分類數據可以計算到最大的OR(RR)值。
4.logistic回歸分析獲取OR(RR)值
以閾值為分界點進行連續型資料的二分類轉換,然后進行二分類logistic回歸分析,獲得OR(RR)值及其95%CI。這個計算到的exp(b)值(OR值)是最大的,這個臨界點正好說明了是該危險因素的轉折點。
1.案例要點
為說明ROC方法對連續型變量進行分類的意義,選擇了中醫藥研究生《中醫藥統計學》教科書上的一個危險因素分析的例子[4]。為了探索有關危險因素和保護因素,對33例胃癌病人和33例對照者進行病例對照研究,研究的危險因素有多個,其中所考察的危險因素中的年齡為連續型變量。本文主要說明ROC分析法在連續型變量轉化成分類變量中的作用,所以只摘取其原始數據中的年齡數據,如表1所示。

表1 胃癌病人與對照病人的年齡情況表
2.ROC分析
以組別(病例=1,對照=0)作為參照系統,年齡作為分析變量進行ROC分析。結果顯示,ROC曲線下面積為0.658(0.525~0.790),p=0.027,靈敏度+特異度最大時的cutoff值為60.5歲,cutoff值的靈敏度+特異度=1.303。
3.logistic回歸分析
對于連續型變量的logistic回歸分析,可以有兩種處理方法。一種是直接進行計算,可以回答在不進行分類的情況下,年齡每增加1歲時的比值比;另一種是將連續型資料轉換成分類資料,常見的是進行兩分類轉換,即以某個值(如平均數、中位數等)為界值進行兩分類變換。
(1)變量不轉換的logistic回歸分析結果
進行二分類logistic回歸分析,將連續型資料直接作為自變量進行計算,可得OR值為1.068,95%CI為1.005~1.134,P=0.034,顯示OR值有統計學意義,年齡因素是胃癌的危險因素,但危險程度很低。
(2)以均數為界值進行二分類轉換
經計算,兩組66例研究對象年齡的算術均值為57.29歲。對年齡資料以57.29歲為臨界點進行二分類轉換,大于等于57.29歲=1,小于57.29歲=0。進行二分類logistic回歸分析,將轉換后的年齡作為自變量進行計算,可得OR值為1.859,95%CI為0.695~4.976,P=0.217,顯示OR值沒有統計學意義,即以57.29歲為界,尚不能說明年齡的高低是胃癌的危險因素。
(3)二分變量轉換后的logistic回歸
采用ROC分析結果,對年齡資料以60.5歲為臨界點進行二分類轉換,大于等于60.5歲=1,小于60.5歲=0。進行二分類logistic回歸分析,將轉換后的年齡作為自變量進行計算,可得OR值為3.946,95%CI為1.343~11.600,P=0.027,顯示OR值有統計學意義,即以60.5歲為界,年齡大于60.5歲是低于60.5歲發生胃癌的危險比是3.946(1.343~11.600),表明年齡大于60.5歲具有較高的患病風險。三種不同處理方式的結果如表2所示。

表2 不同處理方式的logistic回歸結果
從表中可以看出,以cut off值為界值的二分類轉換方法具有更強的區分能力,能更加精確地發現危險因素。
ROC分析方法20世紀50年代起源于統計決策理論,在醫學領域中的應用從20世紀80年代開始。最初應用在生理學和神經醫學,在醫學影像診斷試驗研究中應用最廣泛,在檢驗醫學和中醫藥學研究[5]也應用較多,但應用于病因學的研究中尚不多見。實際上根據ROC分析的基本數據特征,以一個二分類變量作為“金標準”,分析另一個連續型變量,不僅在成熟的診斷試驗領域,在病因學研究領域,甚至在疾病防治、疾病預后研究等領域,都有類似的數據特征資料,而且也有相同的尋找臨界點的需求,所以ROC分析方法在理論上能很好地解決需要分類轉換分析時存在的問題。在實踐過程中,我們通過本案例也很清楚地看到了ROC分析在解決這類問題時的能力和優勢。
ROC分析技術在醫學領域的應用較晚,但發展迅速,解決了很多醫學研究的難題,但ROC分析的局限性也是很明顯的。ROC分析一般只能處理單因素,而病因往往是多因素的,所以ROC分析方法不能作為病因學分析的主要方法,而主要用于連續型變量轉換成分類變量臨界點的確定。
1.賈振華.ROC曲線在醫學診斷中的應用與進展.東南大學學報,2003,22(1):1-4.
2.Armitage P,Colton T.Encyclopedia of biostatistics.New York:John,1998:3738-3744.
3.孫振球主編.醫學統計學.第3版.人民衛生出版社,2012,292.
4.史周華,張雪飛主編.中醫藥統計學.第1版.科學出版社,2009,193-194.
5.季聰華.ROC分析方法在中醫辨證診斷量表研制過程中的應用,中華中醫藥學刊,2013,31(3):550-551.
(責任編輯:劉 壯)
浙江省衛生廳資助課題(項目編號:2011ZQ011)
1.浙江省中醫院臨床評價分析中心(310006)
2.浙江大學醫學院附屬兒童醫院