尚美霞姚 晨閻小妍康曉平Δ
影像診斷試驗中多閱片者研究的設計與分析
尚美霞1姚 晨2閻小妍3康曉平1Δ
影像診斷試驗評價的診斷方法很多,目前研究常見的X線、CT以及磁共振成像的診斷原理大體一致,都是通過對人體掃描,將重建的圖像顯示在顯示屏或者其他的載體上,供影像醫生讀片并對疾病的影像診斷結果做出判斷[1]。
因此影像診斷試驗的實際準確度其實是診斷儀器以及使用這些儀器的影像科醫生之間的“合并準確度”[2],但在真實的臨床應用中不同的影像科醫生之間閱歷、知識水平和能力存在很大差別,對于影像圖片的判斷標準也不盡一致,為了讓研究估計的診斷試驗的實際準確度更接近于其真實的準確度,研究中應該隨機的選擇多位影像科醫生對圖像進行解釋[3]。
采用多名閱片者的研究設計可以有效的避免診斷試驗準確性評價過程中因影像醫生讀片而產生的讀片偏倚,使結果更具代表性[4];但多名閱片者同時讀片產生的結果在不同閱片者之間及相同的閱片者內部都會存在變異,同時閱片者與病例、診斷試驗之間也可能存在復雜相關,由于這些相關的數據不能分開成相互獨立的幾部分,所以常用的處理相關數據的方法也無法適用,因此在對閱片結果進行分析時需要綜合考慮所有的變異和相關,探討選擇合適的統計分析方法。關于多名閱片者的診斷試驗評價,已有學者作了相關研究,本文重點對影像診斷試驗中多閱片者研究的設計與統計分析方法進行介紹和綜述。
1.影像診斷試驗準確度評價的臨床研究階段
影像診斷試驗準確度評價的臨床研究分為三個階段,階段一是探索階段,是新技術診斷能力的首次探討,研究目標是確定新技術是否具有任何診斷價值;階段二是挑戰階段,通過將試驗應用于難以分辨的病例組與對照組,挑戰該試驗的準確度,但是診斷試驗的準確度通常受病例特征的影響,同一病例特征可能對兩個試驗的影響不同,同時可能存在病例與診斷試驗之間的相關,影響診斷試驗的準確度;階段三是臨床階段,在階段二確定了不同總體的試驗以及某些總體的兩個試驗之間準確度差異存在的基礎上,測量診斷試驗的確切準確度或兩個診斷試驗間準確度差異的確切大小[5]。
2.多閱片者研究的設計方法
多閱片者研究多應用于影像診斷試驗準確性評價的第二、三階段,目的在于估計和比較兩個或者多個診斷試驗的確切準確性。多閱片者研究設計分別選取具有代表性的病例樣本(包括經金標準確診待研究疾病的患者與非患者)和閱片者樣本,每個病例依次接受兩個或多個診斷技術的檢查,然后每位閱片者盲法對病例接受試驗的影像結果進行解釋,閱片者閱片時既不清楚病例的真實疾病狀態也不清楚其他診斷技術或者其他閱片者的影像結果。因此與常用的影像診斷試驗研究不同,多閱片者研究需要分別考慮病例和閱片者兩部分的代表性,并分別估計兩者的樣本量,保證目標病例和目標閱片者的樣本無偏。
對于兩個及以上的影像診斷試驗,考慮到病例和閱片者的樣本量以及試驗過程中閱片者閱片的次數限制,多閱片者研究常需要決定是否采用閱片者的配對設計。目前有關配對設計的多閱片者研究大體有兩種:配對患者與配對閱片者設計(傳統設計)和每閱片者配對患者與配對閱片者設計(混合設計),另外也有一些綜合這兩種設計而提出的交叉設計的方法。其中最常應用的是配對患者與配對閱片者設計(paired-patient paired-reader design)。
(1)配對患者與配對閱片者設計
傳統設計又稱為配對患者與配對閱片者設計(paired-patient paired-reader design)[6],需要全部閱片者解釋所有病例接受所有診斷技術的影像結果。假定所有病例數目為N(含經金標準確定的待研究疾病的患者與非患者),解釋所有病例所有試驗結果的閱片者數目為J,那么在診斷試驗數目為2的條件下就會有2×N×J種影像診斷試驗的解釋結果,其中,Tkj1與Tkj2分別表示第j閱片者解釋第k患者的試驗1與試驗2的結果。表1給出了這種設計的數據格式[4]。
(2)混合設計
混合設計又稱為每閱片者配對患者(paired-patient-per-reader)與配對閱片者設計[5],需要每位閱片者解釋其所對應的病例接受全部試驗的診斷結果,與傳統設計相比,不需要每位閱片者對全部病例的結果都作出解釋。假定所有閱片者數目為J,每一閱片者對應的接受所有診斷試驗的病例數目為N(含經金標準確定的待研究疾病的患者與非患者),則需要所有病例數目為N×J,診斷試驗數目為2的條件下就會有2×N×J種影像診斷試驗的解釋結果,其中,Tkj1與Tkj2分別表示第j閱片者解釋第k患者的試驗1與試驗2的結果。表2給出設計的數據格式[5-6]。

表1 傳統設計的數據格式

表2 混合設計的數據格式
(3)交叉設計
傳統設計與混合設計的多閱片者研究相比:傳統設計需要的病例樣本量數量少,但閱片者需要解釋影像結果的次數卻很多;相反的,混合設計雖然閱片者需要解釋影像結果的次數少,但設計需要的病例樣本量要比傳統設計多。因此,近來提出了結合兩種設計的交叉設計方法,可減少病例樣本量以及閱片者解釋試驗結果的次數。這些交叉設計方法比較靈活,可用一半的閱片者解釋其中n個病例的試驗結果,另一半的閱片者解釋另外n個病例的試驗結果(全部病例數N=n+n);當然,也可以根據研究的需求,將病例與閱片者分成三部分或者多部分來設計。但這些設計都必須符合如下特征:至少有其中兩名閱片者對同一組病例的影像結果進行解釋;至少有其中兩名閱片者對不同組病例的影像結果進行解釋[6]。表3給出了一種交叉設計的數據格式。

表3 交叉設計的數據格式
當然,配對設計方便且效能較高,但有些情況下可能不允許采用配對閱片者設計,例如閱片者對某診斷試驗有既得利益,該閱片者在讀片時便會自覺不自覺地更仔細地解釋自己偏愛的試驗,為了避免“偏好”干預的偏倚,也應該采用非配對設計[4-5]。雖然配對設計的多閱片者研究設計更被大家認可和接受,但是在實際臨床研究環境中不允許采用配對設計時,仍需要根據實際的條件選擇合適的設計方案。
1.多閱片者研究分析中存在的各種混合效應
多閱片者研究進行診斷試驗準確度分析時,不同的閱片者之間(技術水平、認知能力、讀片經歷、培訓等)和不同的病例之間(疾病狀態、自身特征、合并疾病等)本身存在很大變異;同時所有病例將接受所有診斷試驗并由全部閱片者對影像結果進行解釋,雖然這種設計對于試驗之間的比較是有效的,但病例、閱片者以及診斷試驗之間試驗結果缺乏獨立性,會存在各種不同的相關:病例分別接受每一個診斷試驗引起的相同病例不同診斷試驗之間診斷準確度誤差項的相關,同一個閱片者分別解釋所有病例每一個診斷試驗的結果引起的相同閱片者不同診斷試驗之間診斷準確度誤差項的相關,所有的閱片者對同一病例同一診斷試驗結果進行解釋而引起的不同閱片者相同診斷試驗的診斷準確度誤差項的相關以及不同閱片者不同診斷試驗之間診斷準確度誤差項的相關等[7]。
綜合以上各種復雜的相關結構,在對研究結果進行分析時必須考慮這些相關引起的混合效應,根據試驗的研究目的將影像診斷試驗的真實效應分為試驗本身的固定效應、閱片者和病例自身的效應(固定或隨機效應)以及病例、閱片者和診斷試驗之間的2階或3階交互效應還有隨機誤差。
2.多閱片者研究的分析方法研究現狀
國內宇傳華教授2000年考慮到協變量的混雜效應問題,曾采用混合效應模型的方差分析實現了多觀察者、多診斷方式準確性的比較,但有關協變量只能是分類變量的問題尚未得到解決。2002年周曉華等出版的《Statistical Methods in Diagnostic Medicine》專著,對國外大量的文獻做了綜述,內容十分豐富,其中在相關ROC數據分析一章中專門探討了統計方法在多閱片者多次試驗研究中的應用。除此之外,不論是多閱片者研究的設計、樣本量的計算還是統計分析方法的角度,國內尚沒有做過這方面的研究。
國外文獻中提出了一些有關多閱片者研究的統計分析方法。第一種(OR法)是對于閱片者與試驗每一組合的ROC曲線綜合指標(如ROC曲線下面積)估計值,建立兩因素的混合效應方差(ANOVA)模型,分析單位是ROC曲線綜合指標[8];第二種(DBM法)是采用Jackknife法計算病例、閱片者和試驗間每一組合的ROC曲線綜合指標偽值,分析單位是病例,對Jackknife偽值建立標準的混合效應線性模型[9];第三種是對ROC曲線綜合指標估計值,主要采用Bootstrap法計算混合效應線性模型的六個方差成分,同時對各方差成分的分布不做任何假設[10];最后一種是采用邊際回歸模型計算ROC曲線下面積(area under curves,AUC),這種方法的分析指標常限于AUC,但同時可以在分析時納入可能影響試驗結果的協變量,同時對于研究病例的樣本量要求較低[11-12]。幾種方法都是基于構建相關因素的混合效應模型,不同的方法對閱片者或病例的效應處理方式有所不同[12]。
3.基于Jackknife偽值的混合效應方差分析模型(DBM法)
在ROC分析中計算曲線下面積的標準誤和可信區間,尚沒有精確的或明確規定的公式或方法,目前常用反復再抽樣的方法獲得較精確的標準誤和可信區間[13]。Dorfman、Berbaum和Metz等人在1992年對多閱片者ROC數據提出了基于偽值進行計算的混合效應ANOVA分析,因此稱之為Dorfman-Berbaum-Metz(DBM)法。該方法一般多用于配對患者與配對閱片者的多閱片者研究設計。
(1)統計學模型
假定試驗研究中真實患病者m例,未患病者n=N-m例,可采用參數方法或者非參數方法獲得第i試驗第j閱片者的ROC曲線下面積其中i=1,…,I和j=1,…,J,他們的基本理論就是利用Jackknife法計算ROC曲線下面積的偽值。另為從樣本刪除第k患者后計算獲得的然后采用公式

計算第i試驗、第j閱片者、第k患者的Jackknife偽值。以Yijk作為因變量,以閱片者和病例變量作為隨機因素,試驗變量作為固定因素,構建模型如下:

其中,u為總均數;ti為第i試驗對應的固定效應,一般情況下;rj為第j閱片者對應的隨機效應;pk為第k患者對應的隨機效應;(tr)ij為第i試驗、第j閱片者對應的2階交互隨機效應;(tp)ik為第i試驗、第k患者對應的2階交互隨機效應;(rp)jk為第j閱片者、第k患者對應的2階交互隨機效應;(trp)ijk為第i試驗、第j閱片者、第k患者對應的3階交互隨機效應;εijk為隨機誤差項。模型中假定隨機效應[rj、pk、(tr)ij、(tp)ik、(rp)jk、(trp)ijk]和誤差項[εijk]獨立,且服從均數為0,方差分別為的正態分布[14-15]。表4給出了混合效應模型方程的方差分析表[5]。

表4 混合效應方程模型的方差分析(ANOVA)表
多閱片者ROC研究采用DBM法構建的混合效應ANOVA模型可以應用于連續資料也可以應用于有序等級資料。模型中的分析指標可以是診斷試驗常用的靈敏度、特異度指標,也可以是ROC曲線下面積、某特定特異度區間對應的部分ROC曲線下面積等。
(2)假設檢驗
模型擬檢驗的Ho假設是各診斷試驗的固定效應相等,即H0:t1=…tI,如果沒有試驗與閱片者以及試驗與病例的交互作用,資料服從分子自由度為I-1,分母自由度為(I-1)(J-1)(N-1)的標準F分布,可以利用方差分析的方法直接用公式F=MSt/MStrp檢驗試驗的固定效應是否相等[16];如果存在試驗與閱片者或試驗與病例的交互作用,資料不能滿足標準的F分布,需采用Satterthwaite近似F檢驗方法檢驗H0是否成立,此時F分布的分子自由度仍為I-1,但分母自由度和F檢驗統計量(F'=MSt/(MStr+MStp-MStrp))變為如下公式(由于沒有重復測量,所以認為
分母自由度=

多閱片者研究除了可以驗證假設檢驗是否成立之外,通常還需要估計診斷試驗相應的曲線下面積及其可信區間,以及兩個或者多個診斷試驗之間曲線下面積的差值及其可信區間。Dorfman、Berbaum和Metz利用Satterthwaite方法也給出了估計各診斷試驗固定效應的均數和不同診斷試驗固定效應均數的差值及95%的可信區間的方法研究[17]。
(3)單一診斷試驗均數的可信區間
對于某一固定的診斷試驗I,根據前面構建的統計學模型可以簡化為:

模型中各參數對應的效應不變,同樣假定隨機效應[rj、pk、(rp)ik]和誤差項[εijk]獨立,且服從均數為0,方差分別為的正態分布。對于第i個診斷試驗,其均數和均數的標準誤可以表示為:

所以,第i個診斷試驗均數95%的可信區間可以表示為其中v表示為自由度,可以通過公式計算得到。表5給出了某一固定診斷試驗下該模型方程的方差分析表。

表5 混合效應方程模型的方差分析(ANOVA)表(固定試驗效應)
(4)兩診斷試驗均數差的可信區間
對于兩個相比較的診斷試驗i1和i2,估計這兩個診斷試驗均數差的95%可信區間時,其均數之差用Yi1jk-Yi2jk表示,均數差值的標準誤為計算公式如下:

如果診斷試驗與閱片者、診斷試驗與病例之間沒有交互作用存在,按照上述診斷試驗與閱片者、診斷試驗與病例的2階隨機交互效應將不進入模型,兩診斷試驗均數差值的標準誤可以進行簡化為公式自由度為dftrp。

4.基于DBM法的樣本量計算
根據DBM法構建的混合效應模型,假定期望效應d用兩個不同診斷試驗之間的絕對差值來表示,例如d=|AUC1-AUC2|,其中AUC1、AUC2分別為兩個不同診斷試驗的ROC曲線下面積值。根據預試驗或既往研究結果,估計各種效應的方差成分參數其中,

假定δ為F分布的非中心參數,1-β為檢驗效能,α為顯著性水平,根據以下公式可以估計不同把握度1-β、期望效應d、顯著性水平α條件下的閱片者和病例的樣本量[18]。

以主動脈夾層的診斷為例,評價SE MRI和CINE MRI兩種診斷技術對主動脈夾層的診斷準確度。為了合理估計受試者和閱片者的樣本量,預實驗隨機選擇114例受試者(45例主動脈夾層患者,69例非主動脈夾層患者),由5名影像科醫生獨立盲法采用五分法對影像圖片進行診斷結果的判讀(1=確定為非主動脈夾層患者,2=可能為非主動脈夾層患者,3=不確定,4=可能為主動脈夾層患者,5=確定為主動脈夾層患者)。表6給出了采用DBM法計算得到的各種效應的方差分析結果[18]。

表6 主動脈夾層診斷預實驗研究方差分析的部分結果
根據預實驗的方差分析結果可以估計SE MRI和CINE MRI兩種診斷技術在假定診斷準確度期望效應為0.05,病例樣本量為240,閱片者樣本量為8,檢驗水準為0.05的條件下該研究的檢驗效能大小。
(1)首先估計各部分的方差分量如下:


(4)根據公式(12)估計檢驗效能的大小:

多閱片者研究充分考慮影像診斷試驗的特殊性,避免了僅用一位或兩位閱片者單一分析影像學圖像質量的評價方法,特別關注了以下幾個問題:
(1)閱片者之間有多大的差異,簡單采用一名或者兩名的閱片者一致性評價對研究結果會有多大偏倚;
(2)采用一名或者兩名閱片者對影像結果進行評價得到的診斷試驗結果是否具有代表性,能否普遍適用于該閱片者樣本之外的病例和閱片者總體;
(3)目標閱片者的個人特征(經歷、培訓等)、試驗病例的自身條件(疾病狀態、生理特征)的變異對試驗準確度會產生怎樣的影響;
(4)閱片者、病例以及診斷試驗之間會有多少的相關,這些相關會對試驗準確度產生怎樣的影響;
(5)診斷試驗研究所需要的閱片者的樣本量具體應該怎樣確定,有何依據。
因此,與傳統的影像診斷試驗統計方法相比,多閱片者研究能更好地利用影像診斷臨床試驗中的相關信息,更全面地控制研究過程中的各種變異或偏倚,從而得到更加有效可靠的影像診斷試驗結果,對于疾病的鑒別診斷更有臨床意義和價值。但是,由于多閱片者研究設計中的各種復雜相關,使得其結果的分析也變得更加復雜,雖然目前有一些專門針對多閱片者研究的統計學方法,但是其適用性仍然需要更深入的探討和分析。
1.麥青.DR的成像原理、臨床應用及維護保養.醫療裝備,2012,11:30-31.
2.Beam CA,Baker ME,Paine SS,et al.Answering unanswered questions:proposal for a shared resource in clinical diagnostic radiology research.Radiology,1992,183(3):619-620.
3.Gatsonis C,M cneil BJ.Collaborative evaluations of diagnostic tests:experience of the Radiology Diagnostic Oncology Group.Radiology,1990,175(2):571-575.
4.M iglioretti DL,Haneuse SJ,Anderson ML.Statistical approaches for modeling radiologists'interpretive performance.Acad Radiol,2009,16(2):227-238.
5.Zhou XH.Statistieal methods in diagnostic medieine.NewYork:JohnWiley&Sons,2002.
6.Obuchowski NA.Reducing the number of reader interpretations in MRMC studies.Acad Radiol,2009,16(2):209-217.
7.Obuchowski NA,Beiden SV,Berbaum KS,et al.Multireader,multicase receiver operating characteristic analysis:an empirical comparison of fivemethods.Acad Radiol,2004,11(9):980-995.
8.Obuchowski NA.Multireader,multimodality receiver operating characteristic curve studies:hypothesis testing and sample size estimation using an analysis of variance approach with dependent observations. Acad Radiol,1995,2 Suppl 1:S22-S29,S57-S64,S70-S71.
9.Dorfman DD,Berbaum KS,Metz CE.Receiver operating characteristic rating analysis.Generalization to the population of readers and patients with the jackknifemethod.Invest Radiol,1992,27(9):723-731.
10.Beiden SV,Wagner RF,Campbell G.Components-of-variance models and multiple-bootstrap experiments:an alternative method for randomeffects,receiver operating characteristic analysis.Acad Radiol,2000,7(5):341-349.
11.Skaron A,Li K,Zhou XH.Statisticalmethods for MRMC ROC studies. Acad Radiol,2012,19(12):1499-1507.
12.Song X,Zhou XH.A marginalmodel approach for analysis of multireadermulti-test receiver operating characteristic(ROC)data.Biostatistics,2005,6(2):303-312.
13.Hillis SL,ObuchowskiNA,Schartz KM,etal.A comparison of the Dorfman-Berbaum-Metz and Obuchowski-Rockettemethods for receiver operating characteristic(ROC)data.Stat Med,2005,24(10):1579-1607.
14.陳峰,姚晨,孫高,等.新藥臨床試驗中重復測量資料的混合效應模型.中國衛生統計,2000,06:54-57.
15.陳長生,徐勇勇,王彤.交叉設計資料的混合效應模型分析.中國衛生統計,2005,04:214-217.
16.姚樹祥,巫秀美,倪宗瓚,等.固定效應模型與混合效應模型在測量誤差估計中的應用.中國公共衛生,2000,11:47-48.
17.宇傳華.ROC分析方法及其在醫學研究中的應用.第四軍醫大學,2000.
18.Hillis SL,Berbaum KS.Power estimation for the Dorfman-Berbaum-Metzmethod.Acad Radiol,2004,11(11):1260-1273
(責任編輯:郭海強)
1.北京大學公共衛生學院流行病與衛生統計系(100191)
2.北京大學第一醫院
3.北京大學臨床研究所
△通信作者:康曉平,E-mail:Xpkang@bjmu.edu.cn