尚美霞 姚 晨 康曉平 閻小妍
1.北京大學第一醫院醫學統計室(100034)
2.北京大學公共衛生學院流行病與衛生統計系
3.北京大學臨床研究所
△通信作者:康曉平,E-mail:Xpkang@ bjmu.edu.cn
MRMC方差分析在影像診斷試驗多閱片者多病例研究設計中的應用
尚美霞1姚 晨1康曉平2△閻小妍3

影像診斷試驗 多閱片者多病例 MRMC方差分析 方差分量
對影像診斷技術的臨床試驗研究越來越多,評價影像診斷技術診斷性能的指標和方法也層出不窮,ROC曲線分析法由于其不用固定明確的診斷界值而成為目前國內外公認的比較評價2種或2種以上的影像診斷手段效能差異性的客觀標準的統計學方法[1-2]。但臨床影像診斷系統是由影像診斷技術和診斷醫生共同構成的,臨床醫生的專業水平和識別能力存在差異,這種差異能導致影像科醫生選擇不同的診斷標準;同時,在臨床工作中經常出現同病異影和同影異病的情況,且可能由于病例影像征象不典型而無法做出明確診斷,也為評價不同的影像學診斷方法帶來一定困難,影像醫生在做出診斷時不可避免的會出現各種偏倚。在影像診斷試驗研究中為考慮醫生所產生的偏倚,使診斷試驗研究的結果更接近其臨床的真實情況,國際上已逐漸趨向于采用多閱片者多病例(multireader multicase,MRMC)的研究設計[3-5]。本研究利用一個乳腺腫瘤影像診斷試驗多閱片者多病例設計的實例,用MRMC方差分析方法對有多閱片者參與的兩種影像診斷技術數據結果進行統計處理,并與傳統ROC曲線分析法進行比較,為探索能夠合理、客觀反映影像診斷系統診斷性能的統計分析方法提供依據。
1.研究對象
選擇2006 年7 月至2007 年6 月來自全國五家三甲醫院經過病理學診斷為乳腺腫瘤良性患者48例,惡性患者48例,共96例均為女性患者,年齡在25~ 88 歲,平均年齡55 歲。
2.影像采集系統和閱片者
目前檢查乳腺疾病時常規二維掃描成像應用有效且廣泛,但對于重疊組織、結構化噪聲以及檢查有致密乳腺組織的病例時存在一定的局限性,導致乳腺腫瘤的檢出率有限,復查率過高;而三維斷層合成技術,可降低乳腺攝影中重疊組織和結構化噪聲的影響,對于有致密乳腺組織的受檢者,可視化效果相對更好,預計可改善乳腺腫瘤的早期檢出。所以本項臨床研究分別采用乳腺腫瘤影像診斷應用的常規數字乳腺攝影成像(2D)與Selenia全區域數字乳腺攝影系統乳腺斷層合成(3D)方法,常規攝取雙側乳腺軸位和側斜位,必要時加照側位和局部加壓放大攝影。注意觀察每位患者的乳腺類型、病灶大小、清晰度、邊緣狀況、病灶形態、病灶內部或鄰近有無鈣化(包括鈣化大小、形態、數目、密度和分布等)等。本研究的閱片者來自全國八家醫院的12名具有不同經驗水平和閱片經歷的影像科醫生,其中經驗較豐富者7名,經驗較少者5名。
1.研究變量的定義及賦值
(1)閱片者閱片 正式開始研究前先對12名放射科醫生就影像成像和讀片規則進行三天培訓。培訓結束后在不提供患者姓名、臨床診斷資料等情況下,由12位熟練掌握該乳腺癌診斷技術的影像科醫生以隨機次序獨立閱讀所有受試者的2D成像影像集并作出影像診斷,一個月之后再由這12位影像科醫生隨機獨立閱讀相同受試者的3D乳腺成像影像集并再次作出影像診斷。
(2)閱片者讀片結果表達 病理學結果作為金標準診斷受試者是否患乳腺癌;不同閱片者對受試者乳腺2D和3D影像圖片的讀片結果按乳腺成像報告和數據系統(BIRADS)評分標準記錄乳腺腫瘤的惡性程度。金標準診斷結果和閱片者BIRADS閱片結果及影像醫生經驗水平的賦值見表1。

表1 本研究中有關變量的賦值
2.本研究的多閱片者多病例(MRMC)設計
多閱片者多病例(MRMC)研究設計的主要思路是分別選取合適數量有代表性的患者(包括金標準確診待研究疾病的患者與非患者)和閱片者作為樣本,每個患者分別接受某個或多個診斷試驗,然后由閱片者獨立盲法的對患者關于試驗的影像檢測結果進行解釋[6]。在對診斷結果進行分析和評價時,這種設計可以將閱片者自身以及不同閱片者之間的各種效應考慮進去。
多閱片者多病例(MRMC)研究有多種設計方式,本研究采用其中常見的配對患者與配對閱片者設計,即全部患者分別依次接受兩種不同影像診斷技術的檢查,然后由所有閱片者分別對每一位患者接受每一種診斷技術的檢查結果進行解讀和判斷[7]。例如,用2種診斷技術(i=1,2)(如2D和3D),J名閱片者(j=1,2,…J)(如12名影像學專家)分別獨立對N例患者的試驗結果(如影像圖片)(k=1,2,…N)進行診斷,會產生2*J*N種診斷結果,對于每一種診斷技術收集的結果,可排成類似于J*N形式的矩陣如下:
患者
1 2 …k

其中,行代表閱片者,列代表患者,在每一列的患者中均有n-例正常受試者和n+例異常受試者,比如x1jk表示第j名閱片者對第k例患者接受第1種診斷技術檢查產生影像數據的診斷結果。
3.MRMC方差分析方法

(1)
據此,可以分別計算i種診斷技術、j名閱片者各自的ROC曲線下面積的Jackknife偽值以及每種診斷技術所有閱片者的平均ROC曲線下面積[8]。
在計算得到第i診斷技術、第j閱片者、第k患者ROC曲線下面積的Jackknife偽值之后,將Yijk當作因變量,以閱片者和患者變量作為隨機因素,診斷技術變量作為固定因素,構建混合效應的統計學模型如下:
Yijk=μ+ti+rj+pk+(tr)ij+(tp)ik+(rp)jk+(trp)ijk+εijk
(2)


表2 混合效應方程模型的方差分析(ANOVA)表
*:EMS為模型期望均方,可以通過SAS的GLM過程獲得。
MRMC方差分析法構建的混合效應模型中擬檢驗的零假設是兩診斷技術的固定效應相等,即H0:t1=…tI。檢驗零假設是否成立之前,需要先檢驗診斷技術固定效應與閱片者、患者隨機效應之間有無交互作用;以H0:MStr=MStrp,F=MStr/MStrp,分子自由度ν1為(I-1)(J-1),分母自由度ν2為(I-1)(J-1)(N-1)檢驗診斷技術與閱片者之間的交互作用;以H0:MStp=MStrp,F=MStp/MStrp,分子自由度ν1為(I-1)(N-1),分母自由度ν2為(I-1)(J-1)(N-1)檢驗診斷技術與患者之間的交互作用;如果以上檢驗F值對應的P值大于檢驗水準α(如α=0.05),則認為交互作用不存在,反之即存在交互作用。


(3)

(4)
多閱片者多病例(MRMC)研究除了檢驗診斷技術的固定效應,估計兩個或者多個診斷技術各自相應的ROC曲線下面積和其可信區間及各診斷技術之間曲線下面積的差值及其可信區間外,還可以對閱片者和患者等各隨機效應的方差分量進行估計。
4.本研究采用的傳統ROC曲線分析法
對于多閱片者多病例(MRMC)的研究設計資料,基本處理方法與一般診斷試驗資料一致,即將所有閱片者的評價結果作為一個整體,根據分析指標中的BIRADS分級,分別將分級中的①,①+②,①+②+③,①+②+③+④作為診斷乳腺癌的不同界值,分別估計在不同界值下的靈敏度、特異度,以不同診斷界值下的靈敏度為縱坐標、1-特異度為橫坐標作圖,繪制ROC曲線,并計算該ROC曲線下的面積[10-11]。對兩個診斷系統的ROC曲線下面積比較的檢驗統計量為:

5.統計原則及統計軟件
計量指標以均數和標準差描述,計數指標以例數及百分數描述。MRMC方差分析應用SAS 9.2軟件,結合Hillis SL.等編寫的MRMC_DBM_Macro程序實現,傳統ROC曲線分析及參數估計應用軟件ROCKITβ0.8 軟件完成,統計學描述應用SAS 9.2軟件實現。
1.納入本研究受試者的基本情況
本研究納入受試者樣本共96例,其中良性患者中2例由于缺少某一名閱片者的讀片結果而剔除,實際納入分析良性乳腺腫瘤患者46例,惡性腫瘤患者48例;平均年齡分別為良性腫瘤患者(51.7±11.8)歲,惡性腫瘤患者(56.8±12.0)歲。隨機選取的閱片者樣本為12名,每位閱片者的總讀片數為94份,對良性患者的總讀片數為552份,對惡性患者的總讀片數為576份,合計讀片數為1128份。12名閱片者對96例患者共1128份影像資料的閱片結果見表3。

表3 12名閱片者的影像閱片結果描述
2.本研究MRMC方差分析結果
(1)兩種診斷技術的診斷一致性評價
在1128份閱片者的讀片結果中,2D診斷技術可以明確確診的良性和惡性腫瘤結果分別為497份和538份,合計1035份;3D診斷技術可以明確確診的良性和惡性腫瘤結果分別為505份和569份,合計1074份;以金標準為參考分別估計得到2D和3D兩種診斷系統的診斷一致率為68.21%和76.54%,其中陽性一致率分別為58.45%和67.14%,陰性一致率分別為78.25%和74.66%。表4為兩種成像技術診斷結果與金標準相對應的四格表。

表4 研究中兩種成像技術診斷一致性的評價結果
(2)兩診斷技術固定效應的估計和檢驗
通過對診斷技術、閱片者以及患者三者之間的方差分析結果提示存在患者與閱片者及患者與診斷技術之間的交互作用(P<0.0001),所以采用Satterthwaite近似F檢驗對診斷技術的固定效應進行估計,分別按照公式計算得到近似F檢驗的分母自由度為77.1997,F統計量為15.5989,經檢驗表明兩種診斷技術ROC曲線下面積差別有統計學意義(P=0.0002);在此基礎上進一步依據方差分析的結果分別估計2D和3D兩種診斷技術的ROC曲線下面積為0.7505和0.8500,兩者之間ROC曲線下面積的差值為0.0995。診斷技術、閱片者以及患者三者之間的方差分析結果如表5所示,兩種診斷系統的ROC曲線下面積、面積的差值及其95%的可信區間如表6所示。

表5 本研究對試驗、閱片者及病例的方差分析結果

表6 MRMC方差分析法對兩種診斷系統ROC曲線下面積的估計和比較
(3)閱片者、患者及各交互項隨機效應的估計

3.傳統ROC曲線分析結果
綜合全部閱片者的讀片結果,以ROC曲線下面積作為診斷系統準確性的評價指標,應用ROCKITβ0.8 軟件參數法估計并比較2D和3D兩種乳腺成像診斷系統的診斷準確性大小。表8列出了每種診斷系統的ROC曲線下面積以及兩者比較的統計量大小。

表7 本研究混合效應模型中各隨機效應的方差分量結果

表8 兩種診斷系統ROC曲線下面積的參數法估計和比較
本研究首先對兩種診斷技術與金標準的診斷結果一致性作出估計,結果顯示3D斷層成像技術的診斷一致率(76.54%)明顯高于常用的2D成像技術(68.21%),說明總體看來,3D斷層成像技術的診斷性能要比2D成像技術好一些,但這只是一個對診斷結果相對粗略的估計[14],并未考慮到結果評價過程中閱片者以及其他因素產生的各種可能效應,對診斷系統的準確性評價存在一定的偏倚[15-16]。本研究針對多閱片者設計利用方差分析總變異可分的特點,采用MRMC方差分析的方法對有多閱片者參與的影像診斷試驗研究進行分析,構建混合效應線性模型,根據診斷技術、閱片者和患者間的方差分析結果可以看出存在閱片者與患者、患者與診斷技術間的交互作用(P<0.0001),因此在假設檢驗時需將閱片者、患者及診斷技術的交互作用保留在模型中,進一步通過Satterthwaite近似F檢驗對診斷技術的固定效應進行估計,結果表明在模型對閱片者、患者及其與診斷技術的交互作用進行控制之后,檢驗兩種診斷方式的ROC曲線下面積差別,3D成像診斷技術的ROC曲線下面積高于2D技術(3D-2D=0.0995),且該差異有統計學意義(F′=15.5989,P<0.0002),對診斷試驗固定效應的估計與兩種診斷技術的診斷一致性評價結果一致;另外該分析方法除作出假設檢驗之外,也估計給出了控制各種混合效應后的每種診斷技術的固定效應(3D=0.8500,95%CI:0.7770~0.8255;2D=0.7505,95%CI:0.6639~0.7215)。
MRMC方差分析方法構建混合效應模型除估計和檢驗模型固定效應之外,另一個最大特點就在于對各隨機效應的方差分量進行研究估計,推斷隨機樣本所在總體的變異性如何[17]。從本研究中混合效應方差分析給出的方差分量結果可以看出,MRMC方差分析法將閱片者、患者及其與診斷技術間的各種隨機效應的方差從總的隨機誤差中提取分解出來,并估計了每個隨機效應的方差分量大小,閱片者不論是其自身還是與其他因素的交互作用都會給研究結果的變異貢獻部分作用。為進一步探討閱片者這一隨機效應對研究結果變異性的影響大小,本研究又將閱片者按照閱片者的閱歷經驗不同分成經驗豐富和經驗較少兩組分別進行估計,結果發現經驗較豐富的和經驗較少的閱片者在評價兩種診斷方式估計其ROC曲線下面積時經驗豐富者的變異程度明顯低于經驗較少者;而傳統的ROC曲線分析方法無法區分不同閱片者之間的差別,資料分析時最終只能分別估計兩種診斷系統的ROC曲線下面積,尚不能控制閱片者及其他效應的作用也不能給出閱片者樣本所代表的整個總體的變異情況。
在現實實踐中應用診斷技術的臨床影像醫生經驗水平也會各不相同,但與真實的臨床實踐不同,影像診斷試驗的研究目的在于客觀的評價某診斷系統本身固有的診斷能力,所以為保證研究結果更接近于診斷系統本身的真實實際水平,所以在選擇閱片者樣本時就需考慮閱片者的偏倚以及代表性問題,采用多閱片者的設計,盡量納入各種不同經驗水平的閱片者,同時針對這種多閱片者多病例的研究設計資料選擇合適的統計分析方法。多閱片者多病例(MRMC)方差分析方法構建的混合效應ANOVA模型可以應用于等級分類資料也可以應用于連續資料,模型中統計分析采用的分析指標可以是ROC曲線下面積,靈敏度、特異度,也可以是某特定特異度區間對應的部分ROC曲線下面積等;同時可以控制研究中可能產生的各種誤差,提高統計效能,減少偏倚,保證研究結果的客觀真實,能夠為更加準確的篩查和診斷疾病提供幫助。
[1] 李朝軍,羅向紅,劉望彭.ROC分析法評價超聲與鉬靶攝影術在乳腺癌篩查和早期診斷中的價值.臨床超聲醫學雜志,2008,3:169-171,174.
[2] 彭娟,吳敏,龔黎,等.ROC曲線評價二維超聲與彩色多普勒診斷小乳腺癌.中國介入影像與治療學,2010,6:647-650.
[3] Beam CA,Baker ME,Paine SS,et al.Answering unanswered questions:proposal for a shared resource in clinical diagnostic radiology research.Radiology,1992,183(3):619-620.
[4] Obuchowski NA.Reducing the number of reader interpretations in MRMC studies.Acad Radiol,2009,16(2):209-217.
[5] Koshkin VS,Hinshaw JL,Wroblewski K,et al.CAD-associated reader error in CT colonography.Academic Radiology,2012,19(7):801-810.
[6] Zhou XH.Statistical Methods in Diagnostic Medicine.NewYork:JohnWiley&Sons,2002.
[7] Obuchowski NA,Beiden SV,Berbaum KS,et al.Multireader,multicase receiver operating characteristic analysis:an empirical comparison of five methods.Acad Radiol,2004,11(9):980-995.
[8] Dorfman DD,Berbaum KS,Metz CE.Receiver operating characteristic rating analysis.Generalization to the population of readers and patients with the jackknife method.Invest Radiol,1992,27(9):723-731.
[9] Obuchowski NA.Multireader,multimodality receiver operating characteristic curve studies:hypothesis testing and sample size estimation using an analysis of variance approach with dependent observations.Acad Radiol,1995,2(Suppl)1:S22-S29,S57-S64,S70-S71.
[10] 潘清,陳卉,馬宇晶,等.影像學診斷評價中的參數法ROC曲線分析.中國醫學影像技術,2011,8:1694-1697.
[11] 王先運,吳多文,汲偉明,等.用ROC曲線下面積進行差異性檢驗的常用方法.中華放射學雜志,2006,07:763-764.
[12] 李康,馬葆華,趙亞雙,等.具有協變量或干擾因素的診斷試驗數據的 ROC 分析.中國衛生統計,2002,19(2):67-70.
[13] 王喜文,董柏青,劉飛鷹.兩相關診斷試驗的ROC曲線下面積比較的SAS程序實現.數理醫藥學雜志,2010,6:671-674.
[14] 周宇豪,許金芳,賀佳.診斷試驗一致性評價中幾種方法的比較及應用.中國衛生統計,2011,28(1):40-42.
[15] Jackson SL,Taplin SH,Sickles EA,et al.Variability of interpretive accuracy among diagnostic mammography facilities.Journal of the National Cancer Institute,2009,101(11):814-827.
[16] Gallas BD,Chan HP,D′Orsi CJ,et al.Evaluating imaging and computer-aided detection and diagnosis devices at the FDA.Academic Radiology,2012,19(4):463-477.
[17] 陳峰,姚晨,孫高,等.新藥臨床試驗中重復測量資料的混合效應模型.中國衛生統計,2000,17(6):373-376.
TheApplicationofMRMCANOVAMethodinMultireaderMulticaseDesignofRadiologicalDiagnosticStudy
Shang Meixia,Yao Chen,Kang Xiaoping,et al.
(PekingUniversityFirstHospital(100034),Beijing)
ObjectiveTo explore the statistical power of the MRMC ANOVA method evaluating the results between different diagnostic technologies in multireader multicase study design; and to provide the theory basis for the usage of mutireader muticase design in radiological diagnostic study.MethodsCollect 96 image pictures of suspected breast cancer subjects taking in 2D and 3D tomographic these two different imaging diagnostic techniques,select 12 representative readers randomly,and analyze the data about the reading results with MRMC ANOVA method and traditional ROC curve method separately; MRMC ANOVA method apples software SAS 9.2 accompanied with MRMC_DBM_Macro programme written by Hillis SL.and parameter estimations of traditional ROC curve method apples software ROCKITβ0.8.ResultsThe consistency rate of 3D tomographic imaging diagnostic technique is much more bigger than that of 2D imaging diagnostic technique(2D:62.59%,3D:72.87%),and the positive consistency rate is 65.45% and 71.01% while the negative consistency rate is 59.60% and 69.38% respectively; MRMC ANOVA method can estimate and compare the diagnostic accuracy of 2D diagnostic technique and 3D tomographic imaging diagnostic technique(2D:0.7505,3D:0.8500,3D-2D:0.0994); Besides it can also consider the probable biases resulting from different readers and quantify them,then estimate the variance components of all possible random effects(,total random error is 0.2765); But the traditional ROC method can only figure out the accuracy of the two technologies(2D:0.7368,3D:0.8328,3D-2D:0.0960).ConclusionsCompared with the traditional ROC curve method,MRMC ANOVA method is much more comprehensive and accurate when assessing the diagnostic power of mutireader muticase radiological diagnostic study,which can not only compare the accuracy but also evaluate the reliability.
Radiological diagnostic study;Mutireader muticase;MRMC ANOVA;ROC curve;Variance components
(責任編輯:劉 壯)