鄭佳,李琦,孟燕,于夫堯,高月,李樂義,梁譯丹,陳志安,富西湖,趙古月,潘詩農(nóng)*,鄭黎強
磁共振影像學檢查在臨床診斷中已經(jīng)廣泛應用,但目前國內(nèi)磁共振成像(magnetic resonance imaging,MRI)掃描及評價標準仍為主觀性評價,或基于美國放射學會(American College of Radiology,ACR)的評價標準進行評價,目前國內(nèi)缺乏一個符合我國國情的標準化的評價體系。ACR評價MRI質量的主要指標有掃描范圍、影像對比、掃描時間、解剖評價標準、信號均勻性、偽影、相位方向分辨率、頻率方向分辨率、層厚、間距等[1],但上述10個指標對于MRI質量評價結構所占權重未知,為建立一個MRI質量標準化評價體系,筆者采用“預測模型”解決此問題。“預測模型”是用盡可能簡單、抽象的方式來描述預測對象,它能說明預測對象與其相關因素的聯(lián)系、依存、變化和運動的關系[2]。在醫(yī)學研究中常用預測模型有Logistic回歸、Cox回歸和Weibull回歸等。其中Logistic回歸屬于概率型非線性回歸,是研究二分類或多分類觀察結果與影響因素之間關系的一種多變量分析方法[3],根據(jù)本研究數(shù)據(jù)特點采用Logistic回歸建立模型分析MRI質量與以上10個指標之間的關系并明確不同指標對研究結果影響程度大小,以此推動MRI掃描標準化及臨床效果評價科學化,同時推動國產(chǎn)MR設備的健康發(fā)展。
本研究在中國醫(yī)科大學附屬盛京醫(yī)院南湖院區(qū)、沈北院區(qū)2個院區(qū)及遼寧省金秋醫(yī)院3個中心于2017年9月1日-9月11日連續(xù)性收集165例前來進行腰椎MRI檢查患者的影像圖像。收集其MRI中矢狀位T2抑脂序列的10個特征(掃描范圍、影像對比強度、采集時間、解剖評價標準、信號均勻性、偽影、相位方向分辨率、頻率方向分辨率、層厚、間距)并評價MRI質量。
參照美國ACR標準[1]及國內(nèi)骨肌系統(tǒng)影像檢查指南[4]對患者進行檢查前準備、確定儀器線圈及固定患者掃描體位。
為排除其他混雜因素影響,本研究嚴格限制儀器設備,在不同醫(yī)院采用相同型號MRI儀器。掃描部位均為腰椎。評價圖像質量標準:選取3位經(jīng)驗豐富的臨床影像專家在互不影響的情況下獨立對165張MRI質量進行評價,評價指標為圖像質量好壞即能否用于臨床診斷;只有當3位影像學專家一致認為圖像能夠用于臨床診斷時判定此圖像質量好,此過程由統(tǒng)計專業(yè)人員合并完成。
由于評價指標中前3項(掃描范圍、影像對比強度、采集時間)為MRI掃描必要條件,此3項不納入Logistic回歸分析模型中,故不進行初步賦分。其次進行變量賦值:解剖評價標準程度(非常清晰=4,清晰=3,尚可=2,欠清=1,不清=0);信號均勻性程度(非常好=4,良好=3,一般=2,略差=1,差=0);偽影程度(未見偽影=4,輕度偽影=3,可見偽影=2,較多偽影=1,明顯偽影=0);相位方向分辨率(mm)程度(≤1.0=2,1.0<分辨率≤1.2=1,>1.2=0);頻率方向分辨率(mm)程度(≤1.0=2,1.0<分辨率≤1.2=1,>1.2=0);層厚(mm)(≤4.0=2,4.0<層厚≤5.0=1,>5.0=0);間距(mm)(≤0.8=2,0.8<間距≤1.0=1,>1.0=0)。以P<0.05為差異有統(tǒng)計學意義。利用統(tǒng)計軟件SPSS 22.0完成如下操作。
1.4.1 因子分析
由于本研究自變量間存在相關性,故在建模之前進行因子分析,提取主因子。
1.4.2 建立簡易評分系統(tǒng)[2,5-6]
根據(jù)Logistic回歸模型得出每個危險因素的偏回歸系數(shù)βi(i代表第i個變量)。根據(jù)自變量的偏回歸系數(shù)βi計算出每組對應于參考值的系數(shù)Wij(ij代表變量i的第j組)。設置一個常量B。根據(jù)系數(shù)Wij和常數(shù)B為變量的各組進行賦值(評分),即Wij/B并四舍五入取整數(shù),并將某一具體情況下的各個評分加和。根據(jù)Logistic預測模型計算每個評分對應的絕對發(fā)病概率。這一項與個體對應,故
1.4.3 模型的檢驗
評價一個模型的優(yōu)劣主要有兩個方面:標定能力(calibration)和區(qū)分能力(discrimination)。標定能力是指人群的平均預測概率(predictive value)與實際觀察到的概率(observed value)的一致程度,采用H-L卡方檢驗兩者的符合程度,有統(tǒng)計學意義說明預測概率和實際發(fā)病率之間有顯著性差異,標定能力較差[7-8]。區(qū)分能力是指正確地把患者和非患者區(qū)分開的能力,如果實際發(fā)生事件者的預測發(fā)病概率均高于未發(fā)生事件者,此時模型的區(qū)分能力為最佳,通常反映區(qū)分能力的方法是采用受試者工作特征曲線下面積(the area under the receiver-operating characteristic curve,AUC)進行計算和檢驗,AUC值越大說明模型的區(qū)分能力越強[8-9]。
首先將上述7個指標納入Logistic回歸中分析。結果顯示只有解剖評價標準和信號均勻性納入回歸模型(解剖評價標準:β=2.128,P<0.001,信號均勻性:β=1.838,P=0.001)。結合臨床影像學知識,其他指標也應該為MRI質量評價指標,考慮7個指標間可能存在相關性,采用因子分析法分析數(shù)據(jù)間相關性[10],結果顯示,將7個指標主要分為兩個因子(因子1:解剖評價標準、信號均勻性、偽影;因子2:間距、層厚、頻率分辨率、相位分辨率),其KMO值為0.673,巴特利特球型檢驗P值小于0.05,認為指標間存在相關性。故將兩個因子重新賦分,賦分原則為:因子因子2=再次納入Logistic回歸分析,結果見表1。
建立簡易評分系統(tǒng)模型,見圖1。
首先根據(jù)AUC值評價模型區(qū)分能力,模型區(qū)分能力檢驗結果見圖2。由兩模型檢驗結果可知,簡易模型AUC值(95% CI)為0.878(0.814~0.941),精細模型AUC(95%CI)值為0.904(0.849~0.960),二者P值均小于0.001。采用組內(nèi)相關系數(shù)(introclass correlation coefficient,ICC)檢驗方法[11]進一步進行一致性檢驗,ICC=0.948(95% CI:0.930~0.962)>0.8,認為兩模型區(qū)分能力一致性較高,簡易模型與精細模型預測值相近,簡易模型可以代替精細模型應用于臨床實踐。其次利用H-Lχ2檢驗來評價預測模型的標定能力(χ2=1.457,P=0.962),精細模型標定能力見圖3。

表1 將兩個因子納入Logistic回歸分析結果Tab.1 Two factors included Logistic regression analysis results

圖1 基于Logistic回歸分析構建簡易模型Fig.1 Logistic regression analysis about the simple model.

圖2 簡易模型和精細模型區(qū)分度檢驗結果Fig.2 Test results of discrimination.

圖3 精細模型標定能力檢驗結果Fig.3 Test results of fine model calibration capability.
近些年來,我國MRI醫(yī)療設備發(fā)展迅速,為推進我國MR產(chǎn)業(yè)健康發(fā)展,促進我國醫(yī)學磁共振應用水平的提高[12],急需建立一套科學嚴謹?shù)腗RI評價系統(tǒng)。美國ACR提出了一套針對MRI臨床效果評價的指標,共10個指標,但并沒有表明這10個指標中哪些指標對于圖像質量評價更重要,即指標間權重未知。也即現(xiàn)有一套適用于臨床MRI效果評價的指標,卻沒有一套科學的評價標準,那么在ACR真正應用于臨床時由于主觀因素等影響將不能達到預想的效果。
因此,本研究在ACR標準之上,應用Logistic回歸分析原理,建立科學的精細模型和適用于臨床的簡易模型。簡易模型預測結果概率時使用的危險因素水平是基于分組計算得出,所以不及精細模型得出的準確,但簡易模型最大的優(yōu)點是簡單易行,實施性及可操作性強,非常適合于臨床應用。區(qū)分能力是在臨床診斷中非常重要的應用指標,本研究經(jīng)模型檢驗顯示,簡易模型和精細模型兩模型區(qū)分能力均很強,差異性檢驗結果為二者具有一致性,這對于將簡易模型應用于臨床是非常有利的證據(jù)。對于本研究中因變量的評價是否需要結合臨床病理檢查,筆者認為,首先,病理檢查結果很難收集,會加大本研究的難度;其次,并不是所有可用MRI診斷的疾病都有病理學金標準診斷;最后,如果結合病理學檢查和影像學醫(yī)生診斷結果會加入一個不可控因素即影像學醫(yī)生的診斷能力,相當于又增加了一個混雜因素,而本研究的目的是通過直接評價MRI質量促進MRI診斷標準化進而推進我國MR產(chǎn)業(yè)健康發(fā)展,故采用影像學醫(yī)生直接評價圖像質量結果作為因變量是比較妥當?shù)倪x擇。
本模型結果顯示,當總分低于3分時,MRI質量好的最高概率為0.02,即一張MRI最高有0.02的概率為一張優(yōu)秀合格的圖像,這個概率過于低,筆者認為此MRI質量較差,不能應用于臨床診斷,建議患者需重新拍攝MRI;當總分置于5~6分時,對應概率為0.22~0.52,認為MRI質量一般,勉強應用于臨床診斷;當總分置于8~9分時,對應概率為0.94~0.98,認為MRI質量非常好,可很好地應用于臨床診斷。
模型檢驗結果,首先根據(jù)AUC值評價模型區(qū)分能力,AUC值范圍在0.5~1.0,1.0表示可將MRI質量的好壞完全區(qū)分開,0.5表示將MRI質量的好壞區(qū)分只靠偶然概率(如同擲硬幣)。通常0.7~0.8被認為模型可以接受,0.8~0.9被認為模型非常好。由結果可知兩模型區(qū)分能力均大于0.8,區(qū)分能力強。其次,利用H-L χ2檢驗來評價預測模型的標定能力,P<0.05代表模型的標定能力較差。根據(jù)精細模型預測概率值將其用十分位數(shù)分成10組,然后比較每組的預測概率和實際觀察概率,采用卡方檢驗檢驗兩種預測概率的差異性。經(jīng)統(tǒng)計,χ2值為1.457,P>0.05,認為此精細模型標定能力強,能夠完美預測MRI質量的好壞。由此可知本模型非常適用于臨床,對推動MRI臨床應用效果評價發(fā)展起到重要作用。
本研究的主要創(chuàng)新點有:(1)解決了臨床影像學圖像評價的過于主觀化,采用科學建模的方式使MRI臨床效果評價更加客觀,推動MRI臨床應用;(2)通過對MRI的評價反推MR儀器設備質量,提高國產(chǎn)儀器使用率;(3)本模型采用因子分析解決了儀器參數(shù)中的共線性問題,使評價結果更加真實可靠。
本研究的不足之處有:(1)由于收集到質量不良的圖像數(shù)據(jù)量較少,對于結果可能存在一定程度影響,應考慮擴大樣本量。(2)除以上質控措施外應考慮增加以下兩方面質控措施:根據(jù)專家共識統(tǒng)一對3位影像學專家進行培訓,使臨床評價結果具有可重復性;考慮給MR儀器增加智能掃描設備,以排除MR儀器操作者及其他混雜因素的影響。(3)MRI臨床疾病的確診需要多序列的結合應用,應考慮在其他序列建立模型,共同評價疾病,同時應該考慮在其他部位即推廣到腰椎以外部位進行模型驗證。
綜上所述,本研究應用Logistic回歸建立評分模型,可科學評價MRI質量,使MRI臨床應用標準化,彌補了國內(nèi)無標準化的MRI臨床效果評價指標的空缺;同時應用此標準可反推MR圖像及設備質量,為指導磁共振醫(yī)生及科研人員準確應用MRI起到促進作用;為評價我國MR儀器質量提供了證明手段,進而為促進我國MR產(chǎn)業(yè)健康發(fā)展起到重要作用。
參考文獻 [References]
[1]Safety EPOM, Kanal E, Barkovich AJ, et al. ACR guidance document on MR safe practices: 2013. J Magn Reson Imaging, 2013,37(3): 501-530.
[2]Zheng LQ. Validation and construction a hypertension risk prediction model in rural areas of fuxin county with the high incidence of hypertension:results from Liaoning province. Shenyang: China Medical University, 2014.鄭黎強. 遼寧省阜新縣農(nóng)村社會環(huán)境高血壓高發(fā)區(qū)高血壓發(fā)病風險預測模型的驗證與建立. 沈陽: 中國醫(yī)科大學, 2014.
[3]Fang JQ. Health statistics. Beijing: People's Health Publishing House, 2012: 390.方積乾. 衛(wèi)生統(tǒng)計學. 北京: 人民衛(wèi)生出版社, 2012: 390.
[4]Yuan HS, Xu WJ. Guidance on bone muscle system imaging.Beijing: Tsinghua University Press, 2016.袁慧書, 徐文堅. 骨肌系統(tǒng)影像檢查指南. 北京: 清華大學出版社,2016.
[5]Sullivan LM, Massaro JM, Sr DR. Presentation of multivariate data for clinical use: The Framingham Study risk score functions.Statistics in Medicine, 2004, 23(10): 1631-1660.
[6]Wu Y, Liu X, Li X, et al. Estimation of 10-year risk of fatal and nonfatal ischemic cardiovascular diseases in Chinese adults.Circulation, 2006, 114(21): 2217.
[7]Cox MAA, Plackett RL. A note on a goodness of fit test for the logistic regression model. Biometrika, 1980, 67(1): 250-251.
[8]Zheng LQ, Zhang R. Research progress on evaluation method of risk degree of disease risk prediction model. Chin J Health Statis, 2015,32(3): 544-546.鄭黎強, 張蕊. 疾病發(fā)病風險預測模型擬合度評價方法的研究進展. 中國衛(wèi)生統(tǒng)計, 2015, 32(3): 544-546.
[9]Hanley JA, Mcneil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 1982,143(1): 29.
[10]Zhang WT, Dong W. SPSS statistical analysis advanced course.Beijing: Higher Education Press, 2013.張文彤, 董偉. SPSS統(tǒng)計分析高級教程. 北京: 高等教育出版社, 2013.
[11]Yu HM, Luo YH, Sa J, et al. Group correlation coefficient and software implementation. Chin J Health Statis, 2011, 28(5): 497-500.余紅梅, 羅艷虹, 薩建, 等. 組內(nèi)相關系數(shù)及其軟件實現(xiàn). 中國衛(wèi)生統(tǒng)計, 2011, 28(5): 497-500.
[12]He GJ, Zhao DD, Wei Y. New journey of domestic medical magnetic resonance device: visit to the industry leaders of domestic magnetic resonance in RSNA 2014. Chin J Magn Reson Imag, 2015, 6(6):405-410.賀光軍, 趙丹丹, 魏燕. 國產(chǎn)醫(yī)用磁共振設備新征程--訪參加RSNA 2014的國內(nèi)磁共振產(chǎn)業(yè)領袖. 磁共振成像, 2015, 6(6): 405-410.