鄭茜茜 陳 征 侯雅文△
【提 要】 目的 探索基于胃腸道病變高維影像數據的計算機輔助診斷模型,特別為醫療資源匱乏地區提供胃腸腺瘤檢測的機器學習技術。方法 選取UCI Gastrointestinal數據集中76位增生或腺瘤患者的698維結腸鏡的白光影像資料。采取非局部先驗的貝葉斯變量選擇方法進行變量篩選,與傳統高維數據變量篩選Lasso方法比較,根據logistic回歸模型預測結果計算正確率、Youden指數、靈敏度和特異度,運用該模型結果與醫生個人和團隊診斷結果比較上述評價指標。結果 與Lasso結果比較顯示,非局部先驗的貝葉斯變量選擇方法能夠更為有效地篩選出預測變量,模型具有較強的泛化能力。與醫生和其團隊診斷結果比較發現,模型分類結果在正確率、Youden指數和特異度都具有最優效果,靈敏度也優于醫生個人水平。結論 基于非局部先驗貝葉斯變量篩選的logistic回歸模型,運用到計算機輔助診斷技術中,具有較好的預測性能,可為醫療診斷提供高效的決策支持。
世界衛生組織(WHO)將胃腺瘤定義為局部息肉病變,由異常發育的上皮細胞的管狀或絨毛狀結構組成[1]。根據其組織學結構,Nakamura將胃息肉分為Ⅰ型和Ⅱ型(增生性息肉),Ⅲ型和Ⅳ型(腺瘤)[2]。在西半球國家,胃腺瘤的發病率在0.5%~3.75%之間,而在患胃癌風險高的國家,如中國,胃腺瘤的發病率高達9%~20%[3]。胃腺瘤性息肉通常位于胃竇中,且在潛伏期無明顯癥狀,但存在腺瘤惡化的重大風險,隨著腫瘤大小的增加,惡化的風險也會增加[4]。Rubio在對胃鋸齒狀腺瘤(gastric serrated adenoma)病例研究中發現,該患者同時也是一名Lynch綜合癥患者,表明鋸齒狀腺瘤可能帶有遺傳特征[5]。腸腺瘤與胃腺瘤類似,由腺瘤發展為腺癌的情況日益受到重視,在我國呈現出年輕化趨勢。因此,在早期進行胃鏡和腸鏡檢查以盡快發現胃腸道病變對治療有著重要意義[6]。
醫生觀察胃腸鏡影像并做出診斷,是目前國內醫院確診胃腸腺瘤普遍采用的診斷方式。這種主觀判斷的行為,更易受到自身專業水平和經驗的影響,存在誤判或遺漏細節的可能性,而計算機輔助診斷(computer-aided diagnosis,CAD)能客觀地給出參考意見[7]。近年一些CAD[8]或計算機輔助支持系統(computer-aided decision support systems,CADSSs)[9]應用到疾病診斷之中,降低醫師臨床診斷的主觀性,減少誤診率和漏診率,提高診斷水平。CAD技術首先對圖像資料進行病變特征提取,再基于提取的特征進行統計建模,分類判別。其中,國內外學者大多采用人工神經網路、支持向量機等機器學習方法[10-12]。這些方法能夠在一定程度上對病變進行判別分類。但隨著影像資料所記錄下的病變信息維度增多,如病變處的紋理、形態以及顏色等等,相對于病患樣本,這種形式的數據被視為高維數據[13],上述算法可能會導致過度擬合的算法失效問題。隨著數據維度由百維以內增至千維級別時,處理高維數據常用的Lasso方法同樣存在過擬合等問題。
因此,本文基于高維數據的非局部先驗貝葉斯變量選擇方法[14],對UCI數據庫中關于胃腸道病變的常規胃腸鏡檢查的影像資料進行特征篩選,并通過特征變量進行logistic回歸,對比傳統Lasso方法和貝葉斯方法在計算機輔助診斷的有效性。對比模型預測結果、醫師診斷結果與病患真實情況的正確率、Youden指數、靈敏度和特異度指標。
1.基本原理
以影像數據信息為自變量,病患是否診斷為胃腸腺瘤作響應變量,建立logistic回歸模型。對任意一個可能的模型γj(j=1,2,…,2p),后驗概率表示為:


2.參數先驗
基于局部先驗(local prior)的貝葉斯變量選擇方法會導致真實模型的后驗概率趨近于0,如intrinsic bayes factors[15],fractional bayes factors[16]和g-先驗[17]等。Johnson和Rossell提出非局部先驗[14],不同于local先驗密度函數在回歸系數為零時,其函數值大于零,非局部先驗密度函數在回歸系數為零時,其函數值等于零,從而篩選出最佳預測變量。通過非局部先驗可將真實模型的后驗概率逼近于1,使模型具有一致性。且控制假陽性率的同時保持參數的敏感性[18]。
非局部先驗密度有兩種形式:乘積矩先驗(pMOM)和乘積逆矩先驗(piMOM)。本文采用PiMOM先驗,表達式為:
其中τ>0,為尺度參數,該參數決定了密度函數在β=0周圍圖形的分散程度,r是密度函數的序(r=1,2,…),βk為模型系數βj中第k個系數值,K=|βj|,表示模型γj對應系數總數。Nikooienejad等人通過從模型的空間先驗中抽樣的方式以選擇合適的超參數r和τ[19]。
3.模型空間先驗
4.模型后驗概率
結合模型先驗、參數先驗和模型后驗,模型后驗概率表示為:
Johnson和Rossell認為由于在確定模型后驗概率時,模型的邊緣密度計算過于復雜。為了減少參數空間的維度,首先對每個模型的邊緣密度進行Laplace近似,得到邊緣密度的近似表示:

通過MCMC(Markov chain Monte Carlo)[12]算法最大化模型的后驗概率,從而得到最高后驗概率模型。利用修正的耦合檢驗[19]驗證MCMC算法的收斂性,從而保證通過適量的迭代次數可以得到確定的最高后驗概率模型。
1. 數據來源
數據來自UCI數據庫(http://archive.ics.uci.edu/)常規胃腸鏡2D和3D檢查影像,共有76名患者的內鏡影像,將其分別在白光(WL)和窄帶成像技術(NBI)兩種不同視角下觀察,本文選取白光下的影像資料進行輔助診斷。每段影像記錄時間在30sec~1min之間,共記錄病變屬性698個,包括:2D紋理特征(422個)、2D顏色特征(76個)和3D形狀特征(200個),其中3D形狀特征是通過SFM算法提取得到[21]。數據集包含三種病變結果:鋸齒狀腺瘤(15個),腺瘤(40個)和增生(21個),鋸齒狀腺瘤和腺瘤歸為一類,增生歸為一類。
同時,數據集包含4名專家和3名初學者的臨床診斷意見(將具有8年及以上臨床經驗的胃腸道醫生視為專家,將具有4年及以下臨床經驗的胃腸道醫生視為初學者),以及樣本的真實診療情況:若是良性增生則無需手術,而若是腺瘤則需要進行手術。
2.分析過程
數據按照6∶4劃分訓練集和測試集,訓練集樣本數為45,測試集樣本數為31。將數據集的影像資料變量標示為x1,…,x698,其中x1,…,x422表示2D紋理特征,x423,…,x498表示2D顏色特征,x499,…,x698表示3D形狀特征。首先對預測變量數據進行標準化處理,分別通過貝葉斯變量選擇方法和Lasso方法篩選最佳模型。
白光下698個變量使用基于非局部先驗貝葉斯變量選擇方法對訓練集建模,選擇變量為x170,屬于2D紋理特征。將變量x170作為預測變量,病變類型作為響應變量進行logistic回歸,結果如表1所示。截距項和變量的系數顯著,logistic回歸模型有效,AIC=34.278。

表1 非局部先驗貝葉斯方法logistic模型回歸結果
Lasso方法共選擇出包含x170在內的23個變量,來自2D紋理特征變量12個,分別為x6,x8,x11,x12,x98,x110,x132,x133,x135,x137,x170,x218,2D顏色特征10個,分別為x424,x448,x464,x465,x471,x472,x474,x475,x483,x486,3D形狀特征1個,為x600。logistic回歸模型效果較差,23個預測變量系數均不顯著,且P值都為1,AIC=48。
根據上述兩種方法的變量篩選結果,結合logistic回歸模型,分別針對訓練集和測試集進行預測,與胃息肉的真實情況(增生為0,腺瘤為1)進行比較,計算評價指標:正確率、Youden指數、靈敏度和特異度,如表2所示。

表2 Lasso方法與非局部先驗貝葉斯方法模型評價
同時,根據預測結果和真實結果,分別針對訓練集和測試集作兩種方法的ROC曲線,如圖1所示。

圖1 Lasso法與非局部先驗貝葉斯法的ROC曲線
根據上述結果,采用非局部先驗貝葉斯方法作為計算機輔助診斷模型(記為Model),與醫生診斷結果進行比較。在醫生診斷結果中,考慮醫生的最高、最低和團隊決策能力。首先從4名專家中選擇出診斷準確率最高的1名醫生作為該醫院的最高水平(記為Expert),從3名初學者中選擇出診斷準確率最低的1名醫生作為該醫院的最低水平(記為Beginner)。綜合考慮4名專家的診斷結果,若有2人及以上的醫生認為該病變屬于腺瘤,則專家綜合的評價結果即為需要手術(記為Average_Expert);再考慮3名初學者的診斷結果,若認為該病變類型為腺瘤的人數超過1人,則初學者綜合評價的結果即為需要手術(記為Average_Beginner);最后考慮全部醫師的診斷結果,若有超過3人認為該病變屬于腺瘤,則全部醫師的綜合評價結果即為需要手術(記為Average_All)。
根據表1的計算機輔助診斷模型給出預測結果和醫生診斷結果,計算各評價指標如表3所示。

表3 計算機輔助診斷與醫生診斷結果指標對比
*:A_E表示Average_Expert,A_B表示Average_Beginner,A_A表示Average_All
3.分析結果
針對高達698維影像數據,Lasso方法出現變量選擇的過擬合問題,模型泛化能力差,非局部先驗貝葉斯方法具有更少的變量個數,從訓練集到測試集的評價結果比較如表2顯示,4個指標均有較大提高,Lasso方法正相反,從圖1的ROC曲線也可看出,非局部先驗貝葉斯方法泛化能力更強。
計算機輔助診斷和醫生診斷對比中,如表3所示,在正確率指標上,Model值為0.8684,相較于Expert、Beginner和A_B都有明顯優勢,與A_E和A_A水平持平,表明Model總體診斷能力較優。在Youden指數上,Model值為0.7299,真實性最優。在靈敏度指標上,A_A的評價結果最優。靈敏度數值越高表明更多的惡性樣本能被正確檢測出來??紤]到將腺瘤誤判為增生給患者帶來的嚴重性,A_E的團隊4人投票規則設置,會增強靈敏度值。Model在靈敏度指標的診斷能力相較于單人醫生更強。在特異度指標上,Model和Expert的評價結果最優。特異度數值越高表明更多的良性樣本能被正確檢測出來,模型和最高水平的醫生能夠對良性樣本具有最優的診斷能力,大大降低病患心理負擔。
綜合而言,通過基于非局部先驗的貝葉斯方法篩選出的變量,進而建立的logistic回歸模型,其預測效果在各個指標上都處于中等或最優水平。表明在高維情況下,利用貝葉斯方法篩選出的變量X170解釋性強,代表性好,具有很好的計算機輔助診斷價值。
本文通過基于非局部先驗設置的貝葉斯變量選擇方法對UCI數據庫的Gastrointestinal數據集進行實證分析,針對76段病變處的影像資料,從698個病變特征中篩選出最佳的預測變量X170(2D紋理特征)。在變量篩選方法上,對比傳統高維數據的Lasso方法,測試集評價結果表明非局部先驗的貝葉斯方法更為有效、簡潔。并將該模型與醫院醫生各種可能診斷配置比較結果顯示,醫生投票方式能有效地將腺瘤樣本正確分類,模型的靈敏度雖略差于醫生投票診斷結果,但明顯優于單人的診斷;除此之外,模型預測結果可以達到與醫生投票或最好的醫生結果一致,甚至更優。從各個指標結果綜合分析,模型的診斷結果表現較好,體現出基于非局部先驗設置的貝葉斯變量選擇方法的優勢,相比于其他應用到醫學圖像判別的機器學習方法,該方法更加適用于高維的醫學影像數據。在鼓勵創新檢測技術與產品研發,通過技術更新提升我國防癌體檢效率的大背景下,論文采用貝葉斯變量選擇與logistic回歸模型作為計算機輔助診斷技術,有效降低醫生個體診斷的主觀性,特別針對醫療師資條件匱乏的地區,達到提高診療效率的根本目的。