高亞明 劉兆邦 陳 斌 李 銘 黃來劍
1(揚州大學信息工程學院 江蘇 揚州 225127)2(中國科學院蘇州生物醫學工程技術研究所 江蘇 蘇州 215163)3(溫州市人民醫院 浙江 溫州 325699)
近年來,我國人民的生活質量逐步提高,尿路結石的發病率也隨之遞增,南方發病率高于北方,約為22%~45%,個別省市甚至高達50%以上,且25%的患者需要住院治療。顯而易見,尿路結石已成為重要的公共衛生問題[1]。國內大多數研究表明,尿路結石的形成與很多因素有關,如地理環境、氣候、飲食習慣等。本文主要研究體內結石中的單純性結石,其成分以草酸鈣最為多見,占結石的80%以上,無水尿酸次之[2]。目前利用傳統的結石成分分析方法對兩者進行區分需要借助儀器,步驟復雜且成本較高,無法實現術前體內無創檢測。因此,本文通過CT圖像,結合機器學習算法對兩者的結構進行分析鑒別[3]。
就目前而言,基于機器學習的輔助診斷算法已經從純粹的理論發展到了臨床試驗,在諸多方面如乳腺、肺結節等診斷上證實了其可行性與適用性[4],但其在結石成分鑒別上的研究較少,比如Perrot等[5]利用放射和機器學習能準確鑒別腎結石和靜脈增生,卻無法有效地在結石間進行鑒別。因此,針對體內單純性結石特征,本文將輔助診斷算法用于其成分分析中,輔助醫生進行診斷。
預處理主要運用圖像增強技術,傳統的圖像增強技術大多是基于空間域對圖像進行處理,本文利用灰度調整和圖像插值方法。
灰度調整利用灰度直方圖得到圖像中的像素亮度分布情況,再通過均衡化、規范化處理,調整圖像的清晰度。
本文首先將CT圖像的普通像素值更改為醫學專用的CT值,再根據結石組織CT值范圍截取[100,1 500]HU以內的內容進行灰度調整[6],其中HU(Hounsfiled Unit)值表示組織對X射線的吸收程度。調整效果如圖1所示。

圖1 灰度調整
圖像間插值在每幀圖像中增加插值圖像以縮小距離,并將插值圖像和原始圖像共同組成三維數據以提高三維圖像的質量[7]。
本文利用立方插值算法在圖像序列間進行超分辨率重建,將CT圖像的像素間距統一為0.7 mm×0.7 mm×0.7 mm,如圖2所示。

圖2 圖像間插值
當前醫學圖像分割正從手動或半自動向全自動發展[8]。本文將臨床專家人工分割的結果作為金標準,利用3D Slicer軟件對病灶組織手動勾勒感興趣區域(ROI)[9]并對其裁剪得到更精準的ROI窗口[10],分割過程如圖3所示。

圖3 圖像分割
由于體外的草酸鈣結石質硬,呈環形或桑葚形,表面粗糙有刺,而無水尿酸結石質硬且表面光滑,呈圓形或卵圓形[11],故本文針對體內結石CT圖像,分別提取在二維和三維上的灰度、形狀和紋理特征[12],并對其進行對比分析。
醫學圖像中的灰度直方圖考慮形成圖像像素的強度,定義如下:由f(x,y)表示一幅灰度圖像,(x,y)處的值表示該位置像素,一幅圖有M個像素,分布在0~L-1灰度級,灰度直方圖則統計每級灰度像素數目得到的統計圖。
(1)
式中:i表示灰度級;L表示灰度級種類數(L≤256);mi表示灰度級為i的像素個數;M表示圖像總像素個數。
本文利用灰度直方圖,得到的灰度特征如下:
1)最大灰度值:分布在CT圖像中的最大灰度級。
2)均值:圖像灰度平均值。
(2)
3)方差:圖像灰度在數值上的分布情況。
(3)
4)熵:直方圖分布的均勻性。
(4)
5)傾斜度:直方圖分布的不對稱程度。
(5)
6)峰度:圖像的灰度分布在接近均值時的大致狀態。
(6)
形狀特征為結石分析提供重要的結構信息,分為輪廓特征和區域特征。輪廓特征主要針對結石的外邊界,本文得到基于輪廓的特征如下:
1)緊密度:衡量一個形狀的緊致程度。
(7)
式中:A為形狀面積;i1和i2為二階矩:
式中:image(i,j)為CT圖像;(i,j)處的值為CT圖像中該位置的像素值;I為CT圖像中所有像素點的橫坐標集合;J為CT圖像中所有像素點的縱坐標集合。
2)最長徑:邊界上相距最遠的兩個點之間的距離。
3)離心率:用焦點間的距離除以長軸的長度。
區域特征則針對整個結石區域,本文得到基于區域的特征包括二維區域中的面積和三維區域中的體積。
紋理特征反映結石表面的粗糙度、光滑性[13],提取方法分為統計分析、模型分析、結構分析和頻譜分析。
本文采用基于統計的方法,主要包括:
1)灰度共生矩陣(GLCM):統計圖像中不同灰度值的像素對出現的情況。
2)灰度游程矩陣(GLRLM):統計圖像中具有相同灰度的直線區域(灰度、方向、長度)出現的情況。
3)灰度區域尺寸矩陣(GLSZM):統計圖像中具有相同灰度的區域(灰度、大小)出現的情況。
4)鄰域灰度差分矩陣(NGTDM):統計圖像中相鄰區域的灰度差異情況。
5)灰度差分統計(GRAY_DIFF):反映目標場景在連續時間點圖像相減所構成的圖像特征。
其中灰度共生矩陣(GLCM)最為經典,應用最廣,由它提取出如下特征:
1)角二階矩(energy),反映圖像區域的均勻性或平滑性,表示為:
(8)
2)對比度(contrast),表示圖像的紋理清晰度,表示為:
(9)
3)相關系數(correlation),反映矩陣行與列的線性相關程度,值越大圖像區域灰度分布越均勻,表示為:
(10)
式中:μx、μy、σx、σy分別定義為:
4)熵(entrop),度量圖像內容的隨機性,表示為:
(11)
5)逆差分矩(uniformity),定義為:
(12)
6)同質化(homogeneity),定義為:
(13)
7)和平均(sum average),定義為:
(14)
式中:k=i+j。
所提特征如表1所示。

表1 所提特征
特征提取偽代碼如下:
功能:特征提取。
輸入:路徑字符串1,路徑字符串2。
輸出:2D灰度特征,2D形狀特征,2D紋理特征,3D灰度特征,3D形狀特征,3D紋理特征。
從磁盤讀取dcm醫學圖像數據文件
從磁盤讀取nrrd醫學圖像標簽文件
forx=3 topatient_num
獲取dcm文件與nrrd文件的數量img_num
fori=1 toimg_num
按照InstanceID對dcm文件進行排序,保證與nrrd文件順序一致
end
fori=1 toimg_num
查看當前幀是否存在標簽
ifm1>0 then
對當前幀圖像預處理
fory=1 tonum
對當前幀圖像的每個連通區域進行分割,得到ROI
對ROI進行裁剪得到最大ROI,即CT
將所有圖像Im和標簽mm分別保存為三維矩陣O_CT3V、MSK3V
end
end
end
對CT提取二維灰度、形狀、紋理特征
將所提特征歸類為二維全局特征和內部特征
對O_CT3V,MSK3V進行裁剪
計算維度dim
ifdim>1
對三維圖像預處理
fory=1 tonum
對每個三維連通區域進行分割,得到ROI
遍歷得到最大的ROI,并存儲為CT3V
end
forz=1 tosize(CT3V,3)
過濾,剔除沒有標簽的幀圖像
end
對CT3V提取三維灰度、形狀、紋理特征
將所提特征歸類為三維全局特征和內部特征
else
只有一幀圖像,直接將三維當作二維處理,得到特征
end
end
特征選擇是對高維特征進行篩選以降低特征維度的過程[14],由于最小冗余最大相關(mRMR)算法綜合考慮了相關性和冗余性,故本文使用mRMR算法。
mRMR算法通過計算特征之間和類標簽之間的互信息來選出冗余性最小和相關性最大的前N個特征,即從最小冗余和最大相關出發,給出一種基于互信息的評價準則。其中:最大相關指的是特征與類標簽信息之間的相關度最大;最小冗余指的是特征之間的冗余度最小[15]。
此外,將mRMR算法與相關系數(Spearma)法、Relief算法、SVM_RFE算法進行對比分析,從而驗證其在本文中的適用性。
本文采集的CT圖像數據是有限的,而支持向量機(SVM)分類器本身能較好地解決小樣本、高維度等問題,故本文選擇SVM分類器,針對有限樣本進行訓練。
在核函數的選擇上,基于高斯徑向基核函數的高維映射能力強、樣本適用性好、多用于特征數量小(15維)、樣本數量正常(119例)的情況,故本文使用基于高斯徑向基核函數的支持向量機(RBF_SVM)分類器。具體實現則采用第三方LIBSVM工具包,利用其內置參數進行調參。
同時,將其與基于Linear核函數的SVM(Linear_SVM)分類器,隨機森林(RF)分類器和Adaboost分類器進行對比分析,從而驗證RBF_SVM分類器在本文中的適用性。
1)實驗所用數據:
從溫州市人民醫院采集結石CT圖像DICOM數據集,其中:草酸鈣患者59例;無水尿酸患者60例;層內像素分辨率為512×512,層距為5 mm。
2)實驗所用機器環境:
操作系統:Windows 10;CPU:Intel(R)Core(TM)i5-7500 CPU @ 3.40 GHz(3 401 MHz);內存:16 GB;編程軟件:MATLAB R2018a。
1)分層10次10折交叉驗證法。分層10折交叉驗證首先將數據集分成10份,每份中類別之間的比例與整個數據集中的比例相同,輪番將其中9份作為訓練集,1份作為測試集進行實驗,每輪得到一個精度,最后對10輪結果取平均作為最后的模型精度。模型精度估計需要進行多次10折交叉驗證,本文進行10次10折交叉驗證,對得到的10個精度(ACC)求均值。
2)調參。參數設定直接影響算法性能,本文利用交叉驗證法,結合ROC曲線下的面積(AUC)對各分類器參數設置步長,進行調參,以選取最優參數,優化分類模型。
3)性能度量?;煜仃囀且粋€誤差矩陣,由它可得許多度量指標,如表2所示。

表2 混淆矩陣

(15)

(16)

(17)

(18)

(19)

(20)
ROC曲線的橫軸為假正例率:
(21)
ROC曲線的縱軸為真正例率:
(22)
根據分類器的預測概率迭代更新閾值,得到多個混淆矩陣對應的坐標點,依據坐標點畫出ROC曲線進而計算AUC值。
如圖4所示,首先對二維圖像進行灰度調整,對三維圖像序列進行插值,完成超分辨率重建,統一分辨率;其次,利用已標好病灶的NRRD標簽文件進行圖像分割,并裁剪得到更精準的ROI窗口;然后,再對ROI分別提取二維和三維上的灰度、形狀、紋理特征,并通過特征選擇算法進行篩選;最后將篩選得到的特征放入分類器進行模型訓練,通過ACC、AUC等指標對比分析分類效果。

圖4 實驗步驟
1)特征提取算法對比。如表3和表4所示,各領域信息互補,綜合訓練模型的鑒別性能,在統一使用mRMR算法與RBF_SVM分類器的前提下,紋理特征比灰度和形狀特征鑒別能力更強,2D特征略優于3D特征,而提取所有特征時,ACC值和AUC值最高,即最能反映病灶組織空間分布的異質性。

表3 特征提取平均ACC比較 %

表4 特征提取平均AUC比較 %
2)特征選擇算法對比。對各特征選擇算法進行對比分析,由表5可知,在統一提取所有特征與使用RBF_SVM分類器的情況下,mRMR綜合考慮了特征之間的冗余性和特征類標之間的相關性,故其選擇效果最好,驗證了mRMR在本文中的適用性。

表5 特征選擇對比 %
3)分類器對比。由表6可知,在統一提取所有特征與使用mRMR的情況下,RBF_SVM因其在小樣本上的適用性較強而分類效果最好,驗證RBF_SVM在本文中的適用性。

表6 分類器對比 %
4)最終輔助診斷算法評估。對結石CT圖像預處理及分割后提取所有特征,共130維,再利用mRMR算法篩選,篩選特征數對比如圖5所示。

圖5 篩選特征數對比
由圖5可知,選擇前15個特征分類效果最好,所選特征如表7所示。

表7 所選特征
將所選特征放入RBF_SVM分類器,得到本文所述的完整輔助診斷算法模型,綜合各項指標對結果進行評估,評估結果如表8所示。

表8 輔助診斷算法的各項指標 %
如圖6和圖7所示,10次結果的ACC值約為0.81,說明分類正確的樣本數較多,而ROC曲線對應的AUC值在0.89左右,說明分類器性能較優,所以,基于該輔助診斷算法可以實現對草酸鈣和無水尿酸結石的準確分類。

圖6 輔助診斷算法的ACC,AUC指標

圖7 輔助診斷算法的ROC曲線
本文結合臨床醫學,利用CT圖像進行定量分析,并對比機器學習特征提取、選擇及分類算法的實驗結果,提取結石在二維和三維上的灰度、形狀、紋理特征。最終使用mRMR特征選擇算法及RBF_SVM分類器,實現患者體內草酸鈣和無水尿酸結石的準確分類,ACC和AUC分別達到81.76%和89.03%,比現有結石分析方法更為快速簡便,真正實現體內無創,且符合臨床統計學結果,為臨床醫生診斷提供更為有效的參考依據。下一步將優化圖像處理和機器學習算法,得到更高的準確率。