朱雪亮,應 捷,楊海馬,李薄羏
(上海理工大學光電信息與計算機工程學院,上海 200093)
子宮內(nèi)膜癌(Endometrial Cancer,EC)是一種生在子宮內(nèi)膜上的癌癥,是女性第六大常見癌癥。2020 年有417 000個新增病例以及97 000 例死亡病例,目前發(fā)病率仍在增加[1]。由于該病通常在早期就有明顯癥狀,所以經(jīng)常在I 期就被發(fā)現(xiàn),此時腫瘤局限于子宮體內(nèi)[2]。根據(jù)國際婦產(chǎn)科聯(lián)合會(International Federation of Gynecology and Obstetrics,F(xiàn)IGO)[3]EC 的術(shù)前分期,需要人工根據(jù)磁共振圖像判讀肌層浸潤程度,此過程和分期直接相關,對預測預后及評估淋巴結(jié)轉(zhuǎn)移風險有重要作用。是否為深度肌層浸潤可作為區(qū)分IA 期和IB 期指標,且深度浸潤和淺度浸潤的預后明顯不同。因此,術(shù)前準確評估子宮肌層浸潤深度在治療及預后中極其重要。子宮肌層被子宮內(nèi)膜癌腫瘤浸潤的深度大于等于50%的子宮肌層厚度就被認為是深度肌層浸潤(Deep Myometrial Invasion,DMI),否則是淺度肌層浸潤(Shallow Myometrial Invasion,SMI)。對于術(shù)前評估EC,磁共振成像(Magnetic Resonance Imaging,MRI)是一種重要且無創(chuàng)的成像方法[4]。人工判斷肌層浸潤變化較大,且不同的醫(yī)生準確率也不同,主觀因素影響較大,計算機輔助判別有助于更準確地估計肌層浸潤深度。
目前在MRI 中對子宮內(nèi)膜癌肌層浸潤評估的計算機輔助診斷研究報道很少,國內(nèi)尚未發(fā)現(xiàn)有相關研究。現(xiàn)有文獻主要基于紋理分析評估DMI[5-7],其步驟為:人工圈畫腫瘤區(qū)域,提取基于直方圖的一階紋理特征,使用邏輯回歸或者隨機森林進行分類,得到67%~79.3%的敏感度。子宮的MRI 圖像分割有助于計算機輔助判別浸潤程度,Kurata 等[8]證明深度學習可以在MRI 中有效分割子宮區(qū)域,但其形狀、位置和背景復雜多變,要達到可以接受的性能需要大量的標注圖像。
綜上,為盡可能減少人工判斷工作,本文提出一種計算機輔助判別浸潤程度方法。考慮到計算機分割子宮體的可行性以及人工較易辨識子宮體區(qū)域,該方法在人工或計算機提供子宮體區(qū)域后自動給出浸潤程度分類結(jié)果。該方法流程如下:①基于Otsu 和形態(tài)學處理分割出病灶區(qū)域;②提取病灶區(qū)域的一階紋理特征和灰度共生矩陣特征,用于多種紋理的特征融合;③訓練支持向量機進行浸潤程度分類。如圖1 所示。

Fig.1 Flow of classification of the depth of myometrial invasion in endometrial cancer MR imaging based on texture feature extraction and SVM圖1 基于紋理特征提取和SVM 的MRI 子宮內(nèi)膜癌肌層浸潤分類流程
本文選擇MRI 的矢狀位T2 FS FSE 成像序列進行研究,在切片上人工沿著漿膜層圈畫子宮體區(qū)域作為感興趣區(qū)(ROI)。選擇切片的原則是:與鄰近的切片相比,此切片中腫瘤邊緣距漿膜層最近。算法自動沿著漿膜層圈畫的曲線起止點用直線連接,此封閉曲線圍成的區(qū)域即ROI,見圖2 中的綠色曲線(彩圖掃OSID 碼可見,下同)。將每個ROI 看作一個樣本,相應的術(shù)后病理為其金標準標簽。本文MRI 圖像的像素值歸一化為0-255 范圍。

Fig.2 Segmentation results of some samplesNotes:Green curves represent ROI.First row:Original images.Second row:The corresponding segmentation result of tumor(red region).(a)-(c):DMI samples.(d)-(e):SMI samples圖2 部分樣本分割結(jié)果注:綠色曲線代表ROI,第一行為原圖,第二行是對應的腫瘤分割結(jié)果(紅色區(qū)域),(a)-(c)是深度浸潤樣本,(d)-(e)是淺度浸潤樣本。
在MRI 的T2 加權(quán)成像序列(T2WI)中,相對于正常的子宮內(nèi)膜,子宮內(nèi)膜癌最常表現(xiàn)為不均勻中等信號強度。相對于正常子宮肌層,腫瘤在T2WI 中呈輕度高信號[9],宮腔因液體成分呈高信號[10]。
Otsu 是一種自適應的圖像分割閾值確定方法,也被稱為最大類間方差法[11],其將構(gòu)成圖像的像素分成前景圖像和背景圖像兩組。本文的Otsu 用于分割位于宮腔附近表現(xiàn)為中等信號以及高信號的像素區(qū)域,將其作為包含腫瘤和宮腔的區(qū)域,用于后續(xù)的腫瘤區(qū)域分割。
令I=f(x,y),L,ni和N 分別表示圖像、圖像的灰度級、灰度級i處的像素數(shù)量、像素總數(shù),則歸一化的灰度直方圖概率分布為:

圖像均值為:

所有像素被閾值k 分為兩組:C1,C2。其中C1={(x,y)|0 ≤f(x,y) ≤k},C2={(x,y)|k+ 1 ≤f(x,y) ≤L- 1}。通 常C1是前景C2是背景,出現(xiàn)的概率以及均值分別為:

使類間方差最大的閾值k*為最優(yōu):

為減少漿膜層附近的亮度對Otsu 分割的影響,先對ROI 進行形態(tài)學腐蝕,然后進行Otsu 分割。Otsu 分割圖像后得到二值圖像,使用形態(tài)學腐蝕和膨脹消除或斷開與宮腔腫瘤連通域有狹窄連接的過度分割部分。由此得到多個區(qū)域。選擇和ROI 的形心最近的區(qū)域進一步獲取含宮腔和腫瘤的連通域,記作區(qū)域A。當腫瘤浸潤肌層時,區(qū)域A的局部輪廓會向外凸起,這將導致區(qū)域A 的凸包面積和其自身面積之差較大。另外,過度分割也會使面積之差變得過大,本文使用形態(tài)學處理解決該問題,由此得到宮腔和腫瘤的連通區(qū)域R1。
宮腔因有液體成分,相比于腫瘤區(qū)域呈現(xiàn)出較高的亮度[10],故使用閾值分割易于將R1 區(qū)域中的宮腔剔除,得到剩余的腫瘤區(qū)域。本文采用閾值分割方法剔除宮腔區(qū)域,閾值選為一固定值190,此值為反復實驗后確定。本文設計的分割腫瘤算法流程如圖3 所示,其中erosion(x)*m+dilation(y)*n 表示先迭代執(zhí)行m 次形態(tài)學腐蝕再迭代執(zhí)行n次形態(tài)學膨脹,結(jié)構(gòu)元素分別為x×x 和y×y 的全1 矩陣,分割結(jié)果如圖2 中紅色區(qū)域所示。

Fig.3 Flow of tumor segmentation based on Otsu and morphological processing圖3 基于Otsu 和形態(tài)學處理的腫瘤區(qū)域分割流程
基于圖像灰度直方圖的一階統(tǒng)計紋理特征(first order texture features)能反映腫瘤組織的紋理變化,常用于腫瘤的紋理分析研究,如在CT 圖像中利用一階紋理特征進行甲狀腺結(jié)節(jié)良惡性分類[12],表明惡性結(jié)節(jié)的熵明顯高于良性結(jié)節(jié),其峰度值也較高。另外,文獻[5-7]表明一階紋理特征和DMI 有相關性,因此本文在分割出的腫瘤區(qū)域提取一階紋理特征用于建模,預測肌層浸潤程度,包括均值(mean)、標準差(std)、熵(entropy)、偏度(skewness)、峰度(kurtosis),其公式按照文獻[13]方法計算。
基于灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)的紋理特征是一種二階統(tǒng)計紋理分析方法,能綜合描述圖像在方向、間隔、變化幅度及快慢上的信息。基于GLCM 的紋理特征也被用于其他腫瘤的紋理分析[14-16],本文提取的GLCM 紋理特征用于描述子宮內(nèi)膜癌的腫瘤特性。
設圖像中像素(x,y)處的灰度為m,統(tǒng)計它與相距為d、方向為θ、灰度為n 的像素(x+ Δx,y+ Δy)同時出現(xiàn)的頻數(shù),記為P(m,n,d,θ)。若圖像的灰度級為Ng,則可得到N2g個m 和n 的組合,將其排列為Ng×Ng的矩陣,其m 行n 列處的值為P(m,n,d,θ),表達式為:

式中,{X}代表集合X中的元素總數(shù),此矩陣就構(gòu)成GLCM。原始GLCM 不用于紋理分析,而是在此基礎上提取統(tǒng)計量作為紋理特征。Haralick 等[17]提出14 種由GLCM計算出來的統(tǒng)計量,但若特征過多會導致速度慢且復雜,還可能存在冗余特征,不利于提高分類性能。本文提取6個GLCM 特征,分別是:contrast、dissimilarity、homogeneity、ASM、energy 和correlation。每個GLCM 特征計算步驟如下:先將原本256 級灰度變換為8 級灰度,步長d 取1,得到θ等于0°、45°、90°和135°四個方向的灰度共生矩陣,對應計算出4 個方向的GLCM 特征,最終取這4 個特征值的平均值作為其結(jié)果。本文提取的特征區(qū)域為不規(guī)則區(qū)域,不是常見的對矩形區(qū)提取GLCM,所用的方法是:統(tǒng)計灰度限制在病灶區(qū)域,若像素位置超出病灶范圍則不計入GLCM 的統(tǒng)計結(jié)果。本文提取的所有特征如表1 所示。

Table 1 All extracted features表1 提取的所有特征
支持向量機(SVM)是一種模式識別方法,在解決非線性問題、小樣本問題以及高維數(shù)據(jù)等問題中表現(xiàn)出許多獨特優(yōu)勢。支持向量機通過建立一個最優(yōu)決策超平面,使正樣本和負樣本之間的分類間隔最大[18]。
設訓練樣本為T={(xi,yi)|i= 1,2,…,n,xi∈Rm},y={+1, - 1},n為樣本數(shù),支持向量機可以描述為不等式約束條件下的二次規(guī)劃求解,即:

其中,ξi為松弛變量,C 為懲罰因子。
式(6)可通過引入拉格朗日乘子進行求解,求得其對偶形式為:

由式(7)推導可得到?jīng)Q策函數(shù):

其中,αi為拉格朗日算子,b 為判別函數(shù)閾值,K(xi,xj)為核函數(shù),常見的形式有線性核函數(shù)、徑向基核函數(shù)、多項式核函數(shù)等。
本文提取兩種類別的紋理特征用于描述肌層浸潤程度,比單獨使用一階紋理特征的方法能獲得更多用于類別區(qū)分的信息。為使這些信息能被機器學到以提高分類性能,需將二者融合。本文將一階紋理特征和GLCM 特征進行串聯(lián)融合組成特征數(shù)據(jù)。為考察這種串聯(lián)融合是否比單一類型的特征學到更多有效信息以提高性能,本文使用相同的學習器分別對這兩種特征進行學習并比較性能。
另外,不同紋理特征間數(shù)值差異較大。為消除不同量綱的影響,需對特征進行歸一化處理,本文使用高斯歸一化,公式如下:

其中,t 為兩類樣本數(shù)量之和,Xmn表示第n 個樣本的第m 個特征,是歸一化后的特征值。
由于本研究所用數(shù)據(jù)集規(guī)模小,故采用留一交叉驗證方法(leave-one-out cross-validation,LOOCV)估計分類器性能。LOOCV 依次將整個數(shù)據(jù)集中的一個樣本移出作為測試樣本,剩余的樣本作為訓練集訓練學習器,最終使用留出的測試樣本測試學習器。每輪LOOCV 使用網(wǎng)格搜索法(grid-search)優(yōu)化超參數(shù),具體按照文獻[19]中描述的grid-search 和LOOCV 共同搜索超參數(shù)以及交叉驗證步驟,在指定的超參數(shù)空間中搜索使F1-score 最大的超參數(shù),使用scikit-learn(version 0.21.3)[20]中的GridSearchCV 方 法實現(xiàn)。然后使用最優(yōu)超參數(shù)在訓練集上訓練模型,對留出的樣本進行測試并輸出預測概率。越高的概率表示深度浸潤的可能性越大。若概率值大于等于閾值T,則預測為深度浸潤,否則為淺度浸潤。閾值T 定義為:使模型在訓練集上的sensitivity 與specificity 之和最大的閾值。訓練和測試迭代執(zhí)行,直到數(shù)據(jù)集中每個樣本都被測試一遍,則每個樣本都有一個模型預測的深度浸潤概率以及浸潤程度分類標簽。
本文所用性能評價指標有accuracy(Acc)、sensitivity(Sen)、specificity(Spe)、precision(Pre)、F1-score(F1)以 及ROC(receiver operating characteristic)曲線及其曲線下面積AUC(areas under the ROC curve),通過模型生成的標簽和預測概率進行計算。ROC 的橫坐標為1-specificity,縱坐標為sensitivity,AUC 可用于評估分類器性能,其值越大分類能力越強。F1-score 是對sensitivity 和precision 的綜合評估。

其中,TP 表示預測正確的深度浸潤樣本數(shù),TN 表示預測正確的淺度浸潤樣本數(shù),F(xiàn)P 表示淺度被預測為深度的樣本數(shù),F(xiàn)N 表示深度被預測為淺度的樣本數(shù)。
本文共收集到79 個ROI 作為樣本(對應79 位EC 患者),包含19 例深度浸潤、60 例淺度浸潤樣本。術(shù)前MRI 數(shù)據(jù)來自上海第一婦嬰保健院,時間為2016 年2 月-2019 年1月。腫瘤圖像分割經(jīng)預處理后,提取一階紋理特征和GLCM 特征并進行歸一化,訓練SVM,按照本文的LOOCV 方法評估學習器性能。實驗使用python3.6 64-bit 實現(xiàn),計算機配置為:Windows10 64 位操作系統(tǒng),Intel(R)Core(TM)i5-9400f CPU @2.90GHz,RAM 為16.0GB。
按照本文方法將一階紋理特征和GLCM 特征融合訓練SVM。SVM 使用線性核,懲罰因子C 的網(wǎng)格搜索范圍為10-4~103,訓練集和測試集分類性能如表2 所示。

Table 2 Training and test performance of the proposed method表2 本文方法的訓練與測試性能
由表2 可知,融合兩種紋理特征使用線性核SVM 的測試性能沒有較大下降,表明該方法具有一定的泛化能力。在基于手工圈畫腫瘤的紋理分析研究中,得到的Acc 分別為91.0%、81.0%、78.0%;Sen 分別為67.0%、79.3%、70.0%;Spe 分別為100%、82.3%、84.0%。與之前研究不同的是,本文方法只使用了人工較易辨識的子宮體區(qū)域便自動給出了浸潤程度分類,且分類性能較好。
本文除了使用SVM 進行特征融合并分類外,還與邏輯回歸(LR)和隨機森林(RF)以及常用分類器樸素貝葉斯(NB)進行比較。采用scikit-learn(version 0.21.3),參數(shù)設置如下:LR,使用L2 正則化,懲罰因子C 搜索范圍10-4~103;NB,選擇Gaussian Naive Bayes,var_smoothing 在10-9~104搜索;RF,樹的個數(shù)為100,最大葉節(jié)點數(shù)為5 個,其他參數(shù)均為默認值。此外,為考察這種融合是否比單一類型的特征能學到更多的有效信息,使用SVM 分別對一階紋理特征(First order)和GLCM 特征進行學習并比較性能。實驗結(jié)果如表3 所示,不同方法的ROC 曲線如圖4、圖5 所示。
由表3 可見,本文方法比常用的分類器LR、RF 和NB的性能指標均高;從ROC 曲線看,本文方法也比其他分類器的AUC 高,表明SVM 可以高效地學習到區(qū)分浸潤程度的信息。此外,對比融合前后的SVM 性能,融合兩種特征在sensitivity 上有所降低,在accuracy、specificity、precision 等指標上有所提高,表明只使用一階紋理特征會傾向于正確識別出更多的深浸潤樣本,但會有較多被錯分為深浸潤的樣本。串聯(lián)融合兩種特征傾向于正確識別出更多的淺浸潤樣本,同時減少錯分為深浸潤的樣本。

Table 3 Classification performance of different features and classifiers表3 不同分類器和不同特征的分類性能比較

Fig.4 ROC curves of different classifiers圖4 不同分類器的ROC 曲線

Fig.5 ROC curves of different features combined with SVM圖5 不同類型特征結(jié)合SVM 分類的ROC 曲線
針對計算機輔助判別MRI 圖像子宮內(nèi)膜癌肌層浸潤程度需求,本文提出一種基于紋理特征提取和SVM 的方法,該方法先通過Otsu 和形態(tài)學處理分割病灶區(qū),提取病灶區(qū)的一階紋理特征和GLCM 特征,融合特征后使用SVM分類。該方法僅需計算機或人工提供子宮體區(qū)域,較易辨識,可自動估計浸潤程度。本文將SVM 和常用分類器進行對比,結(jié)果顯示SVM 有較好的分類性能。將單類型特征和融合特征做了對比,結(jié)果融合特征可提高accuracy、specificity、precision 等指標,但會降低sensitivity。實驗結(jié)果表明本文方法對輔助判斷肌層浸潤程度可行。本文結(jié)果有助于未來對肌層浸潤的特征提取研究,如可繼續(xù)提取病灶區(qū)其他類型紋理特征,則可根據(jù)本文R1 區(qū)域提取的子宮肌層特征進行深入研究。