影像組學在腦膠質瘤分級中的應用研究

2018-08-31 02:05:54楊志煒郭天謝海濱楊光

磁共振成像 2018年6期

楊志煒，郭天，謝海濱，楊光

作者單位：華東師范大學物理系，上海市磁共振重點實驗室，上海 200062

隨著生物醫學的進步，人們對不同疾病的理解逐漸深入，但癌癥仍然是尚未攻克的難題[1]。腦膠質瘤的臨床治療方案一般由治療過程中腫瘤的分級情況決定。目前，腦膠質瘤分級標準嚴格基于病理學檢查，這種方法有一定的局限性，包括侵入性、采樣誤差、解釋的變化性等[2]，而基于影像學檢查的分級方法[3]沒有侵入性，逐步成為研究的熱點。但是，早期醫生往往只能通過肉眼來獲取圖像信息，耗時較長，自動化的分級方法則能有效縮短診斷與治療時間。磁共振成像常被用于腦膠質瘤檢查，它能夠提供大量的腦部軟組織解剖、功能、代謝等信息，有些與疾病相關的特征，肉眼很難發現，這也需要人們開發自動的工具或算法[4-5]。因此越來越多的研究者參與到腦膠質瘤磁共振圖像的自動化分級中。

影像組學是近年來興起的一種圖像分析方法，它從醫學圖像中自動地高通量地提取大量定量特征。假設對于給定模態的醫學圖像數據，通過自動的或半自動的軟件對它們進行定量分析，可能可以從圖像中發掘出更多更好的信息[6]，就能將影像組學與常規磁共振圖像相結合，使其在腦膠質瘤分級的應用中發揮巨大作用。本研究用影像組學的方法對基于常規磁共振圖像的腦膠質瘤進行了分級。

1 材料與方法

1.1 數據

1.1.1 腦膠質瘤分級

根據2016年世界衛生組織(World Health Organization，WHO)中樞神經系統腫瘤分類標準，腦膠質瘤分類包括[7]星形細胞腫瘤、少突膠質細胞腫瘤、室管膜腫瘤、脈絡叢腫瘤、神經元及混合神經元神經膠質腫瘤等。腦膠質瘤可以分級為低評級(low grade glioma，LGG)和高評級(high grade glioma，HGG)。

1.1.2 數據集介紹

本研究使用了2017腦膠質瘤分割競賽數據集(brain tumor segmentation challenge 2017，BRATS2017)[8-9]，該數據集提供了專家手工標記的腫瘤區域以及腫瘤的分級情況，其中提供腫瘤分級信息的有285例數據，LGG有75例，HGG有210例，數據模態為T1加權像、增強T1加權像、T2加權像和液體衰減反轉恢復序列(fluid attenuated inversion recovery，FLAIR)像。數據來源于19個不同機構，大多采集自3.0 T磁共振成像系統。數據全部經過預處理的，包括配準到相同的解剖模板、插值到相同分辨率等。

所有圖像根據相同的標準由1～4個人進行分割，并由經驗豐富的神經放射學家驗證。總共分為4個區域，即：增強的核心(enhanced core)、水腫(edema)、非增強的實性核心(non-enhancing solid core)和壞死/囊性核心(necrotic/cystic core)，區域之間沒有重疊。數據集中將壞死/囊性核心與非增強的實性核心合并為一個區域，簡稱為NET區域，以感興趣區(region of interest，ROI)NET表示。增強的核心區域和水腫區域分別簡稱為ET區域和ED區域，以ROIET、ROIED表示。圖1為BRATS2017數據集中一例患者的膠質瘤示意圖，藍色為T2加權像上顯示的整個腫瘤區域，即NET區域、ET區域、ED區域的總和；紅色為增強T1加權像上顯示的ET區域，綠色為FLAIR像上顯示的水腫區域，即ET區域與ED區域的總和。

1.2 特征提取

本研究自動提取了117個特征，特征類型包括全局特征、形態特征、灰度特征和Gabor特征。以下簡要介紹各類提取的特征。

1.2.1 全局特征

不同機器、環境、患者掃描得到的磁共振圖像具有不同的灰度分布。有些研究[2，10]利用直方圖匹配方法將不同圖像匹配到同一灰度分布下，但是這種方法會改變腫瘤區域的灰度分布，進而丟失腫瘤的灰度信息。筆者直接將患者大腦的特征作為腫瘤分級所用的特征的一部分，這些特征稱為全局特征。

全局特征包括腦脊液、白質、灰質在T1、T1增強、T2和FLAIR像上的灰度平均值。要獲取各組織的灰度值需要對大腦組織進行分割，現有的最精確的分割方法是基于深度學習的[11]。另外，Kumar等[12]比較了不同的圖像分割算法，指出K-means算法具有較好的分割表現和較低的計算開銷，與其他算法結合能夠提升分割效能，考慮到特征提取步驟需要對精確性與效率進行權衡，因此，針對該文的應用場景，采用K-means算法。

1.2.2 形態特征

形態特征包括腫瘤總體積V、腫瘤表面積A、腫瘤似圓度SPH[13]、腫瘤表面徑向分布的熵值RE、ET區域體積VET、ED區域體積VED以及NET區域體積VNET。另外，本研究還提取了VET與V的比值rET、VNET與V的比值rNET以及VED與V的比值rED。

1.2.3 灰度特征

本研究分別計算了T1、T1增強、T2、Flair圖像中ROINET、ROIET、ROIED的灰度平均值、標準差，其中最終的平均值為除以白質的灰度平均值之后得到的平均值。由于腫瘤區域的灰度一般不滿足高斯分布，所以筆者還統計了上述3個區域對應圖像灰度分布的峰度與偏度。峰度表征某一分布縱向偏離高斯分布的程度，偏度表征某一分布橫向偏離高斯分布的程度[14]。與上節相仿，以的形式表示灰度特征，其中A為NET、ET、ED，分別表示3類區域，B為μ、σ、K和SK，分別表示平均值、標準差、峰度和偏度，C為T1、T2、T1CE、FLAIR。

1.2.4 Gabor特征

本研究對ROI所處的每一層都用二維蓋波濾波器進行卷積，最后對ROI內體素信號進行平均，得到三維圖像的Gabor特征[15]。二維蓋波濾波器在位置x，y處的公式為：

λ為波長，θ為方向角度，γ為縱橫比，它決定了卷積核的離心率[16]，本研究取1，σ為高斯函數的帶寬，它決定了像素不同領域范圍的權重。上式中的濾波器為復數形式，因此卷積得到的是復圖像，筆者取模圖來計算Gabor特征。θ取0到

之

本研究僅計算T1增強像中腫瘤區域與Flair像中水腫區域的Gabor特征，以的形式表示，其中A為TUMOR、ED，分別表示腫瘤區域和水腫，B取1～5，表示5個方向角度，C為T1CE、FLAIR，D取1～5，表示5個波長。

1.3 特征選擇

特征選擇方法主要包括：過濾(Filter)方法、包裝(Wrapper)方法和集成(Ensemble)方法[17]。本文結合了前兩種特征選擇方法進行特征選擇。具體方法為：(1)使用過濾方法對特征進行排序；(2)添加排名靠前的特征作為新的特征子集，運用包裝方法進行特征選擇。

1.3.1 過濾方法與t檢驗

過濾方法通常從特征集合中剔除與預測變量最不相關的特征，將剩余的變量用于預測。它所用的判據往往是通用的與預測變量的相關性之類的判據，與后續所使用的分類器模型無關。過濾方法得到的特征子集常常會包含冗余的特征，因為它所用的判據忽略了特征間的相關性。由于過濾方法與特定的分類器無關，所以計算開銷小，泛化能力強。對于大數據集和高維度特征，過濾方法應用十分廣泛。

本研究使用雙總體t檢驗值的大小作為特征排序規則。該類t檢驗能夠衡量兩個分布的差異，因此也能用來檢驗每個特征的分類能力。假設特征在不同分類下均服從高斯分布，并且它們的方差相等，本研究利用t檢驗選擇在兩個分類間分布差異最大的30個特征。

1.3.2 包裝方法與遺傳算法

包裝方法對特征子集的性能進行評價，它可以發現特征間的關系，選出最優子集。包裝方法分類能力很強，但計算開銷大，容易過擬合，限制了該方法在高維問題上的應用。本研究采用了遺傳算法來搜索特征子集空間。

遺傳算法(genetic algorithm，GA)[18]是模擬生物在自然環境中的遺傳和進化過程而形成的一種自適應全局優化概率搜索算法。對于函數最優化的問題，解的空間一般非常大，在很多情況下幾乎求不出解析解。遺傳算法能夠利用其隨機搜索的特性，求出其近似最優解。

進行優化時，首先設定初始群體，對群體中的所有個體進行評價，即計算適應值。然后將一系列遺傳算子作用到群體上，判斷是否達到算法終止條件，若是，將群體中具有最優適應值的個體作為問題的最優解，若否，則繼續迭代。遺傳算法的典型流程如圖2所示。

遺傳算子主要包含選擇算子、交叉算子和變異算子[19]。選擇運算將群體中適應度函數值較優的個體以某種規則遺傳到下一代中。交叉運算以一定概率交換群體兩個個體間的部分染色體，產生新的個體。變異運算以一定概率改變群體中某些個體的一個或者多個等位基因。

本研究最終選取群體人口為50，最大進化的代數為100，選擇算法為錦標賽算法，選擇個數為2，即每次選取2個個體中最好的那個，共選取50次。交叉算法為分散交叉，交叉率為0.8，變異算法為均勻變異，變異率為0.1。

1.4 分類

本研究使用過濾特征選擇方法，對非線性的SVM[20]、K近鄰法(K nearest neighbour，KNN)[21]和決策樹(decision tree，DTREES)[16]進行了比較，步驟如下：從最具有區分度的特征開始，逐步添加次一級區分度的特征，找到分類性能最好的特征組合。

由于數據是不平衡的，需要對數據進行平衡。常用的方法有對數量多的分類樣本下采樣或對數量小的分類樣本上采樣，前者不能充分利用數據，后者可能會增加噪聲點。根據每種分類算法的特性來分別解決這個問題。支持向量機中一個重要的參數是懲罰因子C。較大的C值會給誤分類一個較大的懲罰。本研究還采用帶權重的支持向量機[22]來加大對小樣本分類錯誤的懲罰。在K近鄰法中，使用帶距離權重的分類判決方法，這使得距離較近的點對分類具有較大貢獻。對于決策樹，則使用了對數據不平衡不敏感的CART算法[23]。1.4.1 SVM

SVM分類算法的主要思想是找到一個獨一無二的超平面，這個超平面能最大化兩個分類之間的間隔。給出l組訓練數據，x為輸入樣本，y為標簽。

軟間隔的SVM方法需要得到下列優化問題的解：

約束條件為：

訓練集的特征矢量被映射到高維空間中，C是懲罰因子，用來平衡間隔最大化的要求與分類錯誤之間的矛盾，取C=0.5。若對不同標簽的樣本進行不同懲罰，則稱為帶權重的，這里取正類負類的權重比為1∶1.5。該優化問題的一種簡便解法是解它的對偶問題，即：

約束條件為：

最后給出一個數據x，得到該數據的分類為，令，則函數K稱為核函數，這里取高斯核函數為，，n為特征數量。

1.4.2 K近鄰法

KNN算法常用來解決分類問題，它沒有顯式的學習過程。典型的KNN算法步驟如下：給定一個訓練數據集，對新的輸入實例，在訓練數據集中找到與該實例距離最相近的K個實例，根據分類決策規則將該實例分為某個類。該算法有3個基本要素[24]：距離度量、k值選擇和分類決策規則。常用的分類決策規則有多數表決，即K個實例中較多的那一類為最終分類。這里采用歐氏距離度量，這個距離還能帶上權重，取權重為。較小的K值會使模型變復雜容易過擬合，而較大的K值會增大分類誤差，這里取K為3。

1.4.3 決策樹

決策樹模型是定義在特征空間與類空間上的條件概率分布，主要優點有：模型具有可讀性，分類速度快[24]。決策樹算法學習一般包含3個步驟：特征選擇、決策樹生成和決策樹修剪。本文決策樹是基于分類回歸樹(classification and regression tree，CART)算法的，該算法通過遞歸地構建二叉樹來生成決策樹。它使用基尼(Gini)指數選擇最優特征，同時決定該特征的最優二值切分點。對于給定樣本集合D，基尼指數定義為：

K為標簽個數，當K=2時即為二分類問題，標簽為k的樣本個數。根據特征A的取值分割成D1、D2兩部分，則在該條件下基尼指數定義為：

決策樹修剪是通過剪枝算法完成的，算法從完全生長的決策樹底端減去一些子樹，分為兩步[24]：首先從生成算法的決策樹底端開始不斷剪枝，直到根節點，形成子數序列，然后通過交叉驗證法在獨立的驗證數據集上測試，選擇最優子樹。

表1 不同方法分類的準確率、敏感性、特異性Tab.1 Classification accuracy, sensitivity, and specificity of various methods

表2 不同方法特征的選擇結果Tab.2 The feature selection results of various methods

圖1 BRATS2017膠質瘤示意圖。藍色為腫瘤區域，紅色為增強的核心區域，綠色為水腫區域Fig. 1 The segmentation of BRATS2017 dataset. Blue: the whole tumor, Red: the enhanced core,Green: edema.

圖2 遺傳算法步驟示意圖Fig. 2 The procedure of the genetic algorithm.

2 結果

2.1 基于Filter方法的分類

本研究用留一交叉驗證法對BRATS2017數據集的包含分級信息的285例數據進行分類。首先，使用基于過濾方法的特征選擇方法，特征排序方法為t檢驗法。選出前30個特征依次添加，并用支持向量機、K近鄰法和決策樹進行分類。本研究使用了LIBSVM工具箱[25]來進行SVM算法分類。圖1為支持向量機、K近鄰法、決策樹的分類準確率與特征數量的關系圖。

筆者確定3種方法達到最高準確率時的特征子集，計算對應的敏感性和特異性，見表1。由表1可知，支持向量機算法具有最高的準確率與敏感性，所以選擇該算法作為下一步實驗的分類器。

2.2 基于遺傳算法特征選擇的分類

本研究以過濾方法排序得到的前30個特征作為初值，進一步使用基于遺傳算法的包裝方法進行特征選擇。選擇上節中選擇的SVM作為分類器。圖4為每一代適應度函數的平均值、最大值與進化代數的關系圖。圖5為支持向量機分類的受試者工作特征曲線(receiver operating characteristic，ROC)圖，黑線為基于過濾方法的，紅線為基于遺傳算法的。

由圖4可以看出，算法迭代結束時最小函數值為-93.33，即達到的最大準確率為93.33%，證明遺傳算法搜索得到的特征組合效果最好，優于過濾方法的結果。

由圖5可以看出，GA-SVM方法ROC曲線下的面積(area under the curve，AUC)為0.94，大于Filter-SVM方法的0.90，證明具有較好的分類表現，該方法在同等敏感性下有著更低的假陽率，即達到相同效果所付出的代價更低。

2.3 特征選擇結果

表2為上兩節中4種方法選取得到的特征。由表2可知，基于過濾特征選擇方法的支持向量機與決策樹算法挑選出了同樣的特征，而K近鄰法選出了較多特征，但是特征之間有冗余。GA-SVM方法則在這些特征的基礎上又選擇出了Gabor特征和全局特征。

圖3 分類準確率與添加特征數量關系圖。決策樹分類算法隨著特征數增加準確率趨于平穩。K近鄰分類算法在特征數很少時準確率就達到最大，隨后趨于平穩。支持向量機分類算法能達到的準確率最高，但是隨著特征數增加，準確率急劇下降圖4 適應度函數平均值及最小值隨遺傳代數變化的情況圖5 ROC曲線圖。Filter特征選擇方法的ROC曲線下面積(area under the curve，AUC)=0.90。基于Wrapper與遺傳算法的特征選擇方法的AUC=0.94Fig. 3 Classification accuracy vs number of features used. Accuracy of decision tree is quite stable with the increase of the number of features. Accuracy of KNN reaches the maximum when the number of features is small. Accuracy of SVM is the highest among three classifiers, but it rapidly falls off when the number of features increases. Fig.4 The best or mean fitness function value vs generations. Fig.5 ROC curve. Filter feature selection method, AUC=0.90. Feature selection method based on Wrapper and genetic algorithm, AUC=0.94.

3 討論

3.1 腦膠質瘤分級的自動化

本文利用影像組學方法對腦膠質瘤進行了自動分級。腦膠質瘤的自動分級一般有如下步驟：(1)圖像分割；(2)特征提取；(3)特征選擇；(4)分類。最常用的特征提取方法有離散小波變換(discrete wavelet transform，DWT)和灰度共生矩陣(gray level co-occurrence matrix，GLCM)；在特征降維方面，主成分分析法(principal component analysis，PCA)和遺傳算法被廣泛使用[26]；隨機森林(random forests，RF)由于其算法特性，更適合處理高維問題和多分類問題，因此該算法對于腦膠質瘤分級最精確[8]。本文則提取了多種類型的特征包括全局、形態、灰度、紋理各個方面；并結合兩種特征選擇方法，進行了多步驟的特征降維，由于是單分類問題，本研究只比較了3種常見的分類算法。筆者首先采用基于t檢驗的過濾方法進行特征選擇，發現支持向量機分類算法能達到的準確率和敏感性最高，但是隨著特征數增加，準確率急劇下降。支持向量機算法具有較好性能的原因是：該算法的高斯核函數將特征映射到了高維空間，提高了特征的分類能力。結果表明，支持向量機算法適合作為腦膠質瘤分級問題中的分類器。

然后，采用基于遺傳算法的包裝方法進行特征選擇，算法得到的準確率和AUC值都超過了過濾方法，結果表明，遺傳算法挑選出了特定的特征組合，提升了腦膠質瘤的分級診斷效能。包裝方法能夠搜索更大的特征空間，但是需要更長的搜索時間，而遺傳算法是一種自適應的全局優化概率搜索算法，彌補了該方法的缺點，加快了搜索過程。

3.2 影像組學在常規磁共振圖像上的應用

基于影像組學的方法對腦膠質瘤分級進行的研究相對較少，值得注意的是，鄧慧媛等[27]利用Logistic多元回歸相關性分析篩選出了鑒別高低級別腦膠質瘤效能較高的DWI序列特征，高于T1加權增強像、T2加權像的鑒別效能。另外，林坤等[28]的研究得出多模態MRI檢查技術的分級診斷效能高于常規增強MRI及DWI檢查。本文則結合公開數據集的大數據量和影像組學發掘了常規磁共振圖像在腦膠質瘤分級問題上的巨大潛力。

在特征選擇方面，基于過濾特征選擇方法的支持向量機與決策樹挑選出了同樣的特征，但是它們的分類性能不同；K近鄰法選出了較多特征，但是特征之間有冗余。這3種方法選出的特征基本與先驗知識相符，即腫瘤越大、腫瘤區域灰度值越高，腫瘤惡性可能性越大。基于遺傳算法的特征選擇方法則在這些特征的基礎上又選擇出了Gabor特征和全局特征。這些特征增強了分類性能，而且人的肉眼無法觀察到，這凸顯了影像組學方法與人相比可能具有的優勢。本研究從T1、T1增強和FLAIR像中都提取到了有用的特征，這也表現了常規磁共振圖像在腦膠質瘤分級中不可忽視的作用。

3.3 本文工作的不足與局限性

目前，影像學檢查經常使用于腦膠質瘤的分級診斷，常規磁共振圖像對于病變的解剖定位意義重大，但是不能同時顯示腫瘤的代謝、血液動力學、分子及細胞結構的信息[29]。這也提示需要克服常規磁共振圖像的局限性，將多種MR技術相結合，彼此取長補短，可更好地對腦膠質瘤進行分級診斷。

另外，本研究所使用的公開數據集中已經提供腦膠質瘤的分割結果。在腦膠質瘤分級的實際應用中，還需要在ROI區域對腫瘤進行分割，在分割結果上進行特征提取。因此，在之后的工作中，對腦膠質瘤的分割方法進行研究也是重點之一。

總之，本研究對基于常規磁共振圖像的腦膠質瘤分級進行了研究，實驗結果表明，基于常規磁共振圖像，利用影像組學方法，選擇合適的特征組合，可以對腦膠質瘤進行自動分級。通過對分類方法的比較，發現非線性支持向量機對腦部腫瘤分級效果最好，在特征篩選方面，筆者提出先利用過濾方法篩選出部分特征，然后在過濾的基礎上進一步使用包裝方法，用遺傳算法選擇了最后的特征子集。