石鈺陽何 平* 劉 奕安利智田 宇
(1、河北工業大學人工智能與數據科學學院,天津300401 2、天津醫科大學研究生院,天津300203)
腦膠質瘤是最常見的中樞神經系統腫瘤,WHO將其分為I~IV級,高級別膠質瘤術后復發率和病死率極高,嚴重威脅人們的身心健康[1]。烷化劑是惡性膠質瘤常用的化療藥物之一,但是一些患者出現較高的耐藥性,使得臨床治療效果不佳[2]。近年來研究表明,烷化劑耐藥的主要原因是由于DNA修復蛋白O6-甲基鳥嘌呤-DNA甲基轉移酶(MGMT)的存在。故2016年WHO做出更新,將MGMT啟動子甲基化增加為膠質瘤預后的獨立預測指標,自此對MGMT啟動子甲基化的測定被提到了前所未有的高度[3]。
MGMT啟動子甲基化作為腦膠質瘤中重要的分子生物學標記,已逐漸在臨床病理學診斷中展開應用,然而醫學上常用的病理免疫組化檢測MGMT啟動子的甲基化狀態并不完全可靠[4]。
放射組學將宏觀的影像量化,并客觀的預測微觀分子表達,以期于術前給予臨床及病理指導。多項研究探討了利用紋理特征預測MGMT甲基化狀態的有效性[5],但這些特征可能不能完全表征圖像,從而限制了模型的潛力。近年來的研究通過分析多區域特征來探索腫瘤的微環境,證明了多區域圖像分析對腫瘤的診斷及預后治療有重要臨床意義[6-7]。
多項研究證明將量化的MRI放射組學特征與機器學習方法相結合[8-9],建立模型可以用于臨床診斷。支持向量機(Support Vector Machine,SVM)作為一種監督學習的分類方法,在解決高維非線性,以及小樣本數據分類問題中具有很大優勢,并且已成功應用在基因識別和癌癥腫瘤診斷方面[10]。粒子群優化-支持向量機(Particle Swarm Optimization-Support Vector Machine,PSO-SVM)算法較SVM算法有操作簡單、能快速尋找支持向量機參數最優組合的特點。本文基于多區域多參數MRI放射學特征建立PSO-SVM腦膠質瘤MGMT分類模型,以期準確預測腦膠質瘤患者MGMT啟動子甲基化狀態。
在這項研究中,影像學和臨床數據來源于天津市某醫院放射科,包括患者的年齡、性別、膠質瘤級別和放射組學特征。共有127例患者符合研究標準,納入標準為:(1)經病理學證實的原發性中樞神經系統膠質瘤。(納入級別WHO II~IV級);(2)預處理T1WI增強序列和T2WI序列影像;(3)有效MGMT甲基化狀態。
1.2.1 圖像分割
該數據集包括127名患者的889個切片。由126個星級2級、98個少突2級、483個膠母4級、98個間變少突3級和84個間變星級3級膠質瘤類型圖像組成。除影像外,在不知任何臨床及病理資料的情況下,由2名影像科醫生參考橫軸位多序列(T2WI、DWI、ADC、FLAIR、T1WI增強)原始圖像,共同商議確定瘤體及水腫邊界,再由其中1人逐層勾畫。
腫瘤勾畫標準:(1)增強T1WI上無強化的腫瘤,以T2WI上腫瘤異常高信號邊緣作為瘤體邊界,再將上述輪廓復制到其它序列上;(2)增強T1WI上于病變內部呈散在斑片樣不規則強化的腫瘤(病變于ADC圖上呈明顯不均質性,無法區分瘤體及瘤周水腫),以T2WI上腫瘤異常高信號邊緣作為瘤體邊界,再將上述輪廓復制到其它序列上;(3)增強T1WI上呈明顯實性團塊樣強化或環形強化的腫瘤,以增強T1WI上瘤體強化邊緣作為腫瘤邊界,如果強化以外的區域于FLAIR/T2WI上呈高信號,而于ADC上呈明顯低信號者,則需要將ADC上低信號的區域納入勾畫范圍。再將上述輪廓復制到其它序列上。水腫勾畫標準:FLAIR像上除腫瘤外的高信號區且在TIWI-CE上顯示為低信號的區域定義為水腫區。于FLAIR上勾畫水腫邊界,再將上述輪廓復制到其它序列上,圖1顯示一個分割實例,紅色區域為腫瘤,綠色區域為水腫。

圖1 FLAIR上的分割結果
1.2.2 特征提取與特征選擇
實驗中,我們對每名患者均分別從腫瘤區域(T1WI增強、T2WI、FLAIR和ACD序列)和水腫區域(T2WI、FLAIR和ACD序列)中每個序列各提取1029個特征。提取的特征包括三種特征集:(1)247個一階統計量用于描述圖像的體素強度分布;(2)767個紋理特征用于反映圖像表面的特性;(3)15個形狀特征用于描述感興趣區域(Region Of Interest,ROI)的三維大小和形狀。
高維數據處理時,我們采用主成分分析(Principal Component Analysis,PCA)降維方法。如圖2所示,MIN-MAX歸一化后的1029維放射組學特征經過PCA,保留原始數據95%以上的信息,降到30維進行建模,既保留了原始數據的重要信息又提高了模型的效率和準確率。

圖2 特征提取示例
1.2.3 支持向量機
SVM是一種基于統計學習的機器學習方法,它以分類的泛化性能為目標,分布意義下錯誤率最小。對于有限的訓練樣本具有較高的學習能力,非訓練樣本具有良好的預測能力,因此,適用于腦膠質瘤MGMT啟動子甲基化狀態分類這種非線性問題。
一個非線性可分的二分類問題,且兩種樣本的標簽分別是{+1,-1},這個優化問題寫成:
3 每餐食物都要有一定質和量的蛋白質 人體沒有為蛋白質設立儲存倉庫,如果一次食用過量的蛋白質,勢必造成浪費;相反,如果食物中蛋白質不足時,寶寶的生長發育就會受影響。

根據拉格朗日對偶性,定義拉格朗日函數,其中a=(a1,a2,…,aN)T為拉格朗日乘子向量:

由于噪音的存在,引入松弛變量δ≥0解決非線性可分的問題,懲罰因子C代表離群點帶來損失的嚴重程度,此時最優化目標和約束條件為:

此時的分類決策函數為:

1.2.4 PSO-SVM算法

PSO-SVM算法即采用PSO算法優化SVM核函數參數σ和懲罰因子C。對于低維平面線性不可分的數據,通過一個映射將低維平面的點投放到高維平面中,低維映射到高維,需要引入核函數,避開直接在高維空間中進行計算,引入核函數k,分類決策函數為:
徑向基核函數(Radical Basis Function,RBF)既能實現非線性映射,而且參數較少,選取RBF函數作為核函數:

此時的分類決策函數為:


上述公式中,wk為慣性因子,c1和c2為學習因子,通常c1=c2=2,φ1和φ2為[0,1]之間的隨機數。將優化后得到的局部最優解和全局最優解作為支持向量機的核函數和懲罰參數,帶入到支持向量機的目標函數中,優化后的目標函數對腦膠質數據達到最高的精確度。
1.2.5 基于PSO-SVM的腦膠質瘤MGMT分類模型
依據前面所述的SVM算法原理、PSO優化算法以及PCA降維方法,建立基于PSO-SVM算法的MGMT甲基化狀態分類模型。把127名患者樣本分為訓練集和測試集,其中訓練集99例,包括57例MGMT啟動子甲基化,42例MGMT啟動子未甲基化;測試集28例,包括19例MGMT啟動子甲基化,9例未甲基化。
基于PSO-SVM的腦膠質瘤MGMT分類流程圖如圖3所示,示意圖顯示了圖像分割、特征提取、特征選擇和建模過程。建立具有多區域多參數MRI放射組學模型,首先,對從MRI提取出的放射組學特征進行MIN-MAX處理并降維;其次,不同序列的樣本訓練集均以RBF函數作為核函數,同時引入PSO算法優化分類模型,得到最優懲罰因子C和核函數參數g;最后,將多參數MRI放射組學特征和支持向量機最優參數組合,構建模型。

圖3 PSO-SVM腦膠質瘤MGMT分類
采用受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)對模型進行評估,AUC為ROC曲線的下面積,是一種衡量學習器優劣的性能指標。
本文將從腦瘤區域和水腫區域提取出的7組特征與PSO-SVM算法結合,模型中有兩個重要的參數,c是懲罰系數,即對誤差的寬容度,c過大或小,泛化能力變差,g是RBF核函數的自帶參數,影響支持向量個數,支持向量個數影響訓練與預測速度。在PSO-SVM模型中,腦膠質瘤MGMT甲基化狀態檢測精度均能達到90%以上,表明提出分類方案評估的整體診斷性能較好。其中,預測集相應序列特征模型中,水腫區T2WI(96%,AUC=0.89 )和ADC序列(100%,AUC=0.90 )特征的測試結果高于腫瘤區T2WI(92%,AUC=0.73 )和ADC序列(90%,AUC=0.77 )。結果最好的情況是水腫區ADC序列特征,c和g的值分別為23和0.001 ,程序運行時間約26秒,在訓練集中AUC為0.98 ,準確率為100%,在測試集中進一步證實預測性能,AUC為0.90 ,準確率為100%,腦膠質瘤樣本全部分類正確。腦膠質瘤樣本全部分類正確。PSO-SVM模型在腫瘤及水腫區域預測性能如表1所示。

表1 PSO-SVM在腫瘤及水腫區域預測性能
圖4用ROC曲線評價模型的診斷性能,圖4(a)顯示了在腫瘤區域,基于T1WI序列中提取的多參數放射學特征預測腦膠質瘤MGMT甲基化狀態結果最好,訓練集AUC達到0.95 ,在測試集中進一步驗證,AUC為0.88 。圖4(b)顯示了水腫區域,基于ADC序列中提取的多參數放射學特征預測腦膠質瘤MGMT甲基化狀態效果最好,訓練集AUC高達0.98 ,在測試集中進一步驗證,AUC為0.90 。

圖4 訓練集和測試集的受試者工作特性(ROC)曲線
腫瘤區T1WI增強序列在測試集中,25/28例預測正確,3/28例預測錯誤;水腫區ADC序列在測試集全部預測正確,顯示出更好的診斷性能。此外,本文實驗訓練集和測試集樣本放射學圖像分別從兩個機器進行掃描,訓練模型可以應用于測試集,表明模型具有較強魯棒性。
文獻[11]Xi等人證明T1WI、T2WI以及增強T1WI序列放射組學特征作為預測膠質母細胞瘤中MGMT啟動子甲基化潛在影像學標記,訓練集準確率為86.59 %,測試集準去率為80%。本研究擴大數據集,表明這些放射組學特征在星型細胞瘤、間變少突和間變星形膠質瘤中預測效果依然良好,測試集準確率高達90%~96%。文獻[12]Yoon RG等人報道ADC值與MGMT啟動子甲基化和預后相關,我們的實驗結果表明在腫瘤區T1WI增強、T2WI和FLAIR序列預測精度高于ADC序列預測精度,這與文獻[13]Wei等人的研究一致,但是Wei等人研究僅限于星型細胞瘤,且觀察的ADC成像分辨率相對較低,本研究結果表明,增加其它類膠質瘤后,水腫區ADC序列模型預測性能最佳。
此外,大多數研究只針對腫瘤區單參數或者多參數MRI特征分析,文獻[14]Lemee等人發現GBM在水腫區存在遺傳異質性,文獻[15]Zhi-Cheng Li等人發現,水腫區模型可以識別膠質瘤的影像學預測因子。我們的研究基于腫瘤區和水腫區提取了一階、形狀和紋理特征三類特征,全面的反映微環境中顆粒結構差異信息以及MGMT甲基化相關的重要原型成像特征,提高了預測性能,多區域多參數MRI鑒別腦膠質瘤MGMT甲基化狀態是一種高效的輔助診斷方法。
目前研究存在幾個局限性:(1)數據集臨床資料樣本少,未來尋求更大的數據集來建立模型,提高模型魯棒性;(2)本文中描述腫瘤和水腫ROI的人工分割方法耗時耗力,引用基于深度學習的自動分割方法,可以提高我們模型和臨床診斷的客觀性。
綜上所述,MGMT啟動子甲基化狀態與腫瘤耐藥及患者預后關系密切,MGMT啟動子甲基化能夠促進化學治療藥物對腫瘤的抑制作用,MGMT啟動子甲基化狀態作為了腦膠質瘤的重要分子標記物,該項分子測評已經逐漸在臨床診斷中展開應用。根據MRI影像特征與分子之間的聯系可以預測病理結果為臨床提供指導,本文基于多區域多參數MRI放射組學特征建立PSO-SVM模型鑒別腦膠質瘤患者MGMT啟動子甲基化狀態,結果表明,本研究的腫瘤及水腫區模型均能準確預測腦膠質瘤患者MGMT啟動子甲基化狀態,且是一種無創高效的方法,臨床醫生及病理醫生可以使用機器學習模型進行MGMT啟動子甲基化狀態的預判,為患者制定更完善的個性化診療及病理診斷。