張本健, 林 輝, 郭 棟, 王桂林, 胡 敏
(1.合肥工業大學 電子科學與應用物理學院,安徽 合肥 230601; 2.合肥工業大學 計算機與信息學院,安徽 合肥 230601)
腦神經多形性膠質母細胞瘤(glioblastoma multiforme,GBM)是最常見的一類腦腫瘤,分為高級膠質瘤(high grade glioma,HGG)和低級膠質瘤(low graded glioma,LGG),其中LGG又分為低級星型細胞瘤和少突神經膠質瘤。HGG壽命通常不超過2 a,且一經發現需要立即治療;LGG具有幾年的預期生存期,積極治療通常可以延長患者的壽命。手術切除是腦腫瘤治療最常見的手段,此外,放療、化療可用于減緩不能手術移除的腫瘤組織。放療作為腫瘤治療的一種手段,主要通過電離輻射直接或間接作用腫瘤細胞,在照射的區域內沉積一定的能量從而達到破壞“靶區”腫瘤細胞的作用。
磁共振成像(magnetic resonance imaging, MRI)是一種斷層功能影像成像方法,具有高軟組織成像分辨率、無電離輻射損傷等優點,在腫瘤的診斷、治療過程中發揮著重要作用。MRI通過在圖像采集期間改變激發脈沖強度和重復時間,以生成4種包含T1加權成像(T1-weighted,T1)、增強T1加權成像(T1 with post-contrast,T1c)、T2加權成像(T2-weighted,T2)和液體衰減翻轉恢復(fluid attenuated inversion recovery,FLAIR)的4個相關聯模態圖像。將這些不同模態MRI圖像相結合,可提供腫瘤形狀、大小、位置等內部結構信息。為改進放療的實施精度,近年來出現了MRI圖像引導的自適應放射治療(MRI-guided adaptive radio therapy,MRIgART),即利用MRI多模態圖像進行放療過程中的圖像引導。
文獻[1-2]對精準放射治療關鍵物理與技術進行了研究,開發了具有完全自主知識產權的精準放療計劃系統 KylinRay“麒麟刀”,已通過國家藥監局認證檢驗。該系統發展了高精度劑量計算、快速計劃優化、患者智能擺位、多維精準建模、射束精準調控、實時劑量反演與驗證等一系列放療關鍵技術,提出了“精準計劃、精準定位、精準照射、精準測評”耦合的四精放療技術體系,可為腫瘤放射治療的全過程提供高效解決方案。MRIgART是KylinRay“麒麟刀”目前正在研發的產品之一,屬于其前端基于先進人工智能深度學習的靶區自動勾畫方法的研究。
腫瘤放療靶區勾畫在本質上屬于圖像分割,腫瘤放療優質計劃建立的前提是對放療靶區的準確勾畫。目前臨床上常用的方法是醫師的手工勾畫,工作量巨大且具有很強的人為主觀性,且腦腫瘤的形狀多樣性、位置不固定、結構復雜以及在不同患者身上具有非常大的差異,給人工分割腦腫瘤帶來了許多實際困難,因此自動分割腦部腫瘤的研究具有重要的應用價值。
深度學習(deep learning,DL)是近年來興起的一項人工智能技術,無論在科研還是其他領域都受到廣泛的關注,并在醫學腫瘤圖像領域得到了應用。基于深度學習的醫學圖像分割方法不需要人工設計特征,而是由模型自己去學習數據中的深層信息,以加快診斷的速度與提升診斷的準確度,避免人為因素造成的誤診。腫瘤放療優質計劃建立的前提是對放射靶區的準確勾畫,手工勾畫工作量巨大且具有很強的人為主觀性。利用深度學習方法輔助腫瘤靶區的自動勾畫是人工智能技術在醫學領域的滲透與應用。
深度學習中最典型的算法是卷積神經網絡(convolutional neural network,CNN)[3],CNN是一種基于深度學習理論的多階段全局可訓練模型,可以從圖像中學習深層的特征結構,獲取高維的圖像特征,對自然圖像的識別與定位非常有效。目前,腦腫瘤分割方面的深度學習研究,主要集中在網絡模型結構設計上[4]。文獻[5]建立了多通道的網絡結構,每次通過獲取腫瘤圖片的局部特征對每個像素分類,經過反復訓練后恢復1張完整的分割圖;文獻[3]基于CNN完成腦腫瘤的分割任務,在其設計的網絡中使用較小的3×3的卷積核,該模型取得了較好的結果;文獻[6]提出將深度CNN框架用于腦腫瘤的分割。通過訓練2個CNN模型分別對惡性膠質瘤和良性膠質瘤進行分割,提高了神經網絡的處理速度,在CNN模型中使用尺寸較小的卷積核,不僅提高了速度,更有利于圖像特征的獲取。因為腦腫瘤MRI圖像是三維結構,所以一些文獻也提出了3D-CNN應用于腦腫瘤分割任務,例如文獻[7]提出了用三維圖像作為CNN模型的輸入來訓練三維CNN模型。這種3D-CNN模型雖然保留了MRI圖像的空間信息,但是很大程度上增加了計算量,且訓練速度慢。
CNN提取的抽象特征對圖像進行分類,對圖像中包含的對象進行分類,以及對圖像中對象的粗略定位是非常有效的,然而由于采用了感受野,對圖像特征的提取更多地是以“1小塊臨域”為單位的,很難做到精細(像素級)的分割,不能準確地劃定物體具體的輪廓。鑒于CNN在圖像精細分割方面的局限性,文獻[8]提出了將全卷積網絡用于語義分割問題的研究。
原始的U-net網絡正是基于全卷積神經網絡(fully convolutional network,FCN)的架構,是文獻[9]提出使用編碼-解碼的結構,U-net網絡與FCN都可應用于很小的數據集,網絡最初提出時是用于細胞壁的分割,并且在肺結節檢測和眼底視網膜上的血管提取等方面都有著出色的表現。U-net的優點有:① 通過對每個像素點進行分類,獲得了更高的分割準確率;② 支持少量數據訓練模型;③ 可實現現端到端,輸入1張圖像,輸出1張圖像。
本文基于MATLAB平臺MatConvNet[9]公共源深度學習工具箱,針對CNN模型在圖像分割領域很難做到精細分割的缺點,并結合腦腫瘤豐富的MRI圖像信息,在全卷積神經網絡的U-net網絡的基礎上,通過調整U-net網絡,構建了適用于腦腫瘤圖像的U1-net網絡模型(以下簡稱為U1-net網絡)。該網絡克服了CNN模型忽略全局信息和丟失淺層網絡信息的缺點,能夠保留腦部MRI的全面信息,獲得MRI的豐富特征,并且在公共數據集BRATS 2015上得到實驗驗證,表明了該網絡的有效性,及其在勾畫腦部腫瘤靶區精度上具有的良好效果。
本實驗的腦腫瘤圖片數據來源于BRATS 2015數據集[10],該數據集包含訓練集和測試集。訓練數據集由220個HGG病例和54個LGG病例組成。測試數據集由110個等級未知的病例組成。不同數據集的圖像對齊到相同模板,插值成1 mm×1 mm×1 mm 體素分辨率的圖像。由T1、T1c、T2和FLAIR的4個相關聯模態圖像形成了患者的MRI圖像。BRATS 2015數據集如圖1所示。所有圖像標注整合了FLAIR、T1、T1c、T2等信息。每個圖像數據在像素級上被標記為5類,分別是正常組織、壞死、水腫、非增強腫瘤區域、增強腫瘤區域。此外,BRATS數據集還提供了由臨床專家手工分割的腦腫瘤勾畫圖作為自動勾畫的真值標簽(判別標準)(ground truth,GT)。
MatConvNet為英國VLfeat小組開發的基于MATLAB平臺的深度學習算法工具箱,簡單易用、擴展性強。MatConvNet主題框架清晰,模塊之間耦合性較小,便于用戶根據需要對模塊進行方便調整。其部分核心函數(如卷積、子采樣等)使用C++編寫,從而保證了運行速度。
MatConvNet 可提供構建深度學習模型需要的模塊化的卷積層(convolution layer)、池化層(pooling layer)(子采樣層)、反卷積層(deconvolution layer)(轉置卷積層)、激活函數(activation function)等。
卷積層由若干卷積核組成,卷積運算的目的是提取輸入的不同特征,并輸出提取的特征,淺層的卷積層可能只能提取一些低級的特征,深層的網絡能從低級特征中迭代提取更復雜的特征;池化層一般位于卷積層之后,由于卷積層提取到維度很大的特征,需要池化操作來特征降維、減小特征規模、減少參數量、減小過擬合,同時提高模型的魯棒性,且池化分為最大池化和平均池化; 反卷積層中的反卷積操作通常用于將低維特征映射成高維輸入,反卷積其實就是卷積的逆過程,通過反卷積操作并不能還原出卷積之前的圖片,只能還原出卷積之前圖片的尺寸;激活函數主要對卷積層的輸出進行一個非線性映射,如果不用激勵函數,CNN中每一層輸出都是上層輸入的線性函數,激活函數是用來增加非線性因素,用來提高線性模型的表達能力。
原始的U-net網絡的U形結構如圖2所示[9],由卷積層、最大池化層(下采樣)、反卷積層(上采樣)和ReLU函數4個部分組成。整個U-net網絡的運行過程具體如下:
1) 下采樣階段。原始輸入圖像大小為572×572,經過2次由64個3×3的卷積核組成的卷積層后,得到特征圖(feature map,FM)的大小變為568×568×64,經過2×2的最大池運算后,FM的大小變為284×284×64;根據上述過程重復4次,即(3×3卷積+2×2池化)×4次,每個池化后的第1個3×3卷積運算,3×3卷積核數成倍增加;到達最底層時,即在第4次最大池化之后,FM大小變為32×32×512,然后執行3×3×1 024的卷積操作2次,最終FM大小變化為28×28×1 024。
2) 上采樣階段。此時,FM的大小為28×28×1 024。首先進行2×2反卷積操作,使FM的尺寸變為56×56×512;然后對最大池化層之前的圖像進行復制和剪切,再將反卷積得到的圖像拼接在一起,得到1張56×56×1 024的圖像,然后再進行3×3×512的卷積操作;重復上述過程4次,即進行(2×2反卷積+3×3卷積)×4次,每次拼接后的第1個3×3卷積操作后,3×3個卷積核的數目會翻倍;當到達頂層時,即經過第4次反卷積后,FM的大小將變為392×392×64,進行復制剪裁后再拼接,得到尺寸為392×392×128。然后再進行2次3×3×64的卷積操作得到388×388×64大小的圖像,最后再進行1次1×1×2的卷積操作。
加載原始的預訓練U-net網絡,并對U-net網絡進行調整,構建適用于腦腫瘤圖像分割的U1-net網絡。U1-net網絡由下采樣階段和上采樣階段組成,U1-net網絡的框架結構如圖3所示。

圖3 U1-net網絡結構圖
整個U1-net網絡的運行過程如下:
1) 下采樣階段。該階段由5個卷積塊和4個池化層組成。這5個卷積塊都包含2個卷積層,卷積層中卷積核大小為3×3,步長為1。每個卷積層后都使用ReLU激活函數增加非線性因素。除了最后1個卷積塊,在每個卷積塊后使用相同的池化尺寸為2×2的最大池化操作。為了獲取腦腫圖像較高的分辨率,將U1-net網絡的輸入圖像尺寸調整為320×320,經過下采樣階段,特征圖大小轉變為20×20。
2) 上采樣階段。該階段由4個反卷積和4個卷積塊組成,每個卷積塊開始于反卷積層,其中卷積核大小3×3,步長為2,使得特征圖大小增加1倍,數量減少1倍,最后特征圖的大小再由下采樣階段的20×20變為320×320。U1-net網絡在上采樣階段的卷積塊中采用2個卷積層,用于減少特征圖的數量。上采樣階段中的特征圖來源于上一級上采樣的特征圖和對應的下采樣的特征圖。相比于原始的U-net網絡,U1-net網絡還使用了零填充來保證下采樣和上采樣階段中的卷積層的輸出維度。
對于所有病例,有FLAIR、T1、T1c、T2共4個MRI序列。由于MRI圖像強度的偏場畸變效應,引起圖像中在同一區域的灰度值也會有差異,即使是同一掃描儀,也會在不同時間或者從不同患者身上采集到的切片通常具有不同的強度范圍。
偏移場校正是校正由于磁場不均勻導致的圖像對比度,強度標準化是將所有圖像的強度值映射到標準或參考標度的過程。
為了解決這種強度歸一化的問題,采用N4ITK處理方法。N4ITK是一款醫學圖像處理軟件包,采用了多模態數據分割配準算法,用于處理圖像配準和分割的問題,N4ITK方法主要是通過減去最高頻率的灰度值,再除以校正后的灰度值來對圖像進行歸一化處理[11]。U1-net網絡的輸入圖像尺寸為320×320,因此將所有圖像數據全部歸一化到320×320。MRI預處理前后對比圖如圖4所示。

圖4 MRI預處理前后對比圖
本文針對腦腫瘤圖像分割構建的U1-net網絡的輸入是一整張圖像,以FLAIR、T1、T1c和T2 4個模態圖像作為訓練圖像,取同一層切片組成的4通道圖像。最后的輸出類別設置為5,對應腦腫瘤的5個類別。訓練參數設置為:初始學習率為5×10-4,權值衰減為0.005,迭代9 000次以上。
U1-net網絡的準確度與迭代次數的關系如圖5所示。

圖5 U1-net網絡的準確度隨迭代次數的變化
由圖5可知,網絡的準確度隨著迭代次數的增加越來越趨于穩定,逼近100%。
U1-net網絡的損失函數值與迭代次數的關系如圖6所示。

圖6 U1-net網絡的損失函數值隨迭代次數的變化
從圖6可以看出,損失函數值趨于0,表明預測結果與真實結果具有較高的一致性,U1-net網絡訓練效果較好,能完全適用于腦腫瘤圖像分割任務。
利用Dice相似系數(Dice similarity coefficient,DSC)、陽性預測值(positive predictive value,PPV)、靈敏度S對分割方法進行評估[12],每種指標都是根據3種腫瘤區域來計算的。這3種區域包括完整腫瘤區域、核心區域和增強區域。完整的腫瘤區由壞死區、水腫區、非強化區和強化區組成; 核心區域由壞死區、非強化區和增強區組成; 增強區域只包括增強核心。這3個指標的計算公式為:
(1)
(2)
(3)
其中,tp、fp、fn分別是檢測為真陽性、假陽性、假陰性的腫瘤點的數量。
本文選取3個病人的經過U1-net網絡后的分割預測圖,分割結果如圖7所示。

圖7 U1-net網絡的GT圖與分割圖的對比
圖7中:黃色區域代表水腫;紅色區域代表非增強腫瘤結構;綠色區域代表囊性壞死部分。由圖7可知,U1-net網絡可以分割出完整腦腫瘤區域,且與GT較為相似,獲得了較好的匹配率,接近腦腫瘤的分割輪廓,分割效果較好。
針對腦腫瘤圖像構建的U1-net網絡與文獻[6,13-15]方法,基于BRATS 2015/BRATS 2013數據集分割結果的DSC值對比見表1所列。表1中,前3種實驗方法和本文的分割方法都是基于BRATS 2015進行的實驗,第4種方法基于BRATS 2013進行的實驗,BRATS 2015數據集和 BRATS 2013數據集在腫瘤圖像特點上幾乎沒有區別。

表1 不同方法在BRATS 2015/BRATS 2013數據集的DSC值
從表1可以看出,U1-net網絡分割效果較好,在完整腫瘤區、核心腫瘤區、增強腫瘤區的DSC值分別為0.92、0.85、0.83。與文獻[14]方法構建的網絡模型相比,完整腫瘤區和增強腫瘤區的DSC值高于其提出的網絡模型,說明U1-net網絡對完整腫瘤區和增強腫瘤區有良好的特性,但是在核心腫瘤區的DSC值略低于其建立的網絡模型,可能是由于在1幅圖像中,正常組織區域所占的比例較大,而腫瘤內部其他子區域還要進一步分為 4個類別,因此腫瘤每個子區占的比例就更小,導致類別學習不平衡。
從表1還可以看出,文獻[15]方法構建的網絡模型在完整腫瘤區、核心腫瘤區、增強腫瘤區的DSC數值相比于本文提出的U1-net網絡明顯低很多,這是由于其建立的網絡是一種基于CNN的分割模型,而CNN模型存在易忽略全局信息和丟失淺層網絡信息的缺點,從而導致其建立的網絡獲得了較低的DSC值。本文提出的U1-net網絡是基于全卷積神經網絡的網絡模型,克服了CNN模型存在的缺點,在腦腫瘤圖像上分割效果較好,相比于CNN模型,也做到了精細的像素級分割。
相關文獻方法的分割結果如圖8所示[6,13-14]。圖8中,每幅圖從左到右依次是原始腦腫瘤靶區、分割標準GT、分割結果。對比圖7的效果圖可知,雖然都區分出了腦腫瘤區域和正常組織,但是本文提出的分割方法在腦腫瘤邊界處的分割結果相對更光滑,而且在腦腫瘤內各個子區域的分割效果也相對較好。

圖8 相關文獻方法的分割結果
U1-net網絡和文獻[16]提出的方法基于BRATS 2015數據集分割結果的DSC定量比較結果見表2所列。

表2 不同方法在BRATS 2015數據集的DSC值
文獻[16]針對腦腫瘤構建的基于圖像塊分類的分割模型(6-CNN網絡),其思路是將腫瘤靶區的圖像分割問題轉化為腫瘤與非腫瘤圖像塊的分類問題來解決。圖像塊是從整張圖像中依次提取的局部區域,并將其中心像素值作為整個圖像塊的像素值,同樣中心像素的標簽也作為整個圖像塊的標簽。
在訓練階段,提取大量的圖像塊訓練CNN;在測試階段,從測試圖像中提取的圖像塊被訓練的CNN分類。每個圖像塊將通過CNN獲得1個標簽,圖像塊及其對應的標簽將組成1個新的帶有標簽的大腦MRI,以此標簽將被用來分割相應的區域,即所有圖像塊的分類結果整合構成測試圖像的分割結果,然而6-CNN網絡存在易丟失數據空間結構、訓練過程繁瑣、分割效率低下等弊端,且不能做到像素級精細分割。由表2可知,U1-net網絡整體分割效果優于6-CNN網絡,特別在核心腫瘤區的精度有明顯提高,約提高了5%,U1-net網絡對比6-CNN網絡更能做到精細分割。
文獻[17]除了在基于BRATS 2015數據集做過關于腦腫瘤分割方法的研究,還在基于BRATS 2013數據集提出了分層腦腫瘤的分割方法。本文構建的U1-net網絡與文獻[17]提出的分層腦腫瘤分割方法的3個指標對比結果見表3所列。
從表3可以看出,U1-net網絡在完整腫瘤區、核心腫瘤區的DSC、PPV、靈敏度數值都有不同程度的提高,在增強腫瘤區的靈敏度數值相等。
U-net網絡作為深度學習分割網絡,也應用于其他生物醫學圖像處理領域,且已在具有差異性的其他醫學圖像分割任務中取得了優異的分割表現,而本文在結合MRI多模態豐富信息和基于全卷積神經網絡的U-Net網絡的基礎上,通過調整并針對腦腫瘤圖像分割構建了U1-net網絡,其本質上屬于U-Net網絡模型的一種,因此在腦腫瘤醫學圖像分割任務中獲得了良好的表現,能適應腦腫瘤因以任何形狀存在于任意位置帶來的差異性,從而能自動、準確地分割腦腫瘤靶區。
因此,該方法可以幫助醫生在人工分割腦腫瘤時由于人為因素(如疲勞度、不同醫師的個體化差異等)影響而導致的正確率下降。U1-net網絡靶區分割效率也較高,一般處理一套人體腦部MRI切片(一般155張)平均只需要10~30 s,在醫學成像應用中常常需要處理大量的數據而造成時間瓶頸,因此本文提出的U1-net網絡具有重要的實用價值。
U1-net網絡僅以MRI圖像數據集進行模型訓練與腫瘤靶區的分割,不需要參考病人的CT圖像,這正是目前國際上普遍認可的MRI圖像引導放療概念的優勢。本文工作所解決的問題是放療腫瘤靶區的勾畫,作為放療計劃制定的預工作,U1-net網絡在完整腫瘤區的指標值較高,完整腫瘤區也正是腫瘤放射靶區,完整腫瘤區的分割精度越高,腫瘤放射靶區的放射效果越好。U1-net網絡為放療的自動化實施提供了基礎,也為靶區自動勾畫領域的研究提供了更多方向和借鑒思路。