董 陽,潘海為*,崔倩娜,邊曉菲,滕 騰,王邦菊
(1.哈爾濱工程大學計算機科學與技術學院,哈爾濱 150001;2.華中農業(yè)大學理學院,武漢 430000)
腦腫瘤是最常見的腫瘤之一,其年發(fā)生率占全身腫瘤的1%~3%,多發(fā)病于青中年群體,治療致殘率、致死率以及術后復發(fā)率高,對人類健康存在重大威脅。神經膠質瘤是一種最常見的原發(fā)性腦惡性腫瘤,具有不同的侵襲性,其中:高級膠質瘤是低分化膠質瘤,屬于惡性腫瘤,患者預后較差;而低級膠質瘤的分化良好,雖不屬于良性腫瘤,但預后較好[1]。
醫(yī)學圖像分割在研究和臨床實踐中起著重要作用,并且對于諸如疾病診斷、治療計劃、指導和手術等任務是必需的。研究人員已經為醫(yī)學圖像分割開發(fā)了各種自動化和半自動化方法[2]。腦腫瘤分割是醫(yī)學圖像分割任務中的一大難點。膠質瘤有著預后不同和組織學不同的子區(qū)域,包括整體腫瘤(Whole Tumor,WT)、腫瘤核心(Tumor Core,TC)和增強瘤(Enhancing Tumor,ET)。WT描述了病灶整體范圍,包括腫瘤核心區(qū)域和腫瘤周圍水腫區(qū)域;TC 描述需要切除的大部分瘤體,它包括壞疽區(qū)域、增強腫瘤核心和非增強腫瘤核心。這些子區(qū)域根據多模態(tài)磁共振(Magnetic Resonance,MR)掃描散布的不同強度分布所描述,例如WT 通過Flair 模態(tài)的高強度信號描述,TC 在T1ce 模態(tài)中,壞疽和非增強瘤區(qū)域較T1模態(tài)強度低,ET 區(qū)域則較T1 模態(tài)強度高。這反映了不同的腫瘤生物學特性。腦腫瘤不同子區(qū)域的標注如圖1 所示。由于膠質瘤磁共振成像(MR Imaging,MRI)表型高度異質,其分割具有很大的挑戰(zhàn)性[3]。

圖1 神經膠質瘤的各個子區(qū)域Fig.1 Sub-regions of glioma
在過去的幾年中,基于深度學習的語義分割方法一直提供最新的性能。更具體地說,這些技術已成功地應用于醫(yī)學圖像分類、分割和檢測任務。自2012 年以來,已經提出了幾種深度卷積神經網絡模型,如AlexNet、VGG(Visual Geometry Group Network)、GoogLeNet、殘差網絡(Residual Network,ResNet)、密集連接卷積網絡(Densely Connected Convolutional Network,DenseNet)等。其中AlexNet 由Krizhevsky 等[4]提出,利用兩塊GPU 進行計算,大幅提高了運算效率,證明了網絡深度對網絡性能存在影響,并提出了dropout 防止過擬合,但其結構復雜,且被指出局部相依歸一化作用不大;VGG 由Visual Geometry Group[5]提出,其網絡結構簡單,因而VGG16被廣泛應用,但它使用了更多參數,耗費大量計算資源;GoogLeNet 由Szegedy 等[6]提出,它的大小比AlexNet和VGG 小很多,參數也遠少于這兩者,而從實驗結果看,它的性能卻更優(yōu)越,采用了模塊化結構,方便了后續(xù)升級;ResNet 由He 等[7]提出,它主要針對因層數加深導致的過擬合與梯度爆炸等問題,而且結構簡潔高效;DenseNet 是由Huang 等[8]提出的,它的思想與ResNet 一致,但它建立的是前面所有層與后面層的密集連接,并且通過通道級的特征連接實現了特征復用,使得其擁有著更優(yōu)越的性能。基于深度學習的方法能夠為分類、分割等任務提供優(yōu)越性能的主要原因如下:首先,激活函數解決了網絡的訓練問題;其次,dropout 有利于規(guī)范網絡;第三,有幾種有效的優(yōu)化技術可以用于訓練卷積神經網絡。計算機輔助治療可以獲得更快和更好的判斷,以確保同時對大量患者進行更好的治療;此外,無須人工干預的高效自動處理能夠減少人為錯誤,并減少總體時間和成本。由于手動分割方法的緩慢過程和繁瑣的性質,因此迫切需要無須人工干預即可快速、準確地進行分割的計算機算法。深度神經網絡不僅有著很高的準確性,而且由于隨時可用的GPU 加速計算例程,因此能夠以快速有效的方式提供結果。到目前為止,已經創(chuàng)建了許多baseline 神經網絡模型并針對各種分割應用進行了驗證;然而由于分割任務中像素級注釋的獲取工作量較大,因此注釋數據的稀缺性在語義分割中變得更具挑戰(zhàn)性。在很多情況下,由于數據稀缺性等原因,無法獲取到大量的訓練標簽(通常是數千個),因為對數據集進行標記需要這個領域的專家,花費高昂且需要大量的精力與時間。
小樣本學習(few-shot learning)是近年來新興的研究主題,受傳統深度學習方法需要大量數據這一事實的推動。小樣本學習是機器學習的一種特殊情況,它的確切目標是在數據集提供的有限監(jiān)督信息下獲得良好的學習性能。小樣本學習利用先驗知識可以完成有限監(jiān)督信息的新任務,模仿了人類通過泛化和類比從很少的示例中獲取知識的能力,被視為真正的人工智能的試驗臺。它可以幫助減輕收集大規(guī)模監(jiān)督信息的負擔,能夠減少費力的數據收集和訓練過程高昂的計算代價。小樣本學習適用于人類很容易理解的應用,從而像人類一樣充分學習[9]。應用小樣本學習可以有效解決醫(yī)學圖像分割中由于帶監(jiān)督信息的數據量不足導致的過擬合問題,并且對于不同模態(tài)呈現的類別可以很好地泛化。目前已提出的小樣本分割(few-shot segmentation)方法有基于注意力的多上下文引導網絡(Attention-based Multi-Context Guiding network,A-MCG)、原型校準網絡(Prototype Alignment Network,PANet)、不可知類分割網絡(Class-Agnostic Segmentation Network,CANet)等,這些方法在通用數據集上取得了不錯的效果。但由于腦瘤圖像需要多模態(tài)特征結合才能獲得完整分割,儀器差異、腫瘤類型、疾病狀態(tài)等因素也會導致同一病人在同一部位的腦MRI 可能存在很大差異,并且由于腫瘤在圖像中占比很小,存在類別不平衡問題,因而現有方法直接用于腦腫瘤圖像數據集的效果并不好。
針對上述問題,本文根據深度學習和小樣本學習理論提出基于U-net 的原型網絡(Prototype network based on U-net,PU-net)模型,來執(zhí)行多模態(tài)腦腫瘤MRI分割任務。
本文的主要工作如下:提出了一種有效的小樣本分割模型,可以用于腦腫瘤多模態(tài)MRI 的分割;采用基于U-net 改進的特征提取器,利用少量訓練數據就可以很好地提取特征;整體基于原型網絡,可以用度量學習的方法利用少量監(jiān)督信息完成新類別的分割。
語義分割是為圖像的每個像素標記語義類標簽的任務,目標是對各像素進行分類。在早期,卷積神經網絡(Convolutional Neural Network,CNN)只用于分類任務,由卷積層和完全連接層組成。后來CNN 被首次用于分割任務時,Long 等[10]提出了全卷積網絡(Fully Convolutional Network,FCN),大大提高了分割性能。FCN 的最大貢獻在于建立了一個全是卷積層的網絡,可接受任意大小的輸入并產生有效輸出。空洞卷積[11]也被廣泛應用,能在不損失空間分辨率的情況下擴大感受野。后來針對醫(yī)學圖像分割,Ronneberger等[12]提出了U-net 模型,極大推動了醫(yī)學圖像分割的研究進程。U-net 由全卷積網絡拓展而來,分為收縮路徑和擴張路徑,可同時獲取低級語義信息和高級語義信息,能用少量數據訓練模型,且分割準確率高、速度快,因而本文采用基于U-net進行改進的方法來提取特征。
小樣本學習的模型大致可以分為三類:基于模型、基于度量和基于優(yōu)化。其中基于模型方法旨在通過模型結構的設計快速在少量樣本上更新參數,直接建立輸入x和預測值P的映射函數;基于度量方法通過將支持集和查詢集中樣本投影到嵌入空間,計算它們的距離,借助最近鄰的思想完成分類;基于優(yōu)化方法認為普通的梯度下降方法難以在小樣本情況下擬合,因此通過調整優(yōu)化方法來完成小樣本分類的任務[13]。Snell 等[14]提出了一種原型網絡,可以用一個特征向量,即原型(Prototype)代表每個類別。這種結構簡單有效,能減小數據過少導致的過擬合影響,因而本文的整體結構根據原型網絡進行設計。
近年來小樣本分割逐漸受到關注。Shaban等[15]首先提出了包含條件分支和分割分支的小樣本分割模型OSLSM(One-Shot Learning for Semantic Segmentation),該模型從支持集生成一組參數,然后將其用于調整查詢集的分割過程,這種雙分支結構后被各小樣本分割模型廣泛使用。Siam 等[16]為了獲得更好的原型提出了自適應掩膜代理模型AMP(Adaptive Masked Proxies for few-shot segmentation),在任務流中不斷更新各個類別的原型。Zhang 等[17]提出使用掩膜平均池化的相似性指導單樣本分割模型SG-one(Similarity Guidance for Oneshot segmentation),能從支持集中更好地提取目標特征向量,采用余弦相似度來度量支持集與查詢集特征向量之間的距離,指導查詢集分割。Dong 等[18]首次將N-wayk-shot 的語義分割問題進行了公式化,利用原型網絡實現了分割。Hu等[19]提出了基于注意力的多上下引導網絡(A-MCG),在傳統雙分支的基礎上添加了特征融合分支,能夠做到在支持分支和查詢分支之間進行多尺度的特征融合,同時添加了空間注意力機制,能夠在多尺度中突出上下文信息,增強自監(jiān)督能力。Wang 等[20]提出了原型對齊正則化的PANet,充分利用了支持集知識學習原型,將每個像素與學習到的原型進行匹配來對查詢圖像進行分割。受此啟發(fā),本文采用對各個空間位置進行分類的方法,相當于使用用于分類任務的原型網絡進行密集預測,能夠通過度量學習直接獲取分割,并根據腦腫瘤圖像數據的特點進行結構設計。
本文的目標是針對多模態(tài)腦腫瘤MRI 建立一個模型,該模型可以快速學習腦腫瘤各分割類別的特征,并利用少量帶有新類別掩膜(mask)的腦瘤圖像進行分割[21]。本文采用下述方式對模型進行訓練與測試。首先在數據集上構建訓練集Dtrain和測試集Dtest,兩個集合中圖像的分割類別不同,如訓練集分割的類別是腫瘤整體和腫瘤核心,測試集分割的類別是增強瘤,訓練集和測試集的分割類別可以輪換。訓練集與測試集分別包含各自的episodes,每個episode都包含支持集S和查詢集Q,且都會實例化N-wayK-shot分割任務。同一episode的支持集和查詢集具有相同的N個類,支持集的每個語義類別中有K個圖像-掩膜對。模型首先從支持集中提取有關各類的知識,然后將學習到的知識應用于對查詢集Qi進行分割。由于各個episode 包含不同的語義類別,因此模型經過訓練可以很好地泛化。訓練的目標是最小化像素級的交叉熵損失。從訓練集獲得分割模型后,在測試集上評估其小樣本分割性能,對每個測試episode,在查詢集上對分割模型進行評估。
PU-net旨在為嵌入空間中的每個語義類別學習原型表示形式,再利用原型直接對圖像進行分割。PU-net 的框架結構與2-way 1-shot任務的數據流如圖2所示。支持集與查詢集中的圖像均為四通道灰度圖像,各通道為同一病人在同一空間位置的各模態(tài)MRI切片。

圖2 PU-net整體框架與2-way 1-shot任務的數據流Fig.2 Overall framework of PU-net and data flow of 2-way 1-shot task
1)原型提取層。該層的特征提取器為fθ,其結構基于Unet 進行設計,具體結構如3.3 節(jié)所述。輸入是與各類掩膜融合的支持集腦瘤圖像,融合方法是逐元素相乘,目的是為了提取感興趣區(qū)域,可以避免類別不平衡對原型提取帶來的影響。對提取的特征圖進行全局平均池化(Golbal Average Pooling,GAP)操作可以得到特征向量。假設Sc是支持集S中分割類別為c的子集,則類c的原型pc可通過下列公式計算:

其中:(xi,yi)是圖像掩膜對;yi是各分割類別掩膜是各類對應的背景類掩膜。
2)圖像分割層。該層的特征提取器是gφ,選取與fθ相同的結構,以保證輸出特征圖通道數與fθ相一致。向gφ輸入查詢集圖像,得到查詢特征圖,利用原型提取層獲取的原型對gφ提取的特征圖的每個空間位置計算相似度,進而計算出每個像素屬于各個類別的概率,得到各類概率圖,從而執(zhí)行像素級分類任務,完成分割。將分割結果與查詢圖像的真實分割掩膜進行比較,通過權重交叉熵計算像素級分類損失,即分割損失,利用減小損失函數對特征提取器gφ進行優(yōu)化,從而更好地提取查詢特征,獲取更好的分割結果。具體過程如3.4 節(jié)所述。
3)原型優(yōu)化層。將圖像分割層得到的概率圖作為掩膜與查詢集圖像融合,仍采用逐元素相乘的方法進行融合操作。將融合后的查詢圖像輸入到fθ能夠得到新的查詢特征圖,經過平均池化層后可以獲取各類的校驗特征向量,利用校驗特征向量與已有的原型計算相似度,從而可以計算圖像級的分類損失,通過最小化損失對fθ進行優(yōu)化,可以促使原型提取層提取更好的原型,進而輔助圖像分割層獲得更好的分割。
PU-net 使用的特征提取器fθ與gφ均根據U-net 進行設計,分為收縮路徑和擴張路徑兩部分,并且有連接兩部分的跳躍連接結構,執(zhí)行concatenation 級聯操作,使得其可以結合深層信息和淺層信息,如圖3所示。
特征提取網絡共26層卷積層,9個卷積塊,每個卷積塊中包含兩層卷積層,其中每層卷積層的卷積核的大小為3×3,步長為1。隨后緊跟一個批規(guī)范化(Batch Normalization,BN)層和非線性激活ReLU(Rectified Linear Unit)層。每個卷積層對輸入進行零填充操作,保證卷積操作后特征圖尺寸不會發(fā)生變化,避免級聯操作時因裁剪導致的信息損失。輸入圖像通道數為4,各通道是各模態(tài)相同位置的切片。經過第一個卷積塊后,特征圖通道數為64。收縮路徑包含4 個卷積塊和4次下采樣,使用卷積層和ReLU 層來代替最大池化層,卷積層使用步長為2的2×2卷積核進行卷積,相對于最大池化操作可以減少下采樣過程中損失的信息。每個卷積塊都會使特征圖的通道數翻倍,最終特征圖通道數為1 024。擴張路徑包含4個卷積塊和4 次上采樣,通過最近鄰插值放大分辨率,隨后緊跟卷積層、BN 層、ReLU 層以完成上采樣操作。每個卷積塊都會使特征圖通道數減半,最終輸出大小與輸入圖像一致、通道數為64的特征圖。

圖3 特征提取器結構Fig.3 Structure of feature extractor
本文采用度量學習的方法學習最佳原型與分割圖像。通過原型提取層獲得原型后,可以計算出查詢圖像每個空間位置與各類原型的距離。由于整個腫瘤、腫瘤核心、增強瘤三個分割類別存在交集,故對上述距離應用sigmoid 激活函數,得到每個像素屬于各個類別的概率,進而得到各類的概率圖。查詢圖像xq在空間位置(m,n)處屬于類c概率計算過程如下:

其中,d(·,·)是距離度量函數,本文使用余弦距離進行度量。各類概率圖在相同位置進行比較,該像素屬于值最大的類,由此得出預測的分割掩膜。根據度量學習得到的概率圖,可以計算分割損失:

其中:H和W是查詢圖片xq的高和寬是指示函數,(m,n)位置像素類別為c時值為1,否則為0。α是自適應權重,能夠緩解圖像分割類別不平衡,計算公式為:

其中:r是超參數,設置為1.02,目標類別c的像素所占比例越大,其權值越小,減小了背景類對損失函數的影響。
原型優(yōu)化層將查詢圖像xq與圖像分割層得到的各類概率圖融合,輸入到fθ得到特征圖,再經過平均池化層得到各類的校驗特征向量,進而可以計算出各類特征向量與原型之間的距離,應用softmax激活函數可以得出:

它表示了與c類概率圖融合的查詢圖像在圖像級別被分類為c類的概率,其中yc表示c類的概率圖,共有包括背景類在內的N+1個類別。進而可以得到原型校驗損失:

本文使用的是BraTS 2018 數據集,分為膠質母細胞瘤(Glioblastoma,GBM)和低級神經膠質瘤(Low Grade Glioma,LGG),包含FLAIR、T1、T1ce、T2 四個模態(tài)的三維MR 圖像以及一個GT 分割掩膜圖像,每個模態(tài)的MRI 圖像大小為240×240×155。在BraTS18 中,曾被使用的數據僅包括BraTS12-13的圖像和注釋,這些圖像與注釋在過去已被臨床專家進行過了手動注釋;BraTS14-16 中來自TCIA 的數據已被丟棄,原因是它們的描述混合了術前和術后的掃描,并且在BraTS12-13中排名靠前算法的分割結果注釋了它們的GT標簽;新加入的數據是完整的原始TCIA 神經膠質瘤集合,它們由專業(yè)醫(yī)生進行放射學評估。總的來說,BraTS18 數據集包括BraTS13 的數據、來自CBICA的數據以及來自TCIA的數據。預處理主要分為如下三部分:對各模態(tài)圖像進行標準化處理;對各模態(tài)圖像及GT數據進行裁剪;對各模態(tài)圖像及GT數據進行切片處理,丟棄無病灶切片,最后合并各模態(tài)切片。訓練集由BraTS13與CBICA 的數據組成,共118例掃描數據,經預處理后的切片數據共有7 658 個;測試集使用TCIA 神經膠質瘤集合,共167例掃描數據,經預處理后的切片數據共有11 265個。
首先數據集中四個模態(tài)的序列對比度不同,故采用Z-Score 方式對各模態(tài)圖像進行標準化,即將各個模態(tài)的數據標準化為零均值和單位標準差,GT 數據屬于多標簽二值掩膜,故不需要進行標準化,而其他各模態(tài)數據除了黑色背景以外的區(qū)域都要進行標準化。裁剪的目的是擴大腫瘤區(qū)域占比,避免數據類別不平衡,各模態(tài)數據裁剪至160 × 160 × 155。最后是切片與合并處理。由于本文提出的是2D 網絡模型,所以需要進行切片以得到2D 數據。一個三維圖像中有大量不包含病灶的切片,這些切片可以直接舍棄,這也可以緩解類別不均衡問題。針對多模態(tài)特點,將各個模態(tài)的切片組合成多通道,最終可得到160 × 160 × 4 的圖像;GT 數據是多標簽的,其中默認元素值為0、1、2、4,0 是背景,1是壞疽,2是浮腫,4是增強腫瘤。將GT數據分為三個通道,每個通道作為一個分割區(qū)域的掩膜數據,整體腫瘤WT 的掩膜1、2、4標簽位置處值為1,腫瘤核心TC的掩膜1、4標簽位置值為1,增強瘤ET 的掩膜4 標簽位置處值為1,其余位置全部為0。
為了定量評估模型的分割性能,本文采用下列5 個指標進行評價:
1)Dice 系數,也稱作Dice 相似系數(Dice Similarity Coefficient,DSC)。用于計算兩個樣本相似程度,是一種幾何相似度度量的指標。

2)陽性預測率(Positive Prediction Value,PPV),又名精確率,是預測出的所有陽性樣例中真陽性所占比例。

其中:TP、TN、FP、FN分別代表真陽性、真陰性、偽陽性、偽陰性。
3)靈敏度(SEnsitivity,SE),即召回率。指所有陽性樣例中預測出真陽性的樣例所占比例,計算公式如下:

4)豪斯多夫距離(Hausdorff Distance)。用來衡量兩個點集之間的距離,式(11)為點集A到點集B的豪斯多夫距離h(A,B),同理可得h(B,A),兩者之間較大的值為雙向豪斯多夫距離,它度量了兩個點集之間的最大不匹配程度。

5)平均交并比(mean Intersection Over Union,mIOU)。用于計算預測值和真實值兩個集合的交集與并集的比值。

為了驗證本文提出的PU-net 的有效性,利用TCIA(the Cancer Imaging Archive)神經膠質瘤切片數據構建測試樣本,測試了該模型在各類分割區(qū)域的平均分割精度,如圖4 所示。可以看出,利用該模型得到的分割結果與GT圖像比較接近。

圖4 模型分割結果對比Fig.4 Comparison of model segmentation results
為了驗證PU-net在多模態(tài)腦腫瘤MRI分割問題上有效果提升,首先計算出其在測試集上各腫瘤分割子區(qū)域的各項指標,再選取兩個最近提出的、效果較好的小樣本分割模型進行對比:基于注意力機制的多重上下文引導網絡A-MCG 和原型對齊網絡PANet。采用1-way 5-shot 進行定量評估,PU-net 在各個腫瘤分割區(qū)域WT、TC、ET 的平均各項指標對比如表1所示。

表1 各個腫瘤子區(qū)域分割結果對比Tab.1 Comparison of segmentation result of tumor sub-regions
如表1 所示,增強瘤ET 區(qū)域相對于整個腫瘤WT 區(qū)域和腫瘤核心TC區(qū)域的分割精度較低,可能的原因是增強瘤區(qū)域的結構分布較為復雜,相較于整個腫瘤區(qū)域與健康腦白質、腦灰質的邊界以及腫瘤核心區(qū)域與水腫區(qū)域的邊界來說,腫瘤核心區(qū)域內增強瘤與壞疽區(qū)域、非增強瘤區(qū)域的邊界更加難以區(qū)分。
為了驗證PU-net的性能確實相較之前的小樣本分割模型有所提升,使用A-MCG 和PANet 進行對比實驗。PU-net 與其他兩個模型的分割結果對比如表2所示。

表2 不同模型的腫瘤子區(qū)域分割結果對比Tab.2 Comparison of segmentation result of different models for tumor sub-regions segmentation
由表2 可知,本文提出的模型PU-net 除了召回率略低于PANet,其他各項精度均明顯高于A-MCG 和PANet,這說明PU-net在多模態(tài)腦腫瘤MRI的小樣本分割任務中具有更好的性能。然而,本文的方法是針對帶標簽數據較少的情況,與腦腫瘤分割比賽中排名靠前的算法相比,本文模型的分割精度仍有一定差距,這說明在數據量充足的情況下,小樣本分割方法的分割精度有待提升。
本文針對多模態(tài)腦腫瘤MRI 分割任務,根據帶標注的多模態(tài)腦腫瘤MRI 難以獲取的實際情況,提出了用小樣本分割來解決的方案,并設計了一種原型網絡結構PU-net。實驗結果表明,該模型在腦瘤分割任務的性能較A-MCG 網絡有很大優(yōu)勢,實驗結果略優(yōu)于PANet。這兩個小樣本分割網絡模型的分割結果沒有展現出與在通用數據集上一樣好的性能,而且本文提出的PU-net的精度較數據充足的完全監(jiān)督學習方法仍有一定差距,但其具有利用少量樣本即可進行泛化的優(yōu)勢,稍加改進也可用于檢測任務,如果對精度進一步提升則能大大增加實用價值。針對存在的問題,后續(xù)工作將圍繞優(yōu)化網絡結構與將各個模態(tài)的相關特征進一步融合來進行,以實現更高精度的腦腫瘤小樣本分割算法。