蕭飛鵬,宋亞男,徐榮華,羅兆林
(廣東工業(yè)大學(xué),廣東 廣州 510006)
腦膠質(zhì)瘤是一種常見的原發(fā)性腦腫瘤,對(duì)患者的生活質(zhì)量和健康造成了巨大影響。準(zhǔn)確而快速地對(duì)腦腫瘤進(jìn)行定位和分割對(duì)于診斷、治療和預(yù)后評(píng)估至關(guān)重要。傳統(tǒng)的臨床診斷需要依賴醫(yī)生的專業(yè)知識(shí)手工分割腫瘤區(qū)域,這個(gè)過程不僅耗時(shí)而且容易出錯(cuò)[1]。因此,需要開發(fā)一種可靠的腦腫瘤自動(dòng)分割方法輔助臨床診斷治療,減少人為標(biāo)注的失誤和差異,提升診斷的一致性、準(zhǔn)確性和高效性。
由于磁共振成像(Magnetic Resonance Imaging, MRI)能夠提供高分辨率的軟組織解剖結(jié)構(gòu),因此主要將其用于腦腫瘤疾病的診斷和治療。為了獲得準(zhǔn)確、全面的生物信息和組織特征,腦腫瘤分割通常需要具有不同成像參數(shù)的多模態(tài)MRI圖像,其中T1加權(quán)成像(T1-Weighted Imaging,T1)、T1對(duì)比度增強(qiáng)成像(T1-Contrast-Enhanced Imaging,T1CE)、T2加權(quán)成像(T2-Weighted Imaging,T2)和流體衰減反轉(zhuǎn)恢復(fù)(Fluid-Attenuated Inversion Recovery,Flair)在腦腫瘤診斷中被廣泛使用。
隨著人工智能及深度學(xué)習(xí)的迅速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的圖像分割算法開始流行。2015年,Ronneberger等[2]提出的U-Net架構(gòu)可以充分利用低層特征與高層語(yǔ)義信息,被廣泛應(yīng)用于醫(yī)學(xué)圖像分割任務(wù),取得顯著的成功。注意力機(jī)制借鑒了人類的注意力思維方式,取得了顯著的成果。2018年,Oktay等[3]提出的Attention U-Net在2個(gè)大型腹部計(jì)算機(jī)體層攝影(Computed Tomography,CT)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),取得了比U-Net更高的靈敏度和精度。Transformer在自然語(yǔ)言任務(wù)中取得巨大的成功,因此也在圖像分類、分割等任務(wù)中被廣泛使用。2021年,Chen等[4]提出了TransUNet,利用Transformer結(jié)構(gòu)實(shí)現(xiàn)全局特征的感知。由于普通卷積擁有固定尺度的感受野,因此上述的方法在醫(yī)學(xué)圖像分割中還存在小病灶漏識(shí)別、病灶邊界分割不精準(zhǔn)等問題。
腦腫瘤的診斷和分析通常需要結(jié)合不同的MRI模態(tài)來(lái)進(jìn)行,因?yàn)椴煌B(tài)的成像反映了人體不同的生物信息和組織特征,在腦腫瘤分割任務(wù)中融合多模態(tài)圖像特征能夠提高分割性能。因此,本文在網(wǎng)絡(luò)結(jié)構(gòu)上提出了一種基于多編碼器的U形結(jié)構(gòu),使用Transformer、空洞卷積提取全局特征、多尺度特征;使用基于通道注意力的融合模塊,對(duì)不同模態(tài)特征進(jìn)行融合,提高分割精度。
文章提出的網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。

圖1 網(wǎng)絡(luò)整體結(jié)構(gòu)
模型的輸入為T1、T1CE、T2和Flair這4個(gè)模態(tài)的數(shù)據(jù),圖1特征圖尺寸的高度、寬度、深度、通道數(shù)分別表示為(H,W,D,C)。由于T1與T1CE、T2與Flair具有相似的特征,因此T1與T1CE、T2與Flair分別對(duì)應(yīng)一個(gè)獨(dú)立的編碼器,用于提取不同的模態(tài)特征。編碼器的卷積操作由多擴(kuò)張卷積模塊(Muti Dilated Convolution Block,MDCB)完成,該模塊使用不同膨脹率的空洞卷積提取多尺度特征,使得模型更好地適應(yīng)不同尺寸的目標(biāo);使用殘差連接,提高模型的穩(wěn)定性,使網(wǎng)絡(luò)更易訓(xùn)練。在編碼器的最后一層對(duì)4個(gè)模態(tài)的特征進(jìn)行拼接后,使用Transformer模塊對(duì)全局特征編碼。在解碼器部分,通過多模態(tài)特征融合模塊(Multimodal Feature Fusion Block,MFFB)融合4個(gè)模態(tài)的特征,再進(jìn)行上采樣操作,恢復(fù)特征圖的尺寸,完成分割。
由于傳統(tǒng)的卷積操作只能捕捉局部特征,而空洞卷積通過調(diào)整卷積核的空洞因子[5],可以增大感受野,從而更好地捕捉到更廣闊的上下文信息,提取更全局的特征。因此,在該模塊中,使用空洞因子L=1和L=2的空洞卷積提取多尺度的特征,使用殘差連接緩解梯度消失和梯度爆炸,使網(wǎng)絡(luò)更容易訓(xùn)練,提高模型的魯棒性和性能。MDCB邏輯結(jié)構(gòu)如圖2所示。

圖2 MDCB邏輯結(jié)構(gòu)
Transformer[6]模塊是一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模塊,最初用于自然語(yǔ)言處理任務(wù)。其創(chuàng)新之處在于完全拋棄了傳統(tǒng)的卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),引入了自注意力機(jī)制。Transformer模塊由多個(gè)注意力頭組成,每個(gè)注意力頭都可以學(xué)習(xí)不同的注意力模式。在每個(gè)注意力頭中,輸入序列中的每個(gè)元素都與其他元素進(jìn)行交互,通過計(jì)算注意力權(quán)重來(lái)捕捉元素之間的重要關(guān)系。通過加權(quán)平均的方式,將所有元素的信息進(jìn)行融合,得到最終的輸出。自注意力機(jī)制使得每個(gè)元素都能夠考慮輸入序列中所有其他元素的信息,從而更好地捕捉全局信息和長(zhǎng)距離依賴關(guān)系。Transformer模塊結(jié)構(gòu)如圖3所示。

圖3 Transformer模塊邏輯結(jié)構(gòu)
為了結(jié)合每個(gè)模態(tài)獨(dú)有的特點(diǎn),使模型能夠?qū)W習(xí)到模態(tài)特有信息,本文使用基于通道注意力的MFFB,該模塊邏輯結(jié)構(gòu)如圖4所示。首先對(duì)各個(gè)模態(tài)的特征進(jìn)行拼接作為該模塊的輸入;其次引入經(jīng)典通道注意力模塊SE[7];最后加上卷積模塊,用于加強(qiáng)全局特征的感知能力。

圖4 MFFB邏輯結(jié)構(gòu)
首先,通道注意力模塊對(duì)輸入的特征圖在空間維度上進(jìn)行平均池化,得到每個(gè)特征通道的全局平均值;其次,將全局平均值輸入一個(gè)全連接層,用于學(xué)習(xí)每個(gè)特征通道的權(quán)重;再次,通過sigmoid激活函數(shù),將學(xué)習(xí)得到的權(quán)重映射為(0,1)之間的權(quán)重值,表示每個(gè)特征通道的重要性;最后,將映射后的權(quán)重值應(yīng)用到原始特征通道上,得到加權(quán)的特征表示。通道注意力機(jī)制使得網(wǎng)絡(luò)可以自動(dòng)學(xué)習(xí)每個(gè)模態(tài)每個(gè)特征通道的權(quán)重,從而增強(qiáng)特征的判別性和區(qū)分能力,提高網(wǎng)絡(luò)的表征能力和泛化能力。
本文使用腦腫瘤分割挑戰(zhàn)賽BraTS2018提供的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)[8],數(shù)據(jù)集包含MRI序列的4種模態(tài)組成,分別是T1、T1CE、T2和Flair,還包括一個(gè)由專業(yè)醫(yī)生手工分割的真值標(biāo)簽序列。其中,T1模態(tài)反映組織的解剖結(jié)構(gòu);T1CE模態(tài)顯示造影劑的病理性吸收;T2和Flair模態(tài)突出了組織水松弛特性。對(duì)某個(gè)病人腦部MRI序列的某一個(gè)切面的可視化圖片如圖5所示。

圖5 MRI切片可視化
數(shù)據(jù)集共有285份數(shù)據(jù),包含低級(jí)別膠質(zhì)瘤75份,高級(jí)別膠質(zhì)瘤210份,按照6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。在訓(xùn)練過程中,本文將原始大小為240×240×155的數(shù)據(jù)壓縮成96×96×128,進(jìn)行了歸一化處理,分割任務(wù)是劃分出增強(qiáng)腫瘤區(qū)域ET、腫瘤核心區(qū)域TC和全部的腫瘤區(qū)域WT。
實(shí)驗(yàn)環(huán)境為Ubuntu 20.04.1操作系統(tǒng),PyTorch2.0.1,使用NVIDIA 3090 GPU,批大小為2,訓(xùn)練400輪,訓(xùn)練的優(yōu)化器選擇Adam,學(xué)習(xí)率設(shè)置為0.0005,訓(xùn)練的損失函數(shù)選擇Dice損失。
本文使用醫(yī)學(xué)圖像分割領(lǐng)域中廣泛使用的評(píng)價(jià)指標(biāo)Dice系數(shù)(Dice Similarity Coefficient, DSC)和Hausdorff距離 (Hausdorff Distance, HD)來(lái)比較和評(píng)估分割結(jié)果[9]。DSC反映真實(shí)值與預(yù)測(cè)值的重疊程度,取值范圍是[0, 1],值越接近1分割性能越好。DSC的計(jì)算式為:
(1)
其中,P∩T表示預(yù)測(cè)值P和真值T的交集,|P|+|T|表示預(yù)測(cè)值P和真值T的元素總和。
Hausdorff距離用于度量2個(gè)點(diǎn)集中最遠(yuǎn)點(diǎn)之間的距離,可以使用Hausdorff距離來(lái)評(píng)估預(yù)測(cè)分割結(jié)果與真實(shí)分割結(jié)果之間的差異,從而衡量分割算法的準(zhǔn)確性和穩(wěn)定性。較小的Hausdorff距離表示預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的一致性較高,而較大的Hausdorff距離則表示預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的差異較大。Hausdorff距離計(jì)算式為:
HD=Max(h(P,T),h(T,P))
(2)
其中,P和T分別表示預(yù)測(cè)輪廓和真實(shí)輪廓,h(P,T)和h(T,P)分別表示從P到T的單向Hausdorff距離和從T到P的單向Hausdorff距離。
為了驗(yàn)證本文算法的有效性,將本文算法與3D U-Net[10]、V-Net[11]、UNETR[12]、UNET++[13]進(jìn)行性能對(duì)比。表1為所有方法的對(duì)比結(jié)果。從表中可以看出,本文方法在腫瘤的WT、TC、ET 3個(gè)區(qū)域的分割中,DSC的得分分別為89.07%、78.51%、74.87%,HD的得分分別為4.35 mm、4.04 mm、3.79 mm。與本文選擇的基線模型3D U-Net相比,本文方法的DSC評(píng)分分別提升了0.25%、0.39%、1.13%,HD評(píng)分分別下降了0.31 mm、2.47 mm、0.43 mm。與其他對(duì)比的算法相比,本文方法取得了最佳的分割性能指標(biāo)。

表1 不同方法分割結(jié)果對(duì)比
為了直觀地比較各個(gè)方法的分割結(jié)果,本文展示了各種方法的分割效果對(duì)比結(jié)果,如圖6所示。

圖6 不同方法分割結(jié)果對(duì)比
為了驗(yàn)證本文算法各個(gè)模塊的有效性,本文進(jìn)行了各模塊的消融實(shí)驗(yàn),消融實(shí)驗(yàn)中各模型也以相同的數(shù)據(jù)和參數(shù)訓(xùn)練得到。實(shí)驗(yàn)結(jié)果如表2所示。

表2 各模塊消融實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,網(wǎng)絡(luò)結(jié)構(gòu)中僅使用多編碼器架構(gòu),比3D U-Net效果要好,表明本文設(shè)計(jì)的基礎(chǔ)架構(gòu)是有效的;在多編碼器架構(gòu)加入Transformer模塊和MFFB,綜合DSC得分和HD指標(biāo)進(jìn)行評(píng)價(jià),性能均有所提高,進(jìn)一步表明了本文設(shè)計(jì)的各個(gè)模塊的有效性。
本文提出基于多模態(tài)特征融合的腦膠質(zhì)瘤分割網(wǎng)絡(luò)。首先,網(wǎng)絡(luò)結(jié)構(gòu)上采用2個(gè)編碼器分別提取T1與T1CE、T2與Flair的特征,可以有效利用模態(tài)差異性。其次,使用空洞卷積提取多尺度特征,卷積操作中采用殘差連接,使網(wǎng)絡(luò)更容易訓(xùn)練,提高模型的穩(wěn)定性。再次,在網(wǎng)絡(luò)瓶頸層使用Transformer模塊對(duì)全局特征進(jìn)行充分感知。最后,在跳躍連接中使用基于通道注意力的MFFB對(duì)多模態(tài)特征進(jìn)行融合。基于公開數(shù)據(jù)集BraTS 2018的實(shí)驗(yàn)結(jié)果表明:與多個(gè)現(xiàn)有的方法相比,本文方法表現(xiàn)出更好的分割性能,但是多編碼器架構(gòu)使算法的參數(shù)量更大,下一步將探索模型的輕量化,實(shí)現(xiàn)分割精度和算法復(fù)雜度之間的有效平衡。