戴振暉,簡婉薇,朱琳,張白霖,靳懷志,楊耕,譚翔,王學濤
廣州中醫藥大學第二附屬醫院 放射治療區,廣東 廣州 510006
肝癌是臨床常見的惡性腫瘤,其發病率和死亡率呈逐年增加的趨勢[1]。放射治療是肝腫瘤的有效治療手段之一,而肝臟和肝腫瘤的勾畫是放射治療的關鍵步驟,需要醫生在患者CT圖像上手動逐層勾畫,耗時耗力,并且放療醫生之間的勾畫存在主觀差異,因此在臨床上需要探尋自動分割肝臟和肝腫瘤的工具[2-4]。然而在CT圖像中肝臟與周圍危及器官的強度對比度低,難以精確分割肝臟,同時肝腫瘤對于不同患者在大小、形狀、位置和數量各異,肝腫瘤在肝臟內的邊界并不清晰,這給肝臟和肝腫瘤自動分割帶來了挑戰[5]。
為解決以上問題,已有研究者提出了不同的分割模型,如基于強度閾值、區域增長和機器學習等方法的模型。Zheng等[6]基于統一水平集方法融合了區域信息和邊緣信息來加強輪廓識別;Wong等[7]提出基于知識約束的2D區域生長方法腫瘤分割模型;Kuo等[8]提出學習帶有紋理特征向量的支持向量機分類器來進行肝腫瘤分割。然而這些方法依賴于手工勾畫的特征,并且特征表達能力有限。最近基于卷積神經網絡(Convolutional Neural Network,CNN)的深度學習方法在肝臟和肝腫瘤分割問題上取得了巨大成功[9-10],其中UNet已成為醫學圖像分割任務中最流行的卷積網絡[11-12]。但傳統的UNet仍然存在一定的缺陷,例如,為提高學習效率,跳躍連接層傳輸特征圖中低分辨率信息,導致圖像特征模糊[13]。Han等[14]提出了結合UNet的長程連接和ResNet的短程殘差連接的2.5D深度CNN,并認為2.5D模型具有更深、更寬的網絡架構,同時能容納3D信息。Li等[15]提出了一種新穎混合密集連接H-Dense UNet,可以有效探測并優化切片內特征和3D上下層信息,以實現準確的肝臟和腫瘤分割,肝臟和肝腫瘤分割結果的Dice相似性系數(Dice Similarity Coefficient,DSC)分別是0.961和0.722。Liu等[16]提出了一個空間特征融合卷積網絡從CT圖像中分割肝臟和肝腫瘤,肝臟和肝腫瘤分割結果的DSC分別是0.937和0.592。Bi等[17]通過具有多尺度融合的新型級聯ResNet架構能夠更精確地區分肝臟與肝臟病變的邊界。Kaluva等[18]利用密集連接全CNN(DenseNet)對CT圖像中的肝臟及其腫瘤進行全自動兩階段級聯分割,肝臟和肝腫瘤分割結果的DSC分別是0.912和0.492。本文擬在3D UNet中加入了Res殘差模塊和Swim Transformer模塊,提出了一個新型的卷積和Transformer結合的Res-Swim-UNet模型,此外,本文采用兩階段的學習策略,該策略首先在腹部CT圖像中定位肝臟,然后在肝臟中定位肝腫瘤,使用兩階段策略可以解決肝腫瘤小目標分割的困難并降低分割假陽性,以期有效地提取局部和全局圖像特征,實現肝臟和肝腫瘤的精確分割。
本文使用MICCAI 2017 LiTS挑戰賽數據集訓練自動分割模型,訓練完成的模型分別在LiTS數據集和本地數據集上測試。LiTS數據集包含131例腹部CT圖像和放療醫師手動勾畫肝臟及肝腫瘤輪廓,圖像像素矩陣為512×512,層厚范圍為0.45~5.00 mm,本地數據集包含16例肝腫瘤患者CT圖像和放療醫師手動勾畫的肝臟及肝腫瘤輪廓,本地數據在西門子Sensation Open(Siemens Healthcare,Forchheim,德國)CT掃描儀獲取,像素矩陣為512×512,層厚為3 mm。100例LiTS數據用于訓練分割模型,10例LiTS數據用于驗證,分別用21例LiTS數據和16例本地數據測試分割模型性能。放療醫師手動勾畫的輪廓作為 Ground Truth(GT),自動分割輪廓與GT進行對比,以評估自動分割模型的性能。
本文提出了一個兩階段的肝臟和肝腫瘤分割算法,算法流程如圖1所示,主要包括4個部分:預處理、肝臟分割(第一階段)、腫瘤分割(第二階段)和后處理。① 預處理階段:使用閾值法和形態學方法從原始CT圖像生成軀體掩膜,基于軀體掩膜,本文從原始CT圖像中裁剪出有效的軀體部分并對其進行歸一化以進行深度神經網絡的訓練。本文將所有圖像的像素分辨率歸一化為0.7 mm×0.7 mm×1.0 mm,截取CT值范圍為-70~150 HU并歸一化為0~1。肝臟分割和腫瘤分割階段依次執行,均使用本文提出的Res-Swim-UNet深度神經網絡模型。肝臟和腫瘤分割模型只需要分別關注自己的分割目標,這可以簡化它們單個模型的任務難度,使它們可以更加精準地分割單一目標。② 肝臟分割階段:模型需要從腹部CT圖像中定位肝臟并將其精確分割;基于分割出的肝臟區域,腫瘤分割模型僅需要從肝臟器官中分割腫瘤,這剔除了肝臟以外的組織的干擾,明顯降低了腫瘤定位的難度。③ 后處理階段:本文通過取最大連通域方法去除肝臟分割結果中的假陽性,然后合并肝臟和腫瘤的分割結果,最后將其放回原始圖像中的對應位置并將圖像插值回原始尺寸。

圖1 肝臟和肝腫瘤分割流程圖
鑒于Res殘差模塊和具有窗口移動的Swim transformer模塊在圖像特征提取的高效性能[19-20],本文分別在3D UNet中加入了Res殘差模塊和Swim Transformer模塊,提出了一個新型的卷積和Transformer結合的Res-Swim-UNet模型。與常規3D UNet網絡一樣,本文的網絡框架包括編碼器、解碼器、瓶頸層和跳躍連接4個部分(圖2)。編碼器部分由6個卷積層、2個殘差模塊和4個最大池化層構成。編碼器通過卷積層和殘差模塊提取圖像特征,使用最大池化層對特征進行下采樣,最終可獲得5個分辨率水平的特征圖。跳躍連接部分通過特征拼接的方式將編碼器的多尺度特征圖傳輸給解碼器。解碼器與編碼器結構對稱,同樣包括6個卷積層和2個殘差模塊,而解碼器中的最大池化層變為4次插值將圖放大回原始分辨率,此外最后一層增加了一層1×1×1的卷積和sigmoid激活函數以生成預測概率圖。瓶頸層在U型結構的最底部,這里的特征分辨率最低。由于Swim Transformer模塊的計算量隨分辨率大小呈線性關系,本文僅在瓶頸層加入了2個Swim Transformer模塊,這既降低了模型計算成本,又可以有效提高模型性能。

圖2 Res-Swim-UNet網絡結構
傳統的Transformer使用多頭自注意力模塊建立全局信息依賴,使其可以更好地提取和分析全局信息。而Swim Transformer是基于移動窗口構建的(圖3),Swim Transformer模塊由連續的Swim transformer子模塊構成。每個Swim transformer子模塊包括歸一化層、多頭自注意力模塊,殘差連接和一個兩層的多層感知機(Multilayer Perceptron, MLP)。基于窗口的多頭自注意力模塊(Window Multi-heads Self-Attention,W-MSA)和基于滑動窗口的多頭自注意力模塊(Shifted Window Multi-heads Self-Attention,SW-MSA)分別用于2個連續的Swim transformer子模塊。Swim Transformer模塊的可用公式(1)~(4)描述。

圖3 Swim Transformer模塊

式中,和zl分別表示W-MSA模塊和MLP模塊的第lth模塊的輸出,LN表示層歸一化(Layer Normalization),其中自注意力模塊可表示為公式(5)。

式中,Q,K,VRM2×d為3個矩陣,由輸入特征圖分別經過3個卷積層得到。KT為K的轉置矩陣,d為比例縮放因子本文中設置為64,B為可學習的偏置參數。
本文分別訓練肝臟分割模型和腫瘤分割模型,損失函數均為交叉熵損失與Dice損失之和。交叉熵損失的定義如公式(6)所示。

式中,a和b分別表示標簽圖像和模型預測圖像,N表示輸入圖像的像素總個數,ai表示圖像a中第i個像素的值。Dice損失如公式(7)所示。

在訓練過程中,本文使用超參數a來平衡2個損失函數的影響,具體見公式(8)。

肝臟和腫瘤分割模型均基于塊訓練,在訓練階段,隨機從圖像中截取像素矩陣為128×128×128大小的圖像塊作為模型輸入。使用在線的數據擴增技術以提高模型泛化能力,擴增操作包括隨機縮放、隨機旋轉、隨機翻轉、伽馬變換、隨機噪聲和彈性形變。模型訓練使用Adam優化器和ploy的學習率下降策略,基礎學習率為0.0002[21]。損失函數中的超參數a設置為0.5,在12 GB內存的NVIDIA Titan Xp GPU進行模型訓練,訓練時長約21 h,在測試階段,每例患者數據的處理時間約為40 s。
本文進行了對比實驗,以分析所提出的Res-Swim-UNet模型的有效性,基于100例LiTS數據集分別訓練原始UNet模型和Res-Swim-UNet模型,對比2個分割模型的性能。為驗證本文提出的模型在臨床應用中的泛化能力,本文在本地數據集上測試了所提出模型的性能。
本文選擇了多個度量指標從多個角度評估所提出模型的肝臟和肝腫瘤分割性能,分別為DSC、體積重疊誤差(Volumetric Overlap Error,VOE),其中DSC值越大表示分割結果越好,VOE越小表示分割結果越好。以DSC=0.6作為肝腫瘤分割優劣的閾值,DSC≥0.6評為優,DSC<0.6評為劣,分別計算入選優組和劣組患者的腫瘤長軸平均長度。其中DSC計算方式如公式(9)所示,VOE計算方式如公式(10)所示。

式中,X表示放療醫生手動勾畫輪廓,Y表示自動分割的輪廓。
如表1~2所示,在肝臟分割結果上Res-Swim-UNet模型相對于UNet模型DSC提高了1.6%,VOE降低了1.3%;在肝腫瘤分割結果上Res-Swim-UNet模型相對于UNet模型DSC提高了13.5%,VOE降低了5.9%,證實本文提出的分割模型與原始UNet模型相比有一定的優越性。同時與現有文獻[16-17]在LiTS數據集上的分割指標相比,本文提出的模型同樣在DSC指標上優勢明顯。如表3所示,對于肝腫瘤分割,Res-Swim-UNet模型分割結果未達到優的腫瘤長軸平均長度為18.61 mm,分割結果達到優的腫瘤長軸平均長度為49.38 mm;UNet模型分割結果未達到優的腫瘤長軸平均長度為23.10 mm,分割結果達到優的腫瘤長軸平均長度為44.93 mm。Res-Swim-UNet模型自動分割輪廓和手動勾畫輪廓對比結果如圖4所示,其中紅色線表示手動勾畫的肝臟輪廓,綠色線表示自動分割的肝臟輪廓,藍色線表示手動勾畫的肝腫瘤輪廓,黃色線表示自動分割的肝腫瘤輪廓,模型自動分割輪廓和醫生手動勾畫輪廓基本吻合,模型在本地數據上自動分割輪廓與手動勾畫輪廓的一致性比公共數據集上低。

表1 肝臟分割結果

表2 肝腫瘤分割結果

表3 不同大小腫瘤分割效果評估

圖4 Res-Swim-UNet模型分割結果
如表1~2所示,本文提出的模型在LiTS公共數據集上肝臟分割結果的DSC、VOE分別是0.957、0.522,肝腫瘤分割結果的DSC、VOE分別是0.672、0.617;在本地數據集上肝臟分割結果的DSC、VOE分別是0.895、0.552,肝腫瘤分割結果的DSC、VOE分別是0.589、0.706。雖然受數據源的影響,Res-Swim-UNet模型在本地數據集上分割結果比公共數據的分割結果略有下降,但仍能在本地數據維持較高的分割精度,證明了本文提出的模型在不同數據集的有效性和魯棒性。
肝臟和肝腫瘤分割是肝癌放療計劃設計中重要的步驟,自動分割模型可以提供肝臟以及肝腫瘤的精確輪廓,有助于提高放療醫生的工作效率。雖然已有研究提出用于自動分割靶區和危及器官的各種算法,但由于CT圖像存在噪聲,而且肝臟周圍器官的組織對比度低,肝臟和肝腫瘤的自動分割仍然難以獲得較高的分割精度。本文在3D UNet中加入了殘差模塊和Swim Transformer模塊,提出了一個新型的卷積與Transformer結合的Res-Swim-UNet模型,殘差模塊有助于消除梯度消失、加速訓練和提高模型特征提取能力的作用;Swim Transformer模塊可以建立特征像素之間的全局依賴,可以提高模型對小目標分割的性能。實驗結果表明,本文提出的Res-Swim-Unet模型比原始UNet模型在肝臟和肝腫瘤分割上有更高的DSC和更低的VOE。同時本文所提出的模型與先前研究[16-18]進行了比較,發現在肝臟分割方面,本文方法與Bi等[17]一致(DSC:0.957vs.0.959),優于Liu等[16]和Kaluva等[18]的分割方法,在肝腫瘤分割方面,本文方法明顯優于先前研究[16-18]的方法。
2021年Luan等[5]提出了一種融合空間特征和注意力機制的CNN,從CT圖像中對肝臟腫瘤進行端到端分割,DSC達到了0.613,本文提出的方法對肝腫瘤分割的DSC評分相比Luan等[5]的方法提高了9.6%。2019年李淵強等[22]提出一種基于級聯CNN的全自動CT圖像肝臟腫瘤分割方法,DSC為0.66。本文比其方法增加了Swim Transformer模塊,發揮Transformer的自注意力機制,進一步提高了肝腫瘤分割DSC至0.672。雖然肝腫瘤分割DSC低于0.7,但本文提出的方法仍提高了肝腫瘤分割精度,由于肝腫瘤體積較小,微小的分割差異就會導致DSC指標明顯下降,這也是當前肝腫瘤分割精度普遍不高的原因。本文提出的肝腫瘤自動分割方法可以實現腫瘤區域初步定位,輔助醫生勾畫腫瘤靶區,提高工作效率。2021年秦偉等[23]利用連心醫療的智能放療云平臺自動勾畫肝臟,DSC為0.92。連心醫療的智能云勾畫系統是市場上發展成熟度較高的放療自動勾畫產品,本文方法分割肝臟的DSC為0.957,肝臟分割輪廓在醫生微調后就可以直接用于放療計劃設計。本文的分割模型充分發揮了殘差模塊和Transformer模塊的優勢,有效提取了CT圖像的局部和全局信息,肝臟和肝腫瘤的分割性能得到明顯提高。常規的自動分割模型能夠為大尺寸腫瘤提供合理的分割結果,如果腫瘤尺寸減小,網絡則無法準確地定位腫瘤。對于肝腫瘤分割,UNet模型分割結果未達到優的腫瘤長軸平均長度為23.10 mm,Res-Swim-UNet模型分割結果未達到優的腫瘤長軸平均長度為18.61 mm,由此可見,本文提出的Res-Swim-UNet模型在小腫瘤分割上表現更好。
本文的模型在本地數據集上肝臟和肝腫瘤分割均達到了接近公共數據集上的分割水平,模型在本地數據上評價指標略有下降,這是因為來自不同醫療中心的CT圖像在腫瘤分期和像素分辨率方面存在差異,導致分割結果也會存在差異。本文提出的模型從LiTS數據集遷移到本地數據數上仍具有良好的性能,肝腫瘤分割DSC達到0.589,優于Bi等[17]的0.500和Kaluva等[18]的0.492,這體現了本文模型的有效性和魯棒性,值得進一步推廣到臨床使用。
本文提出了一種用于從CT圖像中進行肝臟和肝腫瘤分割的端到端深度神經網絡Res-Swim-UNet模型,其可以同時提取圖像中局部和全局信息以實現肝臟和肝腫瘤的精確分割,在LiTS公開數據集和本地數據集上進行的對比實驗證明了所提出的分割模型具有明顯優越性。