宋長明,宋 蒙,肖 露,梁朝陽,彩 朔
(中原工學院理學院,河南鄭州 451191)
肝癌是世界上最普遍的癌癥之一,也是影響我國居民健康的重大公共衛生問題。CT 掃描是肝臟腫瘤診斷普遍采用的方式,從CT 圖像中快速準確地分割出腫瘤對肝癌的臨床診斷具有重要意義。
隨著深度學習的迅猛發展,基于UNet[1-4]的網絡結構被廣泛應用于醫學圖像分割領域,如UNet++[5-8]、Attention UNet++[9]、KiUNet[10]、MUNet[11]等,在肝臟腫瘤分割任務中取得了很大的成就,文獻[12]在UNet的基礎上提出一種用于肝臟及肝腫瘤分割的BSUNet,有效提升了分割精度。近些年,Transformer[13-14]憑借其較好的長依賴性關系提取性能,在視覺領域得到了諸多應用[15-19]。文獻[20]提出了一個端到端的分割網絡RTNet,有效提升了糖尿病視網膜多病灶的分割精度。
該文提出一種新的模型BBTUNet 用于肝臟腫瘤分割。通過構建Transformer 上下文Bridge,有效增強多尺度特征間的上下文依賴性關系;針對肝臟腫瘤CT 圖像中存在的對比度低、腫瘤多尺度和邊界模糊問題,引入深度邊界細化模塊,重新設計Transformer 的前饋神經網絡,細化分割邊界,獲取不同的感受野。實驗證明,該文方法可以有效提升肝臟腫瘤的分割精度。
BBTUNet結構如圖1 所示,首先將輸入圖像送入Encoder 中提取特征,生成多尺度特征圖F1、F2、F3和F4,接著將不同尺度的特征圖均劃分為4×4 的圖像塊(為了保持卷積的連續性,劃分的圖像塊之間有重疊),并將所有尺度的圖像塊展平成二維序列。為了保持通道的一致性,需要對各層特征圖的圖像塊的二維序列進行重塑,得到tokenF1、tokenF2、tokenF3和tokenF4。然后通過Concat 操作將tokenFi拼接得到CToken,作為Transformer 的上下文Bridge 的輸入,經過上下文Bridge 進一步提取更豐富的全局上下文關系和局部的邊界特征,并將這些具有豐富信息的特征圖和Decoder中的上采樣特征進行融合。實驗結果表明,BBTUNet具有顯著優勢,實現了更精確的分割。

圖1 BBTUNet整體結構
為充分提取多尺度特征層間的上下文關系,彌補局部注意力,獲得更為精細的邊界,文中基于改進的Transformer 機制構建上下文Bridge,重新設計跳躍連接結構,結構如圖2 所示。

圖2 上下文Bridge結構
首先完成圖像嵌入,將Encoder 輸出的多尺度特征 圖Fi∈ΦH×W×C重構為二維|j=1,…,K},其中每 個patch 的大小 為p×p,共個patch,得到特征圖展平的二維序列:
接著將序列化的特征圖投影到N維空間,為了保持patch 的位置信息,再把特定的位置嵌入到patch 中,嵌入公式如下:
其 中,R∈Φ(p2·C)×N表示patch 在N維空間的投影,Rpos∈ΦK×N是嵌入的位置信息。將嵌入的patch輸入到Transformer 模塊中,得到:
Transformer 具有很強的上下文長依賴性表達能力,但對局部特征的學習不足。受文獻[21]啟發,該文在Transformer 模塊的前饋神經網絡的全連接層之間嵌入Depth wise conv 層來解決局部信息提取不充分的問題。考慮到肝臟腫瘤區域和周圍正常組織邊界情況復雜,且連續的下采樣造成了大量的邊界細節信息損耗,如果僅使用Depth wise conv,卷積核比較單一,會導致肝臟腫瘤邊界模糊,分割結果不夠精細。因此,通過引入帶有不同空洞率的深度邊界細化模塊改進Transformer 模塊的前饋神經網絡,一方面可以擴大特征提取的感受野,獲得多尺度的上下文信息;另一方面可以細化肝臟腫瘤的邊界,提高分割精度。提出的改進前饋神經網絡BFFN 結構如圖3 所示。

圖3 BFFN結構
將上下文Bridge 處理后不同尺度的特征圖通過conv3×3提取各通道的基本特征:
其中,Dconv表示空洞卷積,r表示空洞率,Concat表示通道拼接,輸出:
將Fiout與Decoder 的上采樣特征進行融合,獲取更加豐富的邊界特征。
由于肝臟腫瘤具有復雜多樣的形態表現,腫瘤病灶區域和周圍其他組織之間的面積相差較大,所以模型的損失函數采用二元交叉熵損失函數(Binary Cross Entropy,BCE)。
BCE損失函數是二元分割任務中使用最廣泛的損失函數,通過計算各像素所屬類別的概率,將前景和背景中所有像素交叉熵的加權平均,損失函數定義為:
其中,yi表示ground truth 圖像中第i個像素的標簽,pi表示預測圖像中第i個像素屬于前景的概率,N表示圖像中的像素點數目。
該文以肝臟腫瘤分割挑戰賽的公開數據集3DIRCADB 醫學分割數據集為訓練數據集和測試數據集。3DIRCADB 數據集由幾組患者的匿名醫學CT 圖像組成,由臨床專家對各種感興趣的結構進行人工分割,包含3DIRCADB-01 和3DIRCADB-02。其中,3DIRCADB-01 數據集由來自不同歐洲醫院的10名女性和10名男性的CT圖像組成。3DIRCADB-02數據集由兩個匿名患者的三維CT 掃描組成,圖像分辨率為512×512 像素。
該文的實驗基于Python 語言的Pytorch 框架對整體代碼進行編碼運行,硬件配置包括AMD 3700X處理器,32 GB 內存和單張RTX 2070S 顯卡。
由于實驗數據集來源于CT掃描,數據會受到掃描設備型號、制造商以及采集序列的影響,為了更好地訓練模型,在實驗的開始階段對輸入圖像進行Z-Score像素標準化處理,并將圖像的大小設置為256×256。
為了定量評估模型的分割性能,采用相關性系數(Dice)、交并比(IOU)、靈敏度(Sensitivity,Sen)、特異性(Specify,Spe)和準確率(Accuracy,Acc)五個指標作為實驗的評估標準。
其中,TP、TN、FP、FN 分別表示真陽性、真陰性、假陽性和假陰性。
模型的訓練階段采用Adam 優化器,初始學習率為0.001,epoch 和batchsize 分別設置為100 和16。訓練過程中的Dice 系數和Loss 隨epoach 的變化曲線如圖4 所示。

圖4 模型損失函數和Dice系數曲線圖
從圖4 可以看出,Dice 系數值隨著epoch 的增加逐漸提高,當epoch 大于100 時穩定在0.82 左右,而訓練集和驗證集上的Loss 值均在快速下降,并在epoch 大于100 時收斂,逐漸趨于0。
2.5.1 模型性能的客觀評估
為了驗證模型的有效性,在3DIRCADB 數據集上進行實驗,與UNet、UNet++、AttentionUNet 和Inf-Net幾種網絡對比,進行客觀的性能評估,結果如表1所示。

表1 不同方法的分割性能對比
由表1 可以看出,提出的BBTUNet 網絡相對于傳統的UNet 網絡效果提升顯著,其中Dice 值從71.2%提升到了82.1%,相比于表現較好的Inf-Net網絡依然有1.8%的提升;且在其他各項評價指標上的表現同樣優于對比網絡。由此可見,提出的基于Transformer 的上下文Bridge 比原始跳躍連接的性能更優,可以有效提升肝臟腫瘤的分割精度。
2.5.2 模型性能的主觀評估
為了更加直觀地評估模型性能,將該文方法與上述四種網絡的分割結果進行可視化,肝臟腫瘤的分割結果如圖5 所示。

圖5 不同網絡對肝臟腫瘤的分割結果
由圖5 可以看出,UNet、UNet++、AttentionUNet和Inf-Net 均可大致分割出肝臟腫瘤的病灶區域,但對于邊界模糊、小尺寸腫瘤的分割還存在不足,如AttentionUNet 雖然憑借Attention Gate 模塊,在復雜邊界的腫瘤分割中有較好的性能表現,卻存在不完整分割問題,且對于多尺度腫瘤的分割容易出現嚴重的漏檢現象(見圖5 中第一、三行);Inf-Net 通過反向注意力和邊緣注意力模塊在多尺度和邊界模糊的腫瘤分割中都有更好的表現,但對于多尺度小目標的復雜分割,會出現分割不足現象(見圖5 中第三行)。提出的BBTUNet 網絡的分割結果更接近于專家的手工標注結果,相較于其他網絡,可以獲得更清晰的分割邊界,整體性能表現優異,且在復雜的分割情形中也能取得更精確的分割結果。
針對目前肝臟腫瘤分割任務中的難點和現有醫學圖像分割方法的不足,該文提出了一種基于Transformer 的分割網絡BBTUNet。為了提升肝臟腫瘤的分割精度,將原UNet 網絡的跳躍連接結構中加入基于Transformer 的上下文Bridge,獲取不同尺度特征層的上下文依賴性關系,彌補傳統CNN 局部特征的不足,并對傳統Transformer 的前饋神經網絡改進,通過由可分離空洞卷積構成的邊界細化模塊細化Encoder 所提取的邊緣,進一步學習邊界特征。實驗結果表明,在肝臟腫瘤分割任務中,提出的BBTUNet 模型能夠增強腫瘤的邊界特征,較為準確地分割出肝臟腫瘤的邊界,針對不同尺度腫瘤的分割也表現出了一定的優勢,分割精確度達到82.1%,顯著高于其他分割模型。在臨床醫學中,準確獲取腫瘤的位置、數量、形狀等信息對疾病診斷、后續治療方案的制定有著重要作用,在今后的工作中,可將文中提出的分割模型推廣到醫學分割領域的其他分割任務中,提升計算機輔助診療在臨床應用中的精度,使之在未來得到更好的發展。