沈懷艷,吳云
貴州大學 計算機科學與技術學院,貴陽550025
肝臟是人類疾病的多發區域。肝臟的自動分割能夠幫助醫生及早對病人實施診斷治療。在醫學成像領域,計算機斷層掃描(computed tomography,CT)成像是輔助診斷肝臟疾病的常用手段之一[1]。由于CT 圖像中肝臟與鄰近器官組織具有相似的灰度值[2],導致對肝臟的分割存在一定難度。
近年來,隨著深度學習的快速發展,特別是卷積神經網絡(convolutional neural network,CNN)在圖像分割、分類和目標檢測等計算機視覺任務中表現優異,使其廣泛應用于醫學圖像分割領域。對于CNN只能提取到局部特征,Long 等人[3]在CNN 的基礎上提出了全卷積網絡(full convolutional networks,FCN),使其可以接受任意尺寸圖像的輸入,并使用反卷積層從抽象的特征中恢復像素的類別。使用反卷積操作恢復所得的圖像較為粗糙,對此,Ronneberger等人[4]提出的U-Net 在跳躍連接部分改進,從通道維度對像素進行拼接融合得到更厚的特征層,為后續分割提供更多語義信息。
對于二維肝臟切片的分割,Liu 等人[5]提出IUNet,通過增加U-Net 的深度和復制池化層的功能從肝臟CT 序列中分割出肝臟。張澤林等人[6]提出3D條件生成對抗分割網絡,同時采用一個由粗到細的3D 自動分割框架對肝臟及腫瘤區域實施精準分割。Wang 等人[7]在U-Net 中引入擠壓激勵(squeeze-andexcitation,SE)模塊、空間金字塔池化和剩余學習技術,提出SAR-U-Net 用于CT 切片中肝臟的自動分割。由于CT 圖像是由若干個二維切片組成的三維圖像,當使用2D U-Net 進行分割時,無法提取三維圖像的inter-slice 特征從而限制了分割結果的準確性。與2D U-Net 相比,3D U-Net 能有效利用相鄰肝臟切片之間的inter-slice特征,從而獲得更好的分割效果。
對于3D U-Net 能夠提取到CT 圖像的inter-slice信息的特點,Lu 等人[8]使用3D CNN 同時進行肝臟檢測和分割,并采用圖割對初始分割結果進行細化。Lei 等人[9]設計反向殘余瓶頸塊和三維平均池化塊應用于LV-Net 中,通過解耦跨通道校正和空間相關性來提取肝臟CT 圖像的inter-slice 特征,實現較好的分割結果。Zhang等人[10]基于3DResUNet設計了Hybrid/Dial-3DResUNet,結合混合3D 擴張卷積有效提取肝臟CT 圖像的三維特征。這些方法證明3D 卷積提取的inter-slice 和上下文特征能有效分割肝臟,為此,本文將3D U-Net作為研究的基礎模型。
由于CT 圖像和U-Net 自身的特點,目前對肝臟分割存在的問題有:(1)低級特征和高級特征對于肝臟分割同等重要,而在U-Net 中采用自下而上的特征融合方式忽略了低級特征的重要性,導致網絡分割性能較差;(2)肝臟的形狀大小多變,與鄰近器官具有相似的灰度值,使得微小的信息容易丟失。
針對以上問題,本文基于3D U-Net 提出一種新的網絡結構(multi-scale semantic feature attentionnet,MSFA-Net),該網絡通過空洞殘差卷積(dilated residual convolution,DRC)充分感知肝臟的多尺度結構;采用多尺度語義特征注意(mutil-scale semantic feature attention,MSFA)模塊充分融合多尺度特征和關注微小特征;深度監督(deep supervise,DS)將不同解碼層的輸出特征圖求和,以提高分割的準確度。本文的主要貢獻如下:
(1)提出了一個新的多尺度語義特征融合注意網絡(MSFA-Net)用于肝臟分割。
(2)為了使網絡感知更多肝臟的多尺度結構,在原始U-Net 的編碼器部分加入空洞殘差卷積模塊來獲得更大的接受域。
(3)為了提高網絡對多尺度特征的提取能力并增強特征的傳輸,提出MSFA 模塊,將特征提取層相鄰的低級特征和高級特征與注意力機制相結合,以充分融合多尺度特征和關注微小特征,并在網絡最后使用深度監督進一步提升分割性能。
使用CNN 實現肝臟的分割需要細節信息和語義信息,如何在網絡中高效獲得這兩個信息來提高分割效果則是一個亟待解決的問題。由于CT 圖像中肝臟的尺寸大小變化較大,低級特征更利于較小特征的分割,高級特征具有更大的感受野適合于大目標的分割。多尺度特征融合可以更好提取不同尺寸特征之間的細節信息和語義信息。
在肝臟分割領域,Liu 等人[11]提出SFF-Net,在每個卷積塊上提取側輸出,充分利用多尺度特征,通過增加跳躍連接有效地將信息往后傳遞,使網絡能夠在提供更抽象語義特征的同時獲得更多的細節信息。Chen 等人[12]提出FED-Net,采用基于注意力的特征融合模塊從編碼器的所有層次中提取多分辨率特征,每個級別的特征融合模塊融合了其當前級別的特征和它的更高級的特征。與FED-Net 類似,Feng等人[13]提出的CPFNet 在編碼器和解碼器之間設計了多個全局金字塔指導模塊(global pyramid guidance,GPG)來融合多尺度的上下文信息,并通過重建跳躍連接為解碼器提供不同級別的全局上下文信息。
這些融合方式雖然從不同的角度對低層特征和高級特征進行融合,但它們都是采用一種自下而上的方式,即將高級特征與當前層的低級特征融合獲得更高的精度。因此,結合多尺度特征是提高分割精度的重要因素之一。
注意力模型[14]可以模擬人眼來關注有用的信息,在醫學圖像分割領域,大多數圖像中的正例體素和負例體素之間存在巨大的差異。腹部CT 圖像中的肝臟形狀大小多變,與鄰近器官具有相似的灰度值,一些微小的病灶特征在特征提取過程中極易被忽略。注意力機制可以在特征提取時自動學習到需要關注的特征而抑制不重要的特征[15],從而有效提取微小病灶特征。
Schlemper等人[16]在Attention U-Net中將注意門控(attention gate,AG)與U-Net 相結合,通過自動學習參數來調整激活值,減少有用信息丟失來關注到各種形狀大小的肝臟腫瘤。Jin等人[17]提出RA-UNet,使用注意模塊在主干分支中學習圖像的原始特征,在軟蒙版分支專注于減少圖像噪聲和增強有利于分割的特征,從而得到感興趣的肝臟體積并從中分割腫瘤。Jiang 等人[18]采用注意力機制和長、短跳躍連接相結合的混合網絡體系結構來捕獲關鍵特征,以及長距離和短距離的依賴關系,有效提高分割效率。Xu 等人[19]在PA-ResSeg 網絡中提出階段注意(phase attention,PA)來捕獲通道上的自依賴和跨依賴關系,以此使網絡能夠學習更有代表性的肝臟腫瘤的多階段特征。隨著近階段Transformer[20]在圖像領域的快速應用,Chen 等人[21]提出TransUNet,將Transformer 與U-Net 相結合,使用Transformer的多頭自注意力機制提取的全局上下文輸入序列,借助U-Net 來恢復局部的空間信息實現了更為精確的定位和分割??傊?,考慮將注意力機制與深度分割網絡相結合可以在一定程度上提升肝臟的分割效果。
上述多尺度特征融合方式和注意力機制的有效性均在實驗中得以驗證。在U-Net 中特征融合是由高向低融合的,由此忽略了低級特征的重要性,且CT圖像中肝臟形狀大小多變,與鄰近器官組織灰度值較為相似不易區分,一些微小的細節特征不易被關注等。本文將多尺度特征與注意力機制相結合提高分割效果,與以往提出的自下而上的多尺度特征融合方法不同的是,本文方法針對編碼器和解碼器對應層的中間特征進行自上而下和自下而上的特征融合來獲得更豐富的分割信息。
本文基于3D U-Net提出了MSFA-Net。U-Net具有對稱的編碼器-解碼器結構,在編碼器部分提取圖像特征,在解碼器部分恢復圖像的尺寸大小,并將提取到的上下文信息通過編碼器-解碼器之間的跳躍連接來進行傳輸,使網絡可以將編碼器提取的不同層次特征用來幫助恢復下采樣過程中丟失的細節信息,從而使分割結果更加精確。
MSFA-Net 的網絡結構如圖1 所示,它在3D UNet 架構上集成空洞殘差卷積、多尺度語義特征注意模塊和深度監督。在該網絡中,首先,為了在不增加模型深度或復雜度的情況下,從廣泛的信息區域捕獲多尺度特征,在編碼器部分使用空洞殘差卷積,解碼器部分使用殘差卷積。然后,針對自下而上特征融合方式忽略了低級語義特征和微小特征易丟失的問題,設計MSFA 模塊,使網絡在相鄰的低級和高級特征的共同指導下獲得更多的細節信息和語義信息。同時融入通道和空間注意力機制,利用相鄰的高級特征中的語義信息為低層特征提供更抽象的語義信息,以及使用相鄰的低層特征的細節信息為高層特征提供更多像素定位信息,由此增強特征的傳遞。最后,在各層解碼器后使用深度監督組合網絡不同階段的分割結果,由此來優化分割結果。表1 列出了特征圖的數量和大小。

圖1 多尺度語義特征注意網絡(MSFA-Net)的總體架構Fig.1 Architecture of multi-scale semantic feature attention network

表1 MSFA-Net的特征圖數量和大小Table 1 Number and size of MSFA-Net feature graphs
不同患者體內的肝臟形狀大小差異較大,這些不同尺度的信息對于分割任務尤為重要。分割網絡往往會采用一系列的降采樣操作來獲得更大的感受野,而這樣也帶來了相應的代價——空間分辨率降低??斩淳矸e[22]可以提取分割圖像中不同區域所需要的依賴關系,因此,使用空洞卷積替代普通卷積的優勢在于:空洞卷積能夠設置不同的空洞率改變感受野以捕獲多尺度的信息,還能在增加感受野的同時不丟失分辨率。本文提出的空洞殘差卷積由兩個空洞率分別為1、2 的3D 空洞卷積和經過Conv1×1×1后的殘差連接組成,如圖2 所示,空洞殘差卷積使模型在不增加深度或復雜度的情況下充分感知肝臟的多尺度結構,為后續多尺度特征融合奠定基礎。

圖2 殘差卷積塊和空洞殘差卷積塊Fig.2 Residual convolution block and dilated residual convolution block
將淺層特征圖的細節信息和深層特征圖的語義信息融合可以有效緩解誤檢、漏檢問題。已有許多工作表明了融合多尺度信息的有效性,由于卷積神經網絡的高級特征中包含更多的語義信息,語義信息對于分割任務極為重要,大多數工作都是將特征由高向低融合,卻忽略了由低向高融合這個方式,低級特征中的細節信息對分割結果的貢獻同樣不能忽視。此外,使用基于特征通道和空間的注意力機制[23]可以從這兩個獨立的維度分別推斷注意力圖,使網絡自動學習參數調整激活值來關注感興趣區域,減少信息在提取過程中的丟失。
本文從自上而下和自下而上方向融合低級特征和高級特征,并使用通道和空間注意力機制,設計了一個如圖3 所示的多尺度語義特征注意模塊(MSFA)。在這個模塊中,對于某一特征提取層,首先使用注意力機制從通道維度將其相鄰的低級特征,依次使用全局平均池化-1×1×1 卷積-BN-ReLU-1×1×1 卷積-Sigmoid 獲得低級語義信息的權重。與此同時,在空間維度上依次使用1×1×1 卷積-BN-ReLU-2×2×2 卷積-BN-ReLU-1×1×1 卷積-Sigmoid 獲得高級語義信息的權重。然后利用其在相鄰低級特征中的細節信息對高級特征進行加權,以及其相鄰的高級特征中的語義信息對低級特征進行加權。最后與其進行相加來增強特征的傳遞。對于沒有相鄰的低級特征的編碼器層(Layer1),只需對其相鄰高級特征進行加權傳輸。將得到的通道和空間mask 分別與特征M相乘來對原始特征進行重新校準,而后對結果進行拼接,經過1×1×1 的卷積將通道數變為C,最后與輸入特征M相加得到輸出特征。對于相鄰的高級特征的處理方法與上述步驟一致,只需要將空間維度通過2×2×2 卷積進行上采樣操作,減小通道數,增大特征圖。

圖3 多尺度語義特征注意模塊Fig.3 Multi-scale semantic feature attention module
令Fl∈RH×W×C,Fl表示編碼器在第l層的特征,其中H、W、C分別表示特征的高度、寬度和通道數。使用此模塊所得低級特征通道注意力向量Vc和空間注意力向量Vs為:
使用該模塊所得高級特征通道注意力向量Zc和特征空間注意力向量Zs為:
其中,Concat表示特征通道融合操作。
在訓練過程中使用網絡不同階段輸出的分割結果是影響最終分割效果的一個重要因素。Lee 等人[24]針對深度網絡使用深度監督進行了研究,確認對主干網絡進行監督確切可以提高網絡性能。因此,本文將深度監督應用于每層解碼器之后,如圖4 所示。使用Conv1×1×1壓縮特征,對其進行上采樣將低分辨率特征恢復至高分辨率;然后將各層壓縮后的特征與最后一層編碼器的輸出特征求和,再次經過Conv1×1×1 進行壓縮;最后通過Sigmoid 層得到最終的概率圖,用以計算分割誤差。作用于解碼器各層的額外監督信號能夠有效促進網絡的訓練,提升分割性能。

圖4 深度監督Fig.4 Deep supervision
為了評價提出的MSFA-Net 模型的性能和泛化能力,本文在LiTS[25]和3DIRCADb[26]數據集上進行訓練和測試。
LiTS 數據集:LiTS 共有201 例增強的腹部CT 掃描圖像,其中131 例用于訓練,70 例用于測試。LiTS中的數據來自不同的臨床站點,因此在平面分辨率、切片厚度和切片數量存在差異,它的圖像分辨率為512×512 pixel,平面分辨率范圍在0.55~1.00 mm,切片厚度為0.45~6.00 mm,切片數量在42 到1 016 之間變化。
3DIRCADb 數據集:該數據集共有20 例靜脈期增強CT 圖像,分別由10 名女性和10 名男性的3D CT掃描以及臨床專家對各種感興趣結構的人工分割組成。圖像的分辨率大小為512×512 pixel,肝臟的尺寸為[16.3~24.9,12.0~18.6,11.0~20.2](單位:cm),平面分辨率在0.57~0.87 mm,切片厚度在1.6~4.0 mm,切片數量在74 到260 之間變化。
本實驗在LiTS 數據集的131 例訓練數據集中,隨機選擇80%和20%的數據分別構造訓練集和測試集,在數據集3DIRCADb 上對模型進行測試。預處理操作能在一定程度上提升網絡的分割性能,本文對訓練數據集進行預處理。預處理的步驟主要有:
(1)Hu 值截斷,采用范圍為[-200,200]的Hu 值進行截斷,此Hu 值范圍包含了99%的肝臟區域;
(2)像素值歸一化,使用像素值歸一化來減小同性質組織之間的差異;
(3)重采樣,對每一個數據,每隔3 個切片選擇16個連續切片,然后進行重采樣,將切片大小從512×512 調整到256×256。
經過這一系列預處理操作,得到2 723 個圖像數據用于訓練,如圖5 所示,預處理后的圖像明顯區分邊界和對比度。

圖5 肝臟CT 圖像預處理前(左)和后(右)Fig.5 Before(left)and after(right)liver CT image preprocessing
本文的實驗是在CPU(Intel Core i7-5500U)、GPU(Nvidia GeForce RTX 2080Ti)、Windows 10 操作系統和PyTorch1.5 的平臺上進行。使用Dice 損失函數進行訓練,Adam 作為優化器,批大小設置為2,初始學習速率設置為1E-4,并采用指數衰減來對學習率進行動態調整,指數衰減的公式為:
其中,lr表示當前的學習率;lr0表示初始學習率;decay_rate則是學習衰減率,這里設為0.95;global_steps和decay_steps則分別代表當前的迭代次數和衰減速度,一共進行了50 次epoch 迭代訓練。將肝臟分割輸出的閾值設為0.7,對每個輸出結果的像素點進行預測,大于等于閾值的判為1,反之判為0(1 表示肝臟區域,0 表示非肝臟區域)。
肝臟在整個CT 圖像中占比相對較小,對其進行分割時,大面積的背景很可能導致學習過程陷入損失函數的極小值,即將正樣本判斷為負樣本。針對醫學圖像樣本分布不平衡導致預測結果偏差較大的問題,采用合適的損失函數可以減小分割圖像和標注之前的差距,獲得高置信度的分割圖像。
Dice 相似系數[27]是醫學圖像分割中常用的評價指標,通常用于計算兩個樣本的相似度。Dice 損失函數的定義為式(7),其靈感來自Dice 相似系數,目的是最小化正負樣本之間的重疊度。
其中,N表示圖像中的體素總數;pi是預測的二元分割體素;gi是真實標注的二元體素;ε是一個光滑項,以避免除數項為0,在實驗中設置為1。
通過觀察分割結果可知,對模型進行肝臟分割所得的概率圖,僅使用閾值得到的分割結果的精確性還有待提升;且當分割結果中存在空洞的情況,分割的效果往往較差。對此,本文對預測結果進行后處理,采用四連通區域提取最大連通域來移除細小區域,并對內部空洞進行填充,允許的最大空洞面積為5E4。后處理結果如圖6 所示。

圖6 肝臟分割結果的后處理前(左)和后(右)Fig.6 Before(left)and after(right)post-processing of liver segmentation results
醫學圖像分割中常用的主要評價指標是Dice 相似系數,Dice 相似系數可分為DC(dice per case,每個volume 的Dice 系數的平均值)和DG(dice global,所有volume 合并到一起得到的Dice 系數)。除此之外,還使用Jaccard、VOE(volumetric overlap error)、RVD(relative volume difference)、ASSD(average symmetry surface distance)和MSSD(maximum symmetry surface distance)等評價指標來評估分割結果與真實標注之間的相似性。DC、DG 和Jaccard 的取值范圍為[0,1],它們的值越接近1 分割效果就越好;VOE、ASSD 和MSSD 的值越小模型性能越好;而對于RVD,則是絕對值越小,模型的性能越好。
在這一部分,采用消融分析來對提出的肝臟分割模型的有效性進行評估。將3D U-Net 作為基線網絡,依次將空洞殘差卷積(DRC)、深度監督(DS)和MSFA 模塊融入其中進行實驗。
表2 中的數據顯示,在LiTS 數據集上,使用了DRC 模塊的網絡在各個評價指標上均有明顯的提升,說明通過DRC 模塊增大感受野使網絡能夠感知更多肝臟的多尺度信息。DS 模塊組合解碼器各層的輸出對分割結果有一定的優化作用。MSFA 模塊充分融合了網絡特征提取層相鄰的低級和高級語義特征,并結合注意力機制關注到微小特征,在7 個評價指標上具有比較明顯的優勢。各個模塊對于網絡分割性能的提高均有一定的有效性。最終,將以上模塊融合得到本文提出的分割模型MSFA-Net,該模型在LiTS 數據集上的主要評分數據DC 和DG 相比基線3D U-Net,分別提高了3.5%和2.0%。

表2 在LiTS 數據集上的消融實驗結果Table 2 Results of ablation experiments on LiTS dataset
表3 中的數據顯示,在3DIRCADb 數據集上,對于肝臟分割任務,在基線網絡的基礎上分別使用提出的各個模塊的評分數據均有增長,且最終提出的分割模型MSFA-Net 的各個評分數據提升最為明顯,在主要的DC 和DG 評分上分別提高了3.5%和3.3%。由此證明,本文提出的模型在不同數據集上同樣能表現出較好的分割效果,也進一步驗證依次使用改進模塊融入基線網絡可以改進3D U-Net 的不足,提出的改進方法能獲得良好的分割性能。

表3 在3DIRCADb 數據集上的消融實驗結果Table 3 Results of ablation experiments on 3DIRCADb dataset
圖7 是基線3D U-Net、3D U-Net +DRC、3D UNet +DS、3D U-Net +DRC+DS、3D U-Net+MSFA、MSFA-Net 等模型的分割結果對比圖,其中紅色實線表示Ground Truth,藍色實線表示以上幾個模型的分割結果。使用的測試圖像在驗證過程中不作任何處理,這里為了便于觀察,在圖中給出的測試圖片都是經過預處理后的。由圖可知,所有的模型均能將肝臟分割出來,但都存在不同程度的欠分割或過分割。在第二行和第三行中,對于圖像中存在不連續且微小的特征時,使用基線3D U-Net 只能得到一個粗略的分割結果,通過進一步應用MSFA 模塊的注意力機制可以關注到這些微小特征,使MSFA-Net 獲得更加精細的肝臟區域。最終,MSFA-Net 結合空洞殘差卷積、MSFA 模塊和深度監督,在測試集上所得的分割結果最接近于Ground Truth(紅色實線與藍色實線基本重合)。

圖7 不同方法的分割樣本比較結果Fig.7 Comparison results of sample segmentation by different methods
最后,為了評估MSFA-Net 對肝臟分割的有效性和可行性,將MSFA-Net與其他的在LiTS和3DIRCADb數據集上表現優異的深度學習方法進行比較,比較結果如表4 和表5 所示。

表4 MSFA-Net與其他方法在LiTS 數據集上的比較Table 4 Comparison of MSFA-Net and other methods on LiTS dataset

表5 MSFA-Net與其他方法在3DIRCADb 數據集上的比較Table 5 Comparison of MSFA-Net and other methods on 3DIRCADb dataset
對于肝臟分割,由于MSFA-Net 中加入空洞殘差卷積可以提取較多肝臟的多尺度信息,MSFA 模塊能夠較好地融合利用相鄰高層和低層特征提取層的語義信息和細節信息;深度監督對解碼器各層特征求和進一步提高了分割性能,使得本文方法獲得較好的分割結果。從表中數據顯示,與其他方法相比,本文方法在主要的評價指標DC 和DG 上實現了較高值,且在其他輔助評價指標上也取得了不錯的結果,對于肝臟分割優于大多數方法。因此證明,本文方法的整體性能優于表中的其他類似算法。
本文提出了一種基于3D U-Net 改進的多尺度語義特征注意網絡,用于從腹部CT 圖像中分割出肝臟。在該模型中,首先使用空洞殘差卷積來充分感知肝臟的多尺度結構;然后采用多尺度語義特征注意(MSFA)模塊,將特征提取層相鄰的低級特征和高級特征與注意力機制相結合來充分融合多尺度特征和關注微小特征,以此提高網絡對上下文特征的提取能力并增強特征的傳輸;最后使用深度監督增強梯度傳輸,以提高分割的一致性。
實驗結果表明,本文方法取得了較好的分割性能,與同類型的其他網絡進行對比,進一步驗證了改進網絡和MSFA 模塊的有效性。然而,本文方法還存在一定的不足,3D 卷積神經網絡雖然能夠提取三維CT 圖像的inter-slice 特征,但是這樣的網絡參數量較大,且需要較高的計算成本。在后續的工作中將會考慮如何降低網絡參數,從而更好地輔助肝臟疾病診療任務。