李秀華,朱水成
(長春工業大學 計算機科學與工程學院,吉林 長春 130012)
肝臟作為人體新陳代謝的主要器官,對人體有著不可替代的重要作用[1]。肝癌是指在肝臟上產生的惡性腫瘤,是發病率和致死率極高的腫瘤之一。肝癌已成為人類健康的巨大威脅,對其進行早期診斷可以顯著降低患者死亡率[2]。當前,治療肝癌最有效的手段是進行肝腫瘤切除[3]。計算機斷層掃描(Computed Tomography,CT)是肝癌檢測的重要手段[4],也為醫生進行腫瘤切除提供了極大便利。然而傳統的手動分割針對大小形態不一、邊界模糊的腫瘤分割難度極大,對醫生的臨床經驗有著很強的依賴性[5],且長時間的手動分割,醫生會過度疲勞,極易出現誤診和漏診的情況,因此手術前必須對肝臟和腫瘤的位置、形狀有著精準的定位和分割[6]。
隨著科技的發展和計算機運算能力的增強,深度學習已廣泛應用于圖像分類、分割和檢測等任務中,并取得了顯著的成就。2015年,Long等人提出了全卷積網絡(FCN)[7],開啟了在語義分割鄰域的應用。FCN的出現使圖像分割算法得到了廣泛研究,其基本思想是使用卷積層替換全連接層,使用轉置卷積進行上采樣,分割精度優于傳統的分割方法。同年,Ronneberger等人在ISBI競賽上,將FCN與編碼-解碼結構相結合,提出了U-Net網絡[8],采用編碼器提取特征,利用解碼器將特征圖恢復至原始分辨率,引入跳躍連接融合上下文特征減少信息丟失,該網絡現已成功應用于諸多圖像分割任務中。ResU-Net在U-Net基礎上引入了殘差模塊[9],提取圖像的更深層特征。Attention U-Net在U-Net跳躍連接中加入注意力機制模塊[10],通過生成一個門控信號來控制不同空間位置處的特征信息,使其更關注目標區域,獲得更好的分割結果。Chen等[11]提出DeepLab用于語義分割,加入空洞卷積[12]增大卷積核感受野。雖然基于卷積神經網絡(CNN)的分割算法在圖像分割中取得了較好的效果,但在對體積較小,邊界模糊的肝臟腫瘤進行分割時,編碼器提取到的特征不夠準確,且由于類不平衡,網絡難以取得較好的分割效果。
針對上述方法中U-Net網絡在肝臟腫瘤分割中存在的問題,對原始U-Net引入注意力機制和殘差模塊進行優化,并結合Focal Tversky損失函數用于肝臟腫瘤分割,以改善類不平衡問題,提升大小形態不一及邊界模糊的腫瘤分割效果。
U-Net是用于醫學圖像分割的全卷積神經網絡,傳統U-Net模型如圖1(a)所示,其結構相互對稱,包括壓縮路徑、擴展路徑和跳躍連接,可以進行端到端的訓練。壓縮路徑為卷積和最大池化的堆疊,整體結構與VGG[13]類似,主要用來提取圖像中的上下文信息。擴展路徑經過一系列反卷積操作恢復特征圖分辨率,對圖像中要分割的部位進行準確定位,為了減少上采樣造成的細節丟失,通過跳躍連接融合淺層和深層的圖像特征信息,最終得到與原圖尺寸相同的分割圖。然而傳統U-Net在簡單的圖像拼接后會得到許多冗余信息,且在上采樣過程中會丟失較多語義特征,針對肝臟及腫瘤的分割精確度不夠,難以滿足當下復雜的診斷需求,對網絡結構進行改進。
改進U-Net模型如圖1(b)所示,由(a)和(b)可以看到,改進U-Net由原先的四層減為三層,以減少網絡的計算量、縮短模型的訓練時間。在編碼階段由普通卷積改為混合空洞卷積,以增大感受野、獲取更多的上下文信息。其次,重新構建解碼網絡,使用密集上采樣替換原始上采樣,捕獲和解碼更詳細的信息;使用殘差模塊替換普通卷積塊,提取更多特征信息、加速模型的訓練并防止網絡退化。在每個跳躍連接之間加入注意力機制,使模型重點關注目標區域的特征,抑制冗余特征。在特征融合之后添加Dropout層[14],抑制網絡的過擬合問題。使用組歸一化(GN)代替常用的批量歸一化(BN),減小Batch Size過小對網絡準確性的影響。改進后的U-Net在分割過程中可以提取到更精細的特征信息,從而獲得更好的分割效果。

圖1 傳統U-Net與改進U-Net網絡結構
空洞卷積通過在卷積核中注入空洞,可以實現指數級增長感受野的同時不增加模型參數量,從而聚合更多的上下文信息。空洞率(rate)代表空洞的大小,當rate為1時,這種卷積就是標準的卷積操作。當rate>1時,在原圖上每隔(rate-1)個像素采樣。空洞卷積感受野計算如下:
K=k+(k-1)(r-1)
(1)
其中,k為原始卷積核大小,r為空洞率。然而當前空洞卷積存在網格效應:只有非零值的位置被采樣,會造成局部信息丟失。Wang Panqu提出的混合空洞卷積(Hybrid Dilated Convolution,HDC)[15],使用一系列的dilation rates而非使用相同的rate,有效緩解了網格效應,如圖2所示。

圖2 混合空洞卷積
當前圖像分割任務中的網絡基本都具有編碼和解碼的過程,大多數網絡在解碼時使用的是雙線性插值,它是不可學習的,且會丟失細節信息。密集上采樣卷積(Dense Upsampling Convolution,DUC),通過學習一系列放大的過濾器來放大下采樣的特征圖到最終想要的尺寸,其結構如圖3所示。

圖3 密集上采樣卷積
假設原圖大小為H×W,經過卷積網絡后維度變為h×w×c,其中h=H/d,w=W/d,d為下采樣因子。通過卷積后輸出特征圖維度為h×w×(d2×L),其中L是分割類別數,然后使用softmax層將輸出特征映射重塑為H×W×L。DUC的核心思想是將整個標簽圖劃分成與輸入特征圖等尺寸的d2子部分,也就是說,將整個標簽映射轉換為具有多個通道的更小的標簽映射。這種轉換可直接在輸入特征映射和輸出標簽映射之間應用卷積運算,而不需要像反卷積那樣插入額外的值[16]。
DUC對于識別小物體非常有幫助,可以實現像素級預測。由于DUC是可學習的,它能夠捕獲和恢復在雙線性插值運算中遺漏的細節信息。
在U-Net解碼階段使用殘差模塊替換普通卷積塊,殘差模塊使得前面層的輸入信息可以直接傳到后面層中,能夠加快信息的傳遞、加速模型的訓練,減輕了網絡模型的退化問題,如圖4所示。

圖4 殘差模塊
殘差模塊中輸入X為模型上一階段所得的特征圖,輸入X經過兩個包含BN和Relu的卷積層得到殘差映射,并且通過1×1的卷積操作實現特征維度匹配,最后將兩者相加進行特征融合得到輸出Y。
在對編碼部分的淺層特征與解碼部分的深層特征進行拼接融合之前,引入一種輕量的注意力機制模塊(CBAM),其結構如圖5所示。

圖5 CBAM結構
CBAM包含通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM),具體結構如圖6所示。

圖6 CAM與SAM結構
在CAM中,首先,將輸入的特征圖F(H×W×C)分別經過基于寬度和高度的全局最大池化和全局平均池化,得到兩個1×1×C的特征圖。然后,將它們轉發到共享網絡(MLP)中,接著使用元素求和合并輸出特征向量,再通過Sigmoid激活,獲得通道注意力權重Mc。最后,用Mc與輸入特征圖F逐元素相乘,其結果作為空間注意力模塊的輸入。通道注意力計算如下:
Mc(F)=σ(MLP(AvgPool(F))+
MLP(MaxPool(F)))=
(2)
其中,σ為Sigmoid函數,MLP權值W0∈RC/r×C和W1∈RC×C/r為兩個共享輸入,r為減少率。
在SAM中,將通道注意力模塊輸出的特征圖做一個基于通道的全局最大池化和全局平均池化,得到兩個H×W×1的特征圖,再將它們沿通道方向進行拼接。然后,經過一個7×7卷積操作,降維成1個通道。再經過Sigmoid獲得空間注意力權重Ms,最后,用Ms與輸入特征圖F'逐元素相乘,得到最終輸出特征圖。空間注意力計算如下:
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
(3)
其中,σ為Sigmoid函數,f7×7表示卷積核為7×7的卷積運算。
CBAM整體計算過程可以概括為:
F'=Mc(F)?FF''=Ms(F')?F'
(4)
其中,?為逐元素相乘,在乘法過程中,注意值被相應地傳播,F''為最終精煉輸出。
類不平衡問題已成為醫學圖像分割的主要挑戰之一,肝臟腫瘤在整個腹部區域內的占比較小,遠低于正常組織器官。而訓練這種不平衡的數據,使得分割結果具有較高的精確度,但召回率較低。Dice損失函數的局限之一是無法權衡假陽性(FP)和假陰性(FN),因此,該文使用Focal Tversky損失函數(FTL)以解決肝臟腫瘤分割中的類不平衡及精度召回率平衡問題,FTL公式如下:
(5)
(6)
(7)
(8)

通過調試,實驗選擇α=0.7、β=0.3、γ=4/3進行訓練,當α=β=0.5、γ=1時,FTL簡化為Dice Loss。
實驗數據采用MICCAI2017LiTS[17]挑戰數據集,該數據集包括來自7個臨床機構的131名患者的增強腹部CT影像,由4名經驗豐富的放射科醫生對肝腫瘤進行手動標注。從數據集中挑選80名患者的CT影像作為訓練集,6名患者的CT影像作為驗證集,30名的患者CT影像作為測試集,其中去除了13個不含腫瘤及2個損壞的數據。對數據集進行去噪處理并沿Z軸進行切片,訓練集通過切片一共生成13 316張切片數據,其分辨率大小為512×512。
實驗環境如下:Intel(R) Xeon(R) CPU E5-2650 2.2 GHz的CPU,NVIDIA TITAN XP×2的顯卡(12 GB×2顯存)和CentOS7操作系統。整個實驗基于Python3.6、Pytorch1.8.0、CUDA10.2版本的深度學習框架。
網絡訓練時采用Adam優化器[18],batch size設置為4。訓練肝臟分割時,初始學習率設為0.001,訓練腫瘤分割時,初始學習率設為0.000 1,epoch都設為200。使用指數衰減策略調整學習率,衰減速率設為0.95,并采用L2正則化與dropout策略抑制過擬合。
為了評估所提方法的性能,使用醫學圖像分割中常用的Dice系數(Dice Similarity Coefficient,DSC)、召回率(Recall)和精確率(Precision)作為評價指標,計算公式分別為:
(9)
(10)
(11)
式中,TP代表真陽性,是預測結果和專家手動標記的金標準重合的區域;FP代表假陽性,是預測結果不在金標準中的區域;FN代表假陰性,是指在金標準中但不在預測結果中的區域。Dice系數用于衡量預測結果與金標準之間的相似度或重疊度,其取值范圍為0到1,越接近1說明預測結果與金標準的重合度越高;召回率是真陽性同真陽性與假陰性之和的比值,精確率是真陽性同真陽性與假陽性之和的比值,Recall和Precision的取值范圍同樣為0到1,越接近1,說明預測結果的欠分割率和過分割率越低。
3.4.1 肝臟圖像分割
為了證明所提方法的分割性能,將文中方法與原始U-Net及其變體Attention U-Net、ResU-Net、Attention ResU-Net進行對比實驗。不同網絡對肝臟進行分割時,在三個評價指標中的性能對比如表1所示。
從表1中可以看出,Attention ResU-Net在U-Net基礎上加入注意門(AG)和殘差模塊后整體表現優于其他三種網絡。而文中方法在三個評價指標中綜合性能表現最優,說明網絡在獲得精度提升的同時,還有效地抑制了假陽性與假陰性。由于召回率和精確率是相互影響的,高召回率會造成低精確率,高精確率會造成低召回率,因此在實際應用中需要綜合考慮,兩者越高越好。

表1 不同網絡對肝臟進行分割時的性能對比
不同網絡對肝臟的分割結果與金標準的對比情況如圖7所示。由圖7可以看到,原始U-Net在對肝臟進行分割時出現了過分割與欠分割現象,這是由于網絡在編碼階段提取到的淺層特征信息較差,帶有許多冗余信息,影響了分割效果。文中方法在U-Net基礎上引入殘差模塊和注意力機制(CBAM),在分割過程中可以補充遺漏的細節信息,且能捕捉通道維度和空間維度上的重要特征信息,還受益于加入的混合空洞卷積在增加卷積核感受野的同時,有效增強了網絡對上下文信息的提取,從而獲得了更精準的分割結果。

圖7 不同網絡對肝臟圖像分割的結果
3.4.2 腫瘤圖像分割
不同網絡對肝腫瘤進行分割時,在三個評價指標中的性能對比如表2所示。

表2 不同網絡對肝腫瘤進行分割時的性能對比
從表2中可以看出,文中方法的Dice系數、召回率和精確率都優于另外四種網絡。在醫療應用中,假陰性比假陽性更難以容忍,因此在分割任務中權衡召回率多于精確率,召回率越高說明對假陰性的抑制效果越好。
不同網絡對肝腫瘤的分割結果與金標準的對比情況如圖8所示。從圖8中可以看出,與U-Net及其變體網絡相比,文中方法能夠獲得與真實標簽更相近的分割結果,既可以相對完整地分割出面積較大的腫瘤,又不會遺漏面積較小的腫瘤,有效改善了欠分割和過分割問題,且分割結果更具魯棒性,因此對腫瘤的分割更加精準,對于臨床診斷任務具有較好的參考價值。

圖8 不同網絡對肝腫瘤圖像分割的結果
該文提出了一種基于改進U-Net的肝臟腫瘤分割方法。在編碼階段利用混合空洞卷積擴大感受野、捕獲多尺度的上下文信息。在解碼階段采用密集上采樣,捕獲和解碼更詳細的信息;并且引入殘差模塊和注意力機制,加速網絡的訓練、使模型捕捉通道維度和空間維度上的重要特征信息。實驗結果表明,與U-Net及其變體網絡相比,文中方法在多個評價指標中表現較優,分割結果與金標準更接近并具有很強的魯棒性,能夠有效解決肝臟及肝腫瘤的欠分割與過分割問題。然而在實際應用中,仍存在樣本標注工作量大和模型分割時間長等問題。因此,該文提出的分割方法仍需進一步改進,以期獲得更優的分割結果,從而能更好地輔助肝臟腫瘤診斷與治療或其他臨床應用任務。