劉蕊,續欣瑩,謝珺
(1.太原理工大學 電氣與動力工程學院,山西 太原 030024;2.太原理工大學 信息與計算機學院,山西 晉中 030600)
肝癌是世界范圍內的主要公共衛生問題,是全球最常見的惡性腫瘤之一[1].肝臟腫瘤最常用的檢測手段是計算機斷層掃描技術(computed tomography,CT),清晰而準確地描繪肝臟及腫瘤的范圍是肝癌診斷過程中至關重要的環節.傳統的醫學影像處理方法是由放射科醫生手動逐張標注病灶區域,工作耗時且人工負擔極大[2].隨著計算機技術的飛速發展,基于醫學圖像的計算機輔助診斷技術以其精度高、速度快和成本低的特點在醫學圖像自動分割的臨床應用中得到極大關注.
傳統的計算機視覺算法,如閾值分割、區域生長和基于機器學習的方法等,由于受限于先驗特征且容易受到噪聲影響,并不適合肝臟腫瘤圖像分割的臨床應用.隨著近年來深度學習方法的發展,尤其是卷積神經網絡(convolutional neural network,CNN),這種基于數據驅動的生物醫學數據檢測與分割方法無需手工操作即可實現端到端的病灶結果分析[3],目前已被用于多種醫學圖像處理,包括肺結節、眼底血管、腦卒中病變和腦腫瘤分割等[4-7].
對于肝臟CT圖像,不同病人樣本之間肝臟形狀和位置略有偏差,同一病例的肝臟形態也會隨著切片的不同而發生改變.肝臟與周圍組織器官密度相差較小,導致圖像的目標對比度較低,邊界不清晰.并且CT圖像的成像過程引入了大量噪聲,這些都是自動分割算法研究中必須解決的關鍵難點.與此同時,現有條件下難以獲取大量的帶標注數據,所以從有限的數據中提取充分的特征信息是提升分割準確度的關鍵,信息提取不充分會造成邊緣細節丟失等問題.由于醫學CT圖像數據的三維特性,數據中包含著單一方向的平面信息和體積方向的空間信息,因此需要采用合適的網絡結構,以保證原始數據特征信息的充分獲取.
二維網絡被廣泛應用在醫學圖像分割中,Ben-Cohen等[8]和Yuan[9]采用了級聯網絡的思想,將經典的全連接網絡進行串聯,對肝臟和腫瘤區域進行逐步分割.Tian等[10]在全卷積神經網絡(fully convolutional networks,FCN)和CNN的2D肝臟腫瘤分割網絡基礎上,加入了由長短期記憶模型循環神經網絡(long-short term memory,LSTM)和注意力機制組成的語言理解模塊,可在分割圖像的結果上直接生成診斷報告.Zhou等[11]在UNet結構基礎上重新設置了密集跳躍連接方式,可針對不同任務靈活地改變網絡深度.Li等[12]將多種經典模塊進行組合,同時加強瓶頸處特征的應用,提高了肝臟邊界分割效果.但二維網絡忽視了體積信息,僅利用單方向上的平面特征不能獲得足夠高的分割精度.后續研究人員提出了引入體積信息的2.5D網絡概念,Han[13]將多張連續切片疊加輸入到UNet和Resnet相結合的網絡結構中,在避免大幅增加網絡復雜度的同時引入了空間信息.Yang等[14]和Yun等[15]采用了多視角分割方法,對3個軸向的2D切片分別進行分割,再使用投票機制將3方向結果進行融合.這種方式雖然引入了一定的空間信息,但是切片的多通道融合會導致特征信息混雜,同時CT數據的各向異性使得不同軸向的切片之間分辨率存在較大差異,為多視角分割帶來障礙.三維網絡在體積數據利用方面擁有著極大的優勢,不僅在單獨使用時獲得了明顯的精度提升,而且能夠與二維網絡相結合.Li等[16]使用了2D和3D DenseUNet分別提取切片內和切片間特征,之后利用混合特征融合層對2個維度的特征進行融合.Isensee等[17]在肝臟腫瘤分割任務中首先使用3D UNet結構對腫瘤進行粗分割,之后利用2D UNet進行輔助分割,以提升分割精度.三維網絡在醫學圖像的體積信息提取和分割效果上都有明顯的優勢,可以作為首選方法,但網絡復雜度和計算成本之間的平衡依然是制約三維網絡靈活應用的問題.
由于醫學圖像的分割目標往往是尺寸較小的腫瘤或器官,導致醫學圖像數據只有小部分陽性樣本,標簽嚴重不平衡.一些損失函數已經為解決該問題做出一定探索,焦點損失函數[18]通過在交叉熵損失函數的基礎上增加調制系數,對分割樣本的權重進行了重塑,增加對難分割樣本的關注.針對醫學圖像分割任務,廣義Dice損失函數[19]依據標簽出現的頻率來控制該標簽的權重,從而達到平衡各標簽訓練的效果.指對數Dice損失函數[20]對Dice數值取對數,并加入指數形式,通過標簽頻率來改善數據的不平衡問題.現有工作的數據不平衡問題多針對二維數據,對三維數據的相關問題研究仍有所欠缺.
為解決上述問題,本文構建了一種多維度特征提取網絡RDD-UNet(residual dilated deep supervised-UNet),從體素、軸向和網絡層級3個維度上充分提取特征信息,提高了肝臟分割的精確度.
1)本方法采用了改進的三維殘差UNet網絡結構,加入了長短跳躍連接,融合了上下層網絡結構中的多尺度信息,在原始數據體積信息完整保留的情況下充分利用了層內和層間特征.
2)本方法在編碼路徑中設計了DSC(dilated separable convolution)模塊,利用不平衡深度可分離空洞卷積操作,在擴大卷積核感受野的同時,一定程度上緩解了三維網絡計算存儲空間需求大的問題.
3)本方法設計了混合損失函數,加入改進的Dice損失函數以改善數據不平衡問題,加入SSIM(structural similarity)損失函數以提升肝臟邊界處分割效果,同時與深度監督結構相結合,進一步提升肝臟分割精度.
所提網絡基于UNet基本結構,加入了殘差連接,以長短跳躍連接相結合的方式充分融合層內和層間切片信息;編碼路徑中設計了不平衡深度可分離空洞卷積模塊,在減少網絡計算量的同時擴大了感受野,充分提取網絡多尺度層間語義信息;同時設計了混合損失函數和深度監督相結合的網絡結構,能夠在改善小區域數據不平衡問題的同時,提升肝臟邊緣分割的精確度.
本文提出的RDD-UNet網絡結構如圖1所示,在經典的醫學分割UNet[21]基礎結構上,將網絡維度延伸至三維并增加了網絡深度.網絡主要包含編碼路徑、解碼路徑和深度監督3部分.編碼路徑由4個編碼模塊和4個降采樣模塊組成,編碼模塊由卷積層、PReLU非線性層和dropout層組成,降采樣模塊使用步長為2的卷積層代替了一般的池化操作.其中第4個編碼模塊使用的是不平衡深度可分離空洞卷積模塊(DSC模塊),在降低三維網絡運算量的同時提升了網絡特征提取的效率,該模塊在1.2節中詳細介紹.解碼路徑和編碼路徑的結構對稱,由4個解碼模塊和4個上采樣模塊組成.網絡主干通路中加入了UNet長連接和殘差短連接[22],將網絡層級間不同尺度的語義信息進行融合.輸出部分加入了深度監督結構,不同尺度的特征圖經過反卷積層、相應倍數的上采樣層和Sigmoid層恢復成原始數據尺寸,并結合混合損失函數,得到最終的分割結果,混合損失函數和深度監督的結合使用在1.3節中具體介紹.

圖1 RDD-UNet網絡結構Fig.1 Structure of RDD-UNet
該模型的輸入X∈h×w×k是長寬為h×w(h=w=512),厚度為k的三維數據,經過預處理和重采樣步驟將尺寸縮放到256×256×k(本實驗中k=48),經過網絡的運算后,深度監督端產生4個輸出h×w×k,分別對應不同分辨率的分割結果,和作為網絡的輔助監督中間結果,與混合損失函數相結合,共同調節網絡的訓練過程,得到最終的分割結果該網絡可以充分利用CT數據各維度的信息,同時加入的殘差連接有助于改善網絡深層的梯度指數衰減,促進信息傳播,使模型訓練更加充分.
本方法中針對三維網絡計算存儲空間需求大的問題,在網絡中設計了DSC卷積模塊,在不平衡多分支結構基礎上組合使用深度可分離和空洞卷積,具體描述如圖2所示:

圖2 DSC模塊結構Fig.2 Structure of DSC block
該模塊包含3條分支,分別設置了不同的空洞卷積率,大感受野的卷積分支可以更多地提取大目標的抽象特征,而小感受野的卷積分支則更針對小目標的細節信息,各個分支信息最終融合,從體素維度上對輸入圖像進行多尺度特征信息的提取.圖2中,框內包含的2層結構是深度可分離卷積操作,輸入特征圖Fi∈H×W×D×Ci,其中長寬為H×W,深度為D,輸入和輸出通道數為Ci和C0.原始卷積操作經過k維卷積核所需參數為k×k×k×Ci×C0,現經過深度分離和逐點卷積分解,參數量為k×k×k×1×Ci+1×1×1×C0×Ci.在本實驗中,k=3且C0=128時參數量僅為原始的12%.
按照空洞卷積的原理,如果網絡中連續的卷積層使用相同的空洞率,會產生網格效應,即高層特征圖中一個像素內容是由底層圖像中分散的像素點組成,原理示意如圖3所示,這樣會造成圖像位置信息的丟失.為避免此問題,本方法采用混合空洞卷積的原則[23],DSC模塊中2條空洞卷積分支的空洞率分別設置為[2,3]和[2,3,5],保證感受野可以覆蓋完整的圖像信息,不存在孔洞或者邊緣信息丟失.

圖3 空洞卷積網格效應Fig.3 Illustration of gridding problem
損失函數是深度學習模型中的重要部分,本方法設計了一種混合損失函數,主要解決肝臟分割的數據不平衡問題,同時提高了肝臟邊緣的分割精度.該混合損失函數由以下3部分組成:
1)改進的Dice損失函數(FEL-Dice).Dice系數是醫學圖像分割中重要的衡量標準,它通過描述預測結果和真實標簽之間的重疊區域大小來計算分割精確度.由Dice系數轉變成的Dice損失函數[24]已經被廣泛應用于醫學圖像分割任務中,但對于小尺寸目標的分割問題,少量的錯誤分割點就會導致損失值的大幅上升,影響最終的分割結果.本方法提出了一種改進的Dice損失函數
(1)
其中,N是總體素數量;pi和gi是在i點的預測值和標簽值;常量ε用于防止函數分母為0.相比原始Dice函數,對數函數形式增加了損失的非線性程度,參數γ用于改變損失函數的斜率,這樣的改進保證了數據中易分割點的損失函數沒有大的變化,而難分割點損失值大幅增加,從而增加了網絡對難分割點的關注度.在此實驗中,由經驗取值γ=0.3.
2)二元交叉熵損失函數(binary cross entropy,BCE).這一函數可針對每個體素點計算差值,已被廣泛應用在分割網絡中.
(2)
3)損失函數借鑒了結構相似度(SSIM),該相似度是圖像質量的評判標準之一,通過對比圖像之間的亮度、對比度等信息,對圖像相似度進行評判,值越大代表兩者結構相似性越高.將SSIM作為損失函數引入圖像分割網絡,可針對肝臟邊緣的分割效果進行提升.其損失函數為
(3)
其中,μp和μg表示圖像中預測值p和真實值q的平均值;σp和σg表示標準差;σpg表示兩者的協方差;常量C1和C2用于防止函數分母為0,根據文獻[25]的數據設置為C1=0.012,C2=0.032.
混合損失函數為
Lmul=LFEL-Dice+LBCE+LSSIM.
(4)
為了充分學習各尺度特征信息,本方法進一步將混合損失函數與深度監督結構相結合,利用網絡低層和中層特征信息輔助網絡訓練,加快訓練過程的收斂速度,提高最終的分割精度.圖1虛線框中圈出的區域為深度監督結構,在解碼路徑中,網絡的最終輸出作為主監督分支(黑色箭頭表示),在3個解碼模塊后設置輔助監督分支(藍色虛線箭頭表示).4個側向輸出產生的不同分辨率特征圖被送入反卷積層、相應倍數的上采樣層和Sigmoid層,恢復成原始數據尺寸,利用混合損失函數與標簽進行對比,產生的誤差作為深度監督信號,提升網絡的訓練效果.
網絡的主監督分支使用混合損失函數
(5)
3條輔助監督的損失函數均分別使用FEL-Dice損失函數
(6)
網絡的總體損失函數由上述兩部分共同組成
(7)
其中,超參數α是調節監督信息間比例關系的平衡系數,用于調整輔助監督分支在網絡訓練過程中的作用強度.α初始取值為0.3,之后隨迭代次數的增多而逐漸減小,每50次迭代后進行一次衰減計算,最終趨近于0.具體衰減計算公式為
(8)
其中,M為總迭代次數,t為每50次的迭代次數.
本實驗使用的數據集是2017 LiTS肝臟腫瘤分割挑戰賽的公開數據集,包含131個腹部增強三維CT掃描.由于圖像數據通過不同的儀器和來源收集,因此樣本間的分辨率和圖像質量方面有差異.為了節省時間,在實驗中原始CT數據在解剖切面被重采樣為256×256尺寸.在預處理過程中,所有掃描的圖像經過窗口化操作,CT值控制在[-200,200],以忽略其他器官的干擾,之后進行了直方圖均衡化步驟,達到增強圖像對比度的效果.
本實驗采用的評價標準有Dice系數、體積重疊誤差(VOE)、相對體積誤差(RVD)、平均對稱表面距離(ASD)和最大對稱表面距離(MSD)等,計算公式為
(9)
(10)
(11)
(12)
(13)
其中,A和B分別表示預測分割區域和標簽區域,S(A)代表A的曲面體素集.
全式(14)中‖·‖代表歐氏距離,d(v,S(A))代表任意體素v到S(A)的最短距離,計算公式為
(14)
本實驗模型搭建環境為Python3.7,Pytorch框架,ubuntu18.04操作系統,采用NVIDIA TiTanXP 12G內存GPU.網絡Dropout率設置為0.3,初始學習率為0.000 1,使用Adam算法進行梯度更新.
3.2.1 混合損失函數與深度監督實驗效果
本實驗的目的是證明方法所提出的混合損失函數和深度監督網絡結構,能夠在不平衡數據和目標邊界區域表現出極大的效果改善.實驗結果如表1和圖4所示.從圖4a-f中可以看出,混合損失函數結合深度監督結構的效果遠高于單一損失函數的結果.從圖4c-e中的對比可以看出,混合損失函數能夠保留更多的細節信息,對肝臟邊緣細節的分割更精確.
此外,深度監督結構是從網絡隱含層中集成語義信息的重要組成結構.表1的結果顯示,相同損失函數條件下,加入了深度監督的網絡效果有明顯提升.同時通過對圖4c和圖4f的比較可以看出,由于深度監督的隱含層特征提取作用,非連通區域的分割效果有了明顯改善.

表1 不同損失函數和深度監督結果比較Tab.1 Segmentation results with different loss and deep supervision
3.2.2 空洞卷積與殘差連接實驗效果
本實驗的目的是驗證空洞卷積和短殘差連接作為重要的多尺度信息采集方法,在RDD-UNet中得到了明顯的效果.表2和圖5a-e顯示了RDD-UNet的消融實驗情況.從表2中可以看出RDD-UNet的Dice系數增加約3%,與圖5d相比,圖5c的結果有明顯的優勢,這說明空洞卷積對于非連通目標可以準確提取樣本點的位置信息.同時,圖5e中的大面積肝臟被錯誤地分割為背景,非連通區域中間邊界被錯誤分割為前景,這些結果說明了加入殘差連接可以有效地增加信息融合效果,提升分割精度.

a.原始圖像;b.肝臟標簽;c-e.分別為RDD-UNet、無空洞卷積、無殘差連接模型下的分割結果.圖5 不同網絡結構的肝臟分割結果示例Fig.5 Examples of liver segmentation result with different network architecture
圖6是在測試數據上Dice和VOE指標數值范圍的箱型圖.從圖6結果可以看出,RDD-UNet不僅提高了整體的分割精度,而且對每個樣本都有一定程度的提升.

a.RDD-UNet的結果;b-h.分別為FEL-Dice+深度監督、FEL-Dice+無深度監督、BCE+深度監督、BCE+無深度監督、混合損失函數+無深度監督、RDD-UNet+無空洞卷積和RDD-UNet+無殘差連接條件下的結果.圖6 測試結果箱形圖Fig.6 Box plots evaluated on test data
3.2.3 其他方法對比
本方法與Yuan[9]和Tian[10]等學者的方法及H-DenseUNet[16]、UNet++[11]、nnU-Net[17]和Bottleneck[12]等幾種方法進行了定量比較,結果如表3所示.其中前2行是2017年MICCIA肝腫瘤分割比賽的冠亞軍結果.從表3結果可以看到,RDD-UNet在Dice系數和Dice Global數值均位居榜單高位,VOE得到了當前較好的結果.

表3 對比實驗結果Tab.3 Comparative experimental results
本方法提出了RDD-UNet網絡模型,在數據軸向層級采用參數縮減的3D網絡提取多方向的有效體積信息,在體素層級運用空洞卷積增大每層的有效特征感知區域,在網絡層級運用多種跳躍連接相結合的方式融合多尺度上下文語義信息,與此同時運用混合損失函數和深度監督相配合的結構,提升了肝臟器官邊緣的分割精度.本方法在公共數據集LiTS上的Dice分數達到0.965 2,與其他方法相比達到了較高的精度水平.下一步將針對3D網絡計算量大的缺點,繼續對網絡結構進行優化,并加入后處理方法,以實現分割速度和精度的雙重提高.