閆 超,孫占全,田恩剛,胡川飛
(上海理工大學 光電信息與計算機工程學院,上海 200093)
隨著醫療科學技術的快速發展,醫學影像成為醫生了解和分析病情的重要參考信息,在診斷疾病、評估治療等方面發揮著重要作用.醫學圖像分割是將醫學圖像中具有特殊含義的區域分割出來,并提取相關特征,為臨床診療和病理學研究提供可靠的依據,輔助醫生做出更為準確的診斷,是對醫學圖像進行對象提取、定量分析以及三維重構等處理中一個必不可少的階段[1].由于不同醫學圖像形態各異、結構復雜,且同一組織圖像的強度、顏色或紋理等特征類似,難以區分.因此,從醫學影像中識別病變組織的像素點,獲取這些病變部位的信息特征具有一定的技術難度[2].傳統自動分割的方法主要包括基于圖譜的方法[3-5]、基于形變模型的方法[6]、基于主動表觀模型的方法[7-9].這種依靠配準的分割方法需要過多的人機交互過程來完成目標特征的提取,自我學習能力較弱,當面對差異較大或者形態復雜的圖像時,分割精度和效率上不是很理想[10].
近年來,計算機硬件性能迅速提高,基于卷積神經網絡的深度學習方法應運而生,例如AlexNet[11],DeepLab[12],GoogLeNet[13],ResNet[14]和DenseNet[15],這些網絡以其強大的特征提取能力被廣泛地運用在視覺識別任務中.在醫學圖像分割方面,加州大學伯克利分校的Long等人提出的全卷積網絡(Fully Convolutional Network,FCN)[16]以AlexNet網絡結構為基礎,將全連接層全部轉化為卷積層,使得輸入圖像尺寸不再受到限制,減少了冗余結構,適用性更加廣泛.Ronneberger等在FCN思想的基礎上,提出U-Net網絡架構[17],利用編碼器與解碼器之間的級聯操作將圖像高層信息與淺層信息融合,豐富了圖像的細節特征,在對神經元、細胞瘤和HeLa細胞的醫學圖像分割任務之中得到了廣泛地應用.Wang等人提出了一種結合深度殘差網絡和U-Net架構的R-U-Net神經網絡[18],并將其應用于股骨區域自動分割,相比于傳統方法優勢明顯,實現了批量股骨區域的高精度自動分割.Gu等人提出一種上下文編碼網絡CE-Net(Context Encoder Network)用于2D醫學圖像分割,網絡捕獲了圖像更多抽象信息并且并保留空間信息特征[19],最終在視神經盤、細胞輪廓等多個醫學圖像分割任務中取得了很好的分割效果.
標準的U-Net網絡架構層數較少,模型簡單,在面對多種復雜醫學圖像時存在特征提取不足的問題.為了讓卷積神經網絡有更好的學習能力,最直接有效的方法是使網絡層數更深,但是純粹的增大網絡有以下的缺點:1)參數太多,若訓練數據集有限,容易導致過擬合;2)網絡越大,計算復雜度越大,難以應用;3)網絡越深,訓練的過程之中往往會出現梯度消失和梯度爆炸的情況[20],難以優化模型.為了解決上述問題,本文在U-Net網絡的基礎上,引入多分支結構和殘差結構.將不同尺度的卷積層聚合在一起,一方面增加了網絡的寬度,另一方面增加了網絡對特征大小的適應性,從而能夠更好地提取各種不同尺度的特征.隨著神經網絡層數的加深,殘差網絡能夠很好的緩解網絡退化的問題,減少梯度消失或者梯度爆炸帶來的風險[21].此外,普通卷積層沒能充分利用特征之間的全局依賴關系進行建模,忽略了圖像中像素與像素之間的相關性.而自注意力機制[22]在建模全局依賴關系以及計算效率上表現出良好的性能[23].自注意力機制是注意力機制[24]的一種形式,與空間[25]、通道[26]注意力不同,該機制以所有位置的特征加權和來計算響應,更有利于捕捉數據或特征的內部相關性,從而提高對醫學圖像的分割精度.
受U-Net模型、Inception模型、Residual模型和自注意力模型的啟發,為了更好的完成醫學圖像分割的任務,本文提出一種結合多分支結構與自注意力機制的U-Net卷積神經網絡模型:(Self-attentive Inception U-Net,SAIU-Net),具體如下:
1)基于U-Net網絡架構,通過跳躍連接的形式,將特征映射從下采樣直接傳輸到上采樣,彌補了下采樣過程中丟失的信息.
2)基于Inception結構,將設計的多尺度殘差卷積塊嵌入在U-Net結構中,拓展網絡特征提取的寬度,充分提取多尺度信息;每個模塊使用殘差連接,防止梯度消失,避免網絡退化.
3)在編碼和解碼網絡中間引入自注意力機制模塊,在融合多尺度信息的同時捕獲特征之間位置的關聯性,提高分割精度.
4)在肺部分割、眼底血管分割和腎部分割3種不同的醫學圖像分割任務上進行實驗評估,SAIU-Net模型在DICE相似性系數(DSC)、準確性、特異度等多項評價指標上均高于已有的醫學圖像分割方法,證明了模型能夠有效地提高醫學圖像的分割精度.
本文提出的SAIU-Net結構如圖1所示.該網絡和基礎的U-Net網絡相似,采用了具有跳躍連接的編解碼體系結構,將下采樣支路的高分辨率與上采樣層的特征進行融合,提高分割定位的準確性.SAIU-Net網絡主要包括3個部分:編碼部分和解碼部分以及自注意力機制模塊.自注意力機制模塊設計在編解碼網絡中間,計算像素特征之間位置的關聯性,加強有效信息的權重,融合下采樣之后的圖像特征,并為上采樣提供良好的基礎信息.多分支殘差模塊嵌入在編解碼網絡的各個卷積層之中,拓展網絡寬度,提取多尺度特征信息,提高對醫學圖像的分割精度.在編碼過程中,將訓練圖像輸入到模型中,每經過一個多尺度殘差塊,不同尺寸的感受野都會自適應的捕捉不同大小的圖像特征信息,特征圖通道數將增加一倍;下采樣采用2×2的Max-pooling卷積層進行特征整合,每經過一次下采樣模塊,特征圖的大小長寬尺寸將減少一半.在解碼過程中,每經過一個多分支殘差塊,不同尺寸的感受野都會自適應的捕捉不同大小的圖像特征信息,特征圖通道數將減少一半;上采樣采用Upsampling2D將特征圖的大小增加一倍.在最終的輸出中,預測圖像與輸入圖像尺寸相同.

圖1 SAIU-Net模型整體結構圖
為了將不同分支上不同大小感受野所捕獲的特征進行聚合,本文在編碼部分和解碼部分里面提出了一種改進的多分支殘差塊,通過多個不同尺寸的卷積層來拓展網絡寬度,以學習到圖像多尺度的特征信息.此外,為了有效地實現梯度傳播,避免網絡退化,本文在網絡框架中使用殘差單元和批處理(Batch normalization,BN)層來加快網絡的訓練速度,提高網絡運行效率.
多分支殘差模塊如圖2所示,輸入特征共經過4條支路.前3條支路的功能是提取圖像不同尺度的特征信息,融合不同感受野下采集的圖像特征.第1條支路采用1×1的卷積核進行特征映射,同時加入BN操作.第2個條支路同樣采用1×1的卷積核進行特征映射,為了擴大感受野,使用3×3的卷積核進行特征提取,然后加入BN操作.類似地,第3條支路在第2條支路的基礎上進一步多出3×3的卷積核和BN層.第4條支路是一個殘差單元,直接將輸入連接至輸出,由于包含一個恒等映射,一定程度上可以解決網絡退化問題.最后,將4條支路匯合,進行Concatenation操作作為最終的輸出.

圖2 多分支殘差模塊
假設特征圖輸入為XL,輸出為XL+1.GN×N()代表卷積核為N×N大小尺寸的卷積操作,GB代表BN層.Concatenation操作用*表示.那么,該模塊可以用公式(1)表示:
XL+1=G1×1{GB(G1×1(XL))*GB(G3×3(G1×1(XL)))*GB(G3×3(GB(G3×3(G1×1(XL)))))}+XL
(1)
結合多分支殘差模塊的圖像與公式可知,在前3個并行的卷積層中,為了捕獲圖像更廣泛和更深層次的語義特征,文中設計了感受野為1×1的卷積核,感受野為3×3的卷積核和感受野為5×5的卷積核(兩個kernel size為3×3卷積核串聯的感受野相當于5×5).大的感受野用于識別圖像中的較大目標特征,小的感受野用于提取圖像的細微特征,然后將不同尺度的圖像特征信息用Concatenation的方式進行深層次聚合.這在處理較為復雜的醫學圖像分割任務時發揮著重要作用.最后,輔以殘差網絡結構,緩解網絡退化問題,加速網絡訓練進程.
自注意力機制在建模全局依賴關系以及計算效率上表現出良好的性能.因此,引入自注意力機制能夠使網絡高效地對上下文關系進行刻畫,增強特征的表征能力.
自注意力模塊如圖3所示,假設輸入特征圖為F∈RC×W×H,其中C,W,H分別表示通道數、寬度和高度.在第1條分支路徑中,F輸入到1×1卷積層,生成新特征圖F0∈RC′×W×H,其中C′=C/8.然后通過Reshape操作將F0的維度轉換為C′×(W×H),即F0∈RC′×(W×H).對于單張特征圖而言,就是將W×H大小拉直,輸出為1×(W×H)大小;對于Batchsize大小而言,輸出為B×C/8×(W×H).在第2條分支中,將F0進行相同的操作,生成F1∈RC′×(W×H).

圖3 自注意力機制模塊
通過Permute操作將F0進行轉置,然后與F1相乘,并其進行Softmax運算以提取相關性.注意力矩陣α的計算方法如公式(2)所示:
(2)
第i行表示第i個像素位置上所有通道的值.第j行表示第j個像素位置上所有通道的值.αj,i表示第j個位置對第i個位置的影響程度,可以看作是第j個位置與第i個位置的相關程度,從而構成全局上下文任意兩個元素的依賴關系.自注意力機制以所有位置的特征加權和來計算響應,捕獲局部區域變化間的相關性,相比于傳統的卷積運算,減少了對外部信息的依賴,更擅長捕捉數據或特征的內部相關性.
在第3條支路中,先對特征圖F進行1×1的卷積操作得到F2∈RC×W×H,然后通過Reshape操作將F2的維度轉換為C×(W×H),即F2∈RC×(W×H).通過Permute操作將α進行轉置,將其乘以F2,得到自注意力層輸出為β∈RC×(W×H),使用Reshape操作將β的維度轉換為C×W×H,即β∈RC×W×H.將自注意力層的輸出乘以比例參數μ,與輸入特征圖F相加,F′=μβ+F,自注意力F′即為全局相關特征.
綜上所述,自注意力機制中的第1條支路和第2條支路應用卷積層獲得降維的特征,生成自注意力矩陣,該矩陣模擬任意兩個元素之間的依賴關系;然后,將第3條支路乘以自注意力矩陣以獲得反應全局背景的自注意力層;最后,按一定參數比例融合自注意力層和原始圖像特征以獲得最終的全局相關特征.自注意力模型通過學習不同區域特征之間的依賴關系,獲得圖像的全局特征,提高對圖像細節特征的識別能力,進而提高對醫學圖像的分割精度.
本文使用肺部分割、眼底血管分割和腎部分割3種不同的醫學圖像分割任務對SAIU-Net模型進行評估.肺部分割任務中使用的數據集來自2017年Kaggle數據科學碗的“Finding and Measuring Lungs in CT Data”競賽(1)http://www.kaggle.com/kmader/finding-lungs-in-ct-data,該數據集收集了2D和3D的肺部CT圖像,本實驗中將使用2D圖像進行評估,包含267張分辨率為512×512的圖像.眼底血管分割任務中使用的數據集為DRIVE[27].DRIVE數據集包含40張彩色眼底圖像,其中20張圖像用于模型訓練,8張圖像用于模型驗證,12張圖像用于模型測試,每張圖像的大小為580×580.腎部分割任務中使用的數據集為上海市某醫院提供的腎部檢測影像,每1例患者對應一幅圖像,共包含400張圖像及其對應的標簽.這3個數據集的示例圖像如圖4所示,第1列為肺部數據集圖像及其對應標簽,第2列為眼底血管數據集圖像及其對應標簽,第3列為腎部數據集圖像及其對應標簽.

圖4 肺部數據集,眼球血管數據集,腎部數據集
為了定量評估SAIU-Net模型的性能,本文選用的評價指標包括:DICE相似性系數(dice similarity coefficient,DSC)、Jaccard指數(jaccard similarity coefficient,JSC)、準確性(Accuracy,AC)、敏感度(Sensitivity,SE)、特異度(specificity,SP)和F1分數(F1-score).各項指標公式如下:
(3)
(4)
(5)
(6)
(7)
(8)
其中,GT表示人工手動分割的圖像,SR表示模型預測的結果.TP(True Positive)表示真陽性,它表示人工分割和算法分割公共區域的像素個數.FP(False Positive)表示假陽性,它表示在算法分割區域內,在人工分割區域外的像素個數.TN(True Negative)表示真陰性,它表示人工分割和算法分割外部公共區域的像素個數.FN(False Negative)表示假陰性,它表示人工分割區域內,在算法分割區域外的像素個數.
實驗的主要硬件配置是英特爾Seon Silver 4116 CPU和單塊英偉達TITAN XP GPU.本文提出的SAIU-Net模型是以基于Python的深度學習框架Pytorch實現.實驗使用交叉熵作為模型訓練的損失函數,使用隨機梯度下降(Stochastic Gradient Descent,SGD)優化器,其動量和權重衰減分別設定為0.9和0.0005.初始學習率為0.001,訓練迭代周期為120,同時采用學習率階段衰減策略在每30個迭代周期衰減學習率,衰減系數為0.1.訓練輸入圖像的批數據量為4,同時采用隨機水平翻轉作為數據擴增方法,增強網絡的泛化能力.
肺部數據集包含267張圖像和相同數量的標簽.實驗使用90%的數據作為訓練集,10%的數據作為測試集.為了使訓練的模型穩定可靠,本實驗采用5倍交叉驗證以驗證模型的有效性.圖5展示了各個模型對肺部圖像的分割結果,第1列為原始圖像,第2列為真實標注圖像,剩下各列分別是以下模型的輸出:SegNet,FCN-8s,U-Net,ResU-Net,SAIU-Net.可以看出,SegNet和FCN-8s分割出的肺實質部分不夠連續,存在一些空洞,尤其是FCN-8s的分割結果,存在較多明顯的斑點.U-Net和ResU-Net由于跳躍連接表現出較好的性能,但仍有部分像素預測錯誤.SAIU-Net在以上基礎上進一步融合不同尺度信息,且自注意力機制增強了圖像特征的表征能力,使最終分割結果有著較為完整的邊緣和區域.

圖5 各算法肺部圖像分割效果對比
各模型的定量分割結果如表1所示.為了保證實驗結果的公平性,SegNet、Fcn-8s、U-Net和ResU-Net的實驗采用了與SAIU-Net相同的訓練方式,如損失函數、優化器等.可以看出,SAIU-Net在多個評價指標下都表現出了良好的性能.DICE系數是評價分割精度最有效的指標之一.本實驗中,SAIU-Net模型的平均DICE系數為0.9853,比排名第2的ResU-Net模型高了0.23%.除此之外,在JSC指數,準確性、敏感度、特異度和F1分數等指標上SAIU-Net模型的結果也都優于其他模型.說明了多分支殘差結構能夠有效減少連續下采樣帶來的信息損失,解決網絡退化問題,而注意力機制更加關注目標區域的輸出,可有效增強模型的分割效果.

表1 各算法肺部圖像分割效果對比
DRIVE中數據量相對較少,為了降低過擬合的影響,對數據集進行了增廣處理.由于所用數據集中視網膜圖像是一個圓形區域,因此將圖像隨機旋轉固定角度,可以模擬不同的采集環境而不會改變圖像自身結構,然后使用Gamma 校正對圖像的亮度進行調整.每幅圖像增廣兩次,這樣DRIVE 由40張增廣到120張,在模型的訓練階段每次隨機選取其中的100張用作訓練,剩下的20張用于測試.各模型輸出的眼底血管分割結果如圖6所示,從左到右分別為原始圖像,真實標注圖像,SegNet,FCN-8s,U-Net,ResU-Net,SAIU-Net模型的輸出圖像.由于視網膜眼底血管數據集圖像比肺部數據集圖像復雜,SegNet網絡模型的輸出圖像略顯模糊.U-Net,FCN-8s,ResU-Net網絡模型和SAIU-Net模型的分割結果相近,肉眼較難分辨,進一步定量分析,從表2中可以看出,相比于其他模型,SAIU-Net表現出了更好的性能,在DICE 系數,JSC指數,準確性、敏感度、特異度和F1分數等指標上分別比排名第2的ResU-Net模型高出了0.21%,0.23%,0.15%,0.98%,0.22%,1.83%.一般的,網絡深度越深越寬,能學到的圖像特征信息越多,性能也越好.SAIU-Net模型網絡結構豐富,尺度多樣,具有良好的抗梯度消失的性能,而且與之結合的自注意力機制模塊進一步增強了有效信息特征表達能力,因而可以獲得較好的分割效果.

表2 各算法在DRIVE數據集上的分割效果對比

圖6 各算法在DRIVE數據集上的分割效果對比
腎部圖像分割任務是對患者檢測影像的腎部區域進行分割,從而為進一步的醫學診斷提供參考依據,共包含400張圖像及其對應的標簽.實驗中,80%的數據將用于訓練和驗證,剩下的數據將用于測試,使用5倍交叉驗證.分割結果如圖7所示,從左到右分別為原始圖像,真實標注圖像,SegNet,FCN-8s,U-Net,ResU-Net,SAIU-Net模型的輸出圖像.可以看出,FCN-8s模型分割的部分樣本將非腎部區域劃分為腎部區域,存在一些偏差.其他各模型分割結果較為相似,其中SAIU-Net模型的分割結果與真實標簽最為接近,分割效果最好.各模型的定量分割結果如表3所示.SAIU-Net在多個評價指標下都表現出了良好的性能,其DICE系數為0.9268,比排名第2的ResU-Net模型高了0.53%.結果表明,本文提出的SAIU-Net引入自注意力機制模塊,彌補了全局相關性的特征刻畫,因此與其他模型相比,對于全局性的細節部位具有更好的分割能力.而多分支殘差模塊可以使得SAIU-Net比原來的網絡更加深入和有效,該模塊可以在不引入梯度消失的情況下有效地加深網絡的深度,使網絡能夠學習到更多的圖像特征.

表3 各算法腎部圖像分割效果對比

圖7 各算法肺部圖像分割效果對比
3個不同的醫學圖像分割任務實驗充分證明了SAIU-Net模型具有良好的適應性和分割精確性.
多分支殘差模塊對結果的影響:為了驗證多分支模塊提升分割精度的有效性,本文構建了不包含多分支殘差模塊和包含多分支殘差模塊的基礎U-Net網絡在腎部數據集上進行實驗.實驗結果如表4第1行和第2行所示,多分支殘差模塊能夠提升大約0.61%的DICE指標,驗證了多分支模塊拓展網絡提取特征的寬度,從不同的尺度學習到圖像更多的特征信息的能力,進而提高了分割精度.

表4 在肺部數據集上驗證方法有效性的實驗結果
自注意力機制模塊對結果的影響:與驗證多分支模塊的方式類似,構建了不包含和包含自注意力模塊的網絡.為了盡可能避免其他模塊對結果的影響,實驗分為兩組,如表4所示,第1組為第1行和第3行,第2組為第2行和第4行.兩組分別在基礎網絡和包含多分支模塊的網絡上,驗證了自注意力機制的有效性.可以看到,自注意力機制模塊的兩組實驗中,對分割結果均有大約0.63%的準確率提升.此實驗結果表明,自注意力模塊的可學習融合方式,有益于增強模塊提取特征本身的全局性,有效提升網絡最終的分割結果.
本文針對基于深度學習的醫學圖像分割技術,在U-Net網絡的基礎上,提出一種結合多分支殘差結構與自注意力機制模塊的卷積神經網絡模型(Self-attentive Inception U-net,SAIU-Net).模型采用多分支結構提取并融合圖像不同尺度的特征,來彌補圖像在上采樣和下采樣過程中所丟失的信息;采用自注意力機制模塊,捕獲特征之間位置的關聯性,提高分割精度.通過在肺部、眼球血管、腎部3個醫學圖像數據集上進行仿真實驗,證明了相比于其他方法,SAIU-Net在相似性系數、Jaccard指數、準確性(Accuracy,AC)等評價指標上達到了更好的結果.同時,消融實驗驗證了自注意力機制模塊和多分支殘差模塊的有效性.