張 鵬,徐曾春,胡 平
(南京工業大學 計算機科學與技術學院,南京 211816)
顱內出血是一種神經系統疾病,是由血管破裂進入組織并可能延伸腦內內皮細胞導致,一直以來,顱內出血是導致死亡和殘疾癱瘓的主要原因,顱腦損傷后,如果不及時的進行診斷和治療,極有可能會誘發較高的死亡率[1].傳統的診斷方法由醫生人工定量估計出血區域和大小,整個過程非常耗時,且確定其出血的類型和區域十分依賴于醫生的經驗累積,人為誤差也是導致顱內出血診斷偏差的問題所在.
隨著深度學習的發展,基于深度學習的圖像分割技術已經成為圖像分割的重要組成部分,分割任務的挑戰性在于識別醫學圖像中器官或病變的區域位置[2].對于顱內出血,深度學習方法最近在分割顱內出血方面取得了成功.其分割目的在于傳遞和提取出血點定量測量的關鍵信息.然而,與人體器官分割相比,顱內出的血病灶分割存在更大的困難與挑戰:1)與人體其他部位的圖像相比,腦部CT圖像存在成像偽影及顱骨等腦部組織噪聲的復雜情況;2)顱內出血區域常常表現為結構相對不明確的高密度區域,分割任務更具有挑戰性.因此需要一種能高效準確分割出血區域的病灶分割方法.
本文提出了融合密集連接與注意機制的分割方法,用于進行顱內出血病灶分割.在全卷積網絡的基礎上,本文采用密集連接的思想,并在網絡的編碼與解碼的連接部分融合了一種包括空間和通道注意的注意力機制,以捕獲豐富的上下文關系來精準的提取高質量的顱內出血特征.針對面積較小的顱內出血區域,本文引入了Focal Tversky損失函數以解決對小面積出血病灶的分割精度不足的問題,有效的提升了顱內出血分割的性能.
傳統的顱內出血分割方法通常需要對圖像進行預處理,去除其中顱骨等噪聲,并提取一些復雜的特征.方法大致可以概述為基于閾值分割和基于區域分割兩種類型.
Moltz等人[3]采用閾值法進行分割,在對圖像去噪后,定義一個合適的閾值,生成基于該閾值的出血區域的二值圖像,將出血區域分割出來.Bhadauria 等人[4]中提出了一種顱內出血分割方法,其結合了模糊c均值聚類(FCM)與區域生長的主動輪廓線,與標準區域生長方法以及FCM相比,該方法在顱內出血分割中更具有優勢.此外,其他機器學習方法在顱內出血分割中也有一定的應用,Muschelli 等人[5]提出一種使用隨機森林算法的全自動顱內出血分割方法,通過建立隨機森林模型來估計顱內出血的區域概率,可以較為準確的對顱內出血區域進行分割.
現階段,深度學習方法在顱內出血分割中已經占據主導地位,通常醫學圖像分割的網絡架構都基于全卷積網絡(FCN)[6]或U型全卷積網絡(U-Net)[7]進行改進設計.Chen等人[8]受殘差網絡ResNet的啟發,在U-Net[7]的編碼器部分,采用殘差網絡的連接形式進行改進,以用于顱內組織分割.與之類似,Jégou 等人[9]提出密集連接的全卷積分割網絡,在全卷積網絡的基礎上引入密集連接的思想,在病灶分割上取得具有競爭力的表現.Kuo 等人[10]提出基于區域化全卷積網絡(PatchFCN)的顱內出血分割方法,使模型能夠準確定位出血區域,在較少的數據量中取得優于標準FCN的出色競爭性能.Bi等人[11]提出一種基于卷積神經網絡和全卷積網絡級聯的方法,提高出血病灶分割上的準確率.Cho[12]采用兩個卷積神經網絡和雙重全卷積網絡(FCN)構建的級聯深度學習模型以識別出血.
與上述方法不同,本文受Oktay[13]以及Roy[14]等人在實驗中利用注意力機制的影響,采用融合密集連接網絡與注意機制的方式進行腦部圖像中的出血病灶的分割.
本節描述本文所提方法的總體框架,對密集連接網絡與注意力機制進行主要介紹.
通常,腦部CT圖像中顱內出血的病灶區域不夠明確,且存在顱骨等高密度無關組織[15],對顱內出血病灶分割造成不小的影響.本文以全卷積網絡融合密集連接塊與注意力機制的方式對顱內出血病灶的特征進行精細的提取.網絡模型由全卷積密集網絡以及該網絡中編碼器、解碼器兩者連接間的注意力機制模塊組成.本文在顱內出血分割網絡中編碼器部分融合了密集連接塊,在編解碼與解碼器中,引入通道和空間注意力機制模塊.其中,網絡編碼器中密集連接塊用于獲取顱內出血病灶特征,并將編碼器中提取的每一層特征輸入到注意力機制中,在注意力機制中,將分別在通道注意力和空間注意力上進行特征加權,從而獲得顱內出血病灶最詳盡的特征以及特征利用,以提高顱內出血分割的準確率.最后,將特征由解碼器映射到標簽概率以獲取分割結果.本文方法的網絡結構如圖1所示.

圖1 顱內出血分割網絡示意圖Fig.1 Schematic diagram of intracranial hemorrhage segmentation network
由于顱內出血區域呈現為相對不明確的高密度區域,并且部分出血區域的密度與腦實質密度相近,因此,出血區域特征提取較為關鍵.網絡層次加深雖然提高特征的提取能力,但特征圖的利用率較低,導致單純加深網絡層數達到的效果不顯著.而密集連接網絡中采用密集連接的方式能夠更好的提高特征圖的利用率.為此,本文最初考慮直接采用DenseNet[16]進行顱內出血病灶的特征提取與分割,但DenseNet[16]是為分類任務而設計,并非本文要解決的分割任務,對于顱內出血這種結構相對不明確,內部腦組織噪聲較多的情況,其分割效果不佳.然而,適用于分割任務的深層全卷積網絡(FCN)中采用的最大池化和上采樣操作,又導致低級特征信息丟失,尤其對于出血不明顯的區域,會導致分割的精度較差.
結合上述兩個考慮,本文設計一個全卷積密集連接網絡,結合了密集連接和類似U-Net[7]中跳躍連接的特點,為顱內出血分割提取更加精細的特征.圖2為全卷積密集網絡的示意圖.在每一層的編碼內部采用密集連接的形式以確保最大的特征利用,而編碼器部分與解碼器部分之間采用跳躍連接將低分辨率信息和高分辨率信息結合起來,有效解決出血病灶區域結構不明確,不明顯的問題.

圖2 全卷積密集網絡示意圖Fig.2 Schematic diagram of fully convolution dense net
3.2.1 編碼器與解碼器
本文的全卷積密集網絡類似于U-Net[7],同樣采用編碼器和解碼器的組成結構.它由池化層,密集連接塊,過渡層和上采樣層,共計167個卷積層組成.編碼器用于提取特征,解碼器用于恢復特征至原始輸入圖像的分辨率,并且采用跳躍連接的方式將編碼器和解碼器進行連接,以融合前面特征層所提取到的細節信息.
編碼器以除去全連接層的DenseNet-161為基礎網絡,圖2中所示,卷積層1—密集連接塊4構成了編碼器部分,包含了3×3卷積的卷積層1步長為2,步長為2的3×3最大池化層,以及4個密集連接塊和3個過渡層.每個密集連接塊由若干1×1、3×3卷積組合構成,密集連接塊1-4中分別包含了6、12、36、24個1×1、3×3卷積組合.3個過渡層均由批歸一化層(BN)、1×1卷積和2×2平均池化組成.密集連接塊中提取的特征圖在過渡層中通過卷積與合并來縮小特征圖大小.該編碼器中共計有160個卷積層,由于網絡深度越深,其特征提取能力越強,密集連接塊的引入不僅有效的提高顱內出血特征的利用率,而且可以更加有效的進行梯度傳遞,以防止梯度消失.所以本文方法在融合了密集連接塊后,對顱內出血區域有很強的特征提取能力.
解碼器由5個上采樣層以及1個卷積層組成.由圖2可知,解碼器中的1-3個上采樣層分別與分別與3-1密集連接塊相連接,上采樣層4與卷積層1相連.上采樣層為2×2的卷積,通過雙線性插值實現上采樣操作,解碼器通過5次上采樣使得分割結果最終能擁有更為精細的邊緣信息.卷積層2由一個1×1卷積構成,用來恢復分辨率至原始圖像分辨率,同時卷積層2也降低了參數量.解碼器中采用sigmoid激活函數輸出概率范圍為(0,1),獲得顱內出血的概率.由于卷積神經網絡的淺層特征得到的是局部語義信息,深層特征是全局語義信息.解碼器在上采樣層恢復分辨率的同時將兩者進行融合,提高分割精度.
3.2.2 密集連接
本文以DenseNet[16]為基礎網絡,該結構由具有不同輸出尺寸的重復密集連接塊組成.作為核心所在,密集連接塊是構建DenseNet[16]的基本.本文在特征提取的編碼器部分采用密集連接塊的思想.以4層卷積層的密集連接塊為例,其結構如圖3所示,密集連接塊中包含4個卷積層.

圖3 密集連接示意圖Fig.3 Schematic diagram of dense connection
與一般卷積網絡中連接不同,在密集連接塊中,可將每個卷積層相連,使每個卷積層的輸出都可以作為后續卷積層的輸入,從任何卷積層到其所有后續卷積層都有直接連接,將不同層的特征圖實現連接合并,進行特征圖重用.層之間密集連接的優點是,更加有效的進行特征的前向傳遞和梯度的后向傳播,最大限度的避免了學習冗余.此外,密集連接確保了層之間的最大信息流,改善了梯度,從而減輕了深層神經網絡中的負擔.
傳統意義上的卷積網絡,第L個卷積層的輸入僅是上一個卷積層的輸出,而在密集連接網絡中,若密集連接塊中共有L個卷積層,對于第L個層的輸出,它的輸入為前面所有特征圖的連接,輸出表達如下:
Xl=Hl([X0,X1,…,Xl-1])
(1)
式中,Xl為第L層的輸出特征圖,X0為起初圖像輸入,為組合函數既歸一化(BN)、修正線性單元(ReLU)和卷積操作.在本文中,如圖4中卷積層結構所示,組合函數中包含了BN、ReLU、1×1卷積以及BN、ReLU、3×3卷積組合變換.表示將特征圖至進行連接合并.
本文將腦部CT切片圖像輸入融合了上述密集連接塊的編碼器中,以提取更為精細的顱內出血病灶特征,用以分割.
顱內出血分割專注于提取最精確的顱內出血病灶特征區域,但在上述的全卷積密集網絡中,并非編碼器獲得的所有特征都對分割顱內出血的病灶是有效的.此外,在特征圖中,不僅不同的通道具有不同的作用,而且每個通道中不同的空間位置也可以對分割的特征表示賦予不同的權重.受文獻[14]中將圖像特征區域在空間和通道上重新校準,然后將它們賦予權重并融合以獲得最終的特征方法的啟發.為此,我們在上述網絡編碼器和解碼器的連接中引入了一種融合空間和通道注意力的注意力機制模型,該模型將編碼器中各通道的特征y1,y2,…,yn進行連接,然后在通道和空間上對連接后的特征進行校準獲得Yc、Ys,最后將它們融合以獲得豐富的融合特征,最終將融合后的特征連接到解碼器進行解碼.本文采用這種捕獲豐富的上下文關系以實現更好特征表達的注意力機制,來充分的利用沿通道和空間方向最顯著的顱內出血特征.注意力機制模型結構如圖4所示.
在注意力機制模塊中,本文首先將來自每個通道輸出的各個顱內出血特征進行連接,作為注意力機制模塊的輸入.計算公式如下:
Y=[y1,y2,…,yn]Yk∈RH×W
(2)
式中n是每個層中通道的數量.本文為了簡化描述,以通道數為32的輸出為例.
在通道注意力模塊中,如圖4所示,首先進行全局平均池化,以生成特征向量g∈R1×1×32.該特征向量表示的全局信息,其第k個特征向量表示為:

圖4 注意力機制模型Fig.4 Attention mechanism model
(3)
然后,利用兩個連接的卷積層對通道注意力中特征向量進行編碼,計算公式如下:

(4)

(5)

在空間注意力模塊中,空間注意力輸入可以表示為:
為了實證檢驗農戶對保費補貼政策的認知度與鄰里效應對農戶參保意愿的影響,在控制文化程度和收入水平等相關因素的情況下,采用計量模型,分別對農戶種植業保險保費補貼政策的認知度和鄰里是否參保的實驗數據進行了估計。同時,為了使回歸結果更加穩健可信,采用逐步回歸法對模型進行極大似然估計,回歸結果如表3所示。表3中的模型(1)為農戶對種植業保險的認知度和鄰里是否參保對農戶參保意愿影響的回歸結果。采用逐步回歸方法,模型(2)(3)(4)則進一步依次加入了農戶對種植業保險在農業生產中之重要性的評價、農戶的文化程度、性別、年齡、家庭收入,以及農戶對種植業發生自然災害的預期等控制變量。
Y=[y1,1,y1,2,…,yi,j,…,yH,W]
(6)
其中,yi,j∈R1×1×32,i∈1,2,…,H,j∈1,2,…,W.
然后,本文對空間注意力的輸入進行1×1卷積運算,計算公式如下:
d=Ws*Y
(7)
其中,d∈RH×W,Ws為空間注意力權重,用于壓縮空間域,并生成映射向量,該向量表示空間位置上所有通道的線性組合.本文注意力機制模型將向量最終通過sigmoid 操作獲取空間注意力權重并計算空間注意力.計算公式如下:
Ys=[σ(d1,1)y1,1,…,σ(di,j)yi,j,…,σ(dH,W)yH,W]
(8)
式中,σ(di,j)表示空間信息的重要系數.
獲得通道注意力與空間注意力特征之后,本文將兩者進行融合,融合的特征表示是通過將按通道注意力和空間注意力特征相加而獲得,融合公式如下:
Yf=Yc+Ys
(9)
本文通道和空間注意力機制可以直接適用于任何類型的特征表示問題,并且其促進顱內出血分割網絡捕獲豐富的腦部CT上下文關系,進行顱內出血特征區域校準.此外,該注意力機制對整個網絡的復雜度僅有很小的增加,在不影響其效率的同時,以獲得更精確的顱內出血特征.
Dice系數是用于預測分割區域與真實標簽的重疊率最廣泛的度量標準,并且被廣泛用于評估分割性能.其損失函數為最小化預測值與真實標簽之間的重疊率.但Dice損失函數同等地對待假陽性和假陰性,這會導致分割精度高但靈敏度很低.尤其對于高度不平衡的數據集,如顱內出血中的小面積出血區域.假陰性的權重需要高于假陽性才能提高靈敏度.Tversky 相似性指數[17]能夠允許實現動態的平衡假陽性和假陰性的權重,其計算公式如下:
(10)

但由于小面積的出血病灶并未對損失造成重大影響,因此,對于小面積的出血區域很難進行分割.為解決此問題,針對顱內出血的特點,本文采用Focal Tversky 損失函數(FTL):
FTL=∑c(1-Tl)1/γ
(11)
其中,γ在[1,3]范圍內變化,本文經過比對,選定α=0.7,β=0.3,γ=4/3.實際上,如果Tversky相似性指數較高時,像素類型預測錯誤,則不會影響FTL.但是,如果Tversky相似性指數較小時而像素類型預測錯誤,則FTL將顯著下降.因此,本文使用Focal Tversky 損失函數訓練網絡以幫助分割小面積的顱內出血區域.
本文實驗采用了Qure25k[18]、CQ500[19]腦部CT圖像數據集.Qure25k中收集了2494個各類型顱內出血CT掃描圖像.CQ500中包含437個顱內出血CT掃描圖像.本文對Qure25k數據集中顱內出血頭部CT掃描圖像進行標注,并隨機選擇其中80%用于訓練本文方法,其余20%用于測試.
本文通過Focal Tversky損失函數訓練顱內出血分割網絡,并使用Adam優化器進行了網絡模型優化,設置初始學習率為0.001.學習率衰減系數為0.5. 本文實驗的硬件環境為Intel i7-8700k cpu,雙GTX 1080ti gpu,64GB內存.訓練時長大約需要21個小時.本文實驗中所有圖像尺寸進入網絡前均調整為256×256.
本文使用Dice相似性系數、Hausdorff距離(HD) 、精確度(precision)和靈敏度(Sensitivity)作為顱內出血分割任務的評價指標.
Dice相似性系數表達式如下:
(12)
精確度(precision)、靈敏度(Sensitivity)表達式如下:
(13)
(14)
上述式中,TP定義為正確分割為顱內出血的區域(真陽性),FP定義為將非顱內出血區域錯誤分割成顱內出血區域(假陽性),FN定義為錯誤漏分割顱內出血區域(假陰性).
Hausdorff距離(HD)表示顱內出血標簽和分割結果兩者表面點之間的最大歐式距離.其指標越小,分割精度越高.Hausdorff距離公式如下:

(15)
式中,顱內出血區域標簽點為A,顱內出血分割結果區域表面的點為B,d(a,b)為兩點之間的歐氏距離.
為了驗證本文方法對于顱內出血病灶的分割的綜合性能,將其在本文數據集中進行顱內出血分割的實驗,結果表明:本文方法能高精度的對顱內出血病灶進行分割.并經過對多種比對實驗結果的分析,論證了本文方法的優越性.
本文采用Focal Tversky損失函數進行網絡訓練,在Qure25k[18]數據集上,與采用Dice損失函數訓練的網絡進行對比實驗,實驗結果如表1所示,可見,在參數選定為最佳時,本文采用Focal Tversky損失函數訓練網絡的性能在Dice相似性系數、精確度(precision)和靈敏度(Sensitivity)上明顯優于Dice損失函數,使本文方法的靈敏度提高較大.

表1 損失函數對比結果Table 1 Comparison of loss functions
本文注意力機制中融合空間和通道注意力,為驗證該注意力機制對于顱內出血病灶的效果,將其與文獻[13]中采用的新型注意門(AG)模型注意力機制在Qure25k[18]數據集上進行對比實驗,實驗結果如表2所示,結果表明,本文所引入的空間和通道注意力機制的性能相較于文獻[13]中注意門(AG)有一定的優勢,更適用于顱內出血的特點.

表2 注意力機制對比結果Table 2 Comparison results of attention mechanism
為了進一步分析本文方法的性能,將本文方法在CQ500[19]數據集上與醫學圖像分割基準網絡U-Net[7]、本文不含有注意力機制的全卷積密集網絡進行對比實驗,進一步分析本文方法的分割性能,實驗結果如圖5所示,圖5(a)可見全卷積密集網絡的顱內出血分割性能相較于U-Net[7],精確度上有一定的優勢,可見本文融合了密集連接網絡后,可以有效的提高顱內出血分割性能,但其存在一定的局限,難以應對不平衡的數據集,導致其在部分評價指標上優勢不顯著.本文方法在融合了注意力模塊后,與U-Net[7]以及全卷積密集網絡相比,在精確度以及靈敏度兩個指標上,相比于不含有注意力機制的全卷積密集網絡分別提高了2.55%、1.87%.相似系數提高了3.15%.對比U-Net[7],在精確度以及靈敏度上的優勢更為顯著.另外,圖5(b)表明本文方法的Hausdorff距離也為其中最小.

圖5 CQ500數據集上實驗結果對比Fig.5 Comparison of experimental results on the CQ500 data set
綜上所述,實驗結果表明:1)本文方法在相似性系數、精確度、靈敏度3個評價指標上較這兩種深度學習分割方法均具有明顯的優勢;2)其分割的距離系數HD為3個方法中最低最優,表明本文方法對顱內出血分割誤差值最小.
此外,將本文方法與近幾年顱內出血分割方法:模糊c均值聚類算法(FCM)結合區域生長算法(region growing)[4]、隨機森林(random forests)[5]以及深度學習方法(PatchFCN[10]、Cascaded FCN[12])進行對比,對比結果如表3所列,實驗結果論證了本文方法在上述精確度、靈敏度以及相似系數3個評價指標上都取得了優越的分割性能.相比于其中精確度最優算法Cascaded FCN,本文方法精確度提高了4.15%,靈敏度提高了5.39%.

表3 本文方法與其他方法對比結果Table 3 Comparison results of this method with other methods
通過上述對比實驗結果分析,本文方法充分考慮了顱內出血病灶的特點,能夠達到準確的分割顱內出血病灶的效果,顯著的提高了顱內出血分割的性能,且實驗中對單一顱內出血CT切片圖像分割平均僅需0.64s,整體上達到了精確,快速分割的臨床需求.
圖6為本文方法在CQ500數據集上的分割結果,可以看出,腦部CT圖像中出血區域部分呈現出相對不明確,不明顯的特點,本文方法對于此類顱內出血情況,能夠較為全面的提取出血區域,達到精確的病灶分割效果.

圖6 顱內出血分割實驗結果圖Fig.6 Results of intracranialhemorrhage segmentationexperiment圖7 小面積出血區域分割實驗結果圖Fig.7 Results of segmen-tation experiment of small area
對于小面積的出血病灶,本文做了針對性的設計,實驗結果如圖7所示,可見,本文方法對小面積的顱內出血病灶依舊保持了較高的分割精度,切實有效的解決了小面積出血病灶難以分割的問題,整體上提高了本法方法對于顱內出血分割的性能.
本文提出了融合密集連接與注意機制的顱內出血分割新方法,在公開的顱內出血數據集上進行病灶分割實驗.在損失函數以及注意力機制的對比實驗中,本文所提出的注意力機制以及損失函數均對顱內出血分割性能的提升起到較有成效的作用.與其他顱內出血分割方法對比實驗結果表明,本文方法在精確度、靈敏度、相似系數和Hausdorff距離系數4個評價指標上都優于現有顱內出血分割算法,且與基礎分割網絡的對比實驗中也取得了具有優勢的結果.但仍有一些問題需要完善,如由于數據集數量以及種類限制,對于及其細微的出血點以及區域更為模糊的彌漫性出血,本文分割方法還不夠敏感,存在一定的誤差,這是后續研究的主要重點.