高正君,張佩炯,司小強
(1.甘肅省人民醫院整形美容外科,蘭州 730030;2.蘭州資源環境職業技術大學 電力工程學院,蘭州 730022)
據全球調查數據統計,皮膚腫瘤及皮膚癌的發病率以3%~8%的比例增長,且死亡率也在逐年上升,皮膚腫瘤及皮膚癌疾病正嚴重威害著人類的健康[1]。皮膚腫瘤最有效的解決辦法就是能早期精準診斷后進行病灶的根除,隨著計算機人工智能技術的不斷發展,醫學圖像的精確分割對于病理臨床診斷評估、治療方案的制定及疾病狀況的監測有著舉足輕重的作用[2]。通常,醫學圖像的成像類型多種多樣,皮膚鏡圖像可通過無創性顯微成像技術來獲取,圖像可以清晰的顯示皮膚腫瘤的病灶特征,但由于病例的多樣性,導致病灶間的差別微乎其微,醫生通過裸眼觀察方式分析判斷病灶類別會變得十分困難。倘若能借助計算機輔助診斷,這樣一來可以大大緩解醫生的就診壓力,方便于偏遠山區的患者進行遠程會診,簡化了患者和醫生之間的就診繁瑣程序。因此,醫學圖像的處理對醫生更快捷準確的診斷患者的病情有著重要意義。
醫學圖像的分割是對圖像中健康皮膚組織上所攜帶的病灶區域進行提取,簡單地說就是將一幅醫學數字圖像分割成不同的區域,按照灰度、顏色、紋理等特征,把同一圖像區域中的特征相似性和異同性分割出來,為醫生診斷提供可靠信息,圖像分割結果的好壞直接影響計算機對圖像視覺的理解[3]。醫學圖像智能化分割技術通常有:閾值分割技術、區域分割技術、邊緣檢測分割技術。2013年,徐舒暢等人選用獨立色彩濃度閾值實現了皮膚鏡圖像的病灶分割,閾值分割技術對皮膚鏡圖像中顏色分布很依賴,由于皮膚鏡中有氣泡、毛發、偽影等干擾性介質,對分割結果影響還是比較大的[4]。2015年,Sumithra等人使用區域增長算法實現了皮膚鏡病灶圖像的分割,在區域增長算法中,需要人為設置種子點,這樣的話易受主觀因素的干擾,智能化程度較低[5]。2018年,Vesal等人通過改進U-Net網絡,應用于完整尺寸皮膚鏡圖像分割,將分割結果與人工分割結果相對比,Jac相似系數提升到76%。雖然計算速度較快,但在皮損區的邊界處常會充斥著毛發,圖像分割的精確度影響較大[6]。
現如今,智能優化算法中的深度卷積神經網絡技術已廣泛應用于圖像處理,并且在醫學圖像分割領域取得了很大的進展。與其它智能算法方法相比,卷積神經網絡(CNN)可以從大量數據集中自動學習最有用的特征[7]。然而,現有的CNN大多面臨以下問題:首先,在卷積層設計時,特別是對于小目標而言,不同的空間位置使用相同的權值,這可能會導致缺乏空間感,從而降低了處理柔性形狀和位置結構的性能[8]。其次,CNN通常使用大量的特征通道,而這些通道可能是冗余的,許多網絡如U-Net使用具有不同語義信息的低級和高級特性的連接,分割任務時,突出相關通道而抑制不相關通道有利于分割任務[9]。第三,CNN通常提取多尺度特征來處理不同尺度的目標,但還是缺乏對特定圖像最適合的分割尺度意識,由于嵌套的非線性結構, CNN決策的局限性變大,限制了它們在臨床決策中的應用。
2021年,陳法法等人以U-net網絡為主干網絡,融合了雙注意力機制對銹蝕圖像進行分割,雖然在分割圖像時準確率達到95%,但由于缺少尺度注意力模塊,圖像的提取時間較長,敏感度較低[10]。基于傳統的卷積神經網絡在處理圖像時存在的局限性,我們提出了一種綜合注意模塊網絡CA-Net圖像分割算法,為了實現這些注意力模塊,考慮到空間位置、特征通道和尺度指標的相互配合,同時受U-Net網絡架構的啟迪,設計了雙通道多尺度空間注意力模塊、殘差網絡通道注意力模塊和自適應選擇特征的尺度注意力模塊,設計的編碼模塊以多尺度輸入殘差網絡為基礎層,利用綜合注意力模塊,分割提取自適應相關的空間區域、特征通道和尺度。本文提出的綜合注意模塊網絡CA-Net圖像分割算法,輸入的是皮膚腫瘤圖片,輸出的是一個二值化圖像,模型通過識別圖像的病灶區和皮膚健康區來檢測皮膚腫瘤的病灶邊緣并提取病灶區的特征,然后與數據庫中的真實標簽圖進行比對,作出相關評估來驗證本文所提算法的性能。
卷積神經網絡從類型上來說屬于深度神經網絡,多層感知器的設計,實施較少的預處理后,可實現特征分析處理[11]。其網絡架構一般由輸入層、卷積層、池化層、全連接層及輸出層順序連接而成[12]。
卷積層的作用將上一層的輸出進行卷積處理后提取卷積特征,在卷積層中,輸入數據要進行卷積處理計算,通過卷積核的稀疏連接和權值共享形式,最終將卷積后的特征圖作為輸出[13]。卷積核與輸入數據中的感受野進行一次卷積操作得到輸入數據的局部特征,通過平移的方式與輸入數據中的多個感受野重復進行多次卷積得到多個局部特征,最終組合成全局特征作為一種輸出特征[14]。圖1為2D矩陣的卷積過程。

圖1 2D矩陣卷積過程
池化層的作用是對上一層的輸出進行降維和抽象處理,提取局部特征[15]。常見的池化方法有最大池化和平均池化,其池化過程如圖2所示。池化操作將卷積的特征激活轉換為維數更低的池化特征,進而對噪聲具有很好的魯棒性[16]。在相鄰區域里,由同一個卷積核生成合并特征,該特征有助于降低神經網絡中激活函數對像素和神經網絡架構的敏感性[17]。在參數設定上,池化也需要指定合并區域的大小和步長。

圖2 最大池化和平均池化過程
在神經網絡架構中,各層之間連接都需要激活函數進行非線性變化處理,從而提高了神經網絡的模擬學習能力。卷積神經網絡中最常用的激活函數為Sigmoid函數和線性修正單元ReLU函數[18]。
Sigmoid函數的定義:
(1)
ReLU函數的定義 :

(2)
Sigmoid函數值的變化范圍為[0,1],該函數的特點是在中間小范圍內有梯度增量,倘若網絡輸入的初始化權值處于映射值兩端,會出現梯度增量為0,此時卷積神經網絡在學習訓練時收斂速度變慢。而ReLU函數恰好彌補了Sigmoid函數的局限性,在x>0時,梯度增量為1,緩解了梯度消失的難題,且卷積神經網絡在訓練時收斂速度加快[19]。
本文提出的綜合注意力網絡模型CA-Net如圖3所示,U-Net主干網是由編碼器和解碼器組成的點到點可訓練的網絡[20]。該編碼器作為一個特征提取器,在多個尺度上連續獲取高維特征,解碼器利用這些編碼特征恢復分割圖像目標。在CA-Net網絡中有4個空間注意力模塊,分別為SA1—SA4;4個通道注意力模塊,分別為CA1—CA4;1個尺度注意力模塊LA。通過增加卷積塊,同時實現對特征圖的空間位置、通道和尺度的綜合注意力引導,空間注意力用于增強特征上感興趣的區域,同時濾除潛在的無關背景部分。提出的多尺度空間注意力模塊是一種低分辨率(如SA1)非局部模塊和其它分辨率(如SA2~SA4)雙路徑組合,我們也可稱它為空間關節注意模塊,該模塊可加強像素間的關系,目的能使該網絡更好地聚焦于分割目標。通道注意力模塊用于校準辨識度不同的圖像網絡連接,以便使相關通道采用更精確的加權修正系數。在解碼器中,以多尺度的方式將特征圖連接起來,尺度注意力模塊在最相關的尺度分割中突出目標特征。

圖3 綜合注意力模塊流程圖
在神經網絡中,聯合4個空間注意力模塊來學習4種不同分辨率的圖像。首先,對于低分辨率圖像(如SA1)的空間注意力,使用非局部模塊來捕捉整體圖像有較好認知的所有像素間的特征。SA1模塊結構如圖4所示。其中x代表大小為256×H×W輸入特征映射,256是輸入通道號,H、W分別表示高度和寬度。采用輸出通道號為64三個并行的卷積層對x進行降維,分別得到3個壓縮特征映射x′、x″和x?,且它們具有相同的大小64×H×W。這3個特征映射可以重構成大小為64×HW的2D矩陣。

圖4 空間注意力模塊結構SA1
空間注意力系數可通過式(3)定義:
α1=σ(x′T·x″)
(3)
其中:x′T表示x′的轉置矩陣,σ代表sigmoid激活函數,α1∈(0,1)HW×HW,α1將每個像素的特征表示為所有像素特征的加權和,以保證圖像像素間的相互作用。
修正后的降維特征圖可用式(4)來表示:
(4)

(5)
非局部模塊應用到高分辨率的特征映射從此在局限性,需將注意力閘門(AG)拓展到SA2~SA4的空間注意力模塊中自學習注意力系數[21]。由于單個AG會引發噪聲空間注意力映射,因此提出了一種雙路徑空間注意力,該空間注意力是利用兩個AG并行增強對興趣區域的注意,并降低注意力映射中的噪聲,從而可提高圖像分割的魯棒性。單路徑空間注意力SA如圖5所示,雙路徑空間注意力結構SA2—SA4如圖6所示。

圖5 單路徑空間注意力模塊結構SA

圖6 雙路徑注意力模塊結構SA2—SA4

(6)
其中:Θ代表通道級聯,ΦC通道號為C的1×1卷積,空間注意力模塊中s分別取2,3,4時,C分別為64,32,16。
利用通道級聯把來自編碼器中低級的圖像特征和解碼器中高級的圖像特征空間注意力結合起來。編碼器中的特征通道主要包含低級圖像特征信息,而解碼器的特征通道則包含更多的語義信息[22],為了更好地利用特征通道最有效的信息,通道注意力模塊能自動突顯相關的特征通道信息,同時抑制掉無關的特征通道信息[23]。通道注意力模塊結構如圖7所示。

圖7 通道注意力模塊結構
通常特征通道是利用平均池化來激發的,在通道注意力模塊中,采用最大池化來保持更多的信息。x代表通道號為C的級聯輸入特征映射,平均池化Pavg和最大池化Pmax兩者配合來獲取每個通道中的所有信息,其中Pavg(x)∈RC×1×1,Pmax(x)∈RC×1×1。多層感知(MLP)的介入主要用來獲取通道注意力系數β,β∈[0,1]C×1×1,MLP由兩個全連接層構成,處理后的結果送入sigmoid激活函數可得到β,通道注意力模塊輸出yCA可由式(7)定義:
yCA=x·β+x
(7)
在不同尺度下,U-Net主干網絡可以獲取特征映射。為了更好地處理不同尺度的目標圖像,需要將已預測的圖像特征結合起來。然而對于既定的目標圖像,各種尺度的特征映射可能與目標圖像的相關性差異較大,為了能自動確定每個像素的尺度權值,使網絡能自適應于給定的輸入圖像的尺度,提出了尺度注意力模塊,該模塊能自動學習每個圖像的尺度權重,以捕捉不同尺度下的圖像特征。尺度注意力模塊結構如圖8所示。

圖8 尺度注意力模塊結構

(8)
為了驗證本文提出綜合注意力模塊在進行卷積神經網絡深度學習后,能夠準確有效地分割病灶圖像,本文使用了ISIC2018數據集及醫院病理科提供的病理切片,該數據集包含2 594張圖像和它們的真值。所采用的實驗軟件平臺為PyTorch,硬件環境為NVIDIA Geforce GTX 1080 Ti GPU。我們將數據集隨機分為1 816、260和518分別進行訓練、驗證和測試。皮膚腫瘤圖像分割數據集的原始大小是從720×540到6 708×4 439范圍內,將每張圖像的大小調整為256×342,并通過均值和標準差進行歸一化。在訓練過程中為了讓圖像數據增強,把圖像隨機的按水平、垂直及在(-π/6,π/6)任意角度內旋轉,圖像裁剪大小為224×300。神經網絡采用自適應矩估計進行訓練,初始學習率為10-4,權值衰減為10-8,批量大小為16,迭代次數為300。學習速率每256次衰減0.5,特征通道號設為16,每次下采樣后增加一倍。
對皮膚鏡圖像進行分割提取,需生成二值掩碼,這樣才能對病灶區和正常區進行區分,評估本文算法性能的優越性需通過評價指標來決策。
常見的評價指標包括敏感性(Se)、相似系數(Dice)、平均對稱表面距離(Assd)、準確性(Acc)及并交比(Jac),使用骰子損失函數對每個網絡進行訓練,它們的定義如下:
(9)
(10)
(11)
(12)
(13)

骰子損失函數LDice的定義為:
(14)

3.3.1 不同因素下空間注意力的指標影響
我們首先在不使用通道注意力和尺度注意力模塊的情況下研究了空間注意力模塊的有效性,并從3種狀況下比較了多層空間注意力在皮膚病損圖像分割中的視覺特征,該視覺比較如圖9所示。1)在空間注意力模塊SA1-4中使用了標準單路徑AG,該狀況的視覺圖用s-AG來表示。2)在空間注意力模塊SA1-4中使用了雙路徑AG,該狀況的視覺圖用t-AG來表示。3)僅在空間注意力SA1中使用非局部模塊,該狀況的視覺圖用n-Local來表示。本文提出的在SA1中使用的非局部模塊和SA2-4雙路徑AG聯合空間注意力方法分割視覺圖用Js-A表示。對于U-Net網絡,跳過連接是通過編碼器和解碼器串接中的相應特性來實現的,不同方法之間的量化評估如表1所示。

圖9 不同空間注意結構在皮膚病損分割中的視覺比較

表1 不同空間注意力結構的皮膚病損圖像分割定量評價
從圖9(a)可以看出,單路徑AG幾乎關注每一個圖像像素,這意味著它的分散性較大。雖然雙路徑AG優于單途徑AG,但自適應程度不夠強。相比之下,本文提出的空間聯合注意力方法比上述方法更關注分割目標。圖9(b)給出的分割結果可以看出,在神經網絡中引入空間注意塊大大提高了分割精度,此外,本文提出的聯合空間注意力Js-A方法在兩個分割案例下都比其他空間注意方法得到了更好的結果。尤其在第二個病例中,病變形狀復雜,邊界模糊,提出的聯合空間注意力Js-A保持了較好的結果。
從表1可以看出,所有使用空間注意力圖像分割都比Baseline的分割精度更高。同時,我們觀察到雙通道空間注意力閘門AG比單通道的更有效,聯合空間注意力閘門AG優于其他空間注意力閘門,相似系數Dice從88.46%提高到90.83%。
3.3.2 不同因素下通道注意力的指標影響
在通道注意力方法比較中,僅引入了通道注意力模塊來驗證所提出方法的有效性。首先研究了通道注意力模塊在網絡中插入位置的影響:1)僅在編碼器中,2)僅在解碼器中,3)同時插入編碼器和解碼器中。這3種情況分別表示為C-A (Enc), C-A (Dec)和C-A (Enc& Dec)。與此同時還比較了在使用和不使用最大池化時對通道注意力模塊的影響,該影響視覺比較如圖10所示。不同方法之間的量化評估如表2所示。

圖10 不同通道注意力方法在皮膚病損分割中的視覺比較

表2 不同通道注意力的皮膚病損圖像分割定量評價
從圖10可以看出,當皮膚鏡圖像紋理復雜時,Baseline(U-Net)的圖像分割性能較差,而通道注意力模塊的介入提高了目標分割的準確性。顯然,本文提出的通道注意力模塊C-A (Dec)的圖像分割精度高于其它模塊。
從表2可以看出,通過在不同的因素下進行定量比較分析,通道注意力模塊的介入確實提高了分割性能,而且帶有最大池化信息的通道注意力模塊比只使用平均池化的通道注意力模塊性能更好。此外從評價數據發現,插入解碼器中的通道注意力模塊要比插入編碼器中或同時插入編碼器和解碼器中的性能更好,C-A (Dec)的Dice為91.68%。
3.3.3 不同因素下尺度注意力的指標影響
我們只引入了尺度注意力模塊來驗證所提出的尺度注意力方法的有效性。設L-A (1- K)表示來自不同尺度級聯特征映射的尺度注意力,為了研究特征映射尺度大小對分割的影響,我們分別取K=2、3、4、5進行比較。不同尺度注意度方法對皮損分割的量化評估如表3所示,不同尺度下的特征融合圖像分割中的視覺比較如圖11所示,皮膚鏡圖像上尺度注意力的視覺化如圖12所示。

圖11 不同尺度下的特征融合圖像分割中的視覺比較

圖12 皮膚鏡圖像上尺度注意力的視覺化
從圖12可以看出,暖色代表較高尺度注意力分割區域,其中每幅圖下面的數字表示尺度注意力系數γ。圖中有大病灶和小病灶之分,可以觀察到,在尺度2和3下,跟小病灶相比,大病灶具有較高的γ,而在尺度1下,跟大病灶相比,小病灶具有較高的γ,像素尺度注意力映射表明,在第1排圖中尺度2下和第2排圖中尺度1下尺度注意力最集中,這說明神經網絡在學習訓練時,自動傾向聚焦在相應的尺度上,對不同大小的病造進行分割。

表3 不同尺度注意度方法對皮膚病損分割的量化評估

圖13 不同算法的分割結果圖
從表3可以看出,在多尺度下融合特征優于Baseline(U-Net)。當我們將尺度從1到4圖像特征融合時,Dice和Assd分別得到了最佳值91.58%和0.66。然而,當我們將這5個尺度的圖像特征融合在一起時,分割的準確率會降低。這表明在低分辨率的特征映射下,不適合預測像素的細節特征。因此在后續的實驗中。我們只融合了尺度1到4的特征。
甘肅省人民醫院整形外科、皮膚科、提供了自2012年至2019年經皮膚鏡檢查后做了病理切片的皮膚腫瘤圖像,該圖像寬高比各不相同。由于原始圖像中存在噪聲,且在圖像中除了病灶區域外,還有大量的健康皮膚背景區域,因此輸入圖像在網絡訓練前首先要預處理,即需進行圖像增強以便使病灶區和健康區有很大的辨識度,對于標簽圖,需要對圖像進行二值化;之后將訓練樣本送入模型訓練,得到優化分割模型,再將測試樣本送到已訓練好的模型中測試,獲取分割結果,為了更好地驗證本文提出的融合綜合注意力卷積神經網絡對病灶圖像的分割,分別對提供的不同病灶樣本進行了病灶區分割提取,并與U-Net算法和所提出的注意力模塊任意組合構成的算法機制進行比對,分割結果如圖13所示,涉及的病灶類型有黑色素瘤(A)、混合痣(B)、基底細胞癌(C)、角化棘皮瘤(D)、鱗狀細胞癌(E)、皮內痣(F)、腺樣囊性癌(G)及脂溢性角化(H)等。
為了研究不同注意力組合的效果,將本文提出的CA-Net與空間、通道和尺度3種基本注意力的任意6種組合狀態進行了比較。局部注意力方法與綜合注意力方法在皮膚損傷分割中的量化評估如表4所示,其中,SA表示多尺度聯合空間注意力,CA表示僅在解碼器架構中使用的通道注意力,LA表示尺度注意力。
與Baseline(U-net)相比,SA、CA和LA圖像分割性能方面有了很大改善。與單一的注意力方法相比,兩種注意力方法任意組合在一起效果更好。為了評估本文提出的綜合注意力CA-Net在皮膚腫瘤圖像分割的有效性和精確性,在不同注意力組合下計算了其相似性Dice、Assd、敏感性Se以及準確性Acc的值,從表4可以看出,在綜合注意力下,評估值都優于其他方法,其對應值分別為92.08%、0.58、93.77%及92.89%。

表4 局部注意力方法與綜合注意力方法在皮膚病損分割中的量化評估
從分割結果可以看出,由于原始病灶圖像的多樣性和圖像本身辨識度的不同,利用不同算法在圖像分割時病灶區提取的信息濃度差異較大。縱觀這8類樣本,采用U-Net時,較易分割提取到攜帶與病灶無關的信息成分,部分圖像辨識度低時,對分割效果影響尤為不利。另外分別讓SA、CA、LA注意力模塊介入到卷積神經網絡時,分割模型在一定程度上削弱了網絡退化,提取到樣本病灶邊界更加圓滑,從而大幅度減少了圖像信息損失,但由于空間、通道、尺度注意力模塊的單一化,在圖像語義信息捕捉上適應性較差。基于此因,構建了對SA、CA、LA任意兩個注意力模塊隨機組合混搭,我們發現,SA+CA注意力模塊組合在病灶圖像分割區的信息濃度更為豐富,在一定范圍內提高了不同維度圖像的特征適應性,但由于權重在深度學習時分配的差異性,對感興趣的目標分割區敏感性偏低,分割的準確性不夠。而采用了本文提出的綜合注意力模塊算法后,綜合注意力機制更加關注目標域的信息捕捉,既有效的增強了模型分割的效果,又有效避免了特征向量上冗余的信息,平均分割的精確度可達92.89%,從而為皮膚腫瘤智能化初步診斷提供可靠依據,在不同的醫學圖像分割任務中得以推廣。
通過融合空間注意力模塊、通道注意力模塊及尺度注意力模塊的綜合注意力方法來改進傳統的卷積神經網絡,從而對醫學圖像進行分割,由于病灶等分割目標的空間位置、形狀和尺度變化較大,利用該方法使神經網絡在深度學習目標的空間位置和大小時,對病灶圖像目標位置能實現精確分割,最大限度的關注相關通道和尺度是提高分割性能的有效途徑。得出了如下結論:
1)使用本文提出的綜合注意力方法改進優化傳統的卷積神經網絡,可使用較少的參數獲得更準確的病灶分割。
2)在預測分割目標時,CA-Net就如何預測每個空間位置、特征映射通道和尺度方面能很好地把控。更重要的是,我們在單向傳遞中獲得這些注意系數時不需要額外的計算,從而很大程度地縮減了深度學習的時間。
3)由于編碼器充當特征提取器,因此在CA-Net網絡模塊設計中,大多數注意力模塊都在解碼器中,若在編碼器中加入注意力模塊,可能會導致一些潛在的圖像被抑制過濾掉,在解碼器中設計注意力模塊能突出病灶目標圖像特征的相關性。
4)提出的綜合注意力卷積神經網絡(CA-Net)能夠自適應地關注空間位置、特征通道和目標尺度。在現有的空間注意力和通道注意力方法的啟發下,對網絡進行了進一步的改進,提高了網絡深度學習能力,更專注于感興趣的目標區域,提高分割精度。在下一階段的任務中,準備嘗試將CA-Net應用于其他醫學成像模式乃至3D醫學圖像的分割。