蔣新輝,李筱林*,韋春苗,覃鎮(zhèn)鋒
(1. 柳州鐵道職業(yè)技術學院 通信與物聯(lián)網(wǎng)學院,廣西 柳州 545616;2. 廣西生態(tài)工程職業(yè)技術學院 汽車與信息工程學院,廣西 柳州 545004)
黑色素瘤是一種常見的皮膚癌,惡性黑色素瘤在皮膚癌中的的致死率占比75%,嚴重威脅著人類的健康[1-3]。黑色素瘤的早期癥狀不明顯,外觀上與良性痣相似度極高,若能在病發(fā)早期及時確診并接受相關手術治療,患者的治愈率極高[4]。安全無創(chuàng)的皮膚鏡技術能獲取各類皮膚病的皮膚鏡圖像,已漸漸成為臨床中各種皮膚癌早期診斷的重要手段。在臨床診斷中,因病變區(qū)域本身具有一定的復雜性,如病灶的不良殘留(頭發(fā)、標尺標記和人造偽影)、對比度低、顏色不均和邊界模糊等因素的影響,皮膚科醫(yī)生對病灶進行診斷非常耗時耗力,且存在一定主觀性。得益于計算機視覺技術的發(fā)展,圖像處理技術在醫(yī)學影像分析中得到廣泛使用。
傳統(tǒng)的皮膚鏡圖像分割方法如閾值分割[5-7]、邊緣檢測[8]和區(qū)域生長等[9-10],主要依賴手工特征,不僅實現(xiàn)困難、效率低,且分割結果差強人意,近年來,基于卷積神經(jīng)網(wǎng)絡的一系列體系架構被提出并用于圖像分割,如最為典型的全卷積神經(jīng)網(wǎng)絡(Full Convolutional Neural Network,FCN)[11-12]和對稱的編解碼網(wǎng)絡U-Net[13]?;赨-Net的模型架構在各種醫(yī)學影像分割任務中取得優(yōu)異成績,包括Res-Ne[14]、U-Net++[15]和CE-Net[16]等。隨著學者的深入研究,卷積分割模型得到不斷地優(yōu)化和改善,如2017年,Bi等[17]采用多階段全卷積網(wǎng)絡(mFCN)中的并行融合方法實現(xiàn)了精確的皮損分割;2019年,Tang等[18]開發(fā)了基于深度監(jiān)督學習策略的多階段U-Net(MS-U-Net)以進一步提高分割性能。這些方法的卷積操作具有很好的平移不變性和局部相關性,提高了其分割任務的性能,但是因卷積受限于感受野通常很難捕獲全局上下文信息,而全局上下文信息對于皮膚病變的精確定位具有重要的意義。另一方面,在醫(yī)學影像語義分割中,像素之間的長程依賴關系對于準確定義邊界輪廓像素至關重要。與卷積神經(jīng)網(wǎng)絡(CNN)不同的是,在自然語言處理(Na-tural Language Processing, NLP)領域中,Vision Transformer(ViT)[19]結構被認為能夠捕獲特征的長程依賴關系,但ViT是一個用來完成分類任務的網(wǎng)絡,且需要大規(guī)模的訓練數(shù)據(jù)集才能具有較好的分類效果,最重要的是它無法解決語義分割任務中像素級的密集預測問題。2021年,一種新型的Transformer——Swin Transformer[20]橫空出世,相對于ViT,Swin Transformer不僅計算復雜度大大減小,且該層次化結構的網(wǎng)絡模型可利用滑窗操作進行自注意力的計算,它是一種通用的骨干網(wǎng)絡,可用于完成圖像分類、分割和目標檢測等任務。為了同時擁有CNN強大的局部細節(jié)捕獲能力以及Transformer的全局上下文建模的能力,許多學者將U-Net和Transformer兩種架構進行合并研究[21-24],結果表明這種新穎的架構獲得更精準的醫(yī)學影像分割。受此啟發(fā),本文針對現(xiàn)有皮膚鏡圖像分割方法存在的局限與不足,從病灶特征提取和上下文信息全局建模2個角度進行深入研究,提出了一種基于CNN和Transformer的多尺度皮膚病變分割網(wǎng)絡,主要步驟如下:
①利用ResNet34進行局部特征的提取,建立特征多級局部語義相關性;
②利用Swin Transformer模塊對上下文信息進行全局信息建模,捕獲特征的長程依賴關系;
③提出了多尺度聚合模塊來捕獲皮膚病變的多尺度信息,有效兼顧長短不一、形狀多變的病灶信息,避免了傳統(tǒng)卷積神經(jīng)網(wǎng)絡捕獲復雜病灶特征時信息丟失的問題;
④解碼塊逐步融合來自上下文和跳躍連接2條路徑的多級語義特征,考慮到跳躍連接路徑的特征中夾雜著較多噪聲,為了降低噪聲干擾,在解碼塊采用了高效通道注意力機制進行處理。
本文算法主要分為三部分,總體架構如圖1所示。第一部分為編碼模塊,采用ResNet34[25]對輸入圖像進行特征提取,在ImageNet數(shù)據(jù)集上經(jīng)過預訓練的ResNet34擁有豐富的自然圖像特征,可以為皮膚分割模型提供較好的初始權重,有助于模型更好地挖掘病灶特征,其殘差連接可很好地避免因深層卷積而出現(xiàn)的梯度消失或者梯度爆炸現(xiàn)象。ResNet34金字塔結構下采樣方式可以有效改善網(wǎng)絡的復雜度和收斂速度,同時可以捕獲局部相關性。第二部分是上下文模塊,針對CNN的皮膚鏡圖像分割在建立遠程依賴上的不足,在處理上下文特征中引入Swin Transformer模塊,利用Swin Transformer全局信息交互能力幫助特征提取器快速建立皮膚鏡圖像全局感受野,并采用多尺度聚合模塊捕獲多尺度上下文特征信息,增強網(wǎng)絡對特征的利用率。第三部分是解碼模塊,逐步聚合低級語義信息和高級語義信息,該解碼塊跳躍連接接口配備了一個輕量級的注意機制,以緩解皮膚鏡的紋理、對比度和顏色的變化差異帶來的噪聲干擾,通過降低背景噪聲和增強邊界細節(jié)來促進低水平和高水平特征的融合。

圖1 算法總體架構Fig.1 Overall algorithm architecture
由于卷積操作受限于感受野,從而導致卷積網(wǎng)絡很難建立像素之間的長程依賴關系?;诖?本文采用4個相同Swin Transformer模塊串聯(lián)成一個獨立的模塊對上下文進行全局建模,Swin Transformer使用了基于移位窗口的多頭自注意力機制來提取上下文特征,從而捕捉不同尺度像素之間的關系,建立像素之間的長程聯(lián)系,Swin Transformer的標準架構如圖2所示。

圖2 Swin Transformer 的標準架構Fig.2 Standard architecture for Swin Transformer
編碼塊的操作后得到的像素分辨率圖像首先被轉(zhuǎn)換成多個不重疊的小塊(patchs),每個塊(patch)被看作一個token,再經(jīng)過線性映射(Linear Embedding)將特征塊轉(zhuǎn)換成特征序列,這2個過程均由塊嵌入模塊(Patch Embed)實現(xiàn),隨后被饋傳送到Transformer的4個標準架構單元中進行特征提取,一個Swin Transformer 的標準基礎單元(Swin Transformer Block)包括基于窗口的多頭自注意(Window-Multi-head Self Attention,W-MSA)模塊和基于移位窗口的多頭自注意(SW-MSA)模塊。每個塊由層模LayerNorm(LN)層、多頭自注意模塊、殘差連接和2層MLP組成,MLP中間有ReLU非線性激活層。在多頭自注意力機制中,輸入特征被分成多個頭,每個頭都計算出一個不同的注意力權重矩陣。這些權重矩陣被加權平均以產(chǎn)生最終的輸出特征。這種方法可以更好地捕捉不同尺度之間的關系,并提高特征表達能力。在移位自注意力機制中,它通過引入移位操作來捕捉不同位置之間的關系。具體來說,它將輸入特征分成多個塊,并且每個塊都與其他塊進行交互。在這個過程中,每個塊都會向左和向右移動一個固定的距離,以便與相鄰的塊進行交互。這種移位操作可以幫助網(wǎng)絡更好地理解不同區(qū)域之間的關系,以此來建立像素之間的長程聯(lián)系。
假設一張圖片被分成多個尺寸為h×w的塊,塊的數(shù)量為M×M,則普通的多頭自注意力(Multi-head Self Attention,MSA)和W-MSA模塊的計算復雜度分別如式(1)和式(2)所示:
式中:Ω為計算復雜度,h、w和c分別為特征圖的高度、寬度和深度。從式中可看出,MSA對輸入圖像塊的大小與計算復雜度成平方關系,而W-MSA對于輸入的圖像塊具有線性的計算復雜度,可見Swin Transformer通過使用W-MSA可有效降低計算的復雜度,采用SW-MSA來提升感受野從而實現(xiàn)不同窗口間的信息交互,所以,一般來說Swin Transformer Block是成對出現(xiàn)的。連續(xù)的Swin Transformer Blocks的計算如式(3)~式(6)所示:

(7)
式中:Q,K,V∈RM2,d分別表示查詢、鍵和值矩陣,d表示Q/K維度,M2表示窗口內(nèi)塊的數(shù)量,B的值來自于偏置矩陣。
考慮到皮膚病變的長短不一、形狀多變等問題,上下文特征經(jīng)過Swin Transformer模塊建立全局信息之間的通信后的輸出序列特征重新映射成二維特征,將得到的二維特征輸入至MFAM進一步捕獲多尺度信息。
MFAM如圖3所示,其包含兩部分,前半部分用于提取上下文特征的多尺度信息,由3個不同大小的空洞卷積和一個帶有本地標識的映射分支組成,經(jīng)過3個膨脹系數(shù)分別為2、4、8的膨脹卷積,相對于普通卷積而言,膨脹卷積在保證網(wǎng)絡計算參數(shù)不變的情況下能有效地增大卷積核的感受野,有效克服了標準卷積空間信息丟失的問題,經(jīng)3個膨脹卷積處理得到不同的空間特征信息,后與原輸入映射分支輸出特征信息進行多尺度融合。

圖3 MFAMFig.3 MFAM
考慮到皮膚鏡圖像存在長條形的病灶,方形池化窗口不能很好地提取長條形目標特征,且會造成一定程度的計算浪費,從而帶入一些來自無關區(qū)域的噪聲。為進一步兼顧長條形的病灶特征的學習能力從而增強模型的魯棒性,將前半部分輸出的多尺度特征信息輸送到后半部分,后半部分主要采用垂直池化和水平池化來捕獲上下文特征信息,經(jīng)過水平和豎直池化操作后,特征圖的寬(W)和高(H)變成原來的1/4,為恢復原輸入特征尺寸,對經(jīng)過2個池化層的特征圖進行上采樣和卷積操作,得到40個通道的新特征圖與原始特征輸入在通道維度進行特征融合輸出得到(C+40)維度的特征。在多尺度模塊后面增加2個條形池化塊來建模特征之間的長距離依賴關系,可以有效增大特征的感受野,進一步提高網(wǎng)絡的魯棒性。
本文所提模型的解碼塊如圖4所示。先將跳躍連接低水平特征和逐步上采樣后的高水平特征依次進行融合以改善分割結果;由于低水平特征圖中有很多信息與高水平特征重復,而且低水平特征中很多無用信息(如背景信息、毛發(fā)和人工造影等信息)會影響分割結果,若直接融合不僅會復制過多的重復信息,還會給高水平的特征帶來噪聲從而影響分割結果。為解決以上問題,更好地利用跳躍連接路徑的特征信息,本文提出以下解碼塊,采用高效通道注意力機制[26]來調(diào)整跳躍連接路徑的關注度。首先將每條跳路徑進行全局平局池化獲取每個通道之間的全局特征信息,再通過使用1維卷積(其中卷積內(nèi)核設置為5)來實現(xiàn)局部跨通道交互來建立通道之間的特征關系,經(jīng)過Sigmoid對交互信息進行評估實現(xiàn)注意度權重的分配,增強對分割結果有用信息的權重,抑制對分割結果無用甚至有害的信息;然后將得到權重和跳躍路徑的輸入原始特征進行點積,從而獲得對分割結果有效的特征集;最后將跳躍連接特征和解碼階段特征進行融合以改善分割結果。

圖4 解碼塊Fig.4 Decoding block
損失函數(shù)在網(wǎng)絡模型中的作用是計算出模型分割結果與實際結果的誤差,并將計算得到的誤差通過反向傳播的方式反饋給前面的每一層網(wǎng)絡,進行參數(shù)更新,參數(shù)更新后模型進行重新訓練以縮小網(wǎng)絡訓練結果與真實標簽的差距,使得模型分割精度提高。醫(yī)學圖像分割是將圖像背景和病灶進行分離的二分類任務,所以本研究使用交叉熵損失函數(shù),其計算如下:
(8)
式中:p為模型預測的樣本中病灶的概率。
所有實驗都在Windows 10操作系統(tǒng)中進行,處理器CPU為Intel(R)i7-11700K,顯卡:GPU為NVIDIA GeForce RTX 3090 顯存容量24 GB,運行內(nèi)存32 GB。開發(fā)環(huán)境基于深度學習框架Pytorch 1.7,匯編語言為Python 3.7。本文所提模型的訓練參數(shù)如表1所示。

表1 實驗超參數(shù)設置Tab.1 Experimental hyper-parameter settings
實驗數(shù)據(jù)采用國際皮膚成像協(xié)會(The International Skin Imaging Collaboration, ISIC)2017年國際皮膚鏡圖像分割競賽中提供的ISIC 2017分割數(shù)據(jù)集[27],該數(shù)據(jù)集被來自世界各地權威的醫(yī)生進行標注,一共2 750張圖片,其中包含2 000張訓練集、150張驗證集和600張測試集,為了增加數(shù)據(jù)的多樣性,對數(shù)據(jù)進行了翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪和縮放等增強操作,最終以224 pixel×224 pixel的分辨率進行訓練與測試。
為定量評估模型對皮膚鏡圖像的分割性能,本文采用Dice系數(shù)、靈敏度(Sensitivity, SEN)、準確率(Accuracy, ACC)和Jaccard相似系數(shù)(Jaccard Similarity Index, JSI)這幾個評估指標對分割結果進行評估,其定義分別如式(9)~式(12)所示:
(9)
(10)
(11)
(12)
式中:TP為真陽性,表示正確標記的病灶像素;TN為真陰性,表示正確標記的非病灶像素;FP為假陽性,表示非病變的像素被標記為病變;FN為假陰性,表示病變像素被標記為非病變。Dice系數(shù)是像素級的,其值越高表示模型分割的病灶區(qū)域與標簽的契合度越高 (Dice系數(shù)值在0~1;JSI與Dice系數(shù)類似,是衡量黑色素瘤分割精度的重要評價標準,是評判測量結果與真實標簽相似程度的指標,其值越高(越接近1),表明網(wǎng)絡分割性能越好。
在ISIC 2017數(shù)據(jù)集上,將本文提出的算法與在相同配置環(huán)境和相同數(shù)據(jù)增處理下的7種先進方法進行比較,包括 U-Net、Swin-Unet 、MBDCNN[28]、Ensemble-A[29]、DAGAN[30]、UCTransNet和FAGAN。其中MBDCNN、Ensemble-A、DAGAN、FAGAN(2022)等方法專門用于皮膚病變分割,其他方法則是最先進的醫(yī)學圖像分割網(wǎng)絡。對比結果如表2所示;表中粗體表示最優(yōu)值,*表示在相同實驗平臺中的測試結果。本文模型在Dice系數(shù)、SEN、ACC和JSI上的得分表現(xiàn)分別為89.55%、88.85%、96.21%和84.01%,相對于其他先進模型來說,Dice、ACC和JSI三個指標獲得了最優(yōu)值,說明本文所提模型相對于其他3種先進的黑色素瘤分割模型來說具有更高的分割精度,這表明本文所提算法在準確性上優(yōu)于其他算法。

表2 不同算法在ISIC 2017數(shù)據(jù)集上的測試結果對比Tab.2 Comparison of test results of different algorithms onISIC 2017 dataset
圖5為本模型與其他3種先進模型在ISIC2017測試集上的描述性統(tǒng)計,其中分別為各模型在ISIC2017測試集上前100個epoch的Dice系數(shù)箱型圖和用來衡量各算法速度FPS-FLOPs散點圖。從圖5(a)可以看出,與其他3種模型對比,本模型的Dice系數(shù)獲得最優(yōu)值,且其上下四分位數(shù)的差值小,異常值要明顯少于其他模型,表明本模型具有很好穩(wěn)健性;從圖5(b)可以看出,本模型的計算量FLOPs是最小的且模型推理速度FPS是最快的。綜上可得,本模型具有較高分割精度的同時保持了較好的穩(wěn)定性以及滿足速度響應要求。

(a)各模型在ISIC 2017測試集上的Dice系數(shù)箱型圖

(b)各模型在ISIC 2017驗證集上的FPS散點圖
圖6為本模型與U-Net、Swin-Unet和UCTransNet其他3種模型的分割結果對比圖,其中紅色部分表示預測欠分割,表明模型擬合目標的能力不足;綠色部分表示預測過分割,把背景預測為目標;黃色部分表示模型正確預測目標位置,其區(qū)域占比越大,表明模型與標簽的契合度越高,說明模型分割性能越好;黑色代表背景區(qū)域。從圖中可以看出,本模型相對于其他3種模型而言,黃色部分區(qū)域較大,紅色和綠色區(qū)域占比較小,相對而言本模型分割準確率更高、誤判概論較小,說明本模型具有較好的分割性能。

圖6 各模型的分割結果對比Fig.6 Comparison of segmentation results of each model
表3展示了在所提算法中逐漸加入各種改進手段對ISIC 2017數(shù)據(jù)測試集語義分割的影響,包括Swin transformer、MFAM和Decoding Block。由表3可知,在基線基礎上逐步融合改進手段,黑色素瘤分割精度逐步改善,Dice精度基線從82.36%上升到89.55%。初始分割模型的Dice系數(shù)為82.36%,在加入了Swin Transformer后,由于捕獲上下文特征的遠程依賴關系,網(wǎng)絡對特征的全局信息交互能力增強,Dice上升至85.24%,后又在此基礎上做出改進,加入MFAM對條形目標進行建模,獲取更多特征信息,使得網(wǎng)絡對背景和條形目標鑒別能力進一步增強,Dice上升至88.28%。在加入解碼塊后,跳躍連接路徑無用特征信息被抑制,跳躍連接路徑有用特征信息被增強,實現(xiàn)了跳躍路徑的通道特征自注意,使得最終的Dice系數(shù)上升至89.55%。綜上,本文的各項改進均能有效提高黑色素瘤的分割精度。

表3 本模型在ISIC 2017數(shù)據(jù)集上的消融實驗Tab.3 Ablation experiments of this model on ISIC2017 dataset
本文提出了一種新的基于CNN和Transformer的混合結構網(wǎng)絡用于皮膚鏡圖像分割,該方法兼顧了CNN結構建模的局部像素相關性和Transformer建模特征的長程依賴關系,二者的巧妙結合有效強化了特征信息的表達,從而提高了分割任務中的目標信息的獲取能力。通過在ISIC 2017數(shù)據(jù)集上進行測試,與現(xiàn)存較為典型的模型做實驗對比,并與許多主流模型做引文對比,證明本模型具有一定的優(yōu)勢,在可視化分割結果對比中,本文分割結果圖輪廓更加清晰、推理速度更快,在實際應用中具有一定的參考價值。