楊國亮,賴振東,喻丁玲
(江西理工大學電氣工程與自動化學院,江西 贛州 341000)

圖1 AT-UNet++網絡結構
惡性黑色素瘤患者死亡率高,晚期患者5年存活率僅15%,而早期患者治愈率卻高達95%[1],及時診斷對改善黑色素瘤患者預后十分重要。受皮膚表面毛發、顏色、血管及病變皮膚與無病變皮膚對比度低等因素影響,臨床準確診斷惡性黑色素瘤具有一定困難。計算機輔助診斷能有效提高對惡性黑色素瘤的診斷效率,其中準確檢測病變邊界尤為重要。現有自動分割算法可大致分為基于直方圖閾值處理[2-3]、基于無監督聚類[4]、基于邊緣和區域[5]、基于活動輪廓[6]和監督學習[7]方法。近年來,卷積神經網絡(convolutional neural networks, CNN)常用于圖像分割領域,以提高分割目標的精度。RONNEBERGER等[8]提出U-Net網絡,ZHOU等[9]提出UNet++網絡,但均無法完全克服邊界模糊、數據類別極度不平衡及ROI小等問題造成的分割困難。本研究提出一種優化的UNet++模型,引入軟注意力機制,并以Tversky Focal Loss(TFL)函數作為損失函數,旨在提高現有算法的分割精度。
1.1 數據 本研究選用由國際皮膚成像協作組織(International Skin Imaging Collaboration, ISIC)提供的2個開放皮膚鏡檢查數據庫,分別為ISIC挑戰2016和ISIC挑戰2017數據集;前者包含900幅訓練圖片和379幅測試圖片,尺寸566×679~2 848×4 228;后者包括2 000幅訓練圖片、150幅驗證圖片和600幅測試圖片,尺寸540×722~4 499×6 748。每幅圖像均包含人工標注。
隨機選擇角度,對ISIC挑戰2016與ISIC挑戰2017數據集訓練集圖片旋轉4次,進行數據增強,并將2個數據集中的所有圖像轉換為256×256,防止訓練過擬合及數據集圖像尺寸不等而影響模型的分割精度。
1.2 AT-UNet++網絡 AT-UNet++網絡由U-Net++網絡發展而來,是編碼-解碼網絡架構,由非對稱的編碼器和解碼器組成。編碼器利用下采樣提取圖像特征,產生低分辨率特征圖;解碼器運用上采樣將編碼器生成的低分辨率特征圖逐步還原為與輸入圖像等分辨率的圖像;通過編碼器不斷提取輸入圖像的特征信息形成特征圖,并向解碼器傳輸,解碼器將特征圖還原,實現圖像分割。AT-UNet++網絡共有15個卷積塊,編碼器由5個卷積塊和4個下采樣層構成,每個卷積塊包含以修正線性單元(rectified linear unit, ReLU)[10-11]為激活函數的卷積(convolution, CONV)層、批歸一化(batch normalization, BN)層及防止過擬合的Dropout層,卷積塊之間通過下采樣層連接;解碼器共包含10個卷積塊和10次上采樣,每個卷積塊中均包含CONV層和BN層,卷積塊之間由上采樣層連接。最終通過Sigmoid激活函數輸出圖像,見圖1。
1.3 軟注意力機制 在AT-UNet++網絡解碼器中使用軟注意力門,可識別來自更深層級的特征,對不同層級特征進行整合,見圖2。


圖2 軟注意力門結構示意圖
(1)
(2)
1.4 改進的損失函數 本研究基于Focal Loss函數[12]與Tversky Loss[13]函數提出TFL函數,其表達式:

(3)
其中,TP、FN、FP分別代表真陽性、假陰性與假陽性的像素個數;α、β、γ分別為假陽性系數、假陰性系數和聚焦系數,c為樣本類別。為使損失函數能改善模型收斂性,將TFL損失函數的α和β分別設置為0.3和0.7。在ISIC挑戰2016測試集上進行預實驗,以確定γ取值,結果顯示γ為0.75時分割精度最高。最終將α、β、γ設置為0.3、0.7及0.75。
2.1 運行環境 實驗在以Tensorflow為后端的Keras上進行,電腦配置為64位Windows 10操作系統,CPU主頻2.6 MHz,內存16 GB,顯卡為Nvidia GeForce GTX1080 8 G。AT-Unet++網絡訓練過程中,特征提取器選用densenet201網絡,采用Adam優化,學習率為10-4,批尺寸8,最大迭代次數設置為200。
2.2 評估指標 采用逐像素分割精度(pixel-wise accuracy, ACC)、DIC相似系數(DICE similarity coefficient, DIC)及Jaccard相似指數(Jaccard index, JAI)評估模型分割性能,定義如下:

(4)
(5)

(6)
其中,TP、TN、FN及FP分別代表真陽性、真陰性、假陰性及假陽性區域的像素個數。
2.3 實驗結果
2.3.1 與U-Net和UNet++網絡比較 在ISIC挑戰2016和2017的測試集分別對訓練好的U-Net網絡、UNet++網絡、以TFL函數為損失函數的UNet++網絡、引入軟注意力門的UNet++網絡及AT-UNet++網絡進行評估,結果顯示AT-UNet++網絡各項評估指標均高于其他4種算法,在ISIC挑戰2016測試集上的ACC、DIC和JAI較UNet++網絡分別提高了3.36%、4.15%和3.95%,在ISIC挑戰2017測試集上分別提升了2.65%、5.01%和4.39%;U-Net網絡的各項指標均低于其他4種算法(表1)。
相比U-Net、UNet++兩種網絡,AT-UNet++網絡在分割模糊邊界和小目標方面有所改善,能更好地展示圖像邊緣細節信息,更加貼合人工分割真實圖像(圖3)。
2.3.2 與其他算法模型比較 將AT-UNet++網絡與ISIC挑戰2016與2017競賽排名前5的參賽隊伍模型進行比較,AT-UNet++網絡模型的ACC、DIC和JAI均高于其他算法模型(表2)。
本研究以UNet++網絡為基礎,提出一種改進的UNet++網絡模型——AT-UNet++。相比U-Net網絡,UNet++網絡的優點如下:①通過短連接和長連接相結合的方式將更多圖像特征提供給解碼器,并能融合多尺度特征;②在各層級子網絡中引入深監督機制,監督每個分支的輸出,并在測試階段對網絡進行剪枝,可減少訓練時間。然而使用UNet++網絡分割皮膚病圖像仍存在2個問題:①UNet++網絡的級聯卷積和非線性激勵函數導滯輸出圖像丟失高維度特征與空間細節,造成對小型ROI樣本的分割精度較低;②皮膚病圖像數據類別不平衡,UNet++網絡以Dice Loss函數作為損失函數,易出現誤識別問題。

表1 5種網絡分割性能評估(%)

表2 AT-UNet++網絡與ISIC挑戰2016與2017競賽排名前5的參賽模型比較(%)

圖3 皮膚病圖像分割 A~D.分別為人工標注圖像、UNet、UNet++和AT-UNet++網絡分割圖像,大病變來自ISIC挑戰2016數據集,小病變來自ISIC挑戰2017數據集
為此,本研究引入軟注意力門[14],旨在從大量信息中有效篩選出少量信息并聚焦。聚焦過程與注意系數計算有關,像素的注意系數越大,越聚焦于其所對應的特征信息。通過賦予小目標較大權重系數,軟注意力門可提高模型在大背景小目標病變圖像中對于小目標的分割精度。本實驗中加入軟注意力門的UNet++網絡ACC、DIC和JAI均優于UNet++網絡,證實了上述觀點。
在醫學圖像處理領域,Dice Loss函數[10]經常作為損失函數,定義為:
其中,TP、TN、FN及FP分別代表真陽性、真陰性、假陰性和假陽性區域的像素個數。Dice Loss函數對FP和FN賦予相同權重,無法應對類別不平衡的數據。Tversky Loss函數[13]優化了Dice Loss函數,能靈活地平衡假陽性和假陰性,定義為:
其中,α、β為Tversky系數。Tversky Loss函數通過調整α和β平衡FP與FN而克服了Dice Loss函數對于正負樣本不平衡的局限性,但對小型ROI進行圖像分割時,無法響應顯著損失。LIN等[12]在傳統交叉熵損失函數的基礎上進行改進,提出了Focal Loss函數:
FL=-αt(1-Pt)γlog(Pt) (10)
Pt={P,y=11-P,otherwise(11)
其中,γ為聚焦系數,P表示模型對于類別y=1所得到的概率,(1-Pt)γ為調制系數。當一個難以分割的樣本被錯誤分割時,Pt值很小,(1-Pt)趨近1,損失不受影響;而對易分樣本,Pt趨近1,(1-Pt)γ趨近0,使其權值降低,網絡對難分樣本更加聚焦。本研究構建的TFL函數兼具Tversky Loss函數與Focal Loss函數的優點,可降低數據類別不均衡帶來的負面影響。
本研究提出的模型仍存在局限性,對大面積模糊邊界及嚴重毛發遮擋的病變圖像的分割效果欠佳,今后將重點相關研究。
綜上所述,AT-UNet++網絡可提升皮膚病圖像的分割效果。