王方鑫 何良華





關鍵詞:深度學習;弱監督;醫學圖像分割;注意力機制
1 概述
近年來,隨著醫學成像技術的不斷發展,人工智能被越來越多地應用到了醫療圖像分析領域,可以幫助醫生進行一些輔助醫療功能,從而更好地對患者進行手術治療。目前,基于全監督的圖像分割雖然取得了較好的分割結果,但是由于醫學圖像數據標注任務復雜,逐像素標記任務量大,因此還需要具備專業醫學領域的知識,全監督并不能非常好地發揮它的作用。為了克服這些困難,研究人員嘗試通過簡單易獲取的弱標簽,通過使用弱監督的方法進行醫學圖像的分割,取得了一定的分割效果。
2 相關工作
2.1 類激活圖
在弱監督中,CAM[1]是將圖像標簽轉換為像素級偽標簽的重要手段。它可以生成易于人類理解的熱力圖,用來定位圖像中和類別緊密相關的區域,在深度學習的可解釋性方向也有著較大的作用。2017年,Selvaraju等人提出了Grad-CAM[2],這個改進的模型結構解決了CAM存在的一個比較明顯缺點,就是為了計算最終全局平均池化(GAP) 中的權重,需要替換掉原始模型的全連接層,重新進行模型訓練。Grad-CAM 并不需要修改網絡結構,也不需要再次訓練。2017年,Chattopadhyay等人提出了Grad-CAM++[3],引入了輸出梯度對特定位置的像素級別加權,對每個像素在特征圖的重要性進行了衡量,并且這個方法相較于先前的Grad-CAM,有更好的效果。
2.2 注意力機制
注意力模塊可以集成到現有的卷積網絡中,可以提升CNN整體的性能。Ashish[4]等人第一次提出通過自注意力機制來獲取全局的依賴關系,并將其用于機器翻譯。Zhang[5]等人介紹了自注意力機制,用來更好地去學習得到一個圖像生成器。Wang[6]等人主要探索了注意力機制應用到圖像和視頻的有效性。Wang[7]提出了使用編碼器注意力模塊的殘差注意力網絡,通過優化特征圖,網絡性能得到了提升,對噪聲也具備了一定的魯棒性。2017年,Hu[8]等人提出了SELayer的注意力模塊,這個模型能夠通過融合每層的局部感受野的空間和通道的信息來構建信息特征,在略微增加計算成本的情況下,顯著提升CNN的性能。
3 基于種子線索的弱監督分割
3.1 弱監督分割框架
本文選取的是一種通用的弱監督圖像分割框架。分割框架主要包含兩個部分,一個是分類分支,一個是語義分割分支。分類分支主要用于生成像素級標注的標簽,原始的CAM生成的區域中,可信度較高的是標記區域,可信度較低的是未標記區域。這些標簽用于后續語義分割的計算。語義分割分支主要用來預測圖像的像素級標注,這里使用了一個聯合損失函數,綜合考慮了已經標注的標簽、像素位置等因素。弱監督分割框架的結構如圖1所示。
3.2 基于注意力機制的類激活圖生成框架
像素級的標注標簽的質量會直接影響網絡的分割精度。直接通過原始的類激活圖生成分支輸出的類激活圖僅僅關注了目標區域最為顯著的核心區域,這樣會導致通過該分支生成的弱監督圖像的偽標簽較為稀疏,從而直接影響弱監督的分割精度。
注意力機制可以通過權重大小來模擬人在處理信息的注意力的側重,從而提高性能和分割精度,本文在原始的類激活圖生成分支外引入注意力分支。基于注意力機制的類激活圖生成框架如圖2所示。
本文的SAM模塊利用主干網絡輸出的特征圖進行維度變化生成親密度矩陣,通過親密度矩陣向原始分支補充目標的信息,優化原始的特征激活映射圖,從而提高生成偽標簽的完整性。SAM模塊如圖3所示。
本文中的CBAM模塊主要包含通道注意力和空間注意力維度。通道注意力在通道維度不變,壓縮空間維度。該模塊關注輸入圖片中有意義的信息。空間注意力在空間維度不變,壓縮通道維度,該模塊關注的是目標的位置信息。CBAM模塊如圖4所示。
4 實驗結果分析
4.1 實驗數據集
本文選取的數據集來自醫學圖像頂級會議MICCAI 組織的“ISIC 皮膚病理圖像分割和分類比賽”。輸入數據分為良性和惡性皮膚癌病變圖像,病變區域是從多個醫學機構的皮膚癌患者的歷史樣本中,通過各種類型的皮膚鏡從所有的解剖部位提取得到的(不包括指甲和黏膜)。掩碼圖像編碼是單通道的8位PNG圖像,標注了病灶區域和良性區域,所有的數據都是由具有皮膚鏡專業知識的皮膚科醫生進行標注和核查的。本次實驗一共選取病變和良性圖像共2000張圖像。
4.2 實驗流程
本文選取SECNet 作為基準模型和筆者提出的基于注意力機制弱監督分割模型進行對比。實驗基于Python3.6 環境和Pytorch1.0 框架,使用兩塊NVIDIA GEFORCE 3090 GPU 進行訓練和測試。實驗的訓練圖像和測試圖像長寬尺寸都被固定為512,batch size 設置為32,訓練100 epoch,數據增強方便采用了隨機剪切、隨機翻轉,優化算法選取了隨機梯度下降(SGD) ,初始學習率設置為0.001,動量設置為0.9。
4.3 實驗結果
原始的類激活圖和引入注意力機制生成的類激活圖對比如圖5所示。可以看到,當引入注意力分支后,有效解決了先前類激活圖關注區域較為集中的問題,新模型生成的類激活圖關注區域更加完整,從而可以提高弱監督圖像整體的分割精度。
實驗結果如表1所示,從結果中可以得知,引入注意力機制的弱監督模型相較于先前弱監督模型在分割精度上有明顯提升,這表明注意力機制學習到了圖像中不同類的區別以及位置關系信息,從而生成的弱監督偽標簽相較于直接通過CAM生成的更加完整和精確,進而直接提高了弱監督分割的整體精度。和全監督模型Unet相比,改進后的模型分割精度有一定的差距,但是弱監督模型不需要大量真實精確標注訓練的數據集,僅需要提供圖像級的數據標簽就可以解決醫療領域像素級標注數據集不足的問題,這具有非常重要的研究意義。
5 總結
文章通過弱監督的手段實現了黑色素瘤圖像的分割。針對通過CAM生成弱監督偽標簽較為稀疏的問題,文章引入了注意力分支,從而使得生成的偽標簽更加完整,而且在ISIC數據集上進行了測試,分割精度得到了明顯提高。文章在不使用大量像素級標簽的情況下,對黑色素瘤圖像完成較為準確的分割,具有一定的應用價值。