宋穎超 梅禮曄 張俊華 王嘉慶 蔣 毅
1(云南大學信息學院 云南 昆明 650504)2(武漢大學工業科學研究院 湖北 武漢 430072)
淋巴結是人體內產生免疫應答的重要器官,淋巴結異常通常表明其屬區范圍內發生了病變,因此重要的是根據淋巴結的分布來診斷相關疾病的淋巴結,特別是對于某些傳染病的診斷[1]。對淋巴結檢查的各種方法中,超聲成像技術具有準確性、實時性、無輻射性及廉價性等優點,是淋巴結檢查的首選影像方式。淋巴結超聲圖像的分割是后續量化的基礎,但因為淋巴結超聲圖像中存在著不可避免的噪聲,常規的方法難以準確地分割,后續量化就難以得到正確的結果,所以要采用一定的方法對淋巴結超聲圖像進行分割。
目前,有很多關于淋巴結圖像分割的研究方法。朱長明等[2]采用譜聚類集成的超聲圖像分割算法對淋巴結超聲圖像進行分割。劉露等[3]采用交互式分割從CT圖像中提取出腫大淋巴結。張艷玲等[4]采用最大類間方差與形態學對盆腔淋巴結CT圖像進行了分割。Zhang等[5]提出一種改進的模糊聚類算法對淋巴結圖像進行分割。魏駿等[6]采用遍歷閾值算法對頸部淋巴結進行半自動分割。Kuo等[7]提出了一種利用圖像嵌套結構的新方法,即嵌套圖切法對淋巴結超聲圖像進行分割。傳統方法在分割時會產生較多的偽邊緣。
近年來,隨著深度學習的發展,越來越多的人開始將深度學習應用到圖像分割中。卷積神經網絡[8](Convolutional neural network,CNN)是圖像分類及分割中最常用的一種方法,有較好的特征提取能力,但是其訓練及預測時速度慢、耗時久,存在著大量冗余計算,像素塊的大小限制了感知區域的大小。Girshick等[9]提出了R-CNN應用了候選框區域并使用支持向量機來進行分類及自然圖像的分割,但R-CNN需要預先提取,會占用較大的空間,導致輸入信息丟失,會帶來巨大的計算浪費。為了提高精度,Shelhamer等[10]對其進行了改進,提出了基于全卷積神經網絡(Fully Con-volutional Networks,FCN)的圖像分割算法。FCN用于圖像語義分割,將圖像級別的分類擴展到像素級別的分類。雖然FCN相較于CNN的分割精度提高,但由于FCN本身的特征,只能對圖像進行初級分割,難以精確分割。Ronneberger等[11]提出了U-Net網絡,U-Net網絡擁有對稱的網絡結構和條約連接,并且在醫學圖像的分割上優于FCN。但因為有時候有些醫學圖像過大,所以U-Net網絡需要將圖像分割成若干幅小塊,因此會造成邊緣分割不清晰的問題。而He等[12]將構建的Mask R-CNN網絡用于對自然圖像中的目標進行分割,該網絡表現出了較好的分割性能。
本文采用深度學習方法,利用遷移學習和Mask R-CNN網絡來分割超聲圖像中的頸部淋巴結,網絡訓練實現了有效的分割模型,并測試了該算法的可行性和有效性。
本文使用Mask R-CNN網絡對淋巴結檢測和分割。該網絡結構如圖1所示,基于Mask R-CNN的頸部淋巴結圖像分割網絡結構可分為三部分。

圖1 基于Mask R-CNN的頸部淋巴結圖像分割網絡結構
1) 主干網絡。主干網絡是一個標準的卷積神經網絡,作為特征提取器對輸入圖像進行特征提取。頸部淋巴結圖像分割網絡將殘差網絡(ResNet101)[13]與特征金字塔網絡(FPN)[14]結合在一起作為主干網絡。
2) 區域建議網絡(RPN)。用于生成感興趣區域(Region of Interest,ROI)推薦框。RPN是一個輕量的神經網絡,網絡中的特征圖來自FPN中金字塔特征層,通過就滑動窗口來掃描圖像,并尋找存在的目標區域。
3) 三分支。用于回歸檢測物體的類別、矩形框(Bounding-box,B-box)及mask。
特別地,Mask R-CNN是在Faster R-CNN[15]基礎上改進得到的一種深度學習網絡,Mask R-CNN在Faster R-CNN的基礎上增加了一個Mask預測分支,并且改良了感興趣區域池化層(Region of Interest pooling,ROI Pooling),提出了另外一種感興趣區域池化層(Region of Interest Align,ROI Align)。ROI Align引入了雙線性插值法,能更精確地找到每個塊對應的特征。
Mask R-CNN分割網絡的損失函數包括三部分,其公式為:
L=Lcls+Lbox+Lmask
(1)
式中:L為損失函數;Lcls為分類誤差;Lbox為檢測誤差;Lmask為分割誤差。
對于每一個ROI,mask分支有k個輸出。對于每一個像素,使用Sigmoid函數二值交叉熵,對每個像素進行邏輯回歸,得到平均的二值交叉熵。通過引入預測k個輸出機制,允許每類都生成獨立的mask,從而避免了類間競爭。
鑒于小樣本數據集的訓練效果不佳,本文引入了遷移學習思想,并使用在COCO數據集[16]上預先訓練的參數模型來初始化Mask R-CNN網絡。COCO數據集是由微軟公司構建的一個數據集,是大多數深度神經網絡進行圖像分割評價性能時常用的數據集。Mask R-CNN可以更快地學習特征,從而大大減少了訓練模型所需的時間。分割網絡Mask R-CNN結合標注好的頸部淋巴結數據集對整個網絡進行了微調,獲取了淋巴結的分割模型。
經過反復的調參,最后設定RPN的5個anchor尺度為32、64、128、256、512,positive IOU設定為0.7,沖量設定為0.9,學習率為0.002,權重衰減為10-4。
淋巴結圖像分割模型流程如圖2所示。

圖2 淋巴結圖像分割模型流程
將圖像輸入到ResNet101的網絡中,經過C2-C5的特征提取得到P2-P5的特征圖,P5通過步長為1的下采樣得到的P6,P6僅用于RPN,P2-P5不僅用于RPN,還要通過FPN特征層的選擇將特征經ROI Align后送入三分支,從而完成對淋巴結圖像的檢測與分割。
在訓練過程中,采用遷移學習的方法,并通過COCO預訓練得到的參數并對網絡進行初始化,然后進行微調至理想效果。具體過程如下:
1) 經label me的標注得到數據集共209幅圖像;
2) 將得到數據集輸入經COCO預訓練后得到的參數初始化網絡Mask R-CNN中進行訓練,訓練過程中選取80%的圖像作為訓練集,20%的圖像作為測試集;
3) 經Mask R-CNN網絡訓練后得到Mask R-CNN的訓練模型;
4) 使用驗證集圖像來測試Mask R-CNN的訓練模型,得到分割的淋巴結圖像;
5) 得到分割的淋巴結圖像后,利用Dice系數做模型評價指標,評判模型的分割結果;
6) 根據得到的結果來調整Mask R-CNN的訓練模型的參數;
7) 重復步驟3)-步驟6),直到測試集的結果達到0.9以上。
目前,尚無統一的淋巴結超聲圖像分割標準。本文選擇了像素級分割領域常用的Dice系數來評估分割效果。準確率表示正確判斷的像素數與像素總數之比,如式(2)所示。Dice系數是一種評估相似度的函數,用于計算兩個樣本的相似度或重疊度。對于每一幅測試圖片,A表示原有分割圖像的參考面積,B表示算法分割得到的圖像的真實的面積,A∩B代表以上兩幅圖像重疊的面積。
(2)
將隨機選擇的43個測試集輸入到淋巴結分割網絡中,并使用經過訓練的淋巴結分割網絡來測試測試集的準確性,其中給出了5幅分割圖像作為示例如圖3所示,其中(a)為原始圖像的醫生手工分割結果,(b)為U-Net網絡分割后二值化結果,(c)為本文方法分割后二值化結果。

(a) (b) (c)圖3 頸部淋巴結圖像分割
表1為分割結果的對比。分析表中數據可知,改進MaskR-CNN網絡應用于淋巴結圖像分割效果的Dice系數達到了91.24%,相較于U-Net網絡提升13.74%。

表1 分割結果
淋巴結的診斷和評估可以有效地幫助醫生診斷和治療癌癥,本文提出基于遷移學習和Mask R-CNN網絡的頸淋巴結圖像訓練分割網絡模型,模型在頸部淋巴結的分割上精確度達到0.912 4,證明了本文改進的Mask R-CNN網絡具有很好的分割性能,有望為醫生臨床診斷、治療提供輔助依據,提高工作效率。