徐婷宜 朱家明 李祥健



摘? 要:肝臟CT(計算機斷層掃描)圖像分割為臨床肝臟醫療分析提供了可靠依據。文中探索了完全卷積網絡(FCN)用于肝臟CT圖像中的檢測和分割。FCN已被證明是用于語義分段的非常強大的工具,它能接受任意大小的的輸入并通過有效地推理與學習產生相應大小的輸出。該文將分類網絡VGG調整為完全卷積網絡,并通過遷移學習將其轉移到分割任務,展示了由端到端,像素到像素訓練的卷積網絡語義分割。此架構能將來自深層粗糙層的語義信息與來自淺層精細層的外觀信息相結合,以生成準確而精細的分割。本架構肝臟分割IOU值達到0.9,取得較好的分割效果。
關鍵詞:全卷積網絡;語義分割;深度學習
Abstract: Computed Tomography (CT) image segmentation provides a reliable basis for clinical liver medical analysis. A Full Convolutional Network (FCN) is explored for detection and segmentation in liver CT images. FCN has been proven to be a very powerful tool for semantic segmentation. It can accept inputs of any size and generate corresponding output through effective reasoning and learning. This paper adjusts the classification network of Visual Geometry Group (VGG) to a fully convolutional network and transfers it to the segmentation task through transfer learning. It shows an end-to-end, pixel-to-pixel trained convolutional network semantic segmentation. This architecture can combine semantic information from deep rough layers with appearance information from shallow fine layers to generate accurate and fine segmentation. In this architecture, the liver segmentation Intersection-over-Union (IOU) value reaches 0.9, and a good segmentation effect is achieved.
Keywords: full convolutional network; semantic segmentation; deep learning
1? ?引言(Introduction)
計算機斷層掃描(CT)是觀察骨關節及軟組織的一種理想的方式,肝臟病變檢測常用CT圖像觀察[1]。肝臟手術需要有關肝臟大小、形狀和精確位置的信息。臨床診斷大多數依靠醫生耗費大量時間手動檢測和分割,這就突出了計算機分析的必要性。本文中所述圖像語義分割的意思是計算機把圖像中所有的像素點分配給其對應的標簽。采用VGG、Alex-Net等CNN網絡,以圖像中每個像素點為中心提取像素補丁,將補丁送入分類后對應的標簽中,每個補丁中心像素得到相對應的標簽,將所有像素點執行操作,即可得對應像素點的標簽[2]。全卷積網絡用卷積層取代全連接層,使得網絡能進行像素級分割的分類,從而解決語義分割問題[3]。FCN可以接受任意大小的輸入,并通過有效地推理與學習產生相應的輸出,使這個體系結構的損失函數在整個圖像分割結果上進行計算[4]。網絡處理的是整個圖像,因此可以通過圖像的分辨率更有效地進行縮放。相比于傳統的CNN圖像分割,FCN分割圖像還能減少不必要的重復存儲和計算卷積,使得訓練更加高效。
2? 肝臟分割算法構建(Construction of liver segmentation algorithm)
2.1? ?數據采集
IRCAD(Research Institute Against Digestive Cancer)匯集了消化道癌癥研究實驗室,計算機科學/機器人研究部門和微創科培訓中心。本文采用IRCAD的Liver segmentation-3D-ircadb-01數據庫,它由對75%的肝腫瘤的10位女性和10位男性進行3D CT掃描組成。數據庫提供了一系列有關圖像的信息,例如根據庫尼諾(Couninaud)分割的肝臟大小(寬度、深度、高度)或腫瘤的位置。這也表明與鄰近器官的接觸,肝臟的非典型形狀或密度,甚至圖像中的偽像等問題都會成為肝臟分割的主要困難。二十組肝臟3D圖像如圖1所示。
2.2? ?全卷積網絡的構建
全卷積網絡采用卷積神經網絡實現了從圖像像素到像素類別的變換。全卷積網絡通過轉置卷積(transposed convolution)層將中間層特征圖的高和寬變換回輸入圖像的尺寸,從而令預測結果與輸入圖像在空間維(高和寬)上一一對應:給定空間維上的位置,通道維的輸出即該位置對應像素的類別預測[5]。全卷積像素預測如圖2所示。
本文的前置基礎網絡為VGG16,通過丟棄最終的分類器層并將全連接層轉換為卷積層來構建全卷積網絡。架構中附加一個通道維數為2的1×1卷積來預測每個粗略輸出位置的肝臟評分,然后再附加一個反卷積層來將粗略輸出提升到像素密集輸出。上采樣在網絡中進行,通過像素級損失的反向傳播進行端到端的學習。本文初始網絡為FCN-8s的DAG網絡,它學會了將粗糙的、高層的信息與精細的、低層的信息結合起來[6]。我們還探討了添加另一個較低級別的鏈接層來創建FCN-4s DAG網絡的附加值。這是通過與圖3中的Pool3和Pool4層的鏈接相似的方式鏈接Pool2層來完成的。最初的網絡架構如圖3所示。
全卷積網絡工作流程:
(1)首先對輸入的原圖像實行卷積操作conv1和池化操作pool1,則原圖像縮小到原來的1/2;
(2)將步驟(1)的輸出結果作為輸入信息,對圖像進行第二次卷積操作conv2和池化操作pool2,則圖像進一步縮小到原圖的1/4;
(3)將步驟(2)的輸出結果作為輸入信息,對圖像進行第三次卷積操作conv3和池化操作pool3,則圖像進一步縮小到原圖的1/8,此外,保留pool3過程中產生的feature map;
(4)將步驟(3)的輸出結果作為輸入信息,對圖像進行第四次卷積操作conv4和池化操作pool4,則圖像進一步縮小到原圖的1/16,此外,保留pool4過程中產生的feature map;
(5)將步驟(4)的輸出結果作為輸入信息,對圖像進行第三次卷積操作conv5和池化操作pool5,則圖像進一步縮小到原圖的1/32;
(6)將步驟(5)的輸出結構作為輸入信息,利用conv6和conv7構建的全連接層進行進一步卷積操作,輸出圖像的大小依然是原圖的1/32,此時得到的feature map記為heat map;
(7)先將步驟(3)、步驟(4)中的feature map,以及步驟(6)中的heat map進行上采樣操作,得到的圖像記為X;
(8)利用conv4的卷積核對X進行反卷積操作來進一步補充圖像分割細節部分,得到的圖像記為Y;
(9)最后利用conv3中的卷積核對Y進行第二次的反卷積操作,得到圖像Z,圖像Z即為圖像語義分割的結果[7]。
2.3? ?數據增強
手動分割遮罩對于數據集來說只在2D之內,肝臟分割的數據集相對較小,因此數據增強是最適合的。當只有很少的訓練樣本可用時,數據增強對于教導網絡期望的不變性和魯棒性是必不可少的。數據增強的方式有多種選擇,例如,調整亮度、對比飽和色調等因素來降低模型對色彩的敏感度。本文通過將比例轉換應用于可用的訓練圖像來達到數據增強的目的。
3? ?實驗(Experiment)
本次訓練數據集中的圖像格式是DICOM格式,因此在將數據轉換為TFRecord格式以供以后在TensorFlow中進行訓練之前,我們必須先做一些預處理工作。在本項目范圍內,我們只劃分了肝、骨、腎等四類。因此,每個預處理的數據樣本將是圖像-形狀(512,512)的輸入圖像和遮罩二維數組具有與圖像相同的空間形狀,指示每個像素屬于哪個類。訓練中隨機抽取數據集對數據進行訓練,激活函數為relu函數,使用Adam優化方法和交叉熵損失函數對全卷積函數進行訓練。二維訓練樣本2258張,驗證樣本565張,在進入網絡前進行歸一化處理,減去圖像均值。在FCN預訓練模型的基礎上進行迭代,實驗平臺為Linux平臺下的TensorFlow框架。使用批量大小為32的完整訓練大概需要48小時,同時使用基本的數據增強。
3.1? ?Adam優化算法
Adam優化算法來源于適應性矩估計,同時具有AdaGrad(適應性梯度算法)和RMSprop(均方根傳播)的優點。Adam的主要參數有學習率α、一階矩估計的指數衰減率β1和二階矩估計的衰減率β2。α控制了權重的更新比率,在迭代優化的前期,學習率較大,則前進的步長較長,這時便能以較快的速度進行梯度下降;而在迭代的后期,逐步減小學習率的值,減小步長,這樣有助于算法的收斂,獲得最優解。β1用于計算導數的平均值,β2計算平方版指數加權平均數,ε是固定值用來防止分母為0,本文參數設置為α=0.0003,β1=0.9, β2=0.99,ε=10e-8。Adam參數具有很好的解釋性,通常無須調整或僅需很少的微調。
3.2? ?交叉熵損失
交叉熵損失的計算分為兩個部分:softmax分類器與交叉熵損失。
Softmax分類器將網絡最后的輸出y通過指數轉變為概率公式,如公式(1)所示。
用于計算類別i的網絡輸出類別,分母為輸出指數和。
交叉熵損失是用來評估當前訓練得到的概率分布與真實分布的差異情況。在深度學習中,p(x)表示真實分布,q(x)表示預測分布,在實際實驗中,交叉熵值越小,說明預測分布與真實分布越接近[8]。交叉熵公式如式(2)。
3.3? ?交并比
IOU(Intersection-Over-Union)即交并比,是進行目標檢測的一個重要算法,它具有非負性、不可同一性、對稱性和滿足三角不等式等優點。
IOU表示了產生的候選框(candidate bound)與原標記框(ground truth bound)的交疊率或者說重疊度。它衡量了兩個邊界框重疊的相對大小,一般約定0.5是閾值,IOU越高,邊界框越精確。IOU的公式如式(3)。
4? ?實驗結果分析(Analysis of results)
訓練過程的可視化包括訓練集和驗證集的acc和loss曲線,根據曲線的不同特點進行超參數調節,可以不斷優化網絡。用tensorboard觀察訓練(train)和驗證(val)的損失(loss)在訓練時的變化如圖所示。Train/loss不斷下降,val/loss不斷下降,說明網絡訓練正常,val/iou_loss不斷上升,說明分割的精度不斷提高。本文分割的IOU值為0.9。
肝臟CT圖,手動真實分割圖,本文分割圖如圖5所示。
5? ?結論(Conclusion)
本文通過全卷積網絡來對特定目標進行語義分割,結果表明具有數據增強的FCN,以及適當的權重,給實驗提供了較好的結果。FCN分割的缺陷在于分割結果不夠精細,對圖像中的細節不敏感。同時在對像素分類時忽略了在通常的基于像素分類分割方法中使用的空間規整步驟,沒有充分考慮像素與像素間的關系。在未來的實驗中,可嘗試添加相鄰切片來提高分割性能。
參考文獻(References)
[1] Hssayeni MD, S.M, Croock MS, et al. Intracranial Hemorrhage Segmentation Using Deep Convolutional Model[J]. Benchmarking Datasets in Bioinformatics, 2020, 5(1): 14.
[2] Russel Mesbah, Brendan McCane, Steven Mills, et al.Improving Spatial Context in CNNs for Semantic Medical Image Segmentation[C]. 2017 4th IAPR Asian Conference on Pattern Recognition (ACPR), 2017.
[3] Bo Zhao, Jiashi Feng, Xiao Wu, et al. A Survey on Deep Learning-based Fine-grained Object Classification and Semantic Segmentation[J]. International Journal of Automation and Computing,? 2017, 14(2): 119-135.
[4] 章琳,袁非牛,張文睿,等.全卷積神經網絡研究綜述[J].計算機工程與應用,2020,56(01):25-37.
[5] Ben-Cohen A, Diamant I, Klang E, et al. Fully Convolutional Network for Liver Segmentation and Lesions Detection[C]. International Workshop on Deep Learning in Medical Image Analysis, 2016.
[6] Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4): 640-651.
[7] 李智能,劉任任,梁光明.基于卷積神經網絡的醫學宮頸細胞圖像的語義分割[J].計算機應用與軟件,2019,36(11):152-156.
[8] 趙梓淇,裴昀,常振東,等.基于深度學習的CT影像肺結節檢測[J].吉林大學學報(信息科學版),2019,37(05):572-581.
作者簡介:
徐婷宜(1996-),女,碩士生.研究領域:醫學圖像處理.本文通訊作者.
朱家明(1972-),男,博士,副教授.研究領域:智能與自適應控制,圖像處理.
李祥健(1992-),男,碩士生.研究領域:數字圖像處理.