吳菲
(東華大學信息科學與技術學院電子與通信工程專業,上海 201620)
人體存在很多器官,其中位于腹部體積最大的器官是肝臟。它負責過濾血細胞,處理和儲存營養素,并將其中一些營養素轉化為人體所需要的能量,與此同時它還可以分解和排除有毒物質[1-4]。據報道,2008年約有75萬人被診斷出患有肝癌,其中有69.6萬人死于該疾病。在全球范圍內,男性的感染率是女性的兩倍[5]。長期以來,惡性腫瘤一直困擾著人類,嚴重威脅著人類的生命健康。然而,若病人在患病初期就能夠發現惡性腫瘤存在于體內,那么便可以提高人類的生存率。
醫學圖像分割的研究一般有三種。其中手工分割很大程度上依賴于具有高級技術技能的專家來完成這一任務。通過肉眼觀察醫學圖像來區分人體的器官和組織是一個極大的挑戰。此外,專家的主觀判斷會嚴重影響人工分割的結果。這些因素導致人工分割在醫學圖像分割領域的實用性較差。與此同時,半自動切割仍需要人工干預,所以還是非常容易出現錯誤。因此,醫學圖像的全自動分割已成為該領域的首選,并得到了廣泛的研究。計算機斷層掃描(CT)圖像可以讓我們看到肝臟和病灶,同時也能夠幫助放射科醫生制定適當的診斷和治療計劃。但是,由于一些障礙,肝腫瘤的自動分割仍然很困難:①肝腫瘤與其周圍軟組織之間的對比度較低,分界不明顯,導致分割難度增大;②對于不同的病人,肝腫瘤的形狀、體積、數量和位置的差異比較明顯;③多種掃描方案導致CT圖像存在噪聲等因素的干擾。
傳統的醫學圖像分割算法有很多,如:閾值法、區域生長法、水平集等[6]。但是這些傳統方法依賴于手動分割的能力,因此不能很好地分割出我們感興趣的區域。隨著計算機運算能力的發展,基于機器學習的醫學圖像分割算法不斷被研究者們提出來,如支持向量機(SVM)、Adaboost、聚類算法等。雖然在某些情況下取得了成功,但由于醫學圖像的特征提取比普通RGB圖像更難,因此醫學圖像分割的精度無法得到很好的保證。由于深度學習技術的快速發展,醫學圖像分割將不再需要手工去完成[7],卷積神經網絡(CNN)成功實現了圖像的層次特征的提取,由于CNN對圖像噪聲、模糊、對比度等不敏感,所以對醫學圖像提供了很好的分割結果。接著以FCN和U-Net[8]為代表的大量卷積神經網絡逐漸應用于醫學圖像分割領域。如P.F.Christ等人[9]使用級聯FCN從CT和磁共振成像(MRI)圖像中依次分割肝臟和肝臟腫瘤。為了減少肝腫瘤的假陽性,Bell?ver等[10]設計了一種腫瘤檢測網絡,結合級聯FCN從CT圖像中分割肝腫瘤。接著,Ronneberger等[8]在FCN的基礎上提出了一個U-Net框架來解決上述問題,通過添加四個跳躍連接來融合特征圖,再通過反卷積層將特征圖上采樣到原始尺寸。Li等[11]將U-Net和Dense-Net[12]結合,通過混合特征融合層提出了用于肝臟和腫瘤分割的密集UNet算法來探索圖像內和圖像間的特征,這種組合方法不僅降低了計算成本,而且提取了更多的特征信息。Jin等[13]進一步介紹了一種注意力機制來提取CT圖像中的注意感知特征。Ginneken等[14]采用編碼器以及解碼器網絡來提高肝臟腫瘤輪廓的精度,然后利用基于形狀的后處理操作來細化肝臟腫瘤邊緣。Roth等[15]提出了一個兩階段的3D FCN,從粗到細尤其重點關注腹部器官和血管的信息,在肝臟及腫瘤分割方面取得了良好的效果。
V-Net網絡[16]是基于3D卷積的一種醫學圖像分割模型,它采用端到端的訓練方式,能夠較好地緩解圖像中前后背景不均衡的情況。在V-Net網絡的左邊是編碼部分,是用來提取輸入圖像特征的收縮路徑,在其對稱的右邊是解碼部分,用來擴展較低分辨率特征圖的擴張路徑。網絡的編碼部分隨著數據沿著壓縮路徑經過不同的階段,其分辨率會降低,此外V-Net網絡還在每一層都加入了殘差機制,它是將上一階段通過下采樣之后輸出的特征圖與該階段經過卷積后的特征圖進行相加來緩解梯度消失的問題。網絡的解碼部分與編碼部分相反,隨著數據沿著擴張路徑經過不同的階段進行上采樣,特征圖的分辨率會不斷翻倍,而通道數不斷減半。由于在左側的編碼部分,隨著神經網絡層數的加深,圖像在提取特征過程中可能會丟失一些信息,而通過跳躍連接可以避免這類情況的發生,同時提高了最終輸出圖像的分割精度與模型的收斂速度。
V-Net網絡是基于3D卷積的一種醫學圖像分割模型,然而最初的原始網絡結構還存在一些弊端,對圖像的分割精度仍達不到臨床的要求:①由于肝腫瘤的CT圖像中除了我們感興趣的腫瘤區域以外,還有一些軟組織等背景即我們不需要的無用區域,而原始V-Net網絡不能很好的識別腫瘤信息;②由于存在特別小的肝腫瘤即在整個CT圖像中占比較小,此時V-Net模型可能會存在漏檢問題。針對上面提出的一些不足的地方,在V-Net網絡模型的基礎上,對肝腫瘤分割提出了以下的改進:①引入注意力機制模塊,讓模型更好的關注我們感興趣的腫瘤區域;②對模型自帶的損失函數進行改進,可以防止出現漏檢的情況。
我們選取LiTS[17]數據集作為本次實驗的數據集來進行訓練以及測試。該數據集包含201例肝細胞癌(HCC)患者的CT掃描圖像,它是由7家不同的醫院和研究機構合作建立而成的,并由3名放射科醫生獨立地對每一份CT圖像進行手工審查,包括肝臟和腫瘤位置的真實標注。LiTS數據集有兩部分,其中訓練集有131份CT圖像,這些圖像都提供了肝臟以及肝臟腫瘤的標注結果,而且以三維.nii格式的文件存在,另一個測試集包含70份CT圖像,這部分圖像沒有提供標注結果,它是用于測試并將結果自行上傳至網站。
在數據預處理之前,我們先將數據集中的數據由nii格式轉化為npy格式可以方便后續的模型訓練。接著由于CT圖像中存在很多我們不需要的信息,因此我們將設置合適的窗寬HU值來剔除無關區域。另外,我們選取的數據集是來自7家不同的醫院和研究機構,經不同的醫療設備掃描得到的CT圖像的厚度是不一致的,因此我們需要統一CT圖像的像素間隔。由于本次實驗的輸入CT圖像不是常見的二維切片而是三維圖像,使用三維圖像可以更多關注到圖像的空間特征信息從而提高圖像分割的精度,但是三維圖像相比二維切片來說需要更好性能的GPU和顯存,而且處理起來也更加麻煩,輸入的參數量非常大,這樣模型訓練的時間就會過長,因此我們將原始的三維圖像處理成若干個三維patch,接著將它們作為V-Net模型的輸入數據。最后我們決定將圖像的輸入尺寸由原始的512設置為64,即每個三維小塊的尺寸為64×64×16。由于輸入V-Net模型中的數據除了這些三維小塊還有對應的掩膜標簽圖像,因此對于這些掩膜圖像,我們也處理成同樣的64×64×16尺寸的大小。最后得到的圖像如下圖1所示,左邊為處理后的肝腫瘤圖像,一共是16張大小為64×64的切片,右邊為對應的掩膜圖像,也是16張大小為64×64的切片,可以看到白色區域即對應的腫瘤區域。

圖1 三維patch切片圖像以及對應的腫瘤切片圖像
注意力機制是借鑒了人類對信息進行高效篩選的一種方法,人類大腦在識別信息時,視網膜對各個信息的接收能力是不一樣的,其中中央凹陷部分的處理能力最強,其他部位的處理能力依次減弱。人類認知系統會選擇將注意力重點集中于全局信息的特定目標區域,同時不去關注其他無用的信息。人類在接收各種外界信息時可以通過這種方式來提高信息提取的準確率和有效性。圖像處理中的注意力機制就是借鑒了人類接受信息的方式,通過從大量信息中只關注感興趣的區域來提高網絡模型的性能。為了提高編譯碼體系的性能,我們采用注意門(attention gate,AG)集成到基準V-Net網絡結構中,AG注意門模塊能夠自適應地調整和學習醫學圖像中不同結構的目標特征圖。將AG注意門模塊應用于V-Net后得到的網絡結構如圖2所示,我們將其命名為AGV-Net網絡。

圖2 改進后的網絡結構
該網絡結構大體上與V-Net相同,輸入圖像的尺寸為64×64×16,網絡編碼與解碼部分的每一階段使用的卷積核大小都為5×5×5,且步長為1,上采樣與下采樣的卷積核大小為2×2×2,步長為2。解碼部分的最后一層經過1×1×1大小的卷積核得到兩個體積大小不變,通道數為2的輸出圖像,再經過softmax函數最終得到一個體積大小與輸入圖像相同的輸出圖像,即64×64×16,且通道數為1。其中每個卷積神經網絡都包括卷積層、ReLU激活函數以及Dropout層。通過添加Dropout層來防止模型在訓練過程中過擬合的情況,從而提高模型的性能。在網絡的編碼階段,每一層通過殘差結構輸出的特征圖都有兩個分支,一個分支用于下采樣作為下一層的輸入,另一個分支作為AG注意門模塊的輸入。注意門具有兩個輸入,其中一個是解碼過程中經過上采樣得到的特征圖,另一個是對應的壓縮路徑過程中輸出的特征圖。用上采樣特征圖作為門控信號來增強編碼階段特征圖的學習。總之,這個門控信號可以從已編碼的特征中選擇更有用的特征發送給解碼器。通過注意門模塊最后得到一個權重系數,通過這個權重系數我們可以分配更多的權重給CT圖像中感興趣的腫瘤區域,而分配較少的權重給無關緊要的區域。因此使用AG模塊的網絡模型可以重點去關注與分割任務有關的區域,同時會一定程度的抑制網絡去學習與分割任務無關的區域。
在圖像分割任務中,損失函數一般用來估算模型訓練之后得到的預測值與實際值之間的差距,差距越小,也就是損失函數越小,模型的性能也就越好,同時損失函數也可以給我們提供模型的優化方向。提出V-Net網絡的研究學者采用Dice損失函數來評估模型的分割精度,Dice損失函數公式如下:

式(1)中,i為圖像中第i個像素,n為圖像中所有像素的個數,pi為預測圖像中的第i個像素值,gi為人工標注圖像中的第i個像素值,即真實值。P為預測的圖像結果,G為人工標注的金標準圖像結果。由于分母直接將P和G的大小相加,導致重復計算了P和G之間的共同元素,因此在Dice系數的分子中存在系數2。
盡管Dice損失函數被廣泛應用于圖像分割任務中,但是我們可以得知Dice損失函數是對圖像中整體像素點來看待的,也就是說它關注的是全局信息,而我們希望模型可以更加關注那些特別小的病灶區域,另外使用Dice損失函數容易使模型訓練變得不穩定。因此我們引入了另外一個損失函數,該損失函數為交叉熵損失函數。
交叉熵(cross entropy)損失函數單獨對每個像素進行評估預測,然后對所有像素求平均值。可以表示為如下公式:

式(2)中,i為圖像中第i個像素,n為圖像中所有像素的個數,pi為預測圖像中的第i個像素值,gi為人工標注圖像中的第i個像素值,即真實值。由于交叉熵損失函數是獨立地考慮每一個像素點的,因此可以說它關注的是局部信息,同時它能夠使模型訓練相對穩定。而Dice損失函數關注的是全局信息,且非常適用于前后背景不均的情況,因此我們提出了一種新的損失函數,即將模型自帶的Dice損失函數以一定的比例與交叉熵損失函數進行組合,這樣可以使模型更加收斂,同時也可以讓模型的性能得到更好的提升。具體的函數表達式如下:

其中,LDice為Dice損失函數,公式可見(2)、LCE為交叉熵損失函數,公式可見(3),α、β為Dice損失函數和交叉熵損失函數之間的均衡系數,可以將它們控制在同一數量級上,且α+β=1。在本次圖像分割任務中,我們將α設置為0.5,那么β也為0.5。
在本次實驗中我們選擇LiTS數據集來進行訓練以及測試,我們隨機選取其中部分CT圖像,然后將它們進行數據預處理最后得到訓練集有38110個三維小塊,測試集有6170個三維小塊。
深度學習在圖像語義分割上已經取得了很大的進展,產生了很多專注于圖像語義分割的模型與基準數據集,這些基準數據集提供了一套統一的批判模型的標準,多數時候我們評價一個模型的性能會從執行時間、內存使用率、算法精度等方面進行考慮。對語義分割模型來說,Dice相似系數是醫學圖像中的常見指標,常用于評價圖像分割算法的好壞。另外,我們還采用精確率(Precision)以及召回率(Recall)來對肝腫瘤的分割質量進行評測。

在上式中,Dice相似系數是圖像分割中比較常見也非常重要的評價指標,用來衡量圖像預測的結果與金標準的相似度,范圍一般為[0,1],當Dice值為0時,表示兩個樣本完全不相同,即沒有重合部分;當Dice值為1時,表示兩個集合完全重疊。Dice越接近于1表示分割效果越好。TP為測試樣本中被準確地預測為肝腫瘤的樣本數,TP+FP為模型分割出的腫瘤總數,TP+FN為專家標記的正確腫瘤總數。
精確率表示測試樣本中被準確地預測為肝腫瘤的樣本數除TP以測試樣本中模型分割出的腫瘤總數TP+FP。
召回率也稱為靈敏度(Sensitivity),它表示測試樣本中被準確地預測為肝腫瘤的樣本數TP除以專家標記的正確腫瘤總數TP+FN。
本次實驗的環境如表1所示。使用Tensor?flow1.12.0框架進行訓練,并用NVIDIA GeForce GTX 1080ti GPU加速。具體的其他環境配置如下。

表1 實驗環境配置
在網絡訓練之前需要合理設置實驗參數,這樣可以使得模型的性能更好。具體的實驗參數配置如表2所示。

表2 實驗參數配置

表3 改進的V-Net模型與其他肝腫瘤分割模型的評價指標表
在表3中,第一列為網絡模型,Dice為V-Net模型自帶的損失函數,CE為本文提出的引入的交叉熵損失函數,V-Net為基準網絡,AGV-Net為引入注意力機制后的網絡,AGV-Net+Dice表示改進后的網絡模型,且使用Dice損失函數,AGVNet+Dice+CE表示改進后的網絡模型,且使用的是組合損失函數。第二、三、四列分別代表的是分割模型的評價指標:Dice相似系數、精確率以及召回率。
實驗結果表明,與V-Net相比,采用注意力機制的網絡模型的各個分割指標均有所提升,這說明了AG注意門模塊可以很好的增強分割任務相關的目標區域的學習,同時抑制任務中其他不相關的區域。最后在引入注意力機制的同時還改進了損失函數的情況下,相比于只使用Dice損失函數,其Dice系數提高了0.31%,精確率提高了0.33%,召回率有所下降,說明改進后的模型可以較好地抑制假陽性腫瘤組織。
本文提出的改進的V-Net網絡模型,在基于V-Net網絡的基礎上加入注意力機制以及改進的組合損失函數對肝臟腫瘤進行分割,解決了原始V-Net網絡不能很好的識別腫瘤信息以及模型可能會出現誤檢、漏檢等問題,緩解了CT圖像前后背景不均的情況。通過采用LiTS數據集來進行本次的肝腫瘤分割實驗,得到最終的Dice相似系數、精確率以及召回率分別為0.6905、0.8156、0.6528,實驗結果表明該分割算法可以很好地分割肝臟腫瘤,精確度也得到了一定的提升。