王海翼,劉建霞,馮妍舟
(太原理工大學(xué)信息與計算機(jī)學(xué)院,山西晉中 030600)
食道癌是原發(fā)于食道黏膜上皮的惡性腫瘤。在我國,食道鱗狀細(xì)胞癌最常見[1],其次是食道腺癌。2020 年,我國食道癌的死亡人數(shù)超過20 萬例。Ⅳ期食道癌中位生存時間僅約18 個月[2]。山西、河北、河南三省交界的太行山地區(qū)是我國食道癌高發(fā)區(qū)[3]。
治療食道癌常選用手術(shù)、放射治療和化療等方法,其中手術(shù)切除和放療屬于局部治療,只對腫瘤部位有效[4]。手術(shù)綜合放射治療,可增加腫瘤切除率,提高遠(yuǎn)期生存率[5]。在臨床實(shí)踐中幫助醫(yī)生快速準(zhǔn)確地獲得食道癌腫瘤區(qū)域的分割結(jié)果,減少誤診,對患者的治療極其關(guān)鍵[6]。因此,迫切需要建立一個基于深度學(xué)習(xí)的計算機(jī)輔助診斷模型,用于食道腫瘤的檢測。
研究者們針對醫(yī)生在手動分割癌灶時易受臨床經(jīng)驗(yàn)與主觀因素支配,從而導(dǎo)致分割結(jié)果準(zhǔn)確性受到影響的問題,不斷嘗試半自動或自動分割方法。2018 年,UNet++的提出一定程度上解決了在整理、標(biāo)注和分析醫(yī)學(xué)影像上成本高昂的問題,可以在較少的醫(yī)學(xué)影像數(shù)據(jù)集上較好地訓(xùn)練出模型[7]。UNet++通過密集卷積塊跳躍連接使編碼和解碼器之間建立聯(lián)系,消除語義鴻溝,使網(wǎng)絡(luò)能更好地學(xué)到圖像的語義特征。但對于食道癌CT 影像,癌灶區(qū)域占比小,原始UNet++缺乏對局部特征的深度挖掘能力,存在特征使用效率低等問題。
為解決目前食道腫瘤分割任務(wù)中存在的問題,基于原始UNet++模型提出了一種改進(jìn)的食道癌腫瘤分割方法。實(shí)驗(yàn)結(jié)果表明,文中提出的OMDAUNet++方法在訓(xùn)練過程中能夠更好地捕獲更多的細(xì)微特征,并加以充分利用,輸出了更加準(zhǔn)確的分割結(jié)果。
OMDA-UNet++在UNet++結(jié)構(gòu)上做了以下四點(diǎn)改進(jìn):首先,引入注意力機(jī)制SE-Inception 模塊;其次,將UNet++中的關(guān)鍵卷積層替換為可變形卷積,使網(wǎng)絡(luò)更好地適應(yīng)癌灶邊界的復(fù)雜曲度變化;第三,使用多尺度特征融合,充分提取出癌灶的隱含細(xì)節(jié)特征;第四,將Encode-Decoder 結(jié)構(gòu)升級為雙向O 型循環(huán)結(jié)構(gòu),來提高特征的使用效率。
人類大腦為了合理處理視覺信息,觀察事物時通常會選定圖像的特定部分,將有限的資源投入其中。深度神經(jīng)網(wǎng)絡(luò)模仿人類運(yùn)用注意力機(jī)制,其理論邏輯主要在于有選擇地強(qiáng)調(diào)有用信息的特征,并抑制無用背景信息的干擾,這就是通道注意力機(jī)制[8]。在食道腫瘤分割任務(wù)中,食道組織是研究的重點(diǎn)區(qū)域,而胸腔中其他組織對腫瘤分割則起著干擾作用。
2017年在ILSVRC比賽上,Hu J等人提出Squeezeand-Excitation Networks (SE)[9],并獲得了第一名。SE模塊本質(zhì)上是一種通道注意力機(jī)制,主要是學(xué)習(xí)了通道之間的相互依賴性,得到各通道的不同權(quán)重,將資源投入到篩選出的通道上。SE-Inception 模塊(如圖1 所示),主要由下述兩個步驟來實(shí)現(xiàn):

圖1 SE-Inception模塊
1)壓縮(Squeeze)過程:假設(shè)輸入X,圖像維度表示為C×W×H,C、W和H分別代表通道數(shù)和輸入圖像寬度、高度。壓縮過程就是通過Global pooling 層進(jìn)行全局平均池化的過程,這一求平均值的過程會將每個特征通道壓縮為一個實(shí)數(shù)。這就計算出了通道的整體信息,便于對所有通道進(jìn)行加權(quán)。而特征圖被壓縮為C×1×1 的特征向量。
2)激發(fā)(Excitation)過程:這一過程是使用兩個全連接(Full-Connection)層和ReLu、Sigmoid 激活函數(shù)來實(shí)現(xiàn)的。第一個全連接層把C個通道壓縮成了C/R個通道,第二個全連接層再將其恢復(fù)回C個通道。其中R是縮放比例參數(shù),壓縮是為了降低網(wǎng)絡(luò)計算量。最后同樣得到了C×1×1 維度的特征向量。
經(jīng)過上述兩個步驟,獲得了表示每個特征通道重要程度的權(quán)重;再通過Scale 過程,對原始通道進(jìn)行乘法加權(quán);最后輸出結(jié)果特征Y,達(dá)到重定權(quán)重、合理支配有限資源的效果。
在分割任務(wù)中,壓縮-激發(fā)模塊在獲得全局信息后,對各通道賦予不同的權(quán)重,可以自主去除低權(quán)重的背景噪點(diǎn),保留高權(quán)重感興趣區(qū)域,分配大部分信息處理資源給關(guān)鍵部分。
食道癌病變占整個胸腔比例較小,且位置基本固定,只可能發(fā)生在食道組織上。因此,無差別地學(xué)習(xí)全部影像的特征是不合適的。而引入SEInception 模塊可以有效地提高癌灶區(qū)域的學(xué)習(xí)權(quán)重,盡可能地減少胸腔中其他組織的干擾。
卷積核的目的是為了提取輸入物體的特征。常規(guī)卷積核通常是固定尺寸、固定形態(tài)的(例如原始UNet++中使用3×3 大小的方塊)。這種卷積核存在著一個突出的問題,就是針對如食道腫瘤一類(邊界變化不規(guī)則)的分割任務(wù)時,適應(yīng)性差,泛化能力不強(qiáng)。2017年Dai等人提出了可變形卷積方法[10(]如圖2所示),該方法在常規(guī)方陣卷積核的每個采樣點(diǎn)上增加一個偏移量,這樣卷積核就不會再局限于規(guī)則的采樣格點(diǎn)之中,而是可以更好地擬合物體的形變。可變形卷積的公式如下:

圖2 常規(guī)卷積和可變形卷積對比
其中,Δpi是每個采樣點(diǎn)的偏移量,可由雙線性插值得到。
由于食道癌腫瘤邊界具有復(fù)雜多變、且無規(guī)則的特質(zhì),常規(guī)卷積核在食道腫瘤的分割任務(wù)中不能發(fā)揮出很好的效果。將網(wǎng)絡(luò)的關(guān)鍵層替換為可變形卷積,則可以更好地適應(yīng)癌灶邊界的復(fù)雜曲度變化,使網(wǎng)絡(luò)在原現(xiàn)基礎(chǔ)上更好地提取出隱含在細(xì)枝末節(jié)的特征。
多尺度特征融合即利用圖像的多個尺度進(jìn)行輸入,本質(zhì)上是對不同精細(xì)程度的圖像進(jìn)行采樣,以獲得不同尺度下的特征信息。在食道癌CT 影像的采集過程中,不同的儀器分辨率、掃描角度,都會導(dǎo)致采集到的圖像尺度不盡相同。
2018 年,Zhao H 等人提出了ICNet 模型[11],利用多尺度數(shù)據(jù)在語義分割任務(wù)中取得了很好的效果。較小尺度的圖像粒度更稀疏,適合研究圖像的整體特征;而較大尺度的圖像粒度更加密集,則用以研究圖像的細(xì)節(jié)特征更為適合。在卷積神經(jīng)網(wǎng)絡(luò)中,深層網(wǎng)絡(luò)輸入圖像其比例小、像素分辨率低,但相對而言感受野較大,就只能獲得更多的全局特征;而淺層網(wǎng)絡(luò)輸入圖像其比例較大、像素分辨率更高,但相對而言感受野較小,就可以用其來獲得更多的細(xì)微特征。
針對醫(yī)學(xué)圖像分割任務(wù)特點(diǎn),吸收其核心思想,在原始UNet++模型的基礎(chǔ)上引入多尺度特征融合機(jī)制。多尺度特征融合能夠在一定程度上解決訓(xùn)練樣本數(shù)據(jù)量不足的問題。在將數(shù)據(jù)導(dǎo)入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練之前,通過插值等方式將圖像按照8∶4∶2∶1 的比例進(jìn)行放縮得到不同尺度的圖像,然后將其輸入到改進(jìn)網(wǎng)絡(luò)中,即可提取出單一尺度下難以提取到的特征信息,尤其使網(wǎng)絡(luò)更好地專注于CT 影像中腫瘤邊界的細(xì)微特征。
原始UNet++中的Encode-Decoder 結(jié)構(gòu)只有前向跳躍連接,它將編碼器學(xué)習(xí)得到的特征映射到解碼器中,這樣很好地將梯度和低層特征信息保存了下來。上一層解碼器恢復(fù)出的特征圖和本層編碼器映射的特征在該層解碼器處融合,提取出當(dāng)前位置新的特征信息。但該結(jié)構(gòu)忽略了編碼器也可利用解碼器恢復(fù)的特征再度進(jìn)行學(xué)習(xí)。
2020 年提出的雙向O 型循環(huán)網(wǎng)絡(luò)(BiO-Net)[12]相較原始Encode-Decoder 網(wǎng)絡(luò)沒有引入額外的訓(xùn)練參數(shù),也不依賴額外的功能塊,但卻實(shí)現(xiàn)了更好的性能。這是因?yàn)锽iO-Net 采用了成對的雙向O 型循環(huán)結(jié)構(gòu)(如圖3 所示),主要是將Encode-Decoder 結(jié)構(gòu)升級為雙向O 型循環(huán)結(jié)構(gòu),該結(jié)構(gòu)由同一層的編碼器、解碼器、前向跳躍連接和反向跳躍連接所構(gòu)成的。

圖3 雙向O型循環(huán)結(jié)構(gòu)
雙向O 型循環(huán)結(jié)構(gòu)中的反向跳躍連接仍然連接同層編、解碼器,只是特征傳遞方向與前向跳躍連接相反。編碼器也能夠接收到同層解碼器由反向跳躍連接傳遞來的高級語義特征fdec,實(shí)現(xiàn)了特征信息fdec與上一層編碼器產(chǎn)生的原始輸入xin(低級視覺特征)的聚合。一對前向、反向跳躍連接構(gòu)成一次循環(huán),可以調(diào)節(jié)參數(shù)t控制循環(huán)次數(shù)。其中反向跳躍連接過程可以表示為:
針對原始UNet++在分割任務(wù)中特征利用率不高的問題,將原有Encode-Decoder 結(jié)構(gòu)升級為雙向O 型循環(huán)結(jié)構(gòu)。在不增加額外的網(wǎng)絡(luò)訓(xùn)練參數(shù)情況下,該結(jié)構(gòu)便于編碼器和解碼器之間互相理解雙方的語義特征,可以更加充分提取食道癌病灶特征,再此基礎(chǔ)上更高效地利用已學(xué)到的特征信息。
該模型針對食道癌腫瘤位置相對固定(僅可能原發(fā)于食道組織),且占整個胸腔比例很小,引入SE-Inception 模塊,使網(wǎng)絡(luò)在訓(xùn)練過程中重點(diǎn)關(guān)注食道核心區(qū)域,減小對無關(guān)背景關(guān)注的權(quán)重;針對食道癌腫瘤邊界復(fù)雜難尋的變化,將網(wǎng)絡(luò)關(guān)鍵層(下采樣區(qū)編碼器Xi,0)替換為可變形卷積,使網(wǎng)絡(luò)更好地適應(yīng)腫瘤邊界的復(fù)雜曲度變化;針對食道癌腫瘤細(xì)節(jié)特征提取困難的問題,利用插值等算法將原始圖像按照8∶4∶2∶1 進(jìn)行放縮后輸入到下采樣區(qū)編碼器Xi,0中,再使用多尺度特征融合辦法,使網(wǎng)絡(luò)可以抽析出腫瘤更多的隱含細(xì)微特征;針對原始UNet++對特征的利用程度不高的問題,將原有Encode-Decoder 結(jié)構(gòu)替換為雙向O 型循環(huán)結(jié)構(gòu),使特征在同層編、解碼器中循環(huán),再充分提取特征信息的條件下,進(jìn)一步提高了特征的使用效率。如圖4所示為OMDA-UNet++結(jié)構(gòu)模型。

圖4 OMDA-UNet++結(jié)構(gòu)模型
目前食道癌診斷和治療中,一般需要進(jìn)行超聲內(nèi)鏡等檢查,但內(nèi)窺鏡檢查是一種以有創(chuàng)為代價、侵入體內(nèi)的檢查[13],因患者對其耐受性低,它的推廣受到了限制。電子計算機(jī)斷層掃描(CT)因其無創(chuàng)性、且具有很好的耐受性和普及性,是患者理想的篩查方式[14]。
但目前暫無公開的CT 數(shù)據(jù)集可應(yīng)用在食道癌分割任務(wù)中,為此收集了山西白求恩醫(yī)院食道癌患者的胸部CT 影像用于分割實(shí)驗(yàn)。數(shù)據(jù)集中共有22例數(shù)據(jù),每例包含55~111 層切片不等,其中分別有10~36 層切片可見食道癌腫瘤。實(shí)驗(yàn)中隨機(jī)劃分17例數(shù)據(jù)作為訓(xùn)練集,5 例數(shù)據(jù)作為測試集。所有圖像在采集時設(shè)置掃描層厚5 mm,管電壓120 kVp,切片矩陣512×512。為保證分割不受主觀因素的影響,CT 影像由三名具備胸部影像診斷經(jīng)驗(yàn)的臨床醫(yī)師共同手動勾畫完成。
電子計算機(jī)斷層掃描的成像原理是人體內(nèi)不同的組織器官對X 光射線的吸收能力和透過率不同。利用這一特性,可以從胸部CT 影像中觀察到正常或異常的組織器官。現(xiàn)代醫(yī)學(xué)設(shè)備中,通常將CT 值的波動范圍設(shè)置在[-1000,+3000]HU 之間,而人眼對灰度階改變相對不敏感,可識別的灰階數(shù)約在60 級,在觀察特定組織或病變區(qū)域時難以將其與周圍組織完全辨清。采用窗口技術(shù)來處理CT 影像可以達(dá)到增加圖像對比度的目的,解決人眼對灰度階變化敏感度低的問題[15]。
為了更好地觀察和分割食道癌腫瘤區(qū)域,在以下實(shí)驗(yàn)中,胸部CT 圖像的窗寬選擇在300~500 HU 之間,窗位(即窗寬中心值)選擇在30~60 HU 之間[16]。如圖5 所示是同一CT 切片在不同窗寬與窗位下的對比,合適的窗寬與窗位可以清晰地觀察到食道癌腫瘤邊界。

圖5 不同窗寬與窗位的對比
硬件信息:使用兩臺戴爾T640 工作站,其處理器為Intel(R)Xeon(R)Gold 5120@2.20GHz 十四核*2,內(nèi)存128G,顯卡為NVIDIA Tesla P4。
軟件環(huán)境:操作系統(tǒng)為Windows 10,編程語言環(huán)境為Python 3.6,深度學(xué)習(xí)框架為Pytorch。
超參數(shù)設(shè)置值:初始學(xué)習(xí)率0.000 1,優(yōu)化器為Adam,批量大小為8,SE-Inception 模塊R 值為8,雙向O 型結(jié)構(gòu)循環(huán)次數(shù)t值為3。
骰子損失函數(shù)(Dice Loss,DL)被廣泛應(yīng)用于醫(yī)學(xué)圖像的像素級病灶分割任務(wù)中。它用于度量兩個給定樣本之間的相似度差異,當(dāng)DL 值越小時,表明兩個樣本之間的差異越小。骰子損失函數(shù)表達(dá)式如下:
其中,A表示專家手動標(biāo)注的真實(shí)值,B表示算法分割出的預(yù)測結(jié)果。
為了對實(shí)驗(yàn)結(jié)果進(jìn)行評價,將網(wǎng)絡(luò)對食道癌腫瘤的預(yù)測結(jié)果與數(shù)據(jù)集中專家的手動分割結(jié)果進(jìn)行了對比,以確定所提算法的先進(jìn)性。分割效果的評價指標(biāo)選用Dice 相似性系數(shù)(Dice Similarity Coefficient,DSC),其表達(dá)式如下:
DSC 值取值范圍是[0,1],其越接近1 說明預(yù)測值和真實(shí)值重合度越高,算法的分割效果越好。
為了驗(yàn)證改進(jìn)模型的性能優(yōu)越性,設(shè)計了兩組實(shí)驗(yàn)。
第一組實(shí)驗(yàn)主要從對比經(jīng)典網(wǎng)絡(luò)的角度出發(fā),選取了在醫(yī)學(xué)圖像分割領(lǐng)域有著較好表現(xiàn)的U-Net、DeepLabV3+、Att U-Net等經(jīng)典網(wǎng)絡(luò)與UNet++進(jìn)行對比。對比實(shí)驗(yàn)測試結(jié)果見表1。

表1 經(jīng)典分割網(wǎng)絡(luò)性能對比
根據(jù)實(shí)驗(yàn)結(jié)果,選擇UNet++結(jié)構(gòu)作為基礎(chǔ)網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步研究。
第二組實(shí)驗(yàn)主要從衡量改進(jìn)模型的角度出發(fā)。依次設(shè)置了A-UNet++、DA-UNet++、MDA-UNet++、OMDA-UNet++等四組消融實(shí)驗(yàn),其中A 代表網(wǎng)絡(luò)引入SE-Inception 模塊,D 代表網(wǎng)絡(luò)關(guān)鍵層替換為可變形卷積,M 代表網(wǎng)絡(luò)使用多尺度特征融合,O 代表網(wǎng)絡(luò)原有Encode-Decoder 結(jié)構(gòu)升級為雙向O 型循環(huán)結(jié)構(gòu)。消融實(shí)驗(yàn)測試結(jié)果見表2。

表2 改進(jìn)網(wǎng)絡(luò)的性能對比
表2 說明在UNet++的基礎(chǔ)上進(jìn)行的改進(jìn)對分割精度均有一定提升。不同改進(jìn)對分割效果的具體影響如圖6 所示,圖6 從左到右依次是CT 影像、專家手工標(biāo)注、UNet++分割結(jié)果、A-UNet++分割結(jié)果、DAUNet++分割結(jié)果、MDA-UNet++分割結(jié)果、OMDAUNet++分割結(jié)果。

圖6 改進(jìn)網(wǎng)絡(luò)的分割對比圖
可以從圖中看出OMDA-UNet++在第一幅圖左上部凹陷處、第二幅圖左邊尖端部位的分割結(jié)果相較于其他網(wǎng)絡(luò)更加精準(zhǔn),具有較高的還原度,達(dá)到了提高在復(fù)雜曲度位置的分割精度這一目的。
文中提出了一種改進(jìn)的UNet++食道癌腫瘤分割方法:以UNet++架構(gòu)為基礎(chǔ),先引入了SE-Inception模塊,增大模型對感興趣區(qū)域的分割權(quán)重;為更好擬合腫瘤邊界變化,又將關(guān)鍵層的常規(guī)方陣卷積替換為可變形卷積;并使用了多尺度特征融合來充分地提取出腫瘤細(xì)微特征;此外還將UNet++原有Encode-Decoder 結(jié)構(gòu)替換為雙向O 型循環(huán)結(jié)構(gòu)用來提高特征的利用率,進(jìn)而提升分割性能。最后,通過一系列的對比實(shí)驗(yàn)證明:OMDA-UNet++在食道癌腫瘤的分割任務(wù)中可以有效分割出腫瘤的復(fù)雜邊界,相比目前主流算法的分割效果有一定提升。