穆應晨,王學軍,王怡雯,盧 琳
(石家莊鐵道大學 信息科學與技術學院,河北 石家莊 050043)
世界衛生組織國際癌癥研究機構(IARC)發布了2020年全球最新癌癥負擔數據,這份數據報告顯示,2020年全球1 930萬人新確診癌癥,近1 000萬人死亡,中國新發癌癥數與癌癥死亡數均位居全球第一。其中肺癌是發病率和死亡率最高的惡性腫瘤,所以盡早發現和診斷是治療肺癌的第一步。現如今CT影像學檢查是診斷肺癌的主要手段。肺癌早期,CT影像可清晰顯示支氣管壁的不規則增厚、管腔狹窄、管腔內結節等改變[1]。晚期時,通過CT影像可看清腫塊的邊緣、形態、瘤周表現、內部結構及密度變化等[2]。將醫學圖像處理技術應用于肺部診斷的輔助治療,對醫生更快地判斷患者的肺部疾病具有重要意義。
醫學圖像分割技術是醫學圖像處理中最常用的方法之一。常用的圖像分割技術包括手工分割方法、半自動分割方法和全自動分割方法[3]。其中帶有自動分割的分割方法已經是醫學圖像分割方法的支柱,利用深度學習實現醫學圖像的自動分割已經成為了新的趨勢。Long J等[4]在2015年提出全卷積神經網絡(Fully Convolutional Networks,FCN),并用于自然圖像的語義分割領域。基于全卷積神經網絡的醫學圖像分割方法是一種端到端的分割方法,有效地避免了卷積神經網絡中計算量大等問題[5]。隨后Ronneberger O等[6]提出了一個編碼器-解碼器的對稱網絡U-Net,它真正意義上將全卷積網絡應用到醫學圖像分割領域,通過跳躍連接(Skip Connection)將淺層和深層的圖像信息進行融合。Gu Z等[7]在2019年提出了上下文編碼網絡(Context Encoder Networks,CE-Net),利用上下文信息對特征進行捕獲。Vaswani A等[8]提出的Transformer模型早在2107年就開始流行起來,它將注意力機制的思想發揮到了極致,拋棄了以往深度學習任務里面使用到的卷積神經網絡(Convolutional Neural Network,CNN)[9]和循環神經網絡(Recurrent Neural Network,RNN)[10]。Transformer目前已經成為了自然語言處理(Natural Language Processing,NLP)領域的標準配置,也為計算機視覺領域開拓了一條新的道路。Dosovitskiy A等[11]在2020年提出將Transformer框架應用到計算機視覺中,提出了Vision Transformer(ViT),證明了不需要依賴CNN也可以進行圖像的處理。Transformer的優勢就在于利用多個自注意力機制的方式來捕獲全局的上下文信息從而對目標建立起遠距離的依賴,提取出更強有力的特征。
為了減少肺部CT影像的分割損失,提高神經網絡對肺部CT影像的分割能力,研究提出了TCU-Net(U-Net with Transformer and Context Encoder for Image Segmentation,TCU-Net)算法。TCU-Net是基于混合Transformer的一種圖像分割算法,將混合Transformer的編碼結構代替了U-Net中的編碼結構,編碼和解碼之間加入了上下文信息編碼模塊(Context Encoder Block,CE-Block)[7],保留轉置卷積(Transposed Convolution)[12]上采樣解碼部分不變,使網絡結構聚焦于肺部圖像的細節,提高了模型的分割能力。
作為人體最重要的呼吸器官,肺承載著呼吸調節功能、免疫功能、肺循環功能、造血功能等多種重要的功能[13]。精準分割肺的大小以及邊緣,對臨床診斷、提前發現病變有著重要的作用。TCU-Net算法是在U-Net基礎上,結合了混合Trasformer結構與上下文信息編碼模塊,利用多尺度特征有針對性地對不同大小的形狀進行分割,從而提高了分割算法的準確率和肺部分割精度。該網絡在編碼層引入了混合Transformer結構,并利用多頭自注意力機制(Multi-Head Self Attention,MHSA)更好地實現了全局特征學習。在像素恢復過程中,使用跳躍連接將圖像的低層特征與高層特征結合,最終實現圖像分割任務。
混合Transformer結構采用了ResNet50[14]作為特征圖提取的主干網絡,相比Transformer結構,混合Transformer模型結合了CNN與Transformer的優勢:卷積運算擅長提取局部特征,但在捕獲全局特征方面具有一定的局限性,而Transformer中的級聯自注意力模塊可以捕獲長距離的特征依賴,彌補了CNN的缺陷。


圖1 混合Transformer模型結構 圖2 Transformer-Encoder層的內部結構
對于Transformer-Encoder的輸入,z0計算過程如式(1)所示:

(1)
式中,C代表圖片的通道數。
Transformer-Encoder層的內部結構如圖2所示。由圖2可知,其是由L層的多頭自注意力機制塊和多層感知機(Multi-Layer Perceptron,MLP)[15]塊組成的,因此第l層的輸出記為zl,計算過程如式(2)、(3)所示:
(2)
(3)
式中,LN代表LayerNorm層。
CE模塊(CE-Block)是由密集空洞卷積(Dense Atrous Convolution,DAC)模塊和殘差多核池化(Residual Multi-kernel Pooling,RMP)模塊兩部分組成。DAC模塊使用多尺度空洞卷積來提取豐富的特征信息,RMP模塊使用多尺度池化操作保留更多的空間信息。該模塊可以捕獲更多抽象特征和保留更多空間信息從而提高分割的性能。
空洞卷積(Atrous Convolution)[16]應用在語義分割和目標檢測任務中可以得到更大的感受野,獲得更加密集的數據,它最初是為提高小波變換的計算效率而提出的,空洞卷積的計算如式(4)所示:
y[i]=∑x[i+rk]w[k],
(4)
式中,輸出特征y是由輸入特征x和濾波器w的卷積產生的;空洞率rate對應輸入的步幅;k代表卷積核的大小。通過調整不同的rate可以獲得不同的感受野,如圖3所示。

圖3 空洞卷積
DAC模塊如圖4所示。由圖4可以看出,DAC模塊有4個級聯分支,是空洞卷積以級聯方式堆疊而成的。每個分支使用不同rate進行卷積,感受野分別是3、7、9、19。DAC模塊采用了不同大小的空洞卷積獲取不同的感受野。在每個卷積分支后,使用一個RELU激活函數。最后將原始特征直接添加到其他特征中。

圖4 DAC模塊
RMP模塊主要依靠多個有效視野來檢測不同大小的目標。一般的最大池化操作只使用單個池化核,而RMP模塊通過4個不同大小的池化核 (2×2,3×3,5×5和6×6)對全局上下文信息進行編碼。輸出包含不同大小的特征映射。并在每一級池化后使用1×1卷積對特征圖進行降維,再對低維特征圖進行上采樣,使用雙線性插值得到與原始特征圖相同大小的特征。最后將原始特征與上采樣特征圖連接起來,如圖5所示。

圖5 RMP模塊
TCU-Net網絡模型如圖6所示,該模型的輸入是H×W×C的數據,首先,使用ResNet50網絡提取特征圖,將尺寸縮小到原尺寸的1/16,因為Transformer網絡的輸入必須是向量序列,所以將特征圖轉化為向量的形式輸入到Transformer Layer層。其次,將向量轉化為張量,送入CE-Block中,提取上下文信息。最后,使用跳躍連接和轉置卷積的上采樣操作,輸出最終結果,優化模型分割結果。

圖6 TCU-Net網絡模型
實驗的數據集是2017年Lung Nodule Analysis (LUNA)競賽中的公開數據集,LUNA競賽是為了檢測結節和減少假陽性,而分割肺部是進一步篩選肺結節的基礎。實驗選取二維CT圖像中的肺部進行分割,該數據集包含534個2D樣本,帶有各自的標簽圖像,全部為512×512像素,使用80%的圖像進行訓練,其余的用于測試,并進行交叉驗證。
為了驗證模型的分割性能,研究選取了4種常用的醫學圖像分割中的評價指標:精確率(Accuracy,Acc),相似性系數(Dice Similarity Coefficient,DSC),敏感度(Sensitivity,Se)和F1-score(F1),各項評價指標的定義如表1所示。True Positive(TP)表示分類正確的肺部像素個數,Ture Negative(TN)表示分類正確的背景像素個數,False Positive(FP)表示背景像素被分成肺部像素的個數,False Negative(FN)表示肺部像素被分成背景像素的個數。

表1 評價指標
由于LUNA 2017數據集的2D圖像存在一些噪聲,因此在輸入網絡前首先對圖像使用了高斯濾波進行去噪操作,并且對圖像進行腐蝕操作,加強了前景與背景間的區分度,處理之后的CT圖像如圖7所示。

圖7 圖像預處理 圖8 ROC曲線
根據混淆矩陣中的TP、TN、FP、FN參數,以敏感度(Sensitivity,Se)為縱坐標,特異性(Specificity)為橫坐標畫出ROC曲線,如圖8所示。
為了驗證各個模塊對整體模型的影響,對U-Net網絡、添加了CE-Block的CE-Net網絡、加入Transformer-Encoder模塊的網絡以及TCU-Net網絡進行對比實驗,實驗結果如表2所示。U-Net作為原始網絡,精確率為98.87%,Dice系數為9826%,敏感度為97.98%,F1分數為97.07%;分別添加了CE-Block和Transformer模塊的U-Net網絡,其評價指標有著不同程度的提升;當結合兩個模塊后,精確率為99.35%,Dice系數為99.06%,敏感度為98.26%,F1分數為98.56%,相比原始的U-Net網絡,各項指標分別提高了0.48%、0.8%、0.28%、1.49%,充分證明了研究提出模型具有一定有效性。

表2 各個模塊對整體模型的影響
由此看出加入了Transformer-Encoder和CE-Block的模型,其分割效果明顯優于未加模型,Transformer-Encoder運用在圖像分割網絡,能夠有效減少連續下采樣帶來的信息損失。CE-Block從編碼器中獲取了上文信息,加強了目標區域的輸出,從而提高了分割性能。分割結果如圖9所示。

圖9 分割結果
針對肺部大小不一、細小位置分割精度低等問題提出了改進算法TCU-Net,它的整體結構為編碼-解碼的U型結構,使用混合Transformer結構作為編碼部分,CNN與Transformer的優點相互結合,使用CNN獲取局部特征,使用多頭自注意力機制獲取全局特征。采用具有多尺度信息的CE-Block充分提取了上下文特征信息,使用轉置卷積網絡作為解碼器,保留了跳躍連接,結合低層特征和高層特征,加強信息的捕捉。在公開數據集LUNA 2017上進行實驗,實驗結果表明,相比U-Net算法,改進算法在精確率、Dice系數、敏感度、F1分數上分別提高了0.48%、0.8%、0.28%、1.49%。該方法能對2D圖像中的肺部區域實現更精確的分割,對后續的肺結節檢測提供了更好的醫學輔助診斷技術。