師曉宇,王 斌
(中北大學 信息與通信工程學院,太原 030051)
金屬偽影是計算機斷層掃描(CT,computed tomography)中常見的問題之一。當患者攜帶金屬植入物(例如牙科填充物和髖關節假體)時就會出現這種情況。與身體組織相比,金屬材料在光譜上會造成顯著的X射線衰減,導致X射線投影不一致。不匹配的投影將會在重建得到的CT圖像中引入十分明顯的條紋和陰影偽影,這會顯著降低圖像質量并影響醫學圖像分析工作以及隨后的醫療服務。這些金屬偽影會掩蓋植入物周圍組織的重要診斷信息,嚴重影響醫療效果,比如導致醫生難以對靶區進行精準勾畫,進而對臨床治療效果產生諸多負面影響[1]。因此,金屬偽影去除(MAR,metal artifact reduction)對提高臨床診斷的準確性有著重要意義。
近年來,許多傳統方法提出了MAR任務,主要可分為三類,即迭代重建、正弦圖域MAR和圖像域MAR。迭代算法旨在設計一些手工制作的正則化器,例如總變分[1]和小波域[2]中的稀疏約束,并將它們表示為算法優化以約束解空間。由于主觀的先驗假設,這些方法無法精細地表示臨床應用中復雜多樣的金屬制品。基于正弦圖域的方法將受金屬影響的區域(即正弦圖中的金屬跡線)視為缺失數據,并通過線性插值[3]或先前圖像的正向投影[4]來填充這些區域。然而,金屬痕跡中的這些替代數據通常不能正確滿足CT成像幾何約束,這會導致重建CT圖像中出現由于金屬植入物影響的二次偽影。齊宏亮等人[5]提出了一種基于先驗圖像的CT插值校正算法,其中對原始投影數據進行插值后使用濾波反投影算法進行圖像域重建后得到去偽影后的圖像,為了避免初步校正產生的次級偽影,又提出了一種全新的濾波算法。這種算法能夠得到較好的重建圖像,但是由于先驗圖像的質量限制以及濾波算法無法進行自適應迭代,相對于深度學習去偽影模型魯棒性并不突出。
隨著近年深度學習(DL,deep learning)在醫學圖像處理領域的快速發展,基于深度學習的金屬偽影校正方法也相繼提出并取得了良好的臨床效果。卷積神經網絡(CNN,convolutional neural networks)在公開數據集的圖像分析性能表現優于傳統方法[4-7],同時比圖形切割和多圖集分割技術[8]快一個數量級。U-Net[9],DeepMedic[10]和整體嵌套網絡[11-12]等全卷積網絡(FCN,fully convolutional networks)[13]已被證明可以在包括心臟磁共振在內的各種任務中實現穩健和準確的性能。UNet是使用最廣泛的深度CNN之一,特別是在醫學影像方面體現除了良好的效果[14]。Xu等人[15-16]使用VGG(visual geometry group)網絡,Wang等人[17]用條件生成對抗網絡(cGAN,conditional generative adversarial network),Ding等人[18]使用FCN[13]分別進行了圖像域的MAR方法研究?這類方法在對射線狀偽影及椒鹽噪聲時展現了出色的效果,但對于帶狀偽影性能表現較差。史再峰等人[19]提出了多任務學習的生成對抗網絡,利用連續偽影圖像的空間相關性和解剖組織相似性并行處理學習,訓練共享編碼器和多個解碼器重建出高質量的CT圖像。Liao等人[20]提出無監督的偽影解糾纏網絡(ADN,artifact disentanglement network),對圖像域中正常組織與金屬偽影進行分離以達到去除偽影的效果?但是由于金屬偽影構成的復雜性,該方法在分離組織與金屬偽影的過程中性能不穩定,加之在該方法中存在網絡結構繁紛復雜,后續優化難度較大,提升效果有限。由于深度學習到的魯棒特征表示,基于DL的MAR技術通常優于基于手工特征的傳統方法。然而,現有的基于DL的MAR方法仍然存在著一定的局限性。他們中的大多數將MAR視作一般的圖像恢復問題,較少強調在整個學習過程中嵌入的物理幾何約束。大多數現有方法依賴于現成的DL工具包來構建不同的網絡架構,對于特定的MAR任務缺乏足夠的主要信息關注度,在恢復圖像細節過程中造成混入背景信息以及組織保留程度不足的問題。
為了解決網絡去金屬偽影中圖像恢復信息不足,背景信息與主要信息混雜導致組織信息保留不足的問題。本文提出了一種注意力門的UNet網絡的醫學CT圖像金屬偽影去除模型,能夠在去除復雜CT圖像金屬偽影的同時有效保留金屬植入物周圍的解剖組織結構。
基于UNet的CT圖像金屬偽影去除網絡總體框架如圖1所示,網絡整體分為兩個模塊,分別為特征提取模塊和強化特征解碼模塊。輸入圖像為大小256×256的CT灰度圖像。在特征編碼模塊設置為4層,每一層分別有兩組卷積層,每層卷積層由大小3×3的卷積核和線性整流函數(ReLU,rectified linear unit)激活函數構成。在經過每一層后都由大小2×2的上采樣進行特征擴充后進入下一層重復操作到最深層。強化特征解碼模塊與特征提取模塊相似,在接受深層提取信息的過程前會經過相同層級特征提取模塊的注意力信息進行疊操作以強化信息提取編碼的準確度,實現更有效的特征提取。

圖1 網絡整體框架
UNet網絡結構作為經典的編解碼器結構,編解碼信息利用跳躍連接進行溝通從而避免大量空間的精準信息丟失的問題,直接將編碼器中提取的特征合并至解碼器相對應的層中。但是其中存在著初始編碼器低階層中由于提取的特征不精確,從而導致相應疊加的解碼器層中存在很多的冗余信息,降低了網絡的效果。為了避免這樣的情況出現,在UNet的基礎上加入了軟注意力結構[21]的注意力門模塊。意在通過注意力門模塊抑制無關區域像素的干擾,突出特定局部區域的顯著特征。使用軟注意力結構代替硬注意力通過神經網絡可以計算梯度并且前向傳播和后向反饋來學習得到注意力的權重。軟注意力結構的另一個好處在于其集成到標準UNet網絡結構中時要簡單方便、計算開銷小,更加可貴的是可以提高模型的靈敏度和預測的精度。解碼器經過上采樣恢復出位置細節,但是上采樣同樣會導致邊緣細節過平滑和位置關系不準確的問題。現有的一些工作[9]使用跳躍連接機制將底層特征與高層特征連接以補充位置信息。由于低層特征提取包含了無用的背景信息,此信息反而會導致目標對象的提取精度受到影響。為了加強模型對目標的提取效果,設計了一種為捕獲高級語義信息并強調目標特征的注意力門模塊。
注意力門控機制是一種通過動態調整模型對輸入信息的關注度來提升模型性能和效率的方法。在深度學習中,注意力門控機制常用于處理序列數據或圖像數據,幫助模型在處理和理解數據時,更加關注輸入的重要部分,并忽略不重要的部分。注意力門控機制的核心思想是通過一個稱為“門控”的機制來控制信息的流動。在最常見的形式中,門控機制采用自注意力機制,通過計算輸入信息中每個位置的表示,并將這些表示應用于輸入信息中的每個位置,以獲得新的、經過注意力處理的信息。具體來說,自注意力機制首先對輸入信息進行線性變換,得到一個表示輸入信息的矩陣。接著,這個矩陣被分成多個獨立的頭,每個頭都會獨立地計算輸入信息的注意力表示。最后,這些注意力表示被加權求和,得到最終的注意力表示。這個表示被應用于輸入圖像的每個像素,以產生新的、經過注意力的信息。
為了捕獲足夠大的感受野并因此提取附近組織信息,在UNet架構中逐漸對特征映射網格進行下采樣。這樣,粗空間網格級模型的特征就可以定位與背景與組織的關系。通過將注意力門(AG,attention gate)加入UNet模型中同樣可以實現定位組織與背景,并且可以加強分割效果,其中注意力門避免了訓練多種模型以及由此帶來的參數量膨脹的問題。AG能夠在訓練中降低對圖像中不相關的背景的響應,而避免了手動裁剪感興趣區域(ROI,region of interest)。
從粗尺度提取的信息用于AG,以消除跳躍連接中不相關和嘈雜的區域,在跳躍連接操作之前執行僅合并相關的注意力區域,并且在前向傳播和后向反饋來學習得到注意力的權重,這使得較低層中的模型參數能夠基于ROI進行學習更新。
第l-1層中參數的更新由式(1)所示:
(1)

每個通道對應于特定的語義響應。金屬偽影和人體組織通常涉及不同的通道。AG模塊因此對語義依賴關系進行特征提取以強調目標通道。AG利用深層中的抽象特征和淺層中的全局特征以編碼依賴關系。深層特征映射含有豐富的語義信息,可用于指導淺層特征映射以選擇重要的位置詳細信息。此外,淺層映射利用整體圖像信息對不同通道的語義關系編碼,可以實現過濾干擾信息。通過使用語義關系信息,AG模塊可以強調目標區域并改進特征表示。AG模塊如圖2所示。

圖2 注意力門模塊
高級特征映射和低級特征映射執行全局平均池化。其將整體信息壓縮成一個具有信息權重的注意力向量以強調關鍵特征并過濾干擾背景。生成注意力矢量如下:
Fa(x,y)=δ1[Wαg(x)+bα]+δ1[Wβg(y)+bβ]
(2)
Ac=δ2[WφFa(h,l)+bφ]
(3)
其中:h和l分別為深層和淺層映射。g為全局平均池化。δ1為線性整流(ReLU,rectified linear unit)激活函數,δ2為softmax函數。Wα、Wβ、Wφ是指1×1卷積的參數。bα、bβ、bφ為偏差。
(4)
其中:n=1,2,...,c和x=[x1,x2,...,xc],W,H為圖像寬和高。
我們對矢量進行1 × 1卷積,以實現對特征依賴關系的進一步確定。具體而言,1 × 1卷積核可以在空間維度上將輸入特征映射的尺寸減小,同時保持深度維度不變。這有助于在不改變特征通道數的情況下,對特征圖的感受野進行調整和改變。接著使用softmax函數對矢量進行歸一化激活。softmax函數可以將輸入值映射為概率分布,使得輸出值的和為1。這使得模型能夠將輸入特征映射為相對權重的表示,進而實現特征的合理融合。然后將淺層特征映射與注意力向量相乘以生成注意特征映射。具體而言,我們將注意力向量視為權重系數,對淺層特征映射進行加權求和。這種操作可以使得模型能夠根據淺層特征映射中的不同特征,自主地選擇關注哪些特征并抑制其他不重要的特征。最后通過添加深層特征映射來校準所關注的關鍵特征。這一步驟有助于將淺層特征映射中未考慮到的信息,如空間信息等,融入深層特征映射中。同時,也有助于提高模型的表達能力和泛化性能。此外還使用了全局平均池化和1×1卷積來實現該模塊。全局平均池化可以將輸入特征圖的尺寸減小至1×1,并將每個像素點的值壓縮為一個標量。這種操作可以有效地降低計算復雜度,并且能夠避免過擬合現象的產生。而1×1卷積則可以在不改變特征通道數的情況下,實現特征的重新組合和利用。相較于其他模塊,該模塊并沒有添加大量額外參數,因此不會導致模型復雜度的顯著增加。同時,由于全局平均池化的使用,該模塊的計算成本也得到了大大降低。此外,該模塊還具有較好的泛化性能和表達能力,能夠有效地提升模型的性能和效果。
網絡訓練過程采用 Pytorch 框架,迭代epoch為500次,每次epoch迭代300輪。批處理尺寸為4,使用Adam優化網絡,β1=0.6,β2=0.999,初始學習率為0.000 01,每訓練20個epoch學習率下降為原來的1/2。實驗環境:操作系統為Ubuntu20.04,Python版本3.7,使用Pytorch框架,硬件采用GPU:NVIDIA GeForce RTX2070 8 GB。
為了得到更加貼近主觀視覺的MAR圖像,設計了基于圖像主觀視覺的損失函數,在保證圖像還原質量情況下充分保留原本的組織細節。該損失函數由灰度損失和總變分損失。
灰度損失LMSE,為生成樣本與真實樣本之間的均方誤差,可以使生成樣本圖像盡可能貼近真實樣本,如式(5)所示:
(5)
其中:N為訓練集中樣本圖像對數;Xfree為生成的無偽影圖像,Y為真實無偽影圖像。
總變分損失LTV,由式(6)表示:
(6)
式中,H、W分別為圖像的高度和寬度;▽x、▽y分別為圖像在橫縱坐標上的變分和。
總損失函數Ltotal由式(9)表示:
Ltotal=LMSE+αLTV
(7)
其中:α為權重用于調節效果,初始取值為0.2。
本文采用DeepLesion數據集[22]生成的圖像驗證所提方法的正確性和有效性,將所提方法與CGANMAR[23],CycleGAN[24],CNNMAR[2],UNet[9],ADN[20]進行對比實驗。
利用文獻[2]的方法,基于DeepLesion醫學公開數據集[25]選取生成了3 040對金屬偽影對照圖像用于網絡訓練和測試,選取300對進行測試,圖像為大小256×256的灰度圖像。在對比實驗中對選取的300對待測試灰度圖像進行統一測試,得到結果圖像進行標準客觀標準定量對比,結果圖像統一窗寬在-800~1 000 HU間,以方便觀察比較。
數據集中包含配對數據,可進行定量和定性評估。為了定量分析CT圖像的金屬偽影校正指標,采用峰值信噪比(PSNR,peak signal to noise ratio)、結構相似性指數(SSIM,structural similarity index measurement)、空域視覺信息保真度(VIFs,spatial domain visual information fidelity)、特征相似度(FSIM,feature similarity index measurement)作為定量評估指標。
PSNR是衡量圖像失真程度或噪聲水平的定量指標,使用PSNR對網絡去除CT金屬偽影效果進行評估,數值越高說明效果越好。MSE是待測圖像x與標簽圖像y的均方誤差,分別為:
(8)
(9)
式中,i,j為像素值,W,H為圖像的寬和高;n為圖像比特數。
SSIM是用來衡量兩幅圖像的結構相似程度,越接近1說明結構相似度越高,計算方式如式(10):
(10)
式中,μx、μy為圖像亮度均值,σx、σy為μx、μy的標準差,C1、C2為對比度。
FSIM是用來衡量兩幅圖像特征相似度,其更加關注圖片中界定物體的結構的邊緣像素而降低了背景區域的像素的影響,更有助于反映主體的圖像質量,其指標越接近1表明兩幅圖像的特征相似度越高,其計算方式如式(11):
(11)
其中:SL(x)為相位一致性特征相似度與梯度一致性特征相似度融合的相似度,PC(x,y)為相位兩張圖像的相位一致性特征相似度,I為完整圖像像素域。
VIFs數值越高,結果圖像和目標圖像之間相關性就越強,指標越接近1效果越好,具體公式參考Bovik的計算方法[26]。
4.3.1 定性分析
為了展示本文方法處理偽影圖像、去除圖像金屬偽影恢復圖像細節的性能,隨機從測試集中選取了3組測試對比結果圖。能夠從圖3中觀察到,CycleGAN[24]作為一種無監督方法在無監督領域表現突出,但是這種模型還要求偽影校正輸出能夠轉換回原始偽影影響圖像,這雖然有助于保留內容信息但是同樣鼓勵了模型保留圖像中的金屬偽影結構,影響了模型最終的重建圖像質量。ADN作為一種比CycleGAN先進的無監督學習方法,其生成的圖像質量高于CycleGAN但是相比有監督方法仍然在偽影的去除方面存在著去除條紋不均勻,細節保留不充分的不足,如圖4、5所示,偽影沒有被有效地去除或減少。CNNMAR是基于投影插值的方法。CNNMAR能夠較好地保留條紋但是結構性信息恢復嚴重不足。我們還發現,UNet的效果接近于cGANMAR的效果,cGANMAR在其后端使用類似UNet的體系結構。由于使用GAN結構網絡,cGANMAR產生了比UNet更銳利的輸出圖像。UNet和cGANMAR在圖像中都顯示出了良好的效果,UNet產生的圖像偽影去除效果較好但是結構信息保留細節不夠;cGANMAR在感官上生成圖像比較銳利并較好地去除了偽影亮條紋,但是在處理暗條紋情況仍然有所欠缺。作為改進的UNet模型,在單獨UNet的基礎上加入了注意力門模塊,從表中可以觀察到在結構指標以及峰值信噪比等均優于UNet。相比于UNet輸出圖像的整體清晰度下降的結果得到較高的PSNR,在圖3在注意力門模塊的加入后,本文方法得到了相比UNet更加清晰且對比度更高的去金屬偽影圖像。從圖4、5中可以觀察到,在有復雜金屬植入物的情況下,上述幾種方法的性能有了比較明顯的下降,兩種無監督方法CycleGAN和ADN去除條紋偽影的效果較差,CycleGAN還產生了新的暗條紋偽影,CNNMAR由于受到先驗圖像訓練效果的制約,恢復了一定的組織結構但偽影沒有能夠很好地去除且過平滑問題較為嚴重,影響了圖像質量。CGANMAR得到了對比度較高的圖像,但是同樣沒有很好地去除金條紋偽影。UNet去除偽影的效果較為明顯但組織結構的信息保留并不充分,在圖像的部分區域出現了過平滑的問題。由于注意力門模塊的加入,增強了UNet網絡提取主干信息的能力,通過較粗粒度的特征圖,獲得語義上下文信息,進而對來自同層的encoder的特征圖中不相關的特征進行抑制,提高了模型對目標區域的靈敏度和準確性本文方法在所示圖像中均顯示了優于上述方法圖像的性能,能夠在較好去除金屬偽影的同時保留組織細節結構。在圖4所示的金屬偽影原始圖像中可以看出,本圖像中的金屬植入物嚴重影響了CT掃描獲得的圖像質量,對于細節恢復工作提出了很大的挑戰,CycleGAN恢復出的圖像帶有明顯的金屬條紋偽影,CNNMAR恢復出的圖像出現了嚴重的過平滑問題,導致結構細節損失嚴重,嚴重影響了重建圖像的可用性,cGANMAR在圖像對比度方面取得了較好的視覺效果,但是在圖4所示的ROI區域內,出現了結構丟失的問題,影響了圖像的質量,UNet在HU值較低的區域丟失了較多的細節,導致重建圖像的質量下降,這可能與UNet在設計損失函數中只使用了均方差損失有關,均方差損失在最小化誤差的訓練過程中會忽略標簽與輸入較小誤差的像素,從而鼓勵平滑輸出結果;在ADN取得的結果圖中可以觀察到其結果相對于CycleGAN的結果有一定的提高,但是由于無監督學習的不確定性,產生的圖像質量仍然存在著不足。在圖5所示的模型結果對比圖中可以看到,由于金屬植入物的位置CT細節受到嚴重干擾,產生了亮度值過大的區域,對于該區域的細節恢復同樣是一大挑戰。與上圖類似,CycleGAN保留了細節的重建圖像對比度較高但是存在比較明顯的金屬偽影,CNNMAR在恢復復雜圖像的問題上平滑效果明顯影響了圖像可用度,cGANMAR在HU值較低的位置去偽影效果較好,捕捉了圖像細節,但是在組織結構明顯的區域內沒有取得理想的效果,UNet仍然存在組織細節丟失與組織平滑的問題,此圖中,ADN在較低HU值時取得了較好的質量,同樣留存了明顯的條紋偽影,本文提出的方法在視覺效果上均超越了前述方法,取得了較為可用的重建圖像。

圖3 腹部CT圖像ROI區域金屬偽影去除結果

圖4 腹部CT圖像金屬偽影去除結果

圖5 胸部CT圖像金屬偽影去除結果
4.3.2 定量分析
表1展示了前述方法在選取的圖像評價指標中所取得的結果。所示指標中UNet由于監督學習的學習方式,在優良先驗圖像和選取的合適的目標函數共同校正模型訓練情況下,取得了一定的成績,基于UNet模型和注意力門控模塊的本模型同樣取得了優良的成績,在PSNR上取得了高于UNet的35.591 3的成績,在PSNR的評價標準下已經達到了人眼分辨困難的程度。在SSIM和FSIM兩種結構相似性評價指標中分別取得了0.928 8和0.961 3的成績,在總體結構性和主要結構部分相似性得到了很好的效果。而其余方法在評價指標中并不理想,與前述定性分析結論相一致。

表1 測試集金屬偽影去除結果平均指標對比
本文提出一種基于UNet的帶有注意力門架構的MAR的模型。模型充分利用注意力門結構強大的細節提取能力進行CT圖像的組織結構細節提取和恢復。在驗證實驗過程中,定性評估結果與定量結果指標均表明基于此監督數據集訓練出的注意力UNet模型可以成功抑制金屬偽影,并在重建圖像中能夠有效保留金屬周圍的組織結構和細節,與同類方法相比有著更好的性能。