周廣宇,張鵬程,劉生富,劉 祎,桂志國
(中北大學 生物醫學成像與影像大數據重點實驗室,山西 太原 030051)
計算機斷層掃描CT(computed tomography)是當今醫學診療中最為重要的成像方式之一,在臨床診斷中起到了極為重要的作用。然而CT掃描中使用的X射線輻射會對人體造成危害,為了減少這種危害,需要降低X射線的劑量,但通過降低X射線輻射劑量會導致圖像信噪比下降,低劑量CT圖像會出現嚴重的偽影與噪聲,為了改善圖像質量,低劑量CT圖像去噪便成為醫學成像領域內的重要研究方向。針對于低劑量的CT圖像去噪主要有3個方向:投影域方法、圖像域重建方法和后處理方法,本文針對后處理方法展開較為深入的研究。
隨著深度學習的不斷發展,已廣泛運用到圖像處理的領域中。使用卷積神經網絡CNN(convolutional neural network)可以達到更好的處理效果以及更快的處理速度。Chen等[1]將CNN運用到CT圖像去噪中,在此基礎上,Chen等[2]使用含殘差連接的編解碼器神經網絡(residual encoder decoder convolutional neural network)用于CT圖像去噪,能夠有效去除CT圖像中的噪聲偽影,但圖像容易出現過度平滑的問題。生成對抗網絡GAN(generative adversarial network)[3]提出后,Wolterink等[4]將GAN運用到CT圖像去噪中,改善了CNN易使圖像失真的缺點。但GAN也存在一些問題,例如在訓練中損失函數難收斂、生成器與鑒別器的訓練程度難以平衡、尺寸較小且結構混淆的噪聲去除不到位等;Yang等[5]在GAN的基礎上提出WGAN-VGG(generative adversarial network with Wasserstein distance and perceptual loss),該網絡引入了Wasserstein距離[6]來平衡生成器與鑒別器的訓練程度,并且使用VGG19模型[7]作為感知損失,對生成器網絡參數有一定的優化功能,所得圖像的質量明顯優于GAN的結果,但是在訓練中損失函數收斂較慢,且在有限的訓練次數下無法獲得質量好的去噪結果。同年,You等[8]采用多尺度損失函數提出SMGAN(structurally-sensitive multi-scale generative adversarial network),去噪結果可以在保留關鍵特征的同時有效去除噪聲,更適用于臨床診斷。Chi等[9]提出了基于U-Net的生成器及多級鑒別器的生成對抗網絡用于CT去噪,能夠更加有效去除噪聲與偽影,但該網絡結構復雜,訓練耗費時間長,不易得出最好的訓練結果。
本文提出的網絡模型是基于文獻[5]的改進,針對損失函數收斂慢的問題做出了改進,同時進一步提高了去噪的效果,對于CT圖像中的微小組織有著更好的恢復效果。

x=ψ(y)+ζ
(1)
去噪的過程是已知x,通過去噪模型去預測一個接近于y的結果,即式(2),當得到的結果越接近y,那么去噪效果就越好
y=ψ-1(x)
(2)
由于LDCT的噪聲具有復雜性,通過傳統的去噪算法很難得到與NDCT非常相近的圖像,而深度學習可以通過分層的多層框架從像素級數據中更高效學習圖像特征,從而達到更好的去噪效果。
生成對抗網絡(GAN)中包含兩個網絡,分別為生成器網絡G(generator network)與鑒別器網絡D(discriminator network),其原理是生成器與鑒別器不斷博弈,進而使生成器學習到真實數據的分布。生成器G是一個生成式的網絡,在網絡輸入端輸入一個隨機的噪聲z,將噪聲z輸入到生成器中生成圖片,生成的圖片表示為G(z)。D是判別網絡,可以判別輸入圖片是真實的還是由生成器生成的,當G(z)被輸入到鑒別器中,鑒別器將會輸出D[G(z)],它表示圖片為真實的概率,當經過反復的訓練,鑒別器D難以區分生成圖像與真實圖像時,則驗證生成器G的能力達到最優。生成對抗網絡在近年來被眾多學者用于低劑量的CT圖像去噪,其優勢在于鑒別器可以對生成圖像進行鑒別,從而能夠進行反復的學習,不斷調整網絡參數,最終使去噪結果更加銳利與清晰,改善了CNN在去噪中易使圖像過度平滑的問題。但生成對抗網絡中損失函數收斂慢,超參數難調整的問題依然存在。
為了克服上述問題,本文提出了基于編解碼器與多尺度損失函數的生成對抗網絡,網絡模型如圖1所示。在生成器網絡部分摒棄了WGAN-VGG中的單一卷積神經網絡,采用了含殘差連接的編解碼器結構,這一結構有利于緩解梯度消失與梯度爆炸,避免網絡退化等問題,能夠有效增強生成器G的去噪能力,加快生成對抗網絡的損失函數收斂。此外,為了使從輸入端到輸出端去除的噪聲與真實的噪聲盡可能相似,本文引入了噪聲損失函數,將這兩部分噪聲的均方誤差作為噪聲損失函數,通過反向傳播來優化生成器網絡中的參數,對圖像細節的保留起到了一定作用,使去噪后的結果更加接近NDCT。通過這兩部分的改進,有效改善了生成對抗網絡損失函數收斂速度慢的問題,對圖像細節部分的恢復也更加清晰。
在WGAN-VGG網絡中[5],生成器網絡含有8層卷積層,每層的卷積核均為32個,網絡比較簡單且所含參數較少,容易導致提取特征不充分,生成器輸出圖像質量差的問題。本文使用的生成器網絡借鑒[10]的編解碼器結構,以卷積層與反卷積層構成的編解碼器組成,且使用了殘差連接[11],將卷積層與反卷積層相連,能夠使生成器網絡更加有效且快速的提取特征,加快生成器損失函數的收斂。
第一,革蘭陰性菌或厭氧菌所致的盆腔炎,選用喹諾酮類廣譜抗生素,聯合抗厭氧菌制劑,其中喹諾酮類是治療婦科炎癥的常用藥。
在訓練過程中,當網絡更加深入時容易出現梯度消失或梯度爆炸的問題,網絡性能將會減弱,變得難以訓練。針對上述問題,生成器網絡中引入了殘差連接,如圖2所示,在我們的網絡中并不是直接學習從輸入x到輸出y的映射,而是擬合殘差,利用F(x)=y-x表示輸出與輸入的殘差,那么可以用R(x)=y=F(x)+x表示輸出,即可將直接映射轉化為殘差映射。殘差映射的優點首先在于優化殘差映射比直接映射更加容易,可以有效避免在訓練中當網絡加深時導致的梯度消失;其次,由于卷積層與反卷積層僅處理殘差,所以在反卷積層的輸出可以保留更多的結構與對比度細節,可以顯著提高圖像的視覺效果。

圖2 殘差連接的工作方式
本文的生成器網絡中共有5層卷積層與5層反卷積層,分別一一對稱,前5層構成了網絡的編碼器部分,后5層構成了網絡的解碼器部分。卷積層充當特征提取器,在保留圖像中的主要成分同時消除噪聲,反卷積層用于恢復圖像細節,避免圖像失真。在RED-CNN網絡中[2],每個卷積層與反卷積層的卷積核個數均相同,可能出現特征提取不足的問題,在本文中對此做出了改進,生成器網絡如圖3所示,每一層卷積層的卷積核個數分別為96、96、192、192、384,每一層反卷積層的卷積核個數與卷積層對應,分別為384、192、192、96、96,圖3中“n96 s1”的n為該層卷積核個數,s為卷積的步長,所以“n96 s1”即代表該卷積層含有96個步長為1的卷積核,同樣,“n192 s1”與“n384 s1”代表該卷積層含有192個與384個步長為1的卷積核。使用En(ei)表示編碼器,使用De(di)表示解碼器。則可以表示為式(3)、式(4)

圖3 生成器網絡
En(ei)=ReLU(Wi*ei+bi)i=1,2,…,k
(3)
De(di)=ReLU(W′i?di+b′i)i=1,2,…,k
(4)
在式(3)中,i代表卷積層數,Wi與bi分別代表權重與偏置項,*代表卷積算子,ei代表從前一層卷積層提取的特征。在式(4)中,?代表反卷積算子,di代表從前一層反卷積層得到的特征向量。由于池化層可能會使圖像丟失重要的細節,且該網絡層數較少,復雜度不高,所以在該網絡中舍棄了上采樣與下采樣的操作,僅在每層卷積層與反卷積層后采用ReLU線性校正單元進行校正。
鑒別器網絡結構如圖4所示,包含6層卷積層以及2層全連接層。其中的6層卷積層分別含有64、64、128、128、256、256個卷積核,卷積核的大小均為3*3,在卷積層后有兩層全連接層用于對之前的卷積層的特征做加權和,其中第一個全連接層有1024個輸出,第二個全連接層只有一個輸出。在鑒別器網絡中,每層卷積層后都添加了LeakyReLU校正函數,LeakyReLU函數是廣泛使用的ReLU激活函數的變體,該函數在負區域有著很小的正斜率,對于負的輸入值也能夠進行基于梯度的學習以及反向傳播,解決了ReLU函數進入負區間后,導致神經元參數不更新,無法學習的問題。

圖4 鑒別器網絡
生成對抗網絡中有兩個主要的損失函數,分別為生成器損失函數(generator loss)與鑒別器損失函數(discriminator loss),通過Wasserstein距離來衡量兩個損失函數的距離,使兩個損失函數接近全局最優點,將得到對抗損失函數,公式如下


(5)

(1)感知損失函數
該部分由預先訓練好的VGG19模型構成,將從生成器生成的圖像G(x)與NDCT圖像一同輸入到VGG19網絡中進行特征提取,根據式(6)來計算感知損失,隨后根據損失函數的值反向傳播來更新網絡的權重
(6)
式中:w、h、d分別代表特征空間的寬度、高度以及深度,由于VGG19網絡的輸入為彩色圖像,而我們輸入的CT圖像是灰度圖像,所以將圖像輸入VGG19網絡之前,將單通道復制3次成為三通道圖像,即可完成輸入。
(2)噪聲損失函數
在噪聲損失函數中,我們將計算兩部分的差,分別為NDCT與LDCT的差以及通過生成器生成的圖像G(x)與LDCT之間的差,隨后對兩部分的差求均方誤差,使用LN表示噪聲損失函數,如式(7)所示
(7)
式中:N為每張圖像中的像素總數,xn為第n張LDCT,yn為第n張NDCT。NDCT與LDCT的差為真實的噪聲,G(x)與LDCT的差為對LDCT進行一次去噪后去除的噪聲,計算這兩部分噪聲的均方誤差,再反向傳播回生成器網絡G中,使生成器過濾的噪聲與真實的噪聲更加接近,更好優化生成器的去噪能力。
綜上所述,可以得到整體的多尺度損失函數,如式(8)所示,其中λ1與λ2表示不同損失的權重,以便于平衡訓練,加快損失函數的收斂
(8)
本實驗使用開源的真實臨床數據庫,由Mayo Clinic授權的“the 2016 NIH-AAPM-Mayo Clinic Low Dose CT Grand Challenge”公開數據集。數據集均為3 ms的全劑量CT圖像與1/4劑量CT圖像,高劑量CT圖像與低劑量CT圖像分別一一對應,圖像大小均為512*512。本實驗從中隨機選取LDCT與NDCT相對應的圖像1364組作為訓練集,35組為測試集。
本實驗使用開源框架PyTorch,所使用的計算機中央處理器(CPU)型號為Intel?CoreTMi9-10900K,內存大小為64 GB,顯卡型號為NVIDIA GeForce?RTX3090,顯存為24 GB。
在本實驗中,我們將每張訓練圖像隨機裁成了10塊64*64大小的貼片,隨機裁剪將會數據庫得到擴充,不僅可以提高模型的精度,也可以增強模型的穩定性,同時減少了參數數量,加快了訓練的速度。經過多次超參數調整與訓練,最后確定的參數見表1,經過16個小時的訓練,得到了最終的模型。

表1 網絡中各項參數的值
本實驗使用峰值信噪比PSNR(power signal-to-noise ratio)和結構相似性指數度量SSIM(structural similarity index measure)這兩個指標來定量評估圖像質量。PSNR代表經過處理后的CT圖像質量,單位為dB,它的值越大代表處理后的圖像質量越高。SSIM是在[0,1]區間的數,本實驗中去噪結果的SSIM值越高,則與NDCT越接近,去噪效果越好。
本文同時復現了較為知名的去噪網絡模型RED-CNN、WGAN-VGG以及經典去噪算法BM3D的改進型算法[12],通過對比實驗來驗證本文去噪的效果。以下列出了兩組對比結果,均為測試集中的圖像。
圖5(a)為LDCT圖像,圖5(b)為NDCT圖像,圖5(c)為經典算法BM3D的去噪結果,圖5(d)為RED-CNN去噪結果,圖5(e)為WGAN-VGG去噪結果,圖5(f)為本文實驗的去噪結果。圖6為圖5(a)方框中感興趣區域部分的放大圖。從視覺效果看,圖6(d)RED-CNN網絡對噪聲的抑制效果很強,但會造成過度平滑的效果,框選區域內的細小組織相較于本文的結果較模糊;圖6(c)BM3D算法對噪聲有一定抑制效果,但在處理較為復雜的低劑量CT圖像上存在一定的劣勢,例如框選區域內的微小細節就無法恢復出其原有的形狀;圖6(e)WGAN-VGG網絡在處理微小細節上好于前兩種算法,但通過框選區域的對比,本文網絡對微小細節的處理顯然好于WGAN-VGG網絡。

圖5 第一組測試圖的各算法對比

圖6 圖5(a)方框中感興趣區域的局部放大
圖7為第二組對比結果,圖7(a)為LDCT圖像,圖7(b)為NDCT圖像,圖7(c)為經典算法BM3D的去噪結果,圖7(d)為RED-CNN去噪結果,圖7(e)為WGAN-VGG去噪結果,圖7(f)為本文實驗的去噪結果。圖8為圖7(a)方框中感興趣區域部分的放大圖。通過觀察可得,在處理較亮且組織較多的低劑量CT圖像時,圖8(c)BM3D算法會產生塊狀偽影,且難以將復雜的組織恢復,在框選區域可以明顯看出與NDCT的差別;圖8(d)RED-CNN網絡的問題依然是過度平滑,易將細微的組織當做噪聲處理,在框選區域的處理有明顯的誤差;圖8(e)WGAN-VGG網絡在圓形框選區域恢復形狀與NDCT不符,且在橢圓框選區域非常模糊,存在著平行偽影。由此可看出本文網絡模型的去噪結果在整體圖像質量與細節的恢復上有著明顯的優勢。

圖7 第二組測試圖的各算法對比

圖8 圖7(a)方框中感興趣區域的局部放大
表2與表3分別為圖5與圖7的各項圖像評估指標,通過對比可以發現,本文去噪網絡結果的PSNR值均高于另外3種算法的結果,SSIM值也僅次于RED-CNN去噪網絡,其原因是RED-CNN去噪網絡的效果對于噪聲的抑制有著非常明顯的效果,可以從圖中看出RED-CNN對于條形偽影的去除效果較明顯,所以其SSIM值更高。然而根據圖5及圖7的對比,可以很明顯看到RED-CNN去噪網絡會使圖像過度平滑,無法清晰的展現出與NDCT一樣清晰的紋理,而本文的去噪網絡不僅可以達到較好的去噪效果,且能較為清晰的復原出NDCT的一些細節,在視覺上的去噪效果明顯好于其它幾種方法,這對于實際中病理分析是更有意義的。

表2 圖5各算法PSNR與SSIM值對比

表3 圖7各算法PSNR與SSIM值對比
與WGAN-VGG網絡模型相比,本文的去噪模型所得結果在PSNR與SSIM兩項指標上均有著明顯的提升。通過圖像細節的對比,本文方法明顯改善了對圖像細節的恢復,在細小的部分更加銳利,更加接近NDCT圖像,有效提高了網絡模型的去噪性能。
BM3D為傳統去噪算法中去噪能力最優秀的算法之一,其去噪結果的各項指標也很優秀,然而其去噪結果對于圖像細節的處理較差,存在的塊狀偽影會影響圖像的視覺效果,整體圖像質量比深度學習的算法要略差一些,這也能夠體現深度學習算法的優勢。
圖9為WGAN-VGG與本文網絡訓練結果隨著Epoch增加PSNR的對比折線圖。從圖9中可以看出,WGAN-VGG網絡去噪結果的PSNR值并沒有隨著訓練的深入而趨于穩定,而本文網絡隨著訓練次數增加,所得結果PSNR值也在穩步增加,并且在訓練后期逐漸穩定。可以說明本文網絡在訓練中很穩定,并沒有出現訓練崩潰的問題,并且有效提高了去噪結果的圖像質量。

圖9 WGAN-VGG與本文網絡的PSNR值變化曲線
圖10與圖11分別為WGAN-VGG網絡與本文網絡的生成器損失函數(generator loss)與鑒別器損失函數(discriminator loss)隨著訓練次數增加的變化趨勢。從圖10可看出,在訓練初始階段,本文網絡的生成器損失函數值就已經很小,且隨著訓練深入,其值迅速收斂,趨近于0。而WGAN-VGG網絡的生成器損失函數值在結束300次Epoch之后仍未收斂。這是由于本文去噪網絡的生成器采用了編解碼器的構造且使用了殘差連接,增加了生成器網絡的復雜性,可以有效提高生成器輸出的圖像質量,從而降低生成器損失函數的值,使其迅速收斂。從圖11可看出兩個網絡的鑒別器損失函數值都在下降,但本文網絡收斂較快且損失函數值略低于WGAN-VGG。這也是得益于本文網絡生成器輸出的圖像質量高的緣故。

圖10 WGAN-VGG與本文網絡生成器損失函數值變化曲線

圖11 WGAN-VGG與本文網絡鑒別器損失函數值變化曲線
由此可得,本文對WGAN-VGG的改進能夠有效降低損失函數值并使損失函數值迅速收斂,改善了其訓練困難的問題。
本文主要針對生成對抗網絡訓練困難、損失函數收斂慢、去噪結果細節恢復較差的問題提出了改進型生成對抗網絡,使用了含殘差連接的編解碼器網絡作為生成器網絡,可以在提高生成圖像質量的同時降低生成對抗網絡訓練的難度,有利于損失函數的收斂。此外,引入了噪聲損失,與感知損失函數共同構成多尺度損失函數,通過反向傳播來優化生成器網絡中的參數,使去噪結果更加接近NDCT圖像,以達到更好的去噪效果。從圖像對比中可得,與輸入的低劑量CT圖像相比,去噪后圖像的PSNR值提升了8.1%,SSIM值提升了4.8%;與WGAN-VGG網絡模型的去噪結果相比,本文網絡模型去噪結果的PSNR值提升了3.4%,SSIM值提升了1.0%;從PSNR隨訓練深入的變化趨勢與損失函數隨訓練深入的收斂情況對比可得,本文網絡模型損失函數的收斂速度更快,在有限次的訓練中,所得去噪結果趨于穩定。綜上所述,本文的算法是可行有效的。
與此同時,本文算法也存在著一些不足之處,由于網絡結構復雜、參數較多,在GPU上運行時對顯存要求較高,在配置較低的計算機上難以實現該算法,且由于該算法復雜度高,在訓練中所耗費的時間較長。在未來的工作中,將針對網絡復雜度高、訓練時間長等問題做出改進,可通過添加已訓練好的模型來加快網絡訓練速度,同時,也將繼續針對圖像質量進行改善。