王 婕,羅靜蕊,岳廣德
1(西安理工大學 自動化與信息工程學院,西安 710048) 2(西安交通大學 數學與統計學院,西安 710049)
在圖像采集和傳輸過程中,原始圖像往往受到系統設備和傳輸通道所引入的噪聲影響,導致圖像有效信息的丟失,進而影響后續的圖像分析和處理,如圖像分割,目標識別,邊緣提取等.因此,圖像去噪技術在獲得更高質量的數字圖像方面發揮著重要作用.傳統的圖像去噪技術根據噪聲信號的統計和分布特性可以分為空間域方法和變換域方法.空間域方法用于處理二維空間域中的噪聲,例如高斯濾波方法[1,2],雙邊濾波方法[3,4]和中值濾波方法[5,6]等.變換域方法指的是使用一組正交函數將原始圖像分解到變換域中進行分析,例如小波變換方法[7,8],多尺度幾何分析方法[9,10]和偏微分方程方法[11,12]等.上述方法在圖像去噪領域發揮了重要作用,但需要手動調整參數以獲得更好的結果;此外,隨著圖像噪聲逐漸增大,會出現過擬合和自由度過大問題,造成去噪后圖像紋理細節丟失,產生模糊效果[13].
近年來,神經網絡得到迅速發展并廣泛應用于圖像處理領域,如圖像分類[14-16],目標檢測[17,18],動作識別[19,20]等.基于神經網絡的圖像去噪方法也得到迅速發展并取得了不錯的效果.使用神經網絡的圖像去噪方法有很多種,比如基于脈沖耦合神經網絡模型(PCNN)[21]、模糊神經網絡模型(FNN)[22]、卷積神經網絡模型(CNN).
最近,卷積神經網絡(CNN)得到越來越多的發展和應用.文獻[23]在多層感知機(MLP)的基礎上提出了經典的CNN模型,在具有更好的性能的同時網絡參數數量大大減少.CNN被廣泛應用于目標檢測[24,25],人臉識別[26,27]和文本分類[28,29]等領域中.最近幾年CNN也被廣泛應用于圖像去噪領域.文獻[30]采用梯度學習的卷積網絡來恢復含噪的圖像.文獻[31]提出了一種易于數值計算的基于卷積積分的圖像去噪變分模型,該模型在提高圖像信噪比的同時,可以更好地保持圖像的細節信息.文獻[32]提出生成對抗式卷積神經網絡(GAN)應用于圖像去噪,取得了不錯的效果.文獻[33]提出了一種具有殘差塊的殘差網絡(ResNet)結構,有效地解決了網絡在訓練過程中可能出現的梯度消失和梯度彌散問題.文獻[34]采用9層卷積神經網絡進行混合噪聲的去除,對不同類型、不同強度的含噪圖像進行了去噪處理,在主觀視覺效果和客觀指標上均取得良好的效果.文獻[35]使用一種迭代非盲解卷積的完全卷積網絡,可以保留圖像的細節和紋理信息.文獻[36]提出了一種由卷積子網和反卷積子網構成對稱式網絡結構,通過卷積子網學習圖像特征,并通過反卷積子網根據特征圖恢復原始圖像.文獻[37]提出了去噪卷積神經網絡(DnCNN),可用于處理未知噪聲水平的含噪圖像,與MLP以及三維塊匹配(BM3D)等傳統去噪方法相比大大提高了去噪性能.文獻[38]在卷積神經網絡的基礎上引入殘差優化,解決了卷積神經網絡在層數較多時,梯度在傳播過程中逐漸消失的問題,該方法在有效去除乘性噪聲的同時,可以更好地保留圖像的輪廓和紋理區域的信息.文獻[39]提出了不同深度的多分支自編碼器卷積網絡,該網絡在圖像細節不明顯的情況下可以更好地學習圖像細節.文獻[40]提出了一種多尺度擴張卷積神經網絡(MDCNN),該網絡通過使用不同尺度的卷積核提取圖像的有效信息,可以有效地恢復圖像的輪廓和紋理信息.文獻[41]提出了一種以原始三維數據為輸入的端到端三維去噪卷積神經網絡(3-D-DnCNN),實驗證明該網絡可以有效地抑制高斯噪聲.文獻[42]提出了一種基于改進聯合損失函數的卷積神經網絡圖像去噪算法,實驗表明該算法可以有效地提高強噪聲環境下的圖像去噪能力.文獻[43]提出深層殘差神經網絡(DRCNN)用于圖像高分辨率重建,實驗表明該網絡可以恢復更多的圖像細節.文獻[44]利用尺度感知邊緣保護濾波器對圖像進行細節恢復處理以更好地保留高頻信息.文獻[45]提出了一種多尺度門控融合網絡(MGFN)來進行圖像去噪,該網絡可以直接學習從損壞圖像到真實圖像的端到端映射,能較好地恢復圖像紋理信息.
為了進一步提高對圖像邊緣和紋理信息的恢復,本文提出一種改進的多尺度特征融合稠密殘差去噪神經網絡框架.本文使用一種并行網絡結構以結合不同深度的圖像信息.網絡中的每個分支由一些堆疊的殘差稠密塊構成,并且殘差稠密塊之間使用不同距離的遠程跳躍連接以克服網絡訓練過程中出現的梯度消失和梯度彌散問題并提高網絡訓練性能.另外通過將圖像的淺層特征和深層特征進行組合,并在每一分支內部各自接入多尺度特征融合模塊以獲取不同深度下的多尺度圖像特征信息.最后,采用殘差學習策略進一步增強網絡去噪性能.本文首先介紹所提出的網絡框架,然后通過不同方法的對比實驗證明所提出網絡的有效性.
傳統的卷積神經網絡由多個卷積層構成,卷積層的數表示網絡深度.理論上,隨著網絡深度的增加,對于噪聲的抑制效果更好,但在實際中過深的網絡會出現性能退化的問題,殘差網絡(ResNet)[33]的提出有效的解決了這一問題.ResNet網絡結構如圖1(a)所示,網絡由連續多個殘差塊(RB)堆疊而成.文獻[33]指出每個RB由一個或多個卷積層構成,通過加入跳躍連接使網絡更易優化,如圖1(b)所示為RB的結構示意圖.每個RB可由公式(1)表示:
(1)


圖1 (a)ResNet結構,(b)殘差塊(RB)結構Fig.1 (a)Structure of ResNet,(b)Structure of Residual Block(RB)
在傳統ResNet網絡的RB模塊中,只有輸入端與輸出端之間引入了跳躍連接.為了進一步改善網絡性能,以解決網絡訓練時出現的梯度消失和梯度彌散問題,本文首先使用改進的引入稠密連接的殘差稠密塊(RDB).RDB模塊具體結構如圖2放大部分所示,可以看到,RDB模塊中不僅包含輸入端與輸出端之間的遠程跳躍連接,而且在各卷積層之間引入不同距離的稠密跳躍操作.每個RDB可由公式(2)表示:
(2)

如圖1(a)所示的ResNet網絡是一個端到端的壓縮-解壓縮結構,殘差塊的數量反映了網絡的深度,較深的網絡可以更有力地抑制噪聲,但是會導致原始圖像信息的損失;較淺的網絡可以保留更多的原始圖像信息,但是不能很好地抑制噪聲.為了解決上述問題,本文使用具有不同深度的并行分支,將圖像的淺層特征和深層特征進行組合,使網絡可以同時學習如何有效地抑制噪聲以及如何保留更多有效的圖像信息.
由于大多數復雜圖像中存在輪廓和紋理的混合信息,這種情況下,使用單一尺度的卷積核往往不能提取不同尺度的圖像信息,導致圖像輪廓信息或者紋理信息的丟失.為了解決這一問題,本文使用多尺度特征融合的方法來提取不同尺度的圖像特征.本文所采用的多尺度特征融合塊(MFFB)結構如圖2放大部分所示,包括4組卷積核,大小分別為1×1,3×3,5×5和7×7.每組由32個卷積核組成,通過合并操作后共有128個卷積核.MFFB通過處理來自前一層的特征圖來提取圖像的多尺度信息,之后將4組多尺度信息組合在一起以獲得輸出特征圖.與傳統的單尺度卷積運算相比,多尺度特征融合方法可以更好地對圖像輪廓信息和紋理信息進行同時恢復.本文在使用具有跳躍連接與稠密連接殘差塊的并行分支基礎之上,在每一分支內部接入上述 MFFB模塊,以獲取不同深度下的多尺度圖像特征信息.最后采用殘差學習策略進一步增強網絡去噪性能.
通過上述操作,本文提出一種改進的多尺度特征融合并行稠密殘差網絡,網絡結構如圖2所示.網絡輸入為含噪聲的彩色圖像,被分成紅(R),綠(G)和藍(B)3個通道.網絡包括上下兩個不同深度的分支,上分支包括3個RDB,下分支包括5個RDB,且各RDB模塊之間使用不同距離的遠程跳躍連接.兩個分支經過連續多個RDB后各自接入一個MFFB,以獲取不同深度下的多尺度圖像特征.上下分支的起始層和末尾層均由一個卷積操作構成.隨后,上下兩個分支的輸出通過合并操作后再次連接到另一個MFFB模塊,以進一步提取圖像的多尺度特征信息.輸出的多尺度特征信息經過一個卷積操作,并且通過殘差學習得到三通道的去噪圖像.除MFFB模塊之外,網絡中的各卷積操作由相同數目的卷積核組成,本文設置卷積核的個數為64,大小為3×3.

圖2 多尺度融合并行稠密殘差網絡結構(殘差稠密塊(RDB)與多尺度特征融合塊(MFFB)見圖中放大區域)Fig.2 Structure of parallel dense residual denoising network based on multi-scale fusion(The Structure of Residual Dense Block(RDB)and the structure of Multi-scale Feature Fusion Block(MFFB)were showed in the zoomed of the figure)
本文所使用的殘差學習策略的網絡損失函數可表示為:
(3)
式中xn和yn分別表示原始圖像和含噪圖像,(yn-xn)表示真實殘差圖像,f(yn;θ)表示網絡的輸出.網絡的學習目標是xn和yn之間的差值,即噪聲信號,因此網絡輸出是預測的噪聲分布.最終的去噪圖像可以通過含噪圖像與殘差圖像的差值得到.本文使用Adam優化器來優化網絡參數,通過求解公式(3)中的最小值問題,可以獲得去噪圖像的最佳預測結果.
ResNet采用標準整流器線性單元(ReLU)將整個系統轉換為一個非線性系統,以提高網絡的表達能力和梯度計算的穩定性.ReLU激活函數可表示為:
ReLU=max(0,a)
(4)
式中a表示網絡中任意一層的輸出向量.網絡中輸入數據在經過一系列非線性處理后,很容易導致數據分布的變化.因此本文對每個卷積層引入批量歸一化操作(BN)以減慢內部協變量的傳遞并降低網絡對初始化權重的敏感性,可以加速收斂并提高網絡性能.
本節通過數值實驗說明所提出網絡的性能,網絡在Tensorflow環境中進行訓練,安裝環境為擁有Nvidia GeForce?MX250 GPU和Inter Core i5-8265U CPU的計算機.
本文所使用圖像來自BSD300數據集,該數據集包含大小為256×256像素的彩色圖像.選擇其中200張圖像來生成訓練集,并加入高斯白噪聲進行訓練.在實際中,數據通常非常珍貴,因此需要充分利用有限的數據資源.本文使用數據增廣操作,如裁剪,旋轉和顏色亮度變化等達到增加圖像數量的目的.首先對每幅所選圖像進行1、0.9、0.8、0.7倍的放縮,然后使用滑動窗口將縮放的圖像裁剪成尺寸為40×40像素的小塊圖像,滑動窗口在水平和垂直方向上的滑動步長均為20個像素點.隨后將獲得的小塊圖像依次進行垂直翻轉、水平翻轉、順時針旋轉90°、180°、270°的數據增廣操作,為網絡構建一個足夠充分的訓練集.
通過上述的數據增廣操作得到38280幅不含噪聲的原始圖像,隨后將高斯白噪聲添加到原始圖像中生成含噪圖像.為了測試噪聲強度對網絡性能的影響,添加具有不同標準差σ的噪聲來生成不同的訓練集,即將σ= 10,20,…,60的高斯白噪聲分別添加到原始圖像中以生成不同噪聲強度的訓練集.在訓練過程中訓練圖像被分批輸入,以減少計算量并避免局部極值問題.在本文中將批量大小(即每一步訓練的圖像數量)設置為256,迭代次數為120次.每次迭代包含150步,因此共有18000步.
為了定量評估網絡性能,使用彩色峰值信噪(Color Peak Signal to Noise Ratio,CPSNR)和結構相似性指數(Structrual Similarity Index,SSIM)作為衡量去噪結果的標準.CPSNR[46]定義為:
(5)
式中x(h,w,t)和z(h,w,t)分別表示原始圖像x和去噪圖像z的第t個顏色通道中坐標位置為(h,w)的像素值.H和W分別表示圖像的長和寬.
SSIM[47]用于測量兩個圖像之間的相似性,定義為:
(6)
式中μx和σx分別表示原始圖像x的均值和標準差,μz和σz分別表示去噪圖像z的均值和標準差,σxz是x和z之間的協方差.C1和C2是用于保持方程穩定的兩個常數,通常設置為C1=(K1×K)^2,C2=(K2×K)^2,其中K1=0.01,K2=0.03,K=255.
本節通過對比不同去噪方法證明所提出網絡的有效性.進行對比的方法分別有中值濾波方法、小波變換方法、維納濾波方法、BM3D、DnCNN[37]、ResNet[33]、MDCNN[40]及DRCNN[43].其中,DnCNN、ResNet、MDCNN、DRCNN與本文方法屬于神經網絡方法.使用的測試圖片(如圖6所示)不包含在訓練集中,測試圖片大小為256×256像素.
表1和表2分別顯示了在不同噪聲強度干擾下,采用幾種方法進行去噪的CPSNR(dB)指標和SSIM指標的對比結果.可以看出,本文所提出方法的CPSNR和SSIM指標高于其它幾種方法,說明本文方法的去噪性能優于其它幾種方法.為了進一步更明顯的顯示對比結果,圖3和圖4分別給出了當噪聲標準差分別為30和50時,不同網絡結構的CPSNR和SSIM指標隨著迭代次數變化的情況.可以看出多尺度融合的并行殘差稠密網絡相比于其他兩種網絡CPSNR指標和SSIM指標更高,從而可以反映出改進的網絡性能更優異.圖5呈現了DnCNN、ResNet、MDCNN、DRCNN與本文方法的網絡損失函數曲線隨迭代次數的變化,圖中網絡損失值已歸一化.從圖中可以看出隨著迭代次數的增加,本文方法相比于DnCNN、ResNet、MDCNN、DRCNN方法網絡損失更小.

表1 不同方法的CPSNR(dB)對比結果Table 1 Comparison of CPSNR(dB)from different methods

表2 不同方法的SSIM對比結果Table 2 Comparison of SSIM from different methods

圖3 標準差為(a)30和(b)50時5種網絡結構CPSNR(dB)隨迭代次數變化的對比結果Fig.3 Comparison of the CPSNR(dB)from five network structures with the number of iterations for(a)σ=30,(b)σ=50

圖4 標準差為(a)30和(b)50時5種網絡結構SSIM隨迭代次數變化的對比結果Fig.4 Comparison of the SSIM from five network structures with the number of iterations for(a)σ=30,(b)σ=50

圖5 網絡損失隨迭代次數變化的對比結果Fig.5 Comparison of the loss with the number of iterations
圖6直觀顯示了在噪聲標準差分別為30和50時,不同方法的去噪圖像對比.圖中將方框標記部分進行了局部放大,并在左上角顯示了局部放大結果.另外,圖中還展示了去噪圖像與原始圖像的殘差圖像.可以看出,本文方法對圖像有效信息的損失更少,重建圖像的視覺質感更好,且恢復的圖像紋理和邊緣信息更清晰,具有更好的去噪性能.

圖6 不同噪聲強度下不同方法去噪結果對比Fig.6 Comparison of denoised results from different networks for different noise
本文提出了一種改進的多尺度融合并行殘差稠密去噪網絡架構,在具有不同深度的網絡分支內部使用具有不同距離的跳躍連接和稠密連接的殘差塊,以解決網絡梯度消失和梯度彌散的問題.對圖像的淺層特征和深層特征進行組合,并在每一分支內部各自接入多尺度特征融合塊以獲取不同深度下的多尺度圖像特征信息.此外,通過引入殘差學習策略并添加BN操作以進一步提高網絡性能.本文使用具有不同標準差的高斯白噪聲創建訓練集,利用CPSNR和SSIM值進行網絡性能評估.數值算例證明了本文所提出方法的有效性,與各種不同的去噪方法相比,本文所提出的網絡在恢復圖像邊緣信息和紋理信息方面具有更好的性能.在今后的工作中將著重研究混合噪聲情況下的網絡去噪性能.