郭 聰,楊 敏
(南京郵電大學 自動化學院、人工智能學院,江蘇 南京 210023)
隨著相機以及手機的普及,圖像成為人們獲取信息的重要媒介,人們對圖像質量的要求也越來越高。但圖像在采集過程中,經常受到外界信號擾動等因素的干擾,導致圖像出現噪點以及邊緣模糊等問題。因此,圖像去噪技術作為一種圖像處理技術,在保持圖像空間結構信息的前提下,將圖像中的噪聲移除,以此獲得高質量的圖像,為后續圖像處理打下堅實基礎。噪聲主要可以分為高斯白噪聲、椒鹽噪聲和真實噪聲等。當前圖像去噪算法可以分為兩大類,分別是傳統去噪算法和基于深度學習的去噪算法。
傳統方法主要利用圖像自身的結構特性進行去噪,如圖像的稀疏性、低秩性等。使用濾波器如雙邊濾波[1],利用圖像稀疏性如非局部集中稀疏表示法(NCSR)[2],基于塊匹配和三維變換域濾波(BM3D)[3]等。但此類方法依賴于圖像先驗信息,需要人工調參,普適性不強。
基于深度學習的去噪算法,隨著硬件發展,計算機算力得到解放。深度學習在計算機視覺領域得到了廣泛的運用[4-12]。深度學習去噪算法,通過學習退化圖像(噪聲圖像)與原始圖像之間的隱含映射來實現去噪,具有優良的性能。Zhang等[13]使用卷積神經網絡進行去噪,提出了DnCNN(denoising convolutional neural networks)。隨后Zhang等[14]將神經網絡提取的先驗與去噪模型相結合,提出了IRCNN(CNN denoiser prior for image restoration)。Zhang等[15]將噪聲等級圖引入深度網絡,提出一種可以處理多種噪聲的單一網絡FFDNet(fast and flexible denoising convolutional neural network)。為了進一步優化神經網絡的去噪性能,Tian等[16]將空洞卷積與普通卷積相結合,提出了增強卷積網絡ECNDNet(enhanced convolutional neural denoising network),進一步提高了網絡的感受野。
雖然上述基于深度學習的去噪算法,已經取得良好的效果,但依舊存在問題,去噪網絡會忽略圖像邊緣信息以及紋理特征。去噪網絡沒有關注到輸入圖像的邊緣信息,所以在恢復圖像的邊緣會模糊,同時局部紋理被平滑,導致在邊緣區域復原效果較差。因此,如何從有限的特征中提取圖像的邊緣以及紋理特征是后續去噪網絡的難點。
針對上述問題,該文引入了注意力機制。因為注意力機制可以關注圖像特征中感興趣的區域,所以進行了大量研究。Hu等[17]提出的通道注意力模塊(squeeze-and-excitation,SE)用來學習通道之間的相關性。Woo等[18]通過將空間注意力與通道注意力相結合,提出了CBAM(convolutional block attention module),更好地從通道和空間位置上學習特征圖之間的相關性。這兩種注意力機制通過池化操作和卷積來產生權重。而Yang[19]通過統計學規律提出SimAm(simple attention module),在無需參數的情況下學習特征圖每個位置上通道以及空間上的相關性。
在此基礎上,該文提出了一種基于無參注意力機制和特征融合的圖像去噪深度網絡(denoising network with nonparametric attention and feature fusion,NAFDNet)。主要工作如下:
(1)針對復原圖像邊緣信息模糊,圖像紋理不清晰,以殘差去噪網絡為基礎,提出一種基于無參注意力機制和特征融合的圖像去噪深度網絡(NAFDNet)。
(2)設計了一個注意力特征提取模塊,該模塊將普通卷積與空洞卷積相結合,加強了網絡的特征提取能力,利用無參注意力機制SimAm,從空間和通道兩個方面,關注特征圖中重要通道中的關鍵區域,使網絡可以恢復清晰的邊緣以及紋理細節。
(3)設計一個特征融合增強模塊,該模塊利用兩個1×1卷積自動學習全局特征圖與局部特征圖的權重,進而使網絡關注重要特征圖,能夠有效地融合全局特征和局部特征,獲得健壯的融合特征。
該文設計了一種基于無參注意力和特征融合的圖像去噪網絡(denoising network with nonparametric attention and feature fusion network,NAFDNet)。去噪網絡結構如圖1所示。

圖1 NAFDNet網絡框架
整個網絡主要由注意力特征提取模塊(attention feature extracted block,AFE)、特征融合增強模塊(feature fusion enhanced block,FEB)和3×3普通卷積層組成。在特征提取部分主要由4個注意力特征提取模塊來提取噪聲圖像的局部特征,內部引入SimAm無參注意力機制,從而使網絡關注圖像的高頻細節;在特征融合增強模塊,利用兩個1×1卷積自動學習全局特征與局部特征的權重,權重與對應特征圖相乘后相加,有效融合局部特征與全局特征。最后通過卷積層,預測圖像噪聲,利用殘差結構,得到干凈圖像。
1.2.1 SimAm模塊
SimAm根據人類視覺神經元同時注重空間注意力以及通道注意力提出了一種3d注意力模塊。與現有的通道和空間注意模塊相比,為特征層中的特征映射推斷三維注意權值(即考慮空間和通道維度),而不在原始網絡中添加參數。具體地說,基于一些神經科學理論優化一個能量函數,以找到每個神經元的重要性。通過設計在同一通道內目標神經元與其他神經元之間的線性可分性,來判斷該神經元是否應該被關注。通過推導能量函數的封閉形式的解,得到神經元的最小能量為:
(1)

因為注意力是通過加權實現,SimAm的公式如式(2)所示,其中E包括通道上和空間上所有神經元的能量的張量。

(2)
具體實現:已知輸入特征圖,其中C、H、W代表特征圖的通道數量、高度以及寬度。其中N代表H×W內像素數量減1。首先,沿著空間方向進行擠壓,求得每個H×W上的均值x。其次,求得X上的每個位置對同通道內空間位置求均值誤差的平方X'。再次求得每一個通道內X'/n的和t作為通道信息。最后,計算每個像素的能量大小。這種是利用統計學規律,計算自身能量,在不改變參數總量的情況下,從特征圖的空間位置以及通道兩個方面計算,可以自適應地調整特征圖每個位置的權重,進而關注有效特征,抑制無效特征。
1.2.2 注意力特征提取模塊架構
為了提取噪聲圖像的局部特征,該文堆疊了4個注意力特征提取模塊(attention feature extracted block,AFE),每一個特征提取模塊使用了殘差結構。因為殘差結構可以加快網絡的收斂速度。特征提取模塊將空洞卷積與普通卷積相結合來構建稀疏結構,不僅可以擴大網絡的感受野,還能有效提高去噪網絡的性能。它由5個卷積層組成,分別是2個普通卷積以及混合空洞卷積組。其中普通卷積是3×3卷積層,混合空洞卷積組是由3個擴張率分別為1、2、5的3×3卷積層構成,可以避免由單一擴張率帶來的網格效應。
為了關注特征圖的邊緣以及細節信息,在混合卷積和普通卷積構成的提取塊中,引入了無參注意力機制SimAm。注意力特征提取模塊的架構如圖2所示。

圖2 AFE結構
為了更好地提取圖像的細節信息,即圖像的邊緣以及紋理特征。在特征提取模塊中嵌入無參注意力機制SimAm模塊。對提取的特征從空間和通道位置上學習每個位置的相關性,進而自適應改變每個位置的權重,后與提取特征相乘,來關注重要特征,抑制無效特征。單個注意力特征提取塊的表達式如下所示:
(3)
其中,Fin表示輸入特征圖,Fout表示輸出特征圖,F3表示卷積核大小為3的普通卷積,Fd表示卷積核為3的混合空洞卷積組空洞率分別為1、2、5,f1是通過所有卷積得到的特征,Fs表示該文所使用的SimAm注意力模塊。
在設計的網絡中,將4個AFE模塊相連接,把上一個模塊的輸出作為下一個模塊的輸入,將得到的特征圖向下一個模塊傳遞。噪聲圖像往往具有一些復雜的紋理和邊緣,該文設計的模塊,可以使網絡關注圖像的紋理以及邊緣,同時減少參數的引入,提高特征傳播效率以及減少網絡占用的資源。
特征融合增強模塊(feature fusion enhanced block,FEB)主要由兩部分組成,即殘差模塊(residual block,RB)和特征融合塊(feature fusion block,FFB)。殘差模塊可以進一步提取局部特征。特征融合塊采用兩個1×1卷積學習特征圖之間的權重,權重與對應特征圖結合來關注重要特征圖,有效地融合圖像局部特征和全局特征,進而抑制噪聲信息。
文獻[20]采用簡化殘差模塊來提取特征,沒有使用批量歸一化層,可以提高計算速度,減少顯存。同時,批量歸一化會導致有些特殊特征的過度平滑,使得模型性能大幅下降,所以將殘差塊中的批量歸一化都移除。同時,為了獲得較大的感受野,對殘差塊做了改進,加入了空洞卷積,這樣可以更好地提取特征。此時殘差塊由3個卷積和2個ReLU函數組成,前2個卷積為普通卷積,而最后一個為擴張率為2的空洞卷積。改進殘差塊如圖3實線方框所示。
FFB模塊將第一層卷積層提取的特征圖作為全局特征和殘差模塊得到的特征圖作為局部特征進行特征融合:通過concat操作在通道上進行拼接,拼接后通道數為128,利用1×1卷積自動學習兩個特征圖的權重,得到兩個64通道的權重圖,分別對應于全局特征圖和局部特征圖,最后通過兩個權重和特征圖對應相乘后相加,得到融合的特征圖。
整個特征融合增強模塊的公式如下所示:
(4)
其中,Fd2代表卷積核為3、擴張率為2,Fd代表3×3卷積核,fglobal代表全局特征圖,R代表ReLU函數。
FEB結構如圖3所示。

圖3 FEB結構
損失函數采用均方差函數對網絡參數進行訓練,其數學表達式為:
(5)
其中,θ是NAFDNet網絡參數;R(yi;θ)是經過網絡訓練得到的殘差圖像(噪聲圖);yi是噪聲圖像,xi是干凈圖形,N為訓練樣本。
實驗平臺為Ubantu16.04系統,采用NVIDA GeForce 1080TI GPU進行模型的訓練和測試,使用PyTorch平臺搭建網絡框架。從Waterloo exploration[21]中挑選500張圖像和BSD400[22]的400張圖像作為NAFDNet的訓練數據集。訓練過程中,通過對訓練集圖像隨機旋轉90°、180°、270°和水平翻轉來獲取更多的增強圖像,裁剪為50×50的patch大小,增大訓練樣本數量,提升網絡的魯棒性。訓練采用Adam優化器,初始學習率為1e-3,β1、β2分別為0.9和0.99。訓練80個epoch,0~30的epoch的學習率為1e-3,31~60的epoch的學習率為1e-4,61~80的epoch學習率為1e-5。每次的batch size設置為16。灰度測試集采用Set12[23]。
實驗采用峰值信噪比(PSNR)和結構相似性(SSIM)作為網絡的去噪性能的客觀評價指標。
2.2.1 峰值信噪比(PSNR)
PSNR的計算公式如下:
(6)
PSNR的單位為dB,PSNR越大,表明MSE越小,代表兩個圖像相似度越高。
2.2.2 結構相似度(SSIM)
SSIM也是表示圖像x以及圖像y的結構相似性,公式如下:


當x與x一樣時,SSIM的值為1,所以SSIM的值越大,代表干凈圖像與去噪圖像相似度越大。
為了驗證網絡中各個模塊的有效性,設計了消融實驗,測試集選用Set12:(1)以未加入SimAm注意力模塊以及特征融合增強模塊(FEB)的網絡作為基線網絡(baseline,BL);(2)對提取的特征加入SimAm模塊,進一步關注圖像的紋理細節(baseline with SimAm,BL+SimAm);(3)加入特征融合增強模塊中的殘差塊,進一步提取局部特征(baseline with SimAm and residual block,BL+SimAm+RB);(4)特征融合增強模塊中保持殘差塊不變,驗證特征融合塊的有效性:將第一層卷積層提取的特征作為全局特征與利用殘差塊提取的局部特征融合,融合方式如圖4所示。

圖4 特征融合方式
(1)直接將全局特征與局部相加(baseline with SimAm and direct feature fusion,BL+SimAm+direct),如圖4中左側所示。(2)該文所使用的特征融合模塊,利用兩個1×1卷積來自動學習全局特征和局部特征的權重,以關注重要特征圖,進而有效融合全局特征和局部特征(baseline with SimAm and feature fusion enhanced block,BL+SimAm+FEB)。
由表1數據可知,在特征提取塊中引入SimAm注意力機制,對基線網絡的PSNR值上有0.05 dB的提升,說明SimAm機制可以有效提高網絡的去噪性能。就全局特征與局部特征相融合,文中方法與直接將兩者相加融合的方式的PSNR值高0.02 dB,同時具有更好的結構相似性,證實了提出的特征融合模塊的優越性。由最后一列可見,該文提出的模型比基線網絡的PSNR值上高出0.09 dB,同時具有較好的結構相似性,說明引入SimAm注意力機制,同時改進全局特征和局部特征的融合方式,可以改善去噪網絡的性能。

表1 消融實驗結果對比
在灰度圖上,為了驗證文中網絡的去噪性能,與DnCNN[13]、IRCNN[14]、FFDNet[15]和ECNDNet[16]四種去噪神經網絡進行實驗對比。實驗測試圖像采用Set12數據集,測試了高斯噪聲圖像去噪。噪聲圖像由人工合成,原圖作為干凈圖像用于性能對比。表中包括上述四種去噪網絡和文中方法在不同的高斯噪聲強度下的PSNR值及SSIM值。其中加粗的代表最好的結果,橫線代表第二好的結果。
由表2以及表3可見,提出的NAFDNet在不同的高斯噪聲強度下平均值都取得了最高的PSNR值以及SSIM值,證明NAFDNet具有較好的去噪性能。在表3中,NAFDNet在高斯噪聲強度為15與25的情況下,大部分測試圖的PSNR值均優于其他方法,少部分的測試圖的結果與最好的結果相差在0.05 dB以內。表3中,NAFDNet在所有高斯強度下的SSIM值都位于第一,第二,說明經過NAFDNet更好地恢復了圖像結構。綜上所述,NAFDNet在這兩項客觀指標上取得了比較好的結果,說明網絡具有較好的去噪性能。

表2 在Set12上不同方法去噪效果PSNR對比
除了PSNR和SSIM兩項指標,該文選取“Lena”來對比主觀視覺效果。“Lena”的去噪效果如圖5所示。
“Lena”圖像中,“Lena”的帽子含有大量的條紋,這些條紋數量較多,且分布密集,在去噪的過程中可能會被過度平滑。從圖5的局部區域放大區域中,DnCNN算法的帽子上的細紋在去噪過程中,很多紋理被去噪網絡平滑了,帽子上幾乎沒有細小條紋。FFDNet算法采用噪聲水平圖作為先驗,可以很好地匹配噪聲圖像的噪聲,恢復較好的噪聲圖像紋理細節,但仍然存在偽影。ECNDNet的恢復圖像是因為使用單一擴張率的空洞卷積導致紋理小部分缺失。而NAFDNet算法結果圖中的紋理效果相對更加完好,紋理細節更接近原圖。綜上所述,經過圖5的主觀視覺對比,進一步表明NAFDNet算法在保持圖像的紋理和邊緣結構上具有很大的優勢。

表3 在Set12上不同方法去噪效果SSIM對比

圖5 不同去噪算法對“Lena”的復原結果(σ=25)
隨著計算機算力的提升,深度學習在計算機視覺領域取得了很多成果。針對之前基于深度學習的圖像去噪算法存在的去噪圖像邊緣以及紋理不清晰等問題,提出一種基于無參注意力機制和特征融合的圖像去噪網絡。該方法將注意力機制引入特征提取模塊,從空間和通道上關注重要特征,有效提取關鍵信息;同時提出一種新的特征融合方式,更好地融合局部特征與全局特征。實驗結果表明,該去噪算法在灰度圖以及彩色圖上具有較好的客觀指標;同時,在主觀視覺效果上,去噪效果圖具有更加清晰的邊緣以及更豐富的紋理細節。未來將繼續研究去噪網絡在高光譜圖像上應用,從而進一步優化網絡結構。