
















摘 要:近年來,基于深度學習的運動模糊去除算法得到了廣泛關注,然而單幅散焦圖像去模糊算法鮮有研究。為針對性地解決單幅圖像的散焦模糊問題,提出一種基于循環神經網絡的散焦圖像去模糊算法。首先級聯兩個殘差網絡,分別完成散焦圖估計和圖像去模糊;隨后,為了保證散焦圖和清晰圖像的深度特征可以更好地跨階段傳播以及階段內相互作用,在殘差網絡中引入LSTM(long short-term memory)循環層;最后,整個殘差網絡進行了多次迭代,迭代過程中網絡參數共享。為了訓練網絡,制作了一個合成散焦圖像數據集,每一張散焦圖像都包含對應的清晰圖像和散焦圖。實驗結果表明,該算法相較于對比算法在主客觀圖像質量評價上均有顯著優勢,在復原結果中具有更銳利的邊緣和清晰的細節。對于真實雙像素圖像散焦模糊數據集DPD,該算法相比DPDNet-Single在峰值信噪比(PSNR)和結構相似性(SSIM)上分別提高了0.77 dB、5.6%,因此所提方法可以有效處理真實場景散焦模糊。
關鍵詞:圖像去模糊;散焦模糊;散焦圖估計;循環神經網絡
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2022)07-046-2203-07
doi:10.19734/j.issn.1001-3695.2021.11.0635
基金項目:國家自然科學基金資助項目(62172127,61801326)
作者簡介:程文濤(1997-),男,安徽安慶人,碩士研究生,主要研究方向為計算機視覺和深度學習;任冬偉(1988-),男(通信作者),河北唐山人,副教授,博導,博士,主要研究方向為計算機視覺和機器學習(rendongweihit@gmail.com);王旗龍(1989-),男,黑龍江佳木斯人,副教授,碩導,博士,主要研究方向為視頻圖像分類、物體檢測、深層概率分布建模.
Defocus deblurring algorithm based on deep recurrent neural network
Cheng Wentao1,Ren Dongwei2?,Wang Qilong1
(1.College of Intelligence amp; Computing,Tianjin University,Tianjin 300350,China;2.School of Computer Science amp; Technology,Harbin Institute of Technology,Harbin 150001,China)
Abstract:Recent years,the motion deblurring algorithm based on deep learning has been widely concerned,while single defocus image deblurring is rarely studied.In order to specifically solve the defocus blur problem of single image,this paper proposed a defocus deblurring algorithm based on deep recurrent neural network.Firstly,the algorithm used two cascaded residual networks to estimate the defocus map and image deblurring,respectively.After that,to ensure that the depth features of defocus map and clear images could better propagate across stages and interact within stages,the algorithm introduced LSTM(long short-term memory) as a recurrent layer in the residual network.Finally,the whole residual network underwent several iterations and reused the network parameters during the iterative stages.To train the network,this paper produced a synthetic defocus blur image dataset,where each defocus blurred image contained a corresponding clear image and defocus map.The experimental results show that,compared with existing defocus deblurring methods,the proposed algorithm has significant advantages in both the subjective and objective image quality evaluation,and can produce sharper edges and clear details in the restoration results.On the real defocus blur dual-pixel image dataset DPD,the proposed algorithm improves the peak signal-to-noise ratio(PSNR) and structural similarity(SSIM) by 0.77 dB and 5.6%,respectively,compared with DPDNet-Single.Therefore,the proposed method can effectively deal with defocus blur in real scenes.
Key words:image deblurring;defocus blur;defocus map estimation;recurrent neural network
0 引言
圖像模糊是圖像退化的一種常見表現形式,是圖像獲取過程中不可避免的問題。依據成像過程影響因素的不同,圖像模糊大體可分為運動模糊和散焦模糊兩類。前者是由于拍攝設備與拍攝對象間的相對運動所造成的,而后者大多是由于光學成像系統的有限景深(depth of field,DoF)這一固有屬性所導致的。圖像模糊從人類感官角度嚴重影響視覺效果,從圖像處理角度不利于后續進行的目標檢測、語義分割等計算機視覺任務。因此從原始的模糊圖像中恢復干凈的清晰圖像,即圖像去模糊(image deblurring),已經成為底層計算機視覺和圖像處理領域的研究熱點,同時該課題也是一個典型的不適定問題(ill-posed problem)。
一般地,假設模糊圖像B是由原始清晰圖像I和模糊核K卷積,再疊加高斯白噪聲N生成,數學表達式如下:
B=IK+N(1)
其中:表示二維空間卷積運算。圖像去模糊旨在由模糊圖像估計出原始清晰圖像,根據模糊核是否已知可將圖像去模糊算法分為非盲去模糊和盲去模糊兩類。盲去模糊是在模糊核未知的條件下,僅通過模糊圖像估計出模糊核與清晰圖像,實現端到端的圖像復原,這與現實的應用場景較為貼切。非盲去模糊是先進行模糊核估計,再利用估算出的模糊核對模糊圖像進行解卷積(deconvolution),從而恢復出清晰圖像。而根據圖像中各處模糊核是否一致,圖像的模糊類型可分為均勻模糊(空間不變模糊)和非一致性模糊(空間變化模糊)。前者表明圖像中各像素點的模糊程度相同,即任意位置像素點的模糊核相同,后者則與之相反。
實際場景中的散焦模糊屬于典型的空間變化模糊,圖像中不同空間位置的像素點由于場景深度的差異呈現不同的模糊程度,所以針對散焦模糊的盲復原研究具有重要的理論和應用價值。近年來,得益于深度神經網絡強大的特征表示和非線性擬合能力,再輔以從訓練樣本中發掘的先驗知識,大量基于學習策略的去模糊工作都取得了優異的效果。研究者們設計不同的神經網絡模型一般應用于模糊核的估計[1~3]和模糊圖像到清晰圖像的映射[4~7],或者兩者兼具[8]。現有的圖像去模糊工作,其研究對象大多為運動模糊,而散焦模糊的非均勻程度更為嚴重,因此這些去模糊深度網絡應用于散焦圖像無法直接進行有效復原。涉及散焦模糊的相關工作,現階段局限于散焦圖(defocus map)估計[9~14]和模糊檢測[15~21],單獨針對散焦模糊這一特定模糊類型的圖像復原方法和數據都較為稀缺。最近,有學者基于雙像素傳感器構建了散焦模糊數據集DPD[22],并提出DPDNet-Dual[22]利用雙像素信息去除散焦模糊。然而雙像素圖像去模糊方法DPDNet-Dual受限于硬件設備,且其單張圖像去模糊方法DPDNet-Single[20]性能仍有待提高。
散焦模糊是一種非均勻模糊,去除散焦模糊的常用策略是首先將單幅散焦模糊圖像對應的散焦圖估計出來,進而利用該信息去引導去模糊。散焦圖估計,其本質是估算出單幅散焦模糊圖像每個像素點的模糊量。對于散焦圖估計,已有的大多數工作首先檢測圖像邊緣,估算出邊緣周圍的模糊量,然后將結果通過插值推廣到周圍的均勻區域。文獻[23,24]使用圖像梯度作為局部模糊線索,并計算原始圖像和再模糊圖像邊緣之間模糊線索的比率,從而得到邊緣位置的模糊量。Tang等人[25]通過建立空間變化的散焦模糊量與邊緣位置處的光譜對比度之間的關系,先估計邊緣位置處的模糊量,再通過非均勻優化步驟傳播邊緣位置處的模糊量來獲得完整的散焦圖。Shi等人[26]提出了一種有效模糊特征,利用稀疏表示和圖像分解來檢測明顯模糊,但該方法在解決大尺寸的散焦模糊時效果不佳。Xu等人[27]針對邊緣位置的散焦模糊提出了一種快速高效的方法,該方法利用了梯度域中具有不同方向的圖像子塊具有最大秩的性質。Park等人[28]提出了一種基于手動設計特征和深度特征的方法,其中深度特征來源于預先訓練的模糊分類網絡,將組合特征向量輸入到回歸網絡中,估算出邊緣上的模糊量,然后再對圖像進行去模糊。所有這些方法通常僅依賴于在圖像邊緣周圍定義的特征,因此從邊緣插值到均勻區域的模糊量往往不太準確。最近的工作Lee等人[11]首次使用端到端(end-to-end)的深度神經網絡架構,直接估計精確的散焦圖,避免了邊緣檢測等煩瑣步驟,并通過域自適應(domain adaptation)對現實場景散焦圖像作出較好的散焦圖估計。
近年來,深度學習技術廣泛應用于圖像去模糊任務,在復原效果和效率上均取得了優異的結果。深度神經網絡采用數
據驅動的方式處理圖像去模糊問題,可建立由模糊圖像到模糊核的映射關系,Schuler等人[2]遵循由粗到精的策略將多個CNN(convolutional neural network)進行堆疊,來模擬基于優化的復原方法中交替最小化步驟,以此實現對模糊核的估算。利用模糊圖像的頻譜特性,Chakrabarti[1]通過有監督網絡預測了傅里葉系數,進而得到頻域中的反卷積核。針對復雜的非均勻運動模糊,Sun等人[29]使用CNN完成了對有參模糊核的估計。
對于動態場景去模糊,近期許多工作為了規避模糊核估計的準確性[30]對復原質量的影響,采用深度神經網絡來學習模糊圖像到清晰干凈圖像的直接映射。受盲反卷積中的多尺度策略所啟發,Nah等人[4]通過多尺度的深度網絡來逐步還原清晰的圖像,Tao等人[6]則在此基礎之上引入循環網絡實現跨尺度共享網絡權重,起到了降低參數數量和提升復原性能的效果。隨著GAN(generative adversarial networks)在底層計算機視覺領域應用的興起,且由GAN生成的圖像保留了豐富的紋理細節,Kupyn等人[31]將圖像去模糊視做一個圖對圖的轉換問題,提出了基于條件生成對抗神經網絡和多元損失函數的DeblurGAN。此外,通過利用相鄰幀之間的時間信息,深度網絡也被應用于視頻運動模糊的去除[32~34]。
綜上,已有的圖像去模糊工作重點關注的模糊類型為運動模糊,而空間變化更加復雜的散焦模糊缺乏有針對的復原方法?;诖?,本文從數據和算法兩個方面對散焦去模糊問題展開探討,提出了一種基于循環神經網絡的散焦圖像去模糊算法,其主要貢獻如下:
a)提出了一種遞歸復原網絡,可實現單張散焦圖像的漸進式去模糊,可同時估計出散焦圖和復原圖像。
b)制作了合成散焦圖像數據集,每一張散焦圖像都有對應的散焦圖和清晰圖像,且在該數據集上,本文提出的方法相比于其他去模糊算法具有顯著優勢。
c)在真實散焦圖像數據集DPD的測試結果表明,本文提出的復原網絡相較于近期提出的DPDNet[22]在客觀指標和感官效果上均有較大提升,復原圖像具有更清晰的邊緣結構和豐富的紋理細節,驗證了該算法在真實場景中的實用性。
1 合成散焦圖像數據集
基于學習策略實現散焦圖估計及去模糊需要大量的成對訓練樣本,故符合研究所需的高質量數據集至關重要。然而,現有的散焦模糊相關數據集大多用于模糊檢測,相應散焦圖均為二值化數據,這與去模糊所需的散焦圖存在一定差距,且圖像尺寸較小。為此,本文制作了合成散焦模糊數據集,利用全焦清晰圖像和對應的深度圖,合成連續散焦模糊圖像及對應的散焦圖。
在現實的光學成像系統中,當像距、物距和焦距之間的關系滿足聚焦成像的特定約束條件時,點光源可經過透鏡聚焦到感光器件或膠片上,從而獲得清晰圖像;當不滿足該條件時,點光源經透鏡發散為一定尺寸的模糊圓,此時成像模糊,且圖像的散焦程度與模糊圓直徑正相關。設透鏡焦距為F,物體空間的對焦距離為S1,光圈大小為D=F/N(N為整數), c(x)表示在物距為x時點光源在像平面對應彌散圓直徑,光學透鏡成像結構如圖1所示。
由幾何光學成像原理可知:1/S1+1/f1=1/F,解得像空間的對焦距離為f1=FS1/(S1-F),結合相似三角形的性質,可求得彌散圓的直徑:
c(x)=α|x-S1|x,α=f1S1D(2)
故彌散圓直徑c(x)為物距x的函數。而散焦圖像的散焦程度大小與彌散圓有直接關系,彌散圓越大,散焦圖像的散焦程度越大,圖像越模糊。因此利用圖像的深度信息,可以合成接近現實光學模型的連續散焦模糊圖像[35]。
為了合成模糊圖像,先根據深度圖確定場景中的最近點和最遠點的物距,分別為xnear和xfar。同時,相機參數中的物體空間對焦距離S1在[xnear,xfar]隨機生成,以此模擬現實場景中不同的對焦配置。在按照上述c(x)表達式求相應模糊量的過程中,α可以抽象出相機的各個參數。在實際操作中,x不可能無限趨近于0,即被拍攝物無限接近相機鏡頭。為了使合成數據更貼合現實場景,本文將彌散圓大小限制在一個固定值cmax以下,因此α相應存在一個上限值,可表示為
αup=cmax.min(xfar|xfar-S1|,xnear|xnear-S1|)(3)
則α在[0,αup]隨機生成。針對散焦模糊的退化過程,本文引入標準差為δ的高斯分布作為其點擴散函數,且標準差δ與彌散圓直徑c(x)有如下關系:
δ(x)=ρ·c(x)(4)
其中:ρ 為相機的一個標定常數,通常表示每平方英寸含像素的數量,本文取1/4。
合成散焦模糊的過程中,需要參照原始清晰圖像的深度圖計算出的彌散圓的尺寸,因此首先依照圖片的深度信息進行離散化分層,綜合考慮計算復雜度和合成效果,本文將分層數的上限設定為350;然后計算出每一層對應高斯模糊核的標準差δ(x),并將高斯模糊同時應用于該層的圖像和掩膜上;最后,使用加模糊的掩膜作為Alpha 值,按從后到前的順序對所有加模糊的分層圖像進行Alpha混合。至此,合成了模擬真實場景的連續散焦模糊圖像,且每一張散焦圖像有與之相匹配的連續散焦圖和原始清晰圖像作為復原標簽。
合成數據集的源圖像來源于以下三個數據集,即MPI Sintel Flow(MPI)[36]、SYNTHIA[37]和Middlebury Stereo 2014(Middlebury)[38],源數據集的每張清晰圖像均有相應的深度圖,該點滿足了本文需要生成連續散焦圖的需求。MPI數據集包含一系列游戲場景渲染圖片,共1 064張;SYNTHIA數據集包含一系列合成街景圖片,共896張;Middlebury數據集包含一系列由深度相機拍攝的真實室內場景圖片,共46張。綜合可得源清晰圖像2 006張,其中1 906張用于生成訓練集,100張用于生成測試集。訓練集中,每張源圖像隨機產生3張參數不同的模糊圖像,共1 906×3=5 718 張;測試集中,每張源圖像隨機產生2張參數不同的模糊圖像,共100×2=200張。
2 散焦模糊圖像漸進式復原網絡
2.1 網絡結構
處理散焦模糊時需要較大的感受野和豐富的空間信息,但簡單地增加模型的網絡深度并不能促進模糊估計的準確性和散焦圖像的復原效果,反而會引入一些新的問題,如參數量增加導致訓練難度大、推理階段消耗更多時間和計算資源、復原圖像存在過平滑現象。本文模型通過多階段展開殘差網絡Rm和Rx組成,以漸進式策略完成散焦圖估計和圖像去模糊,網絡結構如圖2所示。
整體模型架構屬于漸進式網絡,是由同一個子網絡分T階段循環展開,而該子網絡又是由兩個殘差網絡Rm和Rx耦合而成。處于t階段時,首先通過殘差網絡Rm完成對單幅散焦模糊圖像的散焦圖估計;然后利用殘差網絡Rx在Rm輸出的散焦圖的輔助下,以非盲策略去除散焦模糊,最終輸出復原圖像,過程可以定義為
mt=Rm(y,mt-1),xt=Rx(y,mt,xt-1)(5)
其中:Rm和Rx是兩個相互耦合的殘差網絡;m是散焦圖;y和x分別是原始圖像和復原圖像。
如圖2所示,殘差網絡Rm主要由四部分構成:第一部分是輸入卷積層,包含一個3×3卷積層(輸出32通道)和一個ReLU激活層,對輸入進行特征提取;第二部分的循環層接收輸入卷積層提取的深度特征,并在網絡循環的過程中保留來自上一循環階段的信息,包括Rm中的散焦圖信息和Rx中的圖像信息;第三部分殘差模塊用于提取和傳遞深度特征,由若干殘差塊堆疊而成,每個殘差塊包含兩個3×3卷積層(輸出32通道)和兩個ReLU激活層;第四部分由單獨的卷積層(輸出3通道)完成從多通道特征到散焦圖的轉換。對于殘差網絡Rx,其網絡結構與Rm完全一致。
為了散焦圖和清晰圖像的深度特征可以更好地跨階段傳播以及階段內相互作用,本文在殘差網絡Rm和Rx均引入了循環層。循環神經網絡常應用于自然語言處理,但近期在底層計算機視覺領域中,LSTM [39,40]的使用[41]為模型帶來更大的感受野和更多的上下文信息,使其在圖像復原任務中表現優異。因而,本文采用兩個LSTM添加進Rm和Rx中充當循環層,以實現深度特征在階段內和跨階段的雙邊傳遞,實現細節如圖3所示。
通常情況下,標準的 LSTM 包含有遺忘門f(forget gate)、i輸入門(input gate)、o輸出門(output gate)三個門層,以及一個隱藏層h(hidden state)。如圖2所示,跨階段的信息傳遞依賴于Rm和Rx中各自的循環層,即在Rm 中隱藏層htm受前一階段隱藏層ht-1m的影響,在Rx中隱藏層htx受前一階段隱藏層ht-1x的影響;而在同一階段內,Rm和Rx 的相互作用取決于hm和hx的雙向流動。
以殘差網絡Rm 中的循環層為例,處于t階段時,循環層接收當前階段卷積層輸出的深度特征ztm,以及前一階段的Rm 中隱藏層ht-1m和Rx中隱藏層ht-1x,各層狀態的更新公式為
其中:fm(·)表示卷積輸出;表示二維空間卷積運算;*表示按元素乘;δ表示 sigmoid 激活函數;W和b是相應的權重矩陣和偏置項。鑒于Rx中的循環層與之類似,故本文不重復展開討論,但需要注意的細微差別:由于Rm和Rx存在先后的級聯順序,Rm只能經循環層接收前一階段Rx 的信息傳遞,相反,Rx可受同階段來自于Rm 的影響。
2.2 損失函數
為了優化本文的漸進式復原網絡,本文將損失函數表示為散焦圖損失Lm和圖像損失Lx的組合:
L=αLm+βLx(7)
其中: α、β為超參數,用于調整兩種損失在總損失函數的權重。式(7)為參數更新提供了梯度,同時也決定了生成網絡模型收斂的方向。散焦圖損失Lm監督散焦圖估計的準確性,圖像損失Lx則直接反映復原結果與真實清晰圖像的差距,區別于散焦圖估計結果需要逐像素地對比,在結構相似層面約束復原結果可以得到更滿足人類視覺系統的去模糊效果,故而本文分別選擇MSE(mean squared error)和負SSIM[42] (structural similarity)作為兩者的損失函數,定義如下:
Lm(m,mgt)=‖m-mgt‖2,Lx(x,xgt)=-SSIM(x,xgt)(8)
其中:(·)gt表示相應的標簽圖(即ground-truth)。
3 實驗分析
本章分別在合成散焦圖像數據集和真實散焦圖像數據集上進行實驗,展示了實驗細節,評估了模型性能并分析了結果。本文實驗的硬件平臺為配有兩塊NVIDIA TITAN 2080Ti GPU的工作站,CPU型號為Intel CoreTM i7-7800X CPU @ 3.50 GHz,軟件環境為64位Ubuntu 16.04操作系統,CUDA10.0。
本文使用PyTorch深度學習框架實現算法模型,實驗數據選擇第1章中所介紹的合成數據集,并采用被廣泛應用在圖像質量評價的峰值信噪比(peak signal-to-noise ratio,PSNR)和結構相似性SSIM作為散焦圖像去模糊后的圖像質量的參考評價指標。數據集中的圖片尺寸各不相同,訓練時的輸入圖像隨機截取100×100尺寸大小,并通過隨機翻轉和旋轉進行數據增廣,以防止過擬合。訓練過程中批大小為16,使用Adam優化策略,學習率初始值設置為1×10-3,訓練周期總數為100,并分別在第30、50、80個周期時,學習率進行系數為0.2的線性衰減。
3.1 合成散焦模糊圖像實驗
3.1.1 消融實驗
1) 網絡迭代展開次數的影響 本文提出的模型為漸進式網絡,殘差網絡Rm和Rx耦合而成的子網絡共迭代T次,對輸入的散焦模糊圖像完成逐步復原。為了探究T不同取值情況下對復原質量與效率的影響,本文進行了6組對比實驗, T= 4,5,6,…,9,實驗結果如表1所示。當Tgt;8,可以觀察到網絡的復原性能出現下降,該現象可能是由于網絡中過長的反向傳播距離而造成的。為了在復原質量和效率上作出均衡的選擇,后續實驗所涉及的模型及其變體的總階段數設定為T=8。
如圖4所示,在合成散焦圖像數據集上測試本文提出的漸進式網絡(T= 8),分別選取t = 2、4、6、8時各階段的輸出結果。通過多次迭代基本的網絡單元,模型的復原結果在客觀評估指標上逐步提升。在視覺效果層面,網絡對輸入圖像的模糊背景進行了漸進式復原,較遠處的物體逐漸出現了清晰的輪廓和紋理。
2)循環層的有效性 為了驗證循環層在整個復原網絡的重要性,本文針對不同網絡變體進行了消融實驗,包括了#1:移除殘差網絡Rm和Rx中的循環層;#2:保留循環層,但Rm和Rx中的循環層各自獨立,無信息傳遞;#3:本文所提出的完整復原網絡。各網絡變體的迭代次數均設為8,復原結果的評價指標如表2所示。殘差網絡Rm和Rx中循環層的設計對復原性能至關重要,同時,保證兩個循環層之間信息的雙向流動,能夠有效增強網絡的去模糊效果。
3)散焦圖提供監督信息的影響 保證模型結構不作任何變動,利用本文的漸進式網絡直接學習模糊圖像到清晰圖像的端到端映射,本質上就是改變了訓練過程的損失函數,即將關于損失函數的超參數調整為α=0、β=1,這在數據層面上省略了散焦圖所提供的監督信息。由表3的定量評價指標可知,使用本文漸進式網絡行端到端去模糊完全可行,且優于分步的非盲策略,這為本文算法應用于缺乏散焦圖信息的真實場景提供了可能性,3.2節將對此展開討論。
散焦圖記錄了圖像中每個像素點對應高斯模糊核的標準差,利用該信息去模糊的前提是:散焦模糊圖像是一個潛在清晰圖像與二維高斯函數卷積的結果。顯然,模糊圖像的真實退化模型比卷積操作更為復雜,使用準確的散焦圖對輸出結果進行監督,反而限制了模型學習真實的圖像模糊過程,因此端到端學習的方式獲得了更好的去模糊效果。
4)不同圖像損失函數的影響 針對圖像損失Lx,本文在網絡訓練的過程中嘗試使用不同損失函數以實現最佳的復原效果,其中包括MSE、Charbonnier loss[43]和負SSIM,實驗結果如表4所示。當使用MSE和Charbonnier loss這類逐像素的損失函數時,復原結果可以得到較高的PSNR評價指標,但使用負SSIM作為圖像損失函數可以提高去模糊圖像的結構相似性。如圖5所示,(a)~(c)分別是使用不同圖像損失函數得到的去模糊圖像,參照作為真實標簽的清晰圖像(d),(a)和(b)在PSNR評價指標上均優于(c),但復原結果引入了與清晰圖像并不相符的波紋。顯然,圖5(c)的去模糊結果更貼近真實的清晰圖像,在視覺效果上表現更好,因此本文最終采用負SSIM作為圖像損失Lx。
3.1.2 比較當前其他去模糊方法
由于現有的圖像去模糊工作大部分基于運動模糊,所以本文選取了SRN[6]、SDNet[44]和MPRNet[45]三個代表性去運動模糊算法作為對比??紤]到DMENet[11]是針對散焦圖像提出的散焦圖估計網絡,為了輔助其完成后續的去模糊操作,本文直接采用 Krishnan等人[46]提出的非盲解卷積算法。此外,DPDNet[22]是最新基于雙像素散焦圖像提出的去模糊網絡,其變體網絡DPDNet-Single[22]適配單張散焦圖像作為輸入的場景,本文也對其進行了對比評測。為了實驗結果的客觀公平,所有對比方法均在合成數據集上進行重新訓練。
為了更加全面地衡量所有方法的去模糊性能,本文使用200張散焦圖像進行測試,對應復原結果的客觀圖像質量如表5所示。顯然,本文算法在PSNR和SSIM 指標上均位列第一,展現出本文所提出的復原網絡性能總體上的顯著優勢。
圖6列出了各去模糊方法在測試集上的可視化復原結果??梢钥闯鲠槍\動模糊的方法SRN[6]、SDNet[44]、MPRNet[45]不適用于非均勻程度更加劇烈的散焦模糊,復原圖像中仍然存在模糊。使用DMENet[11]先估計散焦圖再配合傳統解卷積方法,其復原圖像在景深劇烈變化處會產生明顯的偽影,導致視覺效果不佳。在網絡輸入僅為單張散焦圖像時,DPDNet[22]無法有效地去除大部分模糊。而在本文算法的復原效果中,退化圖像的高頻細節得到了有效復原,對文字細節、人物陰影、道路紋理都進行合理地修復,更加貼近各自對應的清晰圖像。
3.2 真實散焦模糊圖像實驗
在拍攝設備配備全像素雙核(dual-pixel)對焦功能的情況下, 如Canon EOS 5D Mark IV數碼單反相機和Google Pixel 4智能手機,感光單元的每個像素可分為左、右子像素,兩者既可以各自獨立地記錄光線,也可以合成為一個像素進行信號輸出?;谶@種特殊的硬件設定,拍攝某一場景時可同時獲得左像素圖像和右像素圖像,即一組單像素圖像對,全像素雙核對焦技術就是利用兩張單像素圖像的相位差信息實現自動對焦。
為了處理單像素圖像對的散焦去模糊問題,Abuolaim等人[22]提出了深度網絡DPDNet-Dual來實現散焦模糊圖像的復原。DPDNet-Dual將兩張單像素模糊圖像作為輸入,然后端到端輸出清晰圖像,以有監督學習的方式訓練一個對稱的編碼—解碼網絡結構。該項工作針對真實模糊場景構建了數據集DPD,在光圈優先模式下拍攝靜態場景,該模式通過調整快門速度自動完成圖像對之間的曝光補償,分別用大光圈取景得到模糊圖像IB,用小光圈取景得到清晰圖像IS,拍攝模糊圖像IB時可獲得相應的左、右像素圖像,如圖7所示。
基于上述介紹的真實散焦模糊圖像數據集,對本文提出的漸進式復原網絡進行了測試,并選擇了DPD論文中給出的定量評價指標作為對比,結果如表6所示。為了保證比較的公正性,以DPDNet-Dual和 DPDNet-Single作為對標算法。其中DPDNet-Dual以單像素圖像對作為網絡輸入,而DPDNet-Single與本文方法一致,僅以單張散焦模糊圖像IB作為網絡輸入。由表6可以看出,在真實散焦模糊場景下,本文方法相較于 DPDNet-Single在PSNR指標上提升了0.77 dB,SSIM指標也得到了5.6%的提升。同時,相對于使用了更多圖像信息的完整網絡DPDNet-Dual,本文方法在PSNR指標上與之相接近,且在SSIM指標上取得了更高的結果。同時,考慮到DPDNet-Dual需要單像素圖像對,受限于硬件設備,本文方法具有更廣泛的應用場景。
圖8列出了真實散焦圖像去模糊的效果圖,從左到右依次是模糊圖像、DMENet、DPDNet-Single、本文算法結果。不難看出,本文提出的漸進式復原網絡在同等輸入單張模糊圖的情況下,可以有效地去除真實場景的散焦模糊,在視覺上相較于DPDNet-Single的恢復效果擁有更清晰的紋理細節和更銳利的邊緣結構,展現了本文方法在真實散焦場景復原效果的顯著優勢。
此外,在使用本文方法對真實散焦圖像進行端到端復原的過程中,本文嘗試輸出了整個復原網絡的中間狀態,即殘差網絡Rm的輸出,并對其進行了可視化,如圖9所示。針對輸出的三通道信息,分別使用紅色、綠色、藍色對其進行標注(見電子版),以便在一張圖內進行展示。作為參考,使用DMENet[11]對散焦模糊圖像進行了散焦圖估計。不難發現,基于輸出結果的可視化效果圖與DMENet估計出的散焦圖整體趨勢一致,但在背景草叢位置Rm整體性更好,而DMENet包含了更多的草叢紋理。Rm輸出的散焦圖對模糊程度的表達更為準確,這也對后續子網絡Rx去模糊實現提供了更好的引導。
4 結束語
針對散焦模糊這一典型空間變化模糊類型,本文提出了基于循環神經網絡的圖像去模糊算法。首先級聯兩個殘差網絡Rm和Rx,分別完成散焦圖估計和圖像去模糊;其次,為了保證散焦圖和清晰圖像的深度特征可以更好地跨階段傳播以及階段內相互作用,引入了LSTM在殘差網絡中充當循環層。綜上,對整個殘差網絡進行了多次迭代。實驗結果表明,本文提出的漸進式復原網絡可以有效地去除單張圖片中的散焦模糊,在PSNR、SSIM客觀指標均優于現有一些去模糊方法,無論在合成模糊圖像還是真實模糊圖像上均有穩定的去模糊效果,復原圖像邊緣結構清晰、紋理細節豐富,能有效地去除復雜的真實場景模糊,在復原精度和效率上都具有較好的性能。
參考文獻:
[1]Chakrabarti A.A neural approach to blind motion deblurring[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:221-235.
[2]Schuler C J,Hirsch M,Harmeling S,et al.Learning to deblur[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2015,38(7):1439-1451.
[3]方帥,劉遠東,曹洋,等.基于模糊結構圖的模糊核估計[J].電子學報,2017,45(5):1226-1233.(Fang Shuai,Liu Yuandong,Cao Yang,et al.Blur kernel estimation using blurry structure[J].Acta Electronica Sinica,2017,45(5):1226-1233.)
[4]Nah S,Kim T H,Lee K M.Deep multi-scale convolutional neural network for dynamic scene deblurring[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:3883-3891.
[5]Zhang Jiawei,Pan Jinshan,Ren J,et al.Dynamic scene deblurring using spatially variant recurrent neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2521-2529.
[6]Tao Xin,Gao Hongyun,Shen Xiaoyong,et al.Scale-recurrent network for deep image deblurring[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8174-8182.
[7]Gao Hongyun,Tao Xin,Shen Xiaoyong,et al.Dynamic scene deblurring with parameter selective sharing and nested skip connections[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3848-3856.
[8]Ren Dongwei,Zhang Kai,Wang Qilong,et al.Neural blind deconvolution using deep priors[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:3341-3350.
[9]D’Andrès L,Salvador J,Kochale A,et al.Non-parametric blur map regression for depth of field extension[J].IEEE Trans on Image Processing,2016,25(4):1660-1673.
[10]Karaali A,Jung C R.Edge-based defocus blur estimation with adaptive scale selection[J].IEEE Trans on Image Processing,2017,27(3):1126-1137.
[11]Lee J,Lee S,Cho S,et al.Deep defocus map estimation using domain adaptation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:12222-12230.
[12]Park J,Tai Y W,Cho D,et al.A unified approach of multi-scale deep and hand-crafted features for defocus estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1736-1745.
[13]Shi Jianping,Xu Li,Jia Jiaya.Just noticeable defocus blur detection and estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:657-665.
[14]Zhang Anmei,Sun Jian.Joint depth and defocus estimation from a single image using physical consistency[J].IEEE Trans on Image Processing,2021,30:3419-3433.
[15]Golestaneh S A,Karam L J.Spatially-varying blur detection based on multiscale fused and sorted transform coefficients of gradient magnitudes[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2017:596-605.
[16]Shi Jianping,Xu Li,Jia Jiaya.Discriminative blur detection features[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2014:2965-2972.
[17]Tang Chang,Zhu Xinzhong,Liu Xinwang,et al.DefusionNet:defocus blur detection via recurrently fusing and refining multi-scale deep features[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2700-2709.
[18]Yi Xin,Eramian M.LBP-based segmentation of defocus blur[J].IEEE Trans on Image Processing,2016,25(4):1626-1638.
[19]Zhao Wenda,Zhao Fan,Wang Dong,et al.Defocus blur detection via multi-stream bottom-top-bottom fully convolutional network[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2018:3080-3088.
[20]Zhao Wenda,Zheng Bowen,Lin Qiuhua,et al.Enhancing diversity of defocus blur detectors via cross-ensemble network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:8905-8913.
[21]Zhao Wenda,Shang Cai,Lu Huchuan.Self-generated defocus blur detection via dual adversarial discriminators[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:6933-6942.
[22]Abuolaim A,Brown M S.Defocus deblurring using dual-pixel data[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:111-126.
[23]Zhuo Shaojie,Sim T.Defocus map estimation from a single image[J].Pattern Recognition,2011,44(9):1852-1858.
[24]Karaali A,Jung C R.Edge-based defocus blur estimation with adaptive scale selection[J].IEEE Trans on Image Processing,2017,27(3):1126-1137.
[25]Tang Chang,Hou Chunping,Song Zhanjie.Defocus map estimation from a single image via spectrum contrast[J].Optics Letters,2013,38(10):1706-1708.
[26]Shi Jianping,Xu Li,Jia Jiaya.Just noticeable defocus blur detection and estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:657-665.
[27]Xu Guodong,Quan Yuhui,Ji Hui.Estimating defocus blur via rank of local patches[C]//Proc of IEEE International Conference on Compu-ter Vision.Piscataway,NJ:IEEE Press,2017:5371-5379.
[28]Park J,Tai Y W,Cho D,et al.A unified approach of multi-scale deep and hand-crafted features for defocus estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1736-1745.
[29]Sun Jian,Cao Wenfei,Xu Zongben,et al.Learning a convolutional neural network for non-uniform motion blur removal[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2015:769-777.
[30]陳喬松,隋曉旭,官旸珺,等.基于多尺度殘差生成對抗網絡的單圖像盲去運動模糊方法[J].計算機應用研究,2021,38(3):919-922.(Chen Qiaosong,Duo Xiaoxu,Guan Yangjun,et al.Method of signal blind deblurring based on multi scale residual generative adversarial network[J].Application Research of Computers,2021,38(3):919-922.) .
[31]Kupyn O,Budzan V,Mykhailych M,et al.DeblurGAN:blind motion deblurring using conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:8183-8192.
[32]Kim T H,Lee K M,Scholkopf B,et al.Online video deblurring via dynamic temporal blending network[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:4038-4047.
[33]Nah S,Son S,Lee K M.Recurrent neural networks with intra-frame ite-rations for video deblurring[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:8102-8111.
[34]Pan Liyuan,Dai Yuchao,Liu Miaomiao,et al.Simultaneous stereo vi-deo deblurring and scene flow estimation[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.2017:4382-4391.
[35]章權兵,宮炎焱.一種新的基于散焦圖像的攝像機標定方法[J].計算機應用研究,2009,26(2):760-762,771.(Zhang Quanbing,Gong Yanyan.Novel algorithm of camera calibration based on defocus images[J].Application Research of Computers,2009,26(2):760-762,771.)
[36]Wulff J,Butler D J,Stanley G B,et al.Lessons and insights from creating a synthetic optical flow benchmark[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2012:168-177.
[37]Ros G,Sellart L,Materzynska J,et al.The synthia dataset:a large collection of synthetic images for semantic segmentation of urban scenes[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2016:3234-3243.
[38]Scharstein D,Hirschmüller H,Kitajima Y,et al.High-resolution stereo datasets with subpixel-accurate ground truth[C]//Proc of German Conference on Pattern Recognition.Cham:Springer,2014:31-42.
[39]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[40]Shi Xingjian,Chen Zhourong,Wang Hao,et al.Convolutional LSTM network:a machine learning approach for precipitation nowcasting[C]// Advances in Neural Information Processing Systems.2015:802-810.
[41]Li Xia,Wu Jianlong,Lin Zhouchen,et al.Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]//Proc of European Conference on Computer Vision.2018:254-269.
[42]Wang Zhou,Bovik A C,Sheikh H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans on Image Processing,2004,13(4):600-612.
[43]Lai Weisheng,Huang Jiabin,Ahuja N,et al.Fast and accurate image super-resolution with deep Laplacian pyramid networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2018,41(11):2599-2613.
[44]Zhang Hongguang,Dai Yuchao,Li Hongdong,et al.Deep stacked hierarchical multi-patch network for image deblurring[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:5978-5986.
[45]Zamir S W,Arora A,Khan S,et al.Multi-stage progressive image restoration[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:14821-14831.
[46]Krishnan D,Fergus R.Fast image deconvolution using hyper-Laplacian priors[C]//Proc of Advances in Neural Information Processing Systems.2009:1033-1041.