摘 要:相較于有監督深度降噪模型,僅利用給定的噪聲圖像本身就能完成降噪任務的無監督深度圖像先驗(deep image prior,DIP)降噪模型沒有數據偏向(data bias)問題,具有更好的泛化能力。然而,DIP降噪模型較長的迭代訓練步數導致其在執行效率方面仍有較大提升空間。為此,提出了一種改進的增速深度圖像先驗降噪模型(improved accelerated deep image prior-based denoising model,IADIP)。首先,使用多個主流有監督降噪模型處理輸入的噪聲圖像,得到多個互補的初步降噪圖像(稱為預處理圖像)。其次,以預處理圖像作為網絡輸入并同時將預處理圖像和噪聲圖像共同作為目標圖像以降低DIP網絡映射難度,為將DIP默認的4層UNet骨干網絡簡化為1層結構打下基礎,從而大量減少迭代更新網絡參數的計算代價。最后,在IADIP無監督迭代訓練中,提出一種采用下采樣技術實現的偽有參考圖像質量度量,并基于該度量監控迭代過程中網絡輸出圖像的圖像質量,適時終止迭代訓練以實現自動早停并確保網絡輸出圖像的圖像質量。當迭代終止時,IADIP網絡輸出圖像即為最終的降噪后圖像。大量實驗表明:改進后的IADIP降噪模型的執行效率顯著優于原DIP降噪模型,而其降噪效果也超過了當前主流的降噪算法。
關鍵詞:圖像降噪;深度圖像先驗;性能提升;簡化網絡;下采樣;自動早停
中圖分類號:TP391.4"" 文獻標志碼:A"" 文章編號:1001-3695(2025)03-036-0920-07
doi:10.19734/j.issn.1001-3695.2024.05.0225
Improved accelerated deep image prior-based denoising model
Zhang Rui1,Cheng Xiaohui2,3
(1.Wuxi Vocational Institute of Commerce,Wuxi Jiangsu 214000,China;2.School of Computer Information Engineering,Nanchang Institute of Technology,Nanchang 330044,China;3.School of Mathematics amp; Computer Sciences,Nanchang University,Nanchang 330031,China)
Abstract:
Compared to supervised deep denoising models,the unsupervised deep image prior(DIP)denoising model,which only utilizes the given noisy image itself to perform denoising,does not suffer from the problem of training data bias and exhibits better generalization capability.However,the longer training iterations of the DIP denoising model still leave room for significant improvement in terms of execution efficiency.Therefore,it proposed an improved accelerated deep image prior-based denoising model(IADIP).Firstly,it used multiple mainstream supervised denoising models to process the input noisy image,resulting in multiple complementary preliminary denoised images(referred to as preprocessed images).Then,the DIP network reduced the mapping difficulty by utilizing the preprocessed images as network inputs and simultaneously utilizing both the preprocessed images and the noisy image as target images.This set the foundation for simplifying the default 4-layer UNet backbone network of DIP into a 1-layer structure,thereby significantly reducing the computational cost of iterative parameter updates.Finally,in the unsupervised iterative training of IADIP,it proposed a pseudo full-reference image quality metric based on downsampling technique to monitor the quality of network output images during the iteration process,and timely terminated iteration training to achieve automatic early stopping.When the iteration stops,the IADIP network output image becomes the final denoised image.Extensive experiments demonstrate that the improved IADIP denoising model exhibits significantly improved execution efficiency compared to the original DIP denoising model,while also surpassing the performance of current state-of-the-art denoising algorithms.
Key words:image denoising;deep image prior;boosting performance;simplified network;downsampling;automatic early stopping
0 引言
圖像在生成、存儲和傳輸過程中不可避免地會引入噪聲而導致圖像失真,從而影響后繼關鍵性的各類圖像分析任務[1~8]。為解決此問題,研究者在過去幾十年當中提出了一系列的降噪算法。其中,不乏以濾波和模型優化技術為代表的成功算法[9~12]。近十年來,以深度學習技術為基礎構建的各類降噪模型相較于傳統圖像降噪算法展現出強大的處理能力,在提升圖像清晰度和真實感方面具有顯著的優勢,
已成為該領域的主流實現方式[13~22]。根據在訓練學習中是否需要參考圖像(清晰圖像),現有的深度學習降噪模型可以大致分為有監督和無監督學習兩種類型。
現有的有監督降噪模型多以卷積神經網絡(convolutional neural network,CNN)為基礎構建。Zhang等人[13]在2017年提出的降噪卷積神經網絡(denoising convolutional neural network,DnCNN),將深度網絡架構(deep architecture)、
殘差學習(resi-dual learning)[23]和批量歸一化(batch normalization)[24]三者融合到一個深度學習網絡中。與傳統的圖像降噪算法相比,在降噪性能上有大幅度的提升,被認為是基于CNN構建降噪模型里程碑式的工作。2021年,Zhang等人[25]基于殘差網絡(residual network,ResNet)與U型網絡(UNet)提出DRUNet降噪網絡,同時也將噪聲水平映射圖融入到網絡的輸入中,使得網絡處理不同噪聲水平圖像更具靈活性。近幾年來,首次在自然語言處理領域提出,擁有更大感受視野、能夠捕獲長距離像素點之間信息的Transformer網絡結構在引入到圖像處理領域后迅速取得了巨大成功[15,16]。例如,Liang等人[15]提出的SwinIR降噪網絡,其主要由淺層特征提取、深度特征提取和高質量圖像重建三個主要部分構成。其中:淺層特征提取部分采用卷積層對輸入圖像提取淺層特征并直接傳輸到重建模塊,以保留低頻信息;深度特征提取部分則主要由殘差Swin-Transformer塊(residual Swin-Transformer block,RSTB)組成,每個RSTB塊又利用多個Swin-Transformer層進行局部注意和跨窗口交互,以增強特征表示能力;在高質量圖像重建部分對淺層特征和深度特征進行融合,得到降噪圖像。SwinIR具有優秀的性能和廣泛的運用場景,在圖像降噪任務中取得了較好的效果,但由于需要進行跨窗口交互,導致該網絡的執行時間較長。Zamir等人[16]提出的Restormer降噪網絡則以其高效性著稱,該網絡采用多深度可分離卷積頭轉換注意力(multi-dconv head transposed attention,MDTA)與門深度可分離卷積前向反饋網絡(gated-dconv feed-forward network,GDFN)組成Transformer模塊,并采用U型網絡結構搭建網絡。Restormer網絡在執行效率上遠超SwinIR網絡,并且在網絡性能上也領先于大部分降噪網絡。除此之外,文獻[26]提出了采用編碼解碼器(encoder-decoder)結構的Uformer網絡,該網絡的基本模塊是局部加強窗口(local-enhanced window)Transformer,其由非重疊窗口自注意力模塊(non-overlapping window-based self-attention module)與加入了深度卷積(depth-wise convolution,Dwconv)層的前向反饋網絡(feed-forward network,FFN)組成,取得了較好的降噪效果。總的來說,相較于傳統降噪算法,基于深度學習實現的有監督降噪模型雖然有性能優勢,但其需要海量的噪聲-清晰圖像數據集訓練才能保障其泛化能力,而獲取訓練模型所需的數據集是一項非常耗時且單調的工作。因此,有監督降噪模型大多在有限規模的數據集合上完成訓練,這導致這類降噪模型一般存在所謂的數據偏向(data bias)問題,即其在處理與訓練時使用噪聲圖像類型或噪聲強度不同的噪聲圖像時性能會有所降低。
為了解決有監督圖像降噪模型的數據集依賴與靈活性較差等問題,許多無監督深度學習降噪模型被提出。例如2018年Lehtinen等人[17]提出的Noise2Noise降噪模型就是早期代表性工作之一。Noise2Noise擺脫了使用大量清晰-噪聲圖像對作為網絡訓練圖像的約束,提出僅需大量不同的噪聲-噪聲(noise-noise)圖像對就可以完成網絡的訓練。雖然Noise2Noise降噪模型無須清晰圖像就可以完成網絡訓練,但其依然需要大量不同的噪聲圖像。在某些情況下,例如樣本圖像較少或獲取當前場景下的噪聲圖像存在一定困難時,Noise2Noise模型的性能就會受到限制。受Noise2Noise啟發,2019年Krull等人[18]提出Noise2Void降噪模型,在卷積模塊上添加盲點(blind-spot),在計算卷積結果時忽略掉像素中心點值,無須噪聲圖像對,僅利用噪聲圖像就可以完成訓練,進一步降低了對數據集的依賴性。2022年Huang等人[21]提出的Neighbor2Neighbor方法則進一步對Noise2Void方法進行了改進,雖然也是僅利用噪聲圖像就可以完成訓練,但其通過基于相鄰像素點實現的下采樣方法得到子圖像,并使用子圖像構造損失函數完成網絡訓練,獲得了比Noise2Void更好的性能。Ulyanov等人[22]提出的深度圖像先驗(deep image prior,DIP)降噪模型則與上述降噪模型不同,雖然DIP與上述降噪模型都是無監督深度學習降噪模型,但DIP模型開創性地利用深度學習網絡結構本身作為隱式正則約束,僅將需要處理的單張噪聲圖像作為網絡學習的目標圖像(target image),就可以完成圖像降噪。DIP模型在處理降噪問題時非常靈活,其網絡輸入是隨機生成的,降噪過程是通過不斷迭代調整網絡參數,利用深度網絡強大的非線性映射能力讓網絡輸出圖像逼近給定的噪聲圖像。因此,所獲得的降噪模型其實是與給定單張噪聲圖像特定相關的。這種降噪網絡在圖像的一些區域能夠更好地保護細節信息,泛化能力強,特別適合缺乏訓練數據的應用場景。然而,由于其網絡模型正是與噪聲圖像特定相關,故其模型參數是不能復用的,每次降噪均需要重新訓練。一般情況下,需要經過至少上千次的迭代才能達到最優的降噪效果,且如果不及時終止迭代進程,網絡輸出圖像最終將與目標圖像相同,從而導致出現過擬合的問題。
為解決上述問題,近年來研究者們提出了一系列DIP改進算法。例如,徐少平等人[27]在2022年提出了一種名為IDIP的改進算法,對DIP的網絡結構、網絡輸入和Loss函數三個方面進行了改進。具體來說,將網絡結構中的簡單連接改進為復雜連接,有利于特征信息的調制與傳遞;將網絡輸入的隨機張量改進為初始降噪圖像,有利于加快網絡的收斂速度;在只有噪聲圖像的Loss函數上增加了初始降噪圖像作為第二目標圖像,有利于提升Loss函數的導向能力。經過這些改進,IDIP降噪模型的降噪性能和執行效率已經有了一定的提高。為了進一步提升IDIP的性能,徐少平等人[28]在2024年提出了一種更為高效的名為DCDIP的改進降噪模型,與IDIP僅僅新增了一張初始降噪圖像作為目標圖像不同,DCDIP改進為雙通道的模型,并選擇了FFDNet和BM3D兩張初始降噪圖像參與目標圖像的構建,進一步提高目標圖像之間的互補性。其中,第一通道的目標圖像為FFDNet初始降噪圖像和噪聲圖像,第二通道的目標圖像為BM3D初始降噪圖像和噪聲圖像,讓DIP在迭代的過程中分別逼近兩個通道的目標圖像,再將兩張生成圖像進行融合,從而進一步提升了DIP的降噪效果。盡管如此,DIP降噪算法采用固定迭代步數的問題仍然沒有解決。為此,本文提出了一種改進的快速的深度圖像先驗降噪模型(improved accelerated deep image prior-based denoising model,IADIP)。具體地,首先利用若干主流降噪算法處理給定的噪聲圖像獲得多個降噪后圖像(稱為預處理圖像),然后將預處理圖像聯接后用于替換DIP降噪模型的原本的隨機輸入張量,并且這些預處理圖像配合噪聲圖像同時作為DIP降噪模型的目標圖像(構成多目標圖像)。由于預處理圖像聯接后的圖像與目標圖像之間的差距相對較小,網絡在收斂迭代時能夠展現出更快的速度,所以直接使用初始降噪圖像作為網絡輸入能夠提升網絡執行效率。其次,將DIP降噪模型中的4層UNet骨干網絡簡化為1層結構,以減少單此迭代訓練所需要的時間,由于網絡的輸入選用的是高質量的多個初始降噪圖像的融合圖像,與目標圖像之間的差距較小,所以淺層次的網絡就足以完成降噪任務。最后,提出一種快速偽有參考圖像質量度量用于監測DIP迭代訓練降噪過程中網絡輸出圖像的圖像質量變化,根據預設條件自適應終止迭代訓練過程,以期達到在最短時間內獲得最優降噪效果的目標。大量的實驗結果表明:在各類基準測試圖像集合上,所提出的IADIP降噪模型的降噪效果優于當前主流的降噪模型,在繼續保留原DIP模型泛化能力強、實用性好的基礎上,顯著地提升了執行效率。
1 DIP降噪模型
1.1 DIP模型簡介
DIP降噪模型是Ulyanov等人[22]在2018年提出的一種基于深度學習的無監督圖像降噪算法。一般而言,基于給定的噪聲圖像y來獲取關于無失真圖像x的最佳估計圖像的問題可以轉換為求解以下定義的最小化問題:
=minx E(x,y)+R(x)
(1)
其中:E(x,y)是保真項;R(x)是正則項。保真項E(·,·)主要用于確保圖像與噪聲圖像y接近,從而限定圖像搜索的圖像空間范圍。正則項R(·)則通過利用圖像的各種先驗知識來構建約束條件,使得圖像在具有較少噪聲的同時保持其最佳的自然性。在DIP降噪算法中,其關鍵技術在于利用深度卷積神經網絡fθ(·)對圖像I進行參數化處理,即I=fθ(z)。其中,z代表隨機生成的張量,它作為神經網絡的輸入,I代表待參數化的圖像,θ是網絡參數值的集合。具體而言,DIP降噪模型通過以下公式實現對式(1)的近似求解(舍去了R(x)正則項):
θ*=argminθ E(fθ(z);y),=fθ(z)
(2)
深度網絡模型f通過不斷地調整網絡參數值θ,使得網絡的輸出圖像fθ(z)不斷逼近噪聲圖像y。在某一個迭代步數所對應網絡參數θ*的作用下,輸出圖像=fθ(z)不僅與噪聲圖像y保持較高的相似度,而且圖像中的噪聲得到了有效抑制。此時,以隨機張量z在f(網絡參數值θ*)的作用下所得到的網絡輸出圖像,被視為對無失真圖像的最佳估計。總的來說,DIP降噪模型默認采用4層上下采樣的UNet結構,以隨機噪聲z作為網絡輸入,將噪聲圖像y作為網絡輸出圖像擬合的目標圖像。如圖1所示,DIP降噪模型是在逼近目標圖像y的迭代訓練過程中實現降噪的,它無須依賴大量數據進行訓練,采用早停策略獲得關于無失真圖像x的最佳估計圖像(即早停時的網絡輸出圖像)。
1.2 缺陷分析
DIP降噪模型僅用單張噪聲圖像即可完成降噪任務,很大程度上緩解了有監督降噪模型所固有的數據偏向問題,這賦予了它較高的靈活性。同時,DIP無須大量噪聲圖像構成訓練集,從而顯著降低了實際應用數據的收集難度,更具實用性。然而,DIP降噪模型的降噪性能存在較大的改進空間。主要體現在以下三個方面:
a)以低質的噪聲圖像作為目標圖像,嚴重制約了降噪性能。DIP降噪模型是以噪聲圖像作為目標圖像,在持續逼近目標圖像的迭代訓練過程中實現對圖像的降噪。因噪聲圖像自身所含噪聲較多(偏離清晰圖像較遠),使得DIP網絡輸出圖像搜索的圖像空間(image space)范圍過大,這不但降低了模型的執行效率,而且導致網絡輸出圖像往往含有噪聲成分,從而導致降噪效果下降。所以本文提出將高質量的預處理圖像也作為目標圖像的一部分,增強對輸出圖像的約束,從而縮小圖像空間搜索范圍。
b)DIP網絡默認采用4層上下采樣UNet,通常完成一張圖像的降噪至少需要迭代幾千次,因此網絡參數迭代更新的代價較高,其執行時間遠超有監督降噪模型定長的執行時間。所以本文在3.2節中針對不同網絡層數對IADIP算法的降噪效果和執行效率進行了消融實驗,并依據消融實驗結果決定將4層的UNet簡化為1層的UNet。
c)DIP降噪模型中采用固定迭代次數早停機制,在處理不同噪聲特征的圖像時,并不能確保總能達到最佳的降噪效果。這一局限性源于每張噪聲圖像的內容和噪聲模式并無共性內容。DIP在迭代訓練過程中,若迭代被過早終止,可能導致輸出圖像中高頻噪聲未被充分抑制。若迭代過程持續過長,模型可能會過度擬合噪聲。因此,采用固定的迭代步數并不總能獲得最佳的降噪效果。有時,過多的迭代次數不但使得降噪效果變差,而且所需的執行時間也變長。所以本文在2.5節中提出了一種對于不同圖像均能實現自動早停的度量,從而在獲得最優降噪效果的情況下進一步縮短了執行時間。
2 IADIP降噪模型
2.1 實驗觀察
經典的DIP降噪模型采用固定的迭代步數實現早停。這一策略雖然實現簡單,但不能保證降噪模型獲得最佳的降噪效果,并且有可能導致執行效率降低。這里可能出現兩種情況:a)過迭代,在固定迭代步數之前,DIP模型已經達到最佳的效果,故采用固定迭代步數導致了不必要的迭代更新,不但執行效率降低,降噪效果也降低了(已經過擬合了);b)欠迭代,DIP模型在未達到最優的效果的情況下,就因采用固定迭代次數的早停策略而退出迭代更新過程,這會導致降噪效果不是最優的。為了更好地說明這一問題,在經典的Set12數據集上進行了實驗。實驗選用了DIP降噪模型,并設定了足夠多的迭代步數(8 000步)。在此范圍內,以1 000步為間隔,詳細記錄了從1 000~8 000步不同迭代步數下12張降噪后圖像的平均PSNR值。同時,還特別記錄了迭代過程中各張圖像所能獲得的PSNR最優值,如表1所示。由表1中的數據可以發現,若采用固定迭代步數的早停策略,應采用2 000步作為終止迭代步數。其實,在實際應用中,因各個圖像集合存在差異性,并不是在所有的圖像集合上,將迭代步數設置為2 000總能獲得最優的降噪結果。另外,整個迭代過程中,所能獲得的最優降噪效果卻能達到28.95 dB,高出采用固定迭代步數早停策略0.61 dB,差距顯著。這一結果表明:在DIP降噪模型中,固定迭代步數的方法與理想最優迭代步數下的降噪效果存在顯著差異。鑒于此,有必要設計一種更為靈活的早停機制,以便在優化訓練過程中能夠自動判斷并選擇在適當的步數停止迭代。這種機制將有助于提高DIP降噪算法的性能和效率,使其在實際應用中能夠更好地適應不同圖像和噪聲條件。
2.2 基本思想
之前的研究工作已經表明,網絡輸入、網絡和損失函數三個方面均對DIP網絡的降噪效果有影響[27]。本文在之前的研究基礎上,基于上文對DIP降噪模型的缺陷分析以及實驗觀察,為提升DIP模型的降噪性能(其中,著力顯著提升其執行效率,進一步提升降噪效果),具體從以下兩個方面提升其降噪效率:a)使用具有較高圖像質量的預處理圖像同時作為網絡輸入和目標圖像。與之前的工作[27]不同,本文提出將DIP網絡輸出也改為多個預處理圖像。這樣可以使得DIP骨干網絡輸入和目標圖像之間的差異不大,網絡映射難度顯著降低。這樣,僅需要1層上下采樣的UNet就可以完成映射任務,從而在長達數千次的迭代訓練中能極大減少參數更新所需的計算代價,進而提升降噪效率。這是改善DIP降噪模型執行效率的主要手段。b)設計DIP專業的自動早停機制。本文致力于探索一種新的非固定迭代步數的自動早停機制。從理論上講,確定哪一步停止的降噪效果最佳,關鍵在于對網絡輸出圖像質量進行檢測。若能精準評估每一步輸出圖像的質量,便可根據這些評價結果來確定最佳的迭代步數。在實際應用場景中,因無參考(清晰)圖像可用,所以各種有參考的圖像質量評價度量是無法使用的,只能選擇無參考圖像質量評價度量。然而,現有的大多數無參考圖像質量評價算法均不是為DIP降噪而設計的,執行一次的時間非常長,并不適合應用在DIP長達數千次的迭代訓練中。為解決這個問題,本文提出下采樣技術生成偽參考圖像,進而構建偽有參考圖像質量評價度量,基于此度量可實現DIP降噪模型的自動優化早停。這是改善DIP降噪模型執行效率的輔助手段。需要特別說明的是:由于網絡的輸入和目標圖像采用了多個具有較高圖像質量的預處理圖像,使得DIP模型能在更小的圖像空間內完成網絡輸出圖像搜索任務,從而為進一步提升降噪效果打下基礎,能獲得比之前研究工作更好的降噪效果[27]。
2.3 網絡架構
基于改進思想,IADIP降噪模型整體網絡架構的設計如圖2所示。首先,使用多個已有的主流互補的降噪算法對噪聲圖像y進行降噪,獲得多個預處理圖像i(i=1,2,…,n),并通過concate操作對這些預處理圖像進行拼接,作為網絡的輸入。隨后,使用1層UNet接收輸入圖像,并通過一次下采樣操作提取圖像中的有效信息,再通過一次上采樣操作重構圖像。最后,通過損失函數對輸出圖像進行調整,使其在迭代的過程中不斷逼近多個預處理降噪圖像與噪聲圖像,學習其中的有效信息。在迭代過程中,基于偽有參考圖像質量評價度量的檢測結果,在達到合適的步數時(度量值不再降低時)及時停止迭代,以獲得最終的網絡輸出圖像作為降噪后圖像。
DIP降噪模型默認以隨機張量作為網絡輸入,但這種隨機生成的張量缺乏關于降噪的先驗信息,導致網絡在迭代更新參數以映射為高質量輸出圖像時,搜索范圍相對較廣。若是以質量更高的預處理圖像直接作為輸入,鑒于其與目標圖像之間的差距相對較小,網絡在收斂迭代時能夠展現出更快的速度,因而直接使用預處理圖像作為網絡輸入能夠提升網絡執行效率。考慮到不同的圖像降噪方法在設計上所采用的策略不同,它們在圖像信息提取方面展現出互補性,這種互補性為降噪性能的提升提供了可能[27]。為了充分利用這種互補優勢,本文在選擇輸入圖像時,采用了將多個預處理圖像提供給IADIP網絡的策略。該策略不僅能夠有效綜合多種降噪算法所得預處理圖像的優點,還能夠更全面地提取和保留圖像的關鍵信息。因此,以多個預處理圖像(連接后)作為輸入圖像,不僅比使用隨機張量z縮短了迭代時間,還可以向網絡提供先驗信息,為后續的圖像降噪處理奠定了堅實基礎。
2.4 損失函數
IADIP降噪模型使用的損失函數為以下三個損失函數組合而成的混合損失函數Ltotal:a)使用其他降噪算法處理后的預處理圖像與輸出圖像之間的均方誤差構建的Loss1;b)輸出圖像與噪聲圖像之間的均方誤差構建的Loss2;c)輸出圖像的IE(information entropy)損失函數Loss3。混合損失函數Ltotal定義為
其中:Fout=F(X,θ);p(Fout(i))是輸出圖像Fout中亮度值為i的概率。本文所使用的混合損失函數主要設計原理如下:a)為保留多個預處理圖像中共性的內容(類似于投票機制),引入了第一個損失函數,其衡量了使用其他降噪算法處理后的預處理圖像與輸出圖像之間的均方誤差。通過最小化這個損失函數,能夠確保輸出圖像盡可能地同時接近多個預處理圖像,從而保留了共性內容。因為這些共性內容通常包含重要的圖像細節和結構信息,為保障輸出圖像的圖像質量打下了基礎。b)在獲得預處理圖像過程中,圖像部分內容因降噪算法的原因,某些像素點的信息可能已經模糊或丟失。為此,引入了第二個損失函數,它基于輸出圖像與噪聲圖像之間的均方誤差。噪聲圖像中并不是所有的像素點均受到破壞,其中一些像素點可能并沒有受到噪聲的破壞(或者破壞得不是很嚴重,甚至優于預處理圖像中的像素點質量),通過在輸出圖像與噪聲圖像之間構建損失項,可以充分利用噪聲圖像中有用的信息,從而提高降噪效果。c)MSE損失函數無法考慮到人眼對圖像的感知特性,它僅僅關注像素值之間的差異,而不考慮圖像的結構、紋理等因素。IE損失函數更加關注蘊藏在圖像紋理特征中的信息。所以引入了第三個損失函數,促使降噪算法保留圖像的細節和紋理信息,從而產生更具視覺效果的降噪結果。
2.5 自動早停
為解決圖像質量評價時缺乏參考圖像的問題,本文采用下采樣技術試圖解決這一問題,以實現對網絡輸出圖像的質量評估。其工作原理在于:若圖像存在較多噪聲,則會導致相鄰像素點亮度值之間存在差異,從而在下采樣后,兩張圖像之間的差異比較明顯;反之,則下采樣后的兩張圖像近似于相同。所以,僅需要利用一張給定的待度量的網絡輸出圖像,可以采用下采樣技術,通過比較其兩張下采樣圖像之間的差異程度來度量其噪聲殘留情況,從而實現對其圖像質量的評價。具體地,使用的下采樣操作可以將某迭代步數時DIP網絡輸出圖像Fout分為兩個子圖像S1(Fout)和S2(Fout)。具體來說:S1(Fout)是圖像Fout與k1卷積核進行卷積操作得到的,即S1(Fout)=Foutk1;S2(Fout)是圖像Fout與k2卷積核進行卷積操作得到的,即S2(Fout)=Foutk2。其中:
k1=120110
(7)
k2=121001
(8)
所提出的下采樣器結構如圖3所示,通過將輸出圖像分別與卷積核k1、k2進行卷積操作,得到兩個子采樣圖像S1(Fout)和S2(Fout),根據卷積核的定義,子采樣圖像上的像素是輸出圖像每個2×2區域對角線像素的平均值。例如,輸出圖像右上角的像素A、B映射到子采樣圖像S1(Fout)中的右上角像素(A+B)/2。
理論上,所采用的下采樣技術僅涉及固定掩碼的卷積計算,這一特性賦予了其非常高的執行效率。基于網絡輸出圖像,可獲取兩張子圖像S1(Fout)和S2(Fout)。其中一張圖像可以認為是參考圖像,這樣就可以構建所提出的偽有參考圖像評價度量。為計算這兩張子圖像間的差異,本文直接選取了簡潔且高效的MSE誤差,旨在避免不必要的時間開銷。由此,本文所提出的早停度量(early stopping metric,ESM)定義如下:
ESM=MSE(S1(Fout),S2(Fout))
(9)
ESM度量可以用于量化降噪后圖像中殘留的噪聲水平。在每次迭代后,該度量值都會被計算并記錄下來,形成一個圖像質量變化序列。經過大量實驗證明,當ESM值在連續50步內保持穩定而不再降低時,迭代過程即被判定為可以停止。通過引入ESM作為DIP降噪模型的早停判斷依據,自動早停策略得以實現。簡而言之,ESM的提出使得針對不同噪聲圖像,均能夠自動調整迭代次數,從而確保達到最佳的降噪效果,并且計算代價遠小于主流的無參考圖像質量評價算法[29~33]。
3 實驗結果與分析
3.1 實驗內容與配置
首先,為了測試IADIP降噪模型的執行效率,本研究比較了采用不同層數UNet在固定迭代步數下的執行效率,以驗證采用1層的UNet是否能滿足降噪效果的前提下提升降噪效率,實驗結果如表2所示。其次,為了全面評估所提出的早停度量ESM的性能,將其與5個廣泛使用的無參考圖像質量評價度量(包括BRISQUE[29]、NIQE[30]、NRQM[31]、PI[32]和TReS[33])進行比較。最后,為了衡量IADIP降噪模型整體的降噪效果,在多個不同的基準數據集(包括Set12、BSD68和Urban100)上進行了全面的降噪效果對比,參與的主流圖像降噪算法包括BM3D[10]、DnCNN[13]、FFDNet[14]、DIP[22]、DAGL[34]、DeamNet[35]、SwinIR[15]和Restormer[16]共8種進行對比分析。需要說明的是:本文直接采用了5種降噪算法(BM3D、DnCNN、DAGL、DeamNet和Restormer)作為IADIP模型的預處理算法,所得到預處理圖像作為網絡輸入并參與損失函數的構建。限于論文篇幅,本文不討論具體預處理降噪算法的選擇與組合優化過程。此外,所有方法的實驗均在相同的硬件平臺(IntelCoreTM i7-11700 @ 2.50 GHz,RAM 32.0 GB)和軟件環境(Windows 10操作系統)上完成,確保了實驗條件的一致性和公平性。在代碼的運行過程中,確保學習率恒定設置為0.01以保持優化過程的穩定性,損失函數中的超參數λ設置為0.06。
3.2 執行時間比較
首先,為了測試使用不同層數的UNet作為骨干網絡,在Set12數據集合上采用固定迭代次數(迭代步數為3 000步)完成了實驗。實驗結果表明:采用1層網絡可以極大地提高執行效率(提升了50%以上),而不影響其降噪效果。這主要得益于本文將網絡輸入和目標圖像均改為具有較高圖像質量的預處理圖像,這樣IADIP網絡完成網絡輸入與輸出之間的非線性映射難度大為降低,只用1層網絡結構就可以完成映射任務,從而降低了網絡參數更新的計算代價,進而提升了執行效率。
其次,為了探究使用不同無參考圖像質量評估度量與所提出ESM度量作為早停度量之間的差異,本文將ESM與一系列經典的無參考圖像質量評價度量進行了對比分析。為了量化各度量在自動早停策略下對最終輸出圖像性能的影響,本文統計了使用各度量用于早停后得到的輸出圖像的PSNR值,并整理于表3中。
根據表3中的數據可以觀察到,所提出的ESM評價度量與現有無參考評價度量在早停效果上沒有顯著差異。為了進一步探究不同度量的執行效率,本文對各個度量的計算時間進行了測量。在測試過程中,選用了Set12數據集中大小為256×256(Monarch)和512×512(Lena)的兩張圖像,并將ESM度量與其他圖像質量評價度量所需的時間列在表4中。由表4可知,NIQE、BRISQUE、NRQM、PI和TReS度量所需的時間顯著長于ESM度量。其中,NRQM和PI度量所需的時間更是達到了ESM度量的上千倍。因此,使用通用的無參考圖像質量評價度量作為早停度量會極大地降低DIP降噪算法的執行效率。相比之下,所提出的ESM度量采用的實現策略則非常簡潔,執行時間非常短,適用于DIP多達數千次的迭代更新的應用場景。因自動早停策略而引入的額外計算量與網絡參數更新的計算代價相比,占比不大。需要說明的是:盡管PSNR在實際應用場景中無法使用,但在實驗環境下可以衡量各種度量降噪性能。綜合考慮執行效率和實際應用需求,ESM度量應用于DIP早停具有更好的潛力和實用性。另外,由于DIP輸出圖像的圖像質量在迭代早期階段比較差,在實際應用中,可以設置啟動計算ESM值的迭代步數,早于該步驟的迭代過程中不進行ESM度量值的計算,即在所謂初始(burn-in)階段不計算ESM,這樣可進一步提升IADIP整體的執行效率。
3.3 實際降噪效果對比
為了充分驗證IADIP模型降噪效果的有效性,本文在主流數據集Set12和BSD68上進行了全面的對比實驗,實驗結果已詳細列于表5和6中。表5詳細展示了在Set12數據集上,IADIP降噪模型與經典降噪算法以及近期提出的降噪算法之間的性能對比。該表給出了在σ=15,σ=25,σ=50不同噪聲水平值下的實驗結果。由表5中的數據可知:與經典的BM3D算法相比,IADIP降噪模型的平均性能提升了約3.2 dB。同時,與新近提出的主流Restormer模型相比,IADIP模型也展現出了約2 dB的性能優勢。這些結果充分證明了IADIP降噪模型的有效性。
除了對Set12圖像數據集進行實驗,還進一步在經典的BSD68數據集上進行了實驗,實驗結果列于表6中。具體而言,在BSD68數據集上,與經典的BM3D算法相比,IADIP降噪模型在平均性能上實現了約2.7 dB的顯著提升。與此同時,與主流Restormer降噪模型相比,IADIP模型也展現出了約1.9 dB的性能優勢。實驗結果進一步驗證了IADIP模型降噪效果的有效性,并展示了其在不同數據集上的泛化能力。總之,采用本文所提出的改進措施,DIP降噪模型的執行效率得到了顯著的提升,而降噪效果也達到并超過了當前主流的降噪模型。
3.4 可視化效果對比
為了更直觀地展現IADIP算法與對比算法在降噪效果上的差異,本文對Set12數據集中的Couple圖像進行了不同算法之間的視覺比較,并將結果展示在圖4中(見電子版)。圖中選取了兩個區域進行放大展示。在紅框所示的女主人面部區域,DnCNN、FFDNet和DeamNet等算法的處理結果導致面部發生了扭曲,與原圖存在顯著差異。BM3D和DAGL算法雖然在一定程度上保持了面部結構,但仍然存在局部失真的情況。而IADIP算法則能夠更準確地恢復出與原圖相接近的面部細節,呈現出更為自然的視覺效果。另外,在藍框所示的計算器區域,原圖中的按鍵之間存在明顯的間隔。然而,在FFDNet、SwinIR和Restormer等多數對比算法中,這些間隔被模糊化,呈現出整片按鍵的視覺效果。相比之下,DAGL、DeamNet和IADIP算法能夠更好地保留這些間隔,使得圖像細節更為清晰。
此外,為了證明IADIP算法的可擴展性,本文在Urban100數據集上隨機選取了一張圖像進行視覺比較,并將結果展示在圖5中(見電子版)。圖中選取了兩個區域進行放大展示。在紅框區域為房子外墻面部分,BM3D、DnCNN和DIP等早期算法在處理過程中未能有效恢復出細節信息,導致圖像顯得較為模糊。DAGL和DeamNet算法雖然在一定程度上有所改進,但仍存在局部失真的情況。相比之下,SwinIR和Restormer算法能夠恢復出一些細節,但有時會引入原圖中并不存在的線條,影響了圖像的準確性。IADIP算法則能夠更為準確地恢復出與原圖最接近的結果。在藍框所示的陽臺護欄部分,原圖中清晰展示了U型的立體結構。然而,在DnCNN和Restormer等多數對比算法中,這一區域的右側短欄桿并不清晰,使得整個結構看起來更像是平面而非立體。在DAGL、DeamNet和IADIP算法中,則能夠更為清晰地呈現出護欄的立體結構,使得圖像更為真實和準確。綜上所述可以明顯看出,IADIP算法能夠更好地保留圖像細節并減少失真現象。
4 結束語
本文提出了一種被稱為IADIP的深度圖像先驗改進降噪模型。相較于傳統的DIP模型,通過改變網絡的輸入與輸出,顯著提升了整體的降噪性能。同時,通過網絡結構的簡化和引入自動早停技術,不僅實現了降噪效果的提升,還顯著提高了模型的執行效率。該模型執行效率的提升主要歸功于網絡結構的簡化,而其降噪效果的提升則源自多目標圖像和自動早停技術。未來,將探索改進方法在諸如圖像超分辨率、去模糊等其他圖像處理任務中的應用潛力。
參考文獻:
[1]Zhang Jie,Wang Fengxian,Zhang Huanlong,et al.Compressive sen-sing spatially adaptive total variation method for high-noise astronomical image denoising[J].Visual Computer,2024,40(2):1215-1227.
[2]Yang Chuansheng,Zhang Chao,Shen Haozhen,et al.HFAN:high-frequency attention network for hyperspectral image denoising[J].International Journal of Machine Learning and Cybernetics,2024,15(3):837-851.
[3]Jain A,Jalal A S.An effective image denoising approach based on denoising with image interpolation[C]//Proc of IEEE World Conference on Applied Intelligence and Computing.Piscataway,NJ:IEEE Press,2023:698-702.
[4]Feng Hansen,Wang Lizhi,Wang Yuzhi,et al.Learnability enhancement for low-light raw image denoising:a data perspective[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2024,46(1):370-387.
[5]Ben-loghfyry A,Hakim A.A bilevel optimization problem with deep learning based on fractional total variation for image denoising[J].Multimedia Tools and Applications,2024,83(10):28595-28614.
[6]Shen Weihong.A novel conditional generative adversarial network based on graph attention network for moving image denoising[J].Journal of Applied Science and Engineering,2023,26(6):831-841.
[7]Gustafson L,Rolland C,Ravi N,et al.Facet:fairness in computer vision evaluation benchmark[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:20313-20325.
[8]Cai Ruojin,Tung J,Wang Qianqian,et al.Doppelgangers:learning to disambiguate images of similar structures[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:34-44.
[9]Buades A,Coll B,Morel J M.A non-local algorithm for image denoising[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2005:60-65.
[10]Dabov K,Foi A,Katkovnik V,et al.Image denoising by sparse 3-D transform-domain collaborative filtering[J].IEEE Trans on Image Processing,2007,16(8):2080-2095.
[11]Dong Weisheng,Zhang Lei,Shi Guangming,et al.Nonlocally centrali-zed sparse representation for image restoration[J].IEEE Trans on Image Processing,2012,22(4):1620-1630.
[12]Selesnick I,Farshchian M.Sparse signal approximation via nonseparable regularization[J].IEEE Trans on Signal Processing,2017,65(10):2561-2575.
[13]Zhang Kai,Zuo Wangmeng,Chen Yunjin,et al.Beyond a gaussian denoiser:residual learning of deep CNN for image denoising[J].IEEE Trans on Image Processing,2017,26(7):3142-3155.
[14]Zhang Kai,Zuo Wangmeng,Zhang Lei.FFDNet:toward a fast and flexible solution for CNN-based image denoising[J].IEEE Trans on Image Processing,2018,27(9):4608-4622.
[15]Liang Jingyun,Cao Jiezhang,Sun Guolei,et al.SwinIR:image restoration using swin transformer[C]//Proc of International Conference on Computer Vision Workshops.2021:1833-1844.
[16]Zamir S W,Arora A,Khan S,et al.Restormer:efficient transformer for high-resolution image restoration[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:5718-5729.
[17]Lehtinen J,Munkberg J,Hasselgren J,et al.Noise2Noise:learning image restoration without clean data[C]//Proc of the 35th International Conference on Machine Learning.2018:4620-4631.
[18]Krull A,Buchholz T O,Jug F.Noise2Void-learning denoising from single noisy images[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:2129-2137.
[19]Xu Jun,Huang Yuan,Cheng Ming ming,et al.Noisy-as-clean:lear-ning self-supervised denoising from corrupted image[J].IEEE Trans on Image Processing,2020,29:9316-9329.
[20]Pang Tongyao,Zheng Huan,Quan Yuhui,et al.Recorrupted-to-Recorrupted:unsupervised deep learning for image denoising[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscata-way,NJ:IEEE Press,2021:2043-2052.
[21]Huang Tao,Li Songjiang,Jia Xu,et al.Neighbor2Neighbor:self-supervised denoising from single noisy images[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:14781-14790.
[22]Ulyanov D,Vedaldi A,Lempitsky V.Deep image prior[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:9446-9454.
[23]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.
[24]Li Yanghao,Wang Naiyan,Shi Jianping,et al.Adaptive batch normalization for practical domain adaptation[J].Pattern Recognition,2018,80:109-117.
[25]Zhang Kai,Li Yawei,Zuo Wangmeng,et al.Plug-and-play image restoration with deep denoiser prior[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,44(10):6360-6376.
[26]Wang Zhendong,Cun Xiaodong,Bao Jianmin,et al.Uformer:a general U-shaped transformer for image restoration[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:17662-17672.
[27]徐少平,李芬,陳孝國,等.一種利用改進深度圖像先驗構建的圖像降噪模型[J].電子學報,2022,50(7):1573-1578.(Xu Shao-ping,Li Fen,Chen Xiaoguo,et al.An image denoising model using the improved deep image prior[J].Acta Electronica Sinica,2022,50(7):1573-1578.)
[28]徐少平,肖楠,羅潔,等.雙通道深度圖像先驗降噪模型[J].電子學報,2024,52(1):58-68.(Xu Shaoping,Xiao Nan,Luo Jie,et al.Dual-channel deep image prior for image denoising[J].Acta Electronica Sinica,2024,52(1):58-68.)
[29]Mittal A,Moorthy A K,Bovik A C.No-reference image quality assessment in the spatial domain[J].IEEE Trans on Image Processing,2012,21(12):4695-4708.
[30]Mittal A,Soundararajan R,Bovik A C.Making a “completely blind” image quality analyzer[J].IEEE Signal Processing Letters,2012,20(3):209-212.
[31]Ma Chao,Yang C Y,Yang Xiaokang,et al.Learning a no-reference quality metric for single-image super-resolution[J].Computer Vision and Image Understanding,2017,158:1-16.
[32]Blau Y,Mechrez R,Timofte R,et al.The 2018 PIRM challenge on perceptual image super-resolution[C]//Proc of European Conference on Computer Vision.2018.
[33]Golestaneh S A,Dadsetan S,Kitani K M.No-reference image quality assessment via transformers,relative ranking,and self-consistency[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2022:3989-3999.
[34]Mou Chong,Zhang Jian,Wu Zhuoyuan.Dynamic attentive graph learning for image restoration[C]//Proc of IEEE International Confe-rence on Computer Vision.2021:4328-4337.
[35]Ren Chao,He Xiaohai,Wang Chuncheng,et al.Adaptive consistency prior based deep network for image denoising[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:8592-8602.