關鍵詞:圖像恢復;擴散模型;數據一致性
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)08-039-2538-07
doi:10.19734/j.issn.1001-3695.2024.10.0440
Image restoration model based on dual diffusion model
LiPeng ?1,2 ,Hui Jian , Zhu Peipei1,2(1.SouthestCaIiutefElctoichlgegduin;tioaKyboorfleAtioSemulaiton,Chengdu ,China)
Abstract:Duetotheabilityofdiffusionmodels toefectivelymodelthedatadistributions,imagerestorationmethodsbasedon difusionmodelshavedemonstrated excellentperformanceand gain widespreadatention.Addressingtheissueofrandomnoise perturbationanddataconsistencythispaperintroducedanovelimagerestorationmodel,rdM,tointegrateresidualdifusiontoachieveadual difusioneffect.Thenoisedifusionefectivelylearnedtheglobal distrbutionof theimage,preserving high-frequencydetails.Whiletheresidualdifusiondirected theprocess fromthetargetimage totheinput,improvingstructuralrecovery.Additionally,thispaperproposeddecouplethereverseprocessfromdataconsistencystepsanddynamicallyadjusteddifusionstrength,enhancingcomputational eficiencyandrestorationresults.ExperimentsshowthatrdIRMacheves superior performance across various image restoration tasks.
Key words: image restoration;diffusion model;data consistency
0 引言
圖像恢復技術是計算機視覺領域中的一個核心研究方向,其目的是從退化、受損或有噪聲的圖像中恢復出清晰的、高質量的圖像。這項技術在醫學成像、衛星遙感、視頻監控等眾多實際應用場景中具有廣泛的應用價值。在過去的幾十年中,圖像恢復領域的發展主要依賴于經典的優化方法,如基于正則化的圖像重建方法[1]和變分模型[2]。這些傳統方法雖然在低噪聲環境下能夠有效恢復圖像的主要結構,但在處理高噪聲、模糊等復雜場景時往往表現不足。
傳統的圖像恢復方法主要依賴于基于優化的技術,這些方法通過構建對圖像先驗的假設,利用正則化項來約束恢復過程。例如,總變分(totalvariation)方法3和稀疏表示(sparserepresentation)方法[4通過對圖像的平滑性或稀疏性進行建模,能夠在一定程度上恢復圖像的主要結構。然而,這類方法通常需要復雜的迭代計算,且對于高頻細節和復雜紋理信息的恢復表現較差。此外,這些方法對先驗知識的依賴較強,導致它們在面對不同類型的退化圖像時適應性有限。
隨著深度學習的發展,基于卷積神經網絡(CNN)的圖像恢復方法[5]逐漸成為研究的主流。深度學習方法通過大規模數據的端到端學習,自動提取多尺度圖像特征,不再依賴于人為設計的先驗假設。這類方法包括去噪自動編碼器(denoisingautoencoders)[殘差網絡(ResNet)[7]以及生成對抗網絡(GAN)°,它們在去噪、超分辨率和去模糊等任務中展現了強大的效果。相比傳統方法,深度學習模型能夠更好地捕捉圖像的細節,并在處理復雜退化場景時表現出色。然而,深度學習方法通常需要大量的訓練數據和計算資源,在生成過程中仍然面臨著計算開銷大的問題。尤其是在同時處理圖像的全局結構與局部細節時,現有的深度學習模型仍然存在一定的局限性。
近期,擴散模型(diffusionmodel)[9作為一種新興的生成模型,逐漸應用于圖像生成與恢復任務中。生成模型通過學習大規模圖像數據集的潛在分布,能夠生成高質量的圖像,并在各種圖像生成和圖像恢復任務中展現出極大的潛力。這些模型能夠自動學習圖像中的復雜結構和細節信息,使得圖像恢復效果顯著提升。尤其是在處理復雜圖像場景時,生成模型表現出了優越的適應性。然而,盡管生成模型在圖像恢復任務中取得了顯著進展,現有方法仍面臨諸多挑戰。
當前圖像恢復模型仍面臨幾個關鍵問題。現有的深度學習擴散模型雖然在處理復雜分布的圖像時具有一定優勢,但往往是簡單單一的去噪過程,其仍面臨以下主要問題:a)全局結構與細節恢復的沖突。現有方法主要依賴于單一的擴散過程,通常在去噪過程中無法有效兼顧圖像的全局結構與細節,導致圖像在恢復時無法同時保證高頻信息和全局一致性。b)數據一致性問題。最近嘗試使用擴散模型實現圖像恢復的模型通常將數據一致性與反向擴散過程緊密耦合,導致恢復效果不佳,并增加了計算負擔。
為了解決這些問題,本文提出了一種基于雙重擴散機制的圖像恢復模型rddIRM,主要包括以下模塊:
a)數據一致性解耦。傳統模型中,數據一致性與反向擴散過程通常緊密耦合,導致在恢復過程中效果不佳且容易引入不必要的計算負擔。為此,本文提出將數據一致性優化與反向擴散過程解耦,使得模型能夠在保證恢復質量的同時減少計算成本,提高了模型的計算效率。
b)雙重擴散機制。rddIRM引入了雙重擴散機制,將噪聲擴散和殘差擴散結合在一起,噪聲擴散用于有效學習和建模待恢復圖像的分布,通過引入隨機擾動來處理恢復過程中圖像中的噪聲,對復雜分布的準確建模確保圖像中的高頻信息和細節得以保留。而殘差擴散則表示從目標圖像向退化輸入圖像的定向擴散,明確引導圖像恢復的反向生成過程,幫助模型更好地修復目標圖像的整體結構以及確保恢復的方向準確。這一機制解決了單一去噪過程在恢復任務中的局限性,使得模型能夠在去噪過程中同時考慮到全局圖像結構和細節恢復的需求。
c)動態自適應擴散強度調整。現有擴散模型中的擴散強度往往是靜態的,無法適應恢復過程中不同階段的需求。為了解決這一問題,本文提出了動態自適應擴散強度調整機制,能夠根據恢復的不同階段靈活調整擴散強度。在初期階段,模型擴散強度較大,重點恢復圖像的全局結構;在后期階段,擴散強度逐步減小,以更精確地恢復圖像的細節。這種自適應機制能夠提高恢復的靈活性和精度。這一改進考慮了圖像恢復過程中各個階段不同需求:初期階段,主要任務是恢復全局結構,而后期則側重于細節恢復,從而確保全局結構和細節恢復的最佳平衡。
1相關工作
1.1 圖像恢復
圖像恢復是計算機視覺中的一個核心任務,其目的是從退化、受損或帶有噪聲的圖像中重建出高質量的圖像[10]。該領域涵蓋了多種任務,包括去噪、去模糊、超分辨率等。圖像恢復技術在醫學影像、遙感圖像處理、視頻監控等領域有著廣泛的應用價值,因而一直是研究的重點方向。傳統方法通常依賴于基于正則化的優化技術,如總變分(totalvariation)和非局部均值(non-local means,NLM)[1]。總變分方法通過最小化圖像的總變分來實現去噪,能有效保留邊緣信息,適用于處理噪聲較低的圖像。然而,該方法在高噪聲環境下容易導致細節的丟失。非局部均值方法則利用圖像中像素之間的相似性,通過加權平均的方式去除噪聲。雖然非局部均值在去噪效果上表現良好,但其計算復雜度較高,尤其是在處理大尺寸圖像時,效率較低。在深度學習方法方面, DnCNN[12] 、 FFDNet[13] 和SR-GAN[14] 是三個具有代表性的模型。DnCNN采用殘差學習框架,能夠有效去除多種噪聲類型,同時保持圖像細節。其優點在于訓練速度快和去噪效果好,但依賴于大量標注數據。FFDNet則專注于低劑量醫學圖像去噪,通過自適應處理不同噪聲水平,實現高效去噪,保持圖像質量。然而,在極端噪聲情況下,FFDNet仍然可能導致細節損失。SRGAN利用生成對抗網絡的框架,在超分辨率任務中展現了卓越的性能,能夠生成高分辨率圖像并保留細節,但其訓練過程較為復雜,計算資源需求較高。因此,盡管圖像恢復技術在多個領域取得了顯著進展,但在噪聲處理的有效性、細節恢復的精確性及計算效率等方面仍然面臨挑戰,亟需新的研究方向以提升恢復質量和效率。
1.2數據一致性優化
數據一致性在圖像恢復任務中,指的是恢復過程中確保生成的圖像不僅視覺效果良好[15],還要與原始觀測數據保持一致。具體來說,數據一致性約束確保恢復后的圖像在經過特定的操作(如降采樣、模糊等)后,可以與退化的觀測數據相匹配。在圖像恢復中,數據一致性優化常通過三種方式實現:a)梯度投影方法[1將生成樣本投影回測量空間以保持一致性,但對噪聲和非線性問題效果有限;b)近似條件分數函數[通過計算似然梯度動態調整生成過程中的噪聲以維持一致性;c)解耦數據一致性方法[18]則通過交替重建與精化階段,既確保數據保真度,又利用擴散模型優化圖像質量,提升了模型的效率。傳統的擴散模型在圖像恢復過程中,通過在逆向采樣步驟中加人梯度步驟來實現數據一致性,數據一致性與逆向擴散過程緊密耦合,這限制了加速擴散采樣器的使用,也導致了部分模型在數據一致性步驟上的局限性
1.3 去噪擴散模型
去噪擴散模型是圖像去噪領域近年來涌現的一種新興方法,具有顯著的優點。相比傳統的去噪方法,它能夠更有效地建模圖像的復雜分布,并且通過逐步添加和去除噪聲的方式,逐步恢復圖像的結構與細節。這種逐步迭代的方式使得擴散模型在處理高噪聲圖像時表現出色,并且能夠兼顧圖像的全局信息和細節恢復,具有較強的適應性。去噪擴散模型在各種視覺任務中表現出色。在圖像生成任務中,去噪擴散模型通過逐步去除噪聲的方式生成高質量的圖像。相比于傳統的生成模型,擴散模型能夠更自然地生成復雜場景下的圖像,不僅保留全局結構,還能生成細節豐富、視覺效果逼真的圖像。此外,去噪擴散模型在3D場景生成中也發揮了重要作用。通過將擴散過程擴展到三維數據,該模型能夠生成結構完整且細節豐富的3D場景。擴散模型的逐步恢復機制使其能夠捕捉到3D物體的幾何結構和表面細節,從而生成高質量的三維圖像和場景。這使得去噪擴散模型在虛擬現實(VR)[19]、增強現實(AR)[20]以及3D場景重建[21]等任務中展現出強大的潛力,能夠生成連貫的三維結構和真實感強的三維內容。在圖像恢復任務中也引起了廣泛關注,去噪擴散模型通過逐步去噪和恢復的方式在處理高噪聲圖像或嚴重退化的圖像時表現出極高的效果。相比傳統圖像恢復技術,去噪擴散模型在處理復雜噪聲分布和重建細節方面更具優勢。
2方法
本文提出了一種基于雙重擴散機制的圖像恢復模型rdd-IRM,旨在解決現有圖像恢復方法在處理全局結構和局部細節時存在的局限性。該模型通過引入殘差擴散和噪聲擴散兩個獨立的擴散機制,確保了圖像恢復過程中全局結構與細節信息的有效結合。整個框架設計檳棄了傳統方法中數據一致性與擴散過程強耦合的問題,并引入了動態自適應擴散強度調整機制,實現了高效且精確的圖像恢復。模型的整體結構如圖1所示,主要包含雙重擴散模塊、數據一致性解耦模塊和動態自適應擴散強度調整模塊三個關鍵模塊。
模型接收退化的圖像作為輸入,并通過雙重擴散開始恢復。殘差擴散在擴散初期發揮主導作用,負責從目標圖像到退化輸入圖像的定向擴散。這一過程重點保證圖像的全局結構得以恢復,主要處理圖像中的低頻成分和宏觀輪廓。通過逐步減少與目標圖像的殘差,模型在早期階段恢復了圖像的整體布局和全局一致性。噪聲擴散在恢復的后期階段發揮作用,主要處理圖像的高頻信息和細節。噪聲擴散通過對局部細節進行隨機擾動,能夠更好地捕捉和恢復圖像的精細紋理和高頻細節。此過程在全局結構已大致恢復的基礎上,進一步細化圖像的局部信息,確保圖像的細節還原度。數據一致性解耦模塊中,模型將數據一致性優化步驟與擴散過程解耦,通過交替進行重建和精化階段,使生成的圖像在保持與觀測數據一致性的同時,逐步優化細節。此外,動態自適應擴散強度調整模塊根據圖像恢復過程的不同階段,動態調整擴散強度,這種自適應機制確保了模型能夠靈活處理不同的恢復需求,提高了圖像生成的準確性和視覺效果。
2.1 雙重擴散模塊
本文提出一種新型的雙重擴散模塊以用于圖像恢復任務。如圖2所示,雙重擴散模塊通過將傳統的去噪擴散過程解耦為殘差擴散和噪聲擴散,提供了一種新的框架,用以解決圖像生成與恢復任務中不同的需求。相比于傳統的單一擴散模型,該雙重擴散過程能夠同時考慮圖像的全局結構與局部細節,從而更精確地控制生成和恢復任務。
圖2雙重擴散模塊
Fig.2Doublediffusionmodule
a)殘差擴散。殘差擴散主要用于處理圖像恢復中的確定性問題。其目標是引導從退化圖像到目標圖像的生成過程,確保恢復圖像的全局結構與輸入圖像一致。具體而言,殘差擴散從目標圖像 X0 到退化圖像 XT 之間進行擴散,殘差被定義為
其中: x0 表示目標圖像; 表示經過擴散步驟的退化圖像; rt 表示該時間步的殘差。
殘差擴散不僅增強了圖像的全局一致性,還能夠幫助模型在恢復過程中減少不必要的擾動。因此,殘差擴散主要用于修復目標圖像的整體結構,確保恢復的方向準確。在逆向擴散過程中,模型從最初的退化圖像出發,通過利用殘差信息不斷減少圖像的差異,最終恢復出與目標圖像高度一致的結果。這個過程不僅保證了圖像的全局結構,同時為后續的細節生成提供了基礎。
b)噪聲擴散。與殘差擴散不同,噪聲擴散用于生成圖像中的細節和隨機性。噪聲擴散通過逐步去除噪聲,恢復圖像中的細節信息。這一過程通過對標準高斯分布噪聲進行處理,確保生成圖像的局部細節得以準確重建。噪聲擴散的公式如下:
zt~N(0,I)
其中: zt 為標準高斯噪聲。它是從標準正態分布 N(0,I) 中采樣得到的噪聲向量,代表擴散過程中的隨機擾動。噪聲擴散部分在恢復的后期起主要作用,通過逐步減小噪聲,確保圖像中的高頻信息和細節得以保留,補充殘差擴散的全局結構恢復功能。
c)前向擴散過程。在雙重擴散機制中,前向擴散過程通過兩個獨立的通道進行:一個用于殘差擴散,另一個用于噪聲擴散。前向擴散可以表示為
其中: αt 和 βt 是控制殘差和噪聲擴散的調度參數。這兩個系數隨著擴散時間步 χt 的變化動態調整,確保不同的擴散階段中,殘差和噪聲的影響分別適用于全局結構和細節的恢復。在前期,殘差擴散占主導地位,保證模型能夠優先重建圖像的全局結構。在后期,噪聲擴散逐步接管,生成圖像中的細節信息,使得最終恢復的圖像既具有全局一致性,又富含局部細節。
d)逆向過程。在逆向擴散過程中,每一步 χt 都會計算當前生成圖像與目標圖像之間的殘差,這個殘差會用于調整擴散過程中的噪聲預測,確保每一步生成的圖像都逐漸逼近目標圖像。逆向過程公式如下:
相對于原始的逆向公式, ,rt 作為殘差信息被加人到噪聲預測中,幫助模型在逆向擴散過程中更精確地調整生成路徑。通過這種方式,殘差擴散直接影響每個時間步的恢復,使得模型能夠更快且更準確地重建目標圖像。
如上,雙重擴散模塊通過殘差擴散的明確引導,結合噪聲擴散的細節補充,形成了一個動態平衡的擴散過程。這個過程能夠在高效生成圖像的同時,保留全局結構和細節信息,適用于多種圖像恢復。
2.2數據一致性解耦
在圖像恢復任務中,數據一致性是至關重要的要求,它確保生成的圖像與原始退化數據保持一致。然而,在傳統擴散模型中,數據一致性通常與擴散過程強耦合,導致計算復雜度增加和恢復精度的限制。為了提升圖像恢復的效率,本文提出了數據一致性解耦的機制,旨在將數據一致性步驟與逆向擴散過程分離,實現高效的恢復過程。
數據一致性解耦通過兩個階段交替進行:首先,模型在重建階段通過數據一致性優化進而優化數據保真度,生成與觀測數據一致的初步圖像;然后,進入精化階段,通過雙重擴散模型的生成先驗進一步優化圖像的細節。這樣,數據一致性步驟從每個擴散時間步中獨立出來,使得計算開銷得到顯著減少,特別適用于大規模圖像恢復任務。數學上,數據一致性優化可以表示為如下的公式:
其中: ?xk 為當前的重建圖像,在第 k 次迭代時模型生成的圖像。該圖像通過數據一致性和先驗約束被逐步優化,最終趨近于目標圖像。測量算子(或者退化模型) ?A(x) 表示對原始圖像 x 的某種變換。例如,圖像退化可能包括模糊、噪聲或下采樣等操作。 y 為觀測數據,即從真實場景中獲取的退化圖像,這個數據包含噪聲或其他失真。 為數據一致性項,它表示當前生成的圖像在通過測量算子作用后的結果與實際觀測數據之間的誤差(以歐幾里德距離計算)。這個項衡量了生成圖像與輸入退化數據之間的差異。 μ 為正則化參數,它是一個權重系數,用來平衡數據一致性項與先驗信息之間的權重。
為重建項,重建項通過最小化生成圖像與前一輪圖像的差異,確保生成的圖像不會過度偏離前一輪迭代的結果,逐步改善圖像的精細程度。
通過將數據一致性解耦,模型可以先通過數據一致性優化的約束,重建圖像生成一個與觀測數據盡可能相似的初步圖像,在這個階段,數據一致性優化過程專注于最小化數據一致性項,確保生成的圖像與觀測數據保持物理上的一致性。在接下來,模型利用雙重擴散模型的生成能力,通過噪聲去除進一步精細化圖像,生成更加清晰和細節豐富的圖像。這個過程可以被視為在重建圖像基礎上進一步消除殘余噪聲,增強圖像的視覺質量和細節表現。
2.3動態自適應擴散強度調整
在圖像恢復的過程中,不同階段對擴散強度的需求不同。初期階段,模型需要更大強度的擴散來確保全局結構的生成和恢復;而在后期階段,生成過程則需要更多關注細節信息的精細化,這時擴散強度需要逐步減小,以精確恢復高頻細節。因此,固定的擴散強度往往難以兼顧全局與局部恢復需求,影響最終生成的圖像質量。
本文引入了動態自適應擴散強度調整機制,其核心思想是讓模型在不同的擴散階段自適應調整擴散強度,以更好地控制噪聲去除的進程。這種機制通過引入時間步依賴的動態權重函數,靈活控制不同時間步的擴散強度,確保全局和細節信息的逐步恢復。
為了讓擴散強度能夠在不同階段靈活調整,本文引入一個自適應的擴散強度函數。該函數根據時間步 χt 動態調整擴散強度,以確保模型在不同階段能夠更好地平衡全局結構與細節生成。自適應擴散強度函數定義為
其中: σmax 是擴散初期使用的最大擴散強度,適用于去除大范圍噪聲和恢復全局結構; σmin 是擴散后期使用的最小擴散強度,適用于精細地恢復圖像細節; Φt 是當前的時間步; T 是擴散的總步數。這個公式保證了擴散強度從初期較大逐步減小到后期,適應圖像生成過程的不同需求。擴散初期,模型側重于恢復圖像的主要結構,因此需要較大的擴散強度;擴散后期,模型逐步轉向細節恢復,擴散強度則逐步減小,以免丟失細節。自適應動態擴散強度調整特別適用于那些復雜的圖像恢復任務,尤其是在噪聲分布復雜或圖像退化嚴重的情況下,根據時間步的變化動態調整擴散強度,解決了固定擴散強度無法適應不同生成階段的局限性,使得模型能夠自適應地控制噪聲去除的強度,在全局和細節生成方面取得了較好的平衡,確保圖像恢復一致性保持能力更強、細節保留能力更強。
3 實驗與結果分析
3.1實驗數據集介紹
本文提出了一種基于雙重擴散模型的圖像恢復模型rdd-IRM,為了證明rddIRM針對于圖像恢復任務的有效性,針對常見的五類圖像恢復任務:圖像去霧、圖像去雨、圖像去雪、圖像去模糊和低光照圖像增強進行了訓練測試,本文訓練使用到的數據集是NH-HAZE[22]、RESIDE[23] Rain100H[24] 、Rain100L[24]CSD[25] ) GOPr0[26] 和 LOL[27] ,這幾個數據集分別是五類圖像恢復任務的重要基準。
a)圖像去霧:本文采用NH-HAZE和RESIDE作為基準。其中RESIDE是一個廣泛使用的合成霧場景數據集,具有不同的霧霾水平和場景。由于合成數據集與真實的霧具有一定差異,所以本文額外使用了NH-HAZE。它是一個包含非均勻霧的真實數據集,具有成對的真實霧度和相應的無霧度圖像,包含55個室外場景。
b)圖像去雨。本文采用 Rain100L 和 Rain100H 作為基準。這兩者為合成雨場景數據集,其中 Rain100L 訓練集包含1800對圖像,測試集包含100對圖像,僅包含單一方向的雨跡且雨跡較 Rain100H 更稀疏, Rain100H 包含5個不同方向的雨跡,訓練集包含1800對圖像,測試集包含100對圖像。
c)圖像去雪。本文采用CSD作為基準。該數據集為合成雪場景數據集,由10000張圖像組成,具有不同屬性的雪花和雪紋(即透明度,大小和位置),且加入了高斯模糊以模擬真實雪場景。
d)圖像去模糊。本文采用 GOPro 作為基準。該數據集為合成場景數據集,含有2103對訓練對和1111對測試對,圖片尺寸為 1 280×720 。
e)低光照圖像增強。本文采用的是LOL作為基準。該數據集有485對訓練對和15對測試對,這些數據集由大量不同光照和噪聲水平的室內和室外場景組成。
3.2實驗數評價指標
為了對rddIDM的圖像恢復效果進行定量比較,本文采用了多種評價指標:峰值信噪比(PSNR)[28]、結構相似度(SSIM)[29]、自然圖像質量評估器(NIQE)[30]、亮度階誤差(LOE)[31]、綜合局部 NIQE(IL-NIQE)[32]等指標。
a)PSNR是一種廣泛用于圖像和視頻質量評估的指標。它通常用于評估在圖像壓縮或降質處理后圖像質量的損失程度,衡量原始圖像和處理后圖像的相似度,越高的PSNR值表示圖像質量損失越小。其計算復方法如下:
b)SSIM是一種用于比較圖像相似性的指標,綜合考慮了亮度、對比度和結構三個因素,以更接近人類視覺感知的方式評估圖像質量,其數學公式如下:
SSIM(x,y)=[l(x,y)]α?[c(x,y)]β?[s(x,y)]γ
c)LOE是一種用于評估圖像增強算法性能的評價指標。該指標主要用來衡量圖像亮度順序的一致性。LOE通過計算增強后的圖像與原始圖像之間亮度順序的差異,來評估增強算法是否保留了圖像中的亮度層次信息。
d)自然圖像質量評估器(natural imagequalityevaluator,NIQE)作為一種無參考圖像質量評價指標,被廣泛應用于圖像處理領域。它通過評估圖像的自然場景統計特征來量化圖像質量,而不需要參考圖像,其分數越低代表圖像質量越高,圖像越自然,其主要的計算公式為
其中: ν1,ν2 和 Σ1,Σ2 分別為訓練圖像和生成圖像的多元高斯模型的均值向量和協方差矩陣。
IL-NIQE在NIQE的基礎上引入了局部區域統計特征和尺度特征的提取機制,可以更好地捕捉圖像中的細節變化,增強了對圖像局部質量的敏感性,構建了一個更加復雜的圖像質量評估模型。
3.3 實驗具體設置
本文實驗的硬件配置統一為GPU3090Ti,24GB顯存、CPU IntelBXeonB W-2233 。軟件及環境統一為操作系統Ubuntu 20.04、編譯器PyCharm、Python3.8。
實驗使用 Adam[18] 優化器和L1損失進行30萬次迭代,初始學習率為8E-5。批大小(batchsize)設置為10。由于每個任務數據集數量差異較大,在將模型作為統一模型進行訓練時,權重系數必須進行調整,本文將一個批次中每個任務的權重設置為去霧圖像:弱光圖像:去雨圖像:去雪圖形學:去模糊圖像 =0.4:0.1:0.2:0.2:0.1 。對于數據增強,本文對所有數據使用水平和垂直翻轉,額外對低光照數據使用直方圖均衡化預處理。在數據增強后,從原始圖像中隨機裁剪 256×256 塊作為網絡輸入進行訓練。在推理時,以全分辨率進行測試,并對所有任務使用3個時間步。
3.4定性可視化分析
為了直觀展示本文rddIRM在圖像恢復任務上的有效性,將其應用于各種任務中,并通過可視化的方式展示了rddIRM模型圖像恢復的實際效果。其中對比模型只使用Restomer[33]Prompt- ?IR[34] 和 DA-CLIP[35],與 rddIRM 進行恢復可視化對比。
a)圖像去霧。霧霾通常導致圖像模糊、對比度降低和顏色失真。圖像去霧旨在消除大氣霧霾對視覺的影響,恢復在霧霾條件下拍攝的圖像的清晰度和色彩。圖3展示本文rddIRM與之前三種模型在圖像去霧兩個例子上的實際表現。
b)圖像去雨。雨水通常導致場景出現雨斑點遮擋、條紋和模糊區域。圖像去雨任務旨在去除圖像中由于降雨而產生的干擾,改善圖像的可見性。圖4展示本文rddIRM與之前三種模型在圖像去雨兩個例子上的實際表現。
圖3圖像去霧可視化和局部放大對比 Fig.3Comparasion of image defogging visualization and local magnification
圖4圖像去雨可視化和局部放大對比
從圖4可以明顯看出,本文方法在圖像的清晰度、色彩和細節恢復方面表現得更為出色,更好地恢復了雨遮擋和雨景模糊,恢復后的圖片可見性得到了較大改善。
c)圖像去雪。雪花通常在圖像中表現為白色顆粒或斑點,影響場景的整體視覺效果。圖像去雪任務的目標是消除圖像中由于降雪而導致的視覺干擾。圖5展示本文rddIRM與之前三種模型在圖像去雪兩個例子上的實際表現。圖5中,本文方法對于雪花的去除效果較其他方法更有效,較好地恢復了雪帶來的顆粒模糊和塊狀模糊,恢復后的圖片質量得到了較大改善。
d)圖像去模糊。由于運動或對焦不準確等原因,拍攝的圖像出現運動模糊和失焦模糊等現象。圖像去模糊旨在恢復重建圖像的清晰細節。圖6展示本文rddIRM與之前三種模型在圖像去模糊兩個例子上的實際表現。
圖5圖像去雪可視化和局部放大對比
圖6圖像去模糊可視化和局部放大對比 Fig.6Comparasion of imagedeblurringvisualizationand local magnification
圖6中,本文方法對于模糊的去除效果較其他方法更有效,較好地恢復了運動模糊和其他模糊,恢復后的圖片呈現出了與標簽圖片更相似的清晰細節。
e)低光照圖像增強。在光照條件不足的情況下拍攝,所得圖像常常表現出噪聲高、對比度低和細節缺失等問題。低光照圖像增強任務旨在恢復該類圖像的可見性和細節。圖7展示本文rddIRM與之前三種模型在低光照圖像增強三個例子上的實際表現。
在圖7中,本文方法大大改善了圖片的亮度和色彩。在簡單低光照圖像增強任務中即在真實圖像光照條件單一,且退化圖像暗度均勻,場景簡單的情況下,如圖7(a)(b)所示,三個對比模型和rddIRM都取得了較好的效果,但rddIRM的LOE與NIQE指標均最小,這說明rddIRM在邊緣處的恢復效果更好,使得圖像的可見性和對比度增強。同時,相比其他方法,rddIRM更能應對缺乏光照條件下的細節損失問題,更好地恢復了圖像紋理細節,生成的圖像質量更高。然而,在復雜低光照圖像增強任務中即在真實圖像光照條件復雜,且退化圖像暗度不均勻,場景復雜的情況下,如圖7(c所示,三個對比模型的效果均不佳,LOE與NIQE的得分均較大,僅rddIRM取得了較好的恢復效果,在LOE與NIQE上仍能夠保持較好得分。進一步分析,從圖7(c)恢復圖像的細節放大圖中可以發現,rddIRM在有效增強光照的同時,高質量地恢復出了墻壁花紋和座椅細節,進而證明rddIRM在面對復雜場景、復雜光照情況時能夠有效增強低光照圖像,更好地還原圖像原本的色彩與細節。
整體上,對于五個圖像恢復任務,rddIRM生成圖像的整體色彩與標簽圖片更加相似,同時生成圖像的各部分細節也得到了較好的恢復,相比于之前的模型,本文方法中生成的圖像在復雜紋理、光影以及小目標方面的恢復效果更好。
3.5定量性能對比實驗
下面將rddIRM與其他方法在五類圖像恢復任務上進行評價指標的定量比較,分為整體表現對比(表1)與特定指標對比(表2)。其中整體表現對比只針對PSNR和SSIM進行對比,比較方法更多,用于證明rddIRM在圖像恢復任務上整體的有效性,而特定指標對比針對各個圖像恢復任務的關鍵性指標進行對比,但對比模型較少,用于進一步證明rddIRM在各圖像恢復任務上的適用性。
表1五類圖像恢復任務整體效果評價指標對比Tab.1Comparison of overall effect evaluation indexes of five types of image restoration tasks
表2五類圖像恢復任務特定評價指標比較
Tab.2Comparison of specific evaluation indicatorsof five types of image restoration tasks
表中對比了本文方法與其他方法在不同圖像恢復任務中的差異,整體對比方法分為任務特定方法和通用方法兩類。任務特定方法中的模型是專門針對某些任務設計的,通用方法并非針對某一個特定任務設計,而是可以應用于多個圖像恢復任務。之前的圖像恢復模型,任務特定方法在其針對的任務上表現較為優異,適用于需要處理特定任務的場景,而通用方法在特定任務上的表現弱于任務特定方法,但其具有較強的任務泛化能力,能夠在多個任務上有較好的表現。本文方法在大部分任務在針對特定任務單獨訓練時,在各個圖像恢復任務中都取得了相對優異的結果,尤其是在圖像去雨和增強任務中表現出色。盡管rddIRM用于任務特定方法時,在個別任務上稍遜于其他任務特定方法,但rddIRM用于通用方法時,在多任務處理上表現出色,表明其具有較強的通用性和穩定性,實驗結果也驗證了其在處理復雜多恢復任務時的有效性。
4結束語
殘差擴散和噪聲擴散機制分別用于全局結構和局部細節的恢復,并且通過引入數據一致性解耦和動態自適應擴散強度調整,模型在提高圖像恢復精度的同時,優化了推理效率。此外,實驗證明,本文rddIRM在各個圖像恢復任務中都取得了相對優異的結果。該方法有效解決了傳統圖像恢復在復雜場景中的不足,具有廣泛的應用前景。后續工作將在本文工作基礎上探索多光譜、熱紅外等多模態圖像的圖像恢復任務。
參考文獻:
[1]鐘夢圓,姜麟.超分辨率圖像重建算法綜述[J].計算機科學與 探索,2022,16(5):972-990.(ZhongMengyuan,JiangLin.Reviewof super-resolution image reconstruction algorithms[J].Journal ofFrontiersof ComputerScienceand Technology,2022,16 (5): 972-990.)
[2],趙輝,楊曉軍,張靜,等.基于結構組全變分模型的圖像壓縮感 知重建[J].電子與信息學報,2020,42(11):2773-2780. (ZhaoHui,YangXiaojun,ZhangJing,etal.Image compressed sensing reconstruction based on structural group total variation [J]. Journal ofElectronicsamp; Information Technology,2020,42 (11):2773-2780.)
[3]Zhang Benxin,Zhu Guopu,Zhu Zhibin,et al.Alternating direction methodofmultipliersfornonconvexlog total variationimagerestoration[J].AppliedMathematicalModelling,2023,114:338-359.
[4]Peng Jiangtao,Sun Weiwei,Li Hengchao,et al.Low-rank and sparse representation for hyperspectral image processing:a review [J].IEEE Geoscience and Remote Sensing Magazine,2022, 10(1):10-43.
[5]曹義親,邱沂.雙通道擴張卷積注意力圖像去噪網絡[J].計算 機應用研究,2023,40(5):1548-1552,1564.(CaoYiqin,Qiu Yi. Two-channel dilated convolution attentional image denoising network[J].ApplicationResearchofComputers,2023,40(5): 1548-1552,1564.)
[6]Cui H,Zdeborová L.High-dimensional asymptotics of denoising autoencoders[C]//Advances in Neural Information Processing Systems.2023:11850-11890.
[7]Ghodrati V,Shao Jiaxin,Bydder M,et al.MR image reconstruction [J].Quantitative Imaging in Medicine and Surgery,2019,9 (9):1516-1527.
[8]Koonce B,Koonce BE.Convolutional neural networks with swift for TensorFlow:image recognition and dataset categorization[M].New York:ACM Press, 2021: 63-72.
[9]Croitoru FA,Hondru V,Ionescu R T,et al.Diffusion models in vision:a survey [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2023,45(9):10850-10869.
[10]賈童瑤,卓力,李嘉鋒,等.基于深度學習的單幅圖像去霧研究 進展[J].電子學報,2023,51(1):231-245.(Jia Tongyao, Zhuo Li,Li Jiafeng,et al.Research advances on deep learning based single imagedehazing[J].Acta Electronica Sinica,2023,51 (1):231-245.)
[11]Heo YC,Kim K,Lee Y. Image denoising using non-local means (NLM)approach in magnetic resonance (MR) imaging: a systematic review[J].Applied Sciences,2020,10(20):7028.
[12]Murali V,Sudeep P V. Image denoising using DnCNN:an exploration study [C]//Advances in Communication Systems and Networks. Singapore:Springer,2020:847-859.
[13] Zhang Kai,Zuo Wangmeng,Zhang Lei.FFDNet: toward afast and flexible solution for CNN-based image denoising[J]. IEEE Trans on Image Processing,2018,27(9):4608-4622.
[14]Xiong Yingfei, Guo Shanxin,Chen Jinsong,et al. Improved SRGAN for remote sensing image super-resolution across locations and sensors [J].Remote Sensing,2020,12(8):1263.
[15]孫福艷,呂準,呂宗旺.基于深度學習的低光照圖像增強研究綜 述[J].計算機應用研究,2025,42(1):19-27.(SunFuyan,Lyu Zhun,Lyu Zongwang. A survey of low-light image enhancement based on deep learning[J].Applications Research of Computers, 2025,42(1):19-27.
[16]鄭志強,王怪.一個面向人物圖像修復的去噪擴散概率模型[J/ OL]:小型微型計算機系統.(2024-09-23)[2024-12-13].http://kns.cnki. net/kcms/detail/21.1106.TP.20240923.1356.018. html.(Zheng Zhiqiang,Wang Yi. A denoising difusion probabilistic model for human image restoration [J/OL]. Jourmal of Chinese Computer Systems.(2024-09-23)[2024-12-13].http://kns. cnki.net/kcms/detail/21.1106.TP.20240923.1356.018.html.)
[17] Tashiro Y,Song Jiaming,Song Yang,et al. CSDI:conditional scorebased diffsion models for probabilistic time series imputation [C]// Advances in Neural Information Processing Systems.2O21:24804- 24816.
[18]Xia Yan,Huang Hai,Zhu Jieming,et al.Achieving cross modal generalization with multimodal unified representation [C]//Advances in Neural Information Processing Systems,2024:63529-63541.
[19] Chen Rui,Chen Yongwei,Jiao Ningxin,et al.Fantasia3D:disentangling geometryand appearancefor high-quality text-to-3D content creation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2023:22189-22199.
[20]Huang Zhilin,Yang Ling,Zhou Xiangxin,et al.Interaction-based retrieval-augmented difusion models for protein-specific 3D molecule generation [C]//Proc of the 41st International Conference on Machine Learning. Cham:Springer,2024: 20348-20364.
[21]Anciukevicius T,Xu Zexiang,FisherM,etal.RenderDiffusion:image diffusion for 3D reconstruction,inpainting and generation[C]/ Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:12608-12618.
[22]Ancuti C O,Ancuti C,Timofte R. NH-HAZE:an image dehazing benchmark with non-homogeneous hazy and haze-free images[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,202O:1798-1805.
[23]Lu Liping,Xiong Qian,Xu Bingrong,et al.MixDehazeNet:mix structure block for image dehazing network[C]//Proc of International Joint Conferenceon Neural Networks.Piscataway,NJ:IEEE Press,2024:1-10.
[24]YangWenhan,TanRT,Feng Jiashi,etal.Deep joint rain detection and removal froma single image[EB/OL].(2016-09-25).https:// arxiv. org/abs/1609.07769.
[25]Fan Dengping,Ji Gepng,Sun Guolei,et al. Camouflaged object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,202O: 2777-2787.
[26]Wang Hanzhao,Hu Chunhua,Qian Weijie,et al. RT-Deblur:realtimeimage deblurring for object detection[J].The Visual Computer,2024,40(4):2873-2887.
[27]Li Chongyi,Guo Chunle,LoyC C.Learning to enhance low-light image via zero-reference deep curve estimation [J]. IEEE Trans On Pattern Analysis and Machine Intelligence,2022,44(8): 4225-4238.
[28]Horé A, Ziou D. Image quality metrics:PSNR vs. SSIM[C]//Proc of the 2Oth International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2010:2366-2369.
[29] Setiadi D R I M. PSNR vs SSIM: imperceptibility quality assessment for image steganography[J].Multimedia Toolsand Applications, 2021,80(6): 8423-8444.
[30]余偉,徐晶晶,劉玉英,等.基于自然場景統計的色域映射圖像 無參考質量評價[J].激光與光電子學進展,2020,57(14):61- 70.(Yu Wei,Xu Jingjing,Liu Yuying,etal.No-reference quality evaluation for gamut mapping images based on natural scene statistics [J].Laseramp; Optoelectronics Progress,2020,57(14):61-70.)
[31]Fu Xueyang,Zeng Delu,Huang Yue,etal.A fusion-based enhancing method for weaklyilluminated images [J]. Signal Processing, 2016,129:82-96.
[32]MitalA,Moorthy A K,Bovik A C.Making image quality ssessmnt robust[C]//Conference Record of the 46th Asilomar Conference on Signals,Systems and Computers.Piscataway,NJ:IEEE Press, 2012:1718-1722.
[33]Zamir SW,Arora A,Khan S,et al.Restormer:efficient transformer for high-resolution image restoration[C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ: IEEE Press,2022: 5718-5729.
[34]Potlapali V, Zamir S W,Khan S,et al.PromptIR:prompting for all-in-one blind image restoration[C]//Proc of the 37th International Conference on Neural Information Processing Systems. Red Hook, NY :Curran Associates Inc.,2023:71275-71293.
[35]Luo Ziwei,Gustafsson FK,Zhao Zheng,et al.Controlling visionlanguage models for universal image restoration [EB/OL].(2023). https://arxiv.org/abs/2310.01018.