





























摘 要:當前流行的基于深度神經網絡的圖像修復方法,通常使用大感受野的特征提取器,在修復局部圖案和紋理時,會產生偽影或扭曲的紋理,從而無法恢復圖像的整體語義和視覺結構。為了解決這個問題,提出了一種基于優化感受野策略的圖像修復方法(optimized receptive field,ORFNet),將粗糙修復與精細修復相結合。首先,使用具有大感受野的生成對抗網絡獲得初始的粗略修復結果;然后,使用具有小感受野的模型來細化局部紋理細節;最后,使用基于注意力機制的編碼器-解碼器網絡進行全局精煉修復。在CelebA、Paris StreetView和Places2數據集上進行驗證,結果表明,ORFNet與現有具有代表性的修復方法進行對比,PSNR和SSIM分別平均提升1.98 dB和2.49%,LPIPS平均下降2.4%。實驗證明,所提圖像修復方法在不同感受野的引導下,在修復指標上表現更好,在視覺上也更加真實自然,驗證了該修復方法的有效性。
關鍵詞:自編碼網絡; 語義一致; 感受野; 注意力; 粗修復和細修復
中圖分類號:TP391.41 文獻標志碼:A
文章編號:1001-3695(2024)06-043-1893-08
doi:10.19734/j.issn.1001-3695.2023.09.0406
Deep neural network inpainting method based on optimized receptive field strategy
Abstract:The currently popular image inpainting methods based on deep neural network typically employ large receptive field feature extractors. However, when restoring local patterns and textures, they often generate artifacts or distorted textures, thus failing to recover the overall semantic and visual structure of the image. To address this issue,this paper proposed a novel image inpainting method, called ORFNet, which combined coarse and fine inpainting by employing an optimized receptive field strategy. Initially, it obtained a coarse inpainting result by using a generative adversarial network with a large receptive field. Subsequently, it used a model with a small receptive field to refine local texture details. Finally, it performed a global refinement inpainting by using an encoder-decoder network based on attention mechanisms. Validation on the CelebA, Paris StreetView, and Places2 datasets demonstrates that ORFNet outperforms existing representative inpainting methods. It leads to 1.98 dB increase in PSNR and 2.49% improvement in SSIM, along with average 2.4% reduction in LPIPS. Experimental results confirm the effectiveness of the proposed image inpainting method, showcasing superior performance across various receptive field settings and achieving more realistic and natural visual outcome.
Key words:autoencoder network; semantic consistency; receptive field; attention; coarse-fine inpainting
0 引言
圖像修復[1]是圖像處理的重要應用之一,用于填補受損區域和移除目標物并生成視覺一致性的內容。目前,該技術在破損照片修復[2]、古跡修復[3]和目標移除[4]等領域得到廣泛關注。現有的圖像修復方法可分為基于傳統的方法和基于深度學習的方法。傳統的圖像修復方法主要有基于擴散的方法[5]和基于補丁[6]的方法。基于擴散方法利用圖像受損邊緣的信息逐步滲透到被污損的區域,主要有偏微分和變分修復技術。Getreuer[7]使用分裂Bregman迭代算法進行求解,該方法能夠有效地處理各種類型的噪聲、缺失和去除物體等圖像修復問題,但是這種修復方法只能填補小面積區域,修復大面積區域時容易造成圖像模糊。為了解決這個問題,Criminisi等人[8]提出了一種優先權填充順序的方法,從污損區域的鄰域尋找相似的補丁,復制到污損的區域與其融合,使得原有圖像結構信息得以更好的傳播,其本質是使用相似的紋理塊對孔洞進行填充,從像素級填補提升到圖像塊填充,更有利于保持圖像的紋理和結構信息,在尋找樣本塊時面臨耗時嚴重的問題。Barnes等人[9]利用Patchmatch技術進行隨機搜索提高了搜索樣本塊的時間,已經應用于Photoshop軟件中,當缺少樣本資源時,無法實現內容的修補。盡管這些修復方法取得了不錯的修復效果,但是也存在著一些局限性,例如當填補面積較大、旋轉、縮放、陰影、光照不均等復雜背景條件下,很難得到滿意的填充效果(圖1)。
為了解決此問題,學者們將深度學習引入圖像修復,如使用卷積神經網絡(CNN)[10]和生成對抗網絡(GAN)[11]。根據網絡模型的設計可將其分為單階段模型[11,12]、雙階段模型[13,14]和多階段模型[15,16]。單階段的模型如Pathak等人[11]提出的一種基于自編碼器的圖像修復方法。通過一種無監督的學習方法,它可以從輸入數據中學習到數據的特征表示,并在輸出時將特征表示轉換回輸入數據的形式,與傳統方法相比,它可以更好地利用遮擋區域之外的信息進行修復,但是由于沒有將紋理信息與整體結構分開考慮,對于邊緣信息還原得不夠細致,所以在大規模缺失的情況下容易產生偽影等不正確的修復結果。為此,Yu等人[14]提出了從粗糙到精細的雙階段修復模型,首先從生成邊緣保留的平滑圖像作為全局結構信息,再從具有相似結構的區域中采樣特征。該方法可以很好地再生成完整結構的前提下還原逼真的紋理信息。然而在修復完成后,該方法未能很好地處理下一階段的子網絡對上一階段修復結果的語義認知缺失問題,缺乏對整個修復過程的精煉過程。因此,Zhang等人[16]提出了一種漸進式的圖像修復方法,首先將待修復圖像劃分為多個重疊的區域,再使用語義分割對各個區域進行標記,最后利用區域中的語義信息來生成修復圖像,但由于各階段采用的感受野過大,對局部語義信息掌握不足,所以一些局部的紋理細節沒有得到很好的還原。
綜上所述,目前圖像修復的深度學習網絡模型需要在局部繼續加強訓練,例如紋理、背景圖案等細節位置。受相關文獻啟發,本文提出了一種三階段修復網絡,由粗到細再到全局修復,各階段采用不同大小的感受野,具體如下:a)第一階段采用新型濾波以加深修復區域的邊緣差異,提高鑒別器對缺失部分的鑒別能力,保持圖像整體一致性;b)第二階段采用上下文特征采集模塊,避免普通殘差塊獲取特征不充分,忽略上下文語義;c)第三階段整體修復過程中,引入外部注意力機制,通過兩個外部單元隱式地學習特征,考慮到不同樣本之間的聯系,保持語義一致性。
本文主要工作如下:a)通過邊緣高斯濾波加大了修復圖像兩側邊緣的差異,增強了鑒別器的鑒別能力,使得修復效果更加逼真;b)強調了小的感受野在局部修復中的作用,小感受野在修復局部卓有成效,可以很好地修復圖案紋理等;c)在圖像修復完成后使用了基于注意力機制的全局精練網絡用于消除前兩個子網絡之間的語義沖突。在大的結構和長距離文本信息上有著顯著的效果,加強了圖像生成的質量和語義一致性。
1 相關工作
1.1 單階段修復方法
Pathak等人[11]首次將深度學習用在了圖像修復中,提出了上下文編碼器,基于上下文像素預測驅動的無監督的視覺特征的學習方法,利用周圍的圖像信息來推斷缺失的部分,但是對掩膜區域的處理不足,因此不能保持局部一致性。Rumelhart等人[17]基于自編碼器提出了encoder-decoder模型結構。該模型由編碼器和解碼器構成,編碼器將輸入的數據壓縮成潛在空間表示,解碼器學習特征并進行重構輸出。這樣保證了圖像修復的連貫性,但是卻忽略了圖像的全局區域。Xie等人[18]提出了一種基于卷積神經網絡的圖像修復方法,使用了一個深度編碼器和一個全連接解碼器,使用像素周圍的信息來預測缺失的像素。該方法能夠在處理大量數據時實現高質量的圖像修復,但在處理大的缺失區域時可能會出現一些問題。Yang等人[19]提出了一種使用卷積神經網絡進行高分辨率圖像修復的方法,使用多尺度神經網絡來合成缺失區域的紋理,由于模型采用的是多尺度處理,所以會產生一些不連續的邊緣和瑕疵,這會影響圖像的質量。
單階段圖像修復通常通過局部的信息來進行修復,無法處理大范圍的缺失區域,尤其處理復雜場景時,由于全局信息的缺失,算法的表現可能會受到影響。而在第一階段選擇較大的感受視野和邊緣高斯濾波有助于獲取和處理全文的語義信息及紋理結構。
1.2 雙階段修復方法
Yu等人[14]提出了由粗到細的修復方法,克服了從遠處區域提取特征困難這一問題,在復雜紋理生成的問題上取得了成就。Peng等人[20]在分層VQ-VAE的基礎上提出了multiple-solution圖像修復方法。通過在離散的因變量上學習自回歸分布,再將紋理和結構分開,針對結構的分布學習設計了一個條件自回歸網絡,針對紋理生成,提出了一個結構注意力模塊。該方法在結構的一致性和紋理的真實性上得到了提升。Zheng等人[21]將修復過程分成兩個步驟,先用Transformer進行全局結構和紋理的粗修復,再用CNN對細節紋理補全。該方法修復大面積缺失圖像的同時很好地還原了細節的紋理結構。Zheng等人[22]又在此基礎上提出了限制性卷積塊來提出特征并提出了新穎的注意力感知層來自適應地平衡對可見內容和生成內容的注意力,改進后的模型在圖像的保真度上得到了提高。Nazeri等人[13]提出了由邊緣引導的兩階段圖像修復過程,在第一階段修復了受損區域的邊緣,再將此邊緣與不完整的圖像一起當作下一階段的輸入。
這些由粗及細的修復方法僅僅考慮兩個階段自身的修復效果,忽略了它們之間的協同作用。在第一階段,生成的低分辨率圖像可能會存在一些不自然的細節或失真,這些問題可能會被第二階段的修復過程所彌補,但有時也可能會導致最終生成的圖像質量不夠自然或真實。因此第三階段基于注意力機制的全局精煉網絡可用于消除前兩個網絡之間可能存在的語義沖突問題。
1.3 多階段修復方法
Zhou等人[23]提出了一種三階段的多同域轉換的融合方法。通過參考與目標圖像共享場景內容的另一個源圖像來填補這個洞。該方法在寬基線和顏色差異上都實現了最先進的性能。Zhang等人[16]提出了將修復任務分成四個階段并且使用LSTM結構來控制遞進過程中的信息流通。然而這種方法不能很好地解決不規則的缺失。Guo等人[15]便在此基礎上提出了全分辨率殘差網絡,這一設計加強了模型的泛化能力。 Li等人[24]提出的漸進式圖像修復方法具有較好的修復效果和高效的修復策略,該方法使用了漸進式的修復策略,可以在生成修復圖像時更加高效地利用上下文信息,提高修復效率,由于該方法是基于單張圖像的修復,無法處理視頻或多個相關圖像的修復任務。
這些方法很少關注不同尺寸的感受野在修復過程中的影響,只關注具有大接受場的編碼器-解碼器生成器。然而,具有小接受域的網絡對于圖像繪制也十分重要,本文網絡使用不同膨脹率的空洞卷積捕獲不同范圍內的上下文信息,使得修復的局部部分在紋理細節上更加逼真。
本文提出的三階段網絡修復采用粗到細的過程。與現有由粗到細的網絡只關注接受野大的編碼解碼器不同,本文強調了小的感受野在圖像修復中的作用。第一階段是大感受野的全局粗修復網絡,第二階段是小感受野的局部修復網絡,兩者相結合在修復局部結構、紋理、長距離文本圖案等場景中更加適用。第三階段引入注意力機制以加強網絡魯棒性。
2 模型
2.1 網絡整體模型
本文提出的三階段網絡整體框架如圖2所示。整體框架包含粗糙修復網絡、局部精細網絡和全局精煉網絡,這三個階段被依次連接。該框架旨在通過注重不同的修復目標,生成具有更合理的紋理結構和視覺效果的圖像。
首先,使用大型U-Net生成缺失部分的整體結構,輔以對邊緣更為敏感的鑒別器,使生成結果具有更自然的邊緣特征和更真實的表現效果,為后續修復奠定真實前提。接下來,采用卷積神經網絡在小接收域的基礎上在小范圍內對局部紋理進行細節化處理,以獲得更真實的細節效果。最后,使用帶有注意力機制的U-Net對整張圖像進行全局精煉和結構調整,以達到最佳的修復效果。
2.2 融合邊緣高斯濾波的粗糙修復網絡
修復方法的第一階段采用生成對抗網絡(Netc)作為粗糙修復網絡。該網絡生成器由八個下采樣層和上采樣層組成。下采樣層逐步減小圖像尺寸,并提取高層次特征;上采樣層則通過插值或反卷積操作將特征圖的尺寸恢復到原始輸入圖像的尺寸,并生成高分辨率的圖像。在多次下采樣和上采樣操作中,卷積神經網絡逐漸提取抽象特征,生成高質量的重建圖像或生成圖像。編碼器中的高層特征通過跳連接傳遞給解碼器,有助于解碼器更好地還原原始圖像的細節信息。該方法整體框架如圖3所示。通過采用大感受野,有利于保持整體結構的完整性。
該網絡使用二進制掩碼M描述缺失區域,并且將輸入的圖像記為Iin,修復后的圖像記為ICout。為了增強圖像的真實性并減少濾波的影響,采用基于補丁的鑒別器進行頻譜歸一化。該鑒別器區分每個元素的真偽,其輸入包括原始圖像和修復后的圖像。為了優化邊緣的平滑性,針對生成的圖像進行了邊緣高斯濾波處理。具體而言,首先生成一個大小為kernel_size且標準差為sigma的高斯核。其過程是通過創建一個從0到kernel_size-1的一維數組,并對每個值應用高斯函數來完成。所得結果數組經過除以值之和的歸一化。此過程在x和y維度上重復執行,進而再生成一個二維高斯核。通過函數get_gaussian_kernel獲取輸入圖像、核大小和x、y維度的sigma值,并創建二維高斯核,使其通道數量與輸入圖像相同。最后,將修復后的圖像與高斯核進行卷積,將卷積后的結果輸入到鑒別器中進行判別。
這個階段的網絡損失由重建損失和對抗損失組成。在該階段,使用L1損失作為重建損失的損失函數。
其中:λh代表平衡因子。
對于GAN損失,使用最小二乘法,粗糙修復網絡的損失函數和鑒別器的損失函數定義如下:
2.3 基于聚合長距離信息模塊的局部精細網絡
在局部細化階段,采用卷積神經網絡。局部精細網絡(NetL)由兩個下采樣塊、四個殘差設計塊和兩個上采樣塊組成。由于網絡的感受野較小,一些局部的結構和紋理可以通過周圍的環境信息適當地修復,而不會受到遠距離或未成功修復內容的影響。該方法的整體框架如圖4所示。
為了更好地提取上下文的信息,該階段使用了一種新型的聚合長距離上下文信息塊[18]。模型圖較常用的卷積神經網絡使用的殘差塊有如下改進:a)使用膨脹率分別為1、2、4、8的4組空洞卷積代替原殘差塊里固定的3×3的卷積層,這樣就可以獲取到不同層次的上下文特征聚集;b)使用了一組3×3的卷積層代替原本的跨層鏈接,并且在和聚合模塊之間增加了gate門限,讓模型可以自主選擇是否使用聚合通道,該設計可以增加修復后圖像的色彩一致性。模型圖如圖5所示。這個階段的網絡損失由重建損失(L1 loss)、總變分損失(TV loss)、感知損失(perceptual loss)和風格損失(style loss)組成。重建損失依然采用L1 loss,表示為
其中:λh代表平衡因子。
總變分損失(TV loss)使用的是平滑損失項,可以表示為
其中:ILmer代表ILout和M融合的圖像。
感知損失和風格損失都是建立在VGG-16的基礎上。VGG-16已經在ImageNet上進行了預訓練,可以很好地恢復結構和紋理信息。這兩種損失是作用在特征空間的層面上而非像素層面。感知損失可以表示為
其中:Euclid Math OneFApi表示特征圖中第i層的預訓練的VGG-16網絡。
相似地,風格損失可以表示為
總的來說,精細修復階段的損失函數為
其中:λh為6;λtv為0.1;λper為0.05;λsty為120。
2.4 基于注意力機制的全局精煉網絡
局部細化之后,復雜的紋理和結構可以得到適當修復,但是針對稍大的缺失區域,需要詳細、遠距離的信息進行更精細的修復。因此,本文提出了一種結合了注意力機制的全局修復網絡。該網絡基于U-Net的體系結構,在編碼階段與第一階段粗糙修復相同,但在解碼階段之前每次都加入了注意力模塊。該方法的整體框架如圖6所示。
注意力機制在現有模型中被廣泛使用,尤其是在構建上下文信息和缺失區域之間的聯系時。使用的注意力機制為增強通道注意力機制(ECAAttention)[25],ECAAttention的關鍵思想是將通道間的信息流引導到關鍵通道,并且可以保留并強化每個通道的特征表達,同時過濾掉無關信息和噪聲,從而提高分類和檢測任務的準確性。ECAAttention通過引入可學習的一維卷積,可以自適應地調整每個通道的重要性,這使得模型可以更加準確地區分不同通道對于任務的貢獻。ECAAttention同時還考慮了空間信息,以更好地捕獲對象的空間分布特征。模型如圖7所示。
ECAAttention模塊首先使用一個1D卷積層來處理每個通道的特征,得到每個通道的重要性權重,具體公式如下:
其中:ai,c表示第c個通道上第i個空間位置的特征;Wc是1D卷積層的權重;f是激活函數;H是空間位置的個數。然后,將通道特征與權重相乘得到加權后的通道特征,具體公式如下:
zc=xc·σ(ac+ε)(13)
其中:xc是原始的通道特征;σ是sigmoid函數;ε是一個非常小的數,用于數值穩定。
為了提高通道之間的相關性,ECAAttention使用了一個自適應的擴張卷積層,即ECA模塊,對加權后的通道特征進行處理,得到不同位置的加權值,具體公式如下:
其中:zi,k,c表示第c個通道上第i個空間位置經過加權后的特征;wck表示第c個通道上第k個位置的權重;K是卷積核的大小;C是通道數。
最后,將加權后的通道特征與空間注意力加權值相乘,得到最終的特征表示,具體公式如下:
yi=zi+γsizi(15)
其中:γ是可學習的縮放因子,用于控制注意力加權值的影響程度。
該網絡的損失函數與精細修復階段相同,重建損失表示為
其中:λh為平衡因子,值為6。
總變分損失為
其中:IGmer為IGout和M融合的圖像。
風格損失為
全局精煉階段的損失函數為
其中:λG為6;λtv為0.1;λper為0.05;λsty為120。
總的來說,整個網絡的訓練損失函數由三個子網絡的損失和鑒別器的損失函數構成,可寫為
3 實驗
3.1 實驗環境
實驗均在Ubuntu 20.04平臺下進行。算法基于Python 3.9,PyTorch 1.12,CUDA 11.3和cuDNN 8.2。GPU為NVIDIA GeForce RTX 3090。使用Adam算法優化模型,動量衰減指數為β1=0.5和β2=0.999。訓練批次共200輪,前100輪學習率為0.000 2,后100輪線性下降至零,批量大小為4。使用的訓練集、測試集和掩膜圖尺寸均為256×256。
3.2 數據集
使用的數據集為CelebA、Paris StreetView和Places2三個數據集。
CelebA數據集包含了高質量的人臉圖像,其中包括一些復雜的特征,如戴帽子、眼睛等裝飾物品。從中選取12 000張作為訓練集,3 000張作為測試集。
Paris StreetView里的圖像為街景圖像,如燈塔、高樓等。從中選取14 900張作為訓練集,100張作為測試集。
Places2是大尺寸的場景數據集。包含了365個種類的常用場景,具有更高的復雜度。從所有類別中選取14 600張作為訓練集,3 650張作為測試集。
a)PICNet[26]:一種基于嵌入式特征推理的圖像修復模型,通過逐層遞歸地推理圖像嵌入式特征,利用這些特征來恢復丟失的圖像內容。
b)CTSDG[27]:一種基于深度學習的圖像修復方法,能夠同時處理結構和紋理信息。
c)EdgeConnect[28]:一種基于生成對抗網絡的圖像修復算法,它可以自適應地捕捉圖像中的邊緣信息并利用上下文信息進行圖像修復。
d)MADF[29]:一種多尺度自適應深度學習框架,可用于高效且精確的圖像修復。
e)LGNet[30]:一種基于深度學習的圖像修復方法,通過學習局部和全局信息之間的關系來實現高質量圖像修復。
選用的掩碼為不規則掩碼,為了體現不同受損率下的修復效果,根據掩碼的覆蓋范圍將掩碼分為六類,分別為1%~10%,10%~20%,20%~30%,30%~40%,40%~50%,50%~60%,并且將與PICNet、CTSDG、EdgeConnect、MADF、LGNet五種現有方法進行比較。
3.3 定量實驗
將峰值信噪比(peak signal to noise ratio,PSNR)、結構相似度(structure similarity,SSIM)和學習感知圖像塊相似度(learned perceptual image patch similarity,LPIPS)作為評判標準。其中,PSNR和SSIM值越大表示修復效果越優, LPIPS值越小表示修復效果越優。CelebA、Paris StreetView和Places2數據集上的對比結果如表1~3所示。由表可見,本文網絡在各項指標上的表現均優于其他網絡,這說明本文網絡在修復細節紋理和結構方面,及面對大面積缺失時均有良好的表現。
CelebA數據集中,各網絡的修復效果均較好,其中CelebA風格效果最為統一。隨著掩膜比例變大,各指標均下降,但本文網絡始終表現最佳。在較簡單的背景下,僅考慮邊緣紋理的EdgeConnect相對于其他多階段的網絡表現較差。其中MADF是最具競爭力的網絡,同樣采用由粗糙到精細的架構,但缺乏最后的精煉階段,因此與本文網絡存在一定差距。
Paris StreetView數據集中,風格相對較為統一,但涵蓋了更多的場景,因此具有較強的泛化性。從表中可以看出,與人臉數據集相比,各項指標均有所下降。其中同樣作為三階段修復的LGNet的競爭力最大,這驗證了在面對較為復雜的紋理時,多階段的方法更能還原一些細節。然而其在第二階段上對上下文信息的捕獲不夠充分,因此修復效果不是最好。在捕獲上下文信息時使用的聚合長距離上下文信息塊則幫助捕獲了更豐富的信息,使得其在修復效果上更勝一籌。
Places2涵蓋了最多的場景,其紋理結構更加復雜,因此具有更強的泛化性。在掩膜面積較小時,LGNet表現最有競爭力;然而,當掩膜面積變大時,考慮到紋理引導的網絡,例如EdgeConnect和CTSDG則表現更優。這說明在應對復雜背景時,需要充分考慮到邊緣引導的作用。在第一階段,首先通過高斯邊緣濾波增強了邊緣兩側的真實性,并因此在整個階段中表現最優。
3.4 定性實驗
圖8展示了各個網絡在CelebA、Paris StreetView和Places2(從左到右)對不規則掩膜的修復效果。從圖8中可以看出,PICNet和EdgeConnect的人臉修復能力相對較差,這與表3中的相關數據相符。就面部修復結果而言,本文網絡在修復鼻子、嘴巴等特征方面表現更出色。相比之下,本文網絡在邊緣處理方面的表現更好,例如可以恢復第三張圖像中的英文以及第六張圖像中的房屋結構。與MADF和LGNet相比,本文的多階段修復更健壯、穩定。例如,可以很好地修復人臉的笑容、第四張圖中柵欄后面的海報和第五張圖像中高樓和電線桿的結構。
3.5 消融實驗
為了驗證提出的三個模塊的有效性,設計了如下六個網絡。網絡1:僅添加增強鑒別器對圖像鑒別能力的濾波模塊;網絡2:僅添加能更好地捕獲特征的聚合長距離上下文信息塊的模塊;網絡3:僅添加能更好地集中周圍信息的局部注意力機制的模塊;網絡4:添加濾波和聚合長距離上下文信息塊的組合模塊;網絡5:添加濾波和局部注意力機制的組合模塊;網絡6:添加聚合長距離上下文信息塊和局部注意力機制的組合模塊。
各個網絡的消融實驗結果如表4~6所示。由表可見,網絡4~6均與最終的網絡有差距,也就是說單獨的每個模塊均能提升網絡的整體修復結果。網絡4與2相比PSNR指標顯著提高,這說明引入高斯邊緣濾波后,網絡的修復能力可以更好地處理背景噪聲。網絡6與3相比SSIM得到了提高,說明聚合上下文長距離信息塊可以更好地捕獲周圍的語義信息,使得修復完成的圖像有更好的視覺效果。網絡5和1對比LPIPS指標有所下降,驗證了通道注意力可以使得生成的圖像在感知上得到提升。
圖9展示了各網絡的修復可視化對比。從圖像中可以看出,邊緣高斯濾波在整體修復方面有著積極作用。在局部紋理結構中,聚合上下文長距離信息塊的表現比較突出,例如頭發、嘴角和建筑拐角落等。同時,在全局精煉階段中,通道注意力機制也能夠很好地修復前面兩個階段中的語義沖突現象。各個階段修復的結果驗證了表4~6中各項指標的變化。
4 結束語
本文提出了一種三階段的由粗糙到精細圖像修復方法。首先,在第一階段使用具有大感受野的U-Net進行粗糙修復,并且設計了可以通過濾波增強鑒別能力的鑒別器來監督生成整體完整性更好的圖像。其次,在第二階段使用了融入聚合上下文長距離信息塊的CNN模塊,該階段對圖像的局部紋理和結構進行了進一步的細化。最后,在第三階段使用了在解碼階段融入局部注意力的U-Net來提升圖像的整體完整性。對比實驗表明,該三階段的修復方法與現有網絡對比可以生成質量更好的圖像,效果更加逼真。同時,消融實驗也表明了各個模塊的有效性。
在實驗過程中,當圖像包含多個復雜對象或者多個圖像層次結構時,圖像修復就變得更加困難。而且圖像修復需要大量的圖像數據,這些數據應該具有高質量和廣泛的分布,以便算法能夠學習到足夠的信息。未來的工作重心在于解決這些挑戰,提高圖像修復算法的性能和可靠性。為此,可以將多個傳感器或來源的數據進行整合,實現多模態的圖像修復,從而提高修復的準確度和可靠性。也可以通過使用更少的人工標注數據,采用弱監督學習的方法來提高圖像修復算法的性能。還可以針對不同的應用場景設計不同的圖像修復算法,未來可以開發面向特定應用場景的圖像修復算法。
參考文獻:
[1]Bertalmio M, Sapiro G, Caselles V, et al. Image inpainting[C]//Proc of the 27th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 2000: 417-424.
[2]Wan Ziyu, Zhang Bo, Chen Dong, et al. Old photo restoration via deep latent space translation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022,45(2): 2071-2087.
[3]徐輝, 康金夢, 張加萬. 基于特征感知的數字壁畫復原方法[J]. 計算機科學, 2022,49(6): 217-223. (Xu Hui, Kang Jinmeng, Zhang Jiawan. Digital mural inpainting method based on feature perception[J]. Computer Science, 2022, 49(6): 217-223.)
[4]Zeng Yanhong, Fu Jianlong, Chao Hongyang, et al. Aggregated contextual transformations for high-resolution image inpainting[J]. IEEE Trans on Visualization and Computer Graphics, 2023,29(7): 3266-3280.
[5]Li Haodong, Luo Weiqi, Huang Jiwu. Localization of diffusion-based inpainting in digital images[J]. IEEE Trans on Information Forensics and Security, 2017,12(12): 3050-3064.
[6]Ghorai M, Samanta S, Mandal S, et al. Multiple pyramids based image inpainting using local patch statistics and steering kernel feature[J]. IEEE Trans on Image Processing, 2019,28(11): 5495-5509.
[7]Getreuer P. Total variation inpainting using split Bregman[J]. Image Processing on Line, 2012, 2: 147-157.
[8]Criminisi A, Pérez P, Toyama K. Region filling and object removal by exemplar-based image inpainting[J]. IEEE Trans on Image Processing, 2004,13(9): 1200-1212.
[9]Barnes C, Shechtman E, Finkelstein A, et al. PatchMatch: a randomized correspondence algorithm for structural image editing[J]. ACM Trans on Graphics, 2009,28(3): article No. 24.
[10]Chan T F, Shen Jianhong. Variational image inpainting[J]. Communications on Pure and Applied Mathematics, 2005,58(5): 579-619.
[11]Pathak D, Krahenbuhl P, Donahue J, et al. Context encoders: feature learning by inpainting[C]//Proc of Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEOQplTBmtrkHQdeVU+sls4umGuDALjQFebdvKE98uAU=EEE Press, 2016: 2536-2544.
[12]Zeng Yanhong, Fu Jianlong, Chao Hongyang, et al. Learning pyramid-context encoder network for high-quality image inpainting[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1486-1494.
[13]Nazeri K, Ng E, Joseph T, et al. EdgeConnect: structure guided image inpainting using edge prediction[C]//Proc of IEEE/CVF International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE Press, 2019: 3265-3274.
[14]Yu Jiahui, Lin Zhe, Yang Jimei, et al. Generative image inpainting with contextual attention[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 5505-5514.
[15]Guo Zongyu, Chen Zhibo, Yu Tao, et al. Progressive image inpain-ting with full-resolution residual network[C]//Proc of the 27th ACM International Conference on Multimedia. New York: ACM Press, 2019: 2496-2504.
[16]Zhang Haoran, Hu Zhenhen, Luo Changzhi, et al. Semantic image inpainting with progressive generative networks[C]// Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press, 2018: 1939-1947.
[17]Rumelhart D E, McClelland J L. Parallel distributed processing: explorations in the microstructure of cognition: foundations[M]. Cambridge, MA: MIT Press, 1987: 318-362.
[18]Xie Junyuan, Xu Linli, Chen Enhong. Image denoising and inpain-ting with deep neural networks[C]//Proc of the 25th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2012: 341-349.
[19]Yang Chao, Lu Xin, Lin Zhe, et al. High-resolution image inpainting using multi-scale neural patch synthesis[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 4076-4084.
[20]Peng Jialun, Liu Dong, Xu Songcen, et al. Generating diverse structure for image inpainting with hierarchical VQ-VAE[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 10770-10779.
[21]Zheng Chuanxia, Song Guoxian, Cham T J, et al. High-quality pluralistic image completion via code shared VQGAN[EB/OL]. (2022-04-05). https://arxiv.org/abs/2204.01931.
[22]Zheng Chuanxia, Cham T J, Cai Jianfei, et al. Bridging global context interactions for high-fidelity image completion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11502-11512.
[23]Zhou Yuqian, Barnes C, Shechtman E, et al. TransFill: reference-guided image inpainting by merging multiple color and spatial transformations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 2266-2267.
[24]Li Jingyuan, He Fengxiang, Zhang Lefei, et al. Progressive reconstruction of visual structure for image inpainting[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 5961-5970.
[25]Wang Qilong, Wu Banggu, Zhu Pengfei, et al. ECA-NET: efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 11531-11539.
[26]Zheng Chuanxia, Cham T J, Cai Jianfei. Pluralistic image completion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1438-1447.
[27]Guo Xiefan, Yang Hongyu, Huang Di. Image inpainting via conditional texture and structure dual generation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 14114-14123.
[28]Nazeri K, Ng E, Joseph T, et al. EdgeConnect: generative image inpainting with adversarial edge learning[EB/OL]. (2019-01-11). https://arxiv.org/abs/1901.00212.
[29]Zhu Manyu, He Dongliang, Li Xin, et al. Image inpainting by end-to-end cascaded refinement with mask awareness[J]. IEEE Trans on Image Processing, 2021, 30: 4855-4866.
[30]Quan Weize, Zhang Ruisong, Zhang Yong, et al. Image inpainting with local and global refinement[J]. IEEE Trans on Image Processing, 2022,31: 2405-2420.