

















摘要 中國傳統畫作為寶貴的文化遺產,歷經時間沉淀以及各種自然因素的影響,常出現開裂、破損和褪色等問題。盡管一些深度學習框架在自然圖像修復領域取得了顯著進展,但其大多過度依賴卷積權重共享和平移不變性,在處理布局復雜、結構抽象的繪畫圖像時,難以捕捉其獨特的空間特性。針對此問題,提出一種孿生級聯空間濾波(twin cascade spatial filtering,TCSF)預測方法用于中國傳統畫的修復。TCSF采用層級解碼策略,從多尺度解析繪畫圖像的層次特征,并級聯空間濾波預測方法得到修復核,從而由粗到細地復原缺失區域的像素。為了在特征信息匱乏的區域精確地復原缺失的結構和筆觸信息,進一步引入空間編碼機制。通過對濾波特征圖空間編碼得到坐標矩陣,并在濾波預測過程中注入坐標信息編碼,用于缺失像素點恢復時提供空間信息參照,進而提升修復結果的精確度與視覺效果。實驗中,選取了具有代表性的中國傳統畫圖像進行訓練,并增加壁畫數據集和Places數據集測試模型的泛化性能。與現有工作使用掩碼不同,該研究在實驗中提取部分真實繪畫圖像的破損掩碼,以更逼真地模擬破損情況。定性和定量實驗結果表明,該方法在中國傳統畫恢復任務中取得了較好的修復結果,為數字藝術修復和文化遺產保護提供了有益的啟示。
關鍵詞 圖像修復;空間濾波預測;中國傳統畫修復;文物圖像破損掩碼
中圖分類號:TP391.7" DOI:10.16152/j.cnki.xdxbzr.2025-01-013
Restoration of traditional Chinese painting based ontwin cascade spatial filtering
XUE Wenzhe1, DONG Xingyu1, HU Qiyao1, CAO Rui1, PENG Xianlin2
(1.School of Information Science and Technology, Northwest University, Xi’an 710127, China;
2.School of Art, Northwest University, Xi’an 710127, China)
Abstract Traditional Chinese paintings are invaluable cultural legacies, but they often suffer from issues such as cracking, damage, and fading due to the effects of time and various natural factors. While some deep learning frameworks have made significant progress in natural image restoration, they tend to rely heavily on convolutional weight sharing and translational invariance. This reliance may limit their ability to fully capture the unique spatial characteristics of paintings with intricate layouts and abstract structural information. To address this issue, this paper proposes a Twin Cascade Spatial Filtering (TCSF) prediction method for the restoration of traditional Chinese paintings. The TCSF adopts a hierarchical decoding strategy that analyzes the hierarchical features of painting images across multiple scales. It cascades a spatial filtering prediction approach to obtain restoration kernels, restoring missing region pixels from coarse to fine detail. Furthermore, in order to precisely restore the missing structural and brushstroke information in areas where feature information is sparse, this paper introduces a spatial encoding mechanism. By spatially encoding the filter feature maps into coordinate matrices and infusing coordinate information encoding into the filtering prediction process, this paper provides spatial reference information for the recovery of missing pixels, thereby enhancing the accuracy and visual quality of the restoration outcomes. In the experiments, the model was trained using representative images of traditional Chinese paintings, and the mural datasets and Places datasets were added to test the model’s generalization ability. In contrast to existing work that utilizes synthetic masks, this paper extracted actual damage masks from real painting images in order to more realistically simulate damage scenarios. The qualitative and quantitative experimental results demonstrate that the proposed method achieves favorable restoration results in traditional Chinese painting recovery tasks and provides useful insights for digital art restoration and cultural heritage protection.
Keywords image restoration; spatial filter prediction; restoration of traditional Chinese paintings; broken images of cultural relics mask
中國傳統畫是珍貴的世界文化遺產,承載著豐富的歷史、文化和藝術價值,但由于人為和環境等因素的影響,致使畫面出現裂紋、脫落等問題(見圖1)。為解決此問題,傳統方式常通過人工修復,但由于修復人員習慣的差異,不僅難以還原出原始畫作細膩的筆觸和藝術風格,而且可能帶來二次損害。因此,采用數字化修復方式還原破損畫作對文化遺產保護來說具有重要意義。
在計算機視覺領域,圖像修復一直是研究的熱點,旨在根據已有像素信息來預測缺失信息。隨著深度學習方法在視覺領域中的不斷普及,現有方法已可以將一張破損的真實世界圖像,通過生成或差值預測方式還原其高質量樣貌。其中,卷積神經網絡(convolutional neural networks, CNNs)的應用在自然世界圖像的補全任務中獲得了一些成果[1-4],這主要受益于卷積操作在提取不用區域特征的平移等變性。但是,該方法面對包含復雜的紋理特征信息的中國傳統畫時,模型無法感知當前特征和全局結構的關聯性,而在繪畫圖像的修復任務中,學習繪畫圖像的結構布局信息對于模型理解繪畫的深層含義至關重要。盡管現有的方法已經在真實世界的圖像上取得了出色的性能,但中國傳統畫通常具備獨特的藝術特征,并包含復雜的物象排列方式和布局格式,如何在不破壞原始畫作藝術特點的基礎上修復其缺失的結構和高頻細節是一個艱巨的挑戰。
目前,對于中國傳統畫、壁畫等藝術類圖像的修復任務已經取得了一定進展。在壁畫修復任務中,Li等人提出一種漸進式GAN結構的修復網絡,通過提取文物圖像的彩繪素描和梯度圖,并融合兩者進行信息互補從而改善壁畫圖像的修復效果[5]。曹建芳等人使用經典的遷移模型CycleGAN[6]進行風格調制,并結合協調注意力機制縮小修復結果與原始壁畫的色彩和風格差異[7]。此外,胡升等人還使用快速傅里葉卷積(FTR)[8]殘差塊和門控卷積(Gated-Conv)[9],以增強圖像關鍵特征的表達并且過濾噪聲,從而恢復壁畫中缺失的結構[10]。相較于壁畫修復的研究,目前對于中國傳統畫的修復工作還相對較少,趙磊等人采用多路編碼器和雙重注意力機制從多個尺度學習古畫的語義特征,并從風格和內容兩方面保證全局一致性,有效提升了古畫修復的質量,拓展了這一領域的工作[11]。盡管上述方法通過生成或風格轉換的方式一定程度上改善了藝術類圖像的修復效果,但通過生成方式來填補缺失區域的方式與純粹的修復任務目標存在明顯差異。不合理的推理過程可能得到模糊和扭曲的結果,不僅會使深層語義信息丟失,還會破壞作品原有的意境和韻味。
為了解決上述問題,本研究提出了一種新的方法用以改善中國傳統畫修復的效果。首先,本研究構建了一個高分辨率傳統畫數據集和真實的傳統畫掩碼圖像集用以滿足模型的訓練需求。其次,提出了一個適用于中國傳統畫的修復網絡——孿生級聯空間濾波(twin cascade spatial filtering,TCSF),通過并行兩個分支,在多尺度下,采用進交互的方式恢復傳統畫的復雜結構和語義級信息。在此基礎上使用空間濾波核模塊(spatial kernel module, SKM)將層次特征坐標化,在濾波預測過程中融入坐標空間坐標編碼,提升模型的空間感知力。最終的定性和定量實驗結果表明,在不同類型和范圍的遮蓋下,TCSF均取得了出色的修復效果,并在各項評估指標上實現了提升。
1 相關工作
1.1 圖像修復
傳統的圖像修復方法通常將全局搜索的相似內容直接復制到缺失區域[12-15],或通過周圍未損失信息擴散到缺失區域進行修復[16-17]。這些方法通常能完成簡單場景和小范圍缺失的補全任務,但對于包含復雜場景的圖像,其恢復結果不盡人意。
近年來,深度學習方法在圖像修復領域取得了巨大成功。Pathak等人基于生成對抗方式學習圖像的深層語義信息,完成大范圍的填補[18]。此后,許多學者使用更復雜的網絡或學習方式來生成高保真的圖像,包括風格遷移[19]、Transformer[20-22]、上下文注意力[23-26]、傅里葉卷積[26-27]和擴張卷積[27-29]等。另外,還有學者使用一些額外線索如物體邊緣[30-31]、結構圖[20]和語義分割圖[32]引導進行圖像的修復。
雖然上述方法在真實世界圖像缺失內容的填補中取得了一定效果,但它們側重于在缺失區域上限制內容合理地生成,并非忠實地修復原始內容。在傳統畫修復任務中更注重保留原作品的藝術價值,而非僅僅恢復圖像的完整性。為此,本研究旨在利用有效輸入像素信息而重建缺失區域,在不破壞原始畫作筆觸和風格的基礎上,實現對傳統畫圖像中的缺失部分進行合理準確的修復。
1.2 濾波修復
圖像修復的經典范式是搜尋相似信息進行補充,這種填充方式通常從已知圖像的上下文或外部數據中粘貼相似的信息。然而,該方法無法實現對傳統畫中復雜場景進行語義級修復:由于對低級特征的過度依賴,從而導致模型無法合成在已知圖像上下文中不存在相似補丁的內容。為此,一些深度生成工作通過編碼和解碼的方式來生成相似內容[33-35]。雖然這些工作在一些具有挑戰的真實世界圖像上改善了傳統修復方法的不足,但是這些方法在處理語義信息復雜的傳統畫圖像時還存在不足。在傳統繪畫的修復過程中,需要盡可能明確表達圖像中殘留的先驗信息,而不僅是簡單地進行生成任務。
近來,一些視覺任務嘗試使用濾波方式還原圖像信息,如去噪[36-37]、去模糊[38]、去雨[39]。Guo等人首次將深度濾波預測用于自然圖像的修復任務中,有效改善了圖像的局部偽影,提高了圖像的修復質量[40]。Li等人細化了濾波核等級,使用一種雙流網絡連接結構和紋理特征以恢復圖像的語義信息和高頻細節[41]。
預測濾波的方式是用鄰域像素的數值信息對缺失或損壞的像素進行估計,預測缺失像素的值從而重建圖像,計算公式可以表示為
q=Kw×∑Ip-qp∈Ip-q×Ip(1)
式中:q表示缺失的區域的像素,Kw∈Rk×k,表示大小為k的濾波核,w表示可學習的濾波核參數,Ip表示缺失區域的臨近像素。
預測濾波方法使用深度卷積網絡學習合適的參數而實現動態的調整濾波核的目的,這個過程可以表示為
K=Fθ()(2)
這里K為可變濾波核,為破損圖像,Fθ是濾波預測網絡,θ為可學習參數。
總的來說,預測濾波的目標是構建一個合適的深度預測網絡,對圖像保留區域的非線性特征進行學習,從而利用預測得到的濾波核構建缺失特征。為充分學習傳統畫復雜的布局結構和技法特點,本研究通過級聯多次濾波并為濾波核增加顯示的空間編碼,以提升模型對繪畫圖像中復雜空間的感知力。
2 TSCF網絡修復方法
2.1 網絡總覽
本研究提出的孿生級聯空間濾波網絡(TCSF)整體結構圖如圖2所示。首先,從殘缺畫作中提取真實破損的掩碼數據,與完好的繪畫圖像拼接得到TSCF的輸入數據。其中TCSF通過兩個階段完成了修復過程。
1)上層利用可見區域信息,預測用于缺失區域修復的濾波核參數;另外,預測過程中接受下層CNN編碼器反饋的特征,以補償丟失的大范圍特征;最后,將得到濾波核與預測特征的空間編碼融合,以增強模型對缺失像素在整體結構中的相對位置的學習能力,從而在核預測過程中感知圖像的整體布局,實現空間濾波預測的目的。
2)下層使用U-net結構的網絡,逐層編碼圖像不同尺度下的層次特征,并多次利用從上層預測得到的不同尺度的空間濾波核進行階段修復;完成當前階段的修復后,將得到的修復結果傳回上層用于新一輪的濾波核預測,反復多次,最終實現缺失區域的恢復。
下面詳細介紹TCSF中包含的組件和損失函數。
2.2 基于空間濾波預測修復
在傳統繪畫修復中,還原大范圍缺失區域中的高分辨細節是一項重大挑戰。由于畫家們通常使用精細的筆觸來渲染作品的意境和氛圍,故畫面中包含豐富的藝術特征和抽象的表現手法,而在恢復這些高頻細節時需要依賴豐富的低級特征,為此,TCSF通過在下層分支設置4個CNN編碼器(包括1個3×3卷積層,一個歸一化層和一個ReLU激活層),逐層提取不同層次的圖像特征,并反饋到核預測分支,使網絡逐步學習復雜和抽象的特征表示。具體而言,對于給定的一幅被遮擋的傳統畫圖像,可表示為:
=I⊙Imask(3)
其中:,I,Imask∈RH×W×C,分別為原始圖像和Mask圖像,將得到的缺失圖像同時輸入到網絡的兩個分支中。其中,下分支接受缺失圖像,并通過下CNN編碼器將圖像特征從RGB空間映射到特征空間,并得到輸出特征Fi,將Fi先通過Avgpool層進行特征圖尺寸降采樣處理,以保留圖像的重要特征,之后將Fi送入空間濾波核的預測分支用于濾波預測操作:
EiDown=Avgpool(φi(H×W×C)),(i=1,2,3)(4)
式中:EiDown∈RH/2i×W/2i×C/2i為下層輸出的編碼特征,φi(·)表示下層第i次編碼操作,Avgpool(·)表示全局平均池化操作。
與此同時,上分支先將從下層得到的特征EiDown和自身編碼器的輸出特征EiUp逐通道拼接(channel-wise concat)后,再通過一個上層的編碼器得到輸出的濾波特征EiFilter,并將濾波特征送入SKM,以生成該階段的空間濾波核,此過程可以表示為
EiFilter=ξi(EiUpEiDown)(5)
i=δSKM(EiFilter),( i=1,2,3)(6)
式中:i表示第i階段的空間濾波核,ξ(·)表示空間濾波預測分支的編碼操作,δSKM(·)表示空間編碼操作。最后,下分支使用得到的空間濾波核進行逐元素相乘(element-wise multiplication),即濾波操作后完成本階段修復,這個過程可以表示為
EiDown=φj(Ei-1Down)↓⊙kj, (j=1,2,3,…)(7)
Ee=φj(…φ2(φ1(E0Down)↓⊙k1)↓⊙k2…)" ↓⊙kj,(8)
式中:Ee表示下分支最后一次編碼的輸出,↓表示通過全局平均池化層進行下采樣操作,Ee為生成分支通過多次空間濾波操作后得到的編碼特征,將得到的編碼特征通過中間設置的多個殘差塊(residual blocks)學習高層特征信息,最終通過解碼器解碼得到最終修復結果。
2.3 空間編碼融合
中國傳統畫注重空間透視和景物的層次感,因此空間感知能力對模型理解傳統畫的復雜布局和結構至關重要。此前,已經有一些研究工作驗證了在模型擬合過程中注入空間幾何信息的有效性[42]。
為了增強模型對傳統畫空間結構的感知能力,本研究對輸入的預測濾波特征使用空間濾波核模塊(spatial kernel module,SKM)進行空間編碼,以獲取缺失像素的坐標信息,具體流程如圖3所示。通過這種方式來為預測的濾波提供空間先驗信息,使網絡在卷積操作時更加關注缺失區域在畫面中的相對位置,從而更好地捕捉到圖像中的空間結構和局部特征。具體而言,SKM模塊先接收上層輸出的一個濾波特征E,編碼后得到生成X,Y方向的坐標信息,可表示為
(Xi,Yi)=2×Ehdim,wdimE(hdim,wdim)-1-1, (i=1,2,3)(9)
式中:Xi∈RB×H×1×1,Xi∈RB×1×W×1分別第i階段為X方向上和Y方向上的編碼得到的坐標信息,Ehdim,wdim表示第i次預測輸入的濾波特征圖。
其次,將濾波特征與X,Y方向上的坐標信息進行拼接,并使用單層卷積融合坐標信息。最后,使用ReLU函數激活關鍵特征區域得到空間濾波核i,此過程可表示為
i=ReLU(Conv(EiFilterXiYi)))," (i=1,2,3)(10)
式中:EiFilter表示預測濾波特征;Conv(·),ReLU(·)分別表示核大小為3×3的卷積和激活操作;i表示第i次預測濾波得到空間濾波核。
2.4 損失函數
在傳統畫修復任務中,損失函數的選擇直接影響模型重建缺失特征的過程,為確保修復結果有更高的準確性和保真度,同時忠實地保留藝術品的原貌,本研究采用L1損失、感知損失[43]、對抗損失[44]和風格損失[45]來指導模型修復。
1) L1損失函數。L1損失用于捕獲修復圖像與原始圖像之間像素級別的差異,用于優化修復圖像的整體結構和細節,可表示為
Ll1=1N∑Ni=1|Igt-Io|(11)
式中:n表示樣本數量;Igt表示原始圖像;Io是修復后的圖像。
2) 感知損失。 感知損失有利于對齊修復圖像與原始圖像之間的高級語義特征,通常使用經過預訓練的卷積神經網絡在特征空間比較兩張圖像的差異,以此提高修復結果的感知質量,可表示為
Lper=∑Ni=1‖φi(I(i)gt)-φi(I(i)o)‖1N(12)
式中:φ(·)為預訓練vgg-19網絡[43]第i層的激活特征圖,N為樣本數量。
3) 對抗損失。對抗損失用于激勵生成網絡生成與原始圖像相似的特征分布,通過逐步優化生成的圖像,使其更符合原始圖像的結構和語義,具體可表示為
Ladv=-E[log D(Igt)]-E[log(1-D)(Io)]。(13)
4) 風格損失。風格損失衡量修復結果與原始圖像的風格差異,確保修復后的傳統畫圖像在藝術風格上與原始圖像保持一致,可表示為
Lstyle=Ei[‖Ai(Io)TAi(Io)-" Ai(Igt)TAi(Igt)‖1](14)
式中: Ai(·)TAi(·)為第i層特征圖的Gram矩陣,整個網絡的優化目標為上述損失的加權組合,可表示為
Ltotal(I,)=λl1Ll1+λperLper+λadvLadv+λstyleLstyle(15)
式中:λl1、λper、λadv和λstyle超參數在實驗過程中分別設置為λl1=1,λstyle=250,λadv=λper=0.1。
3 實驗設置與分析
3.1 實驗準備
在實驗中,本研究使用了多種數據集評估模型的性能,包括傳統畫數據集、壁畫數據集、Places數據集以及Mask數據集。為了專門測試模型在特殊數據集上的修復能力,本研究構建了傳統畫數據集和壁畫數據集。此外,還利用公開的Places數據集檢驗本模型在真實世界圖像中的泛化能力。
1) 傳統畫數據集。在傳統畫修復任務中,訓練過程中所需的高質量圖像數據通常非常稀缺,而高分辨率圖像需要在專業的條件下獲取,能滿足模型訓練要求的數據更是稀缺。 為滿足模型訓練的需求, 本研究構建了一個中國傳統繪畫數據集, 其中包括來自不同朝代、 畫家和不同題材共5 500張高分辨率訓練集圖像以及121張測試集圖像。
2) 壁畫數據集。除使用傳統畫數據集以外,本研究還構建了一個壁畫數據集來驗證模型在其他藝術圖像數據中的修復效果。其中,壁畫數據集包括一千余張不同類型的壁畫圖片(唐卡壁畫、洞穴壁畫和墓葬壁畫)。為測試模型的泛化性能,在實驗中選取部分具有代表性的圖像進行展示。
3) Places[46]。其包含180萬個不同地方的圖像樣本,覆蓋了超過400種不同的場景類別,如街道、海灘、臥室、森林等,從而提供了極其多樣化的真實世界中的場景。
4) Mask圖像設置。區別于之前工作中[47-49]的掩碼規則,為了更加真實地模擬繪畫作品的受損情況,本研究使用閾值法定位傳統畫圖像中的破損位置,并根據真實的傳統畫破損樣例定制了更加逼真的Mask數據集共1 200張,用以豐富現有的Mask數據集。數據展示如圖4所示。
在訓練階段和測試階段中,為了和其他方法在性能評估上保持一致,本研究將構建的Mask數據集和Liu等人提出的自由孔洞數據集結合使用,并保持遮蓋率在0%~50%范圍內,且每個區域段(0%~10%, 10%~20%, 20%~30%, 30%~40%," 40%~50%)設置的Mask數據量相同。
5) 評估指標。本研究遵循圖像修復任務中最常見的評價設置,分別使用峰值信噪比(PSNR)、結構相似度指數(SSIM)、L1距離和感知相似度[50](LPIPS )來評估圖像修復的質量。其中L1距離用于評估重建像素的準確性,PSNR和SSIM用于從亮度、對比度中評估圖像恢復的質量,LPIPS指標結合了人類視覺感知的特性,用來評估恢復的圖像和真實圖像之間的感知差異程度。
3.2 實施細節
本研究提出的TCSF網絡基于Pytorch[51]實現," 所有的訓練和測試在一張RTX3090(24 GiB)顯卡上完成, 訓練時間花費了3 d, 共進行了500 000次迭代。在訓練過程中,設置模型學習率為0.000 1,批次大小為12,并使用Adam[52]優化器訓練模型,其中參數β1=0.1,β2=0.9。
3.3 對比方法
以下是參與比較的各先進方法的簡要概述。
1) Pconv[49]:提出一種部分區域卷積方式,將遮蓋和保留區域隔離操作,改善了修復區域與保留區域的顏色差異。
2) HAN[35]:一種Transformer結構的網絡,在注意力機制中引入Laplace距離先驗,用于在推理過程中融入圖中的距離信息。
3) MISF[41]:使用一種雙分支架構,并提出語義濾波來實現破損圖像的高保真修復。
4) AOT-GAN[53]:提出一種上下文聚合模塊以捕獲豐富的遠程信息,完成上下文推理并改善修復結果的紋理細節。
5) CoordFill[54]:提出了一種基于連續隱式表示的圖像修復方法,并通過自適應參數生成網絡和多層感知器,實現高效的高分辨率圖像補全。
3.4 定量實驗比較
為評估TCSF在圖像修復中的性能,本研究對構建的傳統畫數據集進行了不同比例的遮蓋(0%~10%,10%~20%,20%~30%,30%~40%,40%~50%),并與其他先進方法進行定量比較。為了比較公平,參與測試的所有方法使用相同的圖像-Mask對,具體實驗結果見表1。
考慮到真實的傳統畫破損區域多為30%以下,TCSF追求在0%~30%遮蓋率下實現最好的效果。從表1中可以看出,在遮蓋率為0%~30%時,與最優的方法比較,本方法得到了最高的PSRN,SSIM和L1指標的值。在遮蓋10%~20%下,比CoordFill在PSNR指標上提升了1.103 9 dB,比最高模型提升了0.235 9 dB。在0%~10%遮蓋下,SSIM指標相較于最優模型提高了0.001 3,同時在其他指標上都有提升。綜合比較分析可知,TCSF在各個評估指標上都取得了較好的結果,由此可以證明本方法相較于其他方法,在傳統畫圖像的修復任務中可以得到更好的定量評估結果。
3.5 定性實驗比較
除了定量評估以外,本研究將TCSF的修復效果與其他方法進行定性的對比,定性的可視化結果展示在圖5、圖6、圖7和圖8中。其中,圖5為在10%~20%破損情況下的模型修復效果的全局展示,圖6,7中分別從細節上展示了在10%~30%,20%~30%損情況下的修復效果,圖8中展示了一些在更大遮蓋比例下的修復結果。
如圖5所示,盡管部分卷積PConv接受并記憶掩碼圖像,能夠在推理時忽略覆蓋的無效像素,但這種做法可能使模型受掩碼的影響,從可視化結果可以看出,在處理“劃痕式”的破損時出現了明顯的噪點和修復失敗的區域。相比之下,CoordFill通過隱式編碼建立缺失像素和已有像素間的聯系,有效避免了噪點產生,但在樹干修復結果中出現上下文不銜接的問題。另外,從圖5(a)的山體上可以看出另外兩種方法在處理山體紋理時都復原失敗,而本方法通過圖像空間信息補償有效地改善了這些問題。從圖5(b)中的樹干和樹葉的修復結果可以看出,其他方法得到的結果中出現了缺失和模糊的情況,而采用本方法,優化了線條的流暢度,同時實現了紋理細節的復原,在整體視覺效果上更加細膩真實。
傳統畫中常用各種植物元素來表現自然景觀的美感,而在修復過程中,由于草木的枝條紋理細膩,故恢復難度較大。從圖6(a)中紅色方形框標記的部分可以看出,本方法還原出了樹枝和樹葉的輪廓結構,并且紋理相比于其他方法得到的結果更加清晰,這是由于濾波預測中融入的空間編碼信息能有效緩解修復結果與臨近像素間語義特征不一致的問題。圖6(b)展現了一種水墨風格的景觀畫,從房子中的景觀來看,本研究修復后得到的畫中人物輪廓更加清晰。
從圖7(a)中對于樹干的修復結果可以看出,TCSF能夠重建出視覺合理的上下文結構,重構結果與真實圖像相似度高。在待修復區域周圍可參照信息較少時,本方法也能最大程度上利用已有的像素內容來預測缺失區域。圖7(b)中展示對高密度像素區域的修復結果,其中樹葉和花瓣間具有復雜的紋理信息,包括葉脈和花瓣的輪廓,其他方法得到的結果在復原這些細節時過于平滑,缺乏層次感,同時由于相互遮擋關系錯誤,導致畫面元素堆疊方式不自然。本方法通過對圖像語義級信息進行學習,提供了更佳的恢復效果。
另外,圖7(c)展示了在圖中江面上的樹木信息較少時,TCSF通過空間編碼信息補充推理過程中的信息缺口,為缺失區域的推理注入了關鍵的非局部特征提示,展示了TCSF在對非局部信息建模的有效性。
為了驗證模型在大范圍信息缺失情況下的修復性能,本研究設置了更大范圍的遮蓋來探索TCSF的重構潛力。圖8中展示了在更大破損條件下的恢復效果。從圖8(a)和圖8(b)結果可以看出,即使在大范圍缺失的情況下,本方法也能有效地恢復出合理并連貫的結構,有力證明了TCSF相較于PConv、AOT-GAN等同類方法的顯著優勢。其他方法得到的結果輪廓模糊,原有結構信息被破壞,而TCSF得到的結果輪廓清晰、紋理自然,得到了良好視覺效果。
3.6 消融實驗分析
3.6.1 組件消融實驗
為證明空間編碼在濾波修復過程中的有效性,本研究通過消融實驗來評估這一組件,結果展示在表2和圖9中。從表2的結果可以看出,在不同破損范圍下,注入空間編碼后指標都有顯著的提升,在0%~10%遮蓋下,L1距離損失優化了1.6%,在40%~50%的遮蓋下優化了11.8%。在遮蓋30%~40%下,SSIM指標提升0.001 6,并且其他指標也都有提升。由此可以證明,和標準結構相比,顯式的位置信息補償有助于約束濾波修復過程,從而使修復結果更加準確。
對于組件消融學習的可視化結果展示在圖9中。從圖9(a)的修復結果可以看出,空間濾波修復得到的山體輪廓更加清晰,并且從竹葉的修復結果可以看出,TCSF學習到正確的圖像信息,相較于標準模型得到的結果更加準確。從圖9(b)中樹枝和樹葉的修復結果可以看到,本方法得到的結果更加貼合原始圖像,而標準模型恢復失敗。由此可以看出,空間濾波核的設計能有效地補充傳統畫圖像的全局特征信息,并增強模型上下文的推理能力,從而在復雜圖像的修復過程中得到連貫的結構和清晰的紋理。
在遞進的濾波核生成過程中引入坐標信息可直接為推理過程提供圖像的空間位置信息,這將增強模型對圖像空間結構的理解能力,從而有利于準確地恢復畫作中不同元素的位置信息和形狀信息。
另外,顯示提供的空間信息將有助于提升模型在訓練過程中的收斂速度和效果。在此,本研究展示了添加空間濾波預測前后L1損失和感知損失的消融實驗的可視化過程(見圖10)。從圖10中可以看出,在空間編碼的輔助下,模型的收斂更快。
3.6.2 損失函數消融實驗
為了探索訓練中各種損失對模型修復性能的影響,本研究設計了一組實驗對使用的損失函數進行消融學習。具體來說,在實驗中分別比較了去除L1損失、感知損失和風格損失以及在原有損失的基礎上添加了總變分損失(total variation loss)的幾種情況,其中總變分損失是通過正則項降低相鄰像素的差異,從而降低噪聲并保持圖像的光滑性。
有關損失函數的消融結果在表3和圖11中展示。從結果可以看出,L1損失對于異常值有較強的魯棒性,在數據存在異常值時可以提供更穩定的結果,同時L1損失有助于生成邊緣更清晰的圖像,在去掉L1損失時其他指標也都受到不同程度的影響。如圖11所示,去掉L1損失后圖像出現了模糊,反觀其他對照組的結果更加清晰。另外,風格損失用于確保修復圖像保留原作的風格特征,通常與內容損失搭配使用,而去掉風格損失后得到的整體圖像偏暗,與原始圖像風格不符。其次,本研究測試了添加TV損失對模型修復性能的影響,從圖11可以看,添加TV損失后能改善圖像中的噪點現象,但會出現過度平滑的結果。而本方法結合各種損失,既考慮了修復結果的精確度,也兼顧了圖像的感知質量、風格特征和視覺真實性,從而實現對原作的高質量恢復。
3.7 其他數據集中的適用性測試
3.7.1 壁畫數據集測試
壁畫數據通常包含復雜的圖案和細膩的細節,對修復模型提出了較高的要求,要求模型不僅能恢復缺失的信息,還要能保持原有的藝術風格。在實驗中,本研究構建了幾種不同類型的壁畫繪畫數據集并進行了評估。修復結果如圖12所示。從圖12(a)中的服飾細節信息的還原和圖12(b)、(c)中對圖像結構和色彩的恢復可以看出,本方法在其他藝術類型的數據集上依舊能得到良好的視覺效果,進一步證明了模型的廣泛適用性。
3.7.2 Places數據集測試
Places數據集在圖像修復任務中被廣泛使用,其中包含豐富多樣的環境,提供了豐富的視覺元素和結構變化。本研究在實驗中選擇部分有挑戰的數據來檢測本模型在面對未知環境的修復能力。結果如圖13所示。圖13(a)、(b)中展示了對街景的恢復,可以看出本方法恢復出了缺失的部分。在圖13(c)、(e)中展示了對復雜的建筑物外景的修復,從結果可以看出,TCSF同樣能保持原有結構的連貫性和視覺和諧。綜上所述,在不同數據集上的修復結果有力地證明了本模型的泛化能力和出色的修復性能。
4 結語
針對現有深度學習方法在具有復雜圖像結構、表達方式抽象的中國傳統畫圖像的修復中結果不理想的問題,提出了一種孿生級聯空間濾波網絡(TCSF),驗證了空間預測濾波方法在特殊主題圖像修復任務中的有效性。通過在濾波生成過程中使用空間編碼機制捕捉傳統畫圖像中像素間的空間關系和結構信息,實現了高保真的傳統畫圖像細節填補和出色的視覺效果。同時,本方法修復的準確性以及指標方面與現有的方法相比均取得了顯著的改進,展示了更好的中國傳統圖像修復方法。
后續將繼續開展兩個方向的研究:進一步優化濾波修復模型,提升修復質量和速度,通過調整網絡結構、損失函數設計、參數調優等方式來提升對傳統畫筆觸和風格的恢復性能;增加數據集的規模和多樣性,包括不同風格、時代和主題的傳統畫圖像,以提高模型的泛化能力和修復效果。
參考文獻
[1] LI J, WANG N, ZHANG L, et al. Recurrent feature reasoning for image inpainting[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 7760-7768.
[2] SUVOROV R, LOGACHEVA E, MASHIKHIN A, et al. Resolution-robust large mask inpainting with fourier convolutions[C]∥Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE,2022: 2149-2159.
[3] WAN Z, ZHANG J, CHEN D, et al. High-fidelity pluralistic image completion with transformers[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 4692-4701.
[4] LIAO L, XIAO J, WANG Z, et al. Guidance and evaluation: Semantic-aware image inpainting for mixed scenes[C]∥Computer Vision-ECCV 2020: 16th European Conference. Cham: Springer,2020: 683-700.
[5] LI L, ZOU Q, ZHANG F, et al. Line drawing guided progressive inpainting of mural damages[EB/OL]. (2022-11-12) [2024-05-15]. https:∥arxiv.org/abs/2211.06649.
[6] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]∥Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2223-2232.
[7] 曹建芳,靳夢燕,李朝霞,等.基于循環生成對抗網絡的壁畫色彩修復算法[J].山東科技大學學報(自然科學版),2023,42(4):101-112.
CAO J F, JIN M Y, LI Z X, et al. Mural color restoration algorithm based on cyclic generative adversarial network[J].Journal of Shandong University of Science and Technology (Natural Science), 2023, 42(4): 101-112.
[8] CHI L, JIANG B, MU Y. Fast fourier convolution[J]. Advances in Neural Information Processing Systems, 2020, 33: 4479-4488.
[9] YU J, LIN Z, YANG J, et al. Free-form image inpainting with gated convolution[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision.Seoul: IEEE, 2019: 4471-4480.
[10]胡升,薛濤,季虹.多尺度信息融合的生成對抗網絡壁畫修復[J].國外電子測量技術,2024,43(4):30-38.
HU S, XUE T, JI H. Muralinpainting algorithm for generative adversarial network with multi-scale information fusion[J].Foreign Electronic Measurement Technology, 2024, 43(4): 30-38.
[11]趙磊,吉柏言,邢衛,等.基于多路編碼器和雙重注意力的古畫修復算法[J].計算機研究與發展,2023,60(12):2814-2831.
ZHAO L, JI B Y, XING W, et al. Ancient painting inpaintingalgorithm based on multi-channel encoder and dualattention[J].Joural of Computer Research and Development, 2023, 60(12): 2814-2831.
[12]BARNES C, SHECHTMAN E, FINKELSTEIN A, et al. PatchMatch: A randomized correspondence algorithm for structural image editing[J]. ACM Trans Graph,2009, 28(3): 1-11.
[13]CHO T S, BUTMAN M, AVIDAN S, et al. The patch transform and its applications to image editing[C]∥2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage: IEEE, 2008: 1-8.
[14]KWATRA V, ESSA I, BOBICK A, et al. Texture optimization for example-based synthesis[J]. ACM Siggraph 2005 Papers, 2005,24(3): 795-802.
[15]DARABI S, SHECHTMAN E, BARNES C, et al. Image melding: Combining inconsistent images using patch-based synthesis[J]. ACM Transactions on graphics (TOG), 2012, 31(4): 1-10.
[16]ZOME T. Learning how to inpaint from global image statistics[C]∥Proceedings Ninth IEEE International Conference on Computer Vision.Nice: IEEE, 2003: 305-312.
[17]BALLESTER C, BERTALMIO M, CASELLES V, et al. Filling-in by joint interpolation of vector fields and gray levels[J]. IEEE Transactions on Image Processing, 2001, 10(8): 1200-1211.
[18]PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2536-2544.
[19]LI W, LIN Z, ZHOU K, et al. Mat: Mask-aware transformer for large hole image inpainting[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.New Orleans: IEEE, 2022: 10758-10768.
[20]DONG Q, CAO C, FU Y. Incremental transformer structure enhanced image inpainting with masking positional encoding[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 11358-11368.
[21]KO K, KIM C S. Continuously masked transformer for image inpainting[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 13169-13178.
[22]CHEN B W, LIU T J, LIU K H. Lightweight image inpainting by stripe window transformer with joint attention to CNN[C]∥2023 IEEE 33rd International Workshop on Machine Learning for Signal Processing (MLSP).Rome: IEEE, 2023: 1-6.
[23]LIU H, JIANG B, XIAO Y, et al. Coherent semantic attention for image inpainting[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul: IEEE,2019: 4170-4179.
[24]YAN Z, LI X, LI M, et al. Shift-net: Image inpainting via deep feature rearrangement[C]∥Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 1-17.
[25]WANG N, LI J, ZHANG L, et al. MUSICAL: Multi-scale image contextual attention learning for inpainting[C]∥Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI).Macao: IJCAI, 2019: 3748-3754.
[26]YU J, LIN Z, YANG J, et al. Generative image inpainting with contextual attention[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5505-5514.
[27]ZHENG H, LIN Z, LU J, et al. Image inpainting with cascaded modulation gan and object-aware training[C]∥European Conference on Computer Vision. Cham:Springer, 2022: 277-296.
[28]SUVOROV R, LOGACHEVA E, MASHIKHIN A, et al. Resolution-robust large mask inpainting with fourier convolutions[C]∥Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2022: 2149-2159.
[29]IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1-14.
[30]GUO X, YANG H, HUANG D. Image inpainting via conditional texture and structure dual generation[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14134-14143.
[31]ZENG Y, LIN Z, LU H, et al. Cr-fill: Generative image inpainting with auxiliary contextual reconstruction[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14164-14173.
[32]SONG Y, YANG C, SHEN Y, et al. Spg-net: Segmentation prediction and guidance network for image inpainting[EB/OL]. (2018-08-06) [2024-05-15].https:∥arxiv.org/abs/1805.03356.
[33]ZHENG C, CHAM T J, CAI J, et al. Bridging global context interactions for high-fidelity image completion[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 11512-11522.
[34]DENG Y, HUI S, ZHOU S, et al. T-former: An efficient transformer for image inpainting[C]∥Proceedings of the 30th ACM International Conference on Multimedia. Lisboa: ACM, 2022: 6559-6568.
[35]DENG Y, HUI S, MENG R, et al. Hourglass attention network for image inpainting[C]∥European Conference on Computer Vision. Cham: Springer, 2022: 483-501.
[36]MILDENHALL B, BARRON J T, CHEN J, et al. Burst denoising with kernel prediction networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City: IEEE, 2018: 2502-2510.
[37]XIE C, TIAN X, JIANG R, et al. Dilated kernel prediction network for single-image denoising[J]. Journal of Electronic Imaging,2021,30(2):1-15.
[38]CARBAJAL G, VITORIA P, LEZAMA J, et al. Blind motion deblurring with pixel-wise kernel estimation via kernel prediction networks[J]. IEEE Transactions on Computational Imaging, 2023, 9: 928-943.
[39]GUO Q, SUN J, JUEFEI-XU F, et al. Efficientderain: Learning pixel-wise dilation filtering for high-efficiency single-image deraining[C]∥Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2021: 1487-1495.
[40]GUO Q, LI X, XU F, et al. Jpgnet: Joint predictive filtering and generative network for image inpainting[C]∥Proceedings of the 29th ACM International Conference on Multimedia. New York: ACM, 2021: 386-394.
[41]LI X, GUO Q, LIN D, et al. Misf: Multi-level interactive siamese filtering for high-fidelity image inpainting[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 1869-1878.
[42]LIU R, LEHMAN J, MOLINO P, et al. An intriguing failing of convolutional neural networks and the coordconv solution[J]. Advances in Neural Information Processing Systems, 2018, 31:9605-9616.
[43]JOHNSON J, ALAHI A, FEI-FEI L. Perceptual losses for real-time style transfer and super-resolution[C]∥Computer Vision-ECCV 2016: 14th European Conference.Cham: Springer, 2016: 694-711.
[44]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Advances in Neural Information Processing Systems, 2014, 27: 2672-2680.
[45]GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas: IEEE, 2016: 2414-2423.
[46]ZHOU B, LAPEDRIZA A, KHOSLA A, et al. Places: A 10 million image database for scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(6): 1452-1464.
[47]SIMONYAN K. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10) [2024-05-15].https:∥arxiv.org/abs/1409.1556.
[48]YI Z, TANG Q, AZIZI S, et al. Contextual residual aggregation for ultra high-resolution image inpainting[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 7508-7517.
[49]LIU G, REDA F A, SHIH K J, et al. Image inpainting for irregular holes using partial convolutions[C]∥Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 85-100.
[50]ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 586-595.
[51]PASZKE A, GROSS S, MASSA F, et al. Pytorch: An imperative style, high-performance deep learning library[J]. Advances in Neural Information Processing Systems, 2019, 32: 8026-8037.
[52]LOSHCHILOV I. Decoupled weight decay regularization[EB/OL]. (2019-01-04) [2024-05-15].https:∥arxiv.org/abs/1711.05101.
[53]ZENG Y, FU J, CHAO H, et al. Aggregated contextual transformations for high-resolution image inpainting[J]. IEEE Transactions on Visualization and Computer Graphics,2022, 29(7): 3266-3280.
[54]LIU W, CUN X, PUN C M, et al. Coordfill: Efficient high-resolution image inpainting via parameterized coordinate querying[C]∥Proceedings of the AAAI Conference on Artificial Intelligence. Washington: AAAI Press, 2023, 37(2):1746-1754.
(編 輯 雷雁林)
基金項目:國家自然科學基金(62471390,62306237);陜西省重點研發計劃(2024GX-YBXM-149);西北大學研究生創新項目(CX2024204、CX2024206)。
第一作者:薛文喆,男,從事計算機視覺領域中的圖像修復、圖像推開研究,xwz@stumail.nwu.edu.cn。