王真言 蔣勝丞 宋奇鴻 劉 波 畢秀麗 肖 斌
(圖像認(rèn)知重慶市重點實驗室(重慶郵電大學(xué)) 重慶 400065)
文物是國家的瑰寶,其蘊含著一個民族獨有的精神價值、思維方式和想象力,具有極高的歷史、藝術(shù)與科學(xué)研究價值.由于材質(zhì)的特殊性,文物極易受到潮濕發(fā)霉、蟲蛀鼠咬、人為破壞等威脅.紙張的自然老化也會產(chǎn)生破洞、碎裂、褪色等問題.如果不及時修復(fù),文物的價值就會下降.傳統(tǒng)破損文物修復(fù)技術(shù)經(jīng)過數(shù)代人繼承和發(fā)展已經(jīng)逐漸成熟,但現(xiàn)有修復(fù)技術(shù)都會對文物本身造成一定的損害.此外,傳統(tǒng)文物修復(fù)行業(yè)還面臨供需不平衡、人才緊缺、技能門檻高等一系列問題.因此,國內(nèi)外博物館都傾向使用數(shù)字圖像修復(fù)技術(shù)對文物進(jìn)行虛擬化修復(fù),該技術(shù)已成為當(dāng)前的研究熱點[1-4].
目前主要的文物圖像修復(fù)技術(shù)都是基于傳統(tǒng)的圖像處理算法.例如:陳永等人[5]針對敦煌壁畫裂紋修復(fù)問題提出了一種改進(jìn)曲率驅(qū)動擴散的修復(fù)算法;Criminisi 等人[6]提出的基于塊匹配的方法,以及Barnes等人[7]提出的基于隨機采樣的塊匹配方法PatchMatch,在文物修復(fù)領(lǐng)域也有很廣泛的應(yīng)用[8-9].這類方法的主要思想是通過迭代地執(zhí)行待修復(fù)樣本塊相似度計算、最佳匹配樣本塊搜索、待修復(fù)樣本塊填充3 個步驟來完成修復(fù)任務(wù).但是這類方法把圖像的局部特征作為修復(fù)的主要依據(jù),忽視了上下文的特征信息.
深度學(xué)習(xí)技術(shù)通過對大規(guī)模數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,并使用學(xué)習(xí)到的高維特征映射修復(fù)缺失區(qū)域,能結(jié)合語義信息來恢復(fù)圖像,具有較強的生成泛化能力.目前,使用深度學(xué)習(xí)技術(shù)進(jìn)行文物圖像修復(fù)成為一種趨勢.例如,2022 年Yu 等人[10]使用現(xiàn)代計算機視覺和機器學(xué)習(xí)技術(shù)對敦煌文化遺產(chǎn)進(jìn)行修復(fù).但是,大多數(shù)方法都使用自然圖像修復(fù)中常見的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN).同時,網(wǎng)絡(luò)框架也大多采用編解碼器的結(jié)構(gòu).這類方法能夠結(jié)合上下文語義信息進(jìn)行修復(fù).但是,由于卷積操作的局部相關(guān)性和平移不變性,網(wǎng)絡(luò)難以利用圖像的全局結(jié)構(gòu).因此,重復(fù)的紋理和偽影經(jīng)常出現(xiàn)在被修復(fù)的區(qū)域中.近年來, Transformer[11]在計算機視覺領(lǐng)域取得了極其優(yōu)異的成績.與CNN 相比,它克服了卷積的局部相關(guān)性,通過自注意力模塊來獲取圖像的全局信息,其應(yīng)用在文物圖像修復(fù)任務(wù)中可更好地恢復(fù)出圖像的完整結(jié)構(gòu).同時,使用多頭注意力機制可以實現(xiàn)修復(fù)結(jié)果的多元化輸出.但是,Transformer也存在著計算量過大的問題.
值得注意的是,自然圖像修復(fù)與文物圖像修復(fù)存在一定的區(qū)別,如圖1 所示.從破損結(jié)構(gòu)而言,自然圖像的破損大多具有固定的結(jié)構(gòu),而文物圖像的破損多是不規(guī)則且連續(xù)的.雖然有針對不規(guī)則破損圖像補全的方法,并已實現(xiàn)了良好的補全效果,但并沒有運用到圖像修復(fù)領(lǐng)域中;從破損面積而言,自然圖像破損面積更大且破損區(qū)域往往并不連續(xù),而文物圖像的破損面積都較小;從紋理復(fù)雜程度而言,文物圖像的紋理比自然圖像更加復(fù)雜.同時,基于深度學(xué)習(xí)的方法大多以數(shù)據(jù)驅(qū)動,但目前國內(nèi)外并沒有高質(zhì)量的大型文物數(shù)據(jù)集,導(dǎo)致網(wǎng)絡(luò)模型無法學(xué)習(xí)到足夠的文物圖像特征.因此,從自然圖像修復(fù)領(lǐng)域直接遷移的模型并不能很好地實現(xiàn)對文物圖像的修復(fù).

圖1 破損圖像對比Fig.1 Comparison of damaged images
綜上所述,針對文物圖像修復(fù)任務(wù),本文結(jié)合文物圖像的特點和藝術(shù)家工作時“先結(jié)構(gòu)后細(xì)節(jié)”的工作流程提出了一種基于Transformer 的文物圖像修復(fù)方法,將文物圖像修復(fù)工作分為2 個步驟:第1 步使用Transformer 進(jìn)行多元化結(jié)構(gòu)修復(fù);第2 步使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行上采樣并恢復(fù)缺失區(qū)域的紋理,方法流程圖如圖2 所示.實驗結(jié)果表明,在符合現(xiàn)實場景的破損文物修復(fù)實驗和文物大面積破損修復(fù)實驗中,本文方法的修復(fù)結(jié)果視覺效果更好,客觀指標(biāo)也高于代表性方法.同時,支持多元化輸出,為修復(fù)人員提供了多樣化的參考,在文物修復(fù)領(lǐng)域具有較高的價值.

圖2 基于Transformer 的文物圖像修復(fù)方法Fig.2 Transformer-based image restoration method for cultural relics
本節(jié)主要介紹圖像修復(fù)領(lǐng)域的相關(guān)工作及其在文物修復(fù)領(lǐng)域的應(yīng)用,并討論這些方法的優(yōu)缺點.圖像修復(fù)方法可以分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法.
傳統(tǒng)的圖像修復(fù)方法主要包括基于擴散的修復(fù)方法和基于樣本塊匹配的修復(fù)方法.目前主要的文物圖像修復(fù)都是基于這2 類修復(fù)技術(shù).
基于擴散的修復(fù)方法通過設(shè)計的擴散函數(shù)將相鄰區(qū)域的像素塊傳遞到缺失區(qū)域內(nèi)[12-14].陳永等人[5]針對壁畫裂紋修復(fù)問題提出了改進(jìn)曲率驅(qū)動擴散的敦煌壁畫修復(fù)算法,使曲率擴散的擴散項更合理.
基于樣本塊匹配的修復(fù)方法是從同一幅圖像的相似區(qū)域選擇關(guān)聯(lián)度高的樣本塊并填充到缺失區(qū)域[6,15-16].其中,2004 年提出的PatchMatch[6]通過使用快速最近鄰算法可以很好地完成圖像修復(fù)任務(wù).然而實現(xiàn)這種方法的前提是能夠在圖像的已知區(qū)域找到缺失區(qū)域的相似紋理,但并不是所有待修復(fù)圖像都能滿足這樣的條件.在文物圖像修復(fù)領(lǐng)域,2019 年Yao[9]在修復(fù)唐卡圖像的過程中,在Criminisi 算法的基礎(chǔ)上引入結(jié)構(gòu)信息對匹配策略進(jìn)行優(yōu)化,盡可能避免了錯誤匹配的問題.2019 年Wang 等人[17]針對敦煌壁畫修復(fù)問題提出了結(jié)合多個候選區(qū)的稀疏模型來保證紋理的相似性和結(jié)構(gòu)的連續(xù)性.
基于擴散的修復(fù)方法和基于樣本塊匹配的修復(fù)方法主要依賴單張圖像的局部特征,很難恢復(fù)出符合上下文特性的缺失區(qū)域.
深度學(xué)習(xí)技術(shù)通過對大規(guī)模數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,并使用學(xué)習(xí)到的高維特征映射修復(fù)缺失區(qū)域,相較于傳統(tǒng)方法其能夠?qū)W習(xí)到更高維度的特征[18],并且能夠在缺失的區(qū)域生成連貫的結(jié)構(gòu).基于CNN 的方法占主導(dǎo)地位,可以分為基于編解碼結(jié)構(gòu)的單階段修復(fù)模型和提供先驗信息的修復(fù)模型.
最先使用基于編解碼結(jié)構(gòu)的單階段修復(fù)模型是2016 年提出的Context Encoder[19],編碼器映射圖像缺失區(qū)域到低維特征空間,解碼器用來構(gòu)造輸出圖像.然而,輸出圖像的恢復(fù)區(qū)域通常包含視覺偽影且模糊.2018 年Liu 等人[20]為解決普通卷積特征提取不足的問題創(chuàng)造了“部分卷積”,把傳統(tǒng)卷積層替換為部分卷積層,將編碼器層的深層和淺層特征作為CNN的輸入,使得修復(fù)后的圖像紋理更加一致.2021 年,Zeng 等人[21]提出一種使用可學(xué)習(xí)的損失函數(shù)替代注意力機制的2 階段模型.基于上下文重建損失,無注意力機制的生成器也能學(xué)習(xí)到從已知區(qū)域匹配特征進(jìn)行修復(fù)的能力.在文物圖像修復(fù)領(lǐng)域,2021 年Zhang等人[22]針對古代石刻碑文保護(hù)的問題提出了一種基于多尺度特征融合的石刻圖像去噪與修復(fù)方法.
提供先驗信息的修復(fù)方法[23-24]在單階段方法的基礎(chǔ)上加入了先驗信息,因此效果更好.2018 年Contextual Attention[25]采用的策略為:第1 階段使用簡單的膨脹卷積網(wǎng)絡(luò)粗略地恢復(fù)缺失內(nèi)容;第2 階段的細(xì)化網(wǎng)絡(luò)使用上下文注意力機制來優(yōu)化結(jié)果.2018 年Shift-Net[26]受樣本塊匹配思想的啟發(fā),在UNet 模型的基礎(chǔ)上增加了Shift 連接層,可以計算每個缺失區(qū)域樣本塊與已知區(qū)域的相似度系數(shù),并在編碼器特征上引入了引導(dǎo)損失,提升了修復(fù)的精度.2020年Zeng 等人[27]利用深度卷積神經(jīng)網(wǎng)絡(luò)對破損圖像進(jìn)行粗略修復(fù),然后利用最近鄰像素匹配進(jìn)行可控制的再次修復(fù),使得修復(fù)的圖像更具真實感.2021 年Qin 等人[28]提出了基于多尺度注意力網(wǎng)絡(luò)的修復(fù)模型,通過引入多尺度注意力組來提高修復(fù)后圖像的真實性.在文物圖像修復(fù)領(lǐng)域,2019 年曹建芳等人[29]針對古代壁畫起甲、脫落等問題提出一種基于增強一致性生成對抗網(wǎng)絡(luò)的圖像修復(fù)算法,提高了壁畫修補區(qū)域與全局的一致性.
將文獻(xiàn)[23-29]所述的方法直接應(yīng)用到文物圖像修復(fù)領(lǐng)域雖然能夠修復(fù)大面積破損的圖像,但由于文物的破損往往存在細(xì)節(jié)丟失、特征不足等問題[5,30],難以恢復(fù)連貫結(jié)構(gòu)[28-29].同時卷積的局部連接和平移不變性導(dǎo)致其對圖像的全局結(jié)構(gòu)很難把握,也容易產(chǎn)生重復(fù)的紋理.隨著深度學(xué)習(xí)理論的發(fā)展,Transformer 在計算機視覺領(lǐng)域內(nèi)的廣泛應(yīng)用,一些初步的工作[31-33]也證明了它在自然圖像合成方面有非常強的能力.如2021 年ICT(image completion transformer)[33]采用Transformer 的輸出作為結(jié)構(gòu)先驗以實現(xiàn)高保真度的圖像補全.此外,Transformer 中的多頭注意力機制可以實現(xiàn)結(jié)果的多樣化輸出.但是,由于自注意力機制每次都要計算所有塊之間的注意力,計算復(fù)雜度為輸入長度的平方,因此處理高分辨率圖像較為困難[34].
本文受到提供先驗信息的深度學(xué)習(xí)方法的啟發(fā),為避免卷積操作難以恢復(fù)全局結(jié)構(gòu)的缺點,先采用Transformer 模型來恢復(fù)整體的結(jié)構(gòu)信息,再通過一個具有上采樣功能的修復(fù)網(wǎng)絡(luò)進(jìn)行紋理修復(fù),使得修復(fù)后的文物圖像整體結(jié)構(gòu)連貫,同時避免出現(xiàn)偽影、模糊等現(xiàn)象,并且使修復(fù)結(jié)果更加逼近原始圖像.文物圖像修復(fù)的目的是將有缺失像素的輸入圖像ID=I⊙(1-M)通過預(yù)測轉(zhuǎn)化成完整圖像IC.因此,本文方法將文物圖像修復(fù)任務(wù)分成多元化結(jié)構(gòu)修復(fù)和上采樣紋理修復(fù)2 個階段,網(wǎng)絡(luò)結(jié)構(gòu)分別如圖3、圖4 所示.第1 階段中,Transformer 模型將輸入圖像ID變換為具有連貫結(jié)構(gòu)的中間修復(fù)結(jié)果IR,此過程可表示為p(IR|ID).第2 階段中,IR通過CNN 模型學(xué)習(xí)到IC的特征映射,將IR進(jìn)行上采樣的同時修復(fù)精細(xì)紋理,并在特征層次進(jìn)行融合得到輸出圖像IC,實現(xiàn)對文物圖像的修復(fù),此過程可表示為p(IC|IR,ID).綜上,整個修復(fù)過程可表述為

圖3 多元化結(jié)構(gòu)修復(fù)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Diversified structure repair network structure diagram

圖4 上采樣紋理修復(fù)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Upsamping texture repair network structure diagram
Transformer 摒棄了CNN 的局部相關(guān)性和平移不變性,通過多個自注意力模塊來獲取圖像的全局信息[11],其應(yīng)用在文物圖像修復(fù)任務(wù)中可更好地恢復(fù)出圖像的完整結(jié)構(gòu).
本文使用的Transformer 模塊結(jié)構(gòu)如圖3 所示,與GPT-2 模型[35]的做法相同,僅使用Transformer 的解碼器,其計算過程可表述為
其中LN,MSA,MLP分別代表層歸一化、多頭自注意力模塊、全連接層.其中,MSA可表示為
其中n代表注意力頭的個數(shù);Q,K,V代表3 個可學(xué)習(xí)的映射矩陣;dK為K的特征維度;MLPO是一個連接不同自注意力模塊的全連接層.
由于GPT 模型是通過單向注意力預(yù)測缺失區(qū)域的元素,僅能關(guān)注到前序序列的信息.為了使每個樣本塊都能關(guān)注到所有位置的信息,本文采用與BERT[36]類似的遮蔽語言模型(mask language model, MLM)來優(yōu)化Transformer 模型,確保生成像素可以捕獲所有可用的上下文信息,從而使生成內(nèi)容與已知區(qū)域相一致.具體來說,讓Π =(π1,π2,...,πm)表示離散化輸入中標(biāo)記為掩膜的索引,其中m是被屏蔽的標(biāo)記數(shù)量.MLM 的目標(biāo)是使所有觀察區(qū)域條件下XΠ的負(fù)對數(shù)似然最小,用公式表示為
其中 θ代表Transformer 模型所學(xué)習(xí)到的參數(shù).MLM和雙向注意力機制相結(jié)合,確保了網(wǎng)絡(luò)可以利用所有位置的信息來預(yù)測缺失區(qū)域的內(nèi)容.
在輸入到Transformer 之前,圖像首先被編碼成為一個離散化的序列,表示為Ir=(i1,i2,…,ilen),其中l(wèi)en代表Ir的長度.為了對圖像的空間信息進(jìn)行編碼,將一個可學(xué)習(xí)位置的特征選擇器添加到每個位置的標(biāo)記特征中,然后再將這個離散化序列通過預(yù)學(xué)習(xí)編碼映射到一個高維的特征向量中,最后再組成Transformer 模型的輸入.考慮到Transformer 的計算復(fù)雜度與輸入長度的平方成正比,且多頭注意力機制[11]的計算復(fù)雜度與輸入長度的4 次方成正比,如果采用正常的RGB 像素表達(dá)矩陣,那么計算量將過于巨大.為了降低計算成本,采用與ICT 相似的做法,使用原始文物圖像對應(yīng)的低分辨率版本來表示其連貫結(jié)構(gòu)的先驗,即使用大小為32×32 的塊來表示原始圖像的結(jié)構(gòu)信息和粗略的紋理.為了進(jìn)一步降低維度,本文還使用K-Means 聚類算法在文物圖像數(shù)據(jù)集上構(gòu)造大小為512×3 的RGB 像素詞表.可以通過搜索這個詞表來重建每個連貫結(jié)構(gòu)的先驗信息.
由于Transformer 中多頭注意力機制的存在使IR可以很容易地輸出多種合理的結(jié)果,針對每一種結(jié)果,在重建低維結(jié)構(gòu)先驗信息之后,本文方法還學(xué)習(xí)了一個確定的映射將低維圖像IR放大為輸入圖像的大小,并且沒有改變空洞區(qū)域和非掩碼區(qū)域的邊緣結(jié)構(gòu)信息.為了盡可能恢復(fù)圖像的紋理細(xì)節(jié)和高頻信息,本文使用了傳統(tǒng)CNN 卷積及殘差結(jié)構(gòu),并使用聯(lián)合感知損失函數(shù)對細(xì)節(jié)修復(fù)的結(jié)果進(jìn)行約束,在上采樣的過程中盡可能恢復(fù)高頻細(xì)節(jié).
在上采樣紋理修復(fù)網(wǎng)絡(luò)中,雙層殘差結(jié)構(gòu)在保證輸入先驗結(jié)構(gòu)信息不被篡改的同時,使修復(fù)結(jié)果更加符合上下文語義信息.然后利用PixelShuffle 像素重組技術(shù)對圖像進(jìn)行上采樣,在不損失清晰度與真實細(xì)節(jié)信息的前提下對圖像進(jìn)行超分辨.
為達(dá)到這個目的,本文方法的第2 階段訓(xùn)練了前饋式CNN 的生成網(wǎng)絡(luò)Gθ,網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示.其中生成器網(wǎng)絡(luò)的訓(xùn)練過程可以表示為
其中聯(lián)合損失函數(shù)lSP是若干損失函數(shù)的加權(quán)組合以模擬恢復(fù)圖像的不同特征.θG={W1:L;b1:L}代表第N層網(wǎng)絡(luò)通過聯(lián)合損失函數(shù)lSP優(yōu)化后的權(quán)重和偏置.為恢復(fù)更加逼真的紋理細(xì)節(jié),在網(wǎng)絡(luò)訓(xùn)練階段將生成器參數(shù)和辨別器參數(shù)進(jìn)行交替優(yōu)化,優(yōu)化表達(dá)式為:
其中IH為高分辨率圖像,IL為低分辨率圖像.
為了更好地完成基于結(jié)構(gòu)先驗的修復(fù)任務(wù),本文在Ledig 等人[37]的基礎(chǔ)上設(shè)計改進(jìn)了更適用于文物圖像修復(fù)任務(wù)的聯(lián)合感知損失函數(shù),其表達(dá)式為
聯(lián)合感知損失函數(shù)由3 部分組成:內(nèi)容感知損失lcontext、生成對抗損失ladv、全變分損失lTV.無論是在像素層面還是感知層面都能很好地提升修復(fù)圖像的質(zhì)量.
2.3.1 內(nèi)容損失函數(shù)
內(nèi)容損失lcontext主要分為2 部分,即像素層面的均方差損失和特征層面上提出VGG 損失.像素層面的均方差損失的表達(dá)式為:
其中R,W,H分別表示圖像縮放系數(shù)、圖像寬度、圖像高度.這是圖像修復(fù)領(lǐng)域運用最廣泛的損失函數(shù).然而實驗結(jié)果表明雖然修復(fù)結(jié)果具有較高的峰值信噪比(peak signal noise rating, PSNR)指標(biāo),但使用其進(jìn)行優(yōu)化往往會導(dǎo)致修復(fù)結(jié)果缺乏高頻細(xì)節(jié),喪失圖像原本的真實性.因此前人在特征層面提出VGG損失為:
其中VGG/i,j中的i,j代表本文所選用的卷積層,φi,j為第i個池化層前的第j個卷積層,Wi,j和Hi,j表示VGG 網(wǎng)絡(luò)中特征圖的寬度與高度.這種方法得到的PSNR 較高,紋理也相對真實.
2.3.2 對抗損失函數(shù)
本文方法在訓(xùn)練階段還額外添加了一個對抗損失來產(chǎn)生更加真實的紋理:
其中D是參數(shù)為 ω的辨別器.交替共同訓(xùn)練生成器網(wǎng)絡(luò)F和辨別器D來求解優(yōu)化問題:
其中l(wèi)?1為L1損失函數(shù), α1=1.0, α2=0.1.
2.3.3 全變分損失函數(shù)
使用2.3.2 節(jié)的損失函數(shù)能夠產(chǎn)生較好的修復(fù)結(jié)果,但在文物圖像破損區(qū)域仍然存在部分失真與不平滑的區(qū)域.因此,本文引入了全變分損失函數(shù)lTV[38],使修復(fù)圖像和掩膜的邊緣更加平滑.其表達(dá)式為:
其中u為支持域, β=2.0.
為了討論和驗證本文提出的修復(fù)方法,并將其與已有的修復(fù)方法進(jìn)行對比和分析,本節(jié)將從5 個角度進(jìn)行實驗.首先,對比各方法在現(xiàn)實場景下的破損修復(fù)效果;然后對比各方法對大面積破損的修復(fù)效果、驗證本文方法在不同數(shù)據(jù)集上的修復(fù)效果、驗證本文方法在自然圖像上的修復(fù)效果;最后討論多元化文物圖像修復(fù)的優(yōu)點.
目前文物圖像修復(fù)領(lǐng)域并沒有高質(zhì)量的大型公開數(shù)據(jù)集,而大多數(shù)基于深度學(xué)習(xí)的方法均以數(shù)據(jù)為驅(qū)動,如果訓(xùn)練集過小則會導(dǎo)致網(wǎng)絡(luò)性能不佳、修復(fù)效果不理想等問題.為解決文物圖像數(shù)據(jù)庫過小的問題,本文對中國臺北故宮博物館官網(wǎng)提供的5 000張分辨率為3 000×4 000 的文物圖像進(jìn)行處理,最終得到的88 000 張分辨率為256×256 的文物圖像作為本次實驗的基礎(chǔ)數(shù)據(jù)集.具體處理過程為:首先將5 000張分辨率為3 000×4 000 的圖像進(jìn)行人工篩選,剔除顏色過于單一、無關(guān)內(nèi)容太多的圖像;然后通過隨機剪裁分成分辨率為256×256 的圖像;再進(jìn)行一次人工篩選,最終構(gòu)成包含山水畫、人物畫像、壁畫、花鳥畫4 類共計80 000 張的大型文物圖像數(shù)據(jù)集.此外,為了降低數(shù)據(jù)集原始樣本的影響,本文在訓(xùn)練樣本中隨機抽取8 000 張圖像進(jìn)行數(shù)據(jù)增廣,詳細(xì)的數(shù)據(jù)集劃分與增廣操作如表1 所示.

Table 1 Statistics for Using Datasets表1 使用數(shù)據(jù)集的統(tǒng)計信息
在圖像修復(fù)領(lǐng)域,目前最常用的評估指標(biāo)有峰值信噪比和結(jié)構(gòu)相似性(structural similarity index measure,SSIM).近年來,為更深層次地評價修復(fù)圖像的質(zhì)量,常使用學(xué)習(xí)感知圖像塊相似性[39](learned perceptual image patch similarity, LPIPS)來作為評估指標(biāo).
本文實驗的硬件環(huán)境為Intel?Xeon?Platinum 8255C 和2 塊Tesla V100.實驗平臺的軟件環(huán)境為Pytorch 1.8.0,CUDA 11.1.1.訓(xùn)練過程中采用Adam 優(yōu)化器對參數(shù)進(jìn)行優(yōu)化,學(xué)習(xí)率為1×10-4,1 階動量為0.5,2 階動量為0.1.
本節(jié)在符合現(xiàn)實場景破損和大面積破損2 種情況下,與基于塊匹配的傳統(tǒng)方法代表PM[6]、結(jié)合先驗信息的深度學(xué)習(xí)方法代表Shift-Net[26]、雙階段修復(fù)模型CRF[21]和EC[23]、使用不同類型卷積的單階段深度學(xué)習(xí)方法代表PC[20]、基于Transformer 和CNN 的雙階段修復(fù)方法代表ICT[33]和EC[33]進(jìn)行對比,以驗證本文方法的有效性.
3.4.1 符合現(xiàn)實場景破損的修復(fù)實驗
本節(jié)將對比各種方法在符合現(xiàn)實場景的皸裂山水畫的修復(fù)效果.結(jié)合現(xiàn)實中文物破損面積小、破損不規(guī)則、破損區(qū)域連續(xù)等特點,本文專門設(shè)計了大小在10%~15%且破損區(qū)域連續(xù)、大小依次遞增的5 張掩膜,表示為Ms-1~5.本節(jié)實驗均采用這5 張?zhí)囟ǖ难谀?同時,由于山水畫更加強調(diào)結(jié)構(gòu)的連貫性與紋理的細(xì)膩性,修復(fù)難度更高,因此實驗在本節(jié)與3.4.2節(jié)均在山水畫中進(jìn)行對比.
圖5 展示了各方法的修復(fù)結(jié)果.由圖5(c)可見,PM 整體表現(xiàn)優(yōu)異,但修復(fù)區(qū)域缺乏上下文的語義信息.在已知區(qū)域無法提供足夠多的先驗信息時尤為明顯.由圖5(d)(e)所示,PC 和Shift-Net 的修復(fù)結(jié)果在連貫結(jié)構(gòu)的恢復(fù)上并不合理,存在重復(fù)的紋理和偽影.由圖5(f)(g)所示,EC,CRF 的修復(fù)結(jié)果較為優(yōu)秀,但在某些特定掩膜下會出現(xiàn)嚴(yán)重的偽影.相對這些方法,本文的2 階段修復(fù)模型的圖像處理效果均比較理想,階段性的修復(fù)過程更加適用于文物圖像修復(fù)任務(wù).圖5(h)的ICT 與本文方法的修復(fù)質(zhì)量相對較高,由此可見,基于Transformer 的修復(fù)方法可以給模型提供更好的先驗信息.但I(xiàn)CT 未將上采樣和修復(fù)過程結(jié)合,導(dǎo)致其在上采樣過程中丟失的關(guān)鍵像素?zé)o法被修復(fù),部分區(qū)域仍存在顏色失調(diào)的現(xiàn)象.而本文方法先使用Transformer 進(jìn)行結(jié)構(gòu)先驗,再結(jié)合圖像超分辨的思想,把上采樣和修復(fù)的過程結(jié)合起來,增強了網(wǎng)絡(luò)上采樣的能力,使網(wǎng)絡(luò)在上采樣的過程中能保留更多的關(guān)鍵信息.同時在聯(lián)合損失函數(shù)的約束下,文物圖像修復(fù)的質(zhì)量得到極大提升,修復(fù)結(jié)果語義連貫、偽影和重復(fù)的紋理較少,取得了較好的指標(biāo)和視覺效果.

圖5 不同算法對現(xiàn)實破損場景的修復(fù)結(jié)果對比Fig.5 Comparison of repair results of different algorithms for realistic damaged scenes
各種方法的修復(fù)指標(biāo)如表2 所示,本文方法在PSNR,SSIM 上表現(xiàn)均為最優(yōu).相較于PM,PC,Shift-Net,EC,CRF,ICT 這6 種方法,SSIM 指標(biāo)分別提升了13.2 個百分點、11.7 個百分點、11.9 個百分點、1.3個百分點、2.7 個百分點、0.8 個百分點;PSNR 指標(biāo)分別提升了14.4 個百分點、14.5 個百分點、22.3 個百分點、9.7 個百分點、6.0 個百分點、11.5 個百分點.隨著掩膜逐漸增大,PSNR,SSIM 這2 項指標(biāo)均有所下降,但本文方法相較于其他方法下降趨勢更加平穩(wěn).

Table 2 Results of Our Method and Other Methods for Repairing Real-Life Damaged Scenes表2 本文方法與其他方法針對現(xiàn)實破損場景修復(fù)的結(jié)果
3.4.2 針對大面積破損的修復(fù)實驗
3.4.1 節(jié)實驗中使用的是特定的掩膜.為進(jìn)一步驗證本文方法對大面積破損文物修復(fù)的有效性,本節(jié)使用3 張20%~25%的隨機掩膜進(jìn)行測試,表示為ML-1~3.
各種方法的修復(fù)結(jié)果如表3 所示.可以看出,PM,PC,Shift-Net 這三者的指標(biāo)相較于3.4.1 節(jié)實驗中的值出現(xiàn)了比較明顯的下降,而基于Transformer 的2種修復(fù)方法在面對大小不同的掩膜時,指標(biāo)下降的趨勢相對平穩(wěn),由此可以驗證基于Transformer 的模型的泛化性、魯棒性更好.本文方法相較于PM,PC,Shift-Net,EC,CRF,ICT 這6 種方法,SSIM 指標(biāo)分別提升了27.8 個百分點、30.9 個百分點、30.9 個百分點、3.2 個百分點、2.0 個百分點、1.0 個百分點;PSNR 指標(biāo)分別提升了21.1 個百分點、20.7 個百分點、32.6 個百分點、17.8 個百分點、15 個百分點、11.6 個百分點.由表4 左側(cè)可以看出,在破損區(qū)域較為集中時,得益于Transformer 模型提供的先驗信息和上采樣修復(fù)模型的約束,本文方法可以很好地恢復(fù)文物圖像的底色和山的輪廓,局部紋理也清晰可見,偽影較少.由表4 右側(cè)中可以看出,在破損區(qū)域較為隨機時,本文方法恢復(fù)的結(jié)構(gòu)很好地把握了全局的信息,局部紋理也非常逼真.

Table 3 Results of Our Method and Other Methods for Repairing Large Areas of Damage表3 本文方法與其他方法針對大面積破損修復(fù)的結(jié)果
表3 和表4 表明本文方法對大面積破損文物的結(jié)構(gòu)恢復(fù)能力突出,紋理、顏色的恢復(fù)也較為合理,具有很好的修復(fù)效果.
在實驗過程中發(fā)現(xiàn),少部分指標(biāo)較高的圖片卻存在修復(fù)區(qū)域模糊的現(xiàn)象,而符合人類視覺感知的修復(fù)結(jié)果其指標(biāo)反而更低,如圖6 所示.

圖6 異常指標(biāo)對比圖Fig.6 Comparison chart of abnormal indicators
本文認(rèn)為利用單一損失函數(shù)約束的回歸模型在PSNR,SSIM 兩個指標(biāo)上能得到提升,但其修復(fù)結(jié)果并不是人類視覺感知上最好的結(jié)果.并且損失函數(shù)的部分約束計算和PSNR,SSIM 這2 個指標(biāo)計算類似,因此會影響網(wǎng)絡(luò)的訓(xùn)練環(huán)節(jié),導(dǎo)致部分文物圖像修復(fù)結(jié)果出現(xiàn)輕微模糊、但其圖像指標(biāo)頗高的現(xiàn)象.為進(jìn)一步驗證本文方法的有效性,本文引入更深層次衡量修復(fù)圖像質(zhì)量的指標(biāo)LPIPS[39].初步實驗結(jié)果證明,LPIPS 指標(biāo)更符合人類的視覺感知,其值越低表示2 張圖像越相似,結(jié)果如圖7 所示.本文方法相較于基于深度學(xué)習(xí)的Shift-Net,PC,EC,CRF,ICT 這5 種方法,LPIPS 指標(biāo)分別下降了41.1 個百分點、70.7 個百分點、27.1 個百分點、1.8 個百分點、17.2 個百分點.

圖7 不同掩膜的LPIPS 值對比Fig.7 Comparison of LPIPS values of different masks
綜上所述,本文方法在PSNR,SSIM,LPIPS 這3種指標(biāo)上表現(xiàn)均優(yōu)于其他具有代表性的方法.
3.4.3 數(shù)據(jù)庫中其他類型圖片的修復(fù)實驗
本節(jié)將驗證本文方法在人物畫像、壁畫、花鳥畫中的修復(fù)效果.人物畫像、壁畫、花鳥畫繪畫技法都以線為主勾勒表現(xiàn)繪畫對象,對整體結(jié)構(gòu)的連貫性要求比較小,顏色的層次更少,紋理相較于山水畫更簡單.因此本節(jié)實驗中分別使用數(shù)據(jù)集中的人物畫像、壁畫、花鳥畫進(jìn)行訓(xùn)練,實驗細(xì)節(jié)與3.4.1 節(jié)、3.4.2 節(jié)完全一致.表5 中,對于花卉修復(fù)結(jié)果,無論掩膜區(qū)域相對集中還是隨機,本文方法都能恢復(fù)出連貫的結(jié)構(gòu)和合理的顏色;人物畫像修復(fù)結(jié)果主要結(jié)構(gòu)相對集中,在主體結(jié)構(gòu)缺失的情況下,本文方法恢復(fù)的結(jié)果語義相對連貫,輪廓、細(xì)節(jié)都能得到很好的恢復(fù);壁畫的結(jié)構(gòu)相對簡單,顏色相對單一,本文方法恢復(fù)的結(jié)果偽跡較少,具有良好的視覺效果;但由于根據(jù)類別劃分的數(shù)據(jù)集樣本較少,以及Transformer 多元化輸出的特點,本文方法在修復(fù)大面積破損圖像時會出現(xiàn)輕微失真的情況.對于此現(xiàn)象帶來的優(yōu)缺點,本文將在3.6 節(jié)中對多元化修復(fù)作進(jìn)一步闡述.
以上結(jié)果表明在對不同類別文物圖像的修復(fù)中,本文方法在主觀和客觀指標(biāo)上都具有較好的修復(fù)效果.
由于目前大多數(shù)基于深度學(xué)習(xí)的圖像修復(fù)方法針對的都是常規(guī)圖像,因此本文也驗證了所提方法對自然圖像的修復(fù)效果.由表6 可見,針對缺失面積較大的圖像,本文方法恢復(fù)的圖像結(jié)構(gòu)連貫,與原圖相對一致,輪廓清晰,局部紋理逼真.針對缺失面積較小的圖像,本文方法恢復(fù)的圖像結(jié)構(gòu)連貫且符合上下文語義信息.

Table 6 Conventional Image Restoration Renderings表6 常規(guī)圖像修復(fù)效果圖
文物修復(fù)往往需要將修復(fù)人員的主觀認(rèn)知和原始參照物結(jié)合起來.但在實際的文物修復(fù)任務(wù)中,存在無對照樣本的情況,導(dǎo)致修復(fù)結(jié)果無法驗證合理性.針對此問題,本文方法通過多頭注意力機制實現(xiàn)多樣化輸出.多元化的修復(fù)結(jié)果如表7、表8 所示.值得注意的是,本文方法雖然在進(jìn)行大面積修復(fù)時偶爾會出現(xiàn)輕微失真、模糊的情況,但可以為專家提供多種修復(fù)參考,為后序修復(fù)提供決策依據(jù),在降低文物修復(fù)的主觀性、隨機性的同時加強修復(fù)的準(zhǔn)確性,極大地提升了文物修復(fù)效率.
本節(jié)通過討論2 階段網(wǎng)絡(luò)的修復(fù)結(jié)果,分析論證各階段子網(wǎng)在文物修復(fù)任務(wù)中的不同作用.在實際修復(fù)任務(wù)中,文物圖像常常會因老化而產(chǎn)生破洞、裂痕等問題,使圖像整體結(jié)構(gòu)受到破壞,如圖8 所示.第1 階段利用Transformer 對破損文物圖像進(jìn)行整體結(jié)構(gòu)先驗信息修復(fù)的結(jié)果如圖8(b)所示;第2 階段利用多重殘差卷積網(wǎng)絡(luò)對第1 階段輸出圖像進(jìn)行紋理修復(fù)的結(jié)果如圖8(d)所示.

圖8 各階段文物修復(fù)效果Fig.8 Effect of the various stages of cultural relics restoration
本文方法從文物圖像的特性出發(fā),在修復(fù)過程中充分考慮了圖像的整體結(jié)構(gòu)與局部紋理.如果在文物圖像修復(fù)任務(wù)中僅僅使用第1 階段的子網(wǎng)絡(luò),雖然可以生成連貫且符合語義的整體結(jié)構(gòu),但為減少計算量的降維操作往往會導(dǎo)致修復(fù)結(jié)果較為模糊、缺乏相應(yīng)的細(xì)節(jié)語義信息,如圖8(b)所示;如果在文物圖像修復(fù)任務(wù)中僅僅使用第2 階段的子網(wǎng)絡(luò),雖然可以生成有效的局部紋理,但修復(fù)的圖像會缺乏正確的上下文語義信息,如圖8(d)所示.
綜合上述對階段性子網(wǎng)絡(luò)的分析表明,本文方法只有在2 階段網(wǎng)絡(luò)共同作用下才能實現(xiàn)最優(yōu)修復(fù)效果.
在文物圖像補全領(lǐng)域,長期存在著既要實現(xiàn)足夠的多樣性又要求修復(fù)效果逼真的困境.本文針對文物圖像修復(fù)任務(wù)提出了一種基于Transformer 的修復(fù)方法,該方法將Transformer 和CNN 的優(yōu)點結(jié)合;利用Transformer 的全局結(jié)構(gòu)理解能力和多元化輸出以及CNN 較強的局部感知能力,本文方法實現(xiàn)了對文物圖像的高質(zhì)量修復(fù).同時,本文提出了一個新的高質(zhì)量文物數(shù)據(jù)庫,解決了國內(nèi)外缺乏相關(guān)數(shù)據(jù)庫的問題.大量實驗表明,本文方法在主客觀效果上均優(yōu)于現(xiàn)有方法,并實現(xiàn)了多元化輸出,提升了文物修復(fù)效率.本文方法仍有需要深入研究與改進(jìn)的方面,如圖8 的修復(fù)結(jié)果在原始缺損區(qū)域附近產(chǎn)生模糊等問題.此外,本文設(shè)計的2 階段網(wǎng)絡(luò)能夠生成多元化的結(jié)果,最大程度地為文物修復(fù)提供指導(dǎo)與參考,但在修復(fù)大面積破損圖像時也會產(chǎn)生與原始圖像不一致的結(jié)果.最后,由于評估指標(biāo)的缺陷,實驗中會出現(xiàn)高指標(biāo)、低主觀感知質(zhì)量和低指標(biāo)、高主觀感知質(zhì)量的修復(fù)結(jié)果,對網(wǎng)絡(luò)訓(xùn)練的非線性回歸產(chǎn)生影響.后續(xù)工作考慮在第2 階段子網(wǎng)絡(luò)設(shè)計方面對圖像進(jìn)行多尺度特征融合與去噪[25];探索更能反映文物圖像修復(fù)質(zhì)量的評價指標(biāo),加強對網(wǎng)絡(luò)的約束并提升文物圖像修復(fù)質(zhì)量.也可借助門控卷積[40]網(wǎng)絡(luò)的設(shè)計思想對第2 階段進(jìn)行改進(jìn),使其更能適應(yīng)缺損面積較大的文物圖像修復(fù)任務(wù).還可以進(jìn)一步提高文物圖像數(shù)據(jù)集的數(shù)量與質(zhì)量,將各類文物圖像進(jìn)行更加細(xì)致地劃分,以適應(yīng)更加復(fù)雜的修復(fù)場景;更新專項訓(xùn)練策略,提高修復(fù)結(jié)果的分辨率和觀賞價值.
作者貢獻(xiàn)聲明:王真言負(fù)責(zé)部分實驗開發(fā)任務(wù)、數(shù)據(jù)整理分析并提供論文修改意見;蔣勝丞完成部分實驗開發(fā)任務(wù)、數(shù)據(jù)集的創(chuàng)建并撰寫論文;宋齊鴻提供論文修改意見;劉波、畢秀麗和肖斌提供實驗開發(fā)思路,給予工作支持和指導(dǎo)意見.