陳曉雷,楊 佳,梁其鐸
蘭州理工大學 電氣工程與信息工程學院,蘭州 730000
圖像修復指基于圖像背景信息對破損區域進行重建的技術。生成對抗網絡(generative adversarial networks,GAN)[1]利用生成模型與判別方法的相互博弈,并考慮全局信息,對樣本進行特征提取和圖像生成,具有生成目標時間短、速度快的特點,能有效地解決圖像修復問題。基于GAN的雙階段圖像修復網絡也是該方向的代表性方法,第一階段重建缺失結構,第二階段利用第一階段預測得到的結構信息指導紋理的生成。例如Nazeri 等人[2]提出的邊緣連接網絡(EdgeConnect),首先利用邊緣生成器生成缺失圖像的邊緣,再利用邊緣作為先驗來補全圖像的缺失區域。Xiong 等人[3]將模型分為兩部分,首先預測前景輪廓,然后根據預測到的前景輪廓進行區域修復。李海燕等人[4]在第一階段用一種基于可視化幾何組網絡模型的輕量型雙向級聯邊緣檢測網絡(bidirectional cascade network,BDCN)提取圖像邊緣,然后基于U-Net[5]架構來還原缺失邊緣。胡凱等人[6]采用邊緣結構生成器對輸入圖像的邊緣和色彩平滑信息進行特征學習,生成缺失區域的結構內容,以引導精細網絡重構高質量的語義圖像。
然而兩階段修復方法的性能在很大程度上依賴于第一階段的重建結構,導致邊緣或輪廓的不可靠性增加,不利于第二階段的圖像生成。針對這一缺陷,Li等人[7]提出了單階段視覺結構漸進重建(progressive reconstruction of visual structure,PRVS)網絡,在編碼器-解碼器中分別部署兩個視覺結構重建層,以生成不同尺度的結構信息,通過將結構信息逐步融合到特征中,基于GAN 輸出合理的結構。但是PRVS 傾向于生成棋盤狀紋理,修復結果紋理不真實。Song 等人[8]提出利用語義分割信息對圖像缺失區域進行補繪的分割預測和指導修復網絡(segmentation prediction and guidance network,SPG-Net),該算法首先提取并重建圖像分割圖,再利用圖像分割圖對圖像進行引導。由于分割圖中包含了有用的語義信息,SPG-Net相比那些沒有語義分割圖的方法能夠有效地提高嵌入性能。但是,不同語義的先驗分布不同,不同語義區域對缺失區域像素的貢獻也不同,因此以SPG-Net為代表的基于上下文的方法將不同語義統一進行映射往往會導致語義內容不真實。為了解決這一問題,本文引入多尺度語義先驗,首先利用編碼器和語義先驗網絡分別提取多尺度的底層圖像特征和學習高級語義先驗,得到全局上下文表示,然后將學習到的語義先驗空間注入到圖像特征中,從而利用語義先驗指導圖像缺失區域生成。除此之外,引入多尺度交叉熵損失來約束所有尺度上像素的預測類分布與目標類分布之間的距離,幫助圖像補全。
現有的圖像修復網絡很多都設計了復雜的網絡結構來提高圖像修復性能,如Liu 等人[9]設計了兩階段的U-Net 作為主干網絡并提出了一個連貫語義注意層來建立缺失部分特征之間的關聯模型以對圖像缺失部分進行預測;Liu等人[10]提出的DeFLOCNet通過一個深度編碼器-解碼器在空白區域上生成結構和紋理;Zhang 等人[11-12]提出了一種殘差通道注意力網絡和殘差非局部注意力網絡用于高質量的圖像恢復。本文在這些工作基礎上,為了能加深網絡并且使網絡更加關注于圖像缺失區域,提出利用殘差注意力和殘差塊構建雙重殘差,繼而構成深度注意力殘差組,不僅可以構造更深的網絡,還可以利用注意力對通道信息進行自適應提取。
圖像修復任務中經典的編碼器-解碼器結構在編碼壓縮過程中會丟失大量細節信息。為了獲取更多信息,Mao 等人[13]在一組對稱的編碼器-解碼器組中引入了密集的跳躍連接,以最大化語義提取。楊文霞等人[14]則提出基于密集連接塊的U-Net 結構的端到端圖像修復模型,以實現對任意模板的語義人臉圖像的修復。這些方法通過增加跳躍連接的方式將編碼器的每一層特征與解碼器的相應層特征連接起來,但是跳躍連接結構缺乏從全尺度探索足夠信息的能力。因此本文提出全尺度跳躍連接,該連接結合了來自全尺度特征的低級語義信息與高級語義信息,從而有效地將低層次特征圖與高層次特征圖結合起來對缺失圖像進行補全。
本文的主要貢獻如下:
(1)提出了語義先驗網絡,一種在多尺度上既能考慮局部紋理一致性又能考慮全局語義一致性的上下文圖像修復模型,通過語義先驗指導圖像特征,并利用交叉熵損失約束像素的預測類分布與目標類分布之間的距離,從而提升圖像恢復性能。
(2)提出深度注意力殘差組使網絡能自適應地學習較深網絡中不同通道中的特征,不僅具有跨通道的學習能力,而且能夠適應更深層的網絡結構。
(3)采用全尺度跳躍連接將不同尺度特征圖的低級細節與高級語義結合起來,從而提供多層次多尺度的語義信息。
本文提出的結合語義先驗和深度注意力殘差的圖像修復網絡總體結構如圖1所示,由生成器與判別器組成,其中生成器由編碼器(encoder)、語義先驗網絡(semantic priors network,SPN)、深度注意力殘差組(deep attention residual group,DARG)、解碼器(decoder)和全尺度跳躍連接(full-scale skip connection,FSSC)五個模塊組成。本文的圖像修復網絡工作流程如下:首先輸入缺失圖像,編碼器提取多尺度圖像特征,同時語義先驗網絡提取多尺度圖像語義先驗,多尺度圖像特征和多尺度語義先驗融合得到合成語義信息下的圖像特征;然后將得到的圖像特征送入深度注意力殘差組進一步增強缺失區域及各個通道的特征;接著將增強后的圖像特征送入解碼器進行圖像生成;最后將生成的圖像送入譜歸一化[15]馬爾科夫鑒別器[16]用于生成器對抗訓練,以確定輸入鑒別器的是真實樣本還是生成器生成的假樣本。

圖1 本文提出的圖像修復網絡Fig.1 Image inpainting network presented in this paper
本文重點研究了影響生成器總體性能的語義先驗網絡、深度注意力殘差組、全尺度跳躍連接和約束語義先驗網絡的多尺度交叉熵損失,這四個模塊的構成及工作原理詳述如下。
圖像修復任務的目標在于對缺失區域的補全,為了使網絡的修復結果更具有真實性并且充分地利用未缺失區域的信息內容,本文提出語義先驗網絡,該網絡可以在預先訓練的深層神經網絡的監督下,學習缺失區域視覺元素的完整語義先驗信息,更好地提取到圖像特征,并從圖像的未缺失區域中學習語義信息,利用學習到的語義信息對缺失區域進行補全。由于不同語義的先驗分布不同,不同語義區域對缺失區域像素的貢獻也不同,采用多尺度的語義先驗來獲得不同語義的先驗分布和不同語義區域對缺失區域像素的貢獻。首先,通過語義先驗網絡得到多尺度語義先驗,通過編碼器得到多尺度圖像特征;然后,將得到的多尺度語義先驗和多尺度圖像特征對應相同尺度下的語義先驗和圖像特征進行融合;最后,將各個尺度下融合到的特征進行相融后送入深度注意力殘差組進行圖像恢復。
編碼器的輸入為帶有缺失區域的圖像Im,其作用為學習圖像未缺失區域的圖像特征Fm。在語義先驗網絡階段,為了保留更多的局部結構,先對帶有缺失區域的圖像Im和缺失圖像相應的掩碼M進行上采樣得到Ime和Me,將Ime和Me通道合并后的圖像特征Fim作為語義先驗網絡的輸入,語義先驗網絡學習輸入特征Fim的語義先驗Fs。因此通過編碼器可以學習到多尺度圖像特征Fms、Fml,通過語義先驗網絡可以學習到多尺度語義先驗Fss、Fsl。具體計算方法如下:
在語義先驗網絡階段,為了保留更多的局部結構,先對帶有缺失區域的圖像Im和缺失圖像相應的掩碼M進行上采樣,將上采樣后圖像和掩碼的通道合并后的圖像特征Fim作為語義先驗網絡的輸入,語義先驗網絡學習輸入特征Fim的語義先驗Fs。
其中,Im∈R3×H×W,M∈R1×H×W,Ups代表上采樣,Concat代表通道合并,Ime∈R3×2H×2W,Me∈R1×2H×2W,Fim∈R4×2H×2W,E(?)代表網絡編碼階段,S(?)代表網絡語義先驗階段,則Fms,Fss∈R2c×H/4×W/4,Fml,Fsl∈Rc×H×W。統稱學習到的語義先驗為Fs,圖像特征為Fm。
理論上利用學習到的語義先驗Fs可以幫助圖像特征Fm進行圖像恢復,但是經過編碼階段得到的圖像特征Fm和經過語義先驗階段學習得到的語義先驗Fs關注到的是圖像內容的不同方面,直接對圖像特征Fm和語義先驗Fs進行特征融合會影響編碼器的學習過程并且干擾未缺失區域的局部紋理。空間自適應歸一化模塊(spatially-adaptive normalization,Spade)[17]可以根據輸入圖像和語義圖指導合成語義信息下的圖像,因此,本文采用空間自適應歸一化模塊Spade 根據學習到的語義先驗來指導圖像特征Fm合成語義信息下的圖像,對圖像缺失區域進行生成,從而幫助恢復全局和局部的內容。具體來說,Spade首先用非參數實例歸一化IN[18]對輸入圖像特征Fm進行歸一化,然后從語義先驗Fs中學習兩組不同的參數,對圖像特征Fm執行空間像素仿射變換,計算方法如下:
其中,Spade為空間自適應歸一化模塊,γ和β為從語義先驗Fs中學習到的兩組參數,IN代表實例歸一化。
將多尺度圖像特征Fms、Fml和多尺度語義先驗Fss、Fsl通過式(3)和式(4)融合后可得多尺度語義信息下的圖像特征
為了對多尺度語義先驗階段所有尺度上像素的預測類分布與目標類分布之間的距離進行約束,引入多尺度交叉熵損失,并通過各個損失項不同的加權得到網絡的總損失,具體細節見1.5節。
語義先驗網絡工作流程如下所示:
輸入:缺失圖像Im與掩碼M。
輸出:語義先驗與編碼器的融合特征Fm′。
對于圖像修復網絡來說,深層殘差網絡能更好地利用通道特征,靈活地處理缺失區域與未缺失區域的信息。注意力機制可以告訴模型需要更關注哪些內容和哪些位置,從而加強模型的性能,其中通道注意力可以通過考慮通道之間的相互依賴性來自適應地重新調整特征。協調注意力(coordinate attention)[19]作為一種新型通道注意力不僅能捕獲通道間的信息,還能捕獲方向感知和位置感知的信息,幫助模型更加精準地定位和識別感興趣的目標。因此本文引入深度注意力殘差組,使生成器網絡不僅能更加關注到圖像的缺失區域,而且能自適應地學習各個通道的特征,專注于更有用的通道特征并構建更深層的網絡。

圖2 深度注意力殘差組Fig.2 Deep attention residual group
其中,RB為殘差塊,HDCRB為膨脹卷積殘差塊,HCA為協調注意力塊,HCARB為注意力殘差塊,HConv為3×3卷積,HDARG為深度注意力殘差組。
實驗發現在深度注意力殘差組中引入太多的殘差塊會導致網絡訓練不穩定,因此本文在殘差塊相加前引入一個卷積來使網絡訓練更加穩定。
利用注意力殘差塊和深度注意力殘差組構成殘差中的殘差,能夠使網絡適應更深層的結構。深度注意力殘差組內部的長連接和注意力殘差塊內部的短連接都可以將豐富的信息通過恒等映射向后傳播,保證了網絡中信息的流動。
為了使網絡可以更好地利用網絡空間不同階段的圖像特征信息,減少編碼部分下采樣過程中所造成的部分信息丟失,并結合未缺失區域進一步提取缺失部分的信息,本文在編碼器-解碼器部分增加了全尺度跳躍連接,該連接結合了來自全尺度特征的低級語義信息與高級語義信息,從而將低層次特征圖(包含圖像的邊界)與高層次特征圖(包含圖像的紋理與細節)結合起來對圖像缺失區域進行修復。
全尺度指解碼器的每一層都融合了來自編碼器的較小和相同尺度的特征圖以及來自解碼器的較大尺度的特征圖。將編碼器各個尺度卷積后的圖像特征分別設為Fel、Fem和Fes,解碼器各個尺度的圖像特征分別設為Fdl、Fdm和Fds,則經過全尺度連接后解碼器各個尺度的圖像特征可利用以下公式計算得到。
引入全尺度跳躍連接后網絡能捕獲全尺度下的細粒度細節和粗粒度語義,從而能獲取更多的上下文信息對圖像的缺失區域進行修復。
損失函數包括用于圖像缺失區域修復和語義先驗的損失項。本文利用重建和對抗性損失來訓練整個網絡模型,利用多尺度交叉熵損失來約束語義先驗。輸入缺失圖像經過修復網絡模型修復后的圖像為Imer:
其中,Ipre為經過生成器得到的預測圖像,Igt為真實圖像,M為二值掩碼,⊙代表Hadamard乘積。Imer為將經過修復網絡的預測圖像與真實圖像相結合生成的圖像。
(1)重建損失。對于重建損失Limg,本文對重建圖像使用L1損失,以更關注缺失區域的內容:
其中,n、i、j均為256。
(2)對抗性損失。利用對抗性損失Ladv來訓練網絡以生成更可信的局部細節:
其中,D代表判別器。
(3)多尺度交叉熵損失。對于語義先驗,采用多尺度交叉熵損失來約束所有尺度上像素的預測類分布與目標類分布之間的距離,用來懲罰每個尺度上的像素每個位置的偏差:
其中,Lss(Ss,Sss)為在Sss,Ss∈R2c×H/4×W/4下經過上采樣得到的交叉熵損失,Lsl(Sl,Ssl)為在Ssl,Sl∈Rc×H/2×W/2下經過上采樣得到的交叉熵損失,Ups代表上采樣,i表示語義先驗圖Ss、Sl中的每個像素。
(4)總損失。語義先驗的總損失為交叉熵損失在多個尺度上的加權和:
其中,α1和α2均為0.5。
(5)網絡總損失。網絡的總損失被定義為上述多尺度重建損失、對抗性損失和多尺度交叉熵損失的加權和:
其中,λ1、λ2和λ3分別為重建損失、對抗性損失和多尺度交叉熵損失的權重,通過實驗確定λ1=1.0,λ2=0.1,λ3=0.1。
本文使用Pytorch 來實現所提出的網絡結構,對訓練集總數的1/2 采用水平翻轉來增強數據。使用10個epoch訓練網絡,batchsize等于2,并使用動量參數為0.9 和初始學習率為0.001 的Adam 優化器。本文實驗是在一臺裝載AMD R5 CPU 和RTX 3060 Laptop GPU的計算機上完成的。
本文采用CelebA-HQ 數據集與Paris Street View數據集來評估本文模型,數據集信息如下:
CelebA-HQ數據集[20]:CelebA-HQ總共包含30 000張圖像,每張圖像都包括了臉部特征點(landmark)、人臉屬性(attribute)等信息,每張圖像的分辨率都是1 024×1 024,本文使用27 000張用于網絡訓練,3 000張用于網絡測試。
Paris Street View數據集[21]:巴黎街景數據集包含了足夠的結構信息,比如窗戶、門和一些巴黎風格的建筑,圖像分辨率為936×537。巴黎街景數據集由15 000 張圖像組成,本文使用14 900 張進行網絡訓練,100張圖像進行測試。
對于來自CelebA-HQ 數據集和Paris Street View數據集的圖像,本文將其分辨率統一調整為256×256。掩碼部分采用的像素規格為中心區域為128×128 的白色掩碼和掩碼比率為10%~20%、20%~30%和30%~40%的白色隨機掩碼。
為了驗證本文算法的有效性,本文對Paris Street View 數據集采用中心掩碼,對CelebA-HQ 數據集采用中心掩碼和隨機掩碼,選用峰值信噪比(peak signal-to-noise ratio,PSNR)、結構相似性(structural similarity,SSIM)和L1 Loss作為評價指標進行定量比較。
PSNR是基于對應像素點間的誤差,即基于誤差敏感的圖像質量評價;SSIM 是一種全參考的圖像質量評價指標,它分別從亮度、對比度、結構三方面度量圖像相似性;L1 Loss 是為了確保像素級的重建精度,可以保留顏色和亮度。PSNR和SSIM值越高,表示網絡性能越好,L1 Loss值越低,則表示網絡性能越好。
本文方法對CelebA-HQ數據集與Paris Street View數據集在中心掩碼上對PSNR、SSIM 和L1 Loss 值進行了比較。對CelebA-HQ數據集在不同比例掩碼上對PSNR、SSIM 和L1 Loss 值進行了比較。本文將提出的方法與圖像修復領域先進的PRVS(progressive reconstruction of visual structure)、DSNet(dynamic selection network)[22]、RFR(recurrent feature reasoning)[23]和RN(region normalization)[24]算法進行了客觀指標比較與主觀修復結果比較,其中PRVS、DSNet 和RN均為基于GAN的修復方法,RFR為基于CNN的修復方法。不同修復方法在CelebA-HQ 和Paris Street View數據集的客觀指標實驗結果見表1和表2,不同方法在CelebA-HQ和Paris Street View數據集的主觀修復結果見圖3~圖5。

表1 不同數據集上中心掩碼修復結果對比Table 1 Comparison of center mask inpainting results on different datasets

表2 不同數據集上隨機掩碼修復結果對比Table 2 Comparison of random mask inpainting results on different datasets

圖3 CelebA-HQ數據集上中心掩碼修復結果Fig.3 Inpainting results of center mask on CelebA-HQ dataset
2.3.1 客觀實驗結果及對比分析
從表1結果可見,在CelebA-HQ數據集上,PRVS、DSNet、RFR 和RN 四種方法中PRVS 的PSNR 和SSIM 最高,L1 Loss 最低。本文方法相較于PRVS 在CelebA-HQ 數據集上PSNR 和SSIM 分別提高0.493和1.2%,L1 Loss 減少0.09%。在Paris Street View 數據集上,PRVS、DSNet、RFR 和RN 四種方法中RN 的PSNR 和SSIM 最高,L1 Loss 最低,本文方法相較于RN 在Paris Street View 數據集上PSNR 和SSIM 分別提高0.545和0.8%,L1 Loss減少0.1%。
表2 中10%~20%、20%~30%、30%~40%分別代表隨機掩碼比率。如表2 所示,在掩碼比率為10%~20%時,不同方法的實驗結果相差較大,隨著掩碼比率的增大,不同方法的實驗結果差距逐漸縮小。在隨機掩碼修復實驗中PRVS、DSNet、RFR 和RN 四種方法中RN 的PSNR 和SSIM 最高,L1 Loss 最低。本文方法相較于RN 在CelebA-HQ 數據集上在隨機掩碼為10%~20%時PSNR 和SSIM 分別提高0.889 和0.8%,L1 Loss 減少0.07%;在隨機掩碼為20%~30%時PSNR 和SSIM 分別提高0.742 和1.0%,L1 Loss 減少0.1%;在隨機掩碼為30%~40%時PSNR和SSIM分別提高0.797和1.6%,L1 Loss減少0.18%。
2.3.2 主觀實驗結果及對比分析
不同方法的修復結果在CelebA-HQ 數據集上采用中心掩碼的主觀視覺比較如圖3所示。其中(a)gt為真實圖像,(b)input 為缺失圖像,(c)PRVS、(d)DSNet、(e)RFR 和(f)RN 分別代表不同方法的修復結果,(g)Ours 為本文方法的修復結果。可以看到PRVS、RFR 及RN 的修復結果都有不同程度上的模糊,本文方法相比這些方法更加清晰。DSNet與本文方法的修復結果視覺差異較小,將在圖6進行局部放大后再進行深入對比和分析。
不同方法的修復結果在Paris Street View數據集上采用中心掩碼的主觀視覺比較如圖4 所示。可以看出,本文算法的修復結果在被遮擋的窗戶部分相比其他算法可以明顯看到窗戶的輪廓,其他方法的修復結果窗戶的輪廓相對不清晰。

圖4 Paris Street View數據集上中心掩碼修復結果Fig.4 Inpainting results of center mask on Paris Street View dataset
不同方法的修復結果在CelebA-HQ 數據集上采用隨機掩碼的主觀視覺比較如圖5所示,從上到下的三行掩碼比率分別為10%~20%、20%~30%和30%~40%。在掩碼比率為10%~20%時,所有方法都可以對缺失區域進行較好的補全。在掩碼比率為20%~30%時,其他方法對人物臉部的右下方區域的補全都有若干的缺失與模糊,本文方法能對人物臉部的右下方區域進行較完整的補全。在掩碼比率為30%~40%時,PRVS、RFR和RN能明顯地看到未補全區域,本文方法與DSNet修復結果相比無明顯的差異。
2.3.3 主觀實驗結果局部對比分析
從圖3~圖5 主觀實驗結果及對比分析中可以看到,本文方法相比PRVS、RFR及RN的主觀修復結果有較明顯的改善與提升,但是與DSNet的修復結果視覺差異較小,因此本文將DSNet與本文方法的實驗結果進行了局部放大對比,如圖6所示。
圖6中(a)gt、(b)gt(local)、(c)DSNet(local)和(d)Ours(local)分別為整體真實圖像、局部真實圖像、局部真實圖像的DSNet 修改結果和本文方法修復結果。其中綠色框部分表示真實圖像的缺失部分,藍色框表示真實圖像與DSNet 和本文方法修復結果的差異部分。第一行實驗結果,本文方法的修復結果整體上比較模糊,DSNet 整體上比較清晰,但是和原始圖像相比,本文方法在關鍵細節的修復上更加接近原圖,比如對人物鼻梁、鼻孔和右側咬肌的修復。第二行實驗結果,DSNet修復結果整體上依然比本文方法清晰,但是DSNet 出現了原圖沒有的線條和紋理,且沒有修復出字母A。第三行實驗結果,兩種方法的修復結果主觀視覺無明顯差異。第四行實驗結果,人物右側臉頰上的紋理,本文修復結果好于DSNet,其余區域兩種方法的修復結果主觀視覺無明顯差異。第五行實驗結果,兩種方法的修復結果主觀視覺無明顯差異。總體而言,本文方法修復結果好于DSNet修復結果。
2.4.1 訓練過程損失曲線
訓練過程中G_L1_Loss 和G_Loss 曲線如圖7 與圖8 所示。其中Paris-center、CelebA-HQ-30~40、CelebA-HQ-20~30、CelebA-HQ-10~20和CelebA-HQcenter 分別代表Paris Street View 數據集使用中心掩碼訓練網絡、CelebA-HQ數據集使用30%~40%、20%~30%、10%~20%的隨機掩碼比率和中心掩碼訓練網絡。本文對網絡訓練了10 個epoch,取每個epoch 的平均損失作為當前epoch 的損失值,由圖7 和圖8 可以看到,隨著網絡訓練的epoch 數增加,網絡的G_L1_Loss和G_Loss逐漸降低并趨于收斂。

圖7 訓練過程G_L1_Loss曲線Fig.7 G_L1_Loss curve in training process

圖8 訓練過程G_Loss曲線Fig.8 G_Loss curve in training process
2.4.2 相關技術指標迭代曲線
本文采用CelebA-HQ 數據集中的3 000 張圖像對每個epoch 保存的模型進行驗證從而得到每個epoch的PSNR、SSIM和L1 Loss迭代曲線,如圖9~圖11所示。可見隨著epoch數量的增加,PSNR和SSIM逐漸增加并趨于收斂,L1 Loss逐漸降低并趨于收斂。

圖9 PSNR迭代曲線Fig.9 PSNR iteration curve

圖11 L1 Loss迭代曲線Fig.11 L1 Loss iteration curve
2.5.1 各個模塊的消融實驗
本文在CelebA-HQ和Paris Street View數據集上使用中心掩碼進行消融實驗,以編碼器-解碼器組成的生成器為基礎網絡(Baseline),分別在基礎網絡上添加不同的模塊來驗證各個模塊的有效性,√表示使用該模塊,×表示不使用該模塊。實驗結果如表3所示,實驗結果增幅如表4 所示,其中SPN 代表語義先驗,Muloss 代表多尺度交叉熵損失,DARG 代表深度注意力殘差組,FSSC代表全尺度跳躍連接。

表3 兩個數據集上各個模塊的實驗結果Table 3 Experimental results of each module on two datasets

表4 兩個數據集上各個模塊的實驗結果增幅Table 4 Increase of experimental results of each module on two datasets
從表4可以看到,在基礎網絡中加入每個模塊后PSNR和SSIM都有所增加,L1 loss都有所減少,證明了在基礎網絡上增加各個每個模塊對網絡都有所提升,證明了每個模塊的有效性。
2.5.2 語義先驗與編碼器多尺度融合消融實驗
為了驗證語義先驗與編碼器多尺度融合的有效性,在CelebA-HQ 數據集上采用中心掩碼進行消融實驗。在編碼器-解碼器組成的生成器中加入深度注意力殘差組(DARG)和全尺度跳躍連接(FSSC)作為基礎網絡,對語義先驗與編碼器融合后的兩個尺度圖像特征分為三種情況進行消融實驗,分別為和表示將兩個不同尺度的圖像特征融合到同一尺度。實驗結果如表5所示。

表5 語義先驗與編碼器多尺度融合的實驗結果Table 5 Experimental results of multi-scale fusion of semantic priors and encoder
從表5的實驗結果可以看到,在基礎網絡上加入語義先驗與編碼器融合后的圖像特征后網絡的PSNR減少0.014,SSIM增加0.003,L1 Loss沒有改變;加入語義先驗與編碼器融合后的圖像特征后網絡的PSNR 減少0.064,SSIM 沒有改變,L1 Loss 增加0.000 3;在基礎網絡上加入語義先驗與編碼器多尺度融合后的圖像特征后PSNR 和SSIM 分別增加0.052 和0.003,L1 Loss 降低0.000 1。證明了語義先驗與編碼器多尺度融合對圖像修復網絡更有效,對圖像修復后的結果更好。
2.5.3 全尺度跳躍連接與跳躍連接的消融實驗
為了驗證全尺度跳躍連接的有效性,在CelebAHQ數據集上采用中心掩碼對全尺度跳躍連接(FSSC)與跳躍連接(SC)進行消融實驗,跳躍連接是指直接將編碼器-解碼器的相應尺度進行連接。以編碼器-解碼器組成的生成器為基礎網絡,在基礎網絡上分別添加全尺度跳躍連接與跳躍連接進行消融實驗;并在基礎網絡上加入由語義先驗、多尺度交叉熵損失和深度注意力殘差組組成的DSM分別與全尺度跳躍連接和跳躍連接進行消融實驗,實驗結果如表6所示。

表6 全尺度跳躍連接與跳躍連接的實驗結果Table 6 Experimental results of full-scale skip connection and skip connection
從表6的實驗結果可以看到,在基礎網絡上加入全尺度跳躍連接后PSNR 和SSIM 分別增加0.134 和0.003,L1 Loss 減少0.000 3;在基礎網絡上加入跳躍連接后相比基礎網絡PSNR 反而減少0.053,SSIM 沒有改變,L1 Loss 反而增加了0.000 1;基礎網絡上加入語義先驗、多尺度交叉熵損失、深度注意力殘差組和跳躍連接后PSNR 和SSIM 分別增加0.404 和0.008,L1 Loss 降低0.000 7;基礎網絡上加入語義先驗、多尺度交叉熵損失、深度注意力殘差組和全尺度跳躍連接的PSNR 和SSIM 分別增加0.471 和0.009,L1 Loss 降低0.001。由實驗結果可知全尺度跳躍連接比跳躍連接的PSNR 和SSIM 更高,L1 Loss 更低,證明了加入全尺度跳躍連接比跳躍連接對圖像修復網絡更有效。
本文提出了結合語義先驗和深度注意力殘差組的圖像修復網絡。通過語義先驗網絡學習缺失區域視覺元素的完整語義先驗信息,更好提取圖像特征,并從圖像的未缺失區域中學習語義信息;深度注意力殘差組使網絡專注于更有用的通道特征并構建更深層的網絡;全尺度跳躍連接可以更好利用網絡空間不同階段的圖像特征信息,從而對缺失區域補全。實驗表明,該網絡模型在主觀和客觀上的實驗結果都優于目前代表性先進方法的修復結果,得到的修復圖像更具真實性,并且與真實圖像更加相似。后續工作將進一步優化圖像修復網絡模型,使網絡模型更加輕量化,重建速度更快。