李維 LI Wei
(西南交通大學,成都 611730)
數字圖像修復是指利用數字圖像已知區域修補未知區域的技術,是計算機視覺領域中極具挑戰性的研究課題。隨著社會數字化發展,圖像修復技術在生活、娛樂、安防和醫療等領域都具有廣泛的應用價值[1]。
圖像修復技術早期使用基于物理和數學的傳統方法。該類方法基于圖像信息冗余性理論,利用前后幀的領域信息來填充未知的待修復區域。
傳統修復方法在紋理簡單、語義性單一的修復任務中表現優秀,但對于諸如人臉、動物、建筑等破損圖像結構復雜的修復任務則表現不佳,因為無法從數學或者圖形學的方法重建圖像的語義。基于深度學習的圖像修復具備較好的學習能力,能夠學習其他圖像的先驗知識,通過訓練模型,生成原圖中沒有的形狀和紋理。
最初基于深度學習的圖像修復網絡采用自編碼方式,用已知區域像素信息重新編碼再解碼生成缺失內容。PATHAK等人[2]提出了結合GAN(Generative Adversarial Network,生成式對抗網絡)的思想,通過生成器和判別器對抗來提高修復質量。IIZUKA等人[3]使用了局部和全局的雙判別器WGAN,增加了GAN修復模型訓練的穩定性。Yu J等[6]結合了注意力機制的思想,在自編碼的雙階段網絡中加入了內容注意力機制CA(Contextual Attention)的模塊。基于內容注意力機制的修復模型能從背景區域選擇更相似的補丁塊來填充缺失區域,從而提高生成圖像的語義完整性,但對于結果容易出現模糊、偽影、暗沉等問題。
在后續的研究中,Yu J等[4]認為自編碼網絡中,一般卷積會使提取的特征包含破損區域的無效像素;而局部卷積雖能夠提取有效特征,但由于缺乏對掩碼的處理手段,在深度神經網絡層會出現丟失掩碼信息的問題。Yu認為促使生成圖像具有暗沉、偽影等問題來自于此,為此,該研究提出了一種門控卷積模塊。門控卷積在普通卷積的基礎上增加了一倍的權重用于學習掩碼信息,同時對掩碼加上軟門控的Sigmoid函數,通過卷積保留掩碼信息,從而屏蔽無效像素對特征的影響。Zeng等[7]加入了特征金字塔的結構,旨在從不同特征尺度下處理圖像的特征信息,使生成圖像在細節表達更清晰,從而減少模糊、偽影。但這些方法僅在圖像特征的利用效率上優化模型,使得模型的參數增多,增加了網絡結構的復雜度,加大了模型的計算量。
本文提出了一種基于雙邊濾波的特征融合的思想,對Yu等人的CA模型中注意力分數的計算方式進行改進,從而使圖像在特征利用上能夠同時獲取最大注意力分數的背景塊以及其周圍塊的建議,使生成的圖像在局部和全局有更強的一致性,從生成的角度解決模糊、偽影問題。
Yu J等人[5]提出了一種基于內容注意力機制的方法來生成圖像缺失部分。作者采用基于自編碼的雙階段網絡結構,在第二階段網絡部分加入了基于上下文注意力機制的感知模塊,該模塊使用圖像的背景區域的特征分塊作為卷積核,對缺失部分進行轉置卷積生成缺失圖像,沿著通道方向利用余弦相似性計算每個特征塊和前景區域的相關性分數,以此作為注意力分數進行反卷積生成精修圖像。該論文中作者使用注意力感知模塊有效地利用了背景區域的相似特征來逐像素修補缺失區域,使用基于局部和全局的WGAN[8](Wasserstein GAN)判別器進行訓練,使得生成前景具有局部和全局的語義一致性。但使用余弦相似性作為修補區域每個像素點的相關性分數導致生成的前景特征像素之間缺乏相關性,使得修復區域的圖像在結構特征上缺乏全局一致性,在生成圖像上缺乏正確的語義表達。
Liu H等[6]在U-Net結構[11]的網絡提出了基于結構約束的特征均衡修復網絡。作者認為以往的論文對于修復任務沒有很好地融合圖像結構特征和紋理特征來生成缺失部分,導致生成圖像在局部的語義表達上不完整,直觀表現在生成圖像的結構、紋理模糊。因此,作者提出了在編碼解碼的過程中,對圖像特征加入紋理和結構特征來提高修復圖像的質量。在紋理特征中,該模型使用了SE-Block的通道方向的注意力模塊來均衡紋理特征;而在結構特征的均衡上,作者提出了類似雙邊濾波函數,該函數使用值域(range)和空間域(spatial)兩個分支對結構特征做均衡。其中值域分支融合前景區域每個特征點和周圍3x3區域的像素信息;空間域分支則是使用高斯分布加權融合全局的特征點來生成前景的特征點。這種均衡方法有效地融合了前景像素和相鄰像素之間的特征信息,有利于生成圖像的結構表達。
受雙邊濾波函數的啟發,本文注意到,CA模塊契合了特征均衡中對紋理特征的均衡思路,而在CA模型中,沒有很好地解決對結構特征的均衡,簡單地逐像素點的選取相似度較大的背景塊將破壞前景區域的特征結構,因此,本文在CA模塊中加入了對前景和背景特征的融合邊。通過在內容注意力模塊中加入基于高斯分布函數的全局特征像素融合的方法來增強修復圖像與全局圖像的語義一致性,從而提高修復結果的直觀效果。
1.3.1 修復模型結構
本文章選用Yu等人的CA模型作為模型框架。模型分兩個修復階段。模型的一階段網絡基于自編碼網絡的結構,對破損圖像進行編碼、解碼生成一張模糊的粗略修復結果。該階段的網絡由6塊卷積層(K5S1C32*1,K3S1C64*2,K3S2C128),4塊空洞卷積模塊(K3D8S1C128*4)以及5塊轉置卷積層(K3S1C128*2,K3S1C64,K3S1C16,K3S1C3)構成。
模型的二階段為基于改進CA模塊的精修網絡。該階段將前一階段生成的模糊圖像和掩碼信息分別通過兩個分支:分支1將通過6塊卷積塊(K5S1C32,K2S2C64,K3S1C64,K3S2C128),改進的內容注意力模塊以及2塊轉置卷積塊(K3D8S1C128*4);分支2將通過5塊卷積塊和4塊空洞卷積塊。最后將兩個分支生成的特征圖進行拼接進行轉置卷積生成最后的輸出圖像。分支一的作用是使用注意力方法均衡背景特征生成可靠的前景建議,而分支二則是對粗修結果進行進一步編碼來融合背景和模糊前景的特征。
1.3.2 基于高斯分布特征融合的改進注意力分數
本論文的內容注意力模塊使用改進的注意力分數。其計算公式加入了以每個像素點自身出發通過二維高斯分布函數獲得的所有背景塊的建議分數Px,y,x′,y′。如公式(1)所示,其中bx′,y′為圖像特征的背景區域的特征塊,j為特征塊中的特征像素點,xj和yj分別代表該像素點的坐標,公式(1)使用二維高斯分布函數算出特征塊bx′,y′中各個點對于前景特征點的權值后取平均值作為特征塊bx′,y′對于前景fx,y的補正注意力分數。補正后的注意力分數為公式(2)所示,其中Sx,y,x′,y′為前景fx,y與bx′,y′背景的余弦相似分數,如公式(3)所示。

1.3.3 基于特征融合的內容注意力模塊
本論文在內容注意力模塊中加入改進補正的標準化內積計算前景區域每個像素點的注意力分數。改進的內容注意力模塊首先提取待修復區域并作為前景區域,將背景區域劃分成等大小的背景塊(Patch),使用公式(1)計算每個背景塊與前景區域中每個像素點的平均高斯分數,并將該分數作為當前像素點位置的特征融合分數。同時,使用背景塊和前景區域進行卷積,得到包含所有背景塊在每個前景像素點位置的原注意力分數的特征圖。最后,如公式(2)所示,根據像素點位置將原注意力分數特征圖與特征融合分數相乘,得到補正的注意力分數特征圖。不同于原論文中提出的感知偏移(Attention Propagation),使用特征融合能夠在不使用額外的卷積計算得到不同背景塊的相鄰塊的高斯分數作為其感知分數。同時,采用高斯分布計算權重也能有效地提高圖像的一致性,同時在訓練過程提供更加豐富的梯度。
本模塊在CelebA-HQ[9]人臉數據集和Paris Street View[10]街道數據集兩個數據集上進行了評估。其中,CelebA-HQ是一個通過高分辨率GAN加工的CelebA的人臉數據集,該數據集總計30,000張人圖片,每張圖片的分辨率都是1024*1024,將其中26752張圖片作為訓練樣本,余下圖片中選擇2688張圖片作為測試樣本。Paris數據集是由6412張巴黎街道圖片組成的數據集,本實驗將其中隨機5760張圖片作為訓練樣本,余下圖片中隨即選擇640張圖片作為測試樣本。本實驗模型在不同數據集上均訓練同等的50個周期,根據實驗的硬件內存大小將batch設置為64。
實驗在CelebA-HQ人臉數據集的驗證集上計算了平均l1誤差和平均l2誤差、平均峰值信噪比(PSNR)和結構相似性(SSIM),這些數據都是常用的圖像修復質量評價指標。并采用不同覆蓋程度的隨機掩碼在CelebA-HQ測試集上對上述的Yu等人,Zeng等人以及本文的算法進行實驗。
在低覆蓋率(<30%)掩碼的修復任務上,三種算法在上述指標表現相當,其中Zeng等人的算法SSIM指標最高,本文的算法平均SSIM為90.2%,平均PSNR值達到了34.79dB。隨著掩碼覆蓋率的增高,三種算法的PSNR和SSIM指標有所下降,在高覆蓋率掩碼的實驗中,本文算法具有最優的PSNR值和SSIM值,平均PSNR為28.0dB,平均SSIM為86.74%。造成這一現象的原因是,在小面積缺失的任務中,三種算法對于圖像修復的水平相當,而隨著缺失區域的增大,Yu等人的修復網絡沒有很好地解決細節修復的問題;而Zeng等人的算法通過不同尺度的特征處理,可以在低層的特征結構中處理更豐富的紋理細節,在更高層的特征結構中處理更抽象的語義,在大面積缺失的修復任務中,仍然具有較好的PSNR和SSIM指標;本文的算法則是使用了融合全局特征的方式,讓每一個背景塊融合相鄰塊的特征,在通過注意力分數較大的塊進行修復像素的同時也參考了周圍其他塊的建議,能更好地替代Yu等人提出的感知偏移(Attention Propagation)的效果,使得修復區域在亮度、對比度上具有更為符合周圍像素的表現。
圖1是Paris Street View數據集下本文算法的修復效果展示,在該數據集下,本文章使用大量隨機的小掩碼來遮蓋街道圖片中的一些邊緣結構;圖2是在CelebA-HQ驗證集下對3種算法部分的修復結果對比展示;圖3是通過消融實驗分析來對比改進前(CA模型)和改進后(本文章模型)對修復區域的像素修補情況,本文章使用了與Yu等人相同的方法來生成前景區域的染色圖,該染色圖的色塊顯示了每個前景特征像素來自背景區域位置,可以看出,加入后在相鄰像素之間顏色變化更小,說明像素之間的關聯性增大了。

圖1 改進算法在Paris驗證集上的修復效果

圖2 Cel ebA-HQ上三種算法的主觀修復效果

圖3 改進內容注意力模塊消融實驗對比
本文提出了一種基于特征融合思想的改進內容感知的圖像修復模型,該模型從融合圖像特征的角度出發,針對現有網絡生成圖像的細節模糊、偽影的問題,通過使用高斯分布函數計算每個像素點到各個背景塊的距離,并以距離作為權重融合相鄰背景塊的特征信息,使模型能夠更生成局部結構更清晰,與周圍像素更連貫的結果,經實驗結果驗證本算法在客觀數據上達到了頗為優秀的水平,主觀修復結果符合人類視覺的需求。本文為討論改進的內容注意力模塊的修復效果,在修復網絡的網絡結構部分仍沿用了Yu等人(2018)的Deepfill-v1的框架,在一些大面積缺失任務上依舊會存在偽影問題,未來將在本文提出的改進內容注意力模塊的基礎上,在修復網絡的結構的優化上做進一步的研究,此外,具有人機交互,可以通過人為輸入干預的修復結果的風格的網絡模型同為本文的進一步的研究和改進方向。