李克文,張文韜,邵明文,李 樂
中國石油大學(華東)計算機與通信工程學院,山東 青島266000
隨著深度學習在計算機視覺領域的飛速發展,圖像編輯(image editing)和圖像生成(image generation)問題的研究已經取得了顯著的成效。本文討論的圖像缺失修復(image inpainting)問題,是介于圖像編輯和圖像生成之間的一個熱點問題,在圖像縮放、文物保護、公安刑偵面部修復、生物醫學圖像應用和航空航天技術等領域具有重大意義。
圖像修復是一個傳統圖形學的問題:在一幅圖像上的某一位置缺失了一定大小的區域,利用其他的信息將這個缺失區域恢復,讓人們無法辨別出修復的部分。
如圖1 所示(從左到右依次為原始圖片、缺失圖片以及修復圖片),兩幅圖像中的缺失區域中分別有杯子和花,人們可以根據周圍圖像的內容,很容易就能把圖像補全。由于人的大腦具有主觀意識,不同的人修復效果存在差異性,因此在圖像修復的過程中必須遵循結構性、相似性、紋理一致、結構優先等原則。但圖像修復任務對于計算機卻格外困難,因為這個問題沒有唯一確定的解,如何利用其他的信息去輔助修復,如何去判斷修復結果是否足夠真實,是研究者們所關心的問題。

Fig.1 Repair of two different images圖1 兩張不同圖片的修復
目前,基于結構的圖像修復、基于紋理的圖像修復和基于深度學習的圖像修復是圖像修復領域的三個主要方向,本文的研究主要是針對基于深度學習的圖像修復算法。近年來,卷積神經網絡(convolutional neural networks,CNN)[1-2]極大地提高了語義圖像的分類、目標檢測和分割等任務的性能[3-5]。國內外研究人員已經將CNN 模型用于圖像修復任務,但僅使用CNN 的修復方法結果精度不高,性能有很大的提高空間。
針對現有方法存在的問題,本文提出一種多尺度生成式對抗網絡模型,得到高精度、高準確率、視覺一致性強的修復圖像:首先,提出了一種由生成器和對抗性判別器組成的深度生成對抗修復模型,利用重構損失和對抗損失,從隨機噪聲中合成缺失的內容。其次,提出了一種多尺度的判別器結構,通過使用不同分辨率的圖像進行對抗訓練進行圖像修復。然后,生成器中使用擴張卷積來降低圖片下采樣過程中信息的丟失,利用當前流行的泊松混合方法對修復圖像進行了一定的后續處理。最后,通過實驗說明本文提出算法的優勢和圖像的修復效果。
傳統圖像修復方法例如Bertalmio 等人[6]利用擴散方程沿著掩模邊界的已知區域的低級特征迭代地傳播到未知區域。雖然在修復中表現得很好,但僅限于處理小而均勻的區域。通過引入紋理合成[7],進一步提高了修復效果。Zoran 和Weiss 在文獻[8]中,通過學習圖像塊的先驗來恢復具有缺失像素的圖像。
早期的基于深度學習的圖像修復方法,如Ren 等人在文獻[9]中學習了一種卷積網絡,通過一種高效的圖像塊匹配算法[10]大大提高了圖像修復的性能。當發現類似的圖像塊時,它的性能很好,但是當數據集中沒有包含足夠的數據來填充未知區域時,它很可能會失敗。Wright 等人[11]將圖像修復作為從輸入中恢復稀疏信號的任務。通過求解稀疏線性系統,可以根據一些損壞的輸入圖像來修復圖像。然而,這種算法要求圖像高度結構化。Kingma 等人在文獻[12]中提出了變分自編碼器(variational auto-encoders,VAEs),通過在潛在單元上施加先驗,使圖像可以通過潛在單元采樣或插值生成。然而,由于基于像素級高斯似然的訓練目標,VAE 生成的圖像通常是模糊的。
隨著深度學習的進一步發展,Goodfellow 等人在2014 年提出的生成式對抗網絡模型(generative adversarial network,GAN)[13]是深度學習發展中的一個里程碑式的進展。隨著GAN 的問世,解決了利用傳統的VAE 生成圖片模糊的問題,取得了令人震驚的效果,理論上能夠生成大量清晰圖片。Larsen 等人在文獻[14]中通過添加一個對抗性訓練的判別器來改進VAE,該判別器來自生成式對抗網絡,并證明了可以生成更真實的圖像。與此工作最接近的是Pathak 等人提出的“Context Encoder”模型[15],該方法應用了一個自編碼器,將學習視覺表示與圖像修復相結合,但使用這種方法修復的圖片效果在某些情況下并不理想,修復區域與整張圖片會有明顯的不一致性,在修復區域的邊緣效果不是很好。針對“Context Encoder”模型出現的問題,早稻田大學的Iizuka 等人進行了改進[16],將設計擴展為兩個判別器,使用經過訓練的全局和局部上下文判別器來分別區分真實圖像和修復圖像,使網絡能夠產生局部以及全局一致的圖像。
使用GAN 進行圖像修復的主要問題之一是模型訓練過程中的不穩定性,比如網絡無法收斂,容易出現梯度消失以及梯度下降等問題,這導致了對該問題的大量研究[17]。最新的研究表明,傳統GAN 中交叉熵(Jensen-Shannon divergence,JS 散度)不適合衡量生成數據分布和真實數據分布的距離,如果通過優化JS 散度訓練GAN 會導致找不到正確的優化目標。Arjovsky 等人提出的Wasserstein GAN[18]從損失函數的角度對GAN 進行了改進,損失函數改進之后的WGAN 即使在全連接層上也能得到很好的表現結果,解決了訓練不穩定的問題。Gulrajani 等人在Wasserstein GAN 基礎上進行了改進[19],優化了連續性限制的條件,解決了訓練梯度消失和梯度爆炸的問題并且加快了收斂速度。Mao 等人提出的LSGAN(least squares GAN)[20]模型使用了最小二乘損失函數代替了GAN 的損失函數,同樣緩解了GAN 訓練不穩定,生成圖像質量差以及多樣性不足的問題。
由于人們對于GAN 生成圖片的分辨率要求越來越高,隨之而來的另一個問題是由于網絡在池化過程中會對圖像進行下采樣提取低維特征,造成圖像中很多關鍵信息的丟失,判別器更容易分辨出圖片真假,使得梯度不能指示正確的優化方向。那么如何有效地利用神經網絡每層提取的特征,最大限度地減少下采樣過程所帶來的損失的同時充分提取圖像的低維特征,是當前研究的一個熱點。Yu 等人在2016 年提出了擴張卷積的方法[21],在卷積過程中可以擴大感受野的同時使特征圖大小保持不變,有效地降低了傳統卷積過程中由于下采樣所帶來的信息丟失,并用于圖像處理。Wang 等人提出的“pix2pixHD”模型[22]利用條件生成對抗網絡(conditional GANs)[23]來合成高分辨率逼真的圖像,利用了一個最新的多尺度生成器-判別器結構,穩定訓練的同時提升了圖片質量并且提高了圖片的分辨率。圖2 所示為多尺度判別器模型示意圖,它們具有相同的網絡結構,但在不同的圖像尺度下工作。將這些判別器稱為D1、D2 和D3。具體來說,分別對真實的和合成的高分辨率圖像進行下采樣。然后訓練D1、D2 和D3 分別在三個不同的尺度上區分真實圖像和合成圖像。

Fig.2 Multi-scale discriminator models圖2 多尺度判別器模型
本文的工作建立在Pathak 等人提出的“context encoder”方法以及Iizuka 等人提出的“globally and locally consistent image completion”方法的基礎之上。通過使用均方誤差(mean squared error,MSE)損失結合GAN 損失,能夠訓練一個圖像修復網絡,避免了僅使用MSE 損失時常見的模糊。僅僅使用這種方式會使網絡訓練不穩定。本文通過使用WGAN 中的損失代替傳統GAN 的損失,利用EM(earth mover)距離去衡量數據分布之間的差異,不訓練純粹的生成模型和調整學習過程來優先考慮穩定性來避免這個問題。此外專門針對圖像修復問題對架構和訓練過程進行了大量優化。特別地,不使用單一判別器而是使用多個判別器,采用類似于“pix2pixHD”模型[22]中的多尺度判別器來提高視覺質量。
在本章中,將介紹多尺度生成式對抗網絡模型及原理,包括一個生成網絡用于圖像修復,四個額外的判別器網絡輔助訓練,即兩個多尺度判別器網絡,一個全局判別器網絡和一個局部判別器網絡,以便訓練整個網絡能夠出色地完成圖像修復任務。在訓練期間,訓練判別器以確定圖像是否已經修復成功,同時訓練生成器以欺騙所有判別器。只有通過一起訓練的所有網絡,生成器才能真正地修復各種圖像。網絡架構如圖3 所示。

Fig.3 Network architecture圖3 網絡架構
GAN 的主要原理來源于博弈論中的思想,整個網絡包含兩個相互對抗的網絡結構,即生成網絡G(generator)和判別網絡D(discriminator),如圖4 所示。通過G和D不斷進行對抗博弈,進而使G學習到真實數據的分布,如果將對抗網絡用于圖像的生成,則經過不斷地訓練后,G可以從一個噪聲中生成逼真的圖像。G、D的主要功能是:G是一個生成式網絡,G的輸入是一個隨機的噪聲Z(隨機數),通過這個噪聲生成用于欺騙D的假圖片即G(Z)。D是一個判別網絡,用來判別一張圖片的真實性。它的輸入是一張圖片,可能來自于數據集中的真實圖片,也可能來自于G生成的圖片,輸出為D判定輸入是真實圖片的概率,如果輸出概率是1,表明D判斷輸入為真實的圖片,如果輸出概率為0,表明D判斷輸入不可能是真實圖片(即G生成的圖片)。訓練過程中,生成網絡G的任務就是生成逼真的假圖像去混淆判別網絡D的判斷。D的目標就是盡量辨別出G生成的假圖像和真實的圖像。因此,G和D的訓練過程就構成了一個動態的“博弈過程”,最終達到平衡狀態即納什均衡。博弈的結果為在最理想的狀態下,G可以生成足夠真的圖片,而D難以判定G生成圖片的真實性,即輸出概率為0.5,這樣就訓練出了一個可以大量生成逼真圖片的生成式網絡模型G。

Fig.4 Generative adversarial network model圖4 生成式對抗網絡模型
采用一個卷積自編碼器作為生成器模型G,即一個標準的編碼器-解碼器結構,編碼器結構采用具有缺失區域的圖像作為輸入,通過卷積操作生成該圖像的潛在特征表示。解碼器結構利用這種潛在特征表示通過轉置卷積操作恢復原始分辨率,產生缺失區域的圖像內容。與從噪聲向量直接開始的原始GAN 模型不同,從編碼器獲得的隱藏表示捕獲了未知區域和已知區域之間的更多變化和關系,然后輸入解碼器生成內容。中間層使用了擴張卷積,允許使用更大的輸入區域計算每個輸出像素,沒有額外的參數以及計算量,相比于標準卷積層,擴張卷積網絡模型可以在輸入圖像更大的像素區域的影響下計算每個輸出像素。如果不使用擴張卷積,它將僅使用較小的像素區域,無法利用更多的上下文信息進行圖像的合成。
生成器使用標準的自編碼器網絡,在此基礎上添加了擴張卷積層,即Iizuka 等人提出的生成器網絡去掉了中間兩層卷積層,網絡體系結構如表1 所示。從左到右依次為網絡層類型(conv 為卷積層,d-conv為擴張卷積層,deconv 為反卷積層),卷積核大小,卷積核零填充的數目,步長以及該層輸出通道數。
通過對生成器進行訓練,使其能夠利用小的重構損失填充缺失區域相應的像素。僅僅使用生成器并不能確保填充的區域在視覺上保持真實一致。生成的圖像缺失區域像素非常模糊,只能捕捉到缺失區域的大體形狀。為了獲得更逼真的效果,加入了全局判別器、局部判別器以及多尺度判別器作為二值分類器來區分真假圖像,目的是辨別圖像是真實的還是經過修復的。判別器幫助網絡提高修復結果的質量,訓練有素的判別器不會被不切實際的圖像所愚弄。這些判別器基于卷積神經網絡,將圖像壓縮成對應的小的特征向量。預測對應于圖像是真實的概率值。

Table 1 Architecture of generator G表1 生成器G 體系結構
首先是局部判別器Dl,它決定了缺失區域的合成內容是否真實。能夠幫助網絡生成缺失內容的信息。它鼓勵生成的對象在語義上是有效的。由于局部判別器的局部性,它的局限性也很明顯。局部判別器損失既不能使一張臉的全局結構規范化,也不能保證缺失區域內外邊緣的一致性。因此,修復圖片的像素值沿修復區域邊界的不一致性很明顯。
由于局部判別器的局限性,引入另一個名為全局判別器的網絡結構Dg來確定圖像作為一個整體的準確性。基本思想為,生成圖像修復區域的內容不僅要真實,還要與上下文保持一致。具有全局判別器的網絡極大地緩解了不一致的問題,進一步提高了生成修復圖片的效果,使其更加真實。
最后,提出了一種多尺度判別器網絡結構。其基本思想是,對真實的和合成的圖像分別進行下采樣,下采樣系數為2 和4,訓練兩個判別器Dm1、Dm2分別在兩個不同的尺度上區分真實圖像和修復圖像。通過兩個輸入為不同分辨率圖像的判別器網絡,對生成器修復圖像的過程進行了嚴格的控制,兩個多尺度判別器以及全局判別器具有相似的架構,但具有不同大小的感受野。相比于單獨使用全局判別器,聯合多尺度判別器進行訓練可以引導生成器生成全局一致性更強的修復圖片以及更精細的細節,整張圖片的修復效果在視覺上更合理。通過將兩個多尺度判別器加入到網絡中,能夠得到效果更好的修復圖片。
將Iizuka 等人提出的全局判別器和局部判別器去掉最后兩層全連接層,其他結構不做改變。全局判別器、局部判別器和多尺度判別器網絡體系結構如表2~表5 所示。從左到右依次為網絡層類型、卷積核大小、步長以及該層輸出通道數。表2、表3、表4、表5 分別為Dl、Dg、Dm1、Dm2。

Table 2 Architecture of local discriminator Dl表2 局部判別器Dl 體系結構

Table 3 Architecture of global discriminator Dg表3 全局判別器Dg 體系結構

Table 4 Architecture of multi-scale discriminator Dm1表4 多尺度判別器Dm1體系結構

Table 5 Architecture of multi-scale discriminator Dm2表5 多尺度判別器Dm2體系結構
通常有多種合理的方法來填充與上下文一致的缺失圖像區域。例如可以通過一個損失函數來建模這種行為。因此首先向生成器引入重構損失Lr,負責捕獲缺失區域的結構信息并與上下文保持一致,即修復圖像與原始圖像像素之間的L2 距離,z為噪聲掩碼:

但僅僅使用Lr損失,觀察到生成的修復圖像內容趨于模糊和平滑。因為L2 距離損失的原因是由于嚴重懲罰了異常值,鼓勵網絡平滑地跨越各種假設以避免大的懲罰。通過使用判別器,引入了對抗性損失,這反映了生成器如何最大限度地愚弄判別器,以及判別器如何區分真假。對抗性損失是基于GAN 的損失。為了學習數據分布的生成模型,GAN學習一個對抗性判別器模型D,為生成器模型提供損失梯度。對抗性判別器D同時對生成器G生成樣本和真實樣本進行預測,并試圖區分它們,而生成器G則通過產生盡可能“真實”的樣本來混淆判別器D:

其中,Pdata(x)和Pz(z)分別表示真實數據x和噪聲變量z的分布。通過最小化生成器損失以及最大化判別器損失來優化網絡。
由于傳統GAN 模型訓練過程中的不穩定性,使用WGAN 的損失函數及方法訓練GAN,具體做法為去掉判別器D最后一層的sigmoid,G和D的損失函數不取損失函數對數,本文算法不使用傳統的GAN的目標函數而使用了這種方法:

判別器D滿足1-Lipschitz限制,本質上就是要求網絡的波動程度不能太大,具體做法為每次更新D的參數之后,并將其絕對值截斷,使其不超過一個固定的常數,即weight clipping。
4 個判別網絡{Dl,Dg,Dm1,Dm2}對損失函數的定義相同。唯一的區別是,局部判別器僅為缺失區域提供訓練的損失梯度,全局判別器和多尺度判別器在不同分辨率的整張圖像上反向傳播損失梯度。局部判別器Dl的輸入為生成器G輸出圖像的修復部分和真實圖像對應的部分。全局判別器Dg的輸入為生成器G輸出圖像和真實圖像。多尺度判別器Dm1的輸入為生成器G輸出圖像和真實圖像分別下采樣2倍的輸出圖像和真實圖像。多尺度判別器Dm2的輸入為生成器G輸出圖像和真實圖像分別下采樣4 倍的輸出圖像和真實圖像。判別器分別定義為:

綜上所述,整個網絡優化的總損失函數定義為:

式中,λ1、λ2、λ3、λ4為不同損失相應的權重,用來平衡不同損失對整個損失函數的影響,λ1、λ2、λ3、λ4的具體數值在實驗過程中需要人為設定。
本文的工作是基于深度卷積對抗神經網絡的實現,為了有效地訓練網絡,將訓練過程分為3 個階段:首先,訓練生成器網絡G,利用重構損失對網絡進行訓練,生成器可以得到模糊的修復內容,此階段不包含對抗訓練和對抗損失。其次,利用第一階段訓練完成的生成器網絡去訓練所有判別器網絡{Dl,Dg,Dm1,Dm2},利用對抗損失去更新所有判別器。最后一個階段對生成器和所有判別器進行聯合對抗訓練。每一階段都為下一階段的改進做好準備,從而大大提高了網絡訓練的有效性和效率,訓練過程是通過反向傳播完成的。

在進行對抗性損失的訓練時,采用類似于文獻[24]的方法,避免訓練過程開始時識別器過強的情況。使用了文獻[25]中建議的默認超參數(例如學習率)。設置λ1、λ2、λ3、λ4均為0.001。通過調整圖像大小來完成訓練,將圖像裁剪為256×256 的圖像用作輸入圖像。對于缺失區域,在圖像中的中心正方形區域的輸入設為0,即圖像缺失部分,大約覆蓋了1/4 的圖像。全局判別的輸入為256×256 大小的完整圖像,局部判別器的輸入為128×128 大小修復區域的圖像,兩個多尺度判別器的輸入分別為128×128 和64×64 大小的完整圖像。本文的網絡模型可以合理填充缺失的區域,但有時生成的區域與周圍區域會有顏色不一致的情況。為了避免這種情況,通過將修復的區域與周圍像素的顏色混合來執行簡單的后處理。特別地,本文使用了泊松圖像混合[26]對圖像進行后續處理。
本文使用從CelebA 數據集中獲取的100 000 張圖像來訓練多尺度生成式對抗網絡模型。80 000 張用于訓練,20 000 張用于測試,該數據集包括各式各樣的人臉圖像,人臉圖像的修復相對于場景圖像的修復難度更大,面部圖像的修復需要更多的修復細節,如五官的位置以及面部的對稱性,修復難度相對較大,因此對神經網絡的設計提出了更高的要求,batchsize大小設置為32。生成器網絡經過20 000 次迭代,然后訓練判別器經過10 000 次迭代,最后共同訓練整個網絡70 000 次。設備參數為CPU,Intel i7-8700;GPU,RTX2080Ti-11 GHz;內存,DDR4-3000-32 GB。代碼在Pytorch 深度學習框架下運行,整個網絡訓練完成時間為5 天左右。
當然也可以嘗試加入更多的多尺度判別器,在實驗中發現兩個判別器對于網絡修復效果的提升已經足夠,加入過多的判別器會使整個網絡變得復雜,增加網絡的參數以及運行時間。
將實驗得到的修復結果與僅使用了一個作用于修復區域的判別器的CE(context encoders)方法,以及使用生成器和兩個判別器的GLCIC(globally and locally consistent image completion)方法的實驗結果進行比較。為了比較的公平性,重新訓練了上述模型,并進行相同次數的迭代,結果如圖5 所示。
圖5 展示了CelebA 測試數據集上的人臉修復結果。在每個測試圖像中,網絡都會自動覆蓋圖像中間的區域,因為一般在中間部分會包含面部的重要組成部分(例如,眼睛、嘴巴、眉毛、頭發、鼻子)。4 行分別代表了4 張不同測試圖像的修復結果。第1 列圖(a)分別對應著4 張原始未缺失的圖像。第2 列圖(b)為加了掩碼的缺失圖像。第3 列圖(c)為“context encoders”網絡的修復結果,由于這種結構缺乏對全局一致的理解,可以看到利用這種方法修復的結果不僅有明顯的全局不一致性,缺失區域修復效果也非常模糊,無法達到圖像修復任務的要求。第4 列圖(d)為加入全局判別器以及局部判別的“globally and locally consistent image completion”方法的修復效果圖,引入對抗損失使得網絡能夠更合理地對圖像進行修復,局部判別器針對圖像缺失區域產生影響,使得缺失區域部分能夠成功完成修復,全局判別器針對修復圖片的全局不一致性,會對整張圖像產生影響,強制網絡生成全局一致的圖像,消除了明顯的邊緣差別,修復結果較好。第5 列圖(e)即本文算法的修復結果,使用了WGAN 損失,使整個對抗網絡的訓練更穩定。加入了多尺度判別器,與全局判別器和局部判別器聯合訓練。可以看到相比于圖(d)的結果,圖(e)在修復的細節方面有了一定的提升,圖像整體性更高,修復效果更加良好。

Fig.5 Comparison of repair results of different models圖5 不同模型的修復結果比較
除了視覺效果之外,本文還對CelebA 測試數據集使用了PSNR(peak signal to noise ratio)和SSIM(structural similarity index)進行定量評估,這兩個指標是通過不同方法獲得的修復結果與原始人臉圖像之間進行計算的。
第一個指標是峰值信噪比(PSNR),是一種評價圖像的客觀標準,它直接測量像素值的差異,單位是dB,數值越大表示失真越小。假設輸入的兩張圖像分別是X和Y,計算公式如下:

其中,MSE表示修復圖像X和真實圖像Y的均方誤差,H和W分別為圖像的高度和寬度,n為每像素的比特數,一般取8,即像素灰階數為256。結果如表6所示。

Table 6 Quantitative experimental results on PSNR表6 PSNR 上的定量實驗結果
第二個指標是結構相似性指數(SSIM),它是一種衡量兩幅圖像相似度的指標,為一個0 到1 之間的數,數值越大代表修復圖像和真實圖像的差距越小,即圖像質量越好。當兩張圖像一模一樣時,其值為1。假設輸入的兩張圖像分別是X和Y,計算公式如下:

其中,μX和μY分別代表X、Y的平均值,σX和σY分別代表X、Y的標準差,σXY代表X和Y的協方差,而c1、c2分別為常數,避免分母為0。計算結果如表7 所示。
此外,為了證明本文算法可以適用于多種類型的圖像修復,分別使用了ImageNet 數據集中獲取的50 000 張圖像和Places2 數據集中獲取的50 000 張圖像對本文模型進行相應的訓練。網絡模型訓練方法和在CelebA 數據集中使用的訓練方法相同,實驗結果分別如圖6 和圖7 所示,表明該模型在ImageNet 數據集和Places2 數據集上也有著良好的表現。

Table 7 Quantitative experimental results on SSIM表7 SSIM 上的定量實驗結果
近年來,深度學習在計算機視覺領域成果百出,基于深度學習的圖像修復技術的研究已經初見成效,有著廣泛的應用前景。本文首先介紹了圖像修復技術的研究背景及意義,簡單回顧了國內外的研究現狀,分析了現有算法存在的不足。然后對生成式對抗網絡原理進行了介紹,分析了生成式對抗網絡存在的問題,并將改進之后的生成式對抗網絡模型應用到圖像修復問題的研究中,提出了一種由生成器和多個對抗性判別器組成的多尺度生成對抗修復模型。利用重構損失以及多個對抗損失,從隨機噪聲中合成缺失的內容,結合WGAN 的思想,采用EM 距離模擬數據分布,提高網絡穩定性的同時提升了圖片修復的效果。最后在CelebA 數據集上進行驗證,利用定性和定量的評價方法,證明了本文所提出的基于多尺度生成式對抗網絡的圖像修復算法相較于當前的圖像修復方法具有更好的修復效果。并且在ImageNet 數據集以及Places2 數據集上也進行了相應的訓練和測試,證明了該算法可以被應用于多種類型圖片的修復,且具有很好的效果。
此外,在圖像修復的實驗過程中發現,在大多數情況下網絡輸出的圖像修復效果很好,但在某些情況下網絡輸出的修復圖像會出現一些奇怪的像素,即偽像,使得整張圖片看起來很不自然,出現這種情況的原因可能是由于網絡在卷積過程中將一些無效像素的特征進行了提取。這種情況對于圖像修復任務來說是不好的。圖像修復任務的目的是盡可能地通過圖像現有的信息對缺失區域進行補全,偽像的出現使得修復效果變差。本文接下來的工作將針對這個問題對網絡模型進行改進,尋找一種能夠消除偽像的方法,如部分卷積,以達到更好的圖像修復效果。

Fig.6 Repair results on ImageNet dataset圖6 ImageNet數據集上的修復結果

Fig.7 Repair results on Places2 dataset圖7 Places2 數據集上的修復結果