趙然



摘 要:圖像修復是近年來的研究熱點,根據(jù)已獲得的圖像內(nèi)容恢復丟失的圖像內(nèi)容,在傳統(tǒng)文化作品修復、圖像編輯等領域應用廣泛。本文對近年來該領域相關研究進行綜述,首先從傳統(tǒng)圖像修復方法出發(fā),分析其存在的問題,重點對基于深度學習的圖像修復方法進行概述,包括基于卷積神經(jīng)網(wǎng)絡、生成對抗網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡的圖像修復方法,介紹各種方法的原理與結(jié)構(gòu),總結(jié)基于深度學習的各類方法的適用范圍及優(yōu)缺點,最后對未來的研究方向及重點提出展望。
關鍵詞:深度學習;圖像修復;卷積神經(jīng)網(wǎng)絡;生成式對抗網(wǎng)絡;循環(huán)神經(jīng)網(wǎng)絡
一、緒論
通過已知區(qū)域修復丟損區(qū)域的圖像修復方法起源于手工匠對損壞藝術品的修復技術,即以局部信息為基礎進行擴散修復,研究者們也由此提出了基于偏微分方程的早期圖像修復算法,偏微分方程算法采用的是擴散的思想,將圖像傳輸過程中丟失區(qū)域附近的數(shù)據(jù)通過擴散到來修復丟損區(qū)域,比如Bertalmio等人提出BSCB模型,將受損區(qū)域周圍的有效信息平整擴展到受損區(qū)域;再如Chan等人提出TV模型、CDD模型等,TV模型雖然考慮到自然圖像的平滑性,但是沒有考慮到圖像的幾何特征,所以Chan等人又在其中加入曲率,提出CDD模型,一定程度上解決了TV模型不能滿足視覺連通的缺點。基于偏微分方程的圖像修復方法,可以對小范圍破損的圖像進行很好的修復,還能同時修復多個破損領域,但是對于大范圍信息缺失的圖像,修復結(jié)果卻不能讓人滿意,隨著圖像修復在生物醫(yī)學、人臉圖像修復等新領域的應用,對修復圖像的質(zhì)量要求也越來越高,研究者提出了動態(tài)加權(quán)匹配的圖像修復算法,更好得利用了圖像的已知信息,提高了圖像修復質(zhì)量,利用局部平均灰度熵快速圖像修復算法[1]來加快計算機執(zhí)行修復的速度結(jié)構(gòu)信息、連接邊緣,之后再修復紋理成分,可提高圖像結(jié)構(gòu)、紋理等的一致性。除此之外,Criminisi等人也提出一種基于塊的修復技術,算法速度得到了很大提升。
二、基于深度學習的圖像修復方法
隨著深度學習算法的逐步完善和發(fā)展,研究者開始將深度學習算法應用于圖像修復領域。1998年的經(jīng)典網(wǎng)絡LeNet的提出被認為是卷積神經(jīng)網(wǎng)絡的起始,由于計算機計算能力有限,LeNet在圖像修復領域未被廣泛應用,此后研究者們相繼提出AlexNet、VGG-NET、ResNet等卷積神經(jīng)網(wǎng)絡,基于深度學習的圖像修復模型最初多以上述結(jié)構(gòu)為基礎,利用卷積神經(jīng)網(wǎng)絡來訓練數(shù)據(jù),高效預測圖像的結(jié)構(gòu),但在圖像修復的紋理細節(jié)方面不盡人意。考慮到卷積神經(jīng)網(wǎng)絡存在的局限性,有研究者將生成式對抗網(wǎng)絡應用于圖像修復領域:Goodfellow于2014年提出生成對抗網(wǎng)絡,由生成器和判別器構(gòu)成,生成器從給定噪聲中合成數(shù)據(jù),判別器分辨合成數(shù)據(jù)和真實數(shù)據(jù)的相似程度,如果計算生成的樣本圖像與待修復區(qū)域圖像足夠相似,即可達到圖像修復的目的。隨著深度學習在圖像修復領域工作的開展,循環(huán)神經(jīng)網(wǎng)絡已經(jīng)在對無標志圖像自動生成中得到應用,將其和卷積神經(jīng)網(wǎng)絡結(jié)合用于圖像修復的研究也取得了進一步的研究成果。
(一)基于卷積神經(jīng)網(wǎng)絡的圖像修復模型
1.卷積神經(jīng)網(wǎng)絡概述以及原理
卷積神經(jīng)網(wǎng)絡(Convolutional Neural NetWork,CNN)作為最早的二維圖像識別傳感器,采用監(jiān)督學習的方式,每一層是由多個獨立神經(jīng)元組成的二維平面,如經(jīng)典的LeNet-5結(jié)構(gòu),數(shù)據(jù)依次通過輸入層、卷積層1、池化層1、卷積層2、池化層2、全連接層1、激活函數(shù)層、全連接層2、輸出層,此類結(jié)構(gòu)可以層層提取特征,最后利用全連接層完成若干個分類任務。卷積神經(jīng)網(wǎng)絡的部分同層神經(jīng)元到下一層的權(quán)值設置相同,即權(quán)值共享,在訓練數(shù)據(jù)時會降低模型復雜性,把龐大的圖像修復問題降維處理。
2.基于卷積自編碼的圖像修復方法
CNN進行圖像修復存在監(jiān)督學習的困難,Masci提出的卷積自編碼則有效解決了該問題,Pathak等人命名提出Context Encoder網(wǎng)絡,編碼器逐漸增加圖像的尺度,解碼器則是一個逆過程,學習全局圖像特征和推斷損失部分,利用L2損失和對抗損失來修復圖像,但是在對抗損失訓練時考慮的是預測值和實際像素值之間的歐式距離,得到的圖像缺少完整的紋理細節(jié),在圖像修補邊緣可以看到明顯的痕跡,進一步研究人員將Encoder-Decoder網(wǎng)絡結(jié)構(gòu)中的對抗損失稱作局部對抗損失,又增加一項對抗損失:全局對抗損失。此外,優(yōu)化方案的提出也解決了很多問題:結(jié)合圖像內(nèi)容與紋理的多尺度CNN匹配方法,整體架構(gòu)分為內(nèi)容網(wǎng)絡和結(jié)構(gòu)網(wǎng)絡[2];在上下文編碼器中加入Global context discriminator和Local context discriminator,從全局一致性和在局部一致性來判別生成效果的好壞,并利用快速匹配方法融入全圖。
(二)基于生成式對抗網(wǎng)絡的圖像修復模型
1.生成式對抗網(wǎng)絡概述以及原理
生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)受零和博弈啟發(fā),包括生成模型G和判別模型D,其結(jié)構(gòu)如圖2,生成模型G將輸入的信息經(jīng)過極大似然估計的參數(shù)轉(zhuǎn)化成指定樣本,而判別模型D用來判斷G中的圖像數(shù)據(jù)是否為真實數(shù)據(jù),通過交替訓練讓這兩個模型同時得到增強,使生成器產(chǎn)生的數(shù)據(jù)逼近真實數(shù)據(jù)分布,由于判別器的存在,最終會達到納什均衡。
2.基于生成式對抗網(wǎng)絡圖像修復方法
基于GAN圖像修復方法訓練過程不穩(wěn)定,為了提高訓練的穩(wěn)定性,Mirza提出了CGAN,通過把無監(jiān)督的GAN變成半監(jiān)督或者有監(jiān)督的模型,增加網(wǎng)絡結(jié)構(gòu)的約束性,引入另一個條件變量y,和GAN原有的輸入合并為一個向量,訓練過程的穩(wěn)定性得到了極大程度的提高。研究人員在無監(jiān)督學習領域仍然對GAN模型提出改進:2015年Radford等人提出DCGAN,深度卷積生成對抗網(wǎng)絡仍由生成模型G和判別模型D構(gòu)成[2],在卷積特征上消除全連接層,利用轉(zhuǎn)置卷積網(wǎng)絡實現(xiàn)低維度噪聲得到高緯度圖像的目的。近年來研究者們針對GAN在圖像修復方面的研究又提出一種基于生成對抗網(wǎng)絡的圖像分布補全算法[3]:預補全模型對圖像初步補全、還原低維結(jié)構(gòu)信息,增強補全模型還原高維紋理結(jié)構(gòu)信息。
(三)基于循環(huán)神經(jīng)網(wǎng)絡的圖像修復模型
1.循環(huán)神經(jīng)網(wǎng)絡概述以及原理
循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)與傳統(tǒng)的神經(jīng)網(wǎng)絡模型比較:傳統(tǒng)的神經(jīng)網(wǎng)絡模型層與層之間是全連接的,每層之間的節(jié)點是無連接的,而RNN的每一個序列當前的輸出與前面的輸出也有關,RNN會對前面的信息進行記憶并應用于當前輸出的計算中。
2.基于循環(huán)神經(jīng)網(wǎng)絡圖像修復方法
基于RNN的這種網(wǎng)絡結(jié)構(gòu),可以將時間序列對應到圖像的像素分布,補全缺失區(qū)域時可以按照兩個空間維度來預測像素信息,下一個像素點的預測是基于之前所生成的像素點。谷歌提出Pixel RNN模型用于圖像修復[5],其由12個二維LSTM組成,用卷積一次性計算數(shù)據(jù)在一個空間維度的狀態(tài)。傳統(tǒng)LSTM在每一行做卷積,Diagonal BiLSTM在圖像的對角做卷積,同時引入了殘差連接,幫助12層的LSTM深度訓練。由于RNN網(wǎng)絡計算的復雜性,因此基于循環(huán)神經(jīng)網(wǎng)絡圖像修復方法較少,對于基于RNN的圖像修復方法需要設計更為合理的網(wǎng)絡模型來實現(xiàn)。
三、總結(jié)與展望
本文通過對基于深度學習的幾種圖像修復模型進行總結(jié),概括出基于深度學習的三種圖像修復方法的特點:CNN研究較為廣泛,但是對于紋理修復卻存在不足;GAN可應用于缺失大量數(shù)據(jù)的圖像修復,但是GAN的訓練階段的不穩(wěn)定性問題需要更加深入的研究來解決;RNN處理序列數(shù)據(jù)方面有著較為優(yōu)異的表現(xiàn),但是對于大樣本數(shù)據(jù)的處理卻不太出色。基于對現(xiàn)有方法討論總結(jié),可以看出深度學習在圖像修復領域得到應用,本文對基于深度學習的圖像修復方法研究提出了以下展望:在基于深度學習的圖像修復方法中,深度學習網(wǎng)絡的設計和訓練過程中的損失函數(shù)的選擇是其重要的內(nèi)容,選擇合適的損失函數(shù)在提高圖像修復質(zhì)量的同時也會加快深度學習的訓練速度,圖像修復質(zhì)量的提高還可以通過減少噪聲模型深度來解決,因此在未來工作中設計出更加完善的去噪模型也尤為重要,如何設計具有普適性的修復網(wǎng)絡,提高修復結(jié)果的準確性,還需要更加深入的研究。
參考文獻:
[1]張晴,林家駿,劉云翔.基于局部平均灰度熵的快速圖像修復算法[J].計算機應用與軟件,2014,31(10):206-208+223.
[2]李天成,何嘉.一種基于生成對抗網(wǎng)絡的圖像修復算法[J].計算機應用與軟件,2019,36(12):195-200+267.
[3]王一鳴.基于生成對抗網(wǎng)絡的圖像修復算法研究[D].北京交通大學,2019.
[4]王鑫磊.基于深度卷積生成對抗網(wǎng)絡的圖像修復研究與應用[D].重慶大學,2018.
[5]強振平,何麗波,陳旭,徐丹.深度學習圖像修復方法綜述[J].中國圖象圖形學報,2019,24(03):447-463.
作者簡介:趙然(1999-),男,漢族,安徽滁州人,本科大三在讀,研究方向:深度學習、計算機視覺。