999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成對抗網(wǎng)絡(luò)及其圖像處理應(yīng)用研究進展

2021-04-23 04:29:06王晉宇楊海濤李高源張長弓馮博迪
計算機工程與應(yīng)用 2021年8期
關(guān)鍵詞:模型

王晉宇,楊海濤,李高源,張長弓,馮博迪

1.航天工程大學(xué) 研究生院,北京101416

2.航天工程大學(xué) 航天信息學(xué)院,北京101416

深度學(xué)習(xí)于2012—2013 年在計算機視覺領(lǐng)域成為新的最優(yōu)算法[1]。其最具有代表性的技術(shù)為卷積神經(jīng)網(wǎng)絡(luò)和反向傳播算法,以此為基礎(chǔ)在計算機視覺領(lǐng)域產(chǎn)生了重大的突破。圖像生成算法是計算機視覺重要的研究方向之一,傳統(tǒng)的生成算法主要有特征變換法[2]、玻爾茲曼機[3]、變分自編碼器法[4-5]、近似推理馬爾可夫鏈法[6-8]等,但是這類算法存在模型擬合簡單、算法原理復(fù)雜的缺點。GAN作為在深度學(xué)習(xí)大發(fā)展背景下產(chǎn)生的數(shù)據(jù)生成算法,以其獨特的雙網(wǎng)絡(luò)對抗思想在眾多生成算法中脫穎而出,在2016 年Goodfellow 等提出GAN[9]以來,相關(guān)領(lǐng)域的論文發(fā)表數(shù)量呈指數(shù)級增長。圖1 列出了在論壇統(tǒng)計的GAN每年的發(fā)文數(shù)量,可以看出對GAN的研究已經(jīng)成為當前熱門方向之一。

GAN 是一個應(yīng)用性較強的算法體系,其衍生變體都圍繞著高質(zhì)量、多樣性進行。發(fā)展歷程目前經(jīng)歷了三個階段:

圖1 GAN發(fā)文統(tǒng)計

(1)探索階段(2014—2016年)

這個階段GAN 的算法剛開始被人們所接受,借助其思想衍生出不同的GAN 算法,如深度卷積式、條件式、金字塔生成式。但是生成效果普遍一般,不能部署于實際應(yīng)用中,主要貢獻在于為之后GAN 的發(fā)展奠定了基調(diào)。

(2)發(fā)展階段(2016—2018年)

這個階段是GAN 發(fā)展較為旺盛的時期,突出特點為算法原理風(fēng)格迥異,模型結(jié)構(gòu)各不相同,但大都取得了較好的效果。針對GAN 模型坍塌、梯度消失等問題進行了系統(tǒng)的探討和研究。

(3)應(yīng)用階段(2018年至今)

這個階段的GAN算法主要聚焦于圖像處理、NLP、視頻處理等領(lǐng)域,應(yīng)用性較強。在總結(jié)前人所研究算法的基礎(chǔ)上,針對不同的專題背景設(shè)計不同的GAN 模型。高復(fù)雜度、大計算量是這個時期GAN 算法的突出特征,樣本生成的質(zhì)量及多樣性有了顯著的提高。

1 生成對抗網(wǎng)絡(luò)GAN

1.1 GAN數(shù)學(xué)原理

KL散度也稱為相對熵,是信息論中重要的內(nèi)容,是衡量兩個分布之間差距的公式。設(shè)兩個分布P、Q,則二者的相對熵為:

KL散度的不對稱性表達為:

一般的,對于兩個完全相同的函數(shù),KL=0。KL越大,函數(shù)之間的差異越大。但由于KL 散度具有不對稱性,實現(xiàn)起來較為困難,因此在此基礎(chǔ)上對式(3)取平均,可以得到JS散度公式如下:

以JS 散度為例,G 的目標在于最小化JS 散度,D 的目標在于最大化JS散度。

1.2 模型架構(gòu)及訓(xùn)練思路

最原始的GAN由Good Fellow提出,并在MNIST[10]、TFD[11]、CIFIR-10[12]等簡單數(shù)據(jù)集上產(chǎn)生了不錯的效果,作為基于對抗思想的一種生成算法,主要由生成器G和鑒別器D組成,模型架構(gòu)如圖2所示。

GAN 的訓(xùn)練思路靈感來源于博弈論中的納什均衡[13],,即對抗的雙方在非合作的博弈中都希望達到自己所期望利益的最大值。如圖所示,生成器可接收由隱空間Z采樣而來的隨機噪聲z,同時輸出生成圖像G(z)。鑒別器可接收圖像數(shù)據(jù),同時輸出圖像的真假標簽。GAN 架構(gòu)的對抗部分體現(xiàn)在生成器G 和鑒別器D上,G 希望生成圖像G(z)在D 中可判定為真,而D 希望將真實圖像x判定為真,生成圖像G(z) 判定為假。GAN的目標函數(shù)如下:

GAN 的突出特征在于雙網(wǎng)絡(luò)設(shè)計,明確地提出了利用對抗訓(xùn)練方式可以很好地擬合真實數(shù)據(jù)分布,從而達到樣本生成的目的。同時GAN 也存在一些弊端,使得其訓(xùn)練過程產(chǎn)生不穩(wěn)定的現(xiàn)象。主要體現(xiàn)在以下幾點:

(1)無法處理離散數(shù)據(jù)

GAN 的優(yōu)化核心在于梯度更新,而這個過程建立在函數(shù)可微的基礎(chǔ)上,因此GAN 不能很好地處理離散數(shù)據(jù),這也使得其在NLP等領(lǐng)域發(fā)展緩慢。

(2)模式坍塌

模式坍塌[14]是GAN 最常見的失敗方式,指生成的數(shù)據(jù)只朝一個或有限個方向發(fā)展。造成的結(jié)果是輸入的數(shù)據(jù)往往含有多個種類的圖像,而實際的生成圖像卻只有一種或幾種。

(3)梯度消失

在訓(xùn)練GAN 網(wǎng)絡(luò)的過程中,如果真實數(shù)據(jù)和生成數(shù)據(jù)分布之間的距離過近,重疊程度過多的情況下,便會造成梯度消失的問題。

1.3 評價方法

對于GAN算法的評價方法主要有主觀評價和客觀評價兩種,主觀評價方法主要是基于人眼視覺而定,若生成器可以生成人眼難以區(qū)分的樣本數(shù)據(jù),則可認為該算法具有良好的生成能力。GAN主要利用各種評分算法來進行模型生成效果的評估。最常用的客觀評價方法主要有IS[15-16]、FID[17]兩種,二者可以同時對圖像生成質(zhì)量和多樣性進行評價。此外Neuroscore[18]、SWD[19]、MMD[20]等方法也可用于客觀評價中。

圖2 GAN模型架構(gòu)

(1)Inception Score(IS)

IS 最初應(yīng)用于Imagenet[21]上。利用Imagenet 訓(xùn)練一個GAN 網(wǎng)絡(luò),將其生成的樣本輸入已經(jīng)經(jīng)過預(yù)訓(xùn)練的InceptionV3 網(wǎng)絡(luò)中,會返回一個判別概率值。對于同一類別樣本數(shù)據(jù)來說,其輸出的概率應(yīng)當趨向于集中分布,而對于不同類別來說,其輸出的概率應(yīng)當趨向于均勻分布。IS分數(shù)的公式如下:

式中,χ~Pg表示從樣本空間Pg中生成圖片χ,P(y|χ)表示生成圖片屬于某一類別的概率,P(y)表示所有類別的邊緣概率分布。IS 分數(shù)實際上是在判斷條件類分布與類分布之間的KL 距離,IS 越大則模型的質(zhì)量越好。但IS在判斷模型是否有過擬合缺陷方面并不敏感,尤其是在大規(guī)模數(shù)據(jù)集上。同時由于IS只在生成模型上進行預(yù)測,因此無法判斷真實數(shù)據(jù)和樣本間的距離。

(2)Fréchet Inception Distance(FID)

為了彌補上述IS分數(shù)的缺陷,F(xiàn)ID可以反映生成樣本與真實數(shù)據(jù)之間的距離,其公式如下:

FID分數(shù)相較于IS具有較強的魯棒性,其通過InceptionV3網(wǎng)絡(luò)來進行特征的提取,構(gòu)成了真實樣本和生成樣本兩個概率分布。通過評價這兩個分布之間的距離來達到模型評價的目的,F(xiàn)ID由于其優(yōu)良的噪聲抵抗能力,在模型多樣性評價方面具有更好的效果。但是FID的缺點在于依然沒有解決大規(guī)模數(shù)據(jù)集上無法進行模型過擬合評價的問題。

IS 和FID 由于都經(jīng)過了基于Imagenet 的預(yù)訓(xùn)練網(wǎng)絡(luò),因此實際上對于評價與Imagenet相差較遠的圖像來說達不到預(yù)期效果。

2 GAN模型的發(fā)展變體

GAN誕生后,針對不同的計算性能及應(yīng)用需求,衍生出多種變體模型。GAN的發(fā)展變體大致分為基于結(jié)構(gòu)和基于損失函數(shù)兩類[22]。

2.1 基于結(jié)構(gòu)變體的GAN

基于結(jié)構(gòu)變體的GAN是生成對抗網(wǎng)絡(luò)重要的創(chuàng)新方向之一,本節(jié)分別從五個角度對其進行介紹,并重點分析了其代表算法??偨Y(jié)如表1所示。

表1 結(jié)構(gòu)變體GAN

2.1.1 深度學(xué)習(xí)生成GAN

DCGAN[23]作為第一個將卷積神經(jīng)網(wǎng)絡(luò)思想引入GAN 中的算法,已經(jīng)成為了GAN 模型的基準[24]。深度學(xué)習(xí)的任務(wù)是發(fā)現(xiàn)豐富的、有層次的模型[25]。而卷積神經(jīng)網(wǎng)絡(luò)(CNN)由于其良好的平移不變性,成為了深度學(xué)習(xí)代表性方法。真正意義上的CNN 由文獻[26]提出,LeCun等人[27]利用LeNet-5提出了一種基于反向梯度傳播的算法。此后CNN 快速發(fā)展,并廣泛應(yīng)用于圖像處理、自然語言處理等領(lǐng)域。

深度卷積生成對抗網(wǎng)絡(luò)DCGAN 是一種將CNN 與GAN 有機結(jié)合的一種生成算法[28]。作為最大似然方法的替代方案,其特點在于生成器和鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)都采用了卷積神經(jīng)網(wǎng)絡(luò),且均沒有使用池化層。

DCGAN采用“卷積+上采樣”的設(shè)計方式,G可以進行矢量加減,其使用的BN 技巧極大地減小了初始化訓(xùn)練時造成的不穩(wěn)定學(xué)習(xí)問題。生成器的卷積層采用ReLU[29]作為激活函數(shù),輸出層采用Tanh作為激活函數(shù),鑒別器激活函數(shù)全部采用LeakyReLU。在訓(xùn)練過程中對D 和G 采用了批量歸一化[30]的技巧。這樣便不用考慮在訓(xùn)練的過程中DropOut[31]、L2正則項等方法帶來的參數(shù)選擇問題。作為一種典型的無監(jiān)督學(xué)習(xí)算法,其反向卷積神經(jīng)網(wǎng)絡(luò)(也稱為轉(zhuǎn)置CNN)用來生成樣本,同時也可以實現(xiàn)CNN 特征的可視化,并表現(xiàn)出了良好的效果[32],DCGAN生成器結(jié)構(gòu)如圖3所示[23]。

2.1.2 半監(jiān)督生成GAN

GAN最初應(yīng)用于無監(jiān)督學(xué)習(xí)領(lǐng)域,而Odena提出的SGAN[33]介紹了一種基于半監(jiān)督學(xué)習(xí)的模型訓(xùn)練方法,其結(jié)構(gòu)如圖4 所示。半監(jiān)督學(xué)習(xí)介于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之間,只需要提供在一定范圍內(nèi)的小樣本集標簽。在此之前,Kingma 等人[34]已經(jīng)對半監(jiān)督生成模型進行了初步嘗試,同時Springenberg[35]設(shè)計了一種基于半監(jiān)督學(xué)習(xí)的GAN,SGAN 的結(jié)構(gòu)圖如圖4 所示,在原始GAN 架構(gòu)的上加入了分類器C,在判別器中分別使用Softmax[36]和Sigmoid[37]函數(shù),這樣可以在對樣本真假進行區(qū)分的同時,也能夠?qū)Υ罅课礃撕灥恼鎸崝?shù)據(jù)進行分類。

2.1.3 條件式生成GAN

圖3 DCGAN

圖4 SGAN

傳統(tǒng)的GAN 中由隨機噪聲產(chǎn)生樣本數(shù)據(jù),因此存在信息生成不可控的缺陷,訓(xùn)練過程自由度過高。van den Oord 等人[38]指出利用類條件合成的方法可以顯著提高生成樣本的質(zhì)量。如圖5 所示,CGAN[39]在傳統(tǒng)的GAN 網(wǎng)絡(luò)中加入了附加條件信息y,用于控制G 和D的訓(xùn)練進程。其中y可以是類別標簽,也可以是修復(fù)數(shù)據(jù)的某一部分,或來自于不同的模態(tài)數(shù)據(jù)[40]。CGAN顯著提高了模型訓(xùn)練的穩(wěn)定性,也為后續(xù)的條件式生成對抗網(wǎng)絡(luò)提供了參考,其目標函數(shù)及架構(gòu)如下所示,其中Y作為D和G的附加輸入層:

圖5 CGAN

如圖5所示,此外,在條件式生成思想下,Chen等借鑒了信息論的思想,提出了一種基于信息量最大化的生成對抗網(wǎng)絡(luò)InfoGAN[41],試圖利用信息論的知識來解釋無監(jiān)督學(xué)習(xí)方式中的信息表征問題。Odena 等人提出了AC-GAN[42],并成功運用于大范圍類別標簽數(shù)據(jù)中。

2.1.4 漸進式生成GAN

漸進式生成算法的核心思想在于層層遞進的生成方式,不同的生成節(jié)點完成各自的生成任務(wù)。最具代表性的為Denton 等人提出的LAPGAN[43],該結(jié)構(gòu)的生成器部分由一個串聯(lián)的網(wǎng)絡(luò)構(gòu)成,可以將低分辨率的輸入圖像轉(zhuǎn)換為高分辨率的生成圖像。拉普拉斯金字塔[44]是一種圖像編碼方式,LAPGAN 的特點在于在金字塔的每一層訓(xùn)練一個單獨的生成對抗網(wǎng)絡(luò)模型,是一種由粗到細的圖像生成框架。通過輸入低分辨率的低維圖像,再將圖像進行層層上采樣操作,最終產(chǎn)生高維圖像。這樣做的目的在于降低輸入數(shù)據(jù)的復(fù)雜程度,同時又可以提高圖像生成的多樣性。但是由于其在生成的節(jié)點中容易引入噪聲,因此會造成訓(xùn)練不穩(wěn)定的問題。LAPGAN 有利于高分辨率的圖像建模,但是對于指定任務(wù)的圖像生成較為困難。其結(jié)構(gòu)如圖6所示。

2.1.5 編解碼生成GAN

編解碼是信息論重要的研究內(nèi)容之一,即對信源符號進行信息正向壓縮,對信宿內(nèi)容進行反解變換的過程。在通信系統(tǒng)信息傳輸過程中,信源需要經(jīng)過編碼才可傳入信道,同樣只有經(jīng)過解碼,信宿才可接收到信息。由于信息在經(jīng)過通信系統(tǒng)后會產(chǎn)生損耗,而編解碼方法可以提高數(shù)據(jù)壓縮的效率和數(shù)據(jù)傳輸?shù)臏蚀_度。如李江等人利用編解碼技術(shù)中的降噪自編碼器原理,成功實現(xiàn)了人臉表情識別[45]。

圖6 LAPGAN

BEGAN[46]作者借鑒了EBGAN[47]中編解碼的思想,在鑒別器中加入了一個自編碼器。如圖7所示,數(shù)據(jù)在經(jīng)過編解碼后,與原輸入信息相比會產(chǎn)生大小不同的損失,稱為重建損失。傳統(tǒng)的GAN 采用直接擬合真實分布的策略,及通過計算真實分布與生成分布之間的距離,來達到生成樣本的目的。而BEGAN 與之不同,它重點計算數(shù)據(jù)重建之后分布誤差之間的距離。若二者接近的話,也可以完成訓(xùn)練任務(wù)。值得注意的是,BEGAN第一次將GAN的均衡點進行了證明,同時提供了一種可以平衡生成質(zhì)量和多樣性的超參數(shù)。

2.2 基于損失變體的GAN

損失函數(shù)是GAN 對抗過程的重要體現(xiàn)之一,決定著D 和G 的參數(shù)更新方向。在基于損失變體的GAN中,分別從Wasserstein損失、統(tǒng)一框架f散度、最小二乘損失角度進行總結(jié),如表2所示。

表2 損失函數(shù)變體GAN

2.2.1 Wasserstein距離WGAN/WGAN-GP

傳統(tǒng)的GAN 在訓(xùn)練過程中,如果訓(xùn)練樣本與生成樣本之間如果距離過近時,JS 散度為一個常數(shù),這時候就會產(chǎn)生梯度消失問題。Arjovsky 等人提出了一種基于EM距離(也稱推土機距離)的算法WGAN[48],徹底解決了GAN 的梯度消失問題,同時也增加了訓(xùn)練的穩(wěn)定性。與KL、JS散度相比較,EM距離由于是連續(xù)的,即使分布之間沒有重疊也可以很好地計算距離。EM距離的公式如下:

根據(jù)EM距離,WGAN的目標函數(shù)為:

WGAN 存在無法直接實現(xiàn)1-Lipschitz 約束條件的缺點,在實際應(yīng)用中使用權(quán)重剪枝的方法,使得判別器更新后的值限制在(-c,c)范圍內(nèi)。這樣可以強行使判別器的目標函數(shù)變得平滑,但是這種方法容易造成訓(xùn)練困難、收斂緩慢的問題。因此,文獻[49]提出了WGAN-GP算法,通過在原WGAN基礎(chǔ)上加入懲罰項的方法,使得判別器對x的輸出梯度限制在了1 以內(nèi),實現(xiàn)了與1-Lipschitz約束條件等價的效果。

2.2.2 統(tǒng)一框架f-GAN

f-GAN[50]提出了一種利用f散度進行GAN 訓(xùn)練的系列方法。該文指出在衡量兩個分布P、Q之間的距離時,不僅JS散度適用,任何滿足條件的散度集合都可以指導(dǎo)模型的訓(xùn)練。這個散度集合統(tǒng)稱為f散度,其公式如下:

其中,f滿足兩個條件,凸函數(shù)及f(1)=0。

因此,在f散度框架下,只要能找出符合散度要求的函數(shù),便能夠據(jù)此定義不同的目標函數(shù),設(shè)計不同的GAN。f函數(shù)如表3所示。

表3 f散度框架函數(shù)

2.2.3 最小二乘LSGAN

LSGAN[51]是一種具有高質(zhì)量圖像生成和高穩(wěn)定性訓(xùn)練特征的GAN 算法,其突出特征在于采用了最小二乘原理。傳統(tǒng)的GAN大多使用交叉熵、KL散度等作為損失函數(shù),在判別器判定某種分布為1 的情況下,這些樣本便不會繼續(xù)得到優(yōu)化。這會使判定為真且遠離決策邊界的假樣本停止更新。而在最小二乘損失下,這些樣本會繼續(xù)得到優(yōu)化,從而有利于對假樣本的排除,這是使得生成圖像質(zhì)量更高的原因。LSGAN的目標函數(shù)為:

圖7 BEGAN

3 GAN在圖像處理方面的應(yīng)用

3.1 高質(zhì)量圖像生成

GAN 在設(shè)計之初就是為了進行圖像的生成,圍繞高質(zhì)量圖像生成這一內(nèi)容衍生出多種GAN算法。主要分多樣本訓(xùn)練、少樣本訓(xùn)練、圖像超分等方向。

針對多樣本訓(xùn)練的GAN 算法來說,DCGAN 和LAPGAN 分別采用了CNN 和拉普拉斯上采樣兩種方法,但是二者都無法進行大尺寸圖像生成。吳春梅等人[52]利用DCGAN 架構(gòu)提出了一種基于深度學(xué)習(xí)的GAN 網(wǎng)絡(luò),實現(xiàn)了靜態(tài)圖像人體姿態(tài)估計。真正意義上大尺寸圖像生成的提出為ProGAN[53],屬于一種漸進式生成GAN算法。利用漸進式神經(jīng)網(wǎng)絡(luò)[54]的思想提出了一種增長型訓(xùn)練的方式,其核心在于動態(tài)更新的生成器網(wǎng)絡(luò)。這種圖像生成技巧較大幅度地提高了訓(xùn)練的有效性,但是由于其生成器模型需要不斷更新,會帶來訓(xùn)練周期較長的問題,降低了訓(xùn)練效率。ProGAN 在CelebA中的訓(xùn)練效果如圖8所示。

圖8 ProGAN

針對單樣本或少樣本學(xué)習(xí)來說,Li 等人利用W 損失設(shè)計了一種生成對抗網(wǎng)絡(luò)AFHN[55]用于少量樣本學(xué)習(xí),通過加入分類和抗塌陷正則化器提高合成特征的多樣性。Shaham等人[56]提出了SinGAN,該算法可以從單張的自然圖像學(xué)習(xí)生成高質(zhì)量圖像,SinGAN 將圖像進行切分,從而學(xué)習(xí)單張圖像中某小塊數(shù)據(jù)的分布。由于使用全卷積網(wǎng)絡(luò),因此并不需要設(shè)定輸入尺寸,可以生成與原圖相似,但有細微差別的高質(zhì)量圖像。

圖像超分也是高質(zhì)量圖像生成的方式之一,其目的在于通過算法將低分辨率的圖像轉(zhuǎn)為高分辨率的圖像,文獻[57]第一次提出了這個問題。GAN 在圖像超分中應(yīng)用最廣泛的算法為SRGAN[58],這是第一個能夠根據(jù)4倍的放大因子推斷出逼真的自然圖像的框架。彭晏飛等人提出了一種基于生成對抗網(wǎng)絡(luò)的單張圖像的超分辨率重建方法[59]。

此外,武隨爍等人將孿生注意力機制與GAN 進行結(jié)合,提出了一種新型GAN框架,證明了該方法能夠更加全面地獲取圖像中的特征信息,從而可以獲得更高質(zhì)量的生成樣本[60]。BiGAN[61]利用VAE 架構(gòu),提出了一種新的優(yōu)化思路,BigGAN[62]算法使得Batch_size 達到了2 048,也帶來了高保真、高細粒度的生成樣本。Big-BiGAN[63]將BiGAN和BigGAN結(jié)合起來,彌補了DCGAN的不足,使得圖像生成質(zhì)量進一步提高。

3.2 圖像變換

圖像變換是GAN 重要的應(yīng)用方向之一,GAN 強大的函數(shù)擬合能力使其在風(fēng)格遷移、人臉合成、場景渲染、圖像跨域等方面產(chǎn)生許多有價值的應(yīng)用。

圖像風(fēng)格遷移是指將按照B 圖像的風(fēng)格來生成A圖像的過程,這種應(yīng)用主要在舊圖像上色、模擬換裝等方面進行應(yīng)用,Isola 等人[64]討論了Image-to-Image 的通用解決方案。在計算機視覺領(lǐng)域,圖像生成大多都是將已經(jīng)輸入的圖片“轉(zhuǎn)換”成對應(yīng)的輸出圖片,實質(zhì)上是一個圖片模仿的過程。CycleGAN[65]是圖像風(fēng)格轉(zhuǎn)換最有代表性的算法,核心思想為循環(huán)一致性,利用兩個轉(zhuǎn)換器的損失所構(gòu)成的重構(gòu)誤差來進行訓(xùn)練,并帶來了許多有趣的應(yīng)用,如季節(jié)的轉(zhuǎn)換、馬與斑馬的轉(zhuǎn)換、油畫風(fēng)格轉(zhuǎn)換等。

StyleGAN[66]在人臉合成領(lǐng)域取得了較好的成果,其將生成器的起點設(shè)置為一個常量,在網(wǎng)絡(luò)的每個卷積層中作用一個隱空間編碼,來達到控制樣式的目的。同時借鑒了ProGAN中層層遞進的思想,其結(jié)果如圖9所示。

圖9 StyleGAN

圖像場景渲染是圖像處理中一個富有挑戰(zhàn)性的任務(wù),針對高分辨率白天圖像渲染問題,文獻[67]提出了一種高分辨率日間轉(zhuǎn)換模型(HiDT),HiDT 的架構(gòu)由編解碼器組成,并通過AdaIN[68-69]鏈接在一起。在訓(xùn)練過程中用到了沒有白天標簽的靜態(tài)景觀數(shù)據(jù)集,利用Image-to-Image 以及文中新設(shè)計的上采樣方案,可以達到晝夜轉(zhuǎn)換的效果。

圖像跨域也是圖像變換的常見問題之一,先前文獻[70]已經(jīng)進行了相應(yīng)的研究,實現(xiàn)了從邊框生成手提包的功能。在漫畫領(lǐng)域,圖像上色是一個費時費力的工作,對于漫畫自動上色問題早期在文獻[71-73]中進行了研究。對于素描圖像來說,有著色彩單一、信息不夠豐富的缺點,對其進行顏色填充是近年來十分熱門的方向之一。2020 年文獻[74]提出了一種將素描風(fēng)格轉(zhuǎn)換為圖像風(fēng)格的算法,該算法使用增強自參考的思想,設(shè)計了一種特征轉(zhuǎn)移模塊,將參考點表示轉(zhuǎn)移到了草圖對應(yīng)的空間位置、獲得了逼真的草圖漫畫上色效果。

3.3 文本生成圖像

文本生成圖像是GAN領(lǐng)域富有創(chuàng)造性的研究方向之一,同時也擁有廣泛的應(yīng)用前景。其主要目的是利用現(xiàn)有的語言描述來生成對應(yīng)特征的圖像,Reed 等人在文獻[75]設(shè)計了一種由文本生成圖像的GAN算法,加入了流形插值正則化器。文獻[76]也進行了相應(yīng)嘗試,并成功生成了符合語義條件的64×64圖像。但是由于其細節(jié)信息丟失嚴重,因此成像質(zhì)量較差。針對基于文本引導(dǎo)的高分辨率圖像生成背景,StackGAN[77]產(chǎn)生了良好的效果。其核心算法在于分階段生成,文章又在整個訓(xùn)練過程引入了條件強化技術(shù),增加了生成對象的平滑特性。

同時,GAN 在文本生成圖像方面已經(jīng)具有實際應(yīng)用,CookGAN[78]是一種基于文本生成菜單的GAN算法,該文從圖像因果鏈的角度來解決文本生成圖像問題,可以生成符合條件的菜肴樣本。TiVGAN[79]設(shè)計了一種根據(jù)文本可以生成視頻序列的架構(gòu)。

3.4 圖像修復(fù)

圖像修復(fù)是指利用學(xué)習(xí)到的圖像信息或者修復(fù)模式,對受到損害的圖像進行補全或修改的技術(shù)。圖像修復(fù)可以運用于圖像補全、圖像去模糊等眾多場景中。早期對于圖像修復(fù)的研究見于文獻[80-81]中,GAN 由于其具有良好的擬合真實分布的能力,在圖像修復(fù)方面表現(xiàn)出較好的效果。

在圖像補全方面,UCTGAN[82]是一種新的基于GAN的修復(fù)算法,采取了端到端的方式,通過條件編碼器模塊、流形模塊、生成模塊三模塊的設(shè)計,可以提供多個修復(fù)方案,其效果如圖10 所示。實驗證明對于人臉、街景、自然風(fēng)光修復(fù)方面,可以提供更好的解決方案。此外,王海涌等人對傳統(tǒng)GAN算法進行改進,將其應(yīng)用于局部遮擋的人臉表情識別中[83]。

圖10 UCTGAN

在圖像去模糊方面,Engin等人[84]改進CycleGAN的架構(gòu),可以有效去除圖像中的霧。Lin 等人[85]提出了基于文檔去陰影的應(yīng)用場景。該算法提出了背景估計文檔陰影去除網(wǎng)絡(luò)(BEDSR-Net),通過背景估計模塊的設(shè)計,學(xué)習(xí)了背景和非背景模塊的空間分布信息,并將這些信息編碼為注意力地圖。通過估計全局背景顏色和注意力貼圖,陰影去除網(wǎng)絡(luò)可以更好地恢復(fù)無陰影圖像。

4 總結(jié)與展望

GAN在近年來已經(jīng)成為了熱門的研究方向。雖然起步時間較晚,但是發(fā)展迅猛,在圖像處理的眾多領(lǐng)域已經(jīng)做出了重要貢獻。作為一種無監(jiān)督學(xué)習(xí)的方法,和監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)進行結(jié)合,同樣可以產(chǎn)生良好的效果。從長遠來看,這種具有創(chuàng)造性的模型體制正處于穩(wěn)步上升階段。但由于其本身存在模型坍塌、梯度消失等問題,依然制約著其生成效果、訓(xùn)練效率、應(yīng)用范圍,具體表現(xiàn)如下:

(1)圖像生成多樣性較低

圖像生成多樣性一直是GAN研究領(lǐng)域的重要問題之一,傳統(tǒng)GAN算法只能擬合小尺寸的簡單數(shù)據(jù)集,生成圖像復(fù)雜度較低。此后GAN算法一直都圍繞圖像多樣性展開?,F(xiàn)有的GAN算法已經(jīng)可以生成難以區(qū)分的高質(zhì)量圖像,但在圖像多樣性發(fā)展中會有眾多因素制約,往往會與圖像尺寸、模型復(fù)雜度等其他因素產(chǎn)生矛盾。例如,作為GAN 與深度學(xué)習(xí)結(jié)合最具代表性的模型,DCGAN 使得圖像生成多樣性有所提高,但是其只能局限在低分辨率圖像生成范圍內(nèi)。CGAN 由于加入了條件約束,增加了訓(xùn)練穩(wěn)定性,但是同時也造成了生成多樣性不足的缺陷。

(2)模型訓(xùn)練效率不足

模型訓(xùn)練效率的不足主要是指兩點:①由模型坍塌、梯度消失帶來的訓(xùn)練不穩(wěn)定;②復(fù)雜的模型結(jié)構(gòu)及冗余信息造成的訓(xùn)練周期過長。例如,LAPGAN 由于采用了多個生成器連續(xù)進行金字塔生成的方法,在一定程度上有利于高分辨率建模,但是其訓(xùn)練過程產(chǎn)生的額外噪聲拖慢了訓(xùn)練速度。ProGAN 在人臉生成上取得了顯著的成功,但是其動態(tài)更新的生成器使得圖像生成的整個過程變得異常緩慢,1 024×1 024 的圖像在高性能計算機中訓(xùn)練時長可達16天之久。

(3)評價標準體系不完善

現(xiàn)有對GAN的評價指標主要有主觀評價和客觀評價兩種,存在以下幾點問題:①主觀評價標準的建立未分級量化;②客觀評價標準并未做到科學(xué)統(tǒng)一。

(4)算法應(yīng)用領(lǐng)域研究不廣泛

GAN 在較短的發(fā)展年限內(nèi)已經(jīng)應(yīng)用于多個領(lǐng)域,但是多局限于圖像處理范疇,許多算法只提及其可實現(xiàn)的功能,而未說明其利用價值。且在諸如NLP等領(lǐng)域發(fā)展緩慢。主要原因有:①具有實際利用價值的算法在圖像生成真實性上存在質(zhì)疑,在主觀視覺上無法滿足應(yīng)用需求;②缺乏泛化能力,在實驗數(shù)據(jù)上效果良好,但無法移植到其他場景。例如,Li等人[86]于2017年提出的一種基于復(fù)雜場景的圖像修復(fù)方法,實際效果并不能達到以假亂真。UCTGAN提供的多個修復(fù)方案中依然存在一些失真問題,不被人眼視覺所能接受。CookGAN針對烹飪過程進行語義上的建模,但應(yīng)用于其他場合需要進行大量的參數(shù)調(diào)整。

通過對現(xiàn)有GAN 算法及其應(yīng)用的歸納總結(jié),以及現(xiàn)階段GAN 存在問題的梳理,總結(jié)出以下幾個可供發(fā)展的方向,主要包括:

(1)注重基礎(chǔ)算法研究,要解決實際問題,就要從結(jié)構(gòu)、損失函數(shù)角度進行算法的設(shè)計。如充分利用條件式生成對抗網(wǎng)絡(luò)以及深度學(xué)習(xí)原理,對流程架構(gòu)進行調(diào)整,并設(shè)計更加合理的約束條件。在保證圖像生成質(zhì)量以及訓(xùn)練穩(wěn)定性的前提下,增加圖像的多樣性生成能力。

(2)探討內(nèi)部機理,當前階段GAN與深度學(xué)習(xí)已不可分割,而深度學(xué)習(xí)目前依然是個黑箱,其內(nèi)部機理的研究不夠深入,這也直接導(dǎo)致了GAN 算法存在同樣的問題。因此選擇合適的工具,探究現(xiàn)有算法內(nèi)部的信息流傳遞機理,以此來尋找制約模型訓(xùn)練失穩(wěn)、周期較長問題的解決方法,并加以改進。

(3)規(guī)范評價標準,明確標準建立的科學(xué)性、綜合性,注重跨領(lǐng)域融合。如可以參考已有的圖像主觀評價標準,建立基于GAN 的主觀評價量化指標。針對生成圖像信息量的客觀評價指標體系,對性能、過擬合程度等指標進行系統(tǒng)研究并建模。

(4)擴大應(yīng)用范圍,注重算法跨領(lǐng)域移植的能力。如可以將GAN 圖像生成應(yīng)用于遙感圖像智能處理中。近年來GAN 算法的數(shù)量成倍擴增,其中不乏可以直接部署于遙感圖像處理中的優(yōu)良算法。如DCGAN 可以用于遙感數(shù)據(jù)樣本擴增,SinGAN 可以用于高分辨率單景圖像生成,CycleGAN可以用于時序數(shù)據(jù)修改,BEDSRNet可以用于遙感圖像去云等。

5 結(jié)束語

GAN 在短短不足十年的發(fā)展中,所展現(xiàn)出的張力對圖像處理領(lǐng)域產(chǎn)生了巨大的沖擊。從發(fā)展的三個階段來看,目前GAN算法的復(fù)雜性正不斷提高,帶來更好使用效果的同時對計算資源的支撐也帶來了不小的挑戰(zhàn)??偠灾哔|(zhì)量、高多樣性、強泛化能力依舊是GAN在圖像處理領(lǐng)域不變的主題。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美精品成人| 99久久免费精品特色大片| 国产精品主播| 四虎在线观看视频高清无码 | 国产男人的天堂| 这里只有精品国产| 最近最新中文字幕免费的一页| 日韩成人在线视频| 国产欧美另类| 在线国产你懂的| 四虎精品国产AV二区| 日韩欧美国产成人| 91精品在线视频观看| 日韩欧美国产成人| a毛片在线| 在线播放精品一区二区啪视频 | 国产精品久久久久久影院| 久久香蕉国产线看精品| 欧美精品亚洲精品日韩专区| 欧美成人在线免费| 69免费在线视频| 国产精品 欧美激情 在线播放| 一级看片免费视频| 天堂av综合网| 国产v精品成人免费视频71pao| 久久国产精品无码hdav| 又污又黄又无遮挡网站| 国产欧美又粗又猛又爽老| 黄色国产在线| 国产波多野结衣中文在线播放| 亚洲a级毛片| 国产91精品调教在线播放| 国产九九精品视频| 一级成人a做片免费| 欧美中出一区二区| 99国产精品免费观看视频| 国产精品无码作爱| 国产门事件在线| 日韩成人在线视频| 欧美在线天堂| 男人天堂亚洲天堂| 天天色综合4| 啪啪啪亚洲无码| 精品国产99久久| 日韩不卡免费视频| 亚洲AV无码乱码在线观看代蜜桃| v天堂中文在线| 国产精品偷伦视频免费观看国产| 97视频精品全国在线观看| 国产美女精品一区二区| 韩国福利一区| 不卡无码网| 国产欧美高清| 色成人综合| 国产欧美成人不卡视频| 亚洲精品你懂的| 欧美性猛交xxxx乱大交极品| 91精品专区| 欧美日韩福利| 久久久久亚洲AV成人网站软件| 欧美笫一页| 成年人国产视频| 伊伊人成亚洲综合人网7777| 99在线视频免费观看| 国产精品毛片一区视频播| 孕妇高潮太爽了在线观看免费| 亚洲另类色| 亚洲国产天堂在线观看| 亚洲一级毛片在线观播放| 在线国产你懂的| 热这里只有精品国产热门精品| 久久精品国产精品青草app| 精品亚洲麻豆1区2区3区| 一本大道无码日韩精品影视| 黄色三级网站免费| 伊人福利视频| 全色黄大色大片免费久久老太| 色偷偷一区| a毛片免费看| 国产欧美在线观看一区| 国产精品夜夜嗨视频免费视频| 欧美视频在线第一页|