999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成對抗網(wǎng)絡(luò)研究及應(yīng)用

2020-11-02 07:59:50彭泊詞邵一峰
現(xiàn)代計算機 2020年27期
關(guān)鍵詞:模型

彭泊詞,邵一峰

(北京師范大學(xué)人工智能學(xué)院,北京 100875)

0 引言

近年來,機器學(xué)習(xí)領(lǐng)域發(fā)展迅速。在機器學(xué)習(xí)中,深度學(xué)習(xí)已經(jīng)在人臉識別[1-3]、人機對話[4-5]、機器翻譯[6-7]等領(lǐng)域取得了良好的效果。機器學(xué)習(xí)任務(wù)中的無監(jiān)督學(xué)習(xí)不依賴于大量帶有標記的數(shù)據(jù),是一個非常具有研究前景的方向。生成模型是無監(jiān)督學(xué)習(xí)的一項關(guān)鍵技術(shù),但是早期的生成模型建模比較困難,因此發(fā)展緩慢。生成對抗網(wǎng)絡(luò)GAN 自Goodfellow[8]等人提出后,由于其新穎的對抗思想以及優(yōu)秀的生成效果,被學(xué)術(shù)界和工業(yè)界所重視。

1 GAN的基本原理

1.1 模型結(jié)構(gòu)

GAN 最初是在 2014 年由 Goodfellow 等人[8],受博弈論中的零和博弈啟發(fā),在NIPS 中提出的。GAN 由兩個神經(jīng)網(wǎng)絡(luò)構(gòu)成:生成模型G 和判別模型D。其中,生成模型G 用來生成與真實樣本相近的生成樣本G(z)。判別模型D 用來判別輸入的樣本是否是真實樣本,若判別模型認為輸入數(shù)據(jù)x 為真實樣本則輸出D(x)=1,否則輸出D(x)=0 。GAN 模型結(jié)構(gòu)如圖1所示。

圖1 GAN模型結(jié)構(gòu)

通過交替訓(xùn)練兩個模型,使得G 生成的樣本能夠“欺騙”D 以逼近于真實樣本,D 能夠更準確的判斷輸入的樣本是來自于真實樣本還是由生成模型生成的樣本。當訓(xùn)練D 的時候,對于真實輸入的樣本,我們期望得到接近于1 的輸出值,即D(x)趨向于1;如果給定樣本是來自于生成模型生成的,那么我們期望得到接近于0 的輸出值,即D(G(z))趨向于0,這里的z是輸入到生成模型的服從某一個簡單分布(如:高斯分布)的隨機噪聲。而當訓(xùn)練G 的時候,我們期望得到的生成樣本能夠“騙過”判別模型,也就是D(G(z))趨向于1。根據(jù)以上所述的原理,可以構(gòu)造出如下所示的目標函數(shù):

如圖1 所示,在GAN 的訓(xùn)練過程中,先固定G 的參數(shù),訓(xùn)練D,根據(jù)輸出結(jié)果調(diào)整參數(shù),使得D 的性能最優(yōu)。然后固定D 的參數(shù),訓(xùn)練G,得到G 網(wǎng)絡(luò)的參數(shù)。當pz=pdata,達到納什平衡,此時為全局最優(yōu)。當D 判別樣本的準確率穩(wěn)定在即生成模型無法判斷出給定的樣本是來自于真實樣本還是由生成模型生成的生成樣本。

1.2 模型的優(yōu)點與缺點

GAN 模型相較于其他的模型,具有顯著優(yōu)勢。與其他的生成網(wǎng)絡(luò)有所不同,GAN 在計算的時候可以不使用馬爾科夫鏈,僅僅只需要通過BP 反向傳播算法來獲得梯度。除此之外,輸入到GAN 模型中的數(shù)據(jù)先驗假設(shè)較少,數(shù)據(jù)可以是任意簡單的分布,如:高斯分布。并且相較于其他模型,GAN 輸出的生成樣本更加清晰真實。

雖然GAN 的優(yōu)勢特別突出,但是同時也存在著很多缺點。一方面,模型要使得G 和D 訓(xùn)練保持同步,但是實際情況是二者很難保持同步,因此GAN 模型的訓(xùn)練很不穩(wěn)定。另一方面,原始的GAN 模型是用KL散度和JS 散度來衡量兩個分布的差異的,而當判別模型訓(xùn)練到最優(yōu)的時候,如果兩個分布沒有重疊的(在實際中出現(xiàn)最多的就是這種情況),JS 散度就會變成一個常數(shù),這時梯度為0,因而生成模型無法獲得梯度信息。這就是梯度消失現(xiàn)象。除此之外,GAN 模型還具有模式崩潰的缺點。模式崩潰現(xiàn)象是指GAN 模型生成的樣本不具備多樣性,這樣的話就大大削弱了其在數(shù)據(jù)增強中的效果。產(chǎn)生這種現(xiàn)象的原因是,同一類別的高維數(shù)據(jù),往往集中在某個低維流形附近,因此生成模型為了安全,會生成一些重復(fù)的樣本,造成模型的退化。

2 GAN的變體

由于GAN 存在訓(xùn)練困難等問題,研究者們不斷地對GAN 進行改進,出現(xiàn)了很多GAN 的變體。下面就幾種常用的變體進行討論。

2.1 CCGGAANN

針對原始GAN 生成過于自由的問題,Mirza M 等人[9]通過增加約束條件來控制生成過于自由的問題,提出了CGAN,如圖2 所示。在生成模型和判別模型的輸入中增加一個約束條件y,這樣CGAN 成為有監(jiān)督學(xué)習(xí),可以向著給定的方向生成數(shù)據(jù)。其目標函數(shù)為:

圖2 CGAN結(jié)構(gòu)

雖然CGAN 控制了生成過于自由的問題,但并沒有解決訓(xùn)練不穩(wěn)定的問題。

2.2 LAAPPGGAANN

LAPGAN[10]是在CGAN 的基礎(chǔ)上,利用多個CGAN構(gòu)建高斯金字塔和拉普拉斯金字塔[11]生成高分辨率的圖像。拉普拉斯金字塔的公式如下:

圖3 LAPGAN訓(xùn)練過程[10]

如圖3 所示,對于拉普拉斯金字塔的第0 層,也就是原始圖像I0,通過下采樣得到l,再對其上采樣得到I0,進而得到第0 層的拉普拉斯金字塔h0=I0-l0,將其作為CGAN 的真實樣本數(shù)據(jù),而后將I0作為CGAN 的條件變量,通過輸入噪聲z0生成虛假數(shù)據(jù)。通過不斷訓(xùn)練使得不斷逼近h0,以此類推,逐層完成訓(xùn)練。

訓(xùn)練完成后,將低分辨率圖像z3輸入到G3中,得到圖像I3,對其上采樣得到G2的條件變量l2,通過對G2輸入噪點z2得到h2,將其與l2相加即得到I2。同樣的方式可以得到I1和I0,I0即LAPGAN 得到的高分辨率圖像。

2.3 DDCCGGAANN

DCGAN[12]是嘗試解決GAN 模型訓(xùn)練不穩(wěn)定的一大經(jīng)典模型,它為后序很多工作奠定了基礎(chǔ)。DCGAN通過將GAN 與CNN 結(jié)合,可以很好地從圖像中學(xué)習(xí)到特征。為了使模型更加穩(wěn)定,DCGAN 在架構(gòu)上相比于CNN 做出了如下改進:將池化層替換為了步幅卷積和微步幅卷積;在生成模型和判別模型中使用批量歸一化進行訓(xùn)練;去掉了全連接層,只在最后進行平均池化;并且在生成模型的輸出層使用tanh 激活函數(shù),而在其他隱藏層中使用ReLU 激活函數(shù);在判別模型的所用層中使用Lecky ReLU 激活函數(shù)。

DCGAN 雖然在一定程度上提高了模型的穩(wěn)定性,并且能夠生成多樣性的圖像,但是仍然存在一些形式的模型不穩(wěn)定性,例如,隨著模型的時間更長,有時會將一些過濾器的子集塌縮為單個的振蕩模式。

2.4 InffooGGAANN

由于傳統(tǒng)GAN 網(wǎng)絡(luò)是無監(jiān)督學(xué)習(xí)模式,隨機噪聲z 的約束性低,可讀性很差,也就是說我們很難確定生成圖像的特征對應(yīng)于z 的哪一維度,而InfoGAN[13]通過將隨機噪聲z 分為c 和z’兩個部分來實現(xiàn)控制生成圖像中的特定特征,其中c 表示隱含編碼,即隨機噪聲中已知對應(yīng)特征的某一維度向量,而z’表示未知的不可壓縮的隨機噪聲信號。

圖4 InfoGAN結(jié)構(gòu)

如圖4 所示,InfoGAN 的生成模型的輸出改為了G(z’,c),同時判別模型D 不僅要判別輸入數(shù)據(jù)的真假,還要通過分類器實現(xiàn)隱含編碼c 的校驗和更新。相較于傳統(tǒng)GAN,InfoGAN 的損失函數(shù)為:

其中λI(c;G(z',c))表示c與G(z',c)的互信息,即隱含編碼與生成圖像特征的相關(guān)性大小,以此選擇性忽略掉相關(guān)性較小或者“不重要”的隱含編碼。

2.5 WWGGAANN

WGAN 是通過對目標函數(shù)進行優(yōu)化,進而提高模型性能的一個典型例子。原始的GAN 模型的目標函數(shù)是通過JS 散度表征的,因此,當兩個分布互不重疊或者重疊部分可以忽略時,目標函數(shù)會趨向于一個常數(shù),這也是梯度消失的原因[14]。

于是,Arjovsky 等人[15]將JS 散度替換為了Wasserstein 距離(又稱 EM 距離)。Wasserstein 距離具有平滑性,同時當兩個分布沒有重疊或重疊可以忽略時,Wasserstein 距離依然可以很好地反映它們的距離,這樣梯度消失的問題就可以在理論上得到解決。

Wasserstein 距離與GAN 模型加以結(jié)合,于是判別模型的目標函數(shù)變?yōu)椋?/p>

生成模型的目標函數(shù)變?yōu)椋?/p>

WGAN 除了在理論層面上解決了梯度消失的問題,還解決了訓(xùn)練不穩(wěn)定的問題。除此之外,還確立了一個判斷模型訓(xùn)練好壞的標準。

2.6 WGAANN--GGPP

WGAN 雖然在理論層面上解決了梯度消失的問題,但是該問題在實驗中卻經(jīng)常發(fā)生。因為,WGAN 采用了權(quán)重剪枝的方法來實施Lipschitz 約束。然而,滿足Lipschitz 約束條件的情況大多數(shù)都不滿足權(quán)重剪枝。

針對這個問題,產(chǎn)生了WGAN-GP[16]。WGAN-GP放棄了權(quán)重剪枝,而是采用一種梯度懲罰的方式。具體來說,就是將Lipschitz 約束正則化,通過把約束寫成目標函數(shù)的懲罰項,以近似Lipschitz 約束條件。

WGAN-GP 在實驗層面也解決了梯度消失的問題,并且具有較強的穩(wěn)定性。但是,WGAN-GP 存在著收斂速度慢的問題,對于同一個數(shù)據(jù)集,WGAN-GP 需要訓(xùn)練更多的次數(shù),才能收斂。

2.7 EEBBGGAANN

EBGAN[17]從能量的角度解決了傳統(tǒng)GAN 梯度消失問題,其與傳統(tǒng)GAN 顯著區(qū)別在于其判別模型D 在本質(zhì)上是一個能量函數(shù),判定輸入數(shù)據(jù)的能量越高則說明輸入數(shù)據(jù)越接近真實數(shù)據(jù),反之能量越低則說明越接近虛假數(shù)據(jù)中。

如圖5 所示,相較于傳統(tǒng) GAN 網(wǎng)絡(luò),EBGAN 并不需要通過比較KL 散度和JS 散度來判別輸入的數(shù)據(jù)x是否為真實數(shù)據(jù),而是直接將x 輸入到自編碼器中,依據(jù)x 與自編碼器輸出的結(jié)果x’的誤差來判別x 是否為真實數(shù)據(jù)。由于自編碼器預(yù)先訓(xùn)練的數(shù)據(jù)就是EBGAN 實際輸入的真實數(shù)據(jù),將未被輸入過自編碼器的生成數(shù)據(jù)與已經(jīng)作為訓(xùn)練數(shù)據(jù)輸入過的真實數(shù)據(jù)所輸出的結(jié)果差異往往會非常大。也因此EBGAN 比傳統(tǒng)的GAN 模型更加穩(wěn)定,但收斂速度較慢。

圖5 EBGAN結(jié)構(gòu)

2.8 LLSSGGAANN

LSGAN[18],即最小二乘GAN,其與傳統(tǒng)GAN 網(wǎng)絡(luò)的主要區(qū)別在于,將目標函數(shù)的判別標準由交叉熵替換為最小二乘。其損失函數(shù)如下:

其中 a、b、c 有b-c=1,b-a=2 和c=b兩種取值方法,其中需要注意的是,不再去求V(D)的最大值,而是求其最小值,即本質(zhì)上,交叉熵與最小二乘相比,后者不僅要是生成樣本欺騙判別模型,還要使距離決策邊界較遠的生成圖像盡可能靠近決策邊界,因此LSGAN 可以有效提高生成圖像的質(zhì)量。但同時,LSGAN 只是將KL 散度替換為了Pearson 卡方散度,并沒有解決梯度消失的問題。

3 GAN模型的應(yīng)用

3.1 風(fēng)格遷移與圖像翻譯

風(fēng)格遷移就是將目標圖像的風(fēng)格遷移到原圖像中,使得原圖像在圖像內(nèi)容不變的前提下獲得目標圖像的風(fēng)格。簡單來說,就是將一幅圖像的風(fēng)格轉(zhuǎn)化為另一種風(fēng)格,例如說:照片轉(zhuǎn)化為素描畫,照片轉(zhuǎn)化為梵高繪畫風(fēng)格。pix2pix[19]在CGAN 模型的基礎(chǔ)上,生成模型和判別模型分別使用了U-NET[20]架構(gòu)和Patch-GAN 分類模型,實現(xiàn)了成對圖像之間的風(fēng)格遷移。CycleGAN[21]提出了循環(huán)一致性的思想,使得兩類圖像經(jīng)過兩次對應(yīng)的映射后,又變?yōu)榱嗽瓉淼膱D像,該模型消除了pix2pix 只能尋找相互配對的圖像的劣勢,不需要配對的圖像數(shù)據(jù)就可以實現(xiàn)圖像的翻譯。DualGAN[22]是一種無監(jiān)督的模型,此模型應(yīng)用了對偶學(xué)習(xí)的思想,并且將損失函數(shù)改為了WGAN 的損失函數(shù),能夠在沒有標簽數(shù)據(jù)的前提下,實現(xiàn)在兩個不同域之間的圖像遷移,大大降低了增添標簽的成本。除了上述模型之外,GANILLA[23]是一種能將自然圖像轉(zhuǎn)變?yōu)閮和x物風(fēng)格的模型,在這一領(lǐng)域GANILLA 取得了顯著的效果,如圖6 所示。

圖6 CycleGAN實現(xiàn)風(fēng)格遷移[21]

3.2 圖像還原與修復(fù)

圖像的還原與修復(fù)是一項重要的工作,應(yīng)用場景也非常的廣泛,例如:破損名畫的修復(fù)、密集場所犯罪嫌疑人識別等。GAN 模型在圖像還原與修復(fù)上具備著良好的性能。Yah 等人[24]提出了一種基于GAN 網(wǎng)絡(luò),通過在潛在的圖像流中尋找與需要修復(fù)圖片最接近的編碼來實現(xiàn)修復(fù)的模型。Li 等人[25]提出了一個深度生成補全圖片補全模型,這個模型通過編碼-解碼生成器、兩個對抗判別器來合成用隨機噪聲遮擋的部分,在面部合成任務(wù)上可以直接生成缺失區(qū)域的內(nèi)容,達到了良好的效果,如圖7 所示。

圖7 圖像修復(fù)[25]

3.3 超分辨率圖像生成

超分辨率圖像生成前景廣闊。多種GAN 模型在生成超分辨率圖像方面有著出色的效果,例如前文所提到的 LAPGAN[10],Ledig 等人提出的 SRGAN[26],以及Xintao Wang 等人提出的 ESRGAN[27]。其中 SRGAN 通過提出一種感知損失函數(shù),來實現(xiàn)對自然圖像的四倍放大。而ESRGAN 則是在SRGAN 基礎(chǔ)上,進行了改進,它引入了RRDB 的概念,同時也對SRGAN 中的網(wǎng)絡(luò)結(jié)構(gòu)、感知損失和對抗損失進行了改進,可以生成比SRGAN 紋理更加真實的圖片。此外,Kupyn 等人提出的DeblurGAN[28]在動態(tài)模糊移除方面有著出色的效果,以及同樣是由Kupyn 提出在DeblurGAN 基礎(chǔ)上改進的Deblur-v2[24],顯著提高了生成圖像的質(zhì)量和效率,如圖8 所示。

圖8 SRGAN(左)、ESRGAN(中)和真實圖像(右)對比[27]

3.4 生成數(shù)據(jù)

數(shù)據(jù)不足是科研工作者常常遇到的難題,并且當今隱私保護問題愈發(fā)受到重視,如何在合法的前提下獲取高質(zhì)量的數(shù)據(jù)集就成了一個非常重要問題。多種GAN 模型在生成數(shù)據(jù)方面效果顯著,例如DCGAN[12]就可以穩(wěn)定生成多樣的數(shù)據(jù),也可以使用CGAN[9]生成我們所期望得到的數(shù)據(jù)類型,類似的,InfoGAN[13]以無監(jiān)督的方式同樣可以生成特定的數(shù)據(jù)。GAN 可以通過插入不同的噪聲生成不同的數(shù)據(jù),實現(xiàn)對原本數(shù)據(jù)集的增廣,例如由一輛黑色的汽車我們可以通過GAN 訓(xùn)練輸出白色、棕色等不同顏色的同類型汽車。但與此同時,如果數(shù)據(jù)集過小,也可能會出現(xiàn)異常數(shù)據(jù)比例較低或過高的現(xiàn)象,導(dǎo)致數(shù)據(jù)集的客觀性減弱。

3.5 其他應(yīng)用

GAN 在其他領(lǐng)域同樣具有良好的表現(xiàn)。例如人臉檢測方面,人臉表情識別[29]、人臉生成[30]等。對于時間序列數(shù)據(jù),MoCoGAN[31]通過分解動作和內(nèi)容進行視頻的生成;Dual Motion GAN[32]通過對偶學(xué)習(xí)能夠精準預(yù)測視頻下一幀的內(nèi)容;除了處理視頻以外,GAN 還可以生成音樂[33-34]。在圖像處理方面,GAN 可以應(yīng)用在圖像分割[35]、根據(jù)文本生成圖像[36]等。不僅如此,GAN 還在自動駕駛[37]、機器翻譯[38]、密碼破譯[39]、醫(yī)療影像分割[40]、重癥監(jiān)護室ICU 記錄生成[41]等也取得了比較出色的效果。

4 結(jié)語

GAN 是無監(jiān)督學(xué)習(xí)的一個強大的計算框架,并且其零和博弈思想也為人工智能領(lǐng)域注入了活力。GAN以其強大的生成能力以及無限建模能力,已經(jīng)在圖像生成等領(lǐng)域展現(xiàn)了絕佳的效果。雖然GAN 還面臨著很多難題,例如說模式坍塌以及模型的生成能力的可解釋性的問題,但是相信在未來,這些問題都會得到解決。希望本文能為我國生成對抗網(wǎng)絡(luò)研究提供參考與啟示。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 这里只有精品在线| 亚洲天堂免费在线视频| 日韩午夜福利在线观看| 欧美激情,国产精品| 丰满人妻中出白浆| 怡红院美国分院一区二区| 最新精品久久精品| 香蕉eeww99国产在线观看| 自偷自拍三级全三级视频| 亚洲成人播放| 亚洲一区二区三区国产精品| аⅴ资源中文在线天堂| 国产SUV精品一区二区6| 日本妇乱子伦视频| 91精品人妻互换| 国产精品福利社| 最新亚洲人成无码网站欣赏网 | 国产AV无码专区亚洲精品网站| 国产www网站| 国产成人8x视频一区二区| 在线观看国产小视频| 狠狠做深爱婷婷久久一区| 亚洲人成网址| 国产在线观看一区精品| 国产免费看久久久| 久久情精品国产品免费| 9久久伊人精品综合| 色网站在线免费观看| 亚洲国产精品不卡在线| 一级毛片在线播放免费观看| 在线观看无码a∨| 亚洲综合专区| 永久免费精品视频| 日本午夜视频在线观看| 国产一区二区三区免费观看| 国产香蕉国产精品偷在线观看| 日韩精品一区二区三区免费在线观看| 久久这里只精品国产99热8| 国产精品自拍合集| 国产亚洲欧美日韩在线一区二区三区| 成人一区在线| 精品91在线| 亚洲国内精品自在自线官| 波多野吉衣一区二区三区av| 一区二区三区四区日韩| 青青草国产一区二区三区| 91国内在线观看| 在线看免费无码av天堂的| 午夜无码一区二区三区在线app| 欧美日韩中文国产| 91九色视频网| 亚洲视频二| 国产91精品调教在线播放| a级毛片毛片免费观看久潮| 国产女人18水真多毛片18精品| 国产极品美女在线观看| 色香蕉影院| 国产日韩欧美视频| 久久男人资源站| 老熟妇喷水一区二区三区| 国产门事件在线| 一级爱做片免费观看久久| 高清免费毛片| 国产欧美在线视频免费| 国产美女叼嘿视频免费看| 国产精品欧美激情| 亚洲精品天堂在线观看| 一级片免费网站| 久久国产精品国产自线拍| 日韩美毛片| 看你懂的巨臀中文字幕一区二区 | 欧美国产日韩在线观看| 国产成人综合久久精品尤物| 欧美日韩第三页| 国产黄色视频综合| 九九这里只有精品视频| 人妻少妇久久久久久97人妻| Jizz国产色系免费| 中文字幕 欧美日韩| 人与鲁专区| 免费在线国产一区二区三区精品| 亚洲永久免费网站|