999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生成式對抗網絡研究進展

2018-04-02 05:38:20王萬良李卓蓉
通信學報 2018年2期
關鍵詞:模型

王萬良,李卓蓉

?

生成式對抗網絡研究進展

王萬良,李卓蓉

(浙江工業大學計算機科學與技術學院,浙江 杭州 310024)

生成式對抗網絡(GAN, generative adversarial network)對生成式模型的發展具有深遠意義,自提出后立刻受到人工智能學術界和工業界的廣泛研究與高度關注,隨著深度學習的技術發展,生成式對抗模型在理論和應用上得到不斷推進。首先,闡述生成對抗模型的研究背景與意義,然后,詳細論述生成式對抗網絡在建模、架構、訓練和性能評估方面的研究進展及其具體應用現狀,最后,進行分析與總結,指出生成式對抗網絡研究中亟待解決的問題以及未來的研究方向。

深度學習;生成式對抗網絡;卷積神經網絡;自動編碼器;對抗訓練

1 引言

近年來,深度學習在計算機視覺[1,2]、自然語言處理[3,4]、語音[5]等多個應用領域中都取得了突破性進展,其動機在于建立能夠模擬人類大腦神經連接結構的模型,在處理圖像、文本和聲音等高維信號時,通過組合低層特征形成更加抽象的高層表示、屬性類別或特征,進而對數據進行層次化表達[6~8]。深度學習的模型可大致分為判別式模型和生成式模型,目前,深度學習取得的成果主要集中在判別式模型,即將一個高維的感官輸入映射為一個類別標簽[9,10],這些成果主要歸功于反向傳播(BP, back propagation)算法[11]和Dropout算法[12,13]對模型的訓練。著名物理學家Richard指出,要想真正理解一樣東西,我們必須能夠把它創造出來。因此,要想令機器理解現實世界,并基于此進行推理與創造,從而實現真正的人工智能,必須使機器能夠通過觀測現實世界的樣本,學習其內在統計規律,并基于此生成類似樣本,這種能夠反映數據內在概率分布規律并生成全新數據的模型為生成式模型。

然而,相對判別式模型來說,生成式模型的研究進展較為緩慢,究其原因主要是較高的計算復雜度。典型的生成式模型往往涉及最大似然估計、馬爾可夫鏈方法、近似法等[14]。受限玻爾茲曼機(RBM, restricted Boltzmann machine)[15]及其擴展模型(如深度置信網絡[16]、深度玻爾茲曼機[17])采用最大似然估計法,即令該參數下模型所表示的分布盡可能擬合訓練數據的經驗分布。最直接的方法是利用梯度上升法求得對數似然函數最大值,但由于樣本分布未知且包含歸一化函數(也稱配分函數)而無法給出參數梯度的解析解,替代方法是基于采樣構建以數據分布為平穩分布的馬爾可夫鏈,以獲得滿足數據分布的樣本,然后利用蒙特卡羅迭代對梯度進行近似,這種方法計算復雜。變分自編碼器(VAE, variational autoencoder)[18]采用近似法,其性能優劣取決于近似分布的好壞,而該近似分布的假設需要一定的先驗知識,此外,由于受變分類方法的局限,VAE對概率分布的估計是有偏的,在學習過程中對目標函數下界而不是目標函數進行逼近。PixelRNN[19]是自回歸模型的一種,將圖像生成問題轉化為像素序列預測學習問題,假設每個像素的取值只依賴于空間中某種意義的近鄰,通過給定的像素對每個像素的條件分布進行建模,采樣效率較低。上述生成式模型的復雜訓練使之只能生成MNIST[20]和CIFAR-10[21]等簡單數據集的圖片,并不適用于較大尺度的復雜圖像。

生成式模型是一個極具挑戰的機器學習問題,主要體現在以下2點。首先,對真實世界進行建模需要大量先驗知識,建模的好壞直接影響生成式模型的性能;其次,真實世界的數據往往非常復雜,擬合模型所需計算量往往非常龐大,甚至難以承受。針對上述兩大困難,Goodfellow等[22]提出一種新型生成式模型——生成式對抗網絡(GAN, generative adversarial network),開創性地使用對抗訓練機制對2個神經網絡進行訓練,并可使用隨機梯度下降(SGD, stochastic gradient descent)實現優化。這避免了反復應用馬爾可夫鏈學習機制帶來的配分函數計算,不需變分下限也不需近似推斷,從而大大提高了應用效率[23]。盡管GAN從提出至今不過兩年半時間,但關注和研究熱度急速上升,并已從學術界延伸至工業界,Google、OpenAI、Facebook和Twitter等知名人工智能企業紛紛投入大量精力研究和拓展GAN的應用[24~27]。目前,GAN已成功應用于圖像生成[28~30]和視頻生成[31,32]領域,此外,若干研究工作[33~35]已成功將GAN應用在強化學習中。

本文論述了GAN在建模、架構、訓練和性能評估方面的最新研究進展及其具體應用現狀,最后進行分析與總結,指出生成式對抗網絡研究中亟待解決的問題。

2 生成式對抗網絡

2.1 基本思想

受博弈論中二元零和博弈的啟發,GAN的框架中包含一對相互對抗的模型:判別器和生成器。判別器的目的是正確區分真實數據和生成數據,從而最大化判別準確率;生成器則是盡可能逼近真實數據的潛在分布。為了在博弈中勝出,二者需不斷提高各自的判別能力和生成能力,優化的目標就是尋找二者間的納什均衡。GAN示意[36]如圖1所示,生成器(點劃線框內的多層感知機)的輸入是一個來自常見概率分布的隨機噪聲矢量,輸出是計算機生成的偽數據;判別器(虛線框內的多層感知機)的輸入是圖片(可能采樣于真實數據,也可能采樣于生成數據),輸出是一個標量,用來代表是真實圖片的概率,即當判別器認為是真實圖片時輸出1,反之輸出0[22]。判別器和生成器不斷優化,當判別器無法正確區分數據來源時,可以認為生成器捕捉到真實數據樣本的分布。

2.2 標準模型

1) 極大極小博弈

生成器和判別器可以是任意可微函數,因此,可以利用隨機梯度下降法(SGD)進行優化,而采用SGD的前提是建立一個目標函數來判斷和監視學習的效果。由于判別器是一個二分類模型,因此,可用交叉熵表示其目標函數,即

其中,E是求期望,G和D分別表示生成器與判別器的可微函數,x是真實數據樣本,z是隨機噪聲矢量,G(z)是判別器的生成數據。式(1)第一項表示D判斷出x是真實數據的情況,第二項則表示D判別出數據是由生成器G將噪聲矢量z映射而成的生成數據。由于G與D進行二元零和博弈,因此,生成器G的目標函數。因此,GAN的優化問題可描述為如下極大極小博弈問題。

由于在訓練初期缺乏足夠訓練,所生成的數據不夠逼真,因此,很容易就能將生成數據與真實數據區分開來,導致得不到足夠梯度。因此,文獻[22]提出,通過最大化log(())而不是最小化log(1?(())來訓練是一個更好的策略。

2) 非飽和博弈

為了解決生成器的弱梯度問題,除了采用文獻[22]的方法外,還可以把極大極小博弈替換成非飽和博弈,即

換言之,用自己的偽裝能力來表示自己的目標函數,而不是簡單直接地取()的相反數。從而均衡不再完全由價值函數min max(,)決定,即使準確地拒絕了所有生成樣本,仍可以繼續學習。

2.3 泛化模型

Goodfellow等[22]從博弈論的角度闡釋了GAN的思想,即GAN的訓練目標是使生成器與判別器達到納什均衡,此時,生成模型產生的數據分布完全擬合真實數據分布。若從信息論角度理解,GAN所最小化的實際上是真實數據分布和生成分布之間的Jensen-Shannon散度。Goodfellow[37]認為Kullback-Leibler散度比Jensen-Shannon散度更適用于GAN的目標函數構建,S?nderby等[38]和Kim等[39]基于Kullback-Leibler散度對GAN進行建模,通過最小化兩者之間的交叉熵進行訓練。文獻[40]對此進行拓展,提出的-GAN將基于Jensen- Shannon散度的GAN建模泛化為基于-散度的優化目標,從而將Kullback-Leibler等經典散度度量也包含在-散度中。

2.4 網絡結構實現

在生成器和判別器的網絡結構方面,樸素生成式對抗網絡[22]通過多層感知機(MLP, multi-layer perceptron)來實現。由于卷積神經網絡(CNN, convolutional neural network)較MLP有更好的抽象能力,DCGAN[28]將樸素生成式對抗網絡的MLP結構替換為CNN結構,考慮到傳統CNN所包含的池化層并不可微,DCGAN用步進卷積網絡(strided convolution)及其轉置結構分別實現判別器和生成器,用于訓練過程的空間降采樣和升采樣。該研究工作提出了GAN架構下的一種具體且有效的實現方式和經驗指導,成為后續許多理論研究和應用研究的基礎。另外,樸素GAN的定義域為實數且生成器和判別器均可微,這樣設計是為了根據的梯度信息對生成數據進行微調,從而提高生成數據質量。然而,當數據是離散時此方式并不可行,這也是在自然語言處理中應用生成對抗網絡的主要障礙。為了生成離散序列,TextGAN[41]和SeqGAN[42]等模型往往通過循環神經網絡實現判別器,通過CNN實現生成器。

3 GAN的架構

3.1 條件生成式對抗網絡

GAN的最大優點體現在其對抗訓練方式通過對()直接采樣來逼近真實樣本,利用反向傳播即可獲得梯度而不需復雜的馬爾可夫鏈和推斷過程,從而大大簡化了計算。然而,文獻[22]使用作為先驗,但生成式模型如何利用這個先驗卻是無法控制的。換言之,GAN的學習模式過于自由而導致GAN的訓練過程和結果都不可控。為了提高GAN的穩定性,Mirza等[43]提出條件生成式對抗網絡(cGAN, conditional GAN),將條件變量作為模型的附加信息以約束生成過程,這種條件變量可以是類別標簽甚至還可以是不同模態的數據。GAN的架構如圖2所示。圖2(a)是cGAN的概念圖,可以看出,cGAN在樸素GAN的基礎上將條件變量與同時輸入生成器中,在判別器中,真實樣本和條件變量同時作為判別函數的輸入。因此,cGAN的目標函數在樸素GAN的基礎上進一步改寫為

cGAN需要同時對和條件變量進行采樣,其中,對隨機噪聲采樣是簡單的,但生成條件變量則需多加考慮。最常見的一種方法是直接從訓練數據中獲取條件變量,例如,文獻[43]的條件變量采用的是類別標簽,其同時作為生成器和判別器的附加輸入層。然而,這種情況下生成器可能會記住這些訓練樣本從而達到虛假的最優。針對這個問題,Gauthier[44]提出在訓練過程中基于訓練樣本的條件變量值構造核密度估計(也稱為帕爾森窗口估計),對條件變量進行隨機采樣。文獻[43]和文獻[44]都是以類別標簽作為條件變量,與之不同, LAPGAN[45]和GRAN[32]的條件變量是上一級所生成的圖片,利用前一步得到的生成結果進行訓練,相當于將復雜分布的建模問題轉化為一系列簡單子問題,從而問題得以大大簡化。金字塔中每一級都通過使用cGAN來訓練一個單獨的生成性卷積網絡G,以避免模型過擬合,這是LAPGAN的顯著特點和最大優勢。StackGAN[46,47]本質上也是一種cGAN,基于前一層所生成的分辨率較低圖片及文字信息生成分辨率較高的圖片。

Chen等[48]提出的InfoGAN是條件生成式對抗網絡中的另一重要模型。同樣地,InfoGAN的生成器的輸入包含條件變量,不同的是,這個條件變量是從噪聲矢量中拆分出來的結構化隱變量。樸素GAN利用其唯一的輸入信號能生成與真實數據相一致的模型分布,然而人們并不清楚它究竟是如何將的具體維度與數據的有效語義特征對應起來的,因此,也就無法通過控制以生成期望的數據,針對這個問題,InfoGAN通過從噪聲矢量中拆分出結構化的隱變量,進而使生成過程具備可控性且生成結果具備可解釋性。具體地,InfoGAN將樸素GAN中的進行拆解,從而InfoGAN中輸入的先驗變量可拆分為:1)一組用于表示數據語義特征的結構化隱變量,用表示這部分具有可解釋性的先驗,例如,對于MNIST數據集來說,可用1,2,…,c表示光照方向、筆畫粗細和字體的傾斜角度等;2)不能再壓縮的、無法描述的非結構化噪聲矢量,將和同時輸入生成器,如圖2(b)所示。根據信息論,互信息I(;)度量了的信息對不確定性的減少量,因此,為了學習重要的語義特征,可通過最大化隱變量和生成分布(,)的互信息I(;(,))使生成過程中的重要特征在生成過程中得到充分學習。InfoGAN的價值函數為

圖2 GAN的架構

利用結構化隱變量的可解釋性,InfoGAN能控制生成樣本在某個特定語義維度的變化,從而使生成器能生成更符合真實樣本的結果。通過引入變分分布逼近真實樣本分布,并與互信息下限的優化進行交替迭代,從而實現具體優化。

3.2 雙向生成式對抗網絡

GAN通過將簡單的隱變量分布映射至任意復雜的數據分布來生成令人信服的自然圖像[28,45],這表明GAN的生成器能對隱空間中的數據分布進行語義線性化,學習到隱空間中數據的良好特征表達。然而,GAN缺少一種有效的推斷機制,未能學習從數據空間映射至隱空間的逆映射[49]。為解決這個問題,Donahue等[50]和Dumoulin等[51]將單向的GAN變為雙向的GAN,從而既能進行有效推斷又保證了生成樣本質量。Donahue等[50]提出的雙向生成式對抗網絡(BiGAN, Bidirectional GAN),除了學習標準GAN中的生成器和判別器外,還學習了一個將數據映射至隱式表達的編碼器,如圖2(c)所示。Dumoulin等[51]提出的ALI與BiGAN一樣,通過編碼器學習到的特征表達有助于訓練判別器,通過同時訓練編碼器和解碼器以迷惑生成器,使判別器難以區分究竟是真實樣本及其編碼還是生成樣本及其隱變量,換言之,雙向生成對抗網絡的生成器判別的是聯合樣本(,)而不是樣本。

3.3 自編碼生成式對抗網絡

基于變分自動編碼器的生成模型[15]能學習一種可以用于半監督學習或圖像修復等輔助任務的近似推斷機制,但該方法的最大似然訓練模式會使生成樣本比較模糊[52]。而基于GAN的生成模型雖然生成樣本質量更優,但缺少一種有效的推斷機制[53]。Larsen等[54]將VAE和GAN并入同一個無監督生成模型中,當將編碼器和解碼器看作一個生成模型整體時,這個生成模型和判別器構成了擴展的生成式對抗模型;若將解碼器和判別器看作一個整體時,這個整體相當于解碼器,并與編碼器共同構成了擴展的自編碼器,因此,該模型結合了GAN和VAE的優點。Che等[55]在此基礎上提出將VAE的重構誤差作為遺失模式的正則項,進而提高GAN的穩定性和生成樣本質量。對抗自編碼器(AAE, adversarial autoencoder)[56]將利用自編碼器得到的重構誤差和對抗訓練得到的隱變量與目標分布之間的誤差進行組合,從而既能通過自編碼器進行推斷又能得到結構化的隱變量。

3.4 組合生成式對抗網絡

通過對樸素GAN進行堆疊、平行或相互反饋,來調整和的組合方式。Wang等[57]提出GAN的自組合和級聯組合,前者對經過不同迭代次數的同一模型進行組合,既充分利用模型組合的效果又可避免其帶來過多額外計算,后者將多個不同的cGAN進行級聯,通過門函數將未被充分利用的訓練數據傳入下一個GAN進行重復使用,如圖3(a)所示。Liu等[58]提出的CoGAN包含一對GAN,每個GAN負責生成一個領域的圖片,如圖3(b)所示。在訓練過程中,共享生成器低層和判別器高層的參數,共享的參數使這一對GAN所生成的圖片相似,其余不共享的參數使每個GAN所生成的圖片不完全相同。Im等[59]提出生成式對抗的平行化GAP,即不讓判別器與固定且唯一的生成器進行對抗訓練,而是同時訓練幾組GAN,并令每個判別器周期性地與其他GAN的生成器進行對抗訓練,如圖3(c)所示。GAP適用于GAN的任何擴展模型,因此,可將GPU分配給不同的GAN衍生模型(如DCGAN和LAPGAN)進行并行計算。并行對抗訓練能增加判別器所處理的模式數量,從而有效避免模式坍塌問題,因此,可將GAP視為正則化手段。Zhu等[60]提出的CycleGAN包含2個判別器DD,用于鼓勵圖片在2種不同風格之間的遷移。Li等[61]提出TripleGAN,在生成器和判別器的基礎上額外增加一個分類器,和的目的都是使難辨真假,的引入避免了判別器既需判別生成樣本又需對生成樣本進行分類。

圖3 GAN的不同組合方式

4 訓練與評估

4.1 訓練機制

GAN的判別器和生成器都是可微函數,因此,可用隨機梯度下降進行訓練。在判別器接近最優時,生成器的損失函數E[log(1?(())]實質上是最小化真實分布和生成分布之間的Jensen-Shannon散度。然而,當真實分布和生成分布的支撐集是高維空間中的低維流形時,這2個分布的重疊部分測度為零的概率為1,此時,Jensen-Shannon散度是常數log2,導致訓練梯度消失。針對這個問題,Arjovsky等[62]提出Wasserstein-GAN(WGAN),用Wasserstein距離代替Jensen-Shannon散度來衡量真實分布和生成分布的距離。由于Wasserstein距離較Jensen-Shannon散度具有更佳的平滑性,解決了梯度消失問題,因此,理論上WGAN徹底解決了訓練不穩定問題。而且,Wasserstein距離的連續性和可微性能夠提供持續的梯度信息,因此,WGAN不要求生成器與判別器之間嚴格平衡。WGAN中用一個Lipschitz連續性約束對應著GAN判別器的批評函數,在如何進行Lipschitz約束的問題上,WGAN采用了權值截斷,然而,帶有權值截斷的優化器會在一個比1-Lipschitz小的空間中搜索判別器,導致判別器偏向非常簡單的函數,此外,截斷后梯度在反向傳播過程中會出現梯度消失或彌散。針對這個問題,Gulrajani等[63]提出用梯度懲罰代替權值截斷來進行Lipschitz約束,以獲得更快的收斂速度和更高的生成樣本質量。此外,樸素GAN沒有對生成分布做任何假設,要想擬合任意分布必須給判別器引入無限建模能力,而這容易導致過擬合。Qi等[64]對判別器的無限建模能力進行約束,通過將損失函數限定在滿足Lipschitz連續性約束的函數類上并使用(真實樣本,生成樣本)這樣的成對統計量來學習批評函數,迫使兩者之間必須配合,從而實現建模能力的按需分配。

上述研究工作的共同之處在于梯度信息是一階的,Metz等[65]提出在訓練時對判別目標函數進行展開優化,即生成器當前決策是基于判別器因該決策而采取的后續個決策而生成的,這個方法在本質上是用二階甚至高階梯度指導生成器的訓練。在標準GAN的訓練中,生成器和判別器的參數更新都是在其他模型參數固定的前提下對自身參數使用梯度下降法進行更新,而該研究工作中提出的代理損失函數使得模型參數基于其他模型參數的變化而進行更新,具體地,在對生成器使用梯度下降法進行參數更新后,基于判別器的后續步參數更新再去調整生成器的梯度。這種額外的信息能使生成器的概率分布更加平均,從而判別器的下一步不易坍塌至某一個點,但由于對判別目標函數的展開優化涉及二階甚至高階梯度,因而計算非常復雜。

4.2 訓練技巧

GAN的訓練技巧研究大大加快了GAN的研究和應用進展,目前,研究工作[24]是圍繞訓練技巧展開的,此外,也有很多研究工作[28,38]提出了針對具體訓練問題的技巧,本節將對常用的訓練技巧進行簡單介紹。

Ioffe等[67]提出的批歸一化(BN, batch normalization)每次取一批而不是單獨一個數據進行歸一化,從而使數據變得更加集中,利用批歸一化是GAN的常用訓練技巧之一。例如,Springenberg等[68]在判別器的所有層以及生成器除最后一層外的所有層中均采用了批歸一化,使激活值產生邊界,有效防止了生成器的模式震蕩并改善了判別器的泛化性能;此外,批歸一化在DCGAN[28]中的使用明顯改善了網絡的優化。然而,批歸一化難免使網絡的輸出高度依賴于與輸入數據位于同一批的其余數據,那么,當批內數據過于相似時,對生成器的輸入進行批歸一化會導致生成圖片內出現強相關。針對這個問題,Salimans等[24]提出“參照批歸一化”,即取一批固定數據作為參照數據集,待處理的輸入數據依據參照數據集的均值和標準差進行批歸一化,而這種方法的缺陷在于歸一化效果依賴于參照數據集的選取。鑒于此,進一步提出“虛擬批歸一化”[24],在對輸入數據進行歸一化時,將輸入數據加入參照數據集中形成新的數據集——虛擬數據集,對此數據集進行批歸一化處理,能有效避免生成數據與參照數據過于相似。由于虛擬批歸一化需對2批數據進行前饋計算,開銷較大,故只在生成器中使用。

4.3 模型評估

常見的生成式模型評價指標有平均對數似然、核密度估計和生成樣本的視覺保真度[37,52],這些方法分別適用于不同的生成式模型,而對GAN目前仍沒有一個標準的定量評估指標。文獻[22,43]通過帕爾森窗口法對GAN進行評估,帕爾森窗口法是一種非參數的密度函數估計方法,既不需利用樣本分布的先驗知識,也不需對樣本分布作任何假設,是一種從樣本出發研究數據分布的方法。然而當數據的維度很高時,即便大量的樣本也不能保證通過帕爾森窗口估計可逼近模型的真實分布,樣本維數越高,采用帕爾森窗口估計的效果越差。文獻[45]提出了人工檢視,通過AMT(amazon mechanical turk)平臺讓人類標注者判斷所見圖片是真實樣本還是生成樣本。這種情況下,標注者充當著判別器的角色,而生成器是經過訓練的GAN,當標注者獲得反饋信息時,判別的準確性會極大地提高。

人工檢視的問題在于成本高昂和主觀性強,為降低人工檢視所需的實驗成本,Salimans等[24]提出一種與人工檢視高度相關的替代方法將人工檢視過程自動化,由于該評價方式是基于Inception模型[69]的,因而取名為Inception得分。基于Inception得分的強分類器能以較高置信度生成優質樣本,然而僅當樣本足夠多時,Inception得分才能有效評價生成樣本的多樣性。Che等[55]進一步指出,假設一個生成器能生成很好的樣本而這些樣本都是同一種模式的,這種情況下,盡管生成器發生了模式坍塌,但它依然能夠獲得很高的Inception得分。因此,對于有標簽的數據集,Che等[55]提出一種“MODE得分”來同時評價視覺保真度和樣本多樣性。

文獻[28]提出基于分類性能對模型進行評估,這種方法最突出的問題是評估結果高度依賴于分類器的選擇。例如,文獻[28]中采用最近鄰分類器,而歐氏距離對圖像來說并不是一種很好的相似性度量。Im等[59]提出一種針對GAN的評估方法GAM(generative adversarial metric),令2組GAN互相競爭、互為評委。盡管GAM是一個有效的評估標準,但是GAM要求相互比較的判別器在留存測試數據集的誤差率不相上下,然而,對于進行并行對抗訓練的模型,其判別器的泛化性會有明顯提升,致使并行訓練與非并行訓練的模型之間錯誤率差別較大,從而無法使用GAM對模型進行評估,鑒于此,Im等[59]進一步提出了GAM Ⅱ,去除GAM的上述限制,僅度量這些判別器的平均(或者最差)錯誤率。

5 GAN的應用

GAN作為一種生成式模型,最直接的應用就是數據生成,即對真實數據進行建模并生成與真實數據分布一致的數據樣本[14],如圖像、視頻、語音、自然語言文本等。此外,GAN還可用于機器學習中的半監督學習。本節將從計算機視覺、語言與語音、半監督學習以及其他領域對GAN的應用進行介紹。

5.1 計算機視覺領域

目前,GAN應用最成功的領域是計算機視覺,包括圖像和視頻生成,如圖像翻譯[30,60,70~72]、圖像超分辨率[26]、圖像修復[73]、圖像上色[74]、人臉圖像編輯[75~80]以及視頻生成[31,32]等。

文獻[60,70,72]將GAN應用于圖像翻譯,例如,根據輪廓圖像生成照片、根據白天圖像生成對應夜景等,如圖4所示[70]。Zhu等[71]進一步將圖像翻譯拓展使多模態圖像翻譯,大大增加了生成圖像的多樣性,如圖5所示。除了從二維圖像到二維圖像的翻譯外,Gadelha等[30]提出的PrGAN能夠以一種完全無監督的訓練方式將給定的一系列甚至是一張2D圖像翻譯為該物體的3D體素形狀和深度信息。

圖4 圖像翻譯

圖5 多模態圖像翻譯

Ledig等[26]提出一個用于超分辨率的生成式對抗網絡SRGAN,該模型的目標函數由對抗損失函數和內容損失函數共同構成,其中,對抗損失函數通過訓練判別器區分真實圖片和由生成器進行超分辨重構的圖片,從而能夠學習自然圖片的流形結構,通過峰值信噪比和結構相似性等指標對重建圖像進行評估,結果表明SRGAN的效果比現有最先進的采用深度殘差網絡優化均方差更接近高分辨率原圖。Pathak等[73]將cGAN[43]應用到圖像修復,以圖像缺失部分的周邊像素為條件訓練生成式模型,生成完整的修復圖像,利用對抗思想訓練判別器對真實樣本和修復樣本進行判斷,經對抗訓練后,生成器所生成的修復圖像與遮擋區塊周邊是連貫的,而且是符合語義的,如圖6所示[73]。人臉圖像去遮擋是圖像復原的延伸應用,Zhao等[81]訓練判別器區分真實無遮擋人臉圖像和基于有遮擋圖像而復原的人臉圖像,能有效移除人臉圖像中的遮擋物并用于人臉識別。文獻[75~80]將GAN應用于人臉圖片編輯。GAN除了能夠生成高質量的自然圖像(例如手寫字體[22]、臥室[28,82]、人眼[83]和人臉[84]等)外,還能生成抽象的藝術作品[85]。

圖6 圖像修復

Mathieu等[31]最先提出將對抗訓練應用于視頻預測,即生成器根據前面一系列幀生成視頻最后一幀,判別器對該幀進行判斷。除最后一幀外的所有幀都是真實的圖片,這樣的好處是判別器能有效地利用時間維度的信息,同時也有助于使生成的幀與前面的所有幀保持一致。實驗結果表明,通過對抗訓練生成的幀比其他算法(基于1或2損失)更加清晰。由于該模型是完全可微的,因此,可在精調后用于其他任務。與光流預測進行結合或將下一幀預測相關應用中的光流算法替換為生成對抗訓練,有望進一步改善應用效果。最近,Vondrick等[32]利用GAN在視頻生成中取得了突破性進展,能生成32幀(標準電影每秒24幀)分辨率為64×64的逼真視頻,描繪的內容包括沙灘、高爾夫球場、火車站以及新生兒,20%的AMT標記員認為這些生成視頻是真實視頻。Vondrick等[28]在DCGAN的基礎上提出“雙流架構”,雙流分別是移動的前景流和靜止的背景流,其中,前景流是一個時空卷積神經網絡,而背景流則是一個空間卷積神經網絡。前景流相比背景流多了一個時間維度,這是為了讓前景移動而背景靜止,雙流之間相互獨立,這一架構迫使生成器在前景對象移動時對靜止背景進行渲染。此外,該研究工作還能從靜態照片中生成多幀視頻,首先,識別靜態圖片的對象,然后,生成32幀的視頻,這些生成視頻中對象的動作非常合乎常理。這種對動作的預測能力是機器未來融入人類生活的關鍵,因為這使機器能辨別什么動作于人于己都是沒有傷害的。此前的模型都是逐幀創建場景的,這意味著信息被分成很多塊,從而不可避免地帶來較大誤差,而該研究工作則是同時預測所有幀,當然,一次生成所有幀在使預測更加精確的同時也帶來了復雜的計算,在長視頻中此問題尤為突出。

5.2 語言與語音領域

相對于在計算機視覺領域的應用,GAN在語言處理領域的報道較少。這是因為圖像和視頻數據的取值是連續的,可直接應用梯度下降對可微的生成器和判別器進行訓練,而語言生成模型中的音節、字母和單詞等都是離散值,這類離散輸出的模型難以直接應用基于梯度的生成式對抗網絡。為使模型適用于文本生成,TextGAN[41]采用一些技巧對離散變量進行處理,例如,采用光滑近似來逼近LSTM的離散輸出,并在生成器訓練過程中采用特征匹配技術[24]。由于LSTM的參數明顯多于CNN的參數個數而更難訓練,TextGAN的判別器僅在生成器多次更新后才進行一次更新。Yu等[42]提出的SeqGAN借鑒強化學習處理離散輸出問題,將判別器輸出的誤差視為強化學習中的獎賞值,并將生成器的訓練過程看作強化學習中的決策過程,應用于詩句、演講文本以及音樂生成。Li等[86]和Kusner等[87]分別將GAN應用于開放式對話文本生成和上下文無關語法(CFG, context-free grammar)。相比前述的從圖像到圖像的轉換,從文本到圖像的轉換困難得多,因為以文本描述為條件的圖像分布往往是高度多模態的,即符合同樣文本描述的生成圖像之間差別可能很大。另一方面,雖然從圖像生成文本也面臨著同樣問題,但由于文本能按照一定語法規則分解,因此,從圖像生成文本是一個比從文本生成圖像更容易定義的預測問題。Reed等[29]利用這個特點,通過GAN的生成器和判別器分別進行文本到圖像、圖像到文本的轉換,二者經過對抗訓練后能夠生成以假亂真的圖像,例如,根據文本“這只小鳥有著小小的鳥喙、脛骨和雙足,藍色的冠部和覆羽以及黑色的臉頰”生成圖7所示的圖片[29]。此外,通過對輸入變量進行可解釋的拆分,能改變圖像的風格、角度和背景。當然,目前所合成的圖像尺寸依然較小,該研究的下一步工作是嘗試合成像素更高的圖像和增加文本所描述的特征數量。

5.3 半監督學習

GAN強大的表征能力使之能夠生成與真實數據分布相一致的數據,因此,可用于解決訓練數據不足時的學習問題,有效緩解基于深度學習的解決方案對訓練數據量的需求。此外,盡管GAN作為一種無監督學習方法被提出,但可廣泛應用于半監督學習[88]過程中無標簽數據對模型的預訓練[14]。GAN的判別器實際上是一個二分類的分類器,區分樣本是真實樣本還是生成樣本。Springenberg[68]和Salimans等[24]結合文獻[89]先對樣本進行聚類,然后,通過計算有標簽數據的預測類別分布和真實類別分布之間的交叉熵進行半監督學習,將樸素GAN的判別器從二元分類器擴展為多類別分類器,從而輸出Softmax分類結果而不是圖片來自真實樣本的概率。此外,Odena[90]提出的Semi-GAN和AC-GAN[27]也是GAN在多分類問題上的成功應用。文獻[68]指出,將經過訓練的判別器作為一個通用特征提取器用于多分類問題,只需結合少量標簽信息便可達到令人滿意的分類效果,例如,在MNIST數據集上對每一個類別僅用10個有標簽樣本就能達到98.61%的分類準確率,這一結果已經非常接近使用全部(60 000個)有標簽樣本所能得到的最佳結果(99.52%)。

圖7 根據文本描述生成圖像

5.4 其他領域

Santana等[91]利用GAN輔助自動駕駛,首先,生成與真實交通場景圖像分布一致的圖像,然后,訓練一個基于循環神經網絡的轉移模型來預測下一個交通場景。Wu等[92]提出對抗神經機器翻譯,將神經機器翻譯(NMT, neural machine translation)作為GAN的生成器,采用策略梯度方法訓練判別器,通過最小化人類翻譯和神經機器翻譯的差別生成高質量的翻譯。Schlegl等[93]將GAN用于醫學圖像的異常檢測,通過學習健康數據集的特征能抽象出病變特征,例如,能夠檢測到測試樣本中的視網膜積液,而這在訓練樣本集中并沒有出現過。Hu等[94]基于GAN生成具有對抗性的病毒代碼樣本,用于惡意軟件檢測的訓練。Chidambaram等[95]提出一個GAN的擴展模型,并將其作為風格遷移算子,用判別器對生成器進行正則化,并通過國際象棋實驗證明該模型的有效性。

6 總結與展望

6.1 GAN的優點

GAN的最大優勢在于不需對生成分布進行顯式表達,既避免了傳統生成式模型中計算復雜的馬爾可夫鏈采樣和推斷,也沒有復雜的變分下限,從而在大大降低訓練難度的同時,提高了訓練效率。GAN提供了一個極具柔性的架構,可針對不同任務設計損失函數,增加了模型設計的自由度。依賴數據自然性解釋的傳統生成式模型難以適用于概率密度不可計算的情形,而GAN由于巧妙的內部對抗機制依然適用。此外,結合無監督的GAN訓練和有監督的分類或回歸任務,能產生一個簡單而有效的半監督學習方法。

6.2 GAN的缺點

盡管GAN解決了已有生成式模型存在的普遍問題,但同時也帶來了新的問題,最突出的是訓練過程不穩定。GAN的目標函數所優化的實質是真實分布與生成分布之間的Jensen-Shannon散度,當二者具有極小重疊甚至沒有重疊時,Jensen-Shannon散度是常數,從而導致優化梯度消失。而且,GAN對多樣性不足和準確性不足的懲罰并不平衡,導致生成器傾向生成重復但會被判別器認為真實的少數幾種甚至一種樣本,而不是豐富多樣但有可能被判別器拒絕的樣本,即模式坍塌(mode collapse)。此外,GAN因其神經網絡結構,可解釋性較差,可微的設計使之僅適用于連續數據,從而導致自然語言等離散數據應用GAN的障礙。

6.3 GAN的研究展望

1) 克服模式坍塌

模式坍塌是指GAN生成樣本的模式總是集中在少數幾個甚至單一模式上,這導致數據生成結果缺乏多樣性[24]。因此,如何增加生成樣本多樣性是亟待研究的內容:通過模型組合(如并行或級聯)對多個GAN的生成樣本模式進行組合;利用推斷機制保證樣本空間與隱變量空間的對應性,從而保證生成器盡可能多地覆蓋真實樣本空間的所有模式;將有效的多樣性度量加入損失函數中,從而指導模型訓練等。

2) 標準的評價指標

對于生成模型這個研究領域來說,一個突出問題是缺乏公認的定量評價指標,對于GAN來說也是如此。生成樣本的質量優劣仍依賴于主觀判斷,而對于常用的客觀評價指標,如平均對數似然,核密度估計和生成樣本的視覺保真度之間互不依賴且分別適用于不同類型的生成模型,即使對相同類型的生成模型,當應用對象不同時采用不同評估標準也可能導致差別較大的訓練效果。因此,如何對GAN進行評估以及如何將GAN與其他類型的生成模型進行比較是亟待解決的問題。

3) 生成過程的可解釋性

早期研究工作著眼于模型的輸出而忽視了模型內部運作方式和產生輸出的過程,解釋GAN是如何在無監督方式下“理解”圖像和視頻等數據的研究工作至今鮮有報道。通過可視化手段解釋模型內部運作機理能更好地指導模型訓練,如通過反卷積操作將生成過程可視化,或激活某些中間層的特征以表征和推斷更高層次的特征。相信深度學習的研究突破將為解決此問題提供新穎思路及技術手段。此外,通過增加從圖像空間到隱變量空間的推斷過程,從而將隱變量的屬性分離,也是使生成過程可解釋的有效手段。

4) 半監督學習

GAN作為一種無監督學習方法被提出,可以對無標簽數據進行特征學習。盡管實際應用中難以獲得海量的標簽數據,但獲得少量標簽數據往往是可能的,實際應用結果表明,少量標簽數據即能大大提高GAN的表現。因此,如何充分利用有限的標簽數據或對無標簽數據自動添加標簽,是GAN的理論研究中具有廣闊研究前景的方向之一。

5) 與其他模型的融合

從應用實例可發現,融合能量函數的GAN[25,39,96]在判別器的建模和訓練方法選取上具備較高的柔性,除了通常所使用的二值分類器外,LeCun[97]所呈現的一系列基于能量的損失函數都能結合到EBGAN中,利用吉布斯分布可將能量轉化為概率,因此,這個方向具有廣闊的研究前景,后續研究可考慮結合GAN與那些能提供概率密度的深度生成器[33],例如,自回歸模型或采用可逆變換的模型,這種方法能提供更加穩定的訓練、更加好的生成器以及更加廣泛的應用(如自然語言處理)。其次,目前已有研究主要是GAN與VAE、EBM和RL的融合,而與其他深度模型(如LSTM/BLSTM和RBM/DBN)或非深度模型融合的研究工作鮮有報道,是值得關注的研究方向之一。此外,強化學習與深度學習相結合在單一任務的處理上展現了奪目成效,因此,融合強化學習與GAN,并用于跨任務學習將有力推進AI應用發展。

6) 拓展應用領域

在應用范圍方面,盡管GAN比主流的基于最大似然訓練的生成式模型能生成更加清晰和合理的圖像,但仍存在生成圖像噪聲較多、對象不穩定以及訓練圖像的類別較為單一等亟待改善的問題;而在場景預測和視頻生成方面,可嘗試通過序列化和局部損失函數等方式提高訓練樣本尺度和生成視頻時間維度,并通過最大化利用深度學習所取得的理論研究成果(如殘差網絡)降低視頻生成的計算復雜度,從而將GAN拓展至基于視頻生成的應用,如視頻理解、動態場景標記和行為預測等。目前GAN的應用成果集中在圖像和視頻生成領域,然而GAN作為一種生成性深度學習框架,天然具備在自然語言處理和語音合成等方面的優良特性和潛力,因此,GAN的應用領域有著極大拓展空間。

7 結束語

本文概述了生成式對抗網絡的研究背景并闡述了其基本原理,在此基礎上圍繞其重要架構、訓練方法以及評價方式等方面對GAN的研究進展進行了論述,總結了當前研究存在的問題并指出未來的工作展望。

[1] LI Y, HE K, SUN J. R-fcn: object detection via region-based fully convolutional networks[C]//The Advances in Neural Information Processing Systems. 2016: 379-387.

[2] HONG S, ROH B, KIM K H, et al. PVANet: lightweight deep neural networks for real-time object detection[J]. arXiv: arXiv1611.08588, 2016.

[3] LI X, QIN T, YANG J, et al. LightRNN: memory and computation-efficient recurrent neural networks[J]. arXiv: arXiv1610.09893, 2016.

[4] DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[J]. arXiv: arXiv1609.03499, 2016.

[5] OORD A V D, DIELEMAN S, ZEN H, et al. WaveNet: a generative model for raw audio[J]. arXiv: arXiv1609.03499, 2016.

[6] BENGIO Y. Learning deep architectures for AI[J]. Foundations & Trends? in Machine Learning, 2009, 2(1):1-127.

[7] 王萬良. 人工智能及其應用(第三版)[M]. 北京: 高等教育出版社, 2016.

WANG W L. Artificial intelligence: principles and applications (third edition)[M]. Beijing: Higher Education Press, 2016.

[8] 周昌令, 欒興龍, 肖建國. 基于深度學習的域名查詢行為向量空間嵌入[J]. 通信學報, 2016, 37(3): 165-174.

ZHOU C L,LUAN X L, XIAO J G. Vector space embedding of DNS query behaviors by deep learning[J]. Journal on Communications, 2016, 37(3): 165-174.

[9] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//The International Conference on Neural Information Processing Systems. 2012: 1097-1105.

[11] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.

[12] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4): 212-223.

[13] LIN M, CHEN Q, YAN S. Network in network[J]. arXiv: arXiv1312.4400, 2013.

[14] 王坤峰, 茍超, 段艷杰, 等. 生成式對抗網絡GAN的研究進展與展望[J]. 自動化學報, 2017, 43(3): 321-332.

WANG K F, GOU C, DUAN Y J, et al. Generative adversarial networks: the state of the art and beyond[J]. ACTA Automatica Sinica, 2017, 43(3): 321-332.

[15] REZENDE D J, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[J]. Eprint Arxiv, 2014: 1278-1286.

[16] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 1989, 18(7): 1527-1554.

[17] SALAKHUTDINOV R, HINTON G. Deep boltzmann machines[J]. Journal of Machine Learning Research, 2009, 5(2): 1967-2006.

[18] KINGMA D P, WELLING M. Auto-encoding variational bayes[J]. arXiv: arXiv1312.6114, 2013.

[19] OORD A V D, KALCHBRENNER N, KAVUKCUOGLU K. Pixel recurrent neural networks[C]//The International Conference on Machine Learning, 2016: 1747-1756.

[20] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[21] KRIZHEVSKY A, HINTON G E. Learning multiple layers of features from tiny images[R]. University of Toronto, Technical Report, 2009.

[22] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//International Conference on Neural Information Processing Systems. 2014: 2672-2680.

[23] GOODFELLOW I. Generative adversarial networks[J]. arXiv: arXiv 1701.00160, 2017.

[24] SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training gans[J]. arXiv: arXiv1606.03498,2016.

[25] ZHAO J, MATHIEU M, LECUN Y. Energy-based generative adversarial network[J]. arXiv: arXiv 1609.03126, 2016.

[26] LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[J]. arXiv: arXiv1609.04802, 2016.

[27] ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[J]. arXiv: arXiv1610.09585, 2016.

[28] ZHU W, MIAO J, QING L, et al. Unsupervised representation learning with deep convolutional generative adversarial networks. computer science[J]. arXiv: arXiv1511.06434, 2015.

[29] REED S, AKATA Z, YAN X, et al. Generative adversarial text to image synthesis[C]//International Conference on Machine Learning, 2016: 1060-1069.

[30] GADELHA M, MAJI S, WANG R. 3D shape induction from 2D views of multiple objects[J]. arXiv: arXiv1612. 05872, 2016.

[31] MATHIEU M, COUPRIE C, LECUN Y. Deep multi-scale video prediction beyond mean square error[J]. arXiv: arXiv1511.05440, 2015.

[32] VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//Conferrence on Neural Information Processing Systems. 2016: 613-621.

[33] FINN C, CHRISTIANO P, ABBEEL P, et al. A connection between generative adversarial networks, inverse reinforcement learning, and energy-based models[J]. arXiv: arXiv1611.03852, 2016.

[34] HO J, ERMON S. Generative adversarial imitation learning[C]//Advances in Neural Information Processing Systems. 2016: 4565-4573.

[35] PFAU D, VINYALS O. Connecting generative adversarial networks and actor-critic methods[J]. arXiv: arXiv1610.01945, 2016.

[36] KARPATHY A, LI F F. Deep visual-semantic alignments for generating image descriptions[C]// Computer Vision and Pattern Recognition. 2015: 3128-3137.

[37] GOODFELLOW I J. On distinguishability criteria for estimating generative models[J]. arXiv: arXiv1412.6515, 2014.

[38] S?NDERBY C K, CABALLERO J, THEIS L, et al. Amortised map inference for image super-resolution[J]. arXiv: arXiv1610.04490, 2016.

[39] KIM T, BENGIO Y. Deep directed generative models with energy-based probability estimation[J]. arXiv: arXiv1606.03439, 2016.

[40] NOWOZIN S, CSEKE B, TOMIOKA R. F-gan: training generative neural samplers using variational divergence minimization[C]//Advances in Neural Information Processing Systems. 2016: 271-279.

[41] ZHANG Y Z, GAN Z, CARIN L. Generating text via adversarial training[C]//In Neural Information Processing Systems Workshop on Adversarial Training. 2016.

[42] YU L, ZHANG W, WANG J, et al. SeqGAN: sequence generative adversarial nets with policy gradient[J]. arXiv: arXiv1609.05473, 2016.

[43] MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. Computer Science, 2014: 2672-2680.

[44] GAUTHIER J. Conditional generative adversarial nets for convolutional face generation[Z]. Class Project for Stanford CS231N: Convolutional Neural Networks for Visual Recognition, Winter semester, 2014(5): 2.

[45] DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a Laplacian pyramid of adversarial networks[C]// Conferrence on Neural Information Processing Systems. 2015: 1486-1494.

[46] HUANG X, LI Y, POURSAEED O, et al. Stacked generative adversarial networks[J]. arXiv: arXiv1612.04357, 2016.

[47] ZHANG H, XU T, LI H, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[J]. arXiv: arXiv1612.03242, 2016.

[48] CHEN X, DUAN Y, HOUTHOOFT R, et al. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2016: 2172-2180.

[49] LAMB A, DUMOULIN V, COURVILLE A. Discriminative regularization for generative models[J]. arXiv: arXiv1602.03220, 2016.

[50] DONAHUE J, KR?HENBüHL P, DARRELL T. Adversarial feature learning[J]. arXiv: arXiv1605.09782, 2016.

[51] DUMOULIN V, BELGHAZI I, POOLE B, et al. Adversarially learned inference[J]. arXiv: arXiv1606.00704, 2016.

[52] THEIS L, OORD A, BETHGE M. A note on the evaluation of generative models[J]. arXiv: arXiv1511.01844, 2015.

[53] BROCK A, LIM T, RITCHIE JM, et al. Neural photo editing with introspective adversarial networks[J]. arXiv: arXiv1609.07093, 2016.

[54] LARSEN A B L, S?NDERBY S K, LAROCHELLE H, et al. Autoencoding beyond pixels using a learned similarity metric[J]. arXiv: arXiv1512.09300, 2015.

[55] CHE T, LI Y, JACOB A P, et al. Mode regularized generative adversarial networks[J]. arXiv: arXiv1612.02136, 2016.

[56] MAKHZANI A, SHLENS J, JAITLY N, et al. Adversarial autoencoders[J]. arXiv: arXiv1511.05644, 2015.

[57] WANG Y, ZHANG L, JOOST V D W. Ensembles of generative adversarial networks[J]. arXiv: arXiv1612.00991, 2016.

[58] LIU M Y, TUZEL O. Coupled generative adversarial networks[C]//Advances in Neural Information Processing Systems, 2016: 469-477.

[59] IM D J, MA H, KIM C D, et al. Generative adversarial parallelization[J]. arXiv: arXiv1612.04021, 2016.

[60] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[J]. arXiv: arXiv 1703.10593, 2017.

[61] LI C, XU K, ZHU J, et al. Triple generative adversarial nets[J]. arXiv: arXiv1703.02291, 2017.

[62] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[J]. arXiv: arXiv1701.07875, 2017.

[63] GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein GANs[J]. arXiv: arXiv1704.00028, 2017.

[64] QI G J. Loss-sensitive generative adversarial networks on lipschitz densities[J]. arXiv: arXiv1701.06264, 2017.

[65] METZ L, POOLE B, PFAU D, et al. Unrolled generative adversarial networks[J]. arXiv: arXiv1611.02163, 2016.

[66] WARDE-FARLEY D and GOODFELLOW I. Adversarial perturbations of deep neural networks[C]//Perturbations, Optimization, and Statistics. 2016: 311.

[67] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//International Conference on Machine Learning. 2015: 448-456.

[68] SPRINGENBERG J T. Unsupervised and semi-supervised learning with categorical generative adversarial networks[J]. arXiv: arXiv1511.06390, 2015.

[69] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2818-2826.

[70] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[J]. arXiv: arXiv1611.07004, 2016.

[71] ZHU J Y, ZHANG R, PATHAK D, et al. Toward multimodal image-to-image translation[C]//Advances in Neural Information Processing Systems. 2017: 465-476.

[72] YI Z, ZHANG H, GONG PT. DualGAN: unsupervised dual learning for image-to-image translation[J]. arXiv: arXiv1704.02510, 2017.

[73] PATHAK D, KRAHENBUHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[C]//The IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2536-2544.

[74] LI C, LIU H, CHEN C, et al. Alice: towards understanding adversarial learning for joint distribution matching[C]//Advances in Neural Information Processing Systems. 2017: 5501-5509.

[75] PERARNAU G, VAN DE WEIJER J, RADUCANU B, et al. Invertible conditional GANs for image editing[J]. arXiv: arXiv1611.06355, 2016.

[76] CRESWELL A, BHARATH A A. Inverting the generator of a generative adversarial network[J]. arXiv: arXiv1611.05644, 2016.

[77] ZHOU S, XIAO T, YANG Y, et al. GeneGAN: learning object transfiguration and attribute subspace from unpaired data[J]. arXiv: arXiv1705.04932, 2017.

[78] KIM T, CHA M, KIM H, et al. Learning to discover cross-domain relations with generative adversarial networks[J]. arXiv: arXiv1703.05192, 2017.

[79] WANG C, WANG C, XU C, et al. Tag disentangled generative adversarial network for object image re-rendering[C]//The Twenty-Sixth International Joint Conference on Artificial Intelligence. 2017: 2901-2907.

[80] ANTIPOV G, BACCOUCHE M, DUGELAY JL. Face aging with conditional generative adversarial networks[J]. arXiv: arXiv1702. 01983, 2017.

[81] ZHAO F, FENG J, ZHAO J, et al. Robust LSTM-autoencoders for face de-occlusion in the wild[J]. arXiv: arXiv1612.08534, 2016.

[82] YU F, SEFF A, ZHANG Y, et al. Lsun: construction of a large-scale image dataset using deep learning with humans in the loop[J]. arXiv: arXiv1506.03365, 2015.

[83] SHRIVASTAVA A, PFISTER T, TUZEL O, et al. Learning from simulated and unsupervised images through adversarial training[J]. arXiv: arXiv1612.07828, 2016.

[84] LIU Z, LUO P, WANG X, et al. Deep learning face attributes in the wild[C]//The IEEE International Conference on Computer Vision. 2015: 3730-3738.

[85] TAN WR, CHAN CS, AGUIRRE H, et al. ArtGAN: artwork synthesis with conditional categorial GANs[J]. arXiv: arXiv1702.03410, 2017.

[86] LI J, MONROE W, SHI T, et al. Adversarial learning for neural dialogue generation[J]. arXiv: arXiv1701.06547, 2017.

[87] KUSNER M J, HERNáNDEZLOBATO J M. GANS for sequences of discrete elements with the gumbel-softmax distribution[J]. arXiv: arXiv1611.04051, 2016.

[88] DENTON E, GROSS S, FERGUS R. Semi-supervised learning with context-conditional generative adversarial networks[J]. arXiv: arXiv1611.06430, 2016.

[89] SUTSKEVER I, JOZEFOWICZ R, GREGOR K, et al. Towards principled unsupervised learning[J]. arXiv: arXiv1511.06440, 2015.

[90] ODENA A. Semi-supervised learning with generative adversarial networks[J]. arXiv: arXiv1606.01583, 2016.

[91] SANTANA E, HOTZ G. Learning a driving simulator[J]. arXiv: arXiv1608.01230, 2016.

[92] WU L, XIA Y, ZHAO L, et al. Adversarial neural machine translation[J]. arXiv: arXiv1704.06933, 2017.

[93] SCHLEGL T, SEEB?CK P, WALDSTEIN S M, et al. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery[J]. arXiv: arXiv1703.05921, 2017.

[94] HU W W, TAN Y. Generating adversarial malware examples for black-box attacks based on GAN[J]. arXiv: arXiv1702.05983, 2017.

[95] CHIDAMBARAM M, QI Y J. Style transfer generative adversarial networks: learning to play chess differently[J]. arXiv: arXiv1702.06762, 2017.

[96] ZHAI S, CHENG Y, FERIS R, et al. Generative adversarial networks as variational training of energy based models[J]. arXiv: arXiv1611. 01799, 2016.

[97] LECUN Y, CHOPRA S, HADSELL R, et al. A tutorial on energy-based learning[M]. Predicting Structured Data: MIT Press. 2006.

Advances in generative adversarial network

WANG Wanliang, LI Zhuorong

College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310024, China

Generative adversarial network (GAN) have swiftly become the focus of considerable research in generative models soon after its emergence, whose academic research and industry applications have yielded a stream of further progress along with the remarkable achievements of deep learning. A broad survey of the recent advances in generative adversarial network was provided. Firstly, the research background and motivation of GAN was introduced. Then the recent theoretical advances of GAN on modeling, architectures, training and evaluation metrics were reviewed. Its state-of-the-art applications and the extensively used open source tools for GAN were introduced. Finally, issues that require urgent solutions and works that deserve further investigation were discussed.

deep learning, generative adversarial network, convolutional neural network, auto-encoder, adversarial training

TP183

A

10.11959/j.issn.1000-436x.2018032

2017-05-24;

2018-01-17

國家自然科學基金資助項目(No.61379123)

TheNational Natural Science Foundation of China (No.61379123)

王萬良(1957-),男,江蘇高郵人,博士,浙江工業大學教授,主要研究方向為人工智能、機器自動化、網絡控制。

李卓蓉(1986-),女,廣西桂林人,浙江工業大學博士生,主要研究方向為人工智能、深度學習。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品久久香蕉国产线看观看gif| 谁有在线观看日韩亚洲最新视频| 日本精品视频一区二区| 国产精品精品视频| 伊人五月丁香综合AⅤ| 欧美A级V片在线观看| 制服丝袜亚洲| 亚洲视频在线青青| 青青青国产免费线在| 久久精品国产电影| 成人夜夜嗨| 国产中文在线亚洲精品官网| 国产好痛疼轻点好爽的视频| 九九热视频精品在线| 国产精品视频观看裸模| 2022国产无码在线| 国产人成乱码视频免费观看| 国产欧美综合在线观看第七页| 亚洲欧洲AV一区二区三区| 欧美日韩中文国产va另类| 日韩精品亚洲精品第一页| 午夜福利亚洲精品| 欧美日韩免费观看| 亚洲九九视频| 国产成人无码综合亚洲日韩不卡| 二级特黄绝大片免费视频大片| 亚洲国产成人精品一二区| 亚洲高清在线播放| 97一区二区在线播放| 欧美丝袜高跟鞋一区二区| 久久免费视频6| 在线国产毛片| 亚洲国产日韩欧美在线| 国产精品yjizz视频网一二区| 国产aⅴ无码专区亚洲av综合网| 国产精品自在自线免费观看| 久久精品国产91久久综合麻豆自制| 中文字幕有乳无码| 国产无码精品在线| 精品无码专区亚洲| 国产一区二区免费播放| 99在线视频网站| 久久综合五月婷婷| 97人妻精品专区久久久久| 成·人免费午夜无码视频在线观看 | 中文字幕第4页| 亚洲经典在线中文字幕| 亚洲无码高清一区| 另类重口100页在线播放| 毛片免费网址| 88av在线看| 中文毛片无遮挡播放免费| 亚洲欧美成人影院| 亚洲精品不卡午夜精品| 国产精品亚洲欧美日韩久久| 国产小视频免费| 亚洲av无码牛牛影视在线二区| 国产精品成人第一区| 伊人久久大香线蕉综合影视| 日本不卡视频在线| 五月婷婷伊人网| 亚洲精品卡2卡3卡4卡5卡区| 亚洲国产精品人久久电影| 亚洲欧美在线综合图区| 欧美人与性动交a欧美精品| 国产免费a级片| 色综合久久88| 亚洲中文字幕精品| 日韩精品成人网页视频在线| 亚洲日韩精品伊甸| 久青草免费视频| 无码'专区第一页| 精品三级网站| 久久青草免费91线频观看不卡| 综合网天天| 欧美成人二区| 好吊色妇女免费视频免费| 精品国产网| 午夜人性色福利无码视频在线观看| 区国产精品搜索视频| 天堂网亚洲综合在线| 色偷偷一区二区三区|