文/張倩宇 宋彩芳
GAN的基本思想就是兩個網絡互相博弈,一個生成器網絡G和一個判別器網絡D。生成器網絡G和判別器網絡D本質上都是函數。生成器G的目標是學習到輸入數據的分布從而生成非常真實的圖像,而判別器D的目標是正確辨別出真實圖片和G生成的圖片直接的差異。生成器G和判別器D都有各自的網絡結構和不同的輸入,其中生成器G的輸出,即生成樣本也是D的輸入之一,而判別器D則會為G提供梯度進行權重的更新。這兩個網絡通過不斷的改善和優化來提高自身網絡的生成能力和判別能力。
GAN是作為一種圖像生成建模技術,在圖像生成任務上有廣泛的應用,主要在于:
(1)能訓練有效的無條件圖像生成器;
(2)一種能用于不同域之間無監督圖像轉換的方法;
(3)一種有效的感知式圖像損失函數(如Pix2pix)。
GAN有明顯的優勢,固然也有一些關鍵的劣勢:
(1)GAN很難訓練,具體表現包括訓練過程非常不穩定、訓練容易導致模式崩潰以及對超參數極為敏感;
(2)GAN有模式丟失問題—只能建模目標分布的某些模式而非所有模式。
1.2.1 DCGAN
DCGAN是用一定程度改進的CNN取代了GAN中的生成網絡和判別網絡,該算法將有監督學習中的CNN和無監督學習中的GAN結合,為GAN的訓練提供了很好的網絡結構,同時提高了訓練過程的穩定性和生成結果的質量。該模型還實現了通過特征學習或是特征向量計算得到一個穩定的向量來進行特定變換。
1.2.2 WGAN及WGAN-GP
WGAN從損失函數的角度對GAN進行了改進,主要解決了一下三方面的問題:
(1)不再需要精心平衡生成器和判別器的訓練程度,且效果更穩健,不依賴于過于精心設計的結構;
(2)基本解決了模型崩塌問題,確保了生成樣本的多樣性;
(3)訓練過程中有了一個像交叉熵、準確率這樣的數值來指示訓練的進程,這個數值越小代表GAN訓練得越好,代表生成器產生的圖像質量越高。
WGAN-GP是針對WGAN存在的問題提出來的,使用了梯度懲罰的替換,采用Lipschitz約束方法代替WGAN中的加權剪枝。實驗結果表明此方法生成的樣本質量高于WGAN,提供穩定的訓練,幾乎不需要超參數調整,并成功訓練各種GAN架構進行生成任務。
1.2.3 EBGAN
EBGAN與WGAN基于樣本間的距離度量不同,EBGAN是從能量模型的角度對GAN進行了改進。該模型將判別器看做一個能量函數,在真實數據范圍內該能量函數的能量值會減小,在非真實數據(即它認為是生成數據)范圍內能量值會增大。這樣一來生成器的目標就是產生能量值足夠小的樣本,而判別器則是以對生成的樣本賦高的能量值以及對真實樣本賦低的能量值為目的。EBGAN的意義在于它給予GAN一種不同于其他模型通過距離度量定義損失函數的能量模型的定義,也為我們開辟了一條新的道路,GAN模型具有更寬泛的結構和更多樣的損失函數類型的訓練。
1.2.4 其他模型
Bojanowski等提出的GLO是將訓練圖像嵌入到一個低維空間中,并在該嵌入向量輸入到一個聯合訓練的深度生成器時重建它們。GLO的優勢有:
(1)無模式丟失地編碼整個分布;
(2)學習得到的隱含空間能與圖像的形義屬性相對應,即隱含編碼之間的歐幾里得距離對應于形義方面的含義差異。
但GLO有一個關鍵缺點,即沒有一種從嵌入空間采用新圖像的原則性方法。盡管GLO的提出者建議用一個高斯分布來擬合訓練圖像的隱編碼,但這會導致圖像合成質量不高。
Li and Malik 提出的IMLE訓練生成模型的方式是從一個任意分布采樣大量隱含編碼,使用一個訓練后的生成器將每個編碼映射到圖像域中并確保對于每張訓練圖像都存在一張相近的生成圖像。IMLE的采樣很簡單,而且沒有模式丟失問題。類似于其它最近鄰方法,具體所用的指標對IMLE影響很大,尤其是當訓練集大小有限時。雖然經典的Cover-Hart結果啟示我們最近鄰分類器的誤差率漸進地處于貝葉斯風險的二分之一范圍內,但當我們使用有限大小的示例樣本集時,選擇更好的指標能讓分類器的表現更好。當使用L2損失直接在圖像像素上訓練時,IMLE合成的圖像是模糊不清的。
盡管wasserstein距離極大地提升了GAN的效果,但仍在理論上存在訓練不穩定和模式丟失的問題。Facebook的兩位研究者融合了兩種非對抗方法的優勢,并提出了一種名為生成式隱含最近鄰GLANN(Generative Latent Nearest Neighbors)的新技術。該方法首次使用了GLO來嵌入訓練圖像,從而克服了IMLE的指標問題。由GLO為隱含空間引入的線性特性能讓歐幾里得度量在隱含空間Z中具有形義含義。GLANN方法集中了IMLE和GLO的雙重優勢:易采樣、能建模整個分布、訓練穩定且能合成銳利的圖像。該方法經過使用已確立的指標評估發現其顯著優于其它的非對抗方法,同時其表現也比當前的基于GAN的模型更優或表現相當。GLANN也在高分辨率圖像生成和3D生成上得到了出色的結果。
圖像風格遷移就是把圖像從一種風格轉換到另一種風格。深度學習最早是基于CNN框架嘗試進行圖像風格遷移。該模型有兩大劣勢:
(1)對訓練樣本要求較高,需要在成對的數據上訓練,實際我們并沒有這樣完美的成對的訓練數據;
(2)訓練速度慢,每一次生成都相當于重新訓練一個模型。后來,GAN在圖像風格遷移方面有了突出表現,用較小的數據集完成GAN的無監督訓練,然后以此來生成更多與數據樣本相類似的圖像而不是去耗費人力物力采集樣本,可節約大量成本。
Santana等人實現了利用GAN的輔助自動駕駛。首先,生成與真實交通場景圖像分布一致的圖像,然后,訓練一個基于循環神經網絡的轉移模型來預測下一個交通場景。另外,GAN還可以用于對抗神經機器翻譯,將神經機器翻譯作為GAN的生成器,采用策略梯度方法訓練判別器,通過最小化人類翻譯和神經機器翻譯的差別生成高質量的翻譯。
Mathieu等人首先將GAN訓練應用于視頻幀預測,即生成器根據前面一系列幀,生成視頻最后一幀,判別器對該幀進行判斷。除最后一幀外的所有幀都是真實的圖片,這樣的好處是判別器能有效利用時間維度的信息,同時也有助于使生成的幀與前面的所有幀保持一致。實驗結果表明,通過對抗訓練生成的幀比其他算法更加清晰。
此外,Vondrick[2]等人在視頻領域也取得了巨大進展,他們生成32幀分辨率為64×64的逼真視頻,描繪的內容包括高爾夫球場、沙灘、火車站以及新生兒。經過測試,20%的標記員無法識別這些視頻的真偽。
GAN能夠在圖像數據集上經過訓練生成與真實分布相似的分布,如GAN在人臉數據集上經過訓練,生成人分辨不出真假的人臉圖像。這些都是直接學習特征再生成分布。
從文本到圖像的生成難度大且限制多,相反,根據給定圖像生成文字描述比較容易,經過訓練,機器能夠簡單描述圖像內容,但如何讓機器像人類一樣看圖說話,寫出文章?文獻[3]提出一種半監督的段落生成框架,它通過對局部語義區域進行推理和利用語言知識合成語義連貫的段落描述。文中提出的循環主題轉換生成對抗網絡(RTT-GAN)構建了一個結構化段落生成器和多級段落識別器之間的對抗框架。段落發生器通過在每個步驟中引入基于區域的視覺和語言注意機制來循序地產生句子。
GAN由于其強大的生成能力,正被廣泛地研究與關注。目前,在學術領域,GAN訓練指標,模式坍塌以及模型的生成能力的可解釋性正受廣泛的關注。最后,在拓展應用領域,由于生成的圖片有較高的噪音,如何提高數據(圖片或視頻)也是研究的一大熱點。此外,GAN作為一種深度模型,也是解決自然語言處理天然的良好模型。如何將GAN應用在NLP領域也是下一步要解決的問題。