摘 要:生成對抗網絡(GAN)作為一種新興的生成式模型,逐漸發展應用于圖像生成、三維重構、跨模態轉換等領域,有效解決了常規卷積神經網絡在圖像生成類任務方面效率低下的問題,填補了深度學習在圖像生成領域上的短板。為了幫助后續研究人員快速并全面了解GAN,根據近年來的文獻對GAN的改進模型進行梳理。首先從網絡結構、目標函數兩個角度介紹了GAN的基本原理,然后對GAN的各種衍生模型從改進角度、應用類型兩個方面進行詳細的闡述和總結,分別從主觀定性、客觀定量和任務專項評估等角度對生成圖像的質量和多樣性進行歸納分析,最后討論了GAN系列模型近年來的一些核心問題與最新研究進展,并分析了未來的發展趨勢。
關鍵詞:生成對抗網絡; 圖像生成; 圖像轉換; 生成式模型
中圖分類號:TP183 文獻標志碼:A
文章編號:1001-3695(2023)03-002-0649-10" doi:10.19734/j.issn.1001-3695.2022.08.0410
Review of research on improvement and application of generative adversarial networks
Zhang Bin1, Zhou Yuechuan2, Zhang Min3, Li Jia3, Zhang Jianxun2, Guo Zhigang4
(1.Mianyang Teachers’ College, Mianyang Sichuan 621000, China; 2.College of Computer Science amp; Engineering, Chongqing University of Technology, Chongqing 400054, China; 3.Chongqing CEPREI Industrial Technology Institute Co., Ltd., Chongqing 401332, China; 4.Unit 32086 of PLA, Chengdu 610000, China)
Abstract:Generative adversarial network(GAN), as an emerging generative model, has been gradually developed and applied in the fields of image generation, 3D reconstruction, cross-modal conversion, etc. It effectively solves the problem of inefficiency of conventional convolutional neural networks in image-generating tasks and fills the shortage of deep learning in the field of image generation. In order to help subsequent researchers quickly and comprehensively understand GAN, this paper sorted out the improved model of GAN based on the literature in recent years. It firstly introduced the basic principles of GAN from two perspectives of network structure and objective function, then elaborated and summarized various derivative models of GAN from two major perspectives of improvement and application types. Secondly it summarized and analyzed the quality and diversity of generated images from the perspectives of subjective qualitative, objective quantitative and task-specific evaluation. Finally, this paper discussed some core issues and latest research progress of GAN series models in recent years and analyzed the future development trend.
Key words:generative adversarial network; image generation; image translation; generative model
0 引言
近十年來,隨著人工智能的迅速發展,各種基于深度學習的算法落地于生活和工業中。目前深度學習在圖像識別[1]、圖像分類[2]、目標檢測[3]、實例分割[4]等特征提取類任務中取得了令人滿意的成果。但在圖像生成[5]類的任務中,常規的卷積神經網絡卻難以勝任相關工作。
圖像生成任務一般使用生成模型進行建模解決。生成模型的核心思想是:通過學習真實數據分布,不斷迭代更新模型參數,最后使所學數據分布與真實數據分布盡可能一致。傳統的生成模型[6]基于最大似然估計[7]原理進行建模,分為顯式密度估計[8]和隱式密度估計[9]兩大類。作為傳統生成模型主流的顯式密度估計方法,其代表模型有變分自編碼器(variational auto-encoders, VAE)[10]與深度玻爾茲曼機(deep Boltzmann machine,DBM)[11]等。但受限于樣本數據概率密度分布的高維度特性,學習到一個能夠擬合其數據分布的模型十分困難。
2014年Goodfellow等人提出了一種基于隱式密度估計的生成式模型——GAN [12],其由生成器和判別器兩部分組成。生成器致力于生成以假亂真的樣本去欺騙判別器,判別器則需將真實樣本與生成樣本盡可能地區分開來;兩者在對抗博弈中不斷提升各自的網絡性能,最后達到納什均衡狀態[13]。相比于VAE、DBM等傳統生成模型,GAN優點在于通過對抗學習的方式為高緯度概率密度分布下的采樣和訓練問題提供了有效的解決措施。
GAN的提出補全了深度學習在圖像生成類任務上的短板,目前已廣泛應用于圖像轉換、風格遷移、視頻生成、圖像去噪和基于文本或語音的跨模態轉換等領域,其研究與改進方向種類繁多、形式復雜,因此需要系統、合理地對GAN進行梳理和歸納。淦艷等人[14]總結的GAN綜述主要對傳統生成模型的數學原理進行了分析,但對GAN本身討論很少;程顯毅等人[15]在介紹GAN的改進模型與任務應用時只闡述了少量的模型,缺乏系統性的梳理歸納;鄒秀芳等人[16]在介紹應用領域的劃分時分類不嚴謹,如提到的風格遷移應用和圖像轉換應用對于GAN模型本質上都屬于image translation類應用。王正龍等人[17]對GAN從七個改進角度進行了詳實的闡述,陳佛計等人[18]則對GAN在不同距離度量下的數學原理進行了詳細的推理分析,并從圖像生成的角度對GAN模型進行了系統性的梳理,但上述兩篇文獻均缺乏在應用角度上的分類整理。本文以自頂向下的方式將GAN的改進模型劃分為理論研究、任務應用兩個不同的視角分別進行介紹。在理論研究方面,以改進角度為主線將各種改進GAN模型劃分為網絡架構和損失函數改進、生成器改進、判別器改進、交叉領域改進與分布距離度量改進。通過上述五個類別的劃分,介紹GAN近年來在各個類別下的經典或最新改進工作。在任務應用方面,以網絡所屬的應用類別為主線,并按照輸出數據的生成方式進行分類劃分、分點闡述。介紹了在圖像生成領域、圖像轉換領域以及其他領域下九個具體應用的經典或最新模型。
1 GAN的基本原理
1.1 GAN的設計思想
生成對抗網絡(GAN)[12]的結構靈感來源于博弈論中的二人零和博弈問題(即二人的利益之和為零,一方的所得正是另一方的所失)。該網絡由生成器模型和判別器模型組成。兩者在網絡中交替訓練,在對抗中共同學習進步,最后達到納什均衡狀態。其網絡架構如圖1所示。
生成器G學習真實數據分布Px,并映射出類似真實數據分布的虛假數據G(z)。判別器D則需要通過學習真實數據分布Px與生成出來的虛假數據分布PG(z)來識別輸入數據的來源是真實數據還是生成的虛假數據,即對x和G(z)進行二分類。當判別器無法區分數據來源時,網絡達到納什均衡的最優狀態。
1.2 GAN的目標函數
1.2.1 KL散度與JS散度
GAN的目標是最小化真實數據分布域與生成數據分布域之間的距離。KL散度(Kullback Leibler divergence) [19]是生成對抗網絡中最經典的分布距離度量,可以衡量兩個分布之間的距離,其公式如下:
KL散度的不對稱性會使得其在不同觀察角度下的loss值不相同,這將會導致基于KL散度的目標函數其梯度下降方向趨近于某個特定方向。為避免上述問題帶來的模式崩潰現象,通過數學變換將KL散度等效轉換為JS散度 (Jensen Shannon divergence) [20],其公式如下:
1.2.2 目標函數的理解、推導及證明
1)目標函數理解 相比于其他神經網絡僅將損失函數作為梯度下降優化網絡的度量工具,對GAN而言損失函數則是其核心部分。GAN的對抗博弈、互相進步、最后達到納什均衡狀態的設計理念,其實現依托于對抗性損失函數(即初始GAN的目標函數)。
借助多元函數求偏導數的思想,可以解釋G和D的優化目標。固定生成器G時,討論判別器:式中的D(x)表示判別器對真實數據分布的置信度需盡可能大;D(G(z))表示判別器對于生成樣本的置信度需盡可能小,即第二個子式整體需要盡可能大。綜上所述,固定G的情況下需要最大化D,同理固定D的情況下需要最小化G,即在最小化生成器的同時最大化判別器即可達到納什均衡狀態。
2)交叉熵公式推導溯源 判別器是一個判斷輸入數據真假的二分類網絡,故對交叉熵損失函數在二分類的情況下展開并將公式推廣至N個樣本后,累加后可得到以下公式:
其中:yi為正確樣本分布;1-yi為生成樣本分布;D(xi)為判別樣本為正確的概率。首先對于樣本點xi,其必定服從真實樣本分布或生成樣本分布;其次取yi=0.5以表示網絡整體達到納什均衡狀態,此時判別器對于真實樣本與生成樣本不再具有判別能力,同時生成器生成能力達到最優;最后通過將G(z)表示為生成樣本,可將式(4)使用概率分布的期望形式等價轉換為
除系數外,式(5)與式(3)完成了數學表達上的統一,即證明了GAN的目標函數源于交叉熵損失。
3)JS散度等價關系證明 對于式(3)而言,當G作為函數且可逆時,存在以下等價關系:
將式(6)代入目標函數可得到只關于參數D的一元積分函數。通過微分求解可得到當D=Pdata/(Pdata+PG)時,目標函數V(D,G)為最大值,將此參數代入目標函數可得式(7)。該公式證明了GAN的目標函數等價于JS散度。
2 GAN的衍生模型分類
生成對抗網絡自提出后已經成為了目前生成模型的主流。近年來基于GAN的基本思想,結合傳統生成模型、卷積神經網絡等相關領域衍生出了許多改進模型。本章將對其衍生模型從五個方面進行分類整理,并介紹不同改進方式下具有代表性或前沿性的模型結構。衍生模型[21~55]的分類如表1所示。
2.1 基于網絡架構與損失函數約束的改進方式
GAN是由一對或多個、多對生成網絡與判別網絡所組成的集群網絡,可以理解為由多個完整的子網絡(生成網絡、判別網絡)所構建的一個網絡系統。宏觀角度上的GAN結構圖側重描述的是生成網絡與判別網絡之間的組織架構關系,因此稱為網絡架構圖更為合適。如圖1所示,省去了具體的子網絡內部細節,僅描述其子網絡之間的組織關系。
損失函數是GAN的設計核心。在模型的設計階段,GAN可以在對抗性損失的基礎上添加額外的損失函數約束達到引導模型優化方向的目的。從具體實現的角度來看,用于約束網絡更新迭代的損失函數,其實現依賴于構建對應的網絡架構。
CGAN[21](conditional GAN)作為有監督模型,在生成器與判別器的輸入層上添加了額外的one-hot向量c作為條件信息約束網絡的迭代優化方向,實現了指向性生成數據,即給定條件約束,使網絡輸出符合條件預設的結果。CGAN及其基于條件約束的衍生模型,通過指向性地生成數據緩解了GAN類型網絡生成數據太過自由的現象,有助于消除模式崩潰現象。相對于CGAN利用one-hot標簽向量實現有監督的條件生成,InfoGAN[22]則通過無監督學習來得到一些潛在的特征表示。該網絡的生成器在保持隨機噪聲z輸入的前提下,額外增加了隱變量c,通過生成數據與隱變量c之間的互信息作為約束,使網絡能夠學習到隱變量約束下的潛在特征表示。
StackGAN[23]以CGAN為基礎構建了一種兩段式生成架構,用于處理通過文字描述生成圖像的跨模態問題。該網絡將文本描述作為額外信息c,階段1的生成器通過隨機噪聲z與文本信息c生成低分辨率圖像,階段2則根據上述生成結果并再次結合額外信息c生成高分辨率圖像。CycleGAN[24]通過兩對雙向映射的生成器、判別器模型構建了一種能夠實現源域與目標域互相映射的GAN架構;基于此架構,提出了循環一致性損失實現了基于未成對數據集的圖像轉換任務。其網絡架構如圖2所示。
2.2 基于生成器的改進方式
2.2.1 經典改進
使用集成學習的思想綜合不同粒度下的弱生成器所學習到的特征模式是經典的改進思路之一,Tolstikhin等人[25]基于集成學習的迭代循環思想提出了AdaGAN模型,在根據混合權值和訓練樣本得到弱生成器的基礎上,將每一輪得到的弱生成器與上一輪迭代得到的弱生成器按照不同權重混合得到綜合多個、多輪弱生成器所學習到的特征模式。有效地緩解了模式崩潰的問題。針對多模式學習問題,從設計多個生成器以學習不同模式的角度出發,Ghosh等人[26]提出了由多個生成器與一個判別器所組成的MADGAN(multi-agent diverse GAN)模型。判別器除判定輸入樣本是真實樣本還是生成樣本以外,當輸入樣本判定為生成樣本時,還需對生成樣本的來源進行判斷;生成器則專注于學習多模式下的具體特定模式,隨后將多個生成器各自學到的數據分布域Pi混合后近似逼近于真實數據分布域Pdata。該模型相比于AdaGAN[25]對生成器加權混合,對緩解模式崩潰問題更加有效。
2.2.2 前沿改進
受限于常規生成器模型的特征提取能力較低,目前的生成器網絡一般都通過添加空間卷積與自注意力模塊提升網絡性能。Anokhin等人[27]提出了一種根據隨機潛在向量與像素坐標單獨計算每個像素點顏色數值的生成器模型CIPS(conditionally-independent pixel synthesis),在合成過程中不涉及跨像素傳播信息的空間卷積類似操作,為生成器模型的設計提供了一種新的理念,即僅依靠隨機噪聲對圖片進行像素級的圖像重建。Shaham等人[28]針對高分辨率圖像提出了一種高效快速的全分辨率輕量級生成器架構。該方法類似于文獻[27],即針對每個像素獨立處理,區別在于該方法通過仿射變換和非線性組合加強了簡單函數的非線性表達能力;此外通過拼接空間坐標的正弦編碼來增強輸入圖像,為生成高質量的圖像內容提供了有效的歸納偏置項。
2.3 基于判別器的改進方式
2.3.1 經典改進
Mordido等人[29]結合dropout隨機失活的思想提出了dropout-GAN,該網絡將初始設定的一組判別器,在每輪訓練結束后隨機刪除訓練結果,再將結果反饋給生成器。通過隨機失活的思想構建了動態變化的判別器集合,誘騙生成器盡可能地生成多樣化的樣本數據,從而達到緩解模式崩潰的問題。
針對GAN傾向于生成沒有多樣性樣本的模式崩潰問題,Lin等人[30]從讓判別器學會識別多模式的角度出發,提出了PacGAN網絡,該網絡將同一類的多個樣本打包送入判別器中,通過決策判別學習樣本分布;通過混合多個不同樣本集成輸入的方式,使得判別網絡在訓練過程中能夠感知樣本的多樣性。
相比于上述Lin等人盡力改進單個判別器模型以達到識別多模式的目的,Durugkar等人[31]認為過度改進判別器模型會因需要學習的模式類型過多,而不能在多模式問題下達到近似的全局最優解,提出的GMAN(generative multi-adversarial network)使用多個判別器網絡學習不同的模式類型,然后將所有判別器的訓練結果同步反饋給生成器,使生成器學習所有判別器的聚合結果,加快網絡收斂速度;但此網絡只適用于不同模式類型之間區別較大的訓練集數據。
2.3.2 前沿改進
在GAN的訓練過程中,生成器與判別器對抗博弈,互相促進提升。Zhang等人[32]從改進判別器的角度使生成器獲得了后驗分布中的真實信息,從而提升了P2GAN(posterior promoted GAN)的生成能力。該網絡首先將圖像映射到多元高斯分布并提取真實信息傳遞給判別器,其次生成器采用了AdaIN(adaptive instance normalization)[33]后的真實信息和淺碼,最后使用超參數的尋優與預訓練來保證訓練過程的穩定性。P2GAN在理論上證明了模型的收斂性,此外在無監督圖像合成任務的實驗中,其生成圖像效果與目前最先進的GAN改進模型相當。
2.4 基于交叉領域的改進方式
上述改進均屬于對于GAN模型內部的各個模塊進行改進,通過借鑒其他外部領域下的經典思想對GAN模型進行改進,也可以提升模型性能和針對性地應用于不同的任務場景。
2.4.1 經典改進
Radford等人[34]提出了一種將深度卷積神經網絡與生成對抗網絡相結合的網絡架構——深度卷積對抗生成網絡(deep convolutional GAN,DCGAN)。DCGAN的提出代表著CNN能夠有效地應用到生成對抗網絡中,GAN系列模型的應用能力得到了巨大的提升。VAEGAN[35]將傳統生成模型VAE與GAN相結合,在VAE模型中,網絡優化的損失函數是decoder解碼出的圖像與初始圖像之間的歐氏距離,但損失值與圖像質量不完全成反比關系,故將解碼圖像再送入判別器中識別其生成效果,以此達到了使用GAN來提升VAE圖像生成質量的效果。
SAGAN(self-attention GAN)[36]針對處理復雜結構圖像時生成效果差的問題,通過在網絡中引入自注意力機制以對圖像中的重點區域進行特征提取和學習。Wang等人[37]結合知識蒸餾的理論提出了KDGAN(knowledge distillation GAN),該模型由分類網絡、判別網絡、教師網絡三個子網絡所組成。首先分類網絡與教師網絡通過蒸餾損失互相學習,并通過對抗性損失對分類網絡進行對抗訓練;最后對蒸餾過程和對抗性損失同時優化,使得分類器能夠獲得平衡狀況下的真實數據分布。
2.4.2 前沿改進
Esser等人[38]將CNN的歸納偏置與Transformer[39]的高表達能力互相結合提出了一種新的網絡模型。CNN可以有效提取圖像的全局與局部視覺特征,帶來有益的局部有限的特征交互;Transformer可以學習到長距離(long-range)的交互信息,Esser等人結合了CNN和Transformer的上述優點提高了生成圖像的視覺效果。Huang等人[40]在VAEGAN的基礎上提出了IntroVAE模型。該模型的主要思想是通過對抗性訓練VAE,使編碼器更好地區分生成數據樣本與真實數據樣本。Daniel等人[41]在上述的基礎上提出了Soft-introVAE模型。該模型在生成的樣本上用平滑的指數損失替代鉸鏈損失項,顯著地提高了訓練的穩定項。Parmar等人[42]針對計算機視覺領域中的各種下游任務,提出了一種通用性的VAE模型DC-VAE(dual contradistinctive-VAE),該模型通過具有雙重對比損失的生成自動編碼器,融合了實例級判別損失與集合級對抗性損失,在不同分辨率下的實驗結果表明,DC-VAE顯著提高了作為基準模型的主客觀性能表現。
2.5 基于分布距離度量的改進方式
分布距離度量作為衡量兩個數據分布域之間相似程度的指標,對GAN模型達到納什均衡狀態后的數據擬合能力影響較大。目前GAN的分布距離度量方法有兩大類:基于f-散度(f-divergence)[43],根據合適的f(x)函數構建模型;基于IPM(intergral probability metric)[44],選擇合適的函數空間制造不同的GAN。
2.5.1 f-散度改進
針對初始GAN所采用的基于KL散度的分布距離度量,Nowozin等人[45]提出的f-GAN從數學的角度論證了KL散度是f-散度的一種特殊情況。其數學推廣公式如下,P、Q為任意兩個數據分布,p(x)、q(x)分別為其連續的密度函數,f為連續的凸函數且滿足f(1)=0。
當凸函數f(x)選擇Fenchel共軛函數后可將上述公式推導為GAN的目標函數公式(式(3))。f-GAN的提出為GAN實現了基于f-散度的分布距離度量改進方式。Mao等人[46]基于Person χ2散度替代Fenchel函數提出了LSGAN(least square GAN),Zhao等人[47]基于總體方差引入能量函數提出了EBGAN(energy-based GAN)。
2.5.2 IPM改進
IPM類似于f-散度,也是用于度量兩個數據分布域之間的距離。IPM的優勢主要體現在以下兩個方面:a)隨著數據空間維度的增加,f-散度會越發地難以計算,而IPM類分布距離度量不受維度影響;b)當兩個分布的支撐集未對齊時,會導致散度值趨近于無窮,而IPM不會存在發散現象。IPM公式為
Arjovsky等人[48]基于IPM提出了WGAN(Wasserstein GAN),開辟了基于IPM的分布距離度量改進方法。WGAN使用Wasserstein距離(也稱EM距離)來衡量兩個數據分布域之間的距離。利用EM距離作為模型的優化參照指標,有效緩解了GAN模型訓練不穩定和模式崩潰問題,其公式如下:
使用IPM下的Wasserstein距離進行分布距離度量的改進方式,仍是目前分布距離改進類網絡的主流。WGAN-GP[49]使用了L2梯度懲罰代替WGAN權重剪裁的方式緩解了梯度消失、模式崩潰的問題。Fisher GAN[50]在WGAN-GP的基礎上對判別器的二階矩引入相關數據約束以差異化其對不同數據分布的識別能力。其次基于投影降維的思想,通過最小化組內偏差和最大化組間偏差實現最大化均值差異。Heitz等人[51]提出了sliced Wasserstein distance作為替代Gram-matrix loss的度量方式,解決了Gram[52]矩陣因忽略其他特征(如high-order)的統計量所導致的偽影問題。基于IPM的分布距離改進方法,除主流的Wasserstein距離以外,還有基于MMD(maximum mean discrepancy) [53]的改進方法。MMD使用再生核希爾伯特空間計算得到基于當前核函數的IPM距離,從而度量兩個分布之間的差異。GMMN[54]使用了高斯核函數用來最小化IPM距離函數,再將此函數作為生成模型的目標函數。與一般GAN不同的是,它不存在判別網絡部分,也不需要訓練神經網絡來逼近兩個概率分布之間的距離?;贕MMN,Li等人[55]提出的MMDGAN用生成對抗網絡訓練得到的核函數替代傳統的高斯核函數,以此提升了生成樣本的質量。
3 GAN的熱點應用
3.1 圖像生成類網絡的應用研究
圖像生成是指網絡訓練完成后,不依賴圖像輸入,僅靠隨機噪聲向量z來生成擬合數據集分布的圖像樣本,其本質是將服從某一分布的隨機向量映射成采樣于服從某一分布的圖像?;趫D像生成類GAN的經典應用[36, 56~59]總結如表2所示。
3.1.1 數據增強
數據增強是圖像生成類網絡的代表性應用,噪聲向量生成MNIST手寫數據集圖片就是其中的典型案例。為加強此類網絡的圖像生成能力,Info-GAN[22]在標準GAN模型的輸入端增加了隱變量c作為互信息正則化約束,以此來學習隱變量約束下的潛在特征表示。SAGAN[36]從對復雜結構圖的不同區域進行差異化學習的角度出發,引入了自注意力機制以對圖像中的重點區域進行特征提取和學習,提高了模型的圖像生成能力。針對單幅圖像數據增強的極端情況,SinGAN[56]通過對單張圖像進行不同尺度的下采樣進行多粒度學習,使模型能夠以任意尺寸生成各種高質量的圖像。
3.1.2 人臉生成
人臉生成任務可以理解為專注于人臉模擬的數據增強任務。因人臉圖像的應用性廣泛,其在該領域下的發展得到了極為細致的針對性優化,如專門構建變量控制頭發、膚色等細節。StyleGAN[57]作為該應用的代表性網絡,通過變量轉換網絡和多層次的雙特征輸入構建一個新的生成器結構,以此實現對圖像高層語義信息進行無監督的解耦分離。StyleGAN在人臉生成任務上有著優秀的表現力,但其生成的少部分圖片會存在水滴狀的摩爾紋瑕疵。為解決該問題,StyleGANv2[58]在前者的基礎上去除了AdaIN操作,避免了自適應實例歸一化對特征圖進行歸一化處理時引起的特征信息丟失;此外StyleGANv2提出了path length regularization通過潛在編碼控制人臉的屬性。Xu等人[59]以StyleGAN[57]、SinGAN[56]為研究對象,發現其優越的生成能力是由生成器在使用零填充時隱式位置編碼所帶來的,而零填充會導致不平衡的空間偏差與位置關系模糊,針對此問題提出了一種替代位置編碼以提供更好的空間歸納偏差。
3.2 圖像轉換類網絡的應用研究
圖像轉換是指網絡訓練完成后,生成樣本圖像需要輸入新的圖像作為標簽依賴,其本質是利用訓練好的網絡模型實現圖像到圖像之間的映射轉換?;趫D像轉換類GAN的經典應用[60~74]總結如表3所示。
3.2.1 風格遷移
風格遷移網絡按照實現方式可以分為基于特征抽取的常規卷積神經網絡類、基于圖像生成的生成對抗網絡類。GAN類型的風格遷移網絡可以實現兩類風格圖像其數據分布域之間的轉換,是針對共性特征的學習和轉換。
pix2pix[60]網絡基于條件GAN(CGAN)的思想,將其條件約束為成對圖像的輸入實現了有監督圖像風格遷移。該網絡有著較好的生成圖質量,但因成對數據集的稀缺性,導致作為有監督風格遷移網絡的pix2pix模型泛化應用性不強,應用場景少。CycleGAN[24]在pix2pix網絡的基礎上,通過構建循環一致性損失實現了無監督性質的風格遷移。CycleGAN的提出代表著基于自重構損失的無監督圖像轉換網絡,打破了有監督圖像轉換網絡需要成對數據集的限制,是GAN發展歷史上的一個重要突破。同年所提出的DualGAN[61]和 DiscoGAN[62]在設計思想上與CycleGAN一致。因循環一致性損失對于兩個數據分布域之間的雙向映射是沒有做區分處理的,為實現針對性地優化某一方向(源域到目標域)的圖像轉換,Zhao等人[63]提出了ACL-GAN(adversarial consistence loss)網絡,鼓勵生成圖像保留原圖的重要特征,而不要求生成圖像可以翻譯回源域。
3.2.2 超分辨率重建
超分辨率重建是指輸入低分辨率圖像,經過網絡轉換得到高分辨率圖像。卷積神經網絡的超分辨率重建一般以均方誤差為損失函數,而這會導致生成圖像過于平滑,缺乏高頻紋理細節。SRGAN(super resolution GAN)[64]的提出是GAN應用在超分辨率重建任務上的一個標志性里程碑,該網絡的核心是通過使用對抗損失和內容損失構建了感知損失來訓練收斂模型。相比于均方誤差損失追求像素級的相似性,感知損失以人類主觀視覺感受為主,追求特征空間的相似性。
ESRGAN(enhanced super resolution GAN)[65]在SRGAN的基礎上引入新網絡結構單元RRDB(residual-in-resudal dense block)替代殘差塊,并讓對抗性損失由直接計算其絕對數值的方式更替為計算相對真實度的方式。相比于上述改進對抗性損失函數讓網絡生成更符合人類感知的高質量圖片,GLEAN(generative latent bank)[66]網絡通過直接利用封裝在預訓練GAN中豐富的先驗方法進行一次前向傳播即可生成高分辨率的重建圖像。針對超分辨率重建下的模糊人臉重建任務(blind face restoration, BFR),現有基于GAN的超分辨率重建網絡會產生過度平滑的問題。為解決上述問題,Jiang等人[67]提出了GPEN(GAN prior embedded network)模型。首先學習一個用于生成高質量人臉圖像的GAN,隨后將其嵌入到U形的深度神經網絡(deep neural networks,DNN)中作為先驗解碼器,然后通過送入低質量人臉圖像后微調嵌入DNN中的GAN即可得到高分辨率的人臉重建圖像。
3.2.3 圖像修復
圖像修復是指對圖像中損壞的部分進行重建復原的過程。Denton等人[68]根據缺失圖像的相鄰像素設計了一種基于上下文條件的半監督圖像修復網絡CCGAN(context-conditional GAN),但該網絡需要在輸入殘缺圖像的基礎上額外輸入一個低分辨率的完整圖像才能實現效果較好的圖像修復。
Yu等人[69]指出基于深度學習的圖像修復質量雖然已經大幅超過了傳統的相鄰像素補全,但當前方法大多數通過改進網絡結構提升性能,忽略了圖像修復的本質問題:損壞區域與未損壞區域通常是獨立的。為解決該問題Yu等人提出了區域歸一化(region normalization),通過將輸入圖像按像素劃分為不同的區域,隨后計算每個區域的均值和方差實現歸一化。Peng等人[70]在沒有額外約束且只給定缺失圖像的情況下,提出了一個二段式生成模型VQ-VAE(vector quantized-VAE)。該模型第一階段生成多個具有不同結構的粗略結果,第二階段通過增加不同的紋理來細化第一階段的輸出。同年Wang等人[71]基于圖像前后景提出一種外部、內部單獨處理的兩段式修復方法,在外部學習中,著重于重建單色空間中缺失的結構和細節;在內部學習中,利用漸進式學習策略恢復單圖像的內部顏色。
3.2.4 圖像增強
圖像增強是指選擇性地突出圖像中感興趣的特征或抑制不需要的特征以滿足具體應用場景下的使用需要。其常見的應用場景有行車記錄儀夜晚照片模擬白天視覺效果、水下圖片提升暗部亮度等。Ignatov等人[72]構建了一個用于昏暗圖像增強的有監督圖像轉換網絡DPED,該模型通過提出的復合損失函數(由內容、紋理和色彩三部分所組成)實現了圖像細節的增強;次年,Ignatov等人[73]在自己工作的基礎上提出了弱監督WESPE(weakly supervised photo enhancer)模型,該網絡著重于解決DPED網絡必須使用成對數據集進行訓練的限制。WESPE通過輸入低質量圖像生成高質量圖像的方式構建了一組新的數據分布域,同時使用了一個傳遞性的CNN-GAN結構來學習源域與目標域之間的映射關系。
圖像增強的本質是對欠曝光或過曝光的圖片進行色彩矯正的過程,基于上述思想Afifi等人[74]提出了一個曝光矯正模型:a)使用相對曝光值(exposure value,EV)為-1.5、-1、0、+1、+1.5去渲染MIT-Adobe FiveK數據集模擬不同程度的欠曝光和過曝光情況;b)通過構建一個n層的拉普拉斯金字塔用于儲存輸入圖像的低頻信息與由粗到細的各種高頻信息;c)對上述n層的拉普拉斯金字塔分別使用n個由編碼器、解碼器架構組成的子網絡依次處理;d)通過對上述n個子網絡分配不同權重集成生成最后的曝光矯正圖。
3.3 其他生成方式下的應用研究
3.3.1 三維重構以及三維點云補齊
三維重構是指通過三維以下的數據構建出三維模型。對于GAN而言三維重構任務就是需要建立二維數據到三維模型的映射關系。以單幅人臉圖像作為輸入,三維人臉的幾何重建目標是恢復相應的三維人臉網格。針對上述問題Piao等人[75]提出了一個生成對抗渲染器(generative adversarial renderer, GAR),該模型通過采用法線貼圖和隱編碼并結合渲染器反轉的初始化方法完成三維人臉網格的輸出。Luo等人[76]通過提出了一個二段式生成網絡并將人臉數據集混合歸一化實現了數字化人臉三維重構。針對人體三維重構任務,Grigorev等人[77]提出了一種能夠基于一張或多張人體全身圖像,創建其對應著裝下的3D人物對象。該模型通過將多邊形網絡建模與神經渲染相結合取得了較好的生成效果,但其建模效率較低。
三維點云補全是指將缺失信息的三維點云圖恢復至完整的3D形狀。針對大多數3D形狀補全方法嚴重依賴于局部—整體數據對,并以全監督方式學習的問題,Zhang等人[78]提出了基于無監督的ShapeInversion網絡,解決了虛擬與真實世界之間因掃描和模擬帶來的域欠缺,并開創了通過引入生成對抗網絡的逆映射來補全形狀的方法。
3.3.2 文本生成圖像
文本生成圖像是指通過輸入文本信息到網絡中,生成符合文本描述的相關圖像。該任務類型屬于多模態學習,其難點在于需要學習跨模態的共享表示,以及通過一種模態預測另一種模態中的缺失數據。
GAN-INT-CLS模型的提出開啟了GAN模型在文本生成圖像領域中的應用。GAN-CLS[79]子結構從改進判別器輸入的角度出發,通過新構建一組輸入數據對,讓判別器更好地學習文本描述和圖片內容的對應關系;GAN-INT[79]通過流行插值學習的方式增加了文本的變化,從而增加了G的生成能力。網絡將插入前后的語句各取0.5的權值進行融合,得到由文本描述的生成圖像。
2018年提出的AttnGAN[80]是一種基于注意力驅動的多粒度生成器,隨后構建跨模態的DAMSM損失來評估圖像與文本的匹配程度。次年MirrorGAN[81]在AttnGAN的基礎上再引入全局注意力機制構建了STEM(semantic text embedding module)模塊,此外借助于CycleGAN的啟發,在生成圖片的基礎上重新生成對應的描述文本,與原文本進行比較形成文本重構損失。
3.3.3 信息安全
在信息安全領域中,隨著GAN的迅速發展。其在惡意檢測、密碼破解等應用中也有許多突破性進展。tDCGAN[82]利用真實軟件數據與模型生成數據來學習惡意軟件的特征,以此進行惡意軟件檢測。針對因詐騙樣本相對較少所導致的詐騙預檢測網絡正確率較低的問題,Fiore等人[83]通過訓練GAN來模擬生成小樣本詐騙案例,以此方法擴充數據集來用于加強網絡訓練。在密碼破解領域,Gomez等人[84]所提出的CipherGAN可以破譯古典密碼中的維吉尼亞密碼和移位密碼,雖然上述密碼屬于能夠被其他方法破譯的密碼,但CipherGAN的提出代表著密碼分析、破譯首次與GAN相結合起來。
其他生成方式下的應用研究[75~84]總結如表4所示。
4 生成圖質量與多樣性評估方法
GAN的生成圖像質量與多樣性的評估一直缺乏普適性的評價指標。在目前的研究中,對其質量的評估一般從主觀定性分析和客觀定量分析兩個角度入手。此外針對一些特定的任務領域,也可使用該任務領域下的評估方法對GAN的效果進行評價分析。
4.1 主觀定性評估
主觀定性分析是指依賴人的主觀視覺感受對生成圖像進行評價的方法。該評估方法本質是通過生成圖像所表現出的全局視覺信息去評價圖像,而非簡單地追求像素級的映射。SRGAN[64]改進的感知損失函數就是通過模擬人對圖片的視覺感受,以此提升生成圖像的質量。由于評價者具有不同程度的主觀性,為得到較為客觀的視覺定性分析,提升可信度,一般采用在眾包平臺上進行多次問卷調查的方式,并利用統計結果的平均值來減少主觀因素的影響。知名的眾包平臺有AMT(Amazon mechanical turk)與Gems。
4.2 客觀定量評估
定量評估需要考察生成圖像的視覺質量與多樣性兩個方面。圖像的視覺質量越高則代表生成器的訓練效果越好,多樣性越豐富則表示模型沒有出現模式崩潰的現象。
4.2.1 IS指標IS(inception score)[85]分數使用在ImageNet數據集下訓練好的InceptionV3網絡作為評分網絡對圖像進行處理,是用于評價GAN模型生成圖像質量的最常用指標之一,其通過使用類概率分布與熵信息的方式對兩組數據分布域進行相似度的度量。其公式如下:
IS指標通過KL散度計算了兩個概率分布之間的距離,在一定程度上反映了生成圖片數據域對于真實數據分布的擬合情況。但只有當分類模型與生成模型在同一數據集下訓練時,其計算的IS分數才有實際價值。即不能用在一個數據集上訓練得到的分類模型來評估在另一個數據集上訓練的生成模型。
4.2.2 FID指標
FID(fréchet inception distance) [86]計算的是真實樣本與生成樣本在特征空間高斯分布的佛雷歇距離。該指標與IS一樣同樣借助了inception網絡,區別在于其僅將inception網絡當做特征提取器,并不需要判斷圖片類別。因此FID相對于IS對于噪聲具有更好的魯棒性。此外FID通過直接衡量生成圖像數據分布與真實圖像數據分布之間的距離,規避掉了因類別內部生成圖相似所產生的模式崩潰問題。在GAN中FID較IS指標更為合理,其公式如下。
IS和FID指標是目前評估GAN模型圖像生成質量與多樣性的最常用指標,此外還有1-最近鄰分類器、Wasserstein距離、修正IS、最大均值差異等指標。其各個指標的優缺點如表5所示。
4.3 任務領域專項評估
GAN的應用類型種類繁多,上述的客觀評價指標適用于類別為圖像轉換或圖像生成的絕大多數GAN模型。但在一些較少數的特定任務領域中,使用該領域的評價指標衡量GAN模型的生成能力也是一種重要的方式。在基于GAN的圖像分割領域中,文獻[87,88]提出的兩個GAN模型使用了Weighted IOU和mIOU指標作為評估GAN模型的度量工具;在基于GAN的三維重構領域中,Piao等人[75]提出的模型使用了一種點到平面距離的網格重構誤差;在基于GAN的圖像修復領域中,Peng等人[70]所提出的模型使用了PSNR(peak signal-to-noise ratio)與SSIM(structural similarity)作為衡量圖像生成質量的評價指標;在基于GAN的超分辨率重建中,Chan等人[66]使用感知損失LPIPS(learned perceptual image patch similarity)來度量低分辨率圖像與高分辨率重建圖像之間的相似性。
5 GAN的難點與發展
5.1 GAN的研究難點
5.1.1 模式崩潰問題
在網絡的訓練過程中,判別器往往會為了保持其準確性而讓生成器趨近于生成單模式類型的圖片,這將使得生成器失去生成模式的多樣性面帶來嚴重的模式崩潰問題。雖然通過使用Wasserstein距離替代KL距離和使用FID作為評價指標能在一定程度上減緩該問題的產生,但是因為GAN難以訓練和可解釋性差的特點,模式崩潰問題目前只能緩解而不能徹底解決。
5.1.2 模型評價指標未統一
GAN生成圖像的評估指標種類繁多,但缺乏一個能夠客觀地衡量GAN模型生成效果的普適性評價指標,雖然可以結合網絡所屬任務領域下的評價指標協同評價GAN的模型效果,但仍有部分網絡不結合任務領域僅從理論上改進GAN模型。因此,提出一個有效性的客觀評價指標來綜合衡量GAN模型的生成效果是十分具有研究價值的。
5.1.3 距離度量選擇
目前用于衡量GAN數據分布的距離度量有f-散度類和IPM框架類兩大類?;趂-散度的KL距離是目前最常見的距離度量,但其因數值發散而不具有連續性,會導致網絡梯度消失的問題?;贗PM框架的Wasserstein距離是目前主流的研究方向,有關距離度量改進的GAN模型大多數也基于此進行改進。Wasserstein距離解決了f-散度類距離度量的發散問題,但其需要添加如權重裁剪、L2梯度懲罰等約束項來滿足1-Lipschitz條件以保證優化目標有界,而約束項的添加會給網絡帶來不同程度的限制與影響。總體來說,雖然Wasserstein距離是目前最優的分布距離度量,但其在數學原理與約束項的設計上仍然有許多優化空間。
5.2 GAN的前沿進展
目前最前沿GAN的改進可分為基于特定任務的優化改進和基于GAN本身的模型理論改進。前者屬于應用層面的改進,通常與當前流行的具體應用相結合。如Aliakbarian等人[89]通過頭戴式設備的信號流學習3D人體姿勢的條件分布與潛在空間的概率映射,實現了人體虛擬姿勢的估計;He等人[90]通過設計的風格調制模塊和特征調制模塊實現了一種可控的人臉超分辨率重建模型;Chen等人[91]通過構建雙向轉換模塊和對比引導模塊實現了基于未配對數據集的無監督圖像去雨功能。后者屬于對GAN理論的探索和優化,其一般不針對特定的任務,因此該類型的改進模型一般具有較強的普適性。如Shen等人[92]針對GAN訓練過程繁瑣的問題,基于對抗性損失引入了一種新的梯度分解方法來統一對稱GAN和非對稱GAN的訓練過程,減輕了訓練難度;Heitz等人[51]提出了sliced Wasserstein distance作為新的分布距離度量優化了圖像的生成效果;Tseng等人[93]基于LeCam-divergence(f-divergence的一種)提出了一種能夠在有限數據上訓練出高魯棒性GAN模型的正則化方法。隨著GAN的飛速發展,其相關綜述的更迭也越來越快。Alqahtani等人[94]回顧介紹了GAN的關鍵應用以及在各種領域下的具體貢獻;Gui等人[95]從算法、理論、應用三個角度總結了GAN模型;Gao等人[96]介紹了基于GAN的無監督垃圾郵件檢測的發展歷程。
5.3 GAN的發展趨勢
上述提及的問題與前沿進展討論是依據過去幾年的發展歷程所提煉得到的,本文從以下四個方面來探討未來GAN發展的主流趨勢。
a)交叉領域改進。交叉領域改進涉及兩個范疇:a)通過引入其他領域的經典思想改進GAN模型,達到提升模型性能的目的;b)通過設計不同的網絡架構與損失函數約束,將GAN模型應用在除圖像生成與轉換以外的其他領域,如圖像分割、小目標檢測等。
b)模型替代。狹義上的GAN,其生成器和判別器都是指代基于CNN的生成網絡和判別網絡,而在生成對抗網絡興起以前就存在眾多的生成式模型,如基于近似密度估計的VAE、DBM等模型。基于CNN的生成網絡和判別網絡只是眾多生成器、判別器模型中一種較優的選擇。從最優化模型性能的角度出發,利用經典的生成式模型(如VAE)、新興的模型結構(如Transformer)等對基于CNN的生成網絡和判別網絡進行模型替換也是一種重要的發展趨勢。
c)多模態學習。近年來隨著GAN的發展,除圖像生成與轉換等主要應用類型以外,GAN在文字生成圖像、語音生成圖像等跨模態學習領域也取得了許多成果,但在結合圖像、文字、語音的多模態學習方面目前成果較少,跨模態轉換與多模態學習是GAN乃至深度學習未來的重點研究方向。
d)無監督性質。在圖像轉換領域方面,按照是否需要配對數據集訓練可分為有監督網絡和無監督網絡。由于無監督網絡應用性廣、泛化性強和不需要成對數據集訓練等特點,相對于有監督GAN,其能夠處理的任務類型更多,但從生成圖像質量的角度來看,有監督網絡總體還是優于無監督網絡。因此,在保持網絡無監督性質的前提下,優化圖像的生成質量是未來圖像轉換類網絡的主流發展路線。
6 結束語
GAN作為生成式模型的一種,自2014年提出后在計算機視覺領域得到了廣泛的應用。GAN通過隱式建模的方法避免了傳統生成式模型在高緯度數據下難以學習的問題,已經成為如今生成式模型的主流。目前GAN能夠應用于計算機視覺領域下的圖像生成、圖像轉換、圖像增強、風格遷移、超分辨率重建、圖像修復、圖像融合等任務,此外在文本與語音領域,GAN也能完成跨模態轉換生成圖像的任務。GAN發展至今有了成千上萬的衍生模型,本文主要貢獻在于按照模型改進角度、不同生成方式下的應用分類角度兩條主線梳理了近年來的GAN模型。此外GAN模型還可以按照圖像生成、圖像轉換、有監督、無監督、直接法、集成法等分類方法進行梳理歸納。
參考文獻:
[1]Guo Tianmei, Dong Jiwen, Li Henjian, et al. Simple convolutional neural network on image classification[C]//Proc of the 2nd IEEE International Conference on Big Data Analysis. Piscataway, NJ: IEEE Press, 2017: 721-724.
[2]Li Shutao, Song Weiwei, Fang Leyuan, et al. Deep learning for hyperspectral image classification: an overview[J]. IEEE Trans on Geoscience and Remote Sensing, 2019,57(9): 6690-6709.[3]Zou Zhengxia, Shi Zhenwei, Guo Yuhong, et al. Object detection in 20 years: a survey [EB/OL]. (2019-05-13) [2022-08-01].http://doi.org/10.48550/arxiv.1905.05055.
[4]Hafiz A M, Bhat G M. A survey on instance segmentation: state of the art[J]. International Journal of Multimedia Information Retrieval, 2020,9(3): 171-189.
[5]Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image ge-neration [EB/OL]. (2016-11-17) [2022-08-01]. http://doi.org/10.48550/arxiv.1611.02200.
[6]Liedtka J. Strategic planning as a contributor to strategic change: a generative model[J]. European Management Journal, 2000,18(2): 195-206.
[7]Myung I J. Tutorial on maximum likelihood estimation[J]. Journal of Mathematical Psychology, 2003,47(1): 90-100.
[8]Efford M G, Borchers D L, Byrom A E. Density estimation by spatially explicit capture-recapture: likelihood-based methods[M]//Thomson O L, Cooch E G, Conroy M J. Modeling Demographic Processes in Marked Populations. Boston: Springer, 2009: 255-269.
[9]Bengio Y, Alain G, Rifai S. Implicit density estimation by local moment matching to sample from auto-encoders [EB/OL]. (2012-06-30) [2022-08-01]. http://doi.org/10.48550/arxiv.1207.0057.
[10]Kingma D P, Welling M. Auto-encoding variational Bayes [EB/OL]. (2013-12-20) [2022-08-01]. http://doi.org/10.48550/arxiv.1312.6114.
[11]Salakhutdinov R, Larochelle H. Efficient learning of deep Boltzmann machines[C]//Proc of the 13th International Conference on Artificial Intelligence and Statistics. 2010: 693-700.
[12]Goodfellow I,Pouget-Abadie J,Mirza M, et al.Generative adversarial nets[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge, MA: MIT Press,2014:2672-2680.
[13]Daskalakis C, Goldberg P W, Papadimitriou C H. The complexity of computing a Nash equilibrium[J]. Communications of the ACM, 2009,52(2): 89-97.
[14]淦艷, 葉茂, 曾凡玉. 生成對抗網絡及其應用研究綜述[J]. 小型微型計算機系統, 2020, 41(6): 1133-1139. (Gan Yan, Ye Mao, Zeng Fanyu. Review of research on generative adversarial networks and its application[J]. Journal of Chinese Computer Systems, 2020,41(6): 1133-1139. )
[15]程顯毅, 謝璐, 朱建新, 等. 生成對抗網絡GAN綜述[J]. 計算機科學, 2019,46(3): 74-81. (Cheng Xianyi, Xie Lu, Zhu Jian-xin, et al. Review of generative adversarial network[J]. Computer Science, 2019, 46(3): 74-81. )
[16]鄒秀芳, 朱定局. 生成對抗網絡研究綜述 [J]. 計算機系統應用, 2019,28(11): 1-9. (Zou Xiufang, Zhu Dingju. Review on generative adversarial network[J]. Computer Systems Applications, 2019,28(11): 1-9. )
[17]王正龍, 張保穩. 生成對抗網絡研究綜述[J]. 網絡與信息安全學報, 2021,7(4): 68-85. (Wang Zhenglong, Zhang Baowen. Survey of generative adversarial network[J]. Chinese Journal of Network and Information Security, 2021,7(4): 68-85. )
[18]陳佛計, 朱楓, 吳清瀟, 等. 生成對抗網絡及其在圖像生成中的應用研究綜述[J]. 計算機學報, 2021,44(2): 347-369. (Chen Foji, Zhu Feng, Wu Qingxiao, et al. A survey about image generation with generative adversarial nets[J]. Chinese Journal of Computers, 2021, 44(2): 347-369.)
[19]Goldberger J, Gordon S, Greenspan H. An efficient image similarity measure based on approximations of KL-divergence between two Gau-ssian mixtures[C]//Proc of the 9th IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2003: 487-493.
[20]Kumari R, Sharma D K. Generalized ‘useful’ AG and ‘useful’ JS-divergence measures and their bounds[J]. International Journal of Engineering, Science and Mathematics, 2018,7(1): 441-450.
[21]Mirza M, Osindero S. Conditional generative adversarial nets[EB/OL]. (2014-11-6)[2022-08-01]. http://doi.org/10.48550/arxiv.1411.1784.
[22]Chen Xi, Duan Yan, Houthooft R, et al. InfoGAN: interpretable representation learning by information maximizing generative adversa-rial nets[C]//Proc of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 2180-2188.
[23]Zhang Han, Xu Tao, Li Hongsheng, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[C]//Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2017: 5907-5915.
[24]Zhu Junyan, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision. Washington DC:IEEE Computer Society, 2017: 2223-2232.
[25]Tolstikhin I O, Gelly S, Bousquet O, et al. AdaGAN: boosting generative models[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5430-5439.
[26]Ghosh A, Kulharia V, Namboodiri V P, et al. Multi-agent diverse generative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8513-8521.
[27]Anokhin I, Demochkin K, Khakhulin T, et al. Image generators with conditionally-independent pixel synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14278-14287.
[28]Shaham T R, Gharbi M, Zhang R, et al. Spatially-adaptive pixelwise networks for fast image translation[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14882-14891.
[29]Mordido G, Yang Haojin, Meinel C. Dropout-GAN: learning from a dynamic ensemble of discriminators[EB/OL]. (2018-07-30)[2022-08-01]. http://doi.org/10.48550/arxiv.1807.11346.
[30]Lin Zinan, Khetan A, Fanti G, et al. PacGAN: the power of two samples in generative adversarial networks[J]. IEEE Journal on Selected Areas in Information Theory, 2020,1(1): 324-335.
[31]Durugkar I, Gemp I, Mahadevan S. Generative multi-adversarial networks[EB/OL]. (2016-11-05)[2022-08-01]. https://arxiv.org/pdf/1611.01673.pdf.
[32]Zhang Xianchao, Cheng Ziyang, Zhang Xiaotong, et al. Posterior promoted GAN with distribution discriminator for unsupervised image synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 6519-6528.
[33]Huang Xun, Belongie S. Arbitrary style transfer in real-time with adaptive instance normalization[C]//Proc of IEEE International Confe-rence on Computer Vision. Washington DC:IEEE Computer Society, 2017: 1501-1510.
[34]Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2015-11-19)[2022-08-01]. http://doi.org/10.48550/arxiv.1511.06434.
[35]Larsen A B L, Snderby S K, Larochelle H, et al. Autoencoding beyond pixels using a learned similarity metric[C]//Proc of the 33rd International Conference on Machine Learning. 2016: 1558-1566.
[36]Zhang Han, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[C]//Proc of the 36th International Conference on Machine Learning. 2019: 7354-7363.
[37]Wang Xiaojie, Zhang Rui, Sun Yu, et al. KDGAN: knowledge distillation with generative adversarial networks[C]//Proc of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 783-794.
[38]Esser P, Rombach R, Ommer B. Taming transformers for high-resolution image synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 12873-12883.
[39]Chefer H, Gur S, Wolf L. Transformer interpretability beyond attention visualization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 782-791.
[40]Huang Huaibo, Li Zhihang, He Ran, et al. IntroVAE: introspective variational autoencoders for photographic image synthesis[C]//Proc of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 52-63.
[41]Daniel T, Tamar A. Soft-IntroVAE: analyzing and improving the introspective variational autoencoder[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 4391-4400.
[42]Parmar G, Li D, Lee K, et al. Dual contradistinctive generative autoencoder[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 823-832.
[43]Moon K, Hero A. Multivariate f-divergence estimation with confidence[C]//Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2420-2428.
[44]Sriperumbudur B K, Fukumizu K, Gretton A, et al. On the empirical estimation of integral probability metrics[J]. Electronic Journal of Statistics, 2012,6:1550-1599.
[45]Nowozin S, Cseke B, Tomioka R. f-GAN: training generative neural samplers using variational divergence minimization[C]//Proc of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 271-279.
[46]Mao Xudong, Li Qing, Xie Haoran, et al. Least squares generative adversarial networks[C]//Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2017: 2813-2821.
[47]Zhao Junbo, Mathieu M, LeCun Y. Energy-based generative adversarial network[EB/OL]. (2017-03-06)[2022-08-01]. http://doi.org/10.48550/arxiv.1609.03126.
[48]Arjovsky M, Chintala S, Bottou L. Wasserstein GAN[EB/OL]. (2017-12-06)[2022-08-01]. https://arxiv.org/pdf/1701.07875.pdf.
[49]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasserstein GANs[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5769-5779.
[50]Mroueh Y, Sercu T. Fisher GAN[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 2510-2520.
[51]Heitz E, Vanhoey K, Chambon T, et al. A sliced Wasserstein loss for neural texture synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 9407-9415.
[52]Drineas P, Mahoney M W, Cristianini N. On the Nystrm method for approximating a Gram matrix for improved kernel-based learning[J]. Journal of Machine Learning Research, 2005, 6(12): 2153-2175.
[53]Arbel M, Korba A, Salim A, et al. Maximum mean discrepancy gradient flow[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 6484-6494.
[54]Li Yujia, Swersky K, Zemel R. Generative moment matching networks[C]//Proc of International Conference on Machine Learning. 2015: 1718-1727.
[55]Li Chunliang, Chang Weicheng, Cheng Yu, et al. MMD GAN: towards deeper understanding of moment matching network[C]//Advances in Neural Information Processing Systems. 2017.
[56]Shaham T R, Dekel T, Michaeli T. SinGAN: learning a generative model from a single natural image[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 4570-4580.
[57]Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 4401-4410.
[58]Karras T,Laine S,Aittala M,et al.Analyzing and improving the image quality of StyleGAN[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 8110-8119.
[59]Xu Rui, Wang Xintao, Chen Kai, et al. Positional encoding as spatial inductive bias in GANs[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 13564-13573.
[60]Isola P, Zhu Junyan, Zhou Tinghui, et al. Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 1125-1134.
[61]Yi Zili, Zhang Hao, Tan Ping, et al. DualGAN: unsupervised dual learning for image-to-image translation[C]//Proc of IEEE International Conference on Computer Vision. Washington DC:IEEE Computer Society, 2017: 2849-2857.
[62]Kim T, Cha M, Kim H, et al. Learning to discover cross-domain relations with generative adversarial networks[C]//Proc of the 34th International Conference on Machine Learning. 2017: 1857-1865.
[63]Zhao Yihao, Wu Ruihai, Dong Hao. Unpaired image-to-image translation using adversarial consistency loss[C]//Proc of the 16th European Conference on Computer Vision. Cham: Springer, 2020: 800-815.
[64]Dong Chao, Loy C C, He Kaiming, et al. Image super-resolution using deep convolutional networks[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2015,38(2): 295-307.
[65]Wang Xintao, Yu Ke, Wu Shixiang, et al. ESRGAN: enhanced super-resolution generative adversarial networks[C]//Proc of European Conference on Computer Vision. Cham: Springer,2018: 63-79.
[66]Chan K C K, Wang Xintao, Xu Xiangyu, et al. GLEAN: generative latent bank for large-factor image super-resolution[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14245-14254.
[67]Jiang Bo,Wang Leiling,Cheng Jian,et al. GPENs: graph data learning with graph propagation-embedding networks[J/OL]. IEEE Trans on Neural Networks and Learning Systems.(2021-10-27). https://doi.org/10.1109/TNNLS.2021.3120100.
[68]Denton E, Gross S, Fergus R. Semi-supervised learning with context-conditional generative adversarial networks[EB/OL]. (2016-11-19)[2022-08-01]. http://doi.org/10.48550/arxiv.1611.06430.
[69]Yu Tao, Guo Zongyu, Jin Xin, et al. Region normalization for image inpainting[C]//Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 12733-12740.
[70]Peng Jialun, Liu Dong, Xu Songcen, et al. Generating diverse structure for image inpainting with hierarchical VQ-VAE[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 10775-10784.
[71]Wang Tengfei, Ouyang Hao, Chen Qifeng. Image inpainting with external-internal learning and monochromic bottleneck[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 5116-5125.
[72]Ignatov A, Kobyshev N, Timofte R, et al. DSLR-quality photos on mobile devices with deep convolutional networks[C]//Proc of IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2017: 3277-3285.
[73]Ignatov A, Kobyshev N, Timofte R, et al. WESPE: weakly supervised photo enhancer for digital cameras[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 691-700.
[74]Afifi M, Derpanis K G, Ommer B, et al. Learning multi-scale photo exposure correction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 9157-9167.
[75]Piao Jingtan, Sun Keqiang, Wang Quan, et al. Inverting generative adversarial renderer for face reconstruction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 15619-15628.
[76]Luo Huiwen, Nagano K, Kung H W, et al. Normalized avatar synthesis using StyleGAN and perceptual refinement[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2021: 11662-11672.
[77]Grigorev A, Iskakov K, Ianina A, et al. StylePeople: a generative model of fullbody human avatars[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 5151-5160.
[78]Zhang Junzhe, Chen Xinyi, Cai Zhongang, et al. Unsupervised 3D shape completion through GAN inversion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 1768-1777.
[79]Reed S, Akata Z, Yan Xinchen, et al. Generative adversarial text to image synthesis[C]//Proc of the 33rd International Conference on International Conference on Machine Learning. 2016: 1060-1069.
[80]Xu Tao, Zhang Pengchuan, Huang Qiuyuan, et al. AttnGAN: fine-grained text to image generation with attentional generative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 1316-1324.
[81]Qiao Tingting, Zhang Jing, Xu Duanqing, et al. MirrorGAN: lear-ning text-to-image generation by redescription[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 1505-1514.
[82]Kim J Y, Bu S J, Cho S B. Zero-day malware detection using transferred generative adversarial networks based on deep autoencoders[J]. Information Sciences, 2018,460(9): 83-102.
[83]Fiore U, Santis D A, Perla F, et al. Using generative adversarial networks for improving classification effectiveness in credit card fraud detection[J]. Information Sciences, 2019,479(4): 448-455.
[84]Gomez A N, Huang Sicong, Zhang I, et al. Unsupervised cipher cracking using discrete GANs[EB/OL]. (2018-01-15)[2022-08-01] .http://doi.org/10.48550/arxiv.1801.04883.
[85]Barratt S, Sharma R. A note on the inception score[EB/OL]. (2018-06-21)[2022-08-01]. http://doi.org/10.48550/arxiv.1801.01973.
[86]Soloveitchik M, Diskin T, Morin E, et al. Conditional Frechet inception distance[EB/OL]. (2022-02-28)[2022-08-01]. http://doi.org/10.48550/arxiv.2103.11521.
[87]Tritrong N, Rewatbowornwong P, Suwajanakorn S. Repurposing GANs for one-shot semantic part segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 4475-4485.
[88]Li Daiqing, Yang Junlin, Kreis K, et al. Semantic segmentation with generative models: semi-supervised learning and strong out-of-domain generalization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 8300-8311.
[89]Aliakbarian S, Cameron P, Bogo F, et al. FLAG: flow-based 3D avatar generation from sparse observations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2022: 13253-13262.
[90]He Jingwen, Shi Wu, Chen Kai, et al. GCFSR: a generative and controllable face super resolution method without facial and GAN priors[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2022: 1889-1898.
[91]Chen Xiang, Pan Jinshan, Jiang Kui, et al. Unpaired deep image deraining using dual contrastive learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2022: 2017-2026.
[92]Shen Chengchao, Yin Youtan, Wang Xinchao, et al. Training gene-rative adversarial networks in one stage[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2021: 3350-3360.
[93]Tseng H Y, Jiang Lu, Liu Ce, et al. Regularizing generative adversarial networks under limited data[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press,2021: 7921-7931.
[94]Alqahtani H, Kavakli-Thorne M, Kumar G. Applications of generative adversarial networks (GANs): an updated review[J]. Archives of Computational Methods in Engineering, 2021,28(2): 525-552.
[95]Gui Jie, Sun Zhenan, Wen Yonggang, et al. A review on generative adversarial networks: algorithms, theory, and applications[J]. IEEE Trans on Knowledge and Data Engineering.(2021-11-23). https://doi.org/10.1109/TKDE.2021.3130191.
[96]Gao Yuan, Gong Maoguo, Xie Yu, et al. An attention-based unsupervised adversarial model for movie review spam detection[J]. IEEE Trans on Multimedia, 2021, 23(4): 784-796.
收稿日期:2022-08-08;修回日期:2022-10-18 基金項目:國家自然科學基金資助項目(61971078);2021年工業和信息化部高質量發展專項資助項目
作者簡介:張彬(1975-),女,四川通江人,講師,主要研究方向為計算機圖形處理(443272887@qq.com);周粵川(1996-),男,重慶涪陵人,碩士研究生,主要研究方向為生成對抗網絡、風格遷移;張敏(1987-),女,四川成都人,助理工程師,主要研究方向為工業互聯網、數字經濟;李佳(1992-),女,四川成都人,助理工程師,主要研究方向為信息顯示與光電技術、智能制造;張建勛(1971-),男,四川樂山人,教授,碩導,博士,主要研究方向為計算機視覺;郭志剛(1984-),男,山西靈石人,工程師,主要研究方向為質量監督.