






收稿日期:2022-03-23;修回日期:2022-05-19" 基金項目:國家自然科學(xué)基金項目(61976156);天津自然科學(xué)基金項目(18JCQNJC69500)
作者簡介:孫志偉(1973-),男(通信作者),副教授,碩導(dǎo),主要研究方向為機器學(xué)習(xí)(zhwsun@tust.edu.cn);馬韜(1995-),男,江蘇淮安人,碩士,主要研究方向為生成對抗網(wǎng)絡(luò)和OCR;趙婷婷(1986-),女,碩導(dǎo),主要研究方向為機器學(xué)習(xí)算法及智能信息處理;閆瀟寧(1989-),碩士,主要研究方向為人工智能算法;許能華(1982-),碩士,主要研究方向為圖像處理算法.
摘 要:為了解決生成對抗網(wǎng)絡(luò)(GAN)在生成圖像時出現(xiàn)的模式崩塌問題,提出了一種最大化中心模式和微小模式損失生成對抗網(wǎng)絡(luò)(MMMGAN)。首先,將具有相同標簽的生成圖像的模式定義為中心模式和微小模式,中心模式和微小模式分別代表相似模式的集合和學(xué)習(xí)完中心模式后可能的模式變化。其次,基于上述的定義提出最大化中心模式和微小模式損失。最后,引入該損失函數(shù),在保證生成圖像的分布逼近真實圖像的前提下,絕大多數(shù)評價指標都得到了改善,提升了生成圖像的多樣性。拓展性的實驗結(jié)果表明,提出的最大化中心模式和微小模式損失應(yīng)用于兩種及其以上不同類型任務(wù)中,模式崩塌得到了有效緩解。
關(guān)鍵詞:圖像生成;中心模式;微小模式;模式崩塌;深度學(xué)習(xí)
中圖分類號:TP391.9"" 文獻標志碼:A
文章編號:1001-3695(2022)12-047-3815-05
doi:10.19734/j.issn.1001-3695.2022.03.0160
MMMGAN:maximizing middle modes and minor modes in
generative adversarial networks
Sun Zhiwei1,Ma Tao1,Zhao Tingting1,Yan Xiaoning2,Xu Nenghua2
(1.College of Artificial Intelligence,Tianjin University of Science amp; Technology,Tianjin 300222,China;2.Softsz Co.,Ltd.,Shenzhen 518131,China)
Abstract:In order to mitigate mode collapse when generative adversarial networks(GAN) synthesis images,this paper proposed maximizing middle modes and minor modes in generative adversarial networks(MMMGAN).First of all,MMMGAN defined the mode of the generated images with the identical label as the middle mode and the minor mode.The middle mode and the minor mode separately represented the collection of similar modes and the possible mode changes after learning the middle modes.Secondly,based on the above definition,this paper proposed maximizing middle modes and minor modes loss.Finally,on the premise that the distribution of generated images was possibly close to the real image,MMMGAN improved more than 90% of evaluation metrics and then enhanced diversity of generated images.Extensive experimental results show that the proposed maximizing middle modes and minor modes loss effectively alleviates mode collapse in two or more different types of tasks.
Key words:image synthesis;middle mode;minor mode;mode collapse;deep learning
0 引言
自生成對抗網(wǎng)絡(luò)(GAN)首次在2014年被Goodfellow等人[1]提出以來,它就被證明可以有效地捕捉復(fù)雜的分布并且生成高保真的圖像。GAN在生成高分辨率圖[2~7]方面也取得了巨大的成功。尤其是在引入條件輸入后,條件生成對抗網(wǎng)絡(luò)(CGAN)被廣泛應(yīng)用于各種場景并且表現(xiàn)較好。在文本到圖像方面[8~10],文本作為條件信息使得生成的圖像更符合被表達的語義。在類圖像生成方面,CGAN可以快速地生成所屬類別的圖像。在圖像到圖像方面[11~15],CGAN表現(xiàn)了出色的風(fēng)格遷移能力[16]。對于圖像生成來說,人們希望保證學(xué)習(xí)到模式完整性的同時,生成的圖像是多樣的。但是,大多數(shù)CGAN受困于模式崩塌,比如,當(dāng)它發(fā)生時,生成器僅能生成單一類別的圖像或者生成近似相同的圖像[17]。其中一個原因是條件輸入的維度通常遠高于隨機噪聲的維度,使得生成器更專注于條件輸入的信息而忽略了隨機噪聲的作用。為了解決這個問題,目前有兩種類型的解決辦法:a)通過增加多樣性的矩陣[3,4]來優(yōu)化判別器,從而提升多樣性;b)增加額外的編碼器[18~22],其中MM-GAN[21]提出訓(xùn)練分類器,根據(jù)計算的熵值來調(diào)整生成器的權(quán)重。但是,在CGAN方面,模式崩塌的研究比較少。在圖像到圖像[11,13,23]轉(zhuǎn)換任務(wù)中,一些研究人員嘗試豐富生成圖像的多樣性。其中,DRIT[13]和BicycleGAN[23]利用潛在回歸損失項促進生成圖像和潛在向量的雙向映射。但是由于該正則項僅考慮到生成圖像和潛在向量之間的關(guān)系,而忽略了來自不同潛在向量的生成圖像之間的關(guān)系,所以對改善生成圖像的多樣性是有限的。MSGAN提出了模式尋找損失,當(dāng)兩個來自同一分布的潛在向量距離相近時,最小化對應(yīng)的兩張圖像的相似度。但是,由于MSGAN[24]的模式尋找損失,生成器趨向于追求圖像的多樣性,而忽略了它們的保真度。因此,生成器學(xué)習(xí)到的數(shù)據(jù)分布將會傾向于偏離。
基于以上存在的問題,本文提出了最大化中心模式和微小模式的策略,并基于CGAN應(yīng)用于不同類型的任務(wù)中,緩解模式崩塌。具體方法是,本文將具有相同標簽圖像的模式定義為中心模式和微小模式,分別表示相似模式的集合和學(xué)習(xí)完中心模式后可能的模式走向。輸入多個批次的潛在向量和相對應(yīng)生成的圖像,本文對具有相同標簽的圖像計算中心模式,并且利用它計算微小模式。微小模式和中心模式之間的距離被最大化,鼓勵生成器生成更多樣性的圖像。最后的結(jié)果是,生成器保留了微小模式之間的差異性,并強調(diào)了中心模式和微小模式之間的差異性。另一方面,為了訓(xùn)練中容易被忽略的微小模式提供有效的梯度,本文可以使用不相似的假圖像來訓(xùn)練判別器。總之,最大化中心模式和微小模式間的距離不需要太多的計算量,并且可以容易地被嵌入到不同CGAN架構(gòu)中,從而增強生成圖像的多樣性。本文在三種不同的條件圖像生成任務(wù)中驗證提出的策略,并使用三種不同的基本模型:a)對于類圖像生成任務(wù),本文在DCGAN[2]上,使用CIFAR10數(shù)據(jù)集;b)對于圖像到圖像的轉(zhuǎn)換任務(wù),本文使用DRIT[13]在wintersummer數(shù)據(jù)集上驗證;c)對于文本到圖像,本文嵌入到AttnGAN上并使用CBU-200-2011進行驗證。
為了評價生成的圖片多樣性,本文采用IS[25](inception score)衡量圖像的保真度和多樣性,得分越高越好,其經(jīng)常被用于文本到圖像的生成任務(wù)(例如AttnGAN)的評價。但是該評估矩陣沒有考慮到真實圖像的多樣性。因此,本文采用FID[26]測量真實圖像集和虛假圖像間的多樣性和生成質(zhì)量。為了進一步驗證生成圖像在提升多樣性的同時,能夠保持學(xué)習(xí)到的模式分布盡可能地靠近真實分布,本文采用NDB和JSD[27]兩種基于模式評估真實圖像和生成圖像分布的相似度方法。實驗的結(jié)果證明:在多個不同類型的任務(wù)中,本文提出的最大化中心模式和微小模式損失可以極大地改善生成圖片的多樣性。本文的貢獻主要包含以下兩點:a)基于先前方法的缺點,本文對于具有相同標簽的圖像模式進行了新的定義,重新定義為微小模式和中心模式;b)基于提出的定義,本文提出了最大化中心模式和微小模式損失來緩解模式崩塌。拓展性的實驗證明:被提出的方法可以容易地被融入到現(xiàn)有的網(wǎng)絡(luò)中。在絕大部分任務(wù)中,該方法可以有效改善生成圖像的多樣性,同時不降低生成圖像的質(zhì)量。
1 相關(guān)工作
a)條件生成對抗網(wǎng)絡(luò)。該網(wǎng)絡(luò)首次由文獻[28]提出,尤其在圖像生成領(lǐng)域取得了巨大的成功。在CGAN,通過將類標簽作為條件輸入到生成器中,指導(dǎo)生成器生成對應(yīng)類別的圖像。為了加強生成的圖像更符合類標簽所表達的語義,ACGAN[29]引入額外的分類器來辨別生成的圖像和真實的圖像屬于哪個類別。由于先前類標簽表達語義的離散性,為了表達語義的連貫性,后來的工作[30~32]嘗試轉(zhuǎn)換條件輸入為文本,之后,SAGAN[33]引入自注意力機制,進一步完善了生成的圖像和條件輸入之間的關(guān)聯(lián)性,BigGAN[34]提出截斷技巧,對樣本的多樣性和保真度之間進行細粒度的控制。除此之外,圖像到圖像的轉(zhuǎn)換是將圖像作為條件輸入,pix2pix[12]和CycleGAN[35]分別使用匹配和不匹配的圖像作為模型的輸入,達到不同特征域之間風(fēng)格轉(zhuǎn)換的目的。盡管條件生成對抗網(wǎng)絡(luò)在不同類型的任務(wù)中表現(xiàn)了出色的圖像生成能力,但是仍然受困于模式崩塌問題。主要原因是條件生成對抗網(wǎng)絡(luò)總是會將條件信息和隨機噪聲融合后輸入到生成器中,而條件信息的維度通常遠高于隨機噪聲的維度,所以生成器會更傾向于關(guān)注條件輸入的信息,從而出現(xiàn)模型最終輸出模式相近圖像的現(xiàn)象。本文致力于緩解模式崩塌問題。
b)模式崩塌。在大多數(shù)基于GAN的圖像生成任務(wù)中,模式崩塌是一個常見的挑戰(zhàn),例如,當(dāng)生成器G學(xué)習(xí)到模式被判別器D給予更高的分數(shù),生成器G將會不斷利用此模式欺騙判別器,因此忽略了其他微小模式的學(xué)習(xí)。從生成的結(jié)果來看,生成器G生成了更相似的圖像,缺乏了多樣性。一些工作嘗試從穩(wěn)定訓(xùn)練過程的角度緩解模式崩塌問題,使用多樣性矩陣[36]和優(yōu)化過程[37]改善判別器。小批量判別[25]使用從判別個體樣本到判別小批量樣本的方案。Durugkar等人[38]提出使用多個判別器緩解模式崩塌。另外一些方法使用額外的網(wǎng)絡(luò)輔助模型生成多樣性的樣本。ModeGAN[18]和VEEGAN[22]明確地限制生成圖像和隨機噪聲之間的雙向映射。多個生成器[31]被提出去捕捉不同階段的模式。然而,這些方法都需要昂貴的計算量或者需要大量地修改原始網(wǎng)絡(luò)結(jié)構(gòu),不容易被快速地植入到網(wǎng)絡(luò)中。再者,模式崩塌也會出現(xiàn)在CGAN。一般來說,潛在向量相比條件輸入擁有更低的維度,例如在文本到圖像任務(wù)中。因此,當(dāng)文本融合潛在向量一起送入到生成器時,生成器G更加注意文本的信息,而忽略了潛在向量的影響,將會導(dǎo)致多樣性的缺乏。在圖像到圖像轉(zhuǎn)換任務(wù)中,一些方法[4,39,40]嘗試通過額外的編碼器緩解模式崩塌問題。額外的編碼器編碼生成的圖片逆向映射到潛在向量來修正潛在空間分布。然而,這些方法僅僅在特定的任務(wù)和目標函數(shù)中才能被使用,缺失了在模型中普適性和較低的計算量的優(yōu)點。因此,本文提出了一種有效的損失函數(shù),不需要修改原有的網(wǎng)絡(luò)結(jié)構(gòu)。因此,所提方法可以很容易地嵌入到不同的條件生成模型中。
2 最大化中心模式和微小模式損失
為了緩解模式崩塌,本文定義了一個新的具有相同標簽的生成圖像的模式。
2.1 定義
一張圖像由無數(shù)的微小特征組成,一組具有相同標簽的圖像在具有很多相似模式的同時應(yīng)具有一些不一樣的特征。例如,如果兩張圖像完全不同,那么相似模式為0;相反,如果兩張圖像近乎相似,那么相似模式之外就沒有其他的模式,這種現(xiàn)象被稱為模式崩塌。具體地說,一批具有相同標簽的圖像應(yīng)擁有許多相似的特征,相似的特征組合在一起,被定義為中心模式,但該批圖像具有不同的隨機噪聲,所以中心模式外的其他模式應(yīng)該是多樣的,這樣的模式被定義為微小模式。因此,一批具有相同標簽但隨機噪聲不同的圖像模式被定義為中心模式和微小模式。具體的公式為
模式=α×中心模式+β×微小模式(1)
其中:α、β代表中心模式和微小模式的數(shù)量。在CGAN任務(wù)中,多批潛在向量和相同的標簽被送入到CGAN,標簽控制著生成圖像的中心語義,關(guān)聯(lián)微小模式的潛在向量促進生成圖像的多樣性。但是,當(dāng)模式崩塌發(fā)生時,生成器僅僅關(guān)注中心模式而忽略了微小模式。換句話說,生成器生成模式近似的圖像。
此刻,對于MSGAN想法的動機:當(dāng)兩個隨機噪聲輸入到生成器中,若這兩個隨機噪聲的距離相近,對應(yīng)生成的圖像實際上應(yīng)該是相似的。于是,MSGAN提出模式尋找損失,即在隨機噪聲距離即使相近時,依然希望對應(yīng)生成的圖像盡可能地不相似。但是,若對于任意的隨機噪聲z1和z2,都盡可能地放大對應(yīng)的圖像img1和img2之間的相似度距離,便會導(dǎo)致一種不好的結(jié)果。即實際上img1和img2的多樣性已經(jīng)滿足實際需求,但是由于模式尋找損失,依然會放大兩者的差異性,使得最終的生成器不斷追求多樣性,但是已經(jīng)遠遠偏離真實圖像的分布。換句話說,生成器學(xué)習(xí)的重要前提是先模仿真實圖像,而后追求多樣性,并非優(yōu)先使生成器學(xué)習(xí)的圖像與真實圖像不一致,顯得圖像的多樣性更加豐富。現(xiàn)在,將MSGAN的損失帶入到定義1中,由于標簽相同相同,所以中心模式近乎相同,MSGAN的損失實際是最大化微小模式之間的距離。如圖1(a)所示,在情況2(s2)下,MSGAN嘗試最大化微小模式A(mA)和微小模式(mB)。mB受益于它而提高了多樣性,但mA逐漸地趨向于微小模式C(midC),導(dǎo)致mA被midC同化。在生成過程中,如果一些微小模式被加入到中心模式中,微小模式被中心模式同化將會失去它們的作用,丟失了需要學(xué)習(xí)的模式。另一方面,如圖1(b)所示,如果微小模式保持遠離中心模式,那么微小模式間的多樣性被保持,并且中心模式和微小模式之間的區(qū)別是明顯的。因此,為了緩解模式崩塌問題,生成圖像的中心模式和微小模式被鼓勵盡可能地大。
2.2 基于GAN的最大化中心模式和微小模式損失
本文提出從生成器的角度緩解模式崩塌問題。在圖1中表明了本文方法的主要思想。生成器G接受m組隨機噪聲z和標簽C對應(yīng)輸出圖片集I。其中zi=[zi1,zi2,…,zin],Ii=[Ii1,Ii2,…,Iin],C=[C1,C2,…,Cn],i=1,2,…,m。其中m代表批次的數(shù)量和n等于子標簽的總數(shù)量。當(dāng)模式崩塌發(fā)生時,生成器逐漸陷入中心模式,而忽略了微小模式,標簽Ci對應(yīng)的圖片集Iij(j=1,2,…,m)近似于同一種模式。為了解決此問題,本文提出在GAN中應(yīng)用最大化中心模式和微小模式損失(maximizing middle modes and minor modes in generative adversarial networks,MMMGAN)直接地最大化中心模式H(Ii)和微小模式(Iji-H(Ii))之間的距離,公式如下:
Euclid Math OneLApmmm=maxG1m∑mj=1dI(Iji-H(Ii),H(Ii))(2)
其中:dI代表距離矩陣,i=1,2,3,…,n;H代表擴充維度、復(fù)制、變形等操作。
Ii=1φ(m,h,a,b) ∑h,a,b ∑mj=1Iji(3)
其中:h、a、b分別代表通道、圖像的長度和寬度;φ代表一種混合計算方式。
在CGAN任務(wù)中,提出的損失函數(shù)提供了一種有效的策略訓(xùn)練CGAN。它鼓勵生成器探索圖像空間并且在生成樣本的同時,注重微小模式與中心模式的不同。換句話說,判別器被迫提升自己的判別能力來區(qū)分模式間的不一致。圖1中顯示了模式崩塌的情況。然而,最大化中心模式和微小模式損失的提出,生成器會嘗試尋找更多未知的模式。由于對抗機制,生成器生成圖片的微小模式會距離中心模式越來越遠,圖片的多樣性愈加豐富。MMMGAN架構(gòu)如圖2所示,提出的損失函數(shù)可以輕易地被融入CGAN,把它添加到原始的損失函數(shù)即可
Euclid Math OneLApnew=Euclid Math OneLApori+λmmmEuclid Math OneLApmmm(4)
其中:Euclid Math OneLApori代表原來的損失函數(shù);λmmm代表控制正則項重要性的權(quán)重。這里,Euclid Math OneLApori被看成一個標準的損失函數(shù)。例如,在類標簽圖像生成任務(wù)中,
Euclid Math OneLApori=Euclid Math TwoEApc,y[log D(c,y)]+Euclid Math TwoEApc,z[log(1-D(c,G(c,z)))](5)
其中:c、Ireal、z分別表示類標簽、真實圖像和噪聲向量。在圖像到圖像的轉(zhuǎn)換任務(wù)中,
Euclid Math OneLApori=Euclid Math OneLApGAN+Euclid Math TwoEApx,Ireal,z[‖Ireal-G(x,z)‖1](6)
其中:x代表條件輸入圖像;Euclid Math OneLApGAN是典型的GAN損失。Euclid Math OneLApori可以是任何任務(wù)的復(fù)雜損失函數(shù),如圖3所示。本文方法為最大化中心模式和微小模式GAN(MMMGAN)。
3 實驗
為了評估提出的最大化中心模式和微小模式的策略。在三種條件生成任務(wù)中應(yīng)用提出的最大化中心模式和微小模式損失,分別是類圖像生成、文本到圖像生成和圖像到圖像轉(zhuǎn)換。維持原有的網(wǎng)絡(luò)架構(gòu)和超參數(shù),將提出方法的損失附加到原有損失函數(shù)上。對于dI,本文使用L1范數(shù)作為相似度距離矩陣。對于不同的任務(wù)采用的數(shù)據(jù)集不同,所以超參數(shù)λmmm也選擇了不同的數(shù)值。在DCGAN模型中,λmmm=2;在AttnGAN模型中,λmmm=0.4;在DRIT模型中,λmmm=2。
3.1 評估矩陣
本文使用以下相似度矩陣來評估方法的性能:
a)FID。為了評估生成圖像的多樣性和保真度,使用FID[38]作為衡量指標。通過預(yù)訓(xùn)練的inception網(wǎng)絡(luò)[41]提取真實的圖像和生成的圖像特征,來評估真實圖像分布和生成圖像分布的相似度距離。較低的FID代表更高的保真度和更豐富的多樣性。
b)IS。IS計算條件分布[25]和邊緣分布之間的KL相似度。越高的IS代表它們的KL相似度距離越大,同時意味著生成的圖片具有更高的質(zhì)量。
c)NDB和JSD。NDB和JSD采用基于聚類得到的模式評估真實圖像和生成圖像的相似度。主要思想為:整個訓(xùn)練集被聚類劃分成不同的模式,然后生成的圖像依次被分配到最近的模式。通過計算生成圖像和真實圖像的模式占比率來衡量真實分布和生成分布之間的相似度距離。NDB和JSD通過模式丟失的程度來量化模式崩塌,越低的NDB和JSD意味著生成器學(xué)習(xí)到的模式更接近真實分布的模式,生成器生成圖片的質(zhì)量更高。
3.2 類標簽圖像生成
本文選擇DCGAN作為基模型驗證被提出方法的有效性。在類圖像生成任務(wù)中,類標簽經(jīng)過獨熱編碼后作為條件文本生成不同類的圖像。CIFAR10數(shù)據(jù)集被作為實驗對象,該數(shù)據(jù)集包含10個類的圖像。本文分別對于每個類獨立地計算了NDB和JSD分數(shù),對比結(jié)果如表1所示。從表1中可以看出,相比DCGAN和MSGAN,10類圖像共20個指標,本文在15個指標上取得了更好的結(jié)果,根據(jù)MSGAN的補充材料中提及的公式K≈Ntrain/20,Ntrain表示單個類的訓(xùn)練圖像,共5 000張,利用上述公式計算可得,聚類中心個數(shù)K=250。同時,本文也計算了FID對于整個訓(xùn)練圖像和生成圖像,結(jié)果如表2所示。MMMGAN緩和了模式崩塌問題且維持了生成圖像的質(zhì)量。
3.3 文本到圖像生成
文本到圖像生成基于文本作為條件輸入來完成圖像生成任務(wù)。本文將被提出的損失函數(shù)應(yīng)用到AttnGAN[33]模型中,在CUB-200-2011數(shù)據(jù)集上進行驗證。為了提升多樣性,Attn-GAN保留了首次在StackGAN++[31]被提出的條件增強(CA)模塊,該模塊將文本描述轉(zhuǎn)換為高斯分布的文本編碼。在MSGAN的對比實驗中,文獻[24]證明了CA對于改善生成圖像多樣性的有限性。本文保持原有的模型架構(gòu)和CA模塊,分別將MSGAN的損失函數(shù)和被提出的損失函數(shù)加入到AttnGAN模型中,結(jié)果如表3所示。從表3中可以看出,相比MSGAN的實驗結(jié)果,在四個指標上,MMMGAN都取得了更好的結(jié)果,進一步優(yōu)化了生成圖像的多樣性。圖4顯示了在不降低生成圖像視覺質(zhì)量的情況下最大化中心模式和微小模式損失,緩解了模式崩塌問題。
3.4 圖像到圖像轉(zhuǎn)換
對于圖像作為條件輸入完成圖像轉(zhuǎn)換任務(wù),本文選擇DRIT[13]作為基模型,同時獨立地使用模式尋找損失和被提出的損失代替原先潛在回歸損失來鼓勵生成器追求更多樣性的模式。為了驗證上述兩個損失的有效性,本文在wintersummer數(shù)據(jù)集上進行對比驗證。
量化的結(jié)果如表4所示。在wintersummer數(shù)據(jù)集上,相比MSGAN,本文提出的損失函數(shù)在75%的評估矩陣中不低于原文中的方法,即模型在保證圖像保真度的前提下生成了多樣性更豐富的圖像,證明了方法的有效性。圖5顯示了MMMGAN在沒有犧牲生成圖像視覺質(zhì)量的情況下,探索到了更多的模式。正如本文所看到的,相比之前的方法,被提出的損失函數(shù)在絕大部分評估矩陣中,模型生成了多樣性更豐富的圖像,證明了被提出方法的有效性。
4 結(jié)束語
本文對具有相同標簽的生成圖像模式提出了新的定義,并在此基礎(chǔ)上提出了最大化中心模式和微小模式損失函數(shù)來緩解模式崩塌問題。該損失函數(shù)可以輕易地被植入到現(xiàn)有條件生成的網(wǎng)絡(luò)架構(gòu)中。在三種圖像生成任務(wù)中的多個不同數(shù)據(jù)集上的實驗證明,本文方法加入到現(xiàn)有模型中,在絕大多數(shù)評價指標上都表現(xiàn)了優(yōu)越的性能。未來的工作中,將進一步優(yōu)化提出的損失函數(shù)中的中心模式和微小模式,并嘗試結(jié)合MSGAN提出的損失函數(shù),在不增加計算量的情況下,提升生成圖像的多樣性。
參考文獻:
[1]Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial nets[C]//Proc of the 27th International Conference on Neural Information Processing Systems.[S.l]:MIT Press,2014:2672-2680.
[2]Radford A,Metz L,Chintala S.Unsupervised representation learning with deep convolutional generative adversarial networks [EB/OL].(2016-01-07).https://arxiv.org/abs/1511.06434.
[3]Casanova A,Careil M,Verbeek J,et al. Instance-conditioned GAN[EB/OL].(2021-09-10).https://arxiv.org/abs/2109.05070.
[4]Arjovsky M,Chintala S,Bottou L.Wasserstein generative adversarial networks[C]//Proc of the 34th International Conference on Machine Learning.Sydney:JMLR,2017:214-223.
[5]Karras T,Aila T,Laine S,et al.Progressive growing of GANs for improved quality,stability,and variation[EB/OL].(2018-02-26).https://arxiv.org/abs/1710.10196.
[6]Karras T,Laine S,Aila T.A style-based generator architecture for ge-nerative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:4396-4405.
[7]Jiang Yifan,Chang Shiyu,Wang Zhangyang.TransGAN:two pure transformers can make one strong GAN,and that can scale up[C]//Advances in Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2021:14745-14758.
[8]Xu Tao,Zhang Pengchuan,Huang Qiuyuan,et al.AttnGAN:fine-grained text to image generation with attentional generative adversarial networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1316-1324.
[9]Zhu Minfeng,Pan Pingbo,Chen Wei,et al.DM-GAN:dynamic memory generative adversarial networks for text-to-image synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2019:5795-5803.
[10]徐澤,帥仁俊,劉開凱,等.基于特征融合的文本到圖像的生成[J].計算機科學(xué),2021,48(6):125-130.(Xu Ze,Shuai Renjun,Liu Kaikai,et al.Generation of realistic image from text based on feature fusion[J].Computer Science,2021,48(6):125-130.)
[11]Huang Xun,Liu Mingyu,Belongie S,et al.Multimodal unsupervised image-to-image translation[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:179-196.
[12]Isola P,Zhu J Y,Zhou T,et al.Image-to-image translation with conditional adversarial networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2017:1125-1134.
[13]Lee H Y,Tseng H Y,Huang J B,et al.Diverse image-to-image translation via disentangled representations[C]//Proc of European Confe-rence on Computer Vision.Berlin:Springer,2018:36-52.
[14]Liu Mingyu,Breuel T,Kautz J.Unsupervised image-to-image translation networks[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Berlin:Springer,2017:700-708.
[15]王榮達,劉寧鐘,李強懿,等.一種基于生成對抗網(wǎng)絡(luò)的輕量級圖像翻譯模型[J].計算機技術(shù)與發(fā)展,2021,31(11):52-57.(Wang Rongda,Liu Ningzhong,Li Qiangyi,et al.A lightweight image-to-image translation model based on GAN[J].Computer Technology and Development,2021,31(11):52-57.)
[16]Li Chuan,Wand M.Precomputed real-time texture synthesis with Markovian generative adversarial networks [C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:702-716.
[17]Arjovsky M,Bottou L.Towards principled methods for training generative adversarial networks [EB/OL].(2017-01-17).https://arxiv.org/abs/1701.04862.
[18]Che Tong,Li Yanran,Jacob A P,et al.Mode regularized generative adversarial networks [EB/OL].(2017-03-02).https://arxiv.org/abs/1612.02136.
[19]Donahue J,Krhenbühl P,Darrell T.Adversarial feature learning [EB/OL].(2017-04-03).https://arxiv.org/abs/1605.09782.
[20]Dumoulin V,Belghazi I,Poole B,et al.Adversarially learned inference [EB/OL].(2017-02-21).https://arxiv.org/abs/1606.00704.
[21]尹來國,孫仁誠,邵峰晶,等.多模式生成對抗網(wǎng)絡(luò)[J].計算機應(yīng)用研究,2022,39(6):1-6.(Yin Laiguo,Sun Rencheng,Shao Fengjin,et al.Multi-mode generative adversarial network[J].Application Research of Computers,2022,39(6):1-6.)
[22]Srivastava A,Valkov L,Russell C,et al. VEEGAN:reducing mode collapse in GANs using implicit variational learning[C]//Proc of the 31st International Conference on Neural Information Processing Systems.2017:3310-3320.
[23]Zhu Junyan,Zhang R,Pathak D,et al.Multimodal image-to-image translation by enforcing bi-cycle consistency[C]//Advances in Neural Information Processing Systems.2017:465-476.
[24]Mao Qi,Lee H Y,Tseng H Y,et al.Mode seeking generative adversa-rial networks for diverse image synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1429-1437.
[25]Salimans T,Goodfellow I,Zaremba W,et al.Improved techniques for training GANs[C]//Proc of the 30th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2016:2234-2242.
[26]Heusel M,Ramsauer H,Unterthiner T,et al.GANs trained by a two time-scale update rule converge to a local Nash equilibrium[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6629-6640.
[27]Richardson E,Weiss Y.On GANs and GMMs[C]//Proc of the 32nd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2018:5852-5863.
[28]Mirza M,Osindero S.Conditional generative adversarial nets[EB/OL].(2014-11-06).https://arxiv.org/abs/1411.1784.
[29]Odena A,Olah C,Shlens J.Conditional image synthesis with auxiliary classifier GANs[C]//Proc of the 34th International Conference on Machine Learning.2017:2642-2651.
[30]Yu Jiahui,Lin Zhe,Yang Jimei,et al.Generative image inpainting with contextual attention [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:5505-5514.
[31]Zhang Han,Xu Tao,Li Hongsheng,et al.StackGAN++:realistic image synthesis with stacked generative adversarial networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,41(8):1947-1962.
[32]Zhang Han,Xu Tao,Li Hongsheng,et al.StackGAN:text to photo-rea-listic image synthesis with stacked generative adversarial networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:5908-5916.
[33]Zhang Han,Goodfellow I,Metaxas D,et al.Self-attention generative adversarial networks[C]//Proc of the 36th International Conference on Machine Learning.2019:7354-7363.
[34]Brock A,Donahue J,Simonyan K.Large scale GAN training for high fidelity natural image synthesis[EB/OL].(2019-02-25).https://arxiv.org/abs/1809.11096.
[35]Zhu Junyan,Park T,Isola P,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2242-2251.
[36]Mao Xudong,Li Qing,Xie Haoran,et al.Least squares generative adversarial networks [C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2813-2821.
[37]Metz L,Poole B,Pfau D,et al.Unrolled generative adversarial networks [EB/OL].(2017-05-12).https://arxiv.org/abs/1611.02163.
[38]Durugkar I,Gemp I,Mahadevan S.Generative multi-adversarial networks[EB/OL].(2016-11-05).https://arxiv.org/abs/1611.01673.
[39]Liu Rui,Yang Chengxi,Sun Wenxiu,et al.StereoGAN:bridging synthetic-to-real domain gap by joint optimization of domain translation and stereo matching[C]//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:12754-12763.
[40]Lin C H,Chang C C,Chen Y S,et al.Coco-GAN:generation by parts via conditional coordinating [C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:4511-4520.
[41]Szegedy C,Wei Liu,Yangqing Jia,et al.Going deeper with convolutions [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1-9.