張龍 趙杰煜 葉緒倫 董偉
在過去的十年里,深度學習方面的研究取得了巨大進展.它的成功影響了許多學術領域,其相關應用例如自動駕駛、機器翻譯、人臉識別等,也極大地改善了人類的生活.深度學習相關算法構建了一個類似人腦結構的多層神經元網絡,可以對輸入信息進行特征抽取與合成等操作,進而形成更加抽象的高維特征.大量的實驗數據證明,深度學習算法的結果已經大大超越了傳統機器學習算法,同時可以被應用于諸多領域例如圖像識別、信息檢索、自然語言處理、可視數據分析等[1?7].在深度學習的發展過程中,出現了許多優秀的廣為人知的網絡模型,例如Hinton等提出的深度置信網絡(Deep belief network,DBN)模型[4],LeCun等提出的卷積神經網絡(Convolutional neural network,CNN)模型[8]等,大量的研究者對這些模型進行了擴展與應用,取得了傲人的成果.
最近幾年,一種新的網絡模型又掀起了一股深度學習研究熱潮,是由Goodfellow等于2014年提出的生成對抗網絡[9?10](Generative adversarial nets,GANs).該網絡將生成模型與判別模型進行了巧妙的結合,生成模型對輸入參數進行建模并產生數據,判別模型則對該數據的真偽進行鑒別,二者由此競爭,相互促進,生成模型產生的數據愈來愈逼真,最后達到以假亂真的程度,生成模型的能力也愈來愈強,對于真假數據的判斷明察秋毫.GANs的訓練過程是一個全自動的非指導性學習過程,幾乎無需人工干預.與常用的深度學習模型Variational autoencoders[11]相比,生成對抗網絡不需要預先假設數據服從一個先驗分布,優勢顯著,而且在復雜圖像生成方面的實驗取得了顯著的成績,因此GANs成為了2016年度NIPS會議最熱議的主題,被Yann LeCun教授稱為當前深度學習研究取得的“最激動人心的進展”.
本文基于最新的GANs研究進展,結合進化算法思想,提出一種全新的協作式生成對抗網絡模型,可以顯著提高圖像生成質量,并通過實驗與其他方法進行了對比.在后續的內容中,第1節簡要的介紹了相關工作;第2節詳細的描述了新模型的網絡結構以及優化算法;第3節是實驗設計與結果;第4節進行了總結.
由于GANs是全自動的非指導性學習,其生成圖像的質量與分辨率很難達到要求.因此在當前的諸多研究工作中,如何提高生成圖像的質量一直都是熱門課題.Denton等[12]應用了拉普拉斯金字塔算法,Radford等[10]將深度卷積神經網絡[13]與GANs進行了有效結合,可以生成較高分辨率的人臉圖像,Liu等[14]構建了耦合式生成對抗網絡(Coupled generative adversarial network,Co-GAN),通過共享網絡權值可以同時對圖像的兩種屬性進行學習,這種共享機制保證了兩者之間的相關性.還有一些研究者們通過引入監督信息,誕生了各式各樣的半監督GANs模型.Mirza等[15]首先提出了條件生成對抗網絡(Conditional generative adversarial nets,CGAN),將標簽數據的類別信息作為模型輸入與生成圖像一起作為判別條件.類別信息的加入可以顯著提高生成圖像質量[16],而更加詳細的圖像信息(例如說明文字、邊框位置等)則更能增強模型的生成效果[17].在此基礎上,基于輔助編碼器(Auxiliary decoder)的半監督GANs網絡[18?20]也被相繼提出.著名網站arXiv上出現了大量相關應用的文章,半監督學習將GANs的研究熱度推向頂峰.
監督信息雖然可以顯著提高模型的精度,但對網絡的生成能力并沒有進行擴展,而該能力恰恰是生成對抗網絡的核心.因此本文將提高無監督條件下的GANs生成能力作為首要研究目標.與此同時我們也認識到,模式坍塌(Mode collapse)問題[18,21?22]嚴重影響了網絡的生成結果.究其原因,是由于網絡的學習能力有限,在實際訓練中不能完好地擬合真實數據分布,從而導致一些模式(Mode)的缺失.解決方法不外乎兩種:1)想辦法提高網絡的學習能力,目前已有文獻[18,22]介紹了許多通用的方法;2)通過調整網絡結構,強化網絡擬合不同模式的能力,這方面的研究還比較少.Liu等[14]的CoGAN可以強化網絡學習兩種指定模式的能力.Ghosh等[21]則認為不同模式之間必然存在著較大的差異,其對CoGAN進行了改造,提出MAD(Multi-agent diverse)-GAN,通過最大化k個生成器間的差異,強制網絡去學習真實數據的不同模式.
與Ghosh的想法不同,我們認為真實數據的不同模式之間既存在差異性也存在著相似性.因此本文在生成器間引入一種協作機制,使其相互之間進行學習,在保留全局相似的同時具備局部差異,實驗證明這種全新的無監督協作式生成對抗網絡不僅可以有效提高模型的生成能力,也從另一個角度減少了模式坍塌的可能.
生成對抗網絡由一個生成器網絡G與一個判別器網絡D構成.生成器的目標是擬合“真”數據(訓練樣本),并產生“假”數據,而判別器的目標則是進行真假數據區分.生成器與判別器的網絡結構皆為多層感知器.給定真實樣本集{x1,···,xn},假設px為其數據分布,從另一個預先定義好的分布pz中進行隨機采樣得到噪聲集{z1,···,zm}.令生成器的輸入為z,輸出的“假”數據可表示為G(z).判別器的輸入依次為“真”“假”數據(可根據實驗情況調整比例),輸出為一個一維標量,代表輸入為真的概率,根據輸入的不同表示為D(x)與D(G(z)).理想情況下,D(x)=1且D(G(z))=0.網絡優化過程可以描述為一個“二元極大極小”問題,目標函數如下:
如果將G(z)的數據分布表示為pG,那么該“二元極大極小”問題存在全局最優解,即pG=px[10].
生成器與判別器的訓練過程是交替進行的,更新一方的參數時,另一方的參數固定住不更新.通常情況下,判別器的學習能力要強于生成器,為了保持兩者同步,常用做法是訓練生成器k次,再訓練判別器一次.而通過實驗發現,兩者的學習能力并不是固定比例,而是會隨著時間變化而變化,因此在后續的實驗中本文設計了一種動態學習方法,通過觀測損失函數值的變化來保持兩者同步.
生成器與判別器是“對抗”關系,此消彼長,共同進步,最終目標是使得生成器能夠完好擬合真實樣本的數據分布.由于缺乏監督信息的指導,該擬合過程充滿了隨機性,在實際當中,受限于網絡的學習能力,通常只能擬合出真實數據分布的一部分,從而導致一些模式的缺失,即模式坍塌(Mode collapse)[18,21].如圖1所示,模式坍塌會導致訓練結果出現冗余,生成圖像質量差等問題.通過對真實數據進行分析不難發現,不同模式之間存在著顯著的差異,例如人臉中的男性與女性,場景中的白天與晚上等,同時也存在著聯系,例如五官結構、物體形狀、位置等.強調差異而忽略聯系,或者反之,我們認為都不算是好的解決方案,尋求兩者間的平衡是解決問題的關鍵.

圖1 生成對抗網絡中的模式坍塌問題((a)生成數據分布無法完好擬合真實數據分布;(b)模式坍塌導致生成數據冗余(重復圖像過多))Fig.1 Mode collapse problem in GANs((a)synthetic data distribution cannot fit real data distribution in good shape;(b)mode collapse leads to synthetic data redundancy(too many duplicate images))
由此本文設計了如圖2(c)所示的網絡結構.通過構建兩個(或更多)生成器,共享一個輸入數據(進行協作的基礎)以及一個判別器,同步進行訓練,訓練方法與經典GANs相同.此外生成器之間相互學習,該步驟我們稱為“協作”,互為指導,共同進步.“協作”穿插在正常訓練之中,速率可以根據實際情況進行調整,例如訓練生成器兩次,協作一次.從數據分布的角度看,如圖3所示,經典對抗式訓練可以拉近真實分布與生成分布之間的距離,而協作式訓練則可以拉近不同生成器生成分布之間的距離.這種做法不但可以提高模型收斂速度,而且增加生成器的數量可以增強模型的學習能力,降低模式坍塌的可能.
由于生成器間共享輸入與判別器網絡,可能會造成生成器生成分布重合的現象.這樣不僅無法達到預期的目標,還造成了額外的網絡負荷.為避免該現象,本文在設計生成器時采取了不同的網絡結構,并進行了隨機權值初始化.重合問題在實際訓練過程中未曾出現,不同生成器產生的結果始終保持著一定的差異.判別器的目標函數為

對生成器而言,Ex~pzlnD(x)是不受影響的,因此其目標函數為

其中,λ為常數,協作因子L選擇了二范數來拉近生成器之間的距離(從實驗結果來看二范數略優于一范數).D(G1(z))與D(G2(z))分別為生成器G1和G2生成數據的判別結果,定義參數


圖2 網絡結構圖Fig.2 Network structure
當s>0時,判別器D得出的結果中G1的得分較高,也就是說G1(z)的圖像真實度更高,此時應拉近G2到G1的距離,這項操作可以通過固定住G1參數,計算協作因子L,懲罰G2的網絡連接權值完成;而s≤0時則完全相反,需固定住G2,對G1進行懲罰.懲罰力度與s的大小相關.通過這種方式,判別得分較高的生成器對較差的產生吸引的作用力.由于網絡的隨機性,整個訓練過程中G1與G2交替作用,相互協助,最終收斂于真實數據分布.綜上所述,我們將這樣的網絡結構稱之為“協作式生成對抗網絡”.

圖3 本文提出的網絡擬合過程Fig.3 Fitting process for proposed networks
針對本文提出的網絡結構,我們分別在MNIST手寫體(灰度圖)、CelebA人臉圖片(RGB圖)以及ModelNet40(三維模型)等數據集上進行了實驗.運行環境為Tensor flow 1.0,顯卡為NVIDIA GFORCE GTX 1080.
MNIST手寫體數字數據集包含從0到9的10類共7萬個手寫體數字圖片[23?24].訓練結果如圖4所示.由于協作因子的介入,對初期的訓練結果產生了干擾,但在迭代1000次之后,協作式生成對抗網絡逐步超越了傳統生成對抗網絡,并在迭代2000次后開始收斂,驗證了本文的網絡結構不僅能夠增強圖像生成質量,也能提高模型收斂速度.
CelebA數據集包含202599張姿態不同、背景雜亂的人臉照片[25?26].我們構建了一個生成器與判別器都是5層的深度卷積生成對抗網絡(Deep convolutional generative adversarial nets,DCGAN)[9],輸入是一個100維的向量,隨機采樣于均勻分布.每層卷積模板的數量分別為1024,512,256,128,3,卷積核大小為4×4,步長為2,生成器的輸出為分辨率64×64的人臉圖片.訓練過程中mini-batch設置為64,一個回合共3166個batch.
對于式(3)中的常數λ取值問題,通過反復的實驗發現,較小的λ對模型影響不大,生成結果并沒有明顯改進,而較大的λ則會造成生成器間的距離過于接近,生成結果難以區分,因此根據實驗對象的不同還需要人工對該常數值反復調整.在針對CelebA數據集進行訓練時,最佳的λ取值應在50~100之間.

圖4 MNIST手寫體數據集訓練結果(上層采用標準生成對抗網絡,下層采用協作式生成對抗網絡)Fig.4 Training results on MNIST handwritten digits dataset(upper layer implements standard GANs,lower layer implements co-operative GANs)
訓練結果如圖5所示,在訓練剛開始的第一個回合里圖5(a)~(c),協作式生成對抗網絡展現出了微弱的優勢,人臉的輪廓已經形成,可以模糊地分辨出不同人臉的面部特征.從第二個回合開始圖5(d)~(h),清晰的人臉逐步展現出來,并且在第4個回合(f),生成的人臉已趨近真實.反觀左側生成圖像,不僅學習速度慢,6個回合后約半數圖像仍存在重大瑕疵.
圖 6中進一步展示了 DCGAN[9]、MADGAN[21]以及本文提出網絡的生成結果對比,三者的網絡層數、過濾模板數量以及激活方法保持一致.可以直觀地看出,本文提出的方法在該數據集上生成的人臉質量顯著優于前兩者,大部分圖像可以“以假亂真”,人眼幾乎無法區分其真偽.與此同時,我們還發現圖6(a)中方框標識的人臉相似度過高,其原因可能是由上文中提到的“模式坍塌”問題引起的,該現象在本文提出網絡的生成結果中并未出現.
另外,協作因子的加入可以在一定程度上減少噪聲,縮小損失函數的波動范圍,這樣可以防止過大或過小的梯度懲罰.圖7中的數據揭示了這一現象,損失函數值維持在一個穩定的比例可以保證“對抗”的有效性,提高網絡的學習能力.
ModelNet[27?28]是三維領域知名的大型數據集,它包含127915個CAD三維模型.ModelNet40是其子集,包含12 312個標定類別的三維模型,分為40個類.為了驗證新模型在三維物體生成上同樣適用,首先,將ModelNet40中的三維網格模型進行了體素化操作;然后對第3.2節中的網絡結構進行修改,使其能夠處理三維體素數據,具體參數參照了3DGAN[29],輸入為一個200維向量,隨機采樣于均勻分布,生成器輸出為64×64×64的三維體素模型,mini-batch定義為5(數字越小效果越好,訓練速度也相對較慢).
在實驗過程中,生成器與判別器的學習速率并不成固定比例,而是隨著訓練時間變化而變化,因此常用的運行生成器k次再運行判別器1次的做法并不適用.根據對抗特性以及損失函數值的變化幅度,本文加入了一個動態控制學習速度的方法,具體為:
當判別器的損失函數值小于生成器時,判別器獲勝,訓練生成器m次直到生成器獲勝,再訓練判別器n次直到判別器獲勝,如此反復進行直到訓練結束,其中0 圖8中展示了協作式生成對抗網絡的部分訓練結果,從整體結構來看,生成的三維體素模型已經足夠刻畫物體的結構屬性,局部特征也表現得比較完好.但從細節來看,每個模型都存在不同程度上的體素塊缺失或盈余,越復雜的細節越無法刻畫完整.這大概是因為體素化后的三維模型本身就缺失了大量細節信息,以體素為基礎而構建的生成模型存在先天不足;其次,相較于二維圖片,三維模型包含的信息量大大增加,需要更大體量的網絡結構或者更好的特征來刻畫目標;再次,三維采集設備還不夠先進與普及,缺少大量的訓練樣本做支撐,網絡很容易達到過擬合. 本文提出了一種全新的協作式生成對抗網絡結構,通過構建多個生成器,引入協作機制,生成器之間相互學習,共同進步,可以顯著提高生成圖像質量,加快網絡收斂速度,去除噪聲,提高學習效率,降低模式坍塌的可能性.通過多組實驗發現,新的網絡結構在人臉數據方面有著明顯的優勢, 同時在三維模型生成方面也起到了一定的作用.三維目標處理是目前研究的難點,未來的工作重心會放在尋找替代體素、能夠更好刻畫三維模型的特征上面去,同時網絡結構優化與創新也同樣重要. 圖5 CelebA人臉數據集訓練結果(左側為深度卷積生成對抗網絡,右側為協作式生成對抗網絡,(a)迭代500次;(b)迭代1000次;(c)~(h)迭代1~6回合)Fig.5 Training results on CelebA human faces dataset(left side is trained by DCGAN,right side is trained by ours after,(a)500 iterations;(b)1000 iterations;(c)~(h)1~6 epochs) 圖6 CelebA數據集生成結果對比Fig.6 Comparison of synthetic data with CelebA dataset 圖7 判別與生成模型的損失函數值變換情況Fig.7 Loss value changes of discriminator and generator models 圖8 協作式生成對抗網絡在ModelNet40數據集的訓練結果Fig.8 Results by co-operative GANs on ModelNet40 dataset 1 Hinton G E.To recognize shapes,first learn to generate images.Progress in Brain Research,2007,165:535?547 2 Taylor G W,Hinton G E,Roweis S.Modeling human motion using binary latent variables.In:Proceedings of the 19th International Conference on Neural Information Processing Systems.Canada:MIT Press,2006.1345?1352 3 Taylor G W,Hinton G E.Factored conditional restricted Boltzmann machines for modeling motion style.In:Proceedings of the 26th Annual International Conference on Machine Learning.Montreal,Quebec,Canada:ACM,2009.1025?1032 4 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504?507 5 Mohamed A,Dahl G E,Hinton G.Acoustic modeling using deep belief networks.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14?22 6 Hinton G,Deng L,Yu D,Dahl G E,Mohamed A R,Jaitly N,et al.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups.IEEE Signal Processing Magazine,2012,29(6):82?97 7 Liu Y,Zhou S S,Chen Q C.Discriminative deep belief networks for visual data classi fication.Pattern Recognition,2011,44(10?11):2287?2296 8 Le Cun Y,Boser B,Denker J S,Howard R E,Habbard W,Jackel L D,et al.Handwritten digit recognition with a back-propagation network.In:Proceedings of Advances in Neural Information Processing Systems.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396?404 9 Goodfellow I J,Pouget-Abadie J,Mirza M,Xu B,Warde-Farley D,Ozair S,et al.Generative adversarial nets.In:Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal,Canada:MIT Press,2014.2672?2680 10 Radford A,Metz L,Chintala S.Unsupervised representation learning with deep convolutional generative adversarial networks.In:Proceedings of the 4th International Conference on Learning Representations.Caribe Hilton,San Juan,Puerto Rico,2016.97?108 11 Xue T F,Wu J J,Bouman K L,Freeman W T.Visual dynamics:probabilistic future frame synthesis via cross convolutional networks.In:Proceedings of Advances in Neural Information Processing Systems.Barcelona,Spain:Curran Associates,Inc.,2016.91?99 12 Denton E L,Chintala S,Szlam A,Fergus R.Deep generative image models using a Laplacian pyramid of adversarial networks.In:Proceedings of the 28th International Conference on Neural Information Processing Systems.Montreal,Canada:MIT Press,2015.1486?1494 13 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classi fication with deep convolutional neural networks.In:Proceedings of Advances in Neural Information Processing Systems.Lake Tahoe,Nevada,USA:Curran Associates,Inc.,2012.1097?1105 14 Liu M Y,Tuzel O.Coupled generative adversarial networks.In:Proceedings of Advances in Neural Information Processing Systems.Barcelona,Spain:Curran Associates,Inc.,2016.469?477 15 Mirza M,Osindero S.Conditional generative adversarial nets.arXiv:1411.1784,2014 16 van den Oord A,Kalchbrenner N,Espeholt L,Kavukcuoglu K,Vinyals O,Graves A.Conditional image generation with PixelCNN decoders.In:Proceedings of Advances in Neural Information Processing Systems.Barcelona,Spain:Curran Associates,Inc.,2016.4790?4798 17 Reed S,Akata Z,Mohan S,Tenka S,Schiele B,Lee H.Learning what and where to draw.In:Proceedings of Advances in Neural Information Processing Systems.Barcelona,Spain:Curran Associates,Inc.,2016.217?225 18 Salimans T,Goodfellow I,Zaremba W,Cheung V,Radford A,Chen X,et al.Improved techniques for training GANs.In:Proceedings of Advances in Neural Information Processing Systems.Barcelona,Spain:Curran Associates,Inc.,2016.2226?2234 19 Chen X,Chen X,Duan Y,Houthooft R,Schulman J,Sutskever I,et al.InfoGAN:interpretable representation learning by information maximizing generative adversarial nets.In:Proceedings of Advances in Neural Information Processing Systems.Barcelona,Spain:Curran Associates,Inc.,2016.2172?2180 20 Odena A,Olah C,Shlens J.Conditional image synthesis with auxiliary classi fier GANs.In:Proceedings of the 34th International Conference on Machine Learning.Sydney,Australia,2017.2642?2651 21 Ghosh A,Kulharia V,Namboodiri V,Torr P H S,Dokania P K.Multi-agent diverse generative adversarial networks.arXiv:1704.02906,2017 22 Arjovsky M,Bottou L.Towards principled methods for training generative adversarial networks.arXiv:1701.04862,2017 23 LeCunY,CortesC,BurgesC JC.TheMNIST database of handwritten digits [Online], available:http://yann.lecun.com/exdb/mnist,June 3,2017. 24 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278?2324 25 Liu Z W,Luo P,Wang X G,Tang X O.Large-scale CelebFaces Attributes(CelebA)Dataset[Online],available:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html,July 20,2017. 26 Liu Z W,Luo P,Wang X G,Tang X O.Deep learning face attributes in the wild.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.3730?3738 27 Princeton ModelNet[Online],available:http://modelnet.cs.princeton.edu,August 13,2017. 28 Wu Z R,Song S R,Khosla A,Yu F,Zhang L G,Tang X O,et al.3D ShapeNets:a deep representation for volumetric shapes.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.1912?1920 29 Wu J J,Zhang C K,Xue T F,Freeman B,Tenenbaum J.Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling.In:Proceedings of Advances in Neural Information Processing Systems.Barcelona,Spain:Curran Associates,Inc.,2016.82?904 總結



