


摘 ?要:在深度學習中,數據是三大核心要素之一。尤其在某些領域,數據的稀有、人工標注造成大量人力的浪費、數據好壞對產出結果的影響,都顯現出數據的重要性。鑒于在動漫領域中,人物的制作需要花費大量的人力和時間,所以從動漫頭像出發,基于生成對抗網絡,結合編碼器、殘差網絡、解碼器,經過編碼器改變圖像的維度,最后利用解碼器將提取到的特征數據生成近似于原始圖像的數據集。生成對抗網絡本身固有的缺點會導致最后的效果并不是很好,于是嘗試對生成對抗網絡進行深度卷積的改進,再加上WGAN的梯度懲罰思想來優化自編碼器基礎上的生成對抗網絡。
關鍵詞:深度學習;生成對抗網絡;數據生成;深度卷積
中圖分類號:TP391 ? ? 文獻標識碼:A
Abstract: In deep learning, data is one of the three core elements. Especially in some fields, scarcity of data, manpower waste caused by manual labeling, and the impact of data quality on the output results all show the importance of data. As in animation field, production of characters takes a lot of time and manpower, this paper starts from animation profile picture and combines encoder, residual network and decoder based on Generative Adversarial Network. After the encoder changes the dimension of the image, the decoder is used to generate a dataset similar to the original image with extracted feature data. The inherent shortcomings of the Generative Adversarial Network itself will lead to an unideal final effect, so the author tries to improve the Generative Adversarial Network by deep convolution, coupled with the gradient penalty idea of WGAN (Wasserstein Generative Adversarial Network) to optimize the Generative Adversarial Network based on the autoencoder.
Keywords: deep learning; Generative Adversarial Network; data generation; deep convolution
1 ? 引言(Introduction)
生成對抗網絡(Generative Adversarial Network,GAN)于2014年被在蒙特利爾讀博士的Ian Goodfellow提出,在之后的幾年,一直都處于火熱研究對象的狀態之中[1],且于2016年席卷AI領域頂會,深度學習三大馬車之一的Yann LeCun曾形容它為“20年來深度學習領域最酷的構想”。生成對抗網絡被廣泛應用于圖像生成[2]、圖像轉換[3]、圖像修復[4],在目標檢測[5]、行人識別[6]等方面也有著重要的輔助作用。大量的研究者希望將生成對抗網絡應用于各個領域,例如有在醫學領域的研究者希望借助生成對抗網絡的學習方式及其學習能力來生成藥學分子結構和合成新材料的配方。
2 ? 生成對抗網絡(Generative adversarial network)
2.1 ? 網絡結構與原理展示
生成對抗網絡(Generative Adversarial Network, GAN)因為有著極好的生成能力以及效果而得到了廣泛的認知,其網絡結構如圖1所示。
它同時包含了判別式模型和生成式模型。生成式模型是為了產生與來自真實數據相似的數據,讓判別式模型誤以為是真實數據,而判別式模型是為了極力地判斷出其數據并不是真實的數據,將其與真實的數據分別開來。
在判別式模型和生成式模型兩者互相對抗學習的情況下,判別式模型的判斷會讓生成式模型逐漸產生逼近于真實的數據,同時生成式模型在生成近似于真實數據的時候,判別式模型的判別能力也會增強,努力找尋兩者數據之間的差距,將兩者區別開來。到最后,生成式模型會擁有生成真實數據分布的能力,判別式模型會因為生成式模型能力的增強而增強,對生成樣本判斷為虛假樣本的性能增強。
整個過程與畫家成長過程相似,畫家不斷學習自己的畫與名畫之間的差距,畫出的畫更接近名畫來干擾鑒畫師,而鑒畫師也會不斷學習鑒別假畫與真畫之間差距的能力。
生成對抗網絡采用博弈論中零和博弈游戲的思想,以期達到納什均衡點。
生成式模型不斷生成數據分布,判別式模型判斷數據是否為真實數據,兩者相互對抗,到最后兩者都學習到最優狀態。
編碼器部分用來提取數據特征,卷積之后進行實例歸一化(Instance Normalization, IN),激活函數用Relu。
ResNet部分用來結合特征,同樣使用IN層,將PRelu用作激活函數,保留特征,丟失最小的特征信息,組成新的具有相似信息的特征組合。
解碼器部分將經過ResNet部分的特征數據轉換成特征圖。
4.4 ? 判別式模型
判別式模型與生成式模型形成競爭關系,判別式模型的鑒別能力對生成式模型生成的圖片存在質量影響。考慮到在梯度傳播過程中,參數在更新的時候梯度會出現消失的情況,在卷積操作之后加入批量歸一化的操作處理方式,以此來保證判別式模型的穩定訓練,之后再加入Leaky-Relu激活函數(參數化修正線性單元),保證Relu優點的時候,不會出現Dead Relu的問題。
4.5 ? 結果
生成結果圖如圖4所示。
兩個模型的學習率都是0.002。學習率增加,收斂速度也增加的同時會出現生成式模型倒塌,而將學習率降為0.002時,生成式模型倒塌的次數也會下降,相對穩定。
訓練時間較長,生成的圖像有屬于失敗的情況,但是對于大多數圖像來說屬于良好的情況。
5 ? 結論(Conclusion)
本文將已有的自編碼器與ResNet在生成對抗網絡上進行動漫頭像的生成,本著無監督學習在深度學習方向上對智能發展的引導,在自編碼器學習特征的過程中加入判別信息,經過懲罰傳遞判別信息,中間殘差網絡提高數據特征,以此重構具有相似特征的動漫圖像。
在將來如果有更好的條件將彌補本文的不足,使用性能更強的GPU增加網絡參數,擴大網絡規模,以期生成分辨率更高的圖像,解決復雜度以及多樣性問題。
參考文獻(References)
[1] CRESWELL A, WHITE T, DUMOULIN V, et al. Generative adversarial networks: An overview[J]. IEEE Signal Processing Magazine, 2018, 35(1):53-65.
[2] HUANG H, YU P S, WANG C H. An introduction to image synthesis with generative adversarial nets[DB/OL]. [2018-03]. https://arxiv.org/pdf/1803.04469.pdf.
[3] 朱海峰,邵清.基于深度學習的圖像風格轉換研究[J].軟件,? ? ?2020,41(3):102-106,117.
[4] DEMIR U, UNAL G. Patch-based image inpainting with generative adversarial networks[DB/OL]. [2018-03].https://arxiv.org/pdf/1803.07422.pdf.
[5] PRAKASH C D, KARAM L J. It GAN DO better: GAN-based detection of objects on images with varying quality? ? ?[DB/OL]. [2019-12]. https://arxiv.org/pdf/1912.01707.pdf.
[6] GE Y X, LI Z W, ZHAO H Y, et al. Fd-gan: Pose-guided feature distilling gan for robust person re-identification[DB/OL]. [2018-10]. https://arxiv.org/pdf/1810.02936.pdf.
[7] 張恩琪,顧廣華,趙晨,等.生成對抗網絡GAN的研究進展[J].計算機應用研究,2021,38(04):968-974.
[8] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553):436-444.
作者簡介:
彭章龍(1995-),男,碩士生.研究領域:圖像處理.