999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進的生成對抗網絡的動漫頭像生成算法

2024-06-01 22:43:17孫慧康彭開陽
現代信息科技 2024年4期

孫慧康 彭開陽

收稿日期:2023-07-04

DOI:10.19850/j.cnki.2096-4706.2024.04.016

摘? 要:針對大部分生成對抗網絡在動漫圖像的生成上會呈現出訓練不穩定,生成樣本多樣性比較差,人物局部細節上效果不好,生成樣本質量不高的問題,文章利用條件熵構造的一種距離懲罰生成器的目標函數,結合注意力機制提出一種改進模型MGAN-ED。模型主要包括融入多尺度注意力特征提取單元的生成器和多尺度判別器。采用GAM和FID進行評估,所做實驗結果表明模型有效地解決了模式崩塌的問題,生成圖像的局部細節更加清晰,生成樣本質量更高。

關鍵詞:生成對抗網絡;圖像生成;多尺度特征;殘差結構;注意力機制

中圖分類號:TP183? 文獻標識碼:A? 文章編號:2096-4706(2024)04-0079-06

Animation Head Sculpture Generation Algorithm Based on Improved Generative Adversarial Networks

SUN Huikang1, PENG Kaiyang2

(1.School of Software Engineering, Jiangxi University of Science and Technology, Nanchang? 330013, China;

2.Xuancheng Branch of China Telecom Co., Ltd., Xuancheng? 242000, China)

Abstract: In view of the problems of training instability, poor diversity of generated samples, poor effect on local details of characters and low quality of samples generated in most of the Generative Adversarial Networks on generation of the animation head sculptures, this paper constructs a distance penalty generator target function by using conditional entropy, and an improved model MGAN-ED is proposed combined with Attention Mechanism. The model mainly includes a generator integrated with multi-scale attention feature extraction unit and a multi-scale discriminator. The GAM and FID are used to evaluate the model. The experimental results show that the model can effectively solve the problem of pattern collapse, and the local details of the generated image are clearer and the quality of the generated samples is higher.

Keywords: Generative Adversarial Networks; image generation; multi-scale feature; residual structure; Attention Mechanism

0? 引? 言

隨著國內動漫行業的火爆,我們可以看到設計師們設計出了各種各樣的動漫人物,動漫人物形象也被用在很多行業,比如服裝業和玩具業。越來越多的動漫人物圖像出現在大牌服裝上,商品櫥窗上陳列著各種價格不菲動漫人物手辦,但并不是每一個人都有能力去創作出動漫人物。隨著生成對抗網絡(GAN)[1]的出現,人們可以依靠神經網絡去完成動漫人物的生成,事實上由于GAN難以訓練,GAN生成的圖片往往多樣性差,或者生成的圖片比較模糊,不能被人們利用。

許多研究人員以GAN為原型,在它的基礎上進行很多變體實驗,提出了很多經典生成對抗網絡,如Mirza等人[2]在2014年提出的帶有約束條件的生成對抗網絡(CGAN),而后Odena等人[3]對其改進提出了GAN With Auxiliary Classifier(ACGAN);同年Radford等人[4]結合卷積神經網絡(CNN)[5]提出了深度卷積生成對抗網絡(DCGAN);Chen等人[6]結合信息論提出的InfoGAN模型;Jolicoeur-Martineau等人[7]用相對的判別器取代GAN的判別器使得訓練變得穩定;Zhao等人[8]將能量引入到模型中,判別器通過能量函數來判別數據;Miyato等人提出譜標準化的生成對抗網絡(SNGAN)[9];也有研究員在損失函數方面進行了改進,如最小二乘生成對抗網絡(LSGAN)[10]、Wasserstein GAN(WGAN)[11],1中心梯度懲罰的WGAN(WGAN-GP)[12],0中心梯度懲罰的GAN算法(GAN-0GP)[13],條件熵距離懲罰GAN(EDGAN)[14]。這類模型在動漫圖像生成方面,網絡在訓練過程中容易發生模型崩塌或者生成圖像質量難以滿足現實任務的需求。

本文提出了一種從隨機噪聲經過生成對抗網絡去生成近似于真實圖像的樣本。為了去解決訓練過程中模式崩塌、生成樣本單一、圖片的局部細節不足和質量差的問題,對GAN引入一些結構并在生成器的目標函數上添加由條件熵構造的距離懲罰函數來提高生成樣本質量。

1? 相關工作

1.1? 生成對抗網絡

GAN是一種兩個神經網絡相互競爭的特殊過程,由Goodfellow于2014年提出,第一個網絡輸入噪聲z生成數據,為生成模型(Generative Model, G),第二個網絡試圖區分真實數據與第一個網絡創造出來的假數據,會給出一個在[0,1]范圍內的標量,代表該數據為真實數據的概率,為判別模型(Discriminative Model, D)。原始GAN的損失函數是極小極大對抗方式,具體如下所示:

(1)

在訓練過程中G的目標就是盡量生成真實的圖片去欺騙D,而D的目標就是盡量把G的圖片和真實的圖片分開,這樣,G和D構成了一個動態的“博弈過程”。網絡的框架結構如圖1所示。

1.2? 多尺度注意力特征提取單元

多尺度注意力特征提取單元[15]由多尺度特征融合和注意力機制[16]構成,改善了網絡對圖片細節感知能力較差的問題。多尺度網絡層通過不同尺寸的感受野可以提取到多種特征[17],而注意力模塊使得網絡對每個通道特征產生不同的注意力,從而使得網絡可以學習到特征圖里的重要信息,保證生成器生成高質量的圖像,結構如圖2所示。該模塊表達式為:

(2)

(3)

式中:Xc表示特征圖,GlobaAveragePooling2D是對尺寸為W×H×C的Xc進行全局平均池化,壓縮通道的空間信息Zc。D表示全連接層,σ和δ分別表示softmax和ReLU激活函數,Reshape使其尺寸轉換為1×1×C,得到通道的激活權重,與特征圖Xc相乘得到Rc。

圖1? MAC-GAN網絡結構圖

1.3? 殘差塊

早期的研究員從理論上來分析,網絡深度越深帶來的效果就越好,但是在實際的操作中會發現網絡深度的加深,訓練往往不盡人意。后來Microsoft Research等人[18]提出了殘差網絡,殘差結構主要由快捷連接和恒等映射構成,網絡設計為H(x) = F(x) + x,這樣目標訓練就轉換為去學習一個殘差函數F(x) = H(x) - x,無須去訓練到一個等價映射,只需將其逼近于0,這樣擬合殘差更加容易。結構如圖3所示,其內部的殘差塊使用了跳躍鏈接,確保在不會因為模型深度的增加出現梯度消失。

圖3? 殘差塊結構

1.4? 多尺度判別器

本文所借鑒的多尺度判別網絡[19]僅使用一個判別器,對輸入的圖像進行下采樣,下采樣的圖像進行卷積操作得到特征圖,并附加在對原圖像進行跨步卷積所得到的特征圖上,實現特征融合后傳給判別器進行后續操作。引用多尺度判別是為了可以在不同尺度的感受野上面處理特征信息,高層網絡的感受野比較大,宏觀信息表征能力強,淺層網絡感受野小,圖像細節的表征能力強,在合適的層進行多尺度特征融合可以有效的獲取圖像信息,有利于判別器對圖像做出精準的判別。

2? 模型框架

2.1? 目標函數

在原始GAN中,判別器和生成器需要優化的目標函數分別為:

(4)

(5)

式中Pz和Pdata分別表示真實分布與生成分布,Goodfellow等人為了更好的訓練GAN,將上式中(5)轉換為非飽和損失函數,具體如下:

(6)

本文在保證生成樣本的多樣性的同時為了提升生成樣本質量,即盡量使生成分布盡可能的逼近真實分布,在生成器目標函數上添加條件熵距離。在條件X下,Y的條件熵定義為:

(7)

式中,F(x,y)與F(x | y)分別表示X和Y的聯合分布函數和條件分布函數。條件熵距離定義為:

(8)

將原有GAN的生成器目標函數加上條件熵距離得到新的生成器目標函數為:

(9)

其中λ表示懲罰因子,ρ表示條件熵距離,XE與XG的取值空間分別表示真實數據域與生成數據域。

2.2? 生成模型

為了避免模型崩塌和提高生成的動漫圖像質量,本文對生成器的模型進行了修改,生成器的具體結構如圖4所示。生成模型主要由兩部分構成,第一部分對輸入的噪聲Z用上采樣聯合步長為1的卷積層生成特征圖,其尺寸為W×H×C(W表示圖片寬度,H表示圖片高度,C表示通道數),用該方法生成是為了避免多個反卷積疊加而產生不同尺度上的假象[20],第二部分把特征圖作為多尺度注意力特征提取單元的輸入,經兩個殘差塊后使用步長為1的卷積核調整通道數生成圖像。

圖4? 生成器的網絡結構

2.3? 判別模型

判別模型由兩個部分構成,多尺度特征融合和VGG網絡結構[21],模型結構如圖5所示。通過對原圖像進行下采樣和原圖像這兩個尺度做特征提取,一方面對原圖像進行步長為2的卷積操作提取特征,另一方面對原圖像進行MaxPooling和步長為1的卷積來提取特征,兩者合并為一個聚合特征圖傳給下一個卷積組。對聚合特征圖的判別,使用兩個3×3卷積核的卷積層來取代大卷積核的卷積層,并將網絡層中的池化層改為卷積核為5×5的跨步卷積層,將提取到的特征圖平鋪后連接全連接層后用sigmod激活函數激活。

2.4? 實驗準備工作

實驗基于TensorFlow深度學習框架實現,實驗所需的數據集是從網上搜集約50 000張動漫人物圖像,將這些圖片縮放到64×64供網絡訓練,實驗的測試集隨機選取DANBOORU2018的1 000張圖片,同時也處理為64×64。在網絡訓練過程中采用RMS優化器進行優化并設置學習率為0.000 5,batch_size設置為64,條件熵距離懲罰因子設置為1。

2.5? 評價指標

為了說明MGAN-ED(Multi Scale Generating Confrontation Network with Dependency of Entropy Distance)網絡模型可以生成更高質量的圖片并保證圖片的多樣性,本文使用兩個衡量指標Generative Adversarial Metric(GAM)[22]和Frechet Inception Distance(FID)[23],前者是為了用來評價生成樣本質量,后者為了評價生成樣本的多樣性。

1)GAM。GAM用于兩個模型M1 = (G1,D1)和M2 = (G2,D2)之間生成樣本質量的比較,在比較中有兩個重要比值Rtest和Rsample供我們判別模型的優劣,表示為:

(10)

(11)

式中G1與G2用同一個隨機噪聲z來生成圖片,Xtest表示測試集,D1 (Xtest)表示用訓練好的判別器對測試集做判別。Rtset是為了確保不同模型的判別器對數據不具有偏向性,避免出現判別器對數據過擬合而導致無用的實驗數據,需要在Rtset ≈ 1(在本實驗中若0.85<Rtset<1,則認為Rtset ≈ 1)的情況下通過Rsample來決定勝出模型,具體規則如下:

(12)

2)FID。對于生成樣本的多樣性,我們通多FID來評價網絡模型,通過均值和協方差來計算生成分布和真實分布之間的距離,表示為:

(13)

式中生成真實樣本Pr與生成樣本Pg通過取消了最后一層pooling層的inception network網絡計算的n維特征,Ui表示計算特征均值,∑i表示計算特征方差。如果網絡生成的圖片擁有較高的質量和多樣性時,FID的分數會相對較低。

2.6? 模型結果分析對比

通過對不同的GAN模型進行多次實驗,記錄GAN模型在訓練中是否發生模式崩塌和最早發生模式崩塌的epoch來驗證本文模型在該數據集上解決了模式崩塌的問題。表1為對不同GAN模型進行10次實驗的數據統計,可以看出在有限的次數里本文模型在訓練過程中表現穩定,要優于其他GAN模型,在一定程度上解決了模式崩塌問題,避免對不同噪聲生成幾乎一樣的圖像。

表1? 不同模型在訓練中發生模式崩塌次數統計

模型 模式崩塌次數 最早發生模式崩塌epoch

DCGAN 9 20

WGAN 3 58

LSGAN 8 19

SNGAN 2 55

首先通過GAM來評價模型生成樣本的質量,把DCGAN、WGAN-GP、LSGAN、SNGAN四個網絡看作M1 = (G1,D1),本文模型MGAN-ED看作M2 = (G2,D2)。表2為四個網絡與MGAN-ED比較結果。從表2我們可以直觀的看到MGAN-ED與其他幾個網絡相比都是winner,在同等級的評價性能下,MGAN-ED生成的圖片更容易欺騙對手的判別器,意味著MGAN-ED生成樣本更接近真實樣本,生成圖像的質量更高。

表2? 不同模型與MGAN-ED之間的GAM比較

M1 M2 Rtest Rsample

DCGAN MGAN-ED 0.99 1.90

SNGAN MGAN-ED 1.02 1.58

WGAN-GP MGAN-ED 1.01 1.36

LSGAN MGAN-ED 1.00 1.64

再通過FID來評價模型生成樣本的多樣性,在模模式沒崩塌的前提下,用訓練好的生成器生成1000張圖像作為樣本圖像用于實驗,實驗結果如表3所示。從表3的實驗數據可以看出本文模型MGAN-ED所生成樣本具有更高的多樣性。在模型的生成器中融入多尺度注意力特征提取單元使得FID降到63.503,相對于EDGAN提高了23.48%。綜合兩個實驗數據知道,MGAN-ED在生成樣本方面表現良好,本文所提出的生成器結構在保證生成樣本多樣性的情況下,生成更高質量的動漫。

表3? 不同模型與MGAN-ED之間的FID比較

模型名稱 FID

DCGAN(2015) 103.004

LSGAN(2017) 99.458

WGAN-GP(2017) 87.879

SNGAN(2018) 85.473

GAN-OGP(2019) 81.283

EDGAN(2021) 82.993

MGAN-ED 63.503

2.7? 可視化結果

在訓練好的模型中(未發生模式崩塌),DCGAN生成的動漫頭像顆粒感嚴重,頭像比較扭曲,視覺感受差,LSGAN生成的圖片質量相對于DCGAN并沒有太大提升。WGAN-GP部分生成圖像具有一定的清晰度和真實度,但是大部分是比較扭曲的,而本文所提出的模型MGAN-ED生成樣本圖像細節更豐富,部分人物的眼神與表情生動,更貼近真實圖像。訓練后的模型生成圖片直觀的感受各個網絡生成質量,效果如表4所示。

表4? 不同模型生成樣本的可視化結果

模型 紅 紫 藍 棕

DCGAN

LSGAN

SNGAN

WGAN-GP

MGAN-ED

3? 結? 論

本文基于新的生成器目標函數,結合注意力機制、殘差塊和多尺度判別提出了改進模型MAR-GAN提高了動漫頭像生成樣本的質量。模型主要依賴于多尺度注意力特征提取單元對通道信息的提取便于網絡在生成的過程中注意局部細節上的生成和條件熵距離懲罰生成器目標函數使得生成樣本接近真實樣本。實驗結果表明,MAC-GAN在訓練的穩定性、生成樣本的多樣性和生成樣本質量表現更好。

參考文獻:

[1] GOODFELLOW I,POUGET-ABADIE J,MIRZA M,et al. Generative adversarial nets [J].Advances in neural information processing systems,2014,27:2672-2680.

[2] MIRZA M,OSINDERO S. Conditional Generative Adversarial Nets [J/OL].arXiv:1411.1784 [cs.LG].(2014-11-06).https://arxiv.org/abs/1411.1784.

[3] ODENA A,OLAH C,SHLENS J. Conditional Image Synthesis With Auxiliary Classifier GANs [C]//International conference on machine learning.PMLR,2017:2642-2651.

[4] RADFORD A,METZ L,CHINTALA S .Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [J/OL].arXiv:1511.06434 [cs.LG].(2015-11-19).https://arxiv.org/abs/1511.06434v1.

[5] KRIZHEVSKY A,SUTSKEVER I,HINTON G. ImageNet Classification with Deep Convolutional Neural Networks [J]. Communications of the ACM,2017,60(6):84-90.

[6] CHEN X,DUAN Y,HOUTHOOFT R,et al. InfoGAN:Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets [C]//NIPS'16: Proceedings of the 30th International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc,2016:2180-2188.

[7] JOLICOEUR-MARTINEAU A. The relativistic discriminator:a key element missing from standard GAN [J/OL].arXiv:1807.00734 [cs.LG].(2018-07-02).https://arxiv.org/abs/1807.00734v1.

[8] ZHAO J,MATHIEU M,LECUN Y. Energy-based generative adversarial network [J/OL].arXiv:1609.03126 [cs.LG].(2016-09-11).https://arxiv.org/abs/1609.03126v2.

[9] MIYATO T,KATAOKA T,KOYAMA M,et al. Spectral Normalization For Generative Adversarial Networks [J/OL].arXiv:1802.05957 [cs.LG].(2018-02-16).https://arxiv.org/abs/1802.05957v1.

[10] MAO X,LI Q,XIE H,et al. Least Squares Generative Adversarial Networks [C]//Proceedings of the IEEE international conference on computer vision.IEEE,2017:2794-2802.

[11] ARJOVSKY M,CHINTALA S,BOTTOU L. Wasserstein GAN [J/OL].arXiv:1701.07875 [stat.ML].(2017-01-26).https://arxiv.org/abs/1701.07875.

[12] GULRAJANI I,AHMED F,ARJOVSKY M,et al. Improved Training of Wasserstein GANs [C]//Advances in neural information processing systems.Red Hook:Curran Associates Inc+,2017:5769-5779.

[13] THANH-TUNG H,TRAN T,VENKATESH S. Improving generalization and stability of generative adversarial networks [J/OL].arXiv:1902.03984 [cs.LG].(2019-02-11).https://arxiv.org/abs/1902.03984.

[14] 譚宏衛,王國棟,周林勇,等.基于一種條件熵距離懲罰的生成式對抗網絡 [J].軟件學報,2021,32(4):1116-1128.

[15] 甄誠,楊永勝,李元祥,等.基于多尺度生成對抗網絡的大氣湍流圖像復原 [J].計算機工程,2021,47(11):227-233.

[16] HOWARD A,SANDLER M,CHU G,et al. Searching for mobilenetv3 [C]//Proceedings of the IEEE International Conference on Computer Vision.IEEE,2019:1314-1324.

[17] 熊亞輝,陳東方,王曉峰.基于多尺度反向投影的圖像超分辨率重建算法 [J].計算機工程,2020,46(7):251-259.

[18] HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE,2016:770-778.

[19] KARNEWAR A,WANG O. MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks [J/OL].arXiv:1903.06048 [cs.CV].(2019-03-14).https://arxiv.org/abs/1903.06048.

[20] ODENA A ,DUMOULIN V ,OLAH C .Deconvolution and Checkerboard Artifacts [J/OL].Distill,2016,1(10):(2016-10-17).https://distill.pub/2016/deconv-checkerboard/.

[21] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J/OL].arXiv:1409.1556 [cs.CV].(2014-09-14).https://arxiv.org/abs/1409.1556.

[22] IM D J,KIM C D,JIANG H,et al. Generating images with recurrent adversarial networks [J/OL].arXiv:1602.05110 [cs.LG].(2016-02-16).https://arxiv.org/abs/1602.05110v5.

[23] HEUSEL M,RAMSAUER H,UNTERTHINER T,et al. GANs Trained by a Two Time-Scale Update Rule Converge to a Nash Equilibrium [C]//NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc,2017:6626-6637.

作者簡介:孫慧康(1996—),男,漢族,江西九江人,助教,碩士,研究方向:人工智能;彭開陽(1996—),男,漢族,安徽宣城人,碩士,研究方向:云計算與大數據。

主站蜘蛛池模板: 在线国产毛片| 天堂成人在线视频| 欧美日本激情| 国产成人精品一区二区秒拍1o| 美女无遮挡免费视频网站| 日本精品中文字幕在线不卡 | 97成人在线观看| 色悠久久综合| 国产欧美亚洲精品第3页在线| 国产香蕉在线视频| 国产一级α片| 色综合五月| 免费人成视频在线观看网站| 精品国产电影久久九九| 国产精品13页| 欧美成一级| 伊人无码视屏| 刘亦菲一区二区在线观看| 久久综合丝袜日本网| a级高清毛片| 国产丝袜丝视频在线观看| 婷婷综合在线观看丁香| 毛片久久网站小视频| 亚洲欧美另类日本| 日韩无码黄色网站| 精品亚洲麻豆1区2区3区| 午夜视频免费试看| 伊人久久大香线蕉影院| 99青青青精品视频在线| 婷婷激情五月网| 狠狠色丁婷婷综合久久| 久久精品人人做人人爽电影蜜月| 亚洲三级网站| 99视频只有精品| 5555国产在线观看| 欧美黄网在线| 毛片在线播放网址| 88av在线看| 国内丰满少妇猛烈精品播| 国产精品无码久久久久AV| 亚洲第一网站男人都懂| 亚洲91精品视频| 免费国产好深啊好涨好硬视频| 中字无码精油按摩中出视频| 99久久国产综合精品2023| 在线国产91| 国产欧美日韩另类| 好久久免费视频高清| 女同久久精品国产99国| 亚洲视频免| 九月婷婷亚洲综合在线| 天天躁日日躁狠狠躁中文字幕| 亚洲三级a| 在线观看免费AV网| 成人福利在线视频免费观看| 五月婷婷综合在线视频| 99久视频| 国产成人综合日韩精品无码不卡| 首页亚洲国产丝袜长腿综合| 日韩精品免费一线在线观看| 久久精品这里只有精99品| 中国精品自拍| 人人看人人鲁狠狠高清| 国产裸舞福利在线视频合集| 国产主播福利在线观看| 国内精品视频| 最新无码专区超级碰碰碰| 九九热免费在线视频| 精品無碼一區在線觀看 | 99精品伊人久久久大香线蕉| 日本一区二区不卡视频| 亚洲国产综合精品一区| 国产亚洲高清在线精品99| 国产香蕉一区二区在线网站| 毛片一区二区在线看| 伊人狠狠丁香婷婷综合色| 国产特级毛片| 97在线视频免费观看| 亚洲国产日韩在线成人蜜芽| 精品国产女同疯狂摩擦2| 久久精品娱乐亚洲领先| 久操中文在线|