999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于改進條件生成式對抗網絡的人臉表情生成方法

2020-09-02 06:52:22王先先李菲菲
小型微型計算機系統 2020年9期
關鍵詞:模型

王先先,李菲菲,陳 虬

(上海理工大學 光電信息與計算機工程學院,上海 200093)

E-mail:xxwang2017@163.com

1 引 言

人臉表情生成的目標在于生成表情豐富而紋理清晰的不同人臉,其可廣泛應用于表情分類、輔助駕駛、人機交互等多個領域.因此,表情生成一直以來都是計算機視覺和圖像處理領域的研究熱點.傳統方法通常使用計算機圖形學方法進行建模來實現人臉表情的生成.Lin等[2]提出將人臉劃分成若干幾何區域,然后將參考人臉表情的紋理映射到目標表情的幾何區域中.Zhang等[3]提出根據不同表情之間特征點的變換對人臉進行表情變形.這些方法雖然在一定程度上實現了人臉表情的生成,然而生成的目標表情一方面數量有限(取決于幾何區域的劃分),另一方面并不自然,缺乏真實性,很難得到進一步利用.

近年來,生成式對抗網絡[4]在圖像生成方面展現出了強大的擬合能力.研究人員利用生成對抗網絡可以生成高質量紋理細節圖像的特點來實現人臉表情的生成.本文利用條件生成對抗網絡模型,以目標人臉表情形狀為條件,任意人臉表情為參考圖像,實現人臉表情的生成.主要貢獻可以歸納如下:

1)以人臉特征點位置為不同的表情形狀進行建模,作為目標表情生成的引導條件,并對Pix2Pix模型[13]的網絡結構進行改進,以提高其在人臉表情生成方面的性能.解決當前人臉表情生成模型網絡結構復雜,參考表情和目標表情之間不能直接相互轉換的問題.

2)利用訓練好的變分自動編碼器[14]作為人臉表情形狀控制器.通過該控制器可以生成一系列具有視覺語義變化的、可解耦的表情形狀.將形狀控制器和表情生成模型相結合,可以生成連續的、具有視覺語義變化的人臉表情.

2 相關工作

2.1 圖像生成模型

近年來,深度神經網絡在圖像生成領域取得了很大的進展.一般來說,通常有兩類常用的生成模型用于圖像生成.一類基于VAE[1](variational auto-encoder)的生成模型是一種概率統計模型.它主要由用于推斷輸入圖像統計信息的編碼網絡和用于重構輸入圖像的解碼網絡組成.這類生成模型具有訓練穩定、收斂速度快等一系列優點.然而,由于VAE模型優化的目標函數是對數似然函數的下界,生成的圖像整體上看起來較為模糊.另一類基于GANs[4](generative adversarial networks)的圖像生成模型則是通過生成器和判別器之間的對抗學習,隱式地捕獲真實圖像的概率分布.通過對抗性的訓練,GANs類模型可以生成更加清晰、逼真的圖像.然而原始的GANs模型仍然存在許多顯著的缺陷[27],如模式崩潰和訓練不穩定等.研究人員[22,23]提出了一些有效的方法來穩定訓練過程、提高生成圖像的質量.此外,為了使得生成的圖像具有某些期望的屬性,研究人員[15,25]提出使用條件GANs對生成的圖像進行約束.比如引入類標簽之類的輔助信息來指導手寫數字圖像的生成.目前為止,基于CGANs的模型已經廣泛應用于超分辨率圖像生成[10,11,26]、圖像風格轉換[12,18]、圖像修復[20]等領域.由于對抗網絡在生成圖像方面的優異表現,我們同樣采用對抗網絡來完成目標人臉表情的生成.

2.2 人臉生成模型

利用深度神經網絡生成人臉表情的研究工作大致可分為兩類:一類是研究人員使用離散的面部屬性來進行人臉生成.Yan等[9]提出將性別、表情類別、頭發顏色等信息編碼到條件VAE模型的瓶頸層中,從而生成具有多樣化外觀的人臉.Choi等[17]將不同的表情狀態(如生氣、開心)劃為不同的域,并提出StarGAN實現幾種典型表情之間的相互轉化.StarGAN的判別器不僅需要判斷生成圖像的真偽,還需要判斷它來自哪個域.雖然這些方法可以生成高質量的人臉表情圖像,然而編碼后的離散人臉屬性并不足以描述豐富的面部表情.例如,開心的表情可能對應于嘴巴大小不同的各種笑臉.為了解決這個問題,研究人員探索如何將連續的輔助信息整合到生成模型中.Zhou等[8]提出可以將人臉身份和表情信息相分離的CDAAE模型.在CDAAE中,給定參考人臉表情,通過改變表示不同表情強度的FAU(facial action unit)標簽可以生成同一個人的多種表情.GAGAN[5]將人臉表情形狀和GANs相結合,使得生成的人臉表情真實、自然并且具有指定的表情形狀.然而,由于GAGAN本身的半監督性,其并不能對生成人臉的身份信息進行任何控制.有關連續人臉表情的生成,Qiao等[7]提出利用人臉特征點直接對兩個不同的表情形狀進行線性插值,然后使用全連接網絡將這些形狀壓縮成一維的編碼向量,最后將編碼向量輸入到對抗網絡中進而完成連續表情的生成.Song等[6]同樣以人臉特征點為可控條件并提出G2-GAN模型用于面部表情合成.G2-GAN通過兩個生成網絡分別實現表情的移除和生成,進而實現任意表情的轉換.在本文中,我們從現有的方法出發,提出了一種簡單而有效的模型來實現目標人臉表情的生成.為了對不同的表情形狀進行建模,我們使用像素寬度為1的折線段來連接人臉不同部位的特征點.該模型將參考表情與人臉形狀控制器相結合,既可以直接生成目標表情而不用中性人臉表情作為中間的轉換媒介,也可以實現連續人臉表情的生成,同時保持人臉身份信息的一致性.

3 改進的條件人臉表情生成模型

3.1 條件人臉表情生成模型

3.1.1 模型網絡結構

除了表情上的差異,目標圖像和參考圖像應該共享同一張人臉的大部分紋理信息.為了在保持人臉身份信息不變的條件下,模型能夠根據表情形狀g生成目標表情,我們采用改進的Pix2Pix[13]模型作為生成器,如圖1所示.該模塊主要由兩個子網絡組成:編碼網絡GEnc和解碼網絡GDec.目標表情形狀g與參考圖像Iref進行連接后共同作為U-Net結構的生成器的輸入.生成器的編碼網絡Genc從輸入的圖像中提取身份、紋理等高級特征到瓶頸層.生成器的解碼網絡Gdec則負責融合來自U-Net路徑的高級特征和來自skip-connection路徑的低級特性以生成目標人臉表情.為了提高了生成圖像的質量,我們在Pix2Pix模型的基礎上做了以下幾個方面的修改:

圖1 人臉表情生成模型的整體結構Fig.1 Overall structure of facial expression generation model

1)我們使用WGAN-GP[24]代替原始的GANs.原始GANs判別器對輸入的判別圖像只作真假的二值判斷,而WGAN-GP采用wasserstein距離度量目標圖像與生成圖像分布之間距離.與原始GAN相比,它可以為生成器提供更好的優化方向.

2)對于Pix2Pix模型而言,生成器的編碼網絡GEnc和解碼網絡GDec鏡像層之間存在很多跳躍連接.而在實驗中,我們發現鏡像層之間過多的跳躍連接會導致生成器的過擬合,即在訓練集上生成目標表情的性能要優于測試集.為此,我們減少冗余的連接,只保留一條跳躍連接.

3)為了簡化模型的組成結構,除了判別器的最后一層外,生成器和判別器的所有卷積層均采用3×3大小的卷積核.

3.1.2 對抗損失

對抗網絡最重要的特點是通過生成器和判別器之間的對抗性學習來訓練網絡模型,使得生成器能夠生成真實且自然的圖像.在本文中,多通道的表情形狀圖像g和參考人臉表情Iref成對的作為生成器的輸入.根據Pix2Pix模型和WGAN-GP模型,我們的對抗網絡的損失函數如下:

LGen=-EIref,g~P(Iref,g)D(G(Iref,g),g)

(1)

LDis=-EIobj,g~P(Iobj,g)D(Iobj,g)+EIref,g~P(Iref,g)

D(G(Iref,g),g)+λEI′,g~P(I′,g)(‖I′D(I′,g)‖2-1)2

(2)

其中LGen和LDis分別表示生成器和判別器的對抗損失函數,Iobj表示目標人臉表情,EI′,g~P(I′,g)(‖I′D(I′,g)‖2-1)2表示WGAN-GP網絡的梯度懲罰項.

3.1.3 像素級損失

優化對抗損失函數使得生成的圖像看起來更真實,但這還不夠.對于人臉表情變換的任務,我們還希望生成表情Igen和目標表情Iobj盡可能地一致.Isola等[13]工作表明優化生成圖像和目標圖像之間的L1范數可以有效地緩解由L2范數所引起的模糊結果.因此,我們使用L1范數來計算生成圖像Igen和目標圖像Iobj之間的像素級的差異:

LPix=‖Iobj-Igen‖1=‖Iobj-G(Iref,g)‖1

(3)

3.1.4 感知損失

優化像素損失一方面有助于保持生成圖像和目標圖像面部輪廓特征一致.然而,另一方面也會導致生成的圖像在紋理豐富的區域存在一定程度的模糊.Johnson[12]等提出的感知損失在超分辨率圖像生成、風格轉換等任務中得到廣泛的應用,表明了它在提取紋理特征方面的有效性.因而我們采用預先訓練好的VGG-FACE[28]分別提取生成表情和目標表情的紋理特征.通過優化感知損失函數,使得二者在特征空間保持一致性:

LPerp=‖F(Iobj)-F(Igen)‖1

(4)

其中F表示訓練好的VGG-FACE模型.

綜合上述,模型總的損失函數如下所示:

LTotal=LDis+LGen+λ1LPix+λ2LPerp

(5)

3.2 表情形狀控制模型

大多數情況下,我們只有有限數量的人臉表情用于轉換.事實上,我們幾乎也不太可能通過檢測或標注的方法得到目標人臉表情的形狀.因此,設計一種控制器來生成各種表情形狀,進而引導目標表情的生成是一項非常必要的工作.已有的工作[5]采用PCA(principle component analysis)的方法來實現.這些方法先將人臉形狀的一維向量壓縮到低維空間進行編碼,然后通過改變編碼向量的值并解碼至高維空間來生成新的形狀.然而,基于PCA的方法本質上是一種線性編碼,無法捕捉輸入表情形狀特征之間的非線性關系.此外,編碼向量的某一維度與表情形狀可分解的視覺屬性之間只存在弱關聯性.為解決這一問題,我們使用β-VAE[14]作為表情形狀控制器,如圖2所示.與標準VAE的結構相同,它也是由編碼器網絡和解碼器網絡組成,其目標函數如下:

圖2 表情形狀控制器的網絡結構Fig.2 Networks structure of expression shape controller

LCtrl=Eq?(z|g)logpθ(g′|z)-βKL(q?(z|g)‖pθ(z))

(6)

其中第一項logpθ(g′|z)表示重建形狀g′的最大對數似然函數,θ為解碼網絡.通過優化這一項,形狀控制器的解碼網絡可以從條件編碼向量z|g中重構出人臉形狀g.第二項KL(q?(z|g)‖pθ(z))為正則項,pθ(z)是均值為0,協方差為0,方差為1的先驗多元高斯分布.編碼網絡?將輸入的表情形狀g進行壓縮編碼.通過優化這兩個分布Kull-back Leibler距離,條件編碼向量z|g的每一維度都具有視覺特征可分解的解釋性.與標準VAE不同的是,可調權重系數β負責平衡表情形狀g的重建精度和相應的表示向量z|g中每個維度的可解釋性.在這項工作中我們將超參數β的值設置為10的表示向量中每個維度的可解釋性.在這項工作中我們將超參數的值設置為10.

4 實驗結果和分析

在本節中,我們評估了該方法在生成目標人臉表情方面的性能.首先,我們介紹了兩種常用的表情數據集及其預處理方法和訓練設置細節.然后,我們在任意人臉表情轉換、人臉表情生成、人臉表情移除、連續人臉表情生成等任務上展示了生成圖像的可視化結果.此外,對于表情生成和表情移除任務,我們選取PSNR(peak signal to noise ratio)和SSIM(structural similarity index)指標來評估生成圖像與目標圖像之間的差距,以此證明該方法的有效性.

4.1 數據集及預處理

4.1.1 CK+數據集

CK+數據集[16]是由來自123個人共計593個面部表情序列組成.每個人都包含幾種典型的表情序列圖像,這些表情序列以中性的表情開始,以某種最強烈的表情結束.除了少數彩色的表情序列外,CK+數據集中的圖像大多為灰度圖像.我們將這些彩色圖像轉換成灰度圖像,并按照8∶2的比例隨機地選擇99個人的表情序列作為訓練集,其余24個人的表情序列作為測試集.此外,我們直接使用該數據集提供的68個人臉表情特征點作為表情形狀.

4.1.2 Oulu-CASIA數據集

Oulu-CASIA數據集[21]是由80個人的6種不同的表情序列組成.這些表情序列由近紅外和可見光兩種攝像機分別在三種不同的光照條件下(暗光、弱光、強光)獲得.我們只選取可見光攝像機在強光照下拍攝的序列作為實驗數據.實驗總計使用了480個表情序列,其中前50個和后30個人的表情序列分別在在芬蘭和中國獲得.為了保證樣本的平衡性,我們按照8∶2的比例隨機選取一個由40個芬蘭人和24個中國人組成的訓練集,以及一個由10個芬蘭人和6個中國人組成的測試集.此外,該數據集并沒有提供標注好的特征點,我們使用FAN模型[19]來進行提取.

4.1.3 數據集預處理

同一表情序列中相鄰圖像往往只存在細微差異.然而我們的方法需要任意抽取一對不同的表情作為模型輸入.為了減少不必要的訓練時間,我們每3幀對原序列進行采樣,進而構建一個相對小的訓練集.原訓練集中所有圖像可以在3個epoch內訓練完畢.實驗中,根據人眼位置進行人臉對齊,然后裁剪出具有5像素邊距的圖像,最后將裁剪后的尺寸縮放成144×144.同時,對特征點坐標進行仿射、縮放等操作,使其與處理后的人臉圖像保持一致.訓練時,我們使用像素寬度為1的折線來連接不同部位的特征點,以構建一個多通道的表情形狀圖像.此外,表情圖像的值歸一化為[-1,1],多通道的表情形狀的值設置為1.在訓練形狀控制器時,將特征點的坐標值進行均值為0,方差為1的歸一化.

4.1.4 訓練細節

訓練時使用ADAM優化器進行優化;批處理大小設為4;判別器和生成器的學習率分別設置為0.0002和0.0001;損失函數的權重參數λ1和λ2分別設置為10和1;訓練時采用隨機水平翻轉和隨機裁剪的方法進行數據增強;測試階段只使用中心裁剪,裁剪尺寸為128×128大小.

4.2 實驗結果及分析

4.2.1 任意人臉表情轉換

人臉表情轉換是指實現任意參考表情和目標表情之間的轉換.G2-GAN采取的方法是首先使用表情移除模型將參考表情轉換成中性表情,然后使用表情生成模型將中性表情轉換成目標表情.而在我們的模型中,中性表情并不作為完成轉換的必要中間媒介.實驗結果顯示在圖3和圖4中.對于每個人的三行表情而言,第一列為參考表情Iref,第二列和第三列分別為目標表情Iobj和相應的生成表情Igen.可以看到,轉換后的人臉表情和目標表情既具有相同的身份信息也具有相同表情形狀,所述模型可以很好地完成目標人臉表情的轉換工作.然而,由于生成的表情圖像同時受到參考表情Iref和目標表情形狀g共同的作用結果.因此,生成表情和目標表情之間存在細微的差別.此外,在Oulu-CASIA數據集上的實驗結果表明,生成的圖像不受表情形狀以外因素的影響(如眼鏡和背景等).與Oulu-CASIA人臉數據集相比,CK+人臉數據集中的圖像具有更高的分辨率,這也合理地解釋了圖4中所生成的人臉表情在紋理更豐富的嘴巴和眼睛等區域具有更加清晰的細節特征.

圖3 Oulu數據集上的人臉表情轉換Fig.3 Facial expression transform on Oulu dataset

圖4 CK+數據集上的人臉表情轉換Fig.4 Facial expression transform on ck+ dataset

4.2.2 人臉表情移除和生成

人臉表情移除是指將具有某種表情的人臉轉換成不含任何表情的中性人臉,反之則稱為表情生成.對于表情移除,我們使用各表情序列中的第一幀作為目標表情Iobj(中性表情),而其余各幀依次作為參考表情Iref.對于表情生成,我們使用各表情序列的第一幀作為參考表情Iref(中性表情),其余各幀依次作為目標表情Iobj.我們分別在CK+和Oulu數據集上進行表情移除和表情生成實驗.在測試集中,我們隨機地從生成的表情序列中為每個人選取4張生成的人臉表情,并將它們與真實圖像相比較,結果如圖5和圖6所示.對于圖中每個人的三行表情序列而言,第一行表情為真實圖像,第二行為表情生成圖像,第三行為表情移除圖像.可以看到,表情生成的圖像幾乎和真實圖像具有相同形狀,而所有表情移除的圖像幾乎一致.此外,我們使用PSNR和SSIM指標分別定量地評測了表情生成和表情移除任務中生成的圖像與真實圖像之間的差異.同時,為了表明改進方法的有效性,我們對不同的模型結構做了對比試驗,具體結果如表1所示.其中配置A為所改進的模型;B為Pix2Pix模型;C和A一致,但使用原始GANs;D和A一致,但沒有跳躍連接.評測結果表明我們的改進方法在兩個數據集上均可以顯著的提高生成圖像的質量.

圖5 Oulu數據集上人臉表情生成和移除Fig.5 Facial expression synthesis and remove on Oulu dataset

圖6 CK+數據集上人臉表情的生成和移除Fig.6 Facial expression synthesis and remove on ck+ dataset

表1 表情移除和表情生成實驗在不同模型配置下定量評測結果Table 1 Quantitative results of different model configurations for expression remove and synthesis experiments

4.2.3 連續人臉表情生成

大多數情況下我們只有少數人臉表情.然而,我們的目標不僅是生成從未見過的人臉表情,我們還想從語義的角度控制這些表情的生成.比如,通過控制表情形狀控制器生成只有嘴巴大小改變的表情形狀,進而生成相對應的人臉表情.具體方法如下:首先使用訓練好的形狀控制器,將一個中性的表情形狀從形狀空間壓縮到低維的表示空間.然后通過對指定的維度值進行線性變換,再將其映射回形狀空間,得到一組具有共同語義變化的表情形狀.最后,將這組形狀輸入到條件人臉表情生成模型的生成器中,生成一系列語義上可連續變化的人臉表情.在圖7中,我們展示了該方法在CK+數據集上的實驗結果.每對序列的第一行是由形狀控制器生成的一系列連續的人臉形狀,第二行是由中性人臉作為參考表情生成的對應表情.三行形狀序列分別是通過線性改變低維表示向量的第1維、第2維、第21維值而產生的.我們可以看到,人臉形狀低維表示向量的維度與解耦的視覺特征有著密切的語義關系.例如,表示向量的第2維控制眼睛的大小,第21維控制嘴巴的長度,而所生成的表情與人臉形狀的變化基本上是一致的.此外,我們還可以完成人臉表情插值任務.通過對表示向量空間中任意兩個人臉形狀之間的線性插值,可以得到一系列的引導形狀.這些形狀可以幫助我們在參考表情和目標表情之間生成另一種類型的連續人臉表情.需要特別指出的是,所有這些連續生成的人臉表情均沒有對應的真實圖像.

圖7 CK+數據集上的連續人臉表情生成Fig.7 Continuous expression synthesis on ck+ dataset

5 總 結

在這項工作中,我們提出了一種基于條件生成對抗網絡的模型來實現目標人臉表情生成的方法.相比于FAU編碼或離散表情類別標簽,人臉特征點是對豐富的人臉表情進行建模的一個理想選擇.利用特征點表示表情形狀,我們的模型能夠生成大量的、紋理細節清晰的,同時保持身份信息不變的表情.本文中,我們使用所提出的方法實現了表情轉換、表情移除、表情合成等多個任務.此外,將基于CGAN的表情生成模型與所設計的形狀控制器相結合,可以方便地在語義層次上實現連續人臉表情的生成.然而,對于頭部姿態發生變換的人臉表情生成任務,依然是本文后續工作的研究重點.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国精品91人妻无码一区二区三区| 中文国产成人精品久久一| 国产精品区网红主播在线观看| 亚洲成人动漫在线观看| 国产理论一区| 成人在线观看不卡| 亚洲第一区欧美国产综合| 91成人免费观看| 久久永久视频| 看av免费毛片手机播放| 亚洲综合欧美在线一区在线播放| 国产在线精彩视频论坛| 色香蕉网站| 69视频国产| 中文字幕第1页在线播| 免费无码又爽又黄又刺激网站| 国产伦片中文免费观看| 中文字幕66页| 国产精品林美惠子在线观看| 91精品专区国产盗摄| 国内精自视频品线一二区| 久综合日韩| 好紧太爽了视频免费无码| 777国产精品永久免费观看| 久久人人爽人人爽人人片aV东京热| 亚洲欧美在线看片AI| 欧美一道本| 91精品久久久无码中文字幕vr| 欧美日韩在线观看一区二区三区| 美女一区二区在线观看| 日本妇乱子伦视频| 全裸无码专区| 日韩欧美中文在线| 国产AV无码专区亚洲精品网站| 韩日无码在线不卡| 97视频精品全国免费观看| 99re热精品视频中文字幕不卡| WWW丫丫国产成人精品| 国产亚洲欧美在线中文bt天堂| 波多野结衣在线se| 国产激爽大片在线播放| 色综合日本| 日韩成人高清无码| 国产综合色在线视频播放线视| 在线欧美国产| 久久精品国产精品国产一区| 无码一区18禁| 欧美不卡二区| 一个色综合久久| 久久精品人妻中文视频| 日韩精品一区二区三区中文无码| 亚洲国产高清精品线久久| 老汉色老汉首页a亚洲| 色婷婷视频在线| 亚洲一区二区日韩欧美gif| 国产屁屁影院| 日韩免费成人| 国产97公开成人免费视频| 亚洲视频三级| 人妻中文久热无码丝袜| 蜜桃视频一区二区| 亚洲永久视频| 国产欧美精品专区一区二区| 亚洲精品福利视频| 五月婷婷伊人网| 亚洲妓女综合网995久久| 国产精品视频3p| 日本精品视频| 91热爆在线| 一级一级一片免费| 日韩A级毛片一区二区三区| 精品三级网站| 98超碰在线观看| 亚洲最猛黑人xxxx黑人猛交| www.国产福利| 亚洲成aⅴ人在线观看| 久久人体视频| 91极品美女高潮叫床在线观看| av在线无码浏览| 亚洲丝袜中文字幕| 国产美女精品人人做人人爽| 国产成在线观看免费视频|