999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對(duì)抗網(wǎng)絡(luò)的人臉表情數(shù)據(jù)增強(qiáng)方法

2020-02-18 15:19:14丁小龍
關(guān)鍵詞:數(shù)據(jù)庫(kù)方法

孫 曉,丁小龍

1.合肥工業(yè)大學(xué) 情感計(jì)算與系統(tǒng)結(jié)構(gòu)研究所,合肥230601

2.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥230601

1 引言

人臉表情是人們?nèi)粘I钪凶钣行У慕涣鞣绞街唬ǔ⑺x為面部肌肉對(duì)內(nèi)在情緒狀態(tài)所產(chǎn)生的一個(gè)或多個(gè)運(yùn)動(dòng)和變化。自20世紀(jì)90年代以來(lái),許多人員致力于該領(lǐng)域的研究[1]。

人臉表情識(shí)別包含三部分:圖像預(yù)處理、特征提取和表情分類。根據(jù)特征提取的方法,可以分為基于紋理特征的方法[2]、基于幾何特征的方法[3]和基于深度神經(jīng)網(wǎng)絡(luò)的方法[4-5]。近幾年,飛速發(fā)展的深度學(xué)習(xí)技術(shù)和規(guī)模越來(lái)越大的數(shù)據(jù)集使得基于深度神經(jīng)網(wǎng)絡(luò)的方法在圖像識(shí)別領(lǐng)域更加重要。

深度神經(jīng)網(wǎng)絡(luò)離不開(kāi)大規(guī)模數(shù)據(jù),然而對(duì)于人臉表情數(shù)據(jù)集來(lái)說(shuō),標(biāo)準(zhǔn)人臉表情數(shù)據(jù)庫(kù)CK+僅有327個(gè)標(biāo)注的視頻序列[6],更早的數(shù)據(jù)庫(kù)JAFFE僅有213張面部表情圖片[7]。人臉表情數(shù)據(jù)庫(kù)還有一個(gè)普遍的問(wèn)題:數(shù)據(jù)量不平衡。RAF數(shù)據(jù)庫(kù)中快樂(lè)標(biāo)簽下的數(shù)據(jù)量是恐懼的17倍;CK+數(shù)據(jù)庫(kù)僅有18個(gè)蔑視的序列。因此,需要一種圖像生成技術(shù),在擴(kuò)充數(shù)據(jù)集的同時(shí)解決數(shù)據(jù)量不平衡的問(wèn)題。為了解決這一問(wèn)題,研究人員提出了一系列圖像處理操作來(lái)增加數(shù)據(jù)庫(kù)樣本的數(shù)量,這個(gè)過(guò)程被稱作數(shù)據(jù)增強(qiáng)。

2 相關(guān)工作

2.1 人臉表情數(shù)據(jù)增強(qiáng)

數(shù)據(jù)越多,機(jī)器學(xué)習(xí)算法就越有效,在數(shù)據(jù)量不足的情況下,需要通過(guò)一些數(shù)據(jù)增強(qiáng)方案來(lái)擴(kuò)充訓(xùn)練集,解決過(guò)擬合的問(wèn)題。

最常見(jiàn)的做法是對(duì)原始圖像進(jìn)行一些幾何變換來(lái)模擬真實(shí)場(chǎng)景下不同的拍攝角度和拍攝距離,例如旋轉(zhuǎn)、縮放、平移、鏡像等。Simard等人[8]提出使用旋轉(zhuǎn)、平移和傾斜原始圖像的方法來(lái)增加樣本的數(shù)量。通過(guò)組合這三種空間變換,他們獲取了大量的樣本。Lopes等人[9]使用二維高斯分布在原始圖像的眼睛附近加入隨機(jī)噪聲,形成新的兩眼位置,通過(guò)旋轉(zhuǎn)操作使新的兩眼位置處于水平,從而生成新的樣本。Krizhevsky等人[10]在原始圖像上隨機(jī)裁剪固定大小的子樣本,然后將每個(gè)子樣本進(jìn)行水平翻轉(zhuǎn),將訓(xùn)練集擴(kuò)充了2 048倍。

針對(duì)圖像顏色空間的數(shù)據(jù)增強(qiáng)也是一種常見(jiàn)方法,包括亮度、對(duì)比度調(diào)節(jié)等。Wang等人[11]通過(guò)改變?cè)紙D像的亮度值來(lái)擴(kuò)大樣本數(shù)量,在一定程度上減弱了光照對(duì)表情識(shí)別產(chǎn)生的影響。

還有一些針對(duì)圖像局部區(qū)域的方法,例如通過(guò)局部遮蓋來(lái)模擬真實(shí)場(chǎng)景下圖像磨損或有遮蓋物的場(chǎng)景。Sun等人[12]提出了一種基于興趣區(qū)域的人工臉數(shù)據(jù)增強(qiáng)策略。人臉中眼睛、嘴巴、鼻子和下巴在表情識(shí)別中占較大比重,研究人員將這些區(qū)域劃分為興趣區(qū)域。他們通過(guò)將某張臉的興趣區(qū)域替換為另一張臉的對(duì)應(yīng)部分來(lái)生成新的人臉圖像。

此外,在圖像上添加噪聲也是一種常見(jiàn)的方法。這些方法通過(guò)對(duì)原始圖像的空間變換、像素值變換,在保持語(yǔ)義不變的前提下生成多種環(huán)境下的樣本,從而擴(kuò)充數(shù)據(jù)集的數(shù)量。然而這些工作往往將所有類別同比例擴(kuò)大,并不能很好地處理數(shù)據(jù)量不平衡的問(wèn)題。針對(duì)這一問(wèn)題,通常會(huì)對(duì)數(shù)據(jù)量多的樣本集進(jìn)行欠采樣,對(duì)數(shù)據(jù)量小的樣本集進(jìn)行樣本擴(kuò)充。Joe等人從目標(biāo)函數(shù)的角度來(lái)緩解數(shù)據(jù)量不平衡,他們?cè)谟?jì)算分類誤差時(shí)對(duì)不同類別賦予不同的權(quán)值,樣本少的權(quán)值大,使得網(wǎng)絡(luò)更關(guān)注樣本少的類別。

2.2 生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)是Goodfellow在2014年提出的一種深度生成模型[13],其結(jié)構(gòu)如圖1所示。模型分為兩部分:生成器和判別器。判別器用以區(qū)分真實(shí)樣本和假樣本(生成樣本),而生成器接收一個(gè)隨機(jī)噪聲作為輸入,并生成與真實(shí)樣本難以區(qū)分的假樣本。

圖1 GAN模型結(jié)構(gòu)

在GAN中,定義值V來(lái)衡量真實(shí)樣本和生成樣本之間的差異[13],如式(1)所示。

當(dāng)Pdata=PG時(shí),取得最優(yōu)解。

自GAN面世以來(lái),很多研究人員在此基礎(chǔ)上提出了改進(jìn)。Arjovsky等提出了WGAN-GP,通過(guò)Earth-Moverh和梯度懲罰使得GAN網(wǎng)絡(luò)的學(xué)習(xí)變得更加穩(wěn)定[14]。CGAN在GAN模型中引入類別信息c,使其能夠生成特定標(biāo)簽下的圖像[15]。一些研究人員設(shè)想利用GAN實(shí)現(xiàn)圖像風(fēng)格遷移。Zhu等提出的CycleGAN能將一種風(fēng)格下的圖像轉(zhuǎn)為另一種風(fēng)格下的圖像[16]。但要將輸入圖像轉(zhuǎn)為多個(gè)風(fēng)格下的圖像,CycleGAN需要訓(xùn)練多個(gè)模型。Choi等結(jié)合CycleGAN和CGAN提出了StarGAN,實(shí)現(xiàn)了多風(fēng)格圖像之間的轉(zhuǎn)換,僅由一個(gè)簡(jiǎn)單的生成器便可以生成多種風(fēng)格的圖像[17]。

人臉的不同表情便是不同的風(fēng)格,本文將StarGAN用于增強(qiáng)數(shù)據(jù)集,在StarGAN的基礎(chǔ)上,改進(jìn)重構(gòu)誤差。生成器采用深度可分離卷積進(jìn)行下采樣,實(shí)現(xiàn)多風(fēng)格人臉表情圖像的轉(zhuǎn)換。生成器接收人臉表情圖像和指定類別,生成同一個(gè)人指定類別下的面部表情圖像。

3 人臉圖像生成

3.1 數(shù)據(jù)預(yù)處理

(1)人臉對(duì)齊。人臉對(duì)齊是人臉識(shí)別任務(wù)中一種非常有效的手段,它可以減少由于旋轉(zhuǎn)、視覺(jué)角度等造成的一些干擾。人臉對(duì)齊之前要先進(jìn)行人臉關(guān)鍵點(diǎn)檢測(cè),因?yàn)閿?shù)據(jù)庫(kù)中已經(jīng)給出了人臉關(guān)鍵點(diǎn)信息,所以本文并不需要進(jìn)行人臉關(guān)鍵點(diǎn)檢測(cè)。為了不影響對(duì)齊之后圖像的細(xì)節(jié),本文使用了一個(gè)簡(jiǎn)單的策略:首先,分別計(jì)算兩只眼睛的中心位置。在CK+的關(guān)鍵點(diǎn)標(biāo)注信息中,點(diǎn)37~點(diǎn)42表示左眼,而點(diǎn)43~點(diǎn)48表示右眼。然后,計(jì)算穿過(guò)兩個(gè)中心的直線與水平線之間的夾角θ。最后,圍繞左眼順時(shí)針旋轉(zhuǎn)圖像θ度。

(2)圖像裁剪。將對(duì)齊之后的圖像進(jìn)行裁剪,用來(lái)去除對(duì)于表情識(shí)別不重要的背景信息。具體區(qū)域選取如下:將兩眼之間的距離定義為a;豎直方向以眼睛為中心,上下各取長(zhǎng)為2a的區(qū)域;水平方向由兩眼各向外取長(zhǎng)為1.5a的區(qū)域。這樣便選取到一塊4a×4a的矩形為裁剪區(qū)域。為了適應(yīng)網(wǎng)絡(luò)的輸入,將裁剪之后的圖像大小調(diào)整為256×256。圖2描述了對(duì)CK+數(shù)據(jù)進(jìn)行人臉對(duì)齊和圖像裁剪的過(guò)程。

圖2 圖像預(yù)處理示例

3.2 改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)

3.2.1 目標(biāo)函數(shù)

CGAN為了生成不同類別的圖像,在GAN的目標(biāo)函數(shù)中引入分類誤差;CycelGAN為了保證生成圖像和原圖像在內(nèi)容上的一致性,提出了重構(gòu)誤差;StarGAN將兩者結(jié)合起來(lái),提出了由對(duì)抗誤差、分類誤差和重構(gòu)誤差組成的新目標(biāo)函數(shù)[17]。本文在StarGAN的基礎(chǔ)上改進(jìn)了重構(gòu)誤差,具體介紹如下:

(1)對(duì)抗誤差,即原始GAN的誤差函數(shù):

其中,G為生成器,Dsrc(x)表示樣本x被識(shí)別為真實(shí)樣本的概率。

(2)分類誤差。對(duì)于給定的輸入圖像x和目標(biāo)類別標(biāo)簽c,本文的目標(biāo)是將x轉(zhuǎn)換為類別標(biāo)簽c下的輸出圖像G(x,c)。參照CGAN和StarGAN,在判別器D之上添加一個(gè)輔助分類器,分類器與判別器共用一個(gè)網(wǎng)絡(luò),但輸出不同[15]。本文使用真實(shí)樣本的分類誤差優(yōu)化判別器D,生成樣本的分類誤差優(yōu)化生成器G。將判別器的分類誤差定義為:

其中,c'表示真實(shí)樣本x的類別標(biāo)簽,Dcls(c'|x)表示真實(shí)樣本x屬于類別c'的概率。通過(guò)最小化該目標(biāo),判別器D學(xué)習(xí)將真實(shí)樣本x分類為其對(duì)應(yīng)的標(biāo)簽c'。另一方面,生成樣本的分類損失函數(shù)被定義為:

生成器G試圖生成類別c下的樣本,從而使得該值盡可能得小。

(3)將圖像拆分為風(fēng)格和內(nèi)容兩部分,重構(gòu)誤差用來(lái)描述生成圖像與原圖在內(nèi)容上的差異。將一張笑臉轉(zhuǎn)為哭臉時(shí),需要保證它們是同一個(gè)人的不同表情,因此要求這個(gè)誤差盡可能得小。將生成的目標(biāo)圖像G(x,c)再次轉(zhuǎn)成原類別c'下的圖像,即G(G(x,c),c'),重構(gòu)誤差為原始圖像x與二次生成圖像G(G(x,c),c')二者之間的差異。StarGAN中用兩圖像像素值之差的均值計(jì)算重構(gòu)誤差,公式為:

重構(gòu)誤差實(shí)質(zhì)上是計(jì)算二次生成圖像相較于原圖像的保真度。式(6)的缺點(diǎn)在于,圖像整體發(fā)生細(xì)微變化和局部發(fā)生巨大變化時(shí)計(jì)算出的值可能相差無(wú)幾。這就導(dǎo)致有些生成的圖像在重要的局部區(qū)域存在缺陷而實(shí)際的重構(gòu)誤差并不大,例如嘴巴、鼻子這些關(guān)鍵區(qū)域。圖像處理中,常用均方根誤差(Mean Squared Error,MSE)、峰值信噪比(Peak Signal to Noise Ratio,PSNR)、均方根信噪比(Signal to Noise Ratio,SNR)等來(lái)衡量?jī)煞鶊D像的相似度。原圖像與二次生成圖像的均方根誤差、峰值信噪比和均方根信噪比公式分別為:

其中,n為圖像像素值的個(gè)數(shù),為一常數(shù);MAX為圖像像素的最大值與最小值之差,本文將圖像像素值映射到[-1,1],MAX取值為2;||x||2指x的L2范數(shù)。當(dāng)兩幅圖像的誤差變大時(shí),MSE變大,而PSNR和SNR均減小。但將PSNR和SNR對(duì)數(shù)內(nèi)的值取倒數(shù)會(huì)導(dǎo)致誤差值為負(fù)數(shù),不符合本文對(duì)誤差的要求;對(duì)整體取倒數(shù)會(huì)導(dǎo)致誤差值很小,不方便計(jì)算。因此考慮PSNR和SNR的非對(duì)數(shù)形式,并取倒數(shù):

由于MAX為一確定的常數(shù),PSNR'與MSE本質(zhì)上并沒(méi)有區(qū)別,而SNR'需要計(jì)算||x||2,計(jì)算量較大。最終本文使用均方根誤差來(lái)計(jì)算重構(gòu)誤差,公式為:

其優(yōu)勢(shì)如圖3所示,用3×3的矩陣來(lái)模擬一張圖像,每個(gè)數(shù)值表示該點(diǎn)的像素值。圖3(b)中每個(gè)點(diǎn)的像素值相較于圖3(a)均加1,而圖3(c)僅有一點(diǎn)差距較大。當(dāng)采用原來(lái)的計(jì)算方法時(shí),圖3(b)和圖3(a)之間的誤差與圖3(c)和圖3(a)之間的誤差是一樣的,但顯然圖3(b)更接近于圖3(a)。當(dāng)采用本文方法時(shí),圖3(c)與圖3(a)的誤差要遠(yuǎn)遠(yuǎn)大于圖3(b)與圖3(a)的誤差。對(duì)于真實(shí)的生成圖像,圖3(b)可以看成與原圖像有很多細(xì)微不同,但整體十分相像的生成圖像,例如圖像整體稍暗、皺紋丟失、毛孔丟失等;圖3(c)可以理解為生成圖像絕大多數(shù)細(xì)節(jié)都非常接近原圖像但在關(guān)鍵位置上差距較大,例如嘴巴、眼睛等區(qū)域發(fā)生崩壞。在人臉表情識(shí)別任務(wù)中,嘴巴、眼睛這些關(guān)鍵區(qū)域?qū)τ谧R(shí)別的影響非常大,如果這些位置出現(xiàn)差錯(cuò),會(huì)對(duì)表情識(shí)別造成干擾,因此更青睞于類似圖3(b)的生成圖像。

圖3 原圖像與生成圖像的抽象

最終的優(yōu)化目標(biāo)為三個(gè)誤差的綜合,判別器的損失函數(shù)為:

當(dāng)判別器非常容易區(qū)分真假樣本并將真實(shí)樣本正確分類時(shí),-Ladv和Lrcls都會(huì)減小,該誤差會(huì)越來(lái)越小直至取最小值。生成器的損失函數(shù)為:

當(dāng)生成器生成的樣本能夠以假亂真,被正確分類,且與原樣本是同一個(gè)人時(shí),Ladv和Lrec都會(huì)減小,該誤差會(huì)越來(lái)越小直至取最小值。其中λcls和λrec為正數(shù),分別是分類誤差和重構(gòu)誤差的系數(shù),取值為10時(shí),生成圖像的效果較好。

3.2.2 訓(xùn)練過(guò)程

本文的訓(xùn)練過(guò)程如圖4所示。

圖4 模型的訓(xùn)練過(guò)程

對(duì)于獲取的每個(gè)batch的真實(shí)圖像x和對(duì)應(yīng)的標(biāo)簽c',具體的訓(xùn)練過(guò)程如下:

(1)隨機(jī)生成標(biāo)簽c;

(2)由真實(shí)圖像x和標(biāo)簽c得到生成圖像x';

(3)將真實(shí)圖像x輸入判別網(wǎng)絡(luò)得到真實(shí)圖像的對(duì)抗誤差xadv和分類誤差,將生成圖像x'輸入判別網(wǎng)絡(luò)得到生成數(shù)據(jù)的對(duì)抗誤差x'adv和分類誤差

(4)計(jì)算判別器對(duì)應(yīng)的對(duì)抗誤差Ladv=xadv+x'adv;

(5)固定生成器參數(shù),依據(jù)式(13),更新判別器參數(shù);

(6)判別器每更新k次,執(zhí)行下述過(guò)程;

(7)執(zhí)行(2)和(3);

(8)計(jì)算生成器對(duì)應(yīng)的對(duì)抗誤差Ladv=-x'adv;

(9)由生成圖像x'和真實(shí)標(biāo)簽c'得到重構(gòu)圖像x'',并計(jì)算真實(shí)圖像x和重構(gòu)圖像x''的重構(gòu)誤差Lrec;

(10)固定判別器參數(shù),依據(jù)式(14)更新生成器參數(shù)。其中,k是可控變量,當(dāng)使用WGAN-GP的對(duì)抗誤差時(shí),常取值為5。

生成器的輸入包含兩部分:圖像和需要轉(zhuǎn)換的類別。本文采用深度可分離卷積[18]對(duì)這兩個(gè)信息進(jìn)行下采樣來(lái)將類別標(biāo)簽和圖像信息融合,具體策略如下:設(shè)輸入RGB圖像x(h,w,3)和類別的one-hot標(biāo)簽d(1,c),通過(guò)填滿d的值將d的維度擴(kuò)充為(h,w,c),合并兩者為(h,w,3+c),采用深度可分離卷積代替常用的卷積操作,對(duì)合并之后的數(shù)據(jù)進(jìn)行下采樣。深度可分離卷積先利用3+c個(gè)不同的卷積核分別計(jì)算3+c個(gè)特征圖內(nèi)部的信息,再通過(guò)n個(gè)1×1的卷積核將這3+c個(gè)信息融合到一起,得到n個(gè)特征圖。這樣做不僅減少了參數(shù)的數(shù)量,更符合人們對(duì)圖像信息和類別信息融合的認(rèn)知。

生成器的輸入是待轉(zhuǎn)換的圖像和類別,輸出是轉(zhuǎn)換之后的圖像。生成器由3個(gè)深度可分離卷積、6個(gè)殘差塊(Basic Residual Blocks)[19]和2個(gè)轉(zhuǎn)置卷積組成,輸出采用反曲函數(shù)Tanh。深度可分離卷積用于下采樣,轉(zhuǎn)置卷積用于上采樣。判別器有7個(gè)卷積層,采用全局最大值池化代替全連接層,為全卷積神經(jīng)網(wǎng)絡(luò)。判別器與類別分類器共用一個(gè)網(wǎng)絡(luò),但包含兩個(gè)輸出:對(duì)抗標(biāo)簽和分類標(biāo)簽。

本文采用了一些訓(xùn)練GAN的常用技巧:使用WGANGP的對(duì)抗誤差以穩(wěn)定訓(xùn)練過(guò)程;生成器采用實(shí)例標(biāo)準(zhǔn)化(Instance Normalization),而判別器沒(méi)有使用任何標(biāo)準(zhǔn)化操作;對(duì)于判別網(wǎng)絡(luò)使用leakyReLU代替ReLU。

4 實(shí)驗(yàn)結(jié)果與分析

本文的實(shí)驗(yàn)是基于深度學(xué)習(xí)框架pytorch實(shí)現(xiàn)的,采用的編程語(yǔ)言是python,操作系統(tǒng)為ubuntu16.04,GPU為T(mén)ITAN Xp。

本文采用了標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)The extended Cohn-Kanade Database(CK+)[6]:CK+數(shù)據(jù)庫(kù)使用8種表情來(lái)構(gòu)建表情庫(kù),包括自然(neutral)、憤怒(anger)、蔑視(contempt)、厭惡(disgust)、恐懼(fear)、快樂(lè)(happy)、悲傷(sadness)和驚訝(surprise),包含123個(gè)參與者的593個(gè)視頻序列,其中標(biāo)注了327個(gè)序列。每個(gè)序列有10~30幀來(lái)描述參與者從自然狀態(tài)到最具表現(xiàn)力狀態(tài)的變化過(guò)程。每一幀都有一個(gè)名為landmarks的描述文件,用于記錄面部關(guān)鍵點(diǎn)信息。在本文的實(shí)驗(yàn)中,選擇每個(gè)序列的第一幀表示自然樣本,最后兩幀表示對(duì)應(yīng)情感樣本。樣本總量為981,按照3∶1∶1的比例分為3組(訓(xùn)練、驗(yàn)證和測(cè)試),相同人的不同表情圖像在同一組中。

4.1 生成圖像對(duì)比

為了驗(yàn)證本文改進(jìn)方法的有效性,對(duì)比了原Star-GAN和改進(jìn)StarGAN在CK+上生成的數(shù)據(jù),如圖5所示。圖5(a)是CK+中原有的圖像,共5種表情;圖5(b)是StarGAN由自然表情生成其他表情的一系列圖像;圖5(c)是改進(jìn)之后的StarGAN由自然表情生成其他表情的一系列圖像。可以看出,圖5(b)相比于圖5(c)在臉部的一些細(xì)節(jié)上更豐富,但在關(guān)鍵位置上顯得有些突兀,例如快樂(lè)和驚訝圖像的嘴巴區(qū)域,這與本文改進(jìn)重構(gòu)誤差的目標(biāo)一致。當(dāng)將一張人臉圖像從一種表情轉(zhuǎn)為另一種表情的時(shí)候,真正變化較大的其實(shí)就是嘴巴、鼻子、眼睛等關(guān)鍵區(qū)域,對(duì)于圖像的大多數(shù)內(nèi)容并沒(méi)有發(fā)生太多改變。本文的方法適用于局部區(qū)域變化較大的圖像生成任務(wù),而CycleGAN和StarGAN中使用的方法更適合于整體變化較大的風(fēng)格遷移任務(wù),例如將一幅畫(huà)由寫(xiě)實(shí)畫(huà)風(fēng)變?yōu)槌橄螽?huà)風(fēng)。

圖5 StarGAN與改進(jìn)StarGAN生成的圖像

在圖像數(shù)據(jù)增強(qiáng)方面,有一些常用的簡(jiǎn)單方法,例如遮蓋、裁剪、旋轉(zhuǎn)、水平翻轉(zhuǎn)、高斯濾波等,這些方法被稱為傳統(tǒng)方法。圖6展示了一些常用方法的處理結(jié)果,包括中心截取、左遮蓋1/3、逆時(shí)針旋轉(zhuǎn)5°、引入高斯噪聲、引入運(yùn)動(dòng)模糊。

圖6 傳統(tǒng)圖像增強(qiáng)方案

將上述5種變換用于擴(kuò)充CK+的訓(xùn)練集,并與本文方法進(jìn)行比較。基于改進(jìn)StarGAN的數(shù)據(jù)增強(qiáng)方法具體操作是:由于在挑選CK+數(shù)據(jù)時(shí),選取了每個(gè)人自然表情下的圖像,因此以每個(gè)人自然狀態(tài)為基準(zhǔn),分別生成其他類別下的圖像。生成的圖像如圖7所示。

圖7 改進(jìn)StarGAN數(shù)據(jù)增強(qiáng)示例

與圖6相比,本文的數(shù)據(jù)增強(qiáng)方法更具有多樣性:本文方法不是在一個(gè)域內(nèi)擴(kuò)充圖像,而是由一個(gè)域的圖像生成其他域的配對(duì)圖像,對(duì)處理數(shù)據(jù)量不平衡的數(shù)據(jù)庫(kù)有很大的借鑒作用。由于卷積神經(jīng)網(wǎng)絡(luò)具有一定的平移不變性、旋轉(zhuǎn)不變性和尺寸不變性,采用平移、截取和輕微旋轉(zhuǎn)時(shí),部分?jǐn)U充圖像與原圖像得到的特征值可能相同,僅是對(duì)原圖像的簡(jiǎn)單復(fù)制;過(guò)度遮蓋會(huì)造成表情特征的大量缺失;大角度旋轉(zhuǎn)已經(jīng)被證明不適應(yīng)于非對(duì)稱圖像增強(qiáng);模糊、引入噪聲都需要控制在一定的程度內(nèi),不能過(guò)度干擾表情特征。因此,傳統(tǒng)方法需要針對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行調(diào)整,其對(duì)深度模型的提升在同等數(shù)據(jù)量下略為遜色。深度模型具有很強(qiáng)的學(xué)習(xí)能力,由于不同的表情來(lái)源于不同的人,模型可能會(huì)學(xué)習(xí)到區(qū)分不同人的特征,導(dǎo)致同一個(gè)人的不同表情得到相同的結(jié)果。而本文方法產(chǎn)生的是配對(duì)型數(shù)據(jù),使得模型更關(guān)注于不同表情之間的差異,而不是不同人之間的差異。同樣是從語(yǔ)義上擴(kuò)充數(shù)據(jù),本文方法較Sun等[12]的方法實(shí)現(xiàn)更為容易。相較于基于采樣和目標(biāo)函數(shù)的數(shù)據(jù)量不平衡解決方法,本文方法能夠從根本上擴(kuò)充小類別的數(shù)據(jù)量。表1展示了CK+訓(xùn)練集應(yīng)用兩種數(shù)據(jù)增強(qiáng)方案之后的數(shù)據(jù)量。

表1 CK+訓(xùn)練集數(shù)據(jù)量

4.2 單數(shù)據(jù)庫(kù)實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文數(shù)據(jù)增強(qiáng)方法的有效性,分別對(duì)表1的3份訓(xùn)練集進(jìn)行訓(xùn)練,記錄驗(yàn)證集識(shí)別率,并在測(cè)試集上計(jì)算識(shí)別率。由于CK+的樣本數(shù)量較小,本文選擇了參數(shù)較少的Xception和mobilenet_v2進(jìn)行評(píng)估。為了加快訓(xùn)練速度,本文采用了微調(diào)技術(shù),同時(shí)也可以在一定程度上緩解網(wǎng)絡(luò)模型對(duì)大規(guī)模數(shù)據(jù)的依賴。

從表2可以看出,本文的數(shù)據(jù)增強(qiáng)方法能夠有效地提高模型的識(shí)別精度,與未增強(qiáng)的相比約有4%左右的提升,與傳統(tǒng)方法相比在mobilenet_v2上有更好的表現(xiàn)。然而,本文方法擴(kuò)充之后的數(shù)據(jù)量比傳統(tǒng)方法少很多,而Xception具有更多的參數(shù),對(duì)數(shù)據(jù)量的要求更高,因此本文方法在Xception上的表現(xiàn)比傳統(tǒng)方法略差一點(diǎn)。考慮到本文數(shù)據(jù)增強(qiáng)方法對(duì)比傳統(tǒng)方法在CK+上擴(kuò)充的數(shù)據(jù)不多,實(shí)際操作中可將本文方法與傳統(tǒng)方法相結(jié)合來(lái)獲取更多的生成樣本。從實(shí)現(xiàn)成本來(lái)看,本文方法需要事先訓(xùn)練一個(gè)GAN模型,在本文的硬件環(huán)境下大約需要訓(xùn)練26 h才能達(dá)到預(yù)期效果,調(diào)整輸入圖像大小和采用遷移學(xué)習(xí)進(jìn)行參數(shù)初始化,可以將訓(xùn)練時(shí)間控制在2 h以內(nèi)。與傳統(tǒng)方法相比,這無(wú)疑增加了很多工作量,然而配對(duì)型數(shù)據(jù)采集困難,與人工采集相比,本文方法極大地節(jié)約了人力成本。

表2 數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)結(jié)果對(duì)比(識(shí)別率)%

表3詳細(xì)記錄了本文方法和傳統(tǒng)方法在mobilenet_v2模型上的表現(xiàn)。可以看出,本文方法在原始數(shù)據(jù)量較小的蔑視和悲傷類別上比傳統(tǒng)方法有較好的表現(xiàn)。由此可知,本文的數(shù)據(jù)增強(qiáng)方法可以適用于一些數(shù)據(jù)量不平衡的數(shù)據(jù)庫(kù)。

表3 mobilenet_v2上各類別識(shí)別率 %

4.3 跨數(shù)據(jù)庫(kù)實(shí)驗(yàn)

盡管從表2中可以看出,由于采用了一些防止過(guò)擬合的手段,本文訓(xùn)練的模型并沒(méi)有對(duì)訓(xùn)練集過(guò)擬合。但測(cè)試集的樣本與訓(xùn)練集的樣本實(shí)際來(lái)自于同一分布(數(shù)據(jù)庫(kù)),這就導(dǎo)致模型可能已經(jīng)對(duì)這一分布(數(shù)據(jù)庫(kù))過(guò)擬合。實(shí)際應(yīng)用中,往往會(huì)進(jìn)行跨數(shù)據(jù)庫(kù)訓(xùn)練:訓(xùn)練集來(lái)自于樣本多的數(shù)據(jù)庫(kù),而驗(yàn)證集和測(cè)試集來(lái)自于同一分布(樣本少的數(shù)據(jù)庫(kù)或兩個(gè)數(shù)據(jù)庫(kù)的混合)。

本文使用CK+和JAFFE數(shù)據(jù)庫(kù)進(jìn)行跨數(shù)據(jù)庫(kù)實(shí)驗(yàn)。JAFFE數(shù)據(jù)庫(kù)包含了10位日本女性7種表情(自然、憤怒、厭惡、恐懼、快樂(lè)、悲傷和驚訝)下的圖像,每個(gè)人每種表情大約3張,共213張圖像。與CK+相比,JAFFE缺少蔑視標(biāo)簽[7]。由于JAFFE數(shù)據(jù)量較小,本文簡(jiǎn)化了跨數(shù)據(jù)庫(kù)實(shí)驗(yàn),將JAFFE數(shù)據(jù)庫(kù)作為測(cè)試集,使用訓(xùn)練好的mobilenet_v2進(jìn)行測(cè)試。

從表4中可以看出,由于CK+的數(shù)據(jù)多為歐美人而JAFFE的數(shù)據(jù)為亞洲人,CK+上訓(xùn)練好的模型在JAFFE上的表現(xiàn)并不理想,但基于改進(jìn)StarGAN的數(shù)據(jù)增強(qiáng)方法比傳統(tǒng)方法的跨數(shù)據(jù)庫(kù)識(shí)別率更高,這說(shuō)明了本文方法能在一定程度上提高模型的泛化能力。傳統(tǒng)方法更多的是通過(guò)模擬多種場(chǎng)景來(lái)提高模型的泛化能力。而本文方法是從語(yǔ)義層次上擴(kuò)大數(shù)據(jù)量,從而使得模型更關(guān)注語(yǔ)義特征。

表4 跨數(shù)據(jù)庫(kù)實(shí)驗(yàn)對(duì)比(識(shí)別率) %

4.4 與其他方法對(duì)比

上述實(shí)驗(yàn)已經(jīng)驗(yàn)證了本文數(shù)據(jù)增強(qiáng)方法的有效性,本文最后對(duì)比了近期其他方法在CK+數(shù)據(jù)集以及跨數(shù)據(jù)集實(shí)驗(yàn)的結(jié)果,如表5所示。

表5 與其他方法實(shí)驗(yàn)結(jié)果對(duì)比(識(shí)別率)%

目前針對(duì)CK+數(shù)據(jù)集,研究重點(diǎn)多為網(wǎng)絡(luò)模型結(jié)構(gòu),采用的數(shù)據(jù)增強(qiáng)方案多為傳統(tǒng)方案。本文利用改進(jìn)后的StarGAN進(jìn)行數(shù)據(jù)增強(qiáng),將mobilenet_v2作為識(shí)別模型,與近期方法進(jìn)行比較。CK+/JAFFE表示在CK+上進(jìn)行訓(xùn)練,在JAFFE上進(jìn)行測(cè)試。Lopes等設(shè)計(jì)一套完整的人臉表情識(shí)別系統(tǒng),除了數(shù)據(jù)增強(qiáng)外還對(duì)面部區(qū)域進(jìn)行調(diào)整,并嘗試多種歸一化處理。第2種方法和第3種方法都是采用人工臉進(jìn)行數(shù)據(jù)增強(qiáng),但第3種方法將興趣區(qū)域作為額外輸入,輔助判斷識(shí)別結(jié)果,識(shí)別率有很大的提高。文獻(xiàn)[20]同樣采用傳統(tǒng)方法,包括平移、水平翻轉(zhuǎn)、旋轉(zhuǎn)、縮放和亮度調(diào)節(jié)。從表中可以看出,盡管本文并沒(méi)有對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,但仍具有較高的識(shí)別率和泛化能力。人臉表情識(shí)別的精度不僅與數(shù)據(jù)增強(qiáng)的方法有關(guān),還受模型結(jié)構(gòu)、參數(shù)初始化方法、圖像預(yù)處理、訓(xùn)練方法、是否引入先驗(yàn)知識(shí)等因素的影響,這也是今后的研究重點(diǎn)。

5 結(jié)束語(yǔ)

本文利用改進(jìn)的StarGAN,由某一表情下人臉圖像生成其他表情下的配對(duì)圖像,從語(yǔ)義層次上擴(kuò)大數(shù)據(jù)集。在CK+和JAFFE數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)表明,本文方法能夠有效解決小樣本數(shù)據(jù)庫(kù)的過(guò)擬合問(wèn)題,提高模型的識(shí)別率;與傳統(tǒng)方法相比,本文方法使得模型更關(guān)注語(yǔ)義特征,能在一定程度上提高模型的泛化能力。同時(shí),本文方法對(duì)解決數(shù)據(jù)量不平衡問(wèn)題也有一定的借鑒作用。

猜你喜歡
數(shù)據(jù)庫(kù)方法
學(xué)習(xí)方法
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
可能是方法不對(duì)
數(shù)據(jù)庫(kù)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
主站蜘蛛池模板: 国产农村1级毛片| 色偷偷男人的天堂亚洲av| 99在线观看国产| 91偷拍一区| 日韩欧美在线观看| 国产剧情伊人| 性欧美久久| 亚洲国产欧美国产综合久久| 国产欧美在线观看一区| 国产一级毛片在线| 91视频国产高清| 丰满人妻中出白浆| 视频一区视频二区日韩专区| 天天躁夜夜躁狠狠躁图片| 国产综合精品日本亚洲777| 亚洲一区黄色| 一级做a爰片久久免费| 日韩不卡高清视频| 毛片网站在线播放| 欧洲亚洲欧美国产日本高清| 美女视频黄频a免费高清不卡| 啪啪国产视频| a级毛片免费看| 国产剧情国内精品原创| 亚洲AV无码久久天堂| 国产无遮挡猛进猛出免费软件| 亚洲妓女综合网995久久| 青青草一区二区免费精品| 亚洲欧洲日韩综合| 91热爆在线| 先锋资源久久| 国产永久在线观看| 国产在线无码av完整版在线观看| 一级毛片在线播放免费观看| 青青青亚洲精品国产| 国产成人综合久久| 五月婷婷丁香综合| 人妻中文久热无码丝袜| 精品综合久久久久久97| 国产人人乐人人爱| 久久综合色播五月男人的天堂| 国产精品成人观看视频国产 | 福利一区在线| 二级毛片免费观看全程| 激情无码字幕综合| 欧美精品黑人粗大| 激情综合五月网| 成人蜜桃网| 国产一线在线| 成人免费网站在线观看| a免费毛片在线播放| 四虎影院国产| 亚洲成人免费在线| 久久特级毛片| 小说 亚洲 无码 精品| 毛片网站观看| 99青青青精品视频在线| 亚洲精品在线观看91| 亚欧成人无码AV在线播放| 亚洲AⅤ综合在线欧美一区 | 免费又黄又爽又猛大片午夜| 亚洲成人一区在线| 国产无码精品在线播放| 免费人成视频在线观看网站| 欧美日韩免费观看| 日韩专区欧美| 91网站国产| 手机看片1024久久精品你懂的| 中文字幕资源站| 国产区福利小视频在线观看尤物| 免费在线色| 在线中文字幕网| 亚洲午夜18| 亚洲天堂网2014| 熟女日韩精品2区| 超薄丝袜足j国产在线视频| 国产成年女人特黄特色毛片免| 欧美亚洲一二三区| 久热中文字幕在线| 天堂网亚洲系列亚洲系列| 午夜精品一区二区蜜桃| 国产精品yjizz视频网一二区|