周偉,付曉峰,常耀中
深度學(xué)習(xí)在情感識(shí)別上的研究
周偉,付曉峰,常耀中
(杭州電子科技大學(xué),浙江 杭州 310018)
針對(duì)現(xiàn)有情感分析算法在處理大量的人臉數(shù)據(jù)時(shí)未能展現(xiàn)良好魯棒性的問題,提出一種新的情感識(shí)別方法。提出Z-libface人臉檢測(cè)器,并設(shè)計(jì)出一種新的卷積神經(jīng)網(wǎng)絡(luò)模型RT-CNN,同時(shí)使用大型表情數(shù)據(jù)集fer2013以及改良后的FER+,訓(xùn)練出一個(gè)比較好的模型。使用提出的卷積神經(jīng)網(wǎng)絡(luò)RT-CNN在fer2013、FER+兩個(gè)表情數(shù)據(jù)集上進(jìn)行10倍交叉驗(yàn)證,取10次驗(yàn)證準(zhǔn)確率的平均值,在fer2013及FER+上取得了66.72%與80.02%的準(zhǔn)確率。
Z-libaface人臉檢測(cè);fer2013數(shù)據(jù)集;FER+數(shù)據(jù)集;深度學(xué)習(xí)
情感是人類心理感受的一種重要特征[1],在人們的交流中起著非常重要的作用。情感識(shí)別就是利用計(jì)算機(jī)進(jìn)行人類情感圖像的獲取、情感圖像的預(yù)處理、情感特征的提取和情感分類的過程,它通過計(jì)算機(jī)分析人的情感信息,從而推斷人的心理狀態(tài),最后實(shí)現(xiàn)人機(jī)之間的智能交互。
最近關(guān)于人臉情感識(shí)別的研究大多基于深度學(xué)習(xí)。在大多數(shù)情況下,CNN的訓(xùn)練依賴大量的數(shù)據(jù),在模型訓(xùn)練中,樣本的大小會(huì)直接影響模型和網(wǎng)絡(luò),當(dāng)樣本有限時(shí),模型很容易發(fā)生過擬合現(xiàn)象。因此本文直接使用數(shù)據(jù)量較大的fer2013數(shù)據(jù)集以及其改良后的FER+數(shù)據(jù)集。
本文的主要貢獻(xiàn)如下:提出Z-libface人臉檢測(cè)器;利用FER+對(duì)fer2013數(shù)據(jù)集進(jìn)行改良和優(yōu)化,提高約14%的準(zhǔn)確率;提出RT-CNN模型,在fer2013、FER+數(shù)據(jù)集上取得較好的效果。
目前的人臉檢測(cè)器[2]主要有Opencv自帶的Haar檢測(cè)器、Dlib人臉檢測(cè)器、libface人臉檢測(cè)器等。
本文提出的Z-libface人臉檢測(cè)器是在libface人臉檢測(cè)器的基礎(chǔ)上進(jìn)行改良得到的,經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),libface人臉檢測(cè)器有如下缺陷:當(dāng)人臉是側(cè)臉時(shí),截取區(qū)域不當(dāng),最后得到的人臉截取圖片有近1/5的空白區(qū)域。
針對(duì)libface人臉檢測(cè)器的缺陷,本文利用該檢測(cè)器檢測(cè)人臉時(shí)提供的信息包括人臉68個(gè)特征點(diǎn)的坐標(biāo)、截取矩形框左上角的橫坐標(biāo)、截取矩形框?qū)挕⑷四樧笥移D(zhuǎn)時(shí)人臉偏轉(zhuǎn)的角度。按照opencv的規(guī)則,圖片左上角為坐標(biāo)原點(diǎn),順時(shí)針旋轉(zhuǎn)為負(fù),逆時(shí)針旋轉(zhuǎn)為正,當(dāng)人臉向左偏轉(zhuǎn)時(shí)為正,向右偏轉(zhuǎn)時(shí)為負(fù)。

本文設(shè)計(jì)出一種新的卷積神經(jīng)網(wǎng)絡(luò)模型RT-CNN,其網(wǎng)絡(luò)模型結(jié)構(gòu)以及參數(shù)設(shè)置如表1所示。在輸入層之后加入1*1的卷積層使輸入增加非線性的表示、加深了網(wǎng)絡(luò)、提升了模型的表達(dá)能力,同時(shí)基本不增加計(jì)算量。為了防止過擬合問題,在最后兩個(gè)全連接層中,把全連接層之間的連接隨機(jī)丟棄50%,在卷積層3、4、5中分別進(jìn)行2層、1層、2層全零填充,保證輸出特征圖的長(zhǎng)寬不變。
表1 RT-CNN模型結(jié)構(gòu)及參數(shù)設(shè)置
種類核步長(zhǎng)輸出丟棄 輸入 48*48*1 卷積層11*1148*48*32 卷積層21*1148*48*32 卷積層35*5148*48*32 池化層13*3223*23*32 卷積層43*3123*23*32 池化層23*3211*11*32 卷積層55*5111*11*64 池化層33*325*5*64 全連接層1 1*1*2 04850% 全連接層2 1*1*1 02450% 輸出 1*1*7
在fer2013數(shù)據(jù)集中有一些圖像是黑白圖,同時(shí)有很多的圖片情感標(biāo)注并不準(zhǔn)確,這些情況對(duì)訓(xùn)練造成很大的干擾,有國(guó)外學(xué)者對(duì)fer2013數(shù)據(jù)集進(jìn)行重新標(biāo)簽化,數(shù)據(jù)集叫FER+,圖片順序與fer2013相對(duì)應(yīng)。把錯(cuò)誤的標(biāo)簽改成正確的標(biāo)簽,剔除了fer2013數(shù)據(jù)集中的黑白圖。
為了保證實(shí)驗(yàn)結(jié)果的有效性,本次實(shí)驗(yàn)采取了10倍交叉驗(yàn)證。將fer2013數(shù)據(jù)集平均分為10組。每次選取其中的9組作為訓(xùn)練集,另外1組作為驗(yàn)證集,進(jìn)行10次實(shí)驗(yàn),最后取10個(gè)結(jié)果的均值作為最終的準(zhǔn)確率。這樣保證了每個(gè)樣本都可以作為驗(yàn)證集和訓(xùn)練集。對(duì)FER+數(shù)據(jù)集進(jìn)行了同樣的處理,本文模型與其他模型在fer2013數(shù)據(jù)集上識(shí)別率對(duì)比的結(jié)果如表2所示。
表2 本文模型與其他模型在fer2013數(shù)據(jù)集上識(shí)別率對(duì)比結(jié)果
名次模型準(zhǔn)確率/(%) 1RBM71.16 2Unsupevised69.26 3Maxim Milakov68.82 4Radu+marius+Cristi67.49 5本文模型66.72 ……… 10sayit62.19
在實(shí)驗(yàn)過程中,各參數(shù)保持不變,當(dāng)訓(xùn)練集設(shè)置為fer2013改良后的FER+時(shí),最后的訓(xùn)練準(zhǔn)確率為83.30%,驗(yàn)證準(zhǔn)確率為80.02%。相比在fer2013數(shù)據(jù)集上識(shí)別率66.72%而言,本文模型在改良后的fer2013數(shù)據(jù)集 FER+上,訓(xùn)練集和驗(yàn)證集準(zhǔn)確率提升約14%。
本文針對(duì)人臉檢測(cè),提出性能更加高效的Z-libface人臉檢測(cè)器。其次,提出一種新的人臉情感識(shí)別算法在fer2013數(shù)據(jù)集上取得了66.72%的識(shí)別率,并同時(shí)利用新的分類規(guī)則對(duì)fer2013數(shù)據(jù)集進(jìn)行優(yōu)化得到FER+數(shù)據(jù)集,本文算法在FER+數(shù)據(jù)集上取得了80.02%的識(shí)別率,在很大程度上改善了識(shí)別效果。雖然取得了一定的成果,但還存在一些問題,比如識(shí)別率有待進(jìn)一步提高等。在接下來(lái)的工作中會(huì)繼續(xù)探索人臉檢測(cè)器的增強(qiáng)、網(wǎng)絡(luò)結(jié)構(gòu)以及參數(shù)的設(shè)置等。
[1]劉錦峰.基于卷積神經(jīng)網(wǎng)絡(luò)的學(xué)生課堂面部表情識(shí)別研究[J].高教學(xué)刊,2020(7):67-69.
[2]汪欣,吳薇,曾照.基于視頻的人臉檢測(cè)算法研究[J].電子科技,2020,33(2):25-31.
2095-6835(2021)06-0097-02
TP18;TP391.41
A
10.15913/j.cnki.kjycx.2021.06.036
周偉(1998—),男,本科,研究方向?yàn)槿斯ぶ悄堋⒂?jì)算機(jī)視覺、圖像處理。付曉峰(1981—),女,博士,副教授,研究方向?yàn)槿斯ぶ悄堋⒂?jì)算機(jī)視覺、圖像處理。常耀中(1997—),男,本科,研究方向?yàn)槿斯ぶ悄堋⒂?jì)算機(jī)視覺、知識(shí)圖譜。
〔編輯:嚴(yán)麗琴〕