結(jié)合改進(jìn)VGGNet和Focal Loss的人臉表情識(shí)別

2021-10-14 06:34:24崔子越皮家甜楊杰之吳至友趙立軍曾紹華

計(jì)算機(jī)工程與應(yīng)用 2021年19期

關(guān)鍵詞：實(shí)驗(yàn)模型

崔子越，皮家甜，陳勇，楊杰之，鮮焱，吳至友，趙立軍，曾紹華，呂佳

1.重慶師范大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院，重慶 401331

2.重慶市數(shù)字農(nóng)業(yè)服務(wù)工程技術(shù)研究中心（重慶師范大學(xué)），重慶 401331

3.智慧金融與大數(shù)據(jù)分析重慶市重點(diǎn)實(shí)驗(yàn)室（重慶師范大學(xué)），重慶 401331

4.重慶師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院，重慶 401331

隨著計(jì)算機(jī)圖像處理技術(shù)日益的完善，人臉表情識(shí)別逐漸成為計(jì)算機(jī)圖像處理中重要的一部分，在人機(jī)交互、安全以及機(jī)器人制造等領(lǐng)域具有廣泛且必要的用途。通過面部表情的變化來獲取對(duì)象情感變化，是面部表情的主要交流方式。在實(shí)際采集表情數(shù)據(jù)集時(shí)，通常會(huì)由于光照變化、頭部姿勢、表情強(qiáng)度以及呈現(xiàn)方式等因素，造成表情樣本類內(nèi)表情差異大、類間表情差異小的問題，降低模型準(zhǔn)確性。因此，人臉表情識(shí)別依然面臨著巨大的挑戰(zhàn)。

表情識(shí)別的研究可以主要分為基于傳統(tǒng)特征提取的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)特征提取主要依賴人工設(shè)計(jì)的提取器，需要大量的專業(yè)知識(shí)，同時(shí)泛化性和魯棒性較深度學(xué)習(xí)方法略有不足。Gupta等人[1]使用SVM 的方法在CK+數(shù)據(jù)集上取得了93.7%的準(zhǔn)確性，相比深度學(xué)習(xí)方法準(zhǔn)確性較差。深度學(xué)習(xí)方法對(duì)特征的提取是通過反向傳播和誤差優(yōu)化算法對(duì)權(quán)重進(jìn)行更新迭代，在大量樣本學(xué)習(xí)過程中提取到更深層次、更抽象的特征。近年來，眾多學(xué)者將深度學(xué)習(xí)方法應(yīng)用于人臉表情識(shí)別當(dāng)中，并且取得了較好的效果。

2014 年，Simonyan 等人[2]提出了VGGNet 模型，探索了卷積神經(jīng)網(wǎng)絡(luò)的深度與其性能之間的關(guān)系，為深度卷積神經(jīng)網(wǎng)絡(luò)（Deep Convolutional Neural Network，DCNN）的發(fā)展奠定了基礎(chǔ)。在此基礎(chǔ)上，Duncand 等人[3]提出了VGG_S網(wǎng)絡(luò)模型用來進(jìn)行實(shí)時(shí)檢測，但是準(zhǔn)確率偏低。Zhang 等人[4]將表情圖像轉(zhuǎn)化為LBP 特征圖，再將LBP特征圖用作CNN的輸入進(jìn)行訓(xùn)練，取得了較好的效果，但是這會(huì)導(dǎo)致在未知環(huán)境下準(zhǔn)確率不高，魯棒性不足。Dhankhar 等人[5]利用ResNet-50 模型和VGG16 模型組合形成一個(gè)新的組合模型識(shí)別面部表情，在KDEF數(shù)據(jù)集上取得了較好的效果。為了提升表情識(shí)別的準(zhǔn)確率，增強(qiáng)訓(xùn)練模型的泛化性，本文在傳統(tǒng)VGGNet的基礎(chǔ)上對(duì)模型進(jìn)行了改進(jìn)，設(shè)計(jì)新的輸出模塊替換全連接層，再利用遷移學(xué)習(xí)進(jìn)行訓(xùn)練，改進(jìn)后的模型在CK+、JAFFE、FER2013數(shù)據(jù)集上進(jìn)行測試，準(zhǔn)確率和泛化性均有提升。

除了對(duì)基礎(chǔ)模型以及網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)之外，很多研究者還對(duì)損失函數(shù)進(jìn)行了研究與改進(jìn)。Hadsell等人[6]提出了Contrastive Loss損失函數(shù)，其目的是增大類間差異并且減少類內(nèi)差異。Schroff 等人[7]提出Triplet Loss損失函數(shù)，能夠更好地對(duì)細(xì)節(jié)進(jìn)行區(qū)分，但是Triplet Loss收斂速度慢，導(dǎo)致模型性能下降。Ko等人[8]提出中心損失函數(shù)Center Loss，讓樣本繞類內(nèi)中心均勻分布，最小化類內(nèi)差異，但計(jì)算效率太低。目前，常用的人臉表情數(shù)據(jù)集（CK+、JAFFE、FER2013）[9-11]中存在著樣本不平衡問題。樣本不平衡問題容易導(dǎo)致模型的訓(xùn)練出現(xiàn)過擬合，同時(shí)也會(huì)導(dǎo)致模型在不同類別上分類性能出現(xiàn)較大的差異。為了解決樣本之間不平衡問題，Lin 等人[12]提出Focal Loss 損失函數(shù)，通過聚焦參數(shù)γ 使模型更多的關(guān)注難分類樣本，提高模型分類性能，但并不能解決誤標(biāo)注樣本問題。本文在此基礎(chǔ)上，對(duì)Focal Loss進(jìn)行改進(jìn)并應(yīng)用于人臉表情識(shí)別中。針對(duì)Focal Loss 對(duì)于誤標(biāo)注樣本產(chǎn)生的誤分類問題，設(shè)置閾值對(duì)置信度進(jìn)行判別，將改進(jìn)的Focal Loss 分別在CK+、JAFFE、FER2013數(shù)據(jù)集上進(jìn)行多組實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，相比于傳統(tǒng)交叉熵?fù)p失函數(shù)，改進(jìn)的Focal Loss能夠?qū)⒛Ｐ偷臏?zhǔn)確率提升1～2 個(gè)百分點(diǎn)。使用改進(jìn)的Focal Loss，模型的分類能力更加均衡。

1 遷移學(xué)習(xí)及模型改進(jìn)

1.1 遷移學(xué)習(xí)

遷移學(xué)習(xí)從相關(guān)領(lǐng)域（源域）傳輸信息來提高一個(gè)領(lǐng)域（目標(biāo)域）的學(xué)習(xí)訓(xùn)練效率，在圖像處理領(lǐng)域被廣泛利用。源域的選擇是遷移學(xué)習(xí)的關(guān)鍵，預(yù)訓(xùn)練模型與目標(biāo)數(shù)據(jù)集關(guān)聯(lián)與相似性較高，則遷移學(xué)習(xí)效果較好。經(jīng)過實(shí)驗(yàn)分析，本文使用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的VGG16模型的權(quán)重文件。ImageNet數(shù)據(jù)集是一個(gè)龐大的自然圖像數(shù)據(jù)集，具有超過1 500 萬幅圖像和2 萬多個(gè)類別，遷移其權(quán)重將會(huì)提升本實(shí)驗(yàn)訓(xùn)練效率和準(zhǔn)確率。

1.2 改進(jìn)的VGGNet模型

在表情識(shí)別任務(wù)中，不同的類別間表情樣本具有很大的相似性和易混淆性，需要較多的卷積層對(duì)深層次、抽象的特征進(jìn)行提取。深層次的網(wǎng)絡(luò)模型如ResNet等人[13]，在面對(duì)樣本量較少的表情數(shù)據(jù)集時(shí)，由于層次過深容易導(dǎo)致參數(shù)量劇增，產(chǎn)生過擬合現(xiàn)象，并不能發(fā)揮出較好的識(shí)別效果。VGG16模型具有小卷積核和深層網(wǎng)絡(luò)兩個(gè)特點(diǎn)。模型中劃分了不同的塊，每一個(gè)塊內(nèi)包含若干卷積層和一個(gè)池化層，大量的卷積層使模型具有較好的特征提取能力。經(jīng)過實(shí)驗(yàn)對(duì)比，本文選擇經(jīng)典的VGG16 網(wǎng)絡(luò)模型并且對(duì)其進(jìn)行改進(jìn)，在充分提取特征的前提下，避免過擬合現(xiàn)象的發(fā)生。改進(jìn)的VGG16 網(wǎng)絡(luò)模型如圖1所示。

圖1 改進(jìn)的VGG16模型對(duì)比圖Fig.1 Comparison chart of improved VGG16 model

為了避免過擬合現(xiàn)象，增強(qiáng)模型泛化性，本文設(shè)計(jì)新的輸出模塊替換預(yù)訓(xùn)練模型的全連接模塊。輸出模塊如圖2所示。

圖2 輸出模塊流程圖Fig.2 Flow chart of output module

輸出模塊主要由改進(jìn)的深度可分離卷積和全局平均池化組成。深度可分離卷積層[14]可以進(jìn)一步提取特征，相比于普通卷積節(jié)省了大量參數(shù)，同時(shí)仍具有和普通卷積相當(dāng)?shù)奶卣魈崛∧芰Α榱朔乐固荻认В瑴p少參數(shù)之間的依存關(guān)系，緩解過擬合發(fā)生，深度可分離卷積在深度卷積和點(diǎn)卷積后都使用了ReLU 激活函數(shù)，ReLU定義如下：

本文對(duì)深度可分離卷積進(jìn)行改進(jìn)，將深度卷積中的ReLU 激活函數(shù)替換為Hard-Swish[15]激活函數(shù)。Hard-Swish激活函數(shù)公式為：

與ReLU 激活函數(shù)相比，Hard-Swish 激活函數(shù)具有更強(qiáng)的非線性能力。在深度可分離卷積中采用Hard-Swish激活函數(shù)，使得各通道的信息更好的保存下來，在訓(xùn)練過程中網(wǎng)絡(luò)模型具有更好的收斂能力。

為了進(jìn)一步緩解過擬合現(xiàn)象，本文采用全局平均池化層替換原本的全連接層，直接實(shí)現(xiàn)了降維，減少了網(wǎng)絡(luò)的參數(shù)量（CNN中占比最大的參數(shù)其實(shí)是最后的全連接層），在保證模型分類性能的同時(shí)，加快了訓(xùn)練速度。

用新設(shè)計(jì)的輸出模塊代替VGG16的全連接模塊構(gòu)成一個(gè)新的網(wǎng)絡(luò)模型，將已訓(xùn)練完成的卷積層權(quán)重與參數(shù)遷移到新的網(wǎng)絡(luò)模型中，利用表情樣本對(duì)新的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)證明，訓(xùn)練完成的新模型具有較好的表情識(shí)別效果。具體方法流程如圖3所示。

圖3 人臉表情識(shí)別方法結(jié)構(gòu)圖Fig.3 Structure diagram of facial expression recognition method

2 樣本不平衡問題與Focal Loss改進(jìn)

樣本不平衡是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)重要的問題，該問題會(huì)導(dǎo)致稀少樣本淹沒在較多的樣本中，降低稀少樣本的重要性。在實(shí)際分類問題中，多數(shù)樣本都是簡單易分的，而難分的樣本只占少數(shù)，簡單的樣本占據(jù)主導(dǎo)權(quán)。簡單樣本損失小，但數(shù)量多，對(duì)損失起了主要貢獻(xiàn)，難分類的樣本則容易被模型忽略。不平衡類別分布問題在真實(shí)世界的人臉表情收集過程中也很常見，例如，快樂這一表情很容易被捕捉，而厭惡表情則由于其微妙性以及難理解性更難被收集到。這些參雜不確定性的樣本參與訓(xùn)練往往會(huì)導(dǎo)致網(wǎng)絡(luò)過擬合、損害模型學(xué)習(xí)有用信息以及網(wǎng)絡(luò)在初期不收斂等問題。在FER2013 數(shù)據(jù)集中，數(shù)量最多的樣本與數(shù)量最少的樣本的數(shù)量比約為16∶1，如圖4 所示。對(duì)于表情識(shí)別任務(wù)來說，處理樣本不平衡問題，具有重大意義。

圖4 FER2013數(shù)據(jù)集中各類樣本分布圖Fig.4 Distribution map of various samples in FER2013 dataset

在表情識(shí)別任務(wù)中，交叉熵（Cross Entropy，CE）是常用的損失度量函數(shù)，公式如下：

其中pi為模型預(yù)測結(jié)果對(duì)應(yīng)標(biāo)簽的概率。本文使用Softmax 分類器將表情數(shù)據(jù)集樣本分為7 類，則pi(i=1,2,…,7)表示Softmax 層7 個(gè)節(jié)點(diǎn)的離散概率，顯然，ai(i=1,2,…,7)表示Softmax層對(duì)應(yīng)結(jié)點(diǎn)輸出。pi的計(jì)算公式為：

在表情識(shí)別任務(wù)中，交叉熵?fù)p失函數(shù)在面對(duì)多分類任務(wù)時(shí)，不同類別間的樣本不平衡會(huì)導(dǎo)致模型分類性能退化，困難樣本與簡單樣本之間的不平衡也會(huì)造成大量簡單樣本降低整體損失，使模型在訓(xùn)練中難以對(duì)困難樣本進(jìn)行過多的關(guān)注。Lin 等人[12]針對(duì)樣本不平衡問題，在標(biāo)準(zhǔn)交叉熵的基礎(chǔ)上進(jìn)行改進(jìn)，提出了聚焦損失函數(shù)（Focal Loss，F(xiàn)L），F(xiàn)ocal Loss通過減少易分類樣本的權(quán)重，使得模型在訓(xùn)練時(shí)更加專注于難分類樣本。Focal Loss公式如下：

其中，平衡參數(shù)α的作用是控制不平衡樣本對(duì)總損失的權(quán)重，平衡不同類別樣本的數(shù)量。聚焦參數(shù)γ為一個(gè)大于等于0的超參數(shù)，用來控制易分類樣本和難分類樣本的權(quán)重。當(dāng)一個(gè)樣本被分錯(cuò)時(shí)，pi是一個(gè)很小的值，因此調(diào)制系數(shù)(1-pi)γ就趨于1，而當(dāng)pi趨于1 時(shí)（樣本分類正確且屬于易分類樣本），調(diào)制系數(shù)趨近于0，對(duì)總體損失貢獻(xiàn)很小。Focal loss通過控制調(diào)制系數(shù)達(dá)到專注于困難樣本的目的，通過平衡參數(shù)α達(dá)到平衡不同類別樣本的數(shù)量的目的。

Focal Loss面對(duì)樣本不平衡問題具有較好的效果，但同樣也有缺陷。由于表情之間具有很大的相似性，人眼難以對(duì)其進(jìn)行分類，實(shí)際數(shù)據(jù)集中往往有少量誤標(biāo)注樣本，如圖5所示。而在Focal Loss的計(jì)算中，若數(shù)據(jù)集樣本標(biāo)注有部分錯(cuò)誤，或是本身噪聲很大，則會(huì)因?yàn)闄?quán)重的增加使模型學(xué)習(xí)到錯(cuò)誤的信息，降低模型的性能。

圖5 FER2013數(shù)據(jù)集中易混淆樣本樣例圖Fig.5 Sample graph of confusable samples in FER2013 dataset

針對(duì)Focal Loss無法處理誤標(biāo)注樣本問題，通過樣本的置信度與真實(shí)標(biāo)簽對(duì)其設(shè)置閾值判斷，對(duì)誤標(biāo)注樣本進(jìn)行篩選，改變其置信度，從而降低Focal Loss 對(duì)該類樣本關(guān)注度，提高模型分類性能。

其中，F(xiàn)L 為Focal Loss，ptop為幾類樣本中預(yù)測為真的概率（置信度）最大值，超參數(shù)c(c<1)為概率閾值，yt為該樣本的真實(shí)標(biāo)簽，yp為該樣本的預(yù)測標(biāo)簽。

為了篩選出誤標(biāo)注樣本，本實(shí)驗(yàn)設(shè)定概率閾值c對(duì)Softmax 的輸出映射進(jìn)行判斷，關(guān)于c的取值在實(shí)驗(yàn)部分討論。若該樣本映射出的最大概率ptop大于這個(gè)閾值c，認(rèn)為該樣本置信度很高，將該樣本預(yù)測標(biāo)簽與真實(shí)標(biāo)簽進(jìn)行對(duì)比，若對(duì)比發(fā)現(xiàn)樣本預(yù)測標(biāo)簽等于其真實(shí)標(biāo)簽，說明該樣本為一個(gè)置信度高的簡單樣本，執(zhí)行Focal Loss；若樣本預(yù)測標(biāo)簽不等于其真實(shí)標(biāo)簽，則說明該樣本是一個(gè)置信度高的誤標(biāo)注樣本，將其預(yù)測概率置為極小值ε，即舍棄該樣本。本文算法針對(duì)誤標(biāo)注樣本問題，對(duì)Focal Loss 提出了改進(jìn)，設(shè)置閾值參數(shù)c對(duì)Softmax 輸出結(jié)點(diǎn)的離散概率進(jìn)行判斷，篩選出誤標(biāo)注樣本并舍棄，提升了模型分類性能。改進(jìn)的Focal Loss算法流程如圖6所示。

圖6 改進(jìn)的Focal Loss算法流程圖Fig.6 Flow chart of improved Focal Loss algorithm

3 實(shí)驗(yàn)過程及結(jié)果分析

本文所有實(shí)驗(yàn)均在python3.6.5上實(shí)現(xiàn)，硬件平臺(tái)為Intel?Xeon Silver 4114 CPU，內(nèi)存大小為64 GB，GPU為NVIDIA TITAN V，顯存大小為12 GB。

3.1 人臉表情數(shù)據(jù)集

為了說明本文方法的有效性，采用日本女性人臉數(shù)據(jù)（JAFFE）庫、Extended Cohn-Kanada（CK+）數(shù)據(jù)集和FER2013數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估，實(shí)驗(yàn)采用的樣本數(shù)量分布如表1所示。

表1 FER2013、JAFFE、CK+數(shù)據(jù)集實(shí)驗(yàn)樣本選取數(shù)量分布表Table 1 Selection number distribution table of FER2013，JAFFE，CK+dataset experimental samples

其中JAFFEE 數(shù)據(jù)集包含10 位日本女性的213 張大小為256×256人臉正面圖像，共有7種標(biāo)簽，該數(shù)據(jù)集樣本較為平衡，標(biāo)簽比較標(biāo)準(zhǔn)，如圖7所示。

圖7 JAFFE數(shù)據(jù)集樣例圖Fig.7 Sample diagram of JAFFE dataset

CK+數(shù)據(jù)集采集了123人共593例的動(dòng)態(tài)表情圖像序列，每個(gè)圖像序列包含從表情平靜到表情峰值的所有幀，其中僅有327例有表情標(biāo)簽。共有7種表情，該數(shù)據(jù)集樣本較為不平衡，如圖8所示。

圖8 CK+數(shù)據(jù)集樣例圖Fig.8 Sample diagram of CK+dataset

Fer2013人臉表情數(shù)據(jù)集由35 886張人臉表情圖片組成，其中，測試圖（Training）28 708 張，公共驗(yàn)證圖（Public Test）和私有驗(yàn)證圖（Private Test）各3 589張，每張圖片是由大小固定為48×48 的灰度圖像組成，共有7種表情，該數(shù)據(jù)集樣本較為不平衡，標(biāo)簽較為混亂，分類難度略大，如圖9所示。

圖9 FER2013數(shù)據(jù)集樣例圖Fig.9 Sample diagram of FER2013 dataset

3.2 預(yù)處理

由于表情數(shù)據(jù)集中人臉尺寸、角度不一致會(huì)對(duì)識(shí)別結(jié)果造成影響，針對(duì)JAFFE 和CK+數(shù)據(jù)集中原始圖像的多余信息，采用Haar-like特征對(duì)人臉區(qū)域進(jìn)行檢測并提取。通過直方圖均衡化將圖像的直方圖分布變成近似均勻分布，增加圖像對(duì)比度，增強(qiáng)圖像細(xì)節(jié)。如圖10所示，最后對(duì)圖像進(jìn)行縮放至48×48的大小。

圖10 預(yù)處理樣例圖Fig.10 Sample image of set preprocessing

為了提升訓(xùn)練模型的泛化性，采用Image Data Generator數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充訓(xùn)練數(shù)據(jù)，將圖像隨機(jī)旋轉(zhuǎn)-10°到10°，在水平與豎直方向上對(duì)圖像進(jìn)行10%范圍內(nèi)的隨機(jī)偏移，對(duì)圖像進(jìn)行10%范圍內(nèi)的隨機(jī)縮放，對(duì)圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn)。

3.3 實(shí)驗(yàn)設(shè)置與結(jié)果

現(xiàn)有的研究工作表明，神經(jīng)網(wǎng)絡(luò)提取的特征具有通用性，在大型通用圖像數(shù)據(jù)集上訓(xùn)練過的深度神經(jīng)網(wǎng)絡(luò)，再對(duì)結(jié)構(gòu)進(jìn)行調(diào)整和訓(xùn)練，可以很好地遷移到其他問題上，因此在此思想基礎(chǔ)上，利用遷移學(xué)習(xí)，分別選用了MobileNet[14-16]、SqueezeNet[17]、ShuffleNet[18]、Xception[19]、VGGNet、InceptionV3[20]以及ResNet[13]等優(yōu)秀的網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)對(duì)比，實(shí)驗(yàn)結(jié)果如表2所示。本文實(shí)驗(yàn)均對(duì)數(shù)據(jù)進(jìn)行了100個(gè)epoch，每個(gè)epoch迭代200次，共計(jì)迭代2 萬次訓(xùn)練。采用自適應(yīng)矩估計(jì)（Adam）的訓(xùn)練策略，學(xué)習(xí)率設(shè)置為1E-4，當(dāng)val_loss值不再下降時(shí)，學(xué)習(xí)率乘以衰減因子0.5，α和γ兩個(gè)超參數(shù)選擇經(jīng)驗(yàn)值，α參數(shù)選擇為0.25，γ參數(shù)選擇為2，c設(shè)置為0.8。經(jīng)過實(shí)驗(yàn)分析，最終選用VGG16作為本文的網(wǎng)絡(luò)模型。

表2 不同模型準(zhǔn)確率對(duì)比表Table 2 Comparison table of accuracy of different models %

為了驗(yàn)證本文算法的有效性，在CK+數(shù)據(jù)集上分別對(duì)改進(jìn)前后的損失函數(shù)和模型進(jìn)行對(duì)比實(shí)驗(yàn)，如表3所示。其中，傳統(tǒng)VGG16 記為VGG16，改進(jìn)后的VGG16記為I_VGG16；傳統(tǒng)Focal Loss 記為FL，改進(jìn)后的Focal Loss記為I_FL。經(jīng)過實(shí)驗(yàn)分析，I_FL相比交叉熵?fù)p失函數(shù)準(zhǔn)確率提升了1.73%，相比FL 準(zhǔn)確率提升了1.17%，本文算法相比VGG16網(wǎng)絡(luò)模型結(jié)合交叉熵?fù)p失函數(shù)，準(zhǔn)確率提升了4.12%，證明了本文算法具有更好的分類能力。

表3 CK+數(shù)據(jù)集中不同損失函數(shù)對(duì)比表Table 3 Comparison table of different loss functions in CK+dataset %

為了進(jìn)一步研究改進(jìn)的Focal Loss 的對(duì)實(shí)驗(yàn)結(jié)果的影響，本文對(duì)超參數(shù)c進(jìn)行多次實(shí)驗(yàn)。表4 所示為c取不同值時(shí)，在CK+、JAFFE 以及FER2013 數(shù)據(jù)集上的表情識(shí)別準(zhǔn)確率，可以看出c=0.8 時(shí)，準(zhǔn)確率最高。

表4 c 取不同值時(shí)在不同數(shù)據(jù)集上面部表情識(shí)別準(zhǔn)確率Table 4 Accuracy of facial expression recognition on different datasets when c takes different values %

在CK+、JAFFE以及FER2013數(shù)據(jù)集上與國內(nèi)外優(yōu)秀算法進(jìn)行了比較，目前大部分模型都取得了較好的準(zhǔn)確率。本文模型與其他模型相比，在CK+數(shù)據(jù)集上準(zhǔn)確率有3%～5%的提升，在JAFFE 數(shù)據(jù)集上準(zhǔn)確率有1%～4%的提升，如表5、表6 所示。在各類表情的準(zhǔn)確率上也較為平均，驗(yàn)證了模型的有效性。

表5 不同方法在CK+數(shù)據(jù)集上基本表情識(shí)別準(zhǔn)確率Table 5 Accuracy of basic expression recognition on CK+dataset by different methods %

表6 不同方法在JAFFE數(shù)據(jù)集上基本表情識(shí)別準(zhǔn)確率Table 6 Accuracy of basic expression recognition on JAFFE dataset by different methods %

在FER2013 數(shù)據(jù)集上與目前國際上已有的幾種方法進(jìn)行了比較，如表7所示。FER2013數(shù)據(jù)集上人眼識(shí)別準(zhǔn)確率約為65%，可以看出絕大部分模型相比人眼具有更高的準(zhǔn)確性。與其他方法相比，本文算法準(zhǔn)確率較高。

表7 不同方法在FER2013數(shù)據(jù)集上基本表情識(shí)別準(zhǔn)確率Table 7 Accuracy of basic expression recognition on FER213 dataset by different methods %

為了進(jìn)一步驗(yàn)證本文算法，根據(jù)FER2013數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果繪制混淆矩陣。其中列代表預(yù)測類別，行代表真實(shí)類別，對(duì)角線數(shù)值為該類預(yù)測準(zhǔn)確率，其余為預(yù)測錯(cuò)誤的概率，由表8 分析可知，本文算法的分類結(jié)果分布較為均勻，各類表情樣本更傾向于分到所屬類別，具有較好的分類能力。

表8 FER2013混淆矩陣Table 8 FERE2013 confusion matrix

為了測試本文算法在實(shí)際應(yīng)用中的識(shí)別能力，設(shè)計(jì)了基于真實(shí)人臉表情識(shí)別的仿真實(shí)驗(yàn)。攝像頭采用英特爾D435，使用SSD算法進(jìn)行人臉檢測，對(duì)每一幀畫面基于本文方法進(jìn)行表情識(shí)別，如圖11 所示。實(shí)驗(yàn)結(jié)果表明，在真實(shí)條件下，本文算法具有較好的泛化性。

圖11 表情識(shí)別測試效果Fig.11 Test effects of expression recognition

4 結(jié)束語

本文對(duì)傳統(tǒng)VGG16 網(wǎng)絡(luò)模型做出改進(jìn)，并進(jìn)行遷移學(xué)習(xí)。針對(duì)數(shù)據(jù)集中存在的誤標(biāo)注樣本問題，對(duì)Focal Loss添加閾值判斷，篩選出誤標(biāo)注樣本并進(jìn)行抑制處理。本文分別在CK+、JAFFE 以及FER2013 數(shù)據(jù)集上做了對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明，改進(jìn)的模型識(shí)別準(zhǔn)確率較高，改進(jìn)的Focal Loss對(duì)誤標(biāo)注樣本有較好的抑制性。

雖然人臉表情識(shí)別已經(jīng)取得了較好的識(shí)別效果，并且在科研項(xiàng)目上應(yīng)用廣泛，但是光照、遮擋以及側(cè)頭等因素的影響依然較大，為了克服這些外界因素，未來的研究可以將表情識(shí)別從室內(nèi)轉(zhuǎn)向室外，在更復(fù)雜的環(huán)境下應(yīng)用。