李升輝,李虹靜
基于深度卷積神經網絡的面部表情自動識別檢測
李升輝,李虹靜
(華中科技大學工程實訓中心,湖北 武漢 430074)
在人機交互領域中,對人臉的表情進行自動識別是一項有趣且十分具有挑戰性的工作,尤其是對視頻及圖像中的人臉進行表情識別。提出一種能夠自動從圖像或者視頻中找到人臉,進而對其表情進行識別的網絡模型。在包含人臉圖像的數據集中訓練模型,使其自動檢測圖像中的人臉,并根據人臉識別其表情。最后在測試的數據集上驗證該模型的表現。
表情識別;深度學習;圖像處理;視頻分析
由于面部表情在人類情緒分析中占有重要地位,因此面部表情識別在人機交互、認知心理學、醫療保健系統、動畫等領域有著重要的應用。面部表情識別的目標是根據給定的面部圖像對情緒狀態進行分類(由EKMAN和FRIESEN[1]所定義的基本情緒,包括平靜、憤怒、厭惡、恐懼、快樂、悲傷和驚訝)。近年來,表情識別成為計算機視覺研究的熱點之一,全世界有大量的研究者研究出了效果不錯的表情識別系統。
利用傳統的機器學習來進行表情識別的研究在過去十年中取得了不錯成果。但是,這些檢測結果抗噪聲能力較差,并且易受其他因素如光照、頭部姿態、不同膚色等影響。此外,傳統方法通常需要手工設計描述子,這對于表情識別的海量視頻和圖像數據來說是極其不穩定的。
眾所周知,深度卷積神經網絡(CNN)在計算機視覺等人工智能相關領域都取得了非常好的效果[2]。顧名思義,深度卷積網絡主要由多個卷積層疊加而成,同時卷積層之間還有池化層、激活層和全連接層等其他網絡單元。這些基礎單元組合而成的網絡能夠很好處理輸送進來的圖像或者語言等數據。與傳統方法或其他淺層的網絡模型相比,深度卷積網絡在效果上遠遠領先。當然,深度卷積神經網絡的訓練方法通常也是使用反向傳播的方法訓練,相比機器學習或者其他網絡模型而言,它處理相同數據所需要的參數更少,效果也更好,因此它逐漸成為一個熱門且廣泛使用的網絡結構。
本文提出了一個融合數據集,并將該數據集劃分為訓練集和測試集兩個部分。同時,設計了一個針對表情識別的網絡模型,它使用數據集中的訓練部分進行有監督的訓練。最后利用測試集對訓練好的模型進行測試,評價模型對表情識別的性能。
1872年,達爾文在論文《The Expression of the Emotions in Animals and Man》中最先提出了面部表情識別研究的概念,并解釋說明了人類和動物面部表情研究的基本概念[3]。1971年,EKMAN和FRIESEN對現代人臉表情識別做了開創性的工作,他們研究了人類的6種基本表情(即高興、悲傷、驚訝、恐懼、憤怒、厭惡),系統地收集并且分類各種表情圖像上千幅,對人的五官(眼睛、鼻子、嘴巴、眉毛、臉部)進行詳細描述和變化分析。1978年,有學者提出在人物動畫幀中進行分析,對表情序列進行首次自動識別的嘗試[4]。后來進入90年代,有學者通過識別面部肌肉的運動方向來確定表情[5]。之后,關于表示識別的研究層出不窮。
卷積神經網絡(CNN)是一類包含卷積計算且具有深度結構的前饋神經網絡,是深度學習的代表算法之一。卷積神經網絡具有表征學習能力,能夠按其階層結構對輸入信息進行平移不變分類,因此也被稱為“平移不變人工神經網絡”。
20世紀八九十年代,卷積神經網絡的研究被提出并且被證明有效。卷積神經網絡中出現最早的是時間延遲網絡和LeNet-5[6];21世紀后,隨著深度學習理論的豐富和計算機運算能力的突飛猛進,深度卷積神經網絡的研究變得更加快速,在計算機視覺、語音文本處理等領域等都被大量使用。
該數據集供設計的模型進行訓練和測試使用。該數據集融合了學術界廣泛使用的幾個數據集和部分網絡圖片,其中包括被采集志愿者的照片、電影中的截圖、網絡上下載的圖片。數據集由高清和低清分辨率的圖片組成,所有圖片進行統一的裁剪處理。數據集中每張圖片都被標記為7種不同的表情表情類別,在實驗中,融合的數據集被采用7折交叉驗證,即融合數據集被打亂順序后平均分為7份,6份作為訓練集,一份作為驗證集,重復實驗7次,最終實驗結果取這7次的平均值。數據集中部分圖片如圖1所示。
與傳統方法特征提取不同,之所以采用深度學習的方法,是因為深度學習中的網絡(尤其是CNN)對圖像具有較好的提取特征的能力,從而避免了人工提取特征的煩瑣。網絡的原理如圖2所示。首先將圖片中的人臉識別并裁剪出來,再將這些人臉圖片作為訓練數據輸入到設計的卷積神經網絡中,并且利用了一個傳統特征描述子LBP的單元進行補充訓練。網絡模型的訓練也分步驟進行。只需要對最后全連接層的網絡進行訓練,特征提取網絡(前六層)中的權值是固定的。然后再對整個網絡進行訓練微調,以達到整個網絡識別的更高精度。訓練平臺為攜帶因特爾 Core i7 3.4GHz CPU和英偉達 GeForce GTX 1080 GPU的臺式電腦,訓練軟件為Tensorflow 1.4.0。網絡訓練中使用Adam optimizer進行訓練(動量項beta為0.5),學習率為常數0.000 2。

圖1 數據集中部分圖片

圖2 訓練網絡的原理圖
設計的網絡模型總體結果如圖3所示,橫軸表示迭代次數,縱軸表示測試的準確值。這個結果可以證明本文的網絡模型對表情識別有非常不錯的識別率。

圖3 測試結果曲線
為了更好地評價網絡模型,隨機抽取融合數據集中幾張圖片輸入網絡模型進行測試。其表情識別的效果如圖4所示。由此可見,本文所設計的網絡模型對于各種情況下人臉的表情識別都具有很好的魯棒性,并且對于不同人物的年齡、光照影響、頭部姿勢、膚色等問題都能有效避免干擾,實現較高精度的識別。

本文引入了一個融合了的表情數據集,包括訓練樣本和測試樣本,使用該數據集訓練、測試設計模型。實驗結果表明,在該表情數據集下,設計的深度卷積神經網絡模型對圖像中的人臉表情有很好的識別能力。
[1]EKMAN P,FRIESEN W V.Constants across cultures in the face and emotion[J].Journal of Personality and Social Psychology,1971,17(2):124.
[2]盧宏濤,張秦川.深度卷積神經網絡在計算機視覺中的應用研究綜述[J].數據采集與處理,2016,31(1):1-17.
[3]DARWIN C,PRODGER P.The expression of the emotions in man and animals[M].USA:Oxford University Press,1998.
[4]SUWA M.A preliminary note on pattern recognition of human emotional expression[C]//Proc. of The 4th International Joint Conference on Pattern Recognition,1978.
[5]MASE K,PENTLAND A.Automatic lipreading by optical- flow analysis[J].Systems and Computers in Japan,1991,22(6):67-76.
[6]于之訓,蔣平.具有傳輸延遲的網絡控制系統中狀態觀測器的設計[J].信息與控制,2000,29(2):125-130.
TP391.41
A
10.15913/j.cnki.kjycx.2019.17.060
2095-6835(2019)17-0129-02
李升輝(1982—),男,碩士,工程師,主要研究方向為電工電子、PLC、光電技術和人工智能。
李虹靜(1989—),女,助理工程師,主要研究方向為電工電子和PLC。
〔編輯:嚴麗琴〕