付倩倩,李 昂
(1.武漢郵電科學研究院,湖北 武漢 430074; 2.南京郵電大學 通信學院,江蘇 南京 210003; 3.南京理工大學紫金學院,江蘇 南京 210023)
人們要想知道對方的情緒變化,通過表情識別是最直接、最有效的。隨著信息時代的發展,人們愈發希望“觀色”可以利用在計算機視覺領域,如果計算機能夠通過識別一個人的表情以觀其色,即可為場景中出現的人物提供輔助的結構化信息,這在人機交互、安防、機器人智能化等多個領域均有廣泛的應用。
文獻[1-5]在殘差網絡的基礎上設計卷積網絡提取不同視角下的表情特征,引入深度可分離卷積來減少網絡參數。利用特征重新標定方式提高網絡表示能力,并通過加入空間金字塔池化增強網絡的魯棒性。最后進一步優化識別結果最終實現人臉表情識別。
文獻[6-8]采用深度學習算法的人臉表情識別系統運用較高的CPU或GPU硬件進行模型訓練。
完整的人臉表情識別一般分為以下四步:定位圖像、對圖像進行預處理、提取圖像中表情的特征并對表情進行分類。其中最重要的是提取特征,這一部分又分為生成原先圖像的特征和特征降維。圖1所示為人臉表情識別的系統框架。其中,前兩個階段,定位圖像,并且對圖像進行預處理,可以減少外界因素對圖像的干擾,例如光照不均、動態變化、強弱不定等。這樣可以使原圖變得更加清晰,質量更高,從而得到圖像的表情特征的準確度也更高。為了區分各個表情,需要在特征提取階段提取同一個個體的不同表情所具有的特征,進行表情分類,主要會用到分類器對之前提取到的特征進行分類。在選用分類器的時候,盡量會選擇一些性能比較完善、效率較高的級聯分類器。所以,綜上所述,要想準確地識別人臉表情,至為重要的一步就是取決于能否精細地提取不同表情的特征,然后進行分類。而整個過程中的重點則是把能提取到的特征點高效地分類,從而提高表情識別率[9-13]。

圖1 人臉表情識別系統框架
在通過對表情圖像的特征提取后,各個表情就有了自己的特征,但由于表情特征提取的時候是多維提取,所以識別起來非常耗時,速度就比較慢,系統效率低。想要解決這一問題就得通過降維處理,把高維轉成低維,這樣就能降低難度,減少時間,提高效率,從而提高特征的有效性。
卷積神經網絡的結構示意圖如圖2所示。

圖2 卷積神經網絡結構
卷積層是通過卷積操作來提取特征的,將圖像中每一個元像素乘上濾波器矩陣對應的元素所得到的。并且在卷積過程中,卷積核必須滑動到輸入圖像的每一個位置,圖像上的每一個點都需要進行卷積運算,只有圖像上的任意一個點都通過了運算,才可以完整地獲得圖像的特征。經過無數次的實驗可知,卷積層的數量越多,特征提取的能力越強[7-8,14-16]。
如果第一層為卷積層,則該層的卷積計算公式為:
(1)

假如l層為池化層,則該層的池化公式為:
(2)
其中,βl為可訓練參數,B為該層偏置[9]。
假設l層為全連接層,則該層的全連接層計算公式為:
(3)


圖3 改進后的卷積神經網絡
需要對上述的卷積神經網絡進行改進[11]。改進后的卷積神經網絡如圖3所示。首先輸入圖像,然后在第一層卷積層上對圖像進行特征提取,這需要采用20個濾波器,并且每個濾波器的大小都為5*5,步長都設為2。由公式得下一層20個特征值為28*28大小的特征圖。接下來再進行卷積操作,卷積核大小設置為5*5,步長設為2*2,經過這一層融合后就得到45個特征值為5*5大小的特征圖。最后就是全連接層,這一層需根據具體情況進行調整。
將該結構單元進行3次疊加后,再連接2個全連接層F1和F2以及1個Softmax輸出層SF,就得到了改進后的模型。對該模型進行了9次實驗,并根據實驗結果分析,選取出了最優參數組合,改進要使訓練避免過擬合現象。圖4即為測試集上的混淆矩陣。采用Dropout技術后的測試結果要高于未采用Dropout技術的模型。

圖4 測試集上的混淆矩陣
原先網絡使用的是sigmoid激活函數,為了提升泛化能力,故而把該函數改成Relu函數,因為Relu函數的非線性能力更強。Relu函數的表達式為:
f(x)=max(0,x)
(4)
當輸入x≤0時,輸出為0;當x≥0時,輸出為x,輸入等于輸出。
使用的Relu函數不會隨著x的增加而逐漸趨于平衡,而雙曲正切函數卻會隨之趨于平衡。因此,Relu函數能夠使神經網絡的性能更加突出。
圖5所示為改進后的卷積神經網絡對人臉表情的分類圖。
對比上述的三種人臉表情識別的算法不難發現,傳統的表情識別方法最容易理解且邏輯清晰,步驟性很強,從采集圖像到圖像預處理再到特征提取最后識別,一步一步完成起來相對容易,但是效率卻很低,耗費時間長。相比之下,基于卷積神經網絡的算法是最簡便最快速的。它把特征提取和分類合并到一塊兒,通過兩個卷積層,兩個池化層,一個全連接層,一個softmax回歸層來實現。該方法比傳統方法的效率高,且抗干擾性強,所接收到的圖像不受外界復雜因素(例如光照等)的影響,準確度更好。由此可見,改進后的卷積神經網絡的泛化能力有明顯的上升,并且能夠防止出現過擬合現象,它簡化了層次,增加了步長,使得效率更高,準確性也更強。

圖5 改進后的卷積神經網絡的人臉表情分類
表1為利用傳統人臉表情識別算法、基于卷積神經網絡算法和改進的卷積神經網絡算法得到的性別識別結果。由對比可得:改進的卷積神經網絡人臉識別方法對性別的平均識別率最高為95.1%,其次是基于卷積神經網絡的人臉識別方法,為90%,平均識別率最低的是傳統的人臉識別方法。由此可知,對卷積神經網絡進行改進是很有成效的,它不僅在過程上比傳統的識別方法要簡單得多,而且比普通卷積神經網絡更加精確。
對比三種方法可得:改進的卷積神經網絡人臉識別方法對表情的平均識別率也是最高,高達99.0%,其次是基于卷積神經網絡的人臉識別方法90%,平均識別率最低的依然是傳統的人臉識別方法。由于表情的分類較多,雖然對表情的識別率沒有對性別的識別率高,但是依然能夠看出,卷積神經網絡表情識別系統的正確率很高,它的泛化能力也很強。但是對比之下,改進后的卷積神經網絡隨著步長的增加,因此它的準確率比改進前的卷積神經網絡更高,泛化能力更強。

表1 傳統的人臉表情識別方法
與傳統方法和普通卷積神經網絡相比,改進的卷積神經網絡在處理表情圖像時,在選取出了最優參數組合的過程中,降低了訓練過擬合現象的幾率,同時提高了泛化能力,具有準確率高、效率高的優點,。
該課題利用卷積神經網絡來實現人臉表情識別,通過實驗表明該算法有較高的識別率和準確度,但仍有待改善和提高。