南寧學院 廣西 南寧 530000
人臉表情識別是計算機視覺領域的一個研究熱點。當前深度學習方法的研究在提升表情識別性能上取得了重大進展。然而,訓練數(shù)據(jù)的缺乏以及大量表情無關因素(例如身份信息、光照、頭部姿態(tài)、面部遮擋等)的影響影響了深度模型的特征學習能力,容易出現(xiàn)過擬合現(xiàn)象,限制了模型的泛化性能。為了緩解過擬合問題,有些研究使用經(jīng)過充分預訓練的人臉識別模型,然后在目標表情數(shù)據(jù)集上進行微調。預訓練的人臉識別網(wǎng)絡具有更強的特征提取能力,另外,人臉識別和表情識別兩個領域的相似性使得面部特征易于遷移,從而提升了表情識別性能。盡管如此,網(wǎng)絡內部仍然保留大量身份主導的信息,極可能削弱其表示不同表情變化的能力。實際上,識別效果既想保留人臉識別網(wǎng)絡強大的感知面部特征的能力,又希望網(wǎng)絡盡可能地學習表情特有的信息。
直方圖均衡化的主要目的是將原始圖像的灰度級均勻地映射到整個灰度級范圍內,得到一個灰度級分布均勻的圖像。主要包括兩個步驟:計算累計直方圖和對累計直方圖進行區(qū)間轉換。首先計算圖像有多少個灰度級,然后計算每個像素在圖像內出現(xiàn)的概率,得到歸一化統(tǒng)計直方圖,接下來計算所有灰度級的累計概率,然后用累計概率乘以當前范圍內的最大灰度級得到均衡化后的像素值[1]。
LBP是一種紋理描述算子,是在1996年由Ojala等研究人員提出的,由于LBP特征計算簡單的同時能取得較好的效果,且具有旋轉不變性和灰度不變性等優(yōu)點。因此在圖像識別和圖像分類中得到了廣泛的應用,并取得了很好的效果。原始的LBP算子定義在3*3鄰域內,以鄰域中心為閾值,中心像素值依次與其8個鄰域像素值進行比較,若鄰域像素大于或者等于中心像素值時則編碼為1,小于中心像素值則編碼為0,最終會產生一個8位二進制數(shù),這個二進制數(shù)值就是中心像素的LBP值,它反映了鄰域內紋理信息[2]。
考慮到人臉表情識別是一個依靠數(shù)據(jù)驅動的任務,訓練一個足夠深的網(wǎng)絡來捕捉與表情相關的細微形變需要大量的相關數(shù)據(jù)。因此,在數(shù)量和質量上均較為匱乏的數(shù)據(jù)庫是當今深度人臉表情識別系統(tǒng)面臨的主要挑戰(zhàn)。由于不同年齡段、不同種族和不同性別的人表達和解析面部表情的方式也不同,一個理想的表情數(shù)據(jù)集應該包含除了表情標簽之外,各種豐富且精確的其他面部屬性標簽,例如年齡、性別和種族。除此之外,雖然面部遮擋和多姿態(tài)問題在深度人臉識別領域得到了廣泛的研究,但其在深度人臉表情識別中受到的關注仍較少。主要原因是缺乏具有遮擋類型和頭部姿態(tài)標注的大型面部表情數(shù)據(jù)集。另外,對大量攜帶復雜自然場景變化的數(shù)據(jù)進行精確標注的難度很大。一個可靠的解決方式是在專家的指導下對數(shù)據(jù)進行多人的眾包標注[3]。
人臉識別和表情識別兩個任務存在很強的關聯(lián)性。持續(xù)學習希望在持續(xù)增長的任務中都能保持良好的性能,而本文研究僅希望提升后者即表情識別的性能。持續(xù)學習的方法通過限制對以往任務具有更強重要性的參數(shù)變化來保留其學習能力,這種重要性通過每個參數(shù)對總體損失值變化的貢獻來衡量。對于人臉識別任務來說,由于類別眾多,“重要”參數(shù),即對損失值的變化貢獻更大的參數(shù),傾向于與感知面部一般特征相關而不是某一具體類別。因此,通過限制重要參數(shù)的變化可以更加有效地利用網(wǎng)絡感知面部公共特征的能力,避免表情網(wǎng)絡的過擬合[4]。
在現(xiàn)實應用中人們有著多種情感表達方式,面部表情只是其中的一種模態(tài)。盡管基于可視人臉圖像的表情識別能夠取得不錯的效果,但與其他模態(tài)結合到一個高層框架中能夠提供互補信息,從而進一步增強模型的魯棒性。例如,可將音頻模態(tài)作為次重要的因素與圖像信息相融合來進行多模態(tài)的情感識別。此外,紅外圖像、三維人臉模型的深度信息、人體生理信息以及手勢姿態(tài)也可以作為面部表情的互補數(shù)據(jù)來輔助情感識別。在臉部遠程光電容積脈搏波(remote photo plethysmo graphy,rPPG)信號分析上的最新進展RhythmNet,也可能為表情分析帶來新的模態(tài)[5]。
本文分析了人臉識別與表情識別之間的區(qū)別與聯(lián)系,應用持續(xù)學習的思想進行表情識別,避免由于缺乏足夠的訓練數(shù)據(jù)導致的模型過擬合問題。主要通過參數(shù)重要性正則保留人臉識別模型強大的特征提取能力,同時通過重要性參數(shù)的變化能夠學習表情相關的信息,避免大量身份信息的保留對表情識別的不利影響。本文方法在RAF-DB數(shù)據(jù)集上達到了88.04%的測試精度,由于基本保留了提取面部特征的能力,模型對于真實世界環(huán)境下表情圖像多樣性的處理能力增強,性能提升更為明顯。但由于實驗室環(huán)境下收集的表情圖像基本為正面無遮擋的規(guī)范人臉,圖像質量更高,特征更加易于學習和識別,因此本文方法對于這類數(shù)據(jù)集的識別性能提升不明顯。