999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人臉部分遮擋條件下表情識別研究的新進展

2022-06-23 06:24:28李南星吳慶崗常化文
計算機工程與應用 2022年12期
關鍵詞:數據庫特征區域

蔣 斌,李南星,鐘 瑞,吳慶崗,常化文

鄭州輕工業大學 計算機與通信工程學院,鄭州 450001

作為人類重要的主觀體驗,情感是左右人類行為的一個關鍵因素,在人際交往活動中發揮著巨大的作用。人類以多種方式表達自己的內心情感,比如語言語音[1]、肢體動作[2]、面部表情等。其中面部表情是觀察人類情感的直接手段,人們可以通過面部表情準確地表達自己的思想和感情,也可以通過面部表情識別他人的態度和內心世界,在上述表達方式中具有兩個顯著的特點:(1)面部表情與人類情感之間的關聯度非常高。在有關的情感信息中,面部表情約占總體信息量的55%,因此通過面部表情可以很好地解釋人類的情感;(2)面部表情的表達方式簡單自然,直截了當。不需要聽者猜測語言語音背后蘊含的說者含義,也不像肢體動作那樣隱秘或夸張。對面部表情的準確判斷就有助于正確地評估人類的情感狀態;而人工智能技術的實現,加快了人類情感信息的需求,所以在所有的信息交互方式中,人臉表情識別脫穎而出,成為了人工智能技術落地的一個關鍵研究方向。吸引研究者在駕駛員疲勞駕駛監測[3]、教育場景中對學習者的學習狀態檢測[4]、服務型機器人的智能服務[5]等方面展開了持續的探索。

雖然目前人臉表情識別已經在許多領域上展現出很高的應用價值,但是在技術的應用化過程中,仍然存在巨大的挑戰,尤其是在獲取識別對象圖像時經常遇到的人臉部分遮擋問題。人臉部分遮擋通常發生在各種應用場景之中,比如:頭部姿態偏轉時出現的姿態遮擋[6],人臉光照不均衡時出現的色斑遮擋,圖像采集過程中發生的人臉區域的噪聲像素遮擋,以及日常生活中的實物遮擋[7],包括:飾物遮擋(口罩、圍巾、墨鏡)、面部部件遮擋(如頭發、胡須、疤痕)、靜物遮擋(建筑、樹木)、動作遮擋(打哈欠時手放在嘴上)。意外遮擋(行駛的車輛、走動的行人)等。這些種類各異的遮擋會導致人臉外觀在空間上發生顯著變化,造成采集圖像的缺損、人臉區域的形變,以及面部像素的異化。對人臉表情識別的應用帶來了極大的麻煩和阻礙。于是在人臉部分遮擋狀態下,提升人臉表情識別性能,成為了研究者重點關注的問題。

如圖1所示,面部遮擋表情識別系統主要包括:人臉檢測、遮擋處理、特征提取和表情分類。首先,人臉檢測環節按照實際的應用場景,還存在著兩種方式:第一、在線表情識別系統,需要根據人臉檢測算法,實時獲取人臉區域圖像;第二、離線表情識別系統,主要根據專業的表情數據庫訓練算法模型;而專業數據庫的人臉圖像通常背景簡單、面部區域突出,所以在這種情況下可以省略人臉檢測環節。其次,遮擋處理環節需要根據所選模型的實際情況考慮,通常有舍棄法和重構法兩種方式,舍棄法是檢測到遮擋部位將其舍棄,主要聚焦于未遮擋的區域;而重構法是通過淺層模型或者深度模型對遮擋的區域進行重構,使其恢復成未遮擋的狀態。最后,特征提取和特征分類在淺層學習中是兩個分離的環節;而在深度學習中,特征提取與特征分類環節被融合在同一個深度人工神經網絡之內,一般將兩者合二為一。

圖1 人臉部分遮擋狀態下的表情識別過程Fig.1 Outline of facial expression recognition under partial occlusion

1 人臉表情數據庫

傳統的人臉表情數據庫是指在實驗室等受控條件下,讓采集者模仿標準的表情圖片,做出相對應的表情,最后人工篩選出合格樣本的過程,因此受控條件下采集的數據樣本噪聲比例相對比較低;非受控條件下的數據樣本更為接近真實場景下的人臉圖像,更強調人臉表情的實時性和真實性。除了上述區分方法之外,還可以站在不同角度所示,如表1本文將從樣本模態(視頻/圖片)、類別數目(6,7,8)、引導方式(模仿/自然)、收集來源(實驗室/自然環境)和數據規模等維度加以分類[8]。下面將詳細介紹常用的人臉表情數據庫。

表1 人臉表情常用數據庫Table 1 Commonly used facial expression databases

1.1 包含未遮擋圖像的數據庫

JAFFE[9]包含10名不同日本女性一共213幅正面人臉圖像,每人有7種表情,每種表情大約有3、4幅灰度圖像,該數據庫是以(生氣、厭惡、恐懼、高興、悲傷、驚奇、中性)7種基本表情為基礎的數據庫。

CK+[10]數據庫包含123個志愿者的593個圖像序列,其中包括不同性別、族裔的表情序列。在593個圖像序列中有327個具有情感標簽,包含6種基本表情外加中性表情和蔑視表情。

KDEF[11]數據庫在均勻、柔和的光照條件下,采集到70個志愿者的7種表情的人臉圖像庫。志愿者們年齡在20至30歲之間,沒有胡須、耳環或眼鏡等遮擋物進行遮擋,共包含4 900張彩色圖像。

1.2 包含遮擋圖像的數據庫

Oulu-CASIA[12]數據集包含在弱光、正常光和暗光三種不同程度的照明條件下收集80名23至58歲參與者的6種基本面部表情。

MMI[13]數據集包含43個主體,6種基本表情的213個視頻序列,這些視頻序列中的一些對象帶著帽子或者眼鏡,具有面部部分遮擋的常見示例。

RaFD[14]數據庫是Radboud大學行為科學研究所整理的人臉圖像庫,包含67個模特,共8 040張圖片,該庫包含8種表情,即憤怒、厭惡、恐懼、快樂、悲傷、驚訝、蔑視和中性。每種表情有3種注視方向和5種姿態。

FER-2013[15]數據庫包含35 887張網絡數據集。數據集按照28 709張訓練圖像、3 589張驗證圖像和3 589張測試圖像進行劃分,共包含8類情感標簽。圖像質量相對較低。

BU-3DFE[16]數據庫是人臉三維圖像數據庫,收集了來自不同種族的100張面孔,每個對象有25個3D表情模型,部分模型存在人臉部分遮擋。

RAF-DB[17]是第一個在野外收集數據庫,數據庫包含29 672張不同年齡、不同性別、不同膚色的人臉圖像;而且具有遮擋的表情數據。該數據庫中包含6種基本情感標簽以及12種復合情感標簽。

SFEW2.0[18]的圖像由兩個獨立的標簽進行標記,該數據庫包括遮擋、姿態等700幅從電影中截取的圖像。

AffectNet[19]是一個大規模帶有強度標記的人臉表情數據庫。它在超過百萬張人臉圖片中對其中的450 000張圖像進行手工注釋,分為8類表情類別,是迄今為止最大的含有情感強度和情感類別標簽的數據集。

AFEW[20]是一個動態時間面部表情數據庫,該數據庫一共包含957個電影片段,標注了憤怒、厭惡、恐懼、快樂、悲傷和自然6種基本表情。

SFEW[21]是真實環境中的面部表情圖像數據庫。數據庫中包含不受約束和受約束的各種人臉表情圖像,SFEW2.0版本包含958個訓練樣本、436個驗證樣本以及372個測試樣本在內的7種基本表情。

FED-RO[22]是一個具有真實遮擋的面部表情數據庫,通過標記搜索引擎Google和Bing中挖掘出的具有遮擋的人臉圖像,獲得了7種基本表情的400幅圖片。

EmotioNet[23]數據庫包含了100萬張帶有相關情感標簽的野外面部表情圖像,該數據庫中的圖像具有不同分辨率和不同光照條件,表情類別分為23種。

Multi-PIE[24]是一個含有不同姿勢和光照大型表情數據庫,該數據庫包含337名志愿者在多種角度以及多種光照環境下拍攝的750 000張照片,標注了厭惡、中性、尖叫、微笑、斜視以及驚奇6種表情。

ExpW[25]數據庫包含在互聯網上搜索的91 793張人臉圖像,每個圖像均被手工注釋為7種基本表情類別之一。

AR[26]人臉數據庫包含126人的4 000張人臉圖像,數據庫包含自然、喜悅、羞惱和吃驚4種基本表情,也包含不同角度光照影響以及實物局部遮擋的人臉圖像。

2 人臉部分遮擋條件下表情識別方法

真實場景中往往難以獲得清晰、正面、完整的人臉圖像。更多的情況下,計算機捕捉到的人臉往往受到很多干擾,比如光照變化、頭部偏轉、實物遮擋等。遮擋直接影響人臉圖像的像素值,導致人臉圖像信息的喪失。當面部的遮擋面積過大時,會造成表情特征的嚴重缺失,從而導致識別困難甚至無法識別。

近年來,隨著深度學習網絡的發展,很多研究者將深度學習引入部分遮擋的人臉表情識別中來,在傳統的處理方法之上使用深度學習網絡可有效地獲取更準確的表情特征。不僅減少了傳統特征提取與分類方法的盲目性,并且提高了識別精度。

由于環境的復雜性,會導致表情識別面臨許多遮擋。文獻[27]將遮擋分為長期遮擋和臨時遮擋,長期遮擋是指面部固有的一些存在,比如配飾及自身所擁有的成分,而臨時遮擋是指面部被其他物體在面部移動造成的遮擋、外界環境變化以及自身角度偏轉等造成的遮擋。文獻[5]指出人臉表情識別主要的挑戰來自于光照變化、遮擋、變異姿勢、身份偏差、定性數據不足等,而遮擋和變異姿勢常發生在顯示生活之中,因此將部分遮擋根據真實物體是否導致遮擋分為人工遮擋和現實生活遮擋。文獻[28]將現實生活中的遮擋類型分為光照遮擋、物體遮擋、姿態變化引起的遮擋以及以上遮擋所導致的混合遮擋等。文獻[29]指出低分辨率問題同樣也是造成人臉表情識別方法在現實環境中性能下降的一大原因,普通相機捕捉到的面部圖像的分辨率可能會比較低甚至出現模糊的情況,會導致人臉圖像缺乏足夠的視覺信息進行特征提取。文獻[30]指出光照變化會給人臉表情識別帶來一定的阻礙,尤其是在光線過亮或者過暗的情況下,影響對情感特征的提取。本文綜合分析了該領域的最新進展,從光照遮擋、噪聲遮擋、姿態遮擋以及實物遮擋的角度展開論述。

2.1 光照遮擋

人臉在現實中是以立體的形式出現的。在現實生活中,光源可能來自不同的方向,會導致面部明暗分布存在明顯的差異。同時,過度光照和光照不足也可能導致采集到的圖像出現光照遮擋,出現面部表情細節丟失,這會對后續的處理帶來一定的影響。

文獻[31]使用對比度受限的自適應直方圖均衡化(combines the limited contrast adaptive histogram equalization,CLAHE)將圖像劃分的子塊進行直方圖均衡化,在限制的裁剪值處截斷灰度分布,將大于裁剪值的像素均勻分布到整個灰度范圍,可以縮小子塊中局部灰度快速變化引起的局部細節差異,從而增強圖像的局部對比度。然后加入Gamma灰度校正算法來提高圖像的整體亮度,最終有效地處理了因光照過度、弱光和不均勻造成的面部圖像光照遮擋的問題。

為了降低光照遮擋對表情特征提取的干擾,研究者考慮使用多特征的提取模式,從不同角度描繪表情特征的“容貌”。文獻[32]首先利用Haar小波變換和Gabor濾波器分別提取人臉表情圖像的全局和局部特征,然后使用非線性主成分分析(nonlinear principal component analysis,NLPCA)方法對提取的高維特征信息進行降維處理,以降低訓練的時間復雜度,最后使用支持向量機(support vector machine,SVM)分類器對人臉表情進行識別分類。以實現在不同的光照條件下獲得更高的人臉情感識別和分類精度。

文獻[33]使用一種在尺度不變特征變換(scaleinvariant feature transform,SIFT)方法的基礎上改進的方法來進行情感識別。首先定義權重向量對檢測到的人臉圖像進行形狀分解,使用特征點約束算法優化表示表情變化區域的特征點的最佳位置。然后對每個特征點計算特征參數以便獲得更多的情感信息,最后用SVM分類器結合主成分分析法(principal component analysis,PCA)降維并進行表情分類。本算法可提高不同面部姿勢和光照下面部表情識別的穩健性。

文獻[34]研究了復雜光照環境下視頻中的面部表情識別,引入一種新的基于時間局部尺度歸一化的自適應濾波器來提高對光照條件的穩健性。具體操作是使用Viola-Jones算法進行面部檢測并使用深度卷積網絡(deep convolutional neural network,DCNN)進行表情預測,由于視頻信息是高維數據,DCNN中的自編碼器可以從這些高維信息中提取有意義的特征,DCNN中的半監督學習器可以防止自編碼器過度擬合,在半監督學習器之前添加額外的網絡層作為光照不變網絡來引入像素強度的尺度不變性,從而利用輔助神經網絡實現對光照不變量的計算。

但是單任務神經網絡在應對復雜問題時有些力不從心,因此研究者又專門設計了針對復雜光照問題的多任務神經網絡方法。文獻[35]提出多任務神經網絡,首先利用共享編碼器-解碼器將輸入的圖像提取有識別能力的特征,并生成光照不變的特征。其次圖像恢復分支和圖像分類分支并行使用共享權重將輸入的圖像進行情感預測。該網絡由于對光照變化具有魯棒性的特點,因此可以處理光照變化下的人臉表情識別分類。且可以支持在不帶標注的數據集上進行半監督學習,緩解小數據集上可能出現的過擬合問題。但由于是多網絡并行處理,因此網絡結構較為復雜,這會導致網絡運行時間成本較高,識別速率相對降低。

上述方法均是在可見光的條件下展開實驗,而部分研究者決定繞開可見光領域,從不同的光譜頻率上切入部分遮擋的表情識別問題。其中主動近紅外成像(nearinfrared,NIR)是克服光照變化問題的一種方法,它甚至在接近黑暗的情況下依舊有一定的穩健性。相比可見圖像的面部特征,主動近紅外成像表征的面部清晰無遮擋。文獻[30]使用一種新穎的自動面部表情識別的框架,首先通過使用從數據集中學習特征向量之間的余弦距離計算表情特征相似度,然后通過卷積神經網絡(convolutional neural network,CNN)根據特征相似度來進行表情分類。最終實驗證明在強光和弱光的情況下均有不錯的識別效果。由于該模型能夠學習不同表達式的歧義或者相關性,因此有效地減少相似表達式的分類誤差,如表2。

表2 光照遮擋的方法性能對比Table 2 Performance comparison of light occlusion methods

為處理光照不變量造成的光照遮擋,處理方法可分三大類:第一類作用于原始圖像的預處理階段,使用簡單且有效的數學方法直接計算像素灰度值。該種方式主要適用于人臉表情數據集數量不多的情況下;第二類方法作用于特征提取階段,使用對光照具有穩健性的特征提取算法來提取不同光照條件下的人臉表情特征,通過提取不隨光照條件變化的特征,來減少不良光照的干擾。相比第一類的方法,該類方法通過在復雜的光照情況下提取更多的光照不變量,對人臉表情識別有著更好的估計結果;第三類則是使用深度學習網絡對人臉圖像進行重建,構建出光照不變模型。在不同的光照條件下通過使用大量的人臉表情數據進行網絡訓練、圖像重建,從而得到更精準的分類識別結果。

2.2 噪聲遮擋

在現實環境中,由于人臉采集設備和環境條件的影響,人臉圖像質量會變得較差,低分辨率面部圖像通常缺乏足夠的視覺信息來提取信息特征,低分辨率通常會導致人臉表情識別方法識別性能下降。

傳統的濾波學習方法具有較高的泛化能力和穩健性,濾波器的設計目的是抑制噪聲信號,放大有用信號,從而增強濾波后信號的可分辨性。然而傳統的濾波器是手工設計的,沒有學習能力,但隨著卷積神經網絡的發展,卷積濾波器可以獲得更豐富的表征,因此文獻[29]提出一種基于圖像濾波器的子空間學習(image filter based subspace learning,IFSL)方法來對低分辨率的面部表情進行識別。該方法是一種整體識別方法,相比局部識別方法相比,整體識別方法對圖像的分辨率的敏感性較低。首先將判別圖像濾波器(discriminative image filters,DIF)學習的過程中加入二類線性判別分析(linear discriminant analysis,LDA),可將高維樣本投影到最佳判別子空間有效的進行樣本分離,然后線性組合由學習的判別圖像濾波器生成過濾圖像,最后根據組合的結果使用線性脊回歸(the linear ridge regression,LRR)算法進行特征提取。使用此種方法可以顯著地去除不相干信息,有效保留有價值的表情信息,使得保留下的信息具有很高的可辨別性,提高識別效率。此方法從圖像濾波的角度解決了訓練數據受限的問題,因此可以實現在小訓練樣本下完成人臉表情識別。

文獻[36]基于局部二值模式(local binary pattern,LBP)提出一種具有自適應窗口的新的方法來進行人臉表情特征的提取,分別對鄰域和對角鄰域進行計算,有效地降低了計算的復雜度,對于情感特征描述引入了自適應窗口和徑向平均方法修改特征提取的窗口,實現了噪聲的穩健性,這也可以有效地緩解噪聲遮擋的問題。

文獻[37]提出一種具有多標簽分布學習的有效紅外面部表情識別方法,使用柯西分布標簽學習網絡(Cauchy distribution label learning network,CDLLNet)來構造表情標簽來克服模糊的面部表情問題。首先計算同一個主題的不同面部表情的相似度值,然后利用相似度值構造表達式多標簽,使用基于柯西分布的標簽學習構建一個基于GoogleNet主干網絡來學習紅外表情圖像中的面部特征,引入KL散度來測量預測和真實分布,這樣對低質量的圖像是穩健的,利用協方差池化層來捕獲二階圖像特征,根據標簽的相似度進行分類。

文獻[38]提出了一種微小邊緣感知反饋神經網絡(edge-aware feedback convolutional neural network,E-FCNN)來緩解因圖像分辨率降低而導致人臉表情識別精度下降的問題。采用超分辨率反饋(facial superresolution,FSR)網絡的反饋機制,使用殘差塊在低分辨率特征提取塊和反饋塊之間構建分層特征提取結構。并嵌入邊緣增強塊來增強人臉圖像的清晰度,利用上采樣塊放大人臉圖像,補充低頻信息。融合重建的圖像在識別精度上面保持了良好的水平。

文獻[39]提出一種將人臉的結構信息合并到人臉超分辨率網絡方法,文獻將超分辨率生成對抗網絡(superresolution generative adversarial network,SRGAN)作為基礎網絡,并將網絡的殘差塊用密集塊替換來提高收斂效果,使用面部關鍵點的描述面部結構和面部輪廓的趨勢作為先驗信息,添加到人臉特征網絡層中提高人臉圖像重建的效果。

文獻[40]在特征提取階段采用多示例注意力機制進行人臉特征提取,以緩解低分辨率等不利因素對特征提取的阻礙。該文獻人臉表情識別為主,利用人臉性別和年齡雙屬性因子為輔,創造出一個多任務識別模型,使得在低分辨率的圖像中也具有一定的穩健性,提高識別準確率。由于使用的是基于注意力機制的多示例特征融合的方法,使得模型結構較為復雜,增加了運算量,進而會導致運算速度下降。

對于低分辨率圖像處理可分為兩種方式:第一類是超分辨率重建算法。使用人臉超分辨率方法將低分辨率的圖像構建成高分辨的圖像,使用重建后的圖像再進行人臉表情識別,這類方法是用于從小尺寸低分辨率圖像恢復大尺寸高分辨率圖像,因此適用于放大較小的人臉圖像。第二類應用于特征提取的方法。又可分為基于幾何的方法和基于外觀的方法[41]。基于幾何特征的方法是提取面部成分和形狀位置的特征向量,由于實時提取幾何特征相對困難,因此該方法不適用實時的人臉表情識別;基于外觀的方法,獲取整個面部或者未被遮擋的特定區域的人臉表情的紋理結構特征信息,再使用分類器識別不同人臉的表情。該類方法從人臉中可以提取具有較高區分度的不同類別之間的特征,從而達到更好人臉表情識別效果,如表3。

表3 噪聲遮擋的方法性能對比Table 3 Performance comparison of noise occlusion methods

2.3 姿態遮擋

人體旋轉會導致面部信息的缺失,而手勢等姿態更會在生活中造成自遮擋的情況。因此姿態遮擋下的表情識別,同樣會面臨面部遮擋的困擾。

文獻[42]提出了一種完全端到端級聯的卷積神經網絡(fully end-to-end cascaded convolutional neural network,FEC-CNN)結構。首先將標志點周圍的原始圖像裁切成區域塊,再由三個具有相同網絡結構的子卷積神經網絡進行特征提取并進行特征連接,最后通過網絡中全連接層進行預測。通過實驗證明,FEC-CNN能夠準確地檢測人臉標志點位置,并且對姿勢、遮擋等大變化具有穩健性。但由于為了實現更好的泛化性,因此該方法選擇進行數據增強,也增加了網絡過擬合的風險。

文獻[43]提出一種區域注意網絡(region attention network,RAN)來緩解卷積神經網絡模型對遮擋和姿勢變化環境中的性能的退化。該算法可以自適應地捕獲人臉區域信息的重要性,并在區域特征和全局特征之間做出合理的權衡。首先將人臉圖像進行固定或者隨機裁剪,將其裁剪成為多個區域,將裁剪的區域和整個人臉圖像輸入到主干卷積神經網絡模型中進行區域特征提取,然后自注意力模塊為區域進行分配注意權重,并使用選擇性區域偏損函數對RAN施加一個簡單的約束來調整注意權重,增強有價值的區域。該文獻對圖像進行裁剪區域可以擴大訓練數據,并且將區域重新縮放到原來圖像的大小,可以突顯出更為細微面部特征,使用區域偏向損失來提高重要特征點的權重。由于自注意力機制需要額外的監督機制來確保功能,因此在較大的遮擋和姿勢下,該網絡模型可能無法準確定位這些未遮擋的面部區域,網絡的泛化性較差,在一些數據庫中識別效果有待提升。

文獻[44]聚焦于未遮擋人臉區域的表情特征,提出了一種遮擋自適應深度網絡(occlusion-adaptive deep network,OADN)方法。遮擋自適應深度網絡由兩個分支組成,地標引導注意力分支和面部區域分支。首先利用ResNet50網絡對面部區域進行全局特征的提取,隨后地標引導注意力分支作用是利用標志點檢測定位引導網絡專注于未遮擋的面部區域。主要是利用這些檢測出的標志點的單元信息生成注意圖,通過注意圖對全局特征進行調制,引導模型濾除遮擋區域并著重于非遮擋區域。面部區域分支是為了緩解因為人臉嚴重遮擋時地標引導注意力分支的不準確性。主要方法是將特征映射劃分為非重疊的圖像塊,面部區域分支來訓練表情分類器,以此來學習互補的上下文信息從而增強穩健性。利用兩分支互補學習特征的特點,可以更有利地聚焦辨別力很好的面部區域。相比自我注意力機制的方法,提出該方法可以更準確地定位到非遮擋的面部區域。

文獻[45]提出了一種新的基于手勢的深度學習情感識別方法解決了因手部遮擋以及頭部旋轉的自遮擋而造成無法表情識別的問題。該方法與新的編碼模式相結合,從輸入的圖像中準確地提取出手勢,然后使用卷積神經網絡從輸入的人臉圖像中提取各種顏色和紋理特征,使用循環神經網絡(recurrent neural network,RNN)對提取的特征進行訓練生成情感類別。最終實驗的效果不僅大大提高情感識別的準確率而且還能識別比如自信、羞恥等一些高級情緒。

相對聚焦面部未遮擋區域的方法,還有研究者認為還原面部遮擋區域,最大程度地近似人臉圖像的未遮擋狀態,能夠獲得圖像中更多的表情信息。文獻[46]使用生成對抗網絡(generative adversarial network,GAN)對多角度的人臉表情進行識別,首先為了降低特征提取的難度,利用深度回歸網絡檢測人臉圖像的關鍵點進行人臉對齊,預處理之后可以去除圖像中的冗余信息,然后將人臉圖像輸入到GAN網絡的生成器中,在生成器中添加跳過連接使網絡能夠適應多角度圖像,在編碼階段生成器中的編碼器提取人臉圖像的人臉特征,將特征與新的人臉角度編碼信息融合輸入解碼部分,生成不同角度的人臉圖像,然后將多角度的人臉圖像輸入到卷積神經網絡中進行分類。

文獻[47]提出一種合成生成網絡(compositional generative adversarial network,Comp-GAN)來生成新的真實的人臉圖像來解決姿勢和復雜表情的變化問題,該網絡可根據輸入的圖像動態的改變表情和姿勢,同時還保留不包含表情的信息。

為解決深度學習中個體差異干擾,減少特征空間中相同表達的圖像之間的距離,文獻[48]提出一種基于GAN的特征分離模型,用于高純度分離表達相關特征和表達無關特征的Exchange-GAN,通過部分特征交換和各種損失函數的約束實現特征分離,可以獲得高純度相關情感特征,在人臉表情識別中,文中使用經過訓練的編碼器提取輸入圖像的特征,并將提取的特征分離為與表達無關的特征張量和與表達相關的特征張量,將與表達相關的特征張量部分特征輸入分類器進行人臉表情分類,在遮擋的人臉圖像提取特征時,可以將遮擋部分定義為與表達無關的特征張量,進而更專注于提取用于分類的相關特征。

文獻[49]提出基于幾何信息引導的GAN網絡結構,利用面部標志點為限制條件,為了合成任何表情和姿態的面部圖像。文中將面部圖像以及目標標志點作為信息輸入,網絡最終合成一張具有面部標志點為主題的新的人臉圖像,并在網絡中嵌入一個分類器,以方便圖像表情分類,有效地緩解了因姿態偏轉造成的面部遮擋問題。

然而為了提升GAN等深度學習網絡對樣本的表情識別率,最直接的網絡結構深度化、復雜化的設計思路已被不少研究者放棄,因為這種做法會增加算法運行的時間成本和設備成本。目前,越來越多的研究者秉承深度學習網絡的輕量化設計理念,開始將其應用于表情識別任務。文獻[50]提出了一種基于人臉分割的實時復雜表情識別框架。該框架包括人臉區域分割網絡(face segmentation network,FsNet)以及輕量級表情分類網絡(tiny classification network,TcNet)。FsNet采用全卷積的U型網絡結構分割出復雜環境人臉圖像中與表情識別相關的感興趣區域,避免了復雜環境下利用特征點分割人臉失敗的狀況,大幅度提升復雜環境下人臉表情識別的精度。然后使用深度可分離卷積、線性bottle-necks和倒置殘差結構構建的TcNet對分割的圖像進行表情分類。該方法可以減少網絡參數,提高運行速率;并且使用倒置殘差結構可以有效地緩解網絡特征退化問題。但該網絡對負面情緒的表情辨別能力仍有待提高。

對于姿態偏轉導致的遮擋,從處理遮擋的角度來說,研究方法大體可分為兩類:第一類是利用剩余可見信息的方法。通常檢測定位出人臉面部的關鍵點,利用這些關鍵點對人臉進行面部姿態矯正,或者在神經網絡中添加注意力機制,捕獲未被姿態偏轉遮擋的重要的人臉區域信息,有效地提取相關表情特征。第二類則是重建面部隱藏的部分。利用算法生成新的人臉圖像來解決姿勢導致的復雜表情問題,重建的優勢在于可以識別面部表情的整個面部的理想狀態,如表4。

表4 姿態遮擋的方法性能對比Table 4 Performance comparison of posture occlusion methods

2.4 實物遮擋

在實際的場景中,實物遮擋也是較為普遍的遮擋方式。日常所佩戴的口罩、眼鏡、帽子、圍巾等裝飾品都會導致面部信息遮擋,進而對計算機的分類識別帶來巨大的干擾。這些因素通常會讓模型提取的特征包含冗余的信息,從而失去判斷力,為提高人臉表情識別在真實場景下的性能,解決實物遮擋問題是非常必要的。

以往的面部出現實物遮擋時,對待遮擋的方法一般為兩種:基于整體的方法和基于部分的方法。基于整體的方法或將人臉作為一個整體直接識別,或對遮擋區域進行重建,以復原出完整的人臉。基于部分的方法通常是將圖片進行分割,然后獲取每一個分割塊的表情特征。文獻[51]提出了一種新的門控卷積神經網絡(patchgated convolutional neural network,PG-CNN),這是一個具有自注意力機制的卷積神經網絡結構,它可以關注面部圖像的不同區域,自動感知人臉的遮擋區域,并根據遮擋情況對每個區域進行重新加權,聚焦于信息量最大的且未遮擋區域,這樣可以減輕因遮擋而導致的信息缺乏問題。該網絡主要分為兩部分:區域分解和遮擋感知。首先圖像通過VGG網絡進行特征映射,然后使用PG-CNN網絡將整個人臉的特征圖分解成多個子特征圖,以滿足不同的局部補丁的獲得,使用PG單元為每塊的局部特征加權,為遮擋部分學習較低的權重,為未遮擋并且信息豐富的部分增加比較高的權重,最后將加權局部特征連接起來進行人臉遮擋表示。使用該方法可以減輕由于缺乏局部信息而造成的影響,可以很好地應用于真實場景的面部遮擋下的人臉表情識別,但是該方法靠地標定位方法來獲取遮擋部位,因此過度依賴于具有穩健性的人臉檢測模塊和人臉地標定位模塊。

文獻[52]提出了一種端到端的具有注意力機制的卷積神經網絡(convolutional neural network with attention mechanism,ACNN)學習框架,可以感知人臉的遮擋區域,并將注意力集中在最有分辨率的未遮擋區域。它在文獻[51]基礎上增加了為整個人臉的特征映射進行全局加權,將加權的全局面部特征與局部表示相連接作為遮擋表示,由于全局區域與局部區域的不同,文獻使用基于局部的ACNN(pACNN)進行局部面部塊的特征提取,而使用全局-局部的ACNN(gACNN)將局部表示和全局表示進行集成。pACNN可以關注大多數相關的局部補丁,而gACNN借助全局加權的特征獲得更好的準確率,可以提供pACNN中被局部補丁忽略的基本上下文信息,識別率有所提高。

文獻[53]提出一種基于空間注意機制的光注意嵌入網絡(light attention embedding network based on the spatial attention mechanism,LAENet-SA),使用DenseNet和ResNet作為主干網絡構成LAENet樣本,替換原始主干網絡的較低卷積層,并在每個結構化CNN塊之間嵌入注意塊。SA模塊通過根據表情標簽的監督自適應地重新校準空間特征圖,使得網絡專注于面部表情相關的重要面部局部區域,通過SA模塊數量最小,以限制模塊復雜性的增加,可以將注意掩碼應用于不同層次的LAENet-SA中使用,可以增強淺層和深層情感相關的局部特征,以獲得更優的特征提取。通過實驗證明基于DenseNet的LAENet-SA在不同的人臉表情數據集中有很好的泛化能力,而基于ResNet的LAENet-SA執行時間短,但在特定的數據庫中識別效果好。

文獻[54]從全局和局部的角度提出一種全局多尺度局部注意網絡(multi-scale and local attention network,MA-Net),由于在卷積神經網絡中較淺的卷積具有較窄的感受野,所以可以降低遮擋帶來的敏感性,從而學習更全面的特征。在單個基本塊中提取多尺度特征,而不是以分層方式獲取多尺度特征。所提出的MA網絡能夠獲得穩健的全局和局部特征,MA網絡中的特征預提取器利用兩個ResNet網絡構建基本塊獲取中間層次的人臉特征。設計一個二分支網絡對提取的特征圖進行處理,一個是多尺度模塊來提取全局特征,將提取的整個特征圖作為輸入,由于融合不同感受野的特征,有效降低深度卷積對遮擋的敏感性;另一個是用局部注意力模塊更專注于幾個不重疊的區域特征圖的局部顯著特征,消除遮擋的干擾。最后使用決策融合進行分類。該網絡具有很強的穩健性,在一些常見的野外數據集都實現了很好的性能,但是圖片出現模糊的情況時便會降低識別率。

現有的一些方法通常是將整個面部作為一個特征源來進行人臉表情分析,但是心理學研究表明,對于人臉表情貢獻最大是眼睛和嘴巴等關鍵區域,這些區域通常與表情的表達有著密切的聯系。文獻[55]提出了關系卷積神經網絡(relation convolutional neural network,ReCNN),該框架是一種端到端的體系結構能夠自適應地捕捉關鍵區域和面部表情之間的關系,并聚焦于最具辨別力的區域,使用兩級關系模塊計算關系權重,關系權重用于量化關系,可以著重關鍵區域。該網絡分為三個模塊,特征提取模塊使用VGG-Face來提取整個人臉的全局特征圖,利用關鍵區域生成模塊基于面部肌肉運動來提取具有代表性的關鍵區域,關系模塊用來發現和利用關鍵區域和面部表情之間的關系。

文獻[56]提出含有三元損失函數的師生訓練方法,在最后的分類或回歸層之前的一層激活函數使用三元損失函數。在神經網絡中,利用三元損失函數對于同屬一類的物體產生接近的嵌入,對不同屬一類的物體產生較遠的嵌入的特點。來對遮擋的人臉進行表情識別,該種方法可以應用于大面積遮擋的人臉表情識別,但是在下半臉遮擋的情況下,算法性能有待提高。

文獻[57]針對口罩遮擋下的人臉表情識別,提出了一種改進的Xception網絡模型,即M-Xception Net(modified Xception net)方法。該方法簡化了Xception的參數,保留了殘差機制和可分離卷積特征。在保證網絡輕量級特性的同時,還保留了Xception模型將低層次特征與高層次特征進行融合的特性。但是該方法傾向于識別負面情緒,對蘊含正面情緒的人臉表情圖像的識別效果不明。

文獻[58]提出了一種針對佩戴虛擬現實眼鏡造成人臉上部遮擋的面部表情識別方法。首先使用幾何模型進行遮擋模擬,然后使用遷移學習學習不同數據集的圖像在卷積之后相似的低級特征,最后使用VGG和ResNet網絡對嚴重遮擋的面部表情進行分類。加入遷移學習,可以減少從頭訓練的成本,更好地提高計算速度,但是由于對眼部進行模擬遮蓋,對真實場景下的訓練結果還未知,對于不同的數據集的識別理想效果不一。

對于實物遮擋的圖像,通常也會采用遮擋區域重構的方法進行研究。文獻[59]提出一種用原始數據的未損壞區域重建被遮擋區域的方法,以達到人臉圖像重建的效果。文中基于人臉大致對稱的現象,提出另一半未遮擋的人臉來重建有遮擋區域的遮擋部分,從而降低遮擋的影響。文獻分別從整個面部遮擋級別、半面上的塊遮擋級別以及遮擋眼睛、鼻子和嘴等部位多種方式進行遮擋處理,使用AlexNet對人臉圖像的各種遮擋進行特征提取分類,通過結果測試卷積神經網絡與翻轉策略的結合可以大大提升遮擋影響下的人臉識別精度。遮擋策略用于一半臉出現遮擋時效果較好,但如果遮擋出現在無法使用翻轉策略的區域時,此種方法便不再適用。

文獻[60]提出了一種基于對稱快速尺度不變特征檢測器和描述符(SURF)和異構軟分區的新框架,首先利用快速遮擋檢測模塊來檢測出被遮擋的區域,將面部特征點檢測算法用于遮擋部分的初步檢測,并計算圖像梯度并設置閾值得到遮擋區域,然后基于對稱轉換的無監督人臉修復模塊用來進行遮擋修復,根據人臉特征點檢測算法建立的關鍵點坐標找到遮擋部分利用水平翻轉用原始圖像替代遮擋區域,最后利用基于異構軟分區的人臉識別網絡進行表情分類。這種方法不僅耗時更少,而且計算量也更少。通過實驗證明,相比遮擋的圖像復原塊重建之后的人臉表情識別率大幅度提高。

文獻[61]提出了兩階段的遮擋感知生成對抗網絡(occlusion-aware GAN,OA-GAN),第一個生成器合成相應的遮擋圖像;而第二個生成器在前者生成的遮擋圖像的條件下生成無遮擋的圖像。這樣可以透明地去除真實世界的遮擋,最大程度地保留有價值的表情特征,使得去除遮擋的過程具有可解釋性。

文獻[62]提出基于并行GAN網絡的有遮擋的動態表情識別方法。對Inception網絡進行改進作為生成模型的編碼器,相比傳統的生成模型,采用雙線路對圖像進行補全。首先使用并聯網絡(Para inception network,P-IncepNet)對人臉表情特征進行提取。然后將所提取的特征輸入循環網絡(long-short term memory,LSTM)增強視頻中的時間信息編碼。

文獻[63]基于WassersteinGAN(WGAN)網絡提出了一種穩健的面部表情識別方法,可以通過抑制類內差異和新的數據驅動特征提取框架來突出面部特征,然后建立人臉表情識別任務和身份識別任務之間的對抗關系,以抑制人臉表情特征提取過程中身份信息引起的類內差異來提高表情識別的準確性和穩健性。

文獻[64]針對有局部破損或遮擋的低質人臉圖像設計了一個端到端的網絡模型,將存在局部遮擋的人臉圖像作為生成對抗網絡的輸入,利用對抗損失將遮擋區域進行復原。在分類過程中使用低質人臉表情損失、修復人臉表情損失和原始人臉表情損失三類分類約束判別損失函數構建分類器,對圖像進行表情分類。修復后的圖像在算法識別率上得到大幅度提升。由于是人工遮擋,遮擋區域主要聚焦于眼部以及嘴部。因此與真實場景下的遮擋情況相比,缺乏多樣性,這會影響算法在實際應用中的識別效果。

不同人產生的相同表情在面部運動方面有著很強的相似性,并且不依賴于人的身份信息。文獻[65]提出了一種具有跳躍鏈接的自動編碼器的新方法,以在光流域中重建遮擋部分。該方法利用所有可見部分進行重建,因此重建的圖像具有更高的可信度,對于眼睛遮擋的圖像有著很大的改善。但伴隨著重建圖像真實性的提高,算法也變得更加復雜,如表5。

表5 實物遮擋的方法性能對比Table 5 Performance comparison of physical occlusion methods

對于實物遮擋的遮擋方法可根據數據庫的類型分為靜態表情識別方法和動態表識別方法。

靜態人臉表情識別方法可分為三類:第一類是基于人臉關鍵點的方法,由于人的面部可以被劃分為多個人臉關鍵點標識,即使面部被部分遮擋,仍可關注未遮擋區域的關鍵點,因此提出注意力分支來引導神經網絡關注無遮擋區域的關鍵點進行表征學習,來獲取更多的情感信息;第二類是基于人臉局部區域的方法。將圖片分解成較小的區域塊,通過加入注意力機制模塊可以自適應的捕獲人臉區域的重要特征信息,對未遮擋且重要的區域進行較高權重的分配,來提高相關特征的重要度;第三類是基于重構遮擋的方法。試圖通過恢復紋理、幾何形狀以及面部運動來重建人臉。利用一些方法對遮擋部分進行遮擋重構處理來去除遮擋,盡可能地還原圖像,從而減少面部遮擋帶來的信息損失。

動態表情識別方法可分為三類:第一類是基于人臉關鍵點軌跡的方法。獲取人臉關鍵點軌跡,則是依據人臉生理結構捕捉人臉形狀特征在時間序列內的動態變化。第二類是基于時序編碼的方法。提取有表情判別能力的空間特征然后將該信息依次輸入到時序網絡中進行時序信息的編碼。第三類是基于多任務網絡的方法。訓練多個網絡來捕捉時間信息和空間信息,然后將其輸出加權融合。

3 總結與展望

人的面部獨特性對于人類的身份以及情感分析具有非凡的意義,通過利用人臉進行表情識別將對人們的工作、學習、生活都將帶來極大的便利[66]。但這項技術仍然面臨著諸多的挑戰。遮擋表情識別可以在以下方面開展深入研究:

(1)從實驗數據入手,建設以實踐為導向的專業數據庫

遮擋表情識別是一個剛剛起步的研究領域,因此在實驗過程中缺乏專業的、多樣的、大型的人臉表情數據庫[67]。研究者為了解決這一問題,通常采用兩種方式:其一、在專業的無遮擋表情數據庫上,采用人工遮擋的方式獲取面部遮擋圖像。例如:文獻[58]為了解決沒有佩戴VR頭戴設備人群的數據庫,便使用標準的面部表情圖像的上區域進行遮掩,實現相應的遮擋需求。文獻[68]為了使用遮擋圖像對網絡進行訓練,使用一定大小的遮擋塊對現有的無遮擋數據進行模擬遮擋操作;其二、搜集網絡圖片或自建小型的面部遮擋數據。例如:文獻[69]自建一個新的多模態數據庫來進行情感識別。但是這兩種做法的局限性較為突出,前者與真實情況有出入,而且表情類型受限于源數據庫;后者搜集的樣本面臨著表情類別標記問題。自建圖像庫則受限于規模,而且亟需行業內的認可。

針對這一問題可以通過兩個方面加以完善。首先,遠期目標是建立自然場景下的專業的大型數據庫。以便研究在真實環境下,遮擋物的材質、大小、形狀、位置等不同屬性對人臉表情識別帶來的挑戰,增強算法的泛化能力,降低實驗數據與真實數據的距離。

其次,近期目標是在現有數據庫的基礎上進行深度開發。一方面在算法上入手,研發針對小樣本數據集的面部遮擋表情識別算法。例如:文獻[70]就基于SIFT算法不依賴大數據的特點,利用融合模型解決了卷積神經網絡依賴大數據集訓練的問題,提高在小樣本集中的準確率;另一方面在數據上入手,針對目前面部遮擋條件下,對復合表情[71]識別研究不足的現狀,積極開展對現有數據集進行復合表情標注與識別的研究。提高對遮擋圖像的復合表情識別的研究深度。

(2)從模型方法入手,設計以實踐為導向的輕量級網絡

深度學習成為了席卷表情識別領域的一股浪潮。為了提高深度學習模型的表情識別率,普遍的網絡設計方法是通過堆疊網絡層增加尺度和深度。此類模型往往具有復雜的結構,并且占用著大量的計算資源。這使得它們很難部署在移動端等常見的軟件應用平臺之上。因此降低網絡復雜度,構建以實踐為導向的輕量級網絡,成為了遮擋表情識別研究的另一個重要方向。目前出現的輕量化手段有兩種:一種是在現有網絡基礎上的模型輕量化處理。常見方法有剪枝、量化、低秩分解、教師-學生網絡[72]等;一種是構建專門的輕量化模型。例如:經典的輕量化模型SqueezeNet,通過設計的Fire模塊將原始的卷積層進行分解,從而達到減少模型參數,提高運算速度的目的。

然而,與遮擋表情識別任務相匹配的輕量級網絡研究仍處于起步階段,因此本領域亟待研究者鉆研、開拓。

(3)從研究思路入手,開展以實踐為導向的多領域研究

遮擋表情識別的研究不能局限于人臉識別和表情識別的一般思路。應該從實踐出發,結合多領域的研究成果,拓展該項研究在交叉學科下的發展。

首先,結合在測謊、國民安全等領域發揮重要作用的微表情理論,探索人臉部分遮擋下的表情識別研究。

從理論上看,面部遮擋條件下表情識別的準確性取決于對局部人臉細節的精確把握。而微表情正是面部肌肉細微運動下展現的表情形態。因此,遮擋表情識別正是微表情應用的直接領域。目前微表情研究成果多與表情識別中的面部行為編碼系統相結合。通過人臉動作單元[73]描述臉部,即,有運動產生的表觀變化。例如:文獻[74]使用一種基于動作單元注釋的新型GAN網絡調節方案,使得GAN網絡生成的圖像對光照變化以及各種遮擋具有一定的穩健性。然而微表情的主攻方向是心理學,很多研究成果還不具備自動化計算的基礎,仍需要多學科研究者的密切配合才能實現。

其次,結合在人機交互領域發揮重要作用的多模態情感計算技術,探索人臉部分遮擋下的表情識別研究。

在遮擋條件下,研究者雖然無法獲取遮擋區域的完整表情細節,但卻可以另辟蹊徑,繞開面部視覺特征,從其他角度獲取情感信息。進而緩解遮擋帶來的表情識別阻礙,催生出更優的方法來處理人臉部分遮擋問題,綜合各種情感特征,實現情感判斷。例如:文獻[75]認為情緒化的肢體語言也是情感識別的重要參考依據,并總結出從身體姿態來進行識別情感的相關研究。文獻[69]使用顏色、深度和熱視頻來識別維度域中的面部表情。文獻[76]使用熱模態的頭部運動和皮膚溫度的信息用于面部表情識別當中。

綜上所述,遮擋表情識別是人臉表情識別從實驗室走向實際應用過程中,亟待解決的重要技術難題。解決這一問題,對于模式識別領域相關技術的落地也會起到重要的指導作用。

猜你喜歡
數據庫特征區域
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
關于四色猜想
分區域
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 亚洲成人黄色在线| 欧美在线视频a| 亚洲国产中文在线二区三区免| 日韩 欧美 国产 精品 综合| 国产精品成人AⅤ在线一二三四| 久久99精品久久久久纯品| 一区二区三区国产精品视频| 三级视频中文字幕| 欧美国产成人在线| 日本欧美在线观看| 重口调教一区二区视频| 青青青视频蜜桃一区二区| 久久久久久久蜜桃| 久久综合一个色综合网| 国产成人凹凸视频在线| 99热这里只有精品国产99| 一区二区偷拍美女撒尿视频| 欧美 国产 人人视频| 欧美精品一二三区| 四虎国产精品永久一区| 香蕉99国内自产自拍视频| 91久久国产综合精品| 在线日本国产成人免费的| 久久国产免费观看| 久久久久人妻一区精品| 丰满少妇αⅴ无码区| 日韩无码视频网站| 99在线国产| 欧洲精品视频在线观看| 亚洲欧洲免费视频| 99热这里都是国产精品| 综合色区亚洲熟妇在线| 波多野结衣一二三| 亚洲经典在线中文字幕| 呦系列视频一区二区三区| 无码日韩精品91超碰| 大香网伊人久久综合网2020| 黄片一区二区三区| 国产成人1024精品| 免费看一级毛片波多结衣| 日本久久网站| 99热这里只有精品免费| 久久久精品国产SM调教网站| 高清不卡一区二区三区香蕉| 免费国产高清视频| 精品欧美日韩国产日漫一区不卡| 精品久久久无码专区中文字幕| 国产尤物jk自慰制服喷水| 最新日本中文字幕| 成年人午夜免费视频| 麻豆精品久久久久久久99蜜桃| 亚洲国产欧美目韩成人综合| 亚洲高清在线播放| 四虎影视库国产精品一区| 欧美日韩国产成人在线观看| 亚洲成在人线av品善网好看| 欧美成人综合在线| 国产精品私拍99pans大尺度| 免费高清自慰一区二区三区| 成年A级毛片| 国产99视频精品免费视频7| 这里只有精品免费视频| 亚洲欧美国产五月天综合| 久久久久免费精品国产| 日本中文字幕久久网站| 在线观看欧美精品二区| 青青青国产免费线在| 91人人妻人人做人人爽男同| 国产成在线观看免费视频| 国产永久在线视频| 久久国产精品娇妻素人| 波多野一区| 中文字幕久久精品波多野结| 日韩高清一区 | 欧美亚洲激情| 国产尤物在线播放| 无码网站免费观看| 天堂岛国av无码免费无禁网站| 亚洲人成色77777在线观看| 亚洲成A人V欧美综合| 99热这里只有精品在线观看| 人人妻人人澡人人爽欧美一区 |