999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用深度學習方法的非正面表情識別綜述

2021-04-23 04:29:12張秋聞張煥龍
計算機工程與應用 2021年8期
關鍵詞:深度數據庫特征

蔣 斌,鐘 瑞,張秋聞,張煥龍

1.鄭州輕工業大學 計算機與通信工程學院,鄭州450001

2.鄭州輕工業大學 電氣信息工程學院,鄭州450002

人的面部表情蘊含著豐富的情感信息,在人們溝通交流的過程中起到了積極和重要的作用。1971年,心理學家Ekman 與Friesen[1]研究提出了人類的六種基本情感的概念,即:生氣(anger)、高興(happy)、悲傷(sad)、驚奇(surprise)、厭惡(disgust)和恐懼(fear)。基本情感有效地歸納了面部表情的種類,有利于一般表情類別的確定。1978年,二人又在前期研究的基礎上,創建了人臉運動編碼系統(Facial Action Coding System,FACS)[2],該系統根據面部肌肉的類型和運動特征,定義了運動單元(Action Unit,AU),使得人臉面部存在的各種表情和動作,最終能分解為不同的AU 或AU 組合。進一步明確了對復雜表情類別的描述,為后續表情分析與識別的深入研究,奠定了堅實的基礎。

伴隨著人工智能領域的進一步發展,人臉表情識別作為該領域的一項重要研究內容,吸引了研究者們的廣泛關注。目前,大多數人臉表情識別對象集中在正面或接近正面的人臉表情圖像上。但是在現實環境中,獲取正面人臉表情圖像或視頻的情況并不是一種常態。多數情況下,識別對象的頭部一直處于運動狀態。設備拍攝到的人臉圖像多處于非正面角度,甚至包括上下、前后等更復雜的運動形式。當偏轉角度大于45°時,還會造成人臉被大面積遮擋情況的發生。針對現實環境中人臉表情識別面臨的問題,更符合實際需求的非正面人臉表情識別技術逐漸發展起來。非正面人臉表情識別就是針對在自然狀態下、人臉偏轉時,如何識別面部表情類別的問題而展開的。與正面人臉表情識別相比,非正面表情識別不但需要檢測非正面的人臉圖像,而且需要考慮頭部姿態估計的問題。非正面表情識別的一般流程如圖1所示。

圖1 非正面表情識別流程圖

然而目前對非正面表情識別問題進行分析的綜述論文較少[3],而且經常用于表情識別的經典機器學習算法多屬于淺層學習模型,即只采用單層結構將人臉圖像轉換到表情特征空間中。由于淺層模型的單一性限制了該類算法對復雜分類問題的表達能力,所以在非正面表情識別上,經典的機器學習方法往往不能達到令人滿意的結果。

與淺層模型相比,深度學習方法可以通過學習深層非線性網絡結構,模擬更加復雜的函數。因而在分類識別問題上有著顯著的優勢。此外,深度學習方法還用監督或半監督式的特征學習和特征提取算法來替代手工方法,獲取人臉圖像特征,進而很好地避免了人為獲取人臉圖像特征所帶來的誤差。研究者們發現,深度學習的這些優點在解決非正面表情識別問題上,具有其他機器學習方法無法替代的優勢。所以近幾年,表情識別的研究熱點已逐漸轉向了深度學習。

如圖2所示,基于深度學習的表情識別系統主要包含三個步驟:首先,針對輸入樣本(圖像或視頻)進行預處理;其次,將處理好的圖像輸送到深度學習模型中進行特征提取;最后,將提取到的表情特征對分類器進行訓練,進行依靠訓練后的分類器正確地預測樣本的表情類別。然而,在深度學習方法中,特征提取和分類的過程均可由深度學習模型自行完成。所以上述過程又可分為兩步,即非正面表情樣本預處理,以及基于深度信息的非正面表情分類。

圖2 基于深度學習的表情識別流程圖

1 針對表情識別的人臉數據庫

由于非正面表情樣本的特點,使得預處理方式包括:人臉檢測與驗證、頭部姿態估計、光照與尺度歸一化處理等。研究者可根據需要,針對不同的輸入樣本進行選擇。與實時采集的數據相比,由專業機構制作的人臉表情數據庫由于具有背景簡單、噪聲干擾小等優點,更受到多數研究者的青睞。目前,國內外的常用的標準數據庫可根據頭部姿態的不同,分為正面表情數據庫和非正面表情數據庫,本文將國內外常用數據庫按照靜態表情數據庫(如表1所示)與動態表情數據庫(如表2所示)進行分類匯總。

1.1 正面表情數據庫

在正面表情數據庫中,日本ATR人類信息處理研究實驗室和日本九州大學心理學系建立的日本女性人臉表情數據庫(Japan Female Facial Expression,JAFFE)[4],是最常用的一個靜態圖像數據庫。該庫包括10名日本女性共213 幅靜態圖像,每人有6 種基本表情和中性表情,每種表情有2~4幅圖像。

而在動態圖像數據庫方面,美國卡內基梅隆大學發布于2010 年的CK+數據庫[5]則是其中的佼佼者。該庫在實驗室環境下記錄了年齡在18至50歲之間的210名成年人的正面表情,具體包括123 個對象的593 個圖像序列。經過篩選,其中的327 個圖像序列滿足8 類表情的分類標準,即生氣(anger)、輕視(contempt)、厭惡(disgust)、恐懼(fear)、高興(happy)、中性(neutral)、悲傷(sadness)和驚奇(surprise)。

表1 常用靜態數據庫

表2 常用動態視頻數據庫

就視頻數據庫而言,奧盧大學和中國科學院模式識別實驗室于2010 年發布的Oulu-CASIA 數據庫[6]從80名受試者中收集了2 880 個視頻,每個視頻在采集過程中都經歷了3種不同程度的照明條件。在視頻中,每位受試者被要求展示6種基本的情感表達,即生氣、厭惡、恐懼、高興、悲傷和驚奇。

1.2 非正面表情數據庫

在非正面表情數據庫中,荷蘭代爾夫特理工大學的MMI(Man Machine Interaction)數據庫[7],是一個參與者眾多、在線、開源的網絡數據庫。目前已經采集了超過50個人的視頻和圖像,表情類別包含了FACS的各種動作單元。

Binghamton 大學的BU-3DFE 數據庫[8]將數據格式從二維圖像擴展到三維模型。該庫包括了具有2 500個面部表情模型的對象。100名被采集者中,女性占56個,男性44 個,每個樣本執行了7 個表情,分別是中性、高興、厭惡、恐懼、生氣、驚奇和悲傷。2008年,為了分析從靜態三維空間到動態三維空間的面部行為,Binghamton大學又將該庫擴展到四維(BU-4DFE[9]),即三維+時間維。該庫包含了亞裔、非裔、拉丁裔等多個人種,總計約60 600個框架模型。

2008 年,Bogazici 大學發布的Bosphorus 數據庫[10]是依靠基于結構光的三維系統采集而來。該庫由81個不同姿勢、表情和遮擋條件的被采集樣本組成。每個掃描樣本已手動標記了24 個面部關鍵點,便于研究者實現對關鍵點的檢測及跟蹤。

2010 年,卡內基梅隆大學創建了Multi-PIE[11]數據庫。為了系統地捕捉具有不同姿勢和照明的圖像,在拍攝面部表情的過程中,337 個志愿者從15 個視角、19 種照明條件下,拍攝了超過750 000 張照片。具體表情包含厭惡(disgust)、中性(neutral)、尖叫(soream)、微笑(smile)、斜視(squint)以及驚奇(surprise)。

2010年,奈梅亨拉德布德大學(Radboud University Nijmegen)建立的RaFD(Radboud Faces Database)數據庫[12]包含了67位表演者,同樣包括了不同的年齡、性別、膚色等。該數據庫共包含8種基本表情:高興、悲傷、厭惡、驚奇、恐懼、生氣、輕蔑以及中立表情。每種表情有5 種不同的姿態,3 種不同的眼神方向,共有8 400 張人物圖像。

Acted Facial Expressions in the Wild(AFEW)[13]數據庫,包含從不同電影收集的視頻剪輯,其中具有自發的表情、不同頭部姿勢、遮擋和照明的多種表情。樣本標有6 種基本表情標簽加中性表情。此數據集在不斷更新中,2017年EmotiW最新的AFEW 7.0包含1 809個視頻。

2013 年,在ICML2013 挑戰賽中引入FER2013[14]數據庫,由Google圖像搜索API自動收集的大規模且無約束的網絡數據集,包含28 709張訓練圖像、3 589張驗證圖像和3 589張測試圖像。

2015年,由堪培拉大學視覺與傳感組截取的電影畫面構成SFEW2.0[15]數據庫,該數據庫圖像均處于自然場景下,而非理想實驗室環境,包含7種表情(生氣、厭惡、恐懼、高興、中性、悲傷、驚奇),總共有1 766張樣本圖像。

2016 年,俄亥俄州立大學發布了一個大型數據庫EmotioNet[16],具有從Internet收集的一百萬個面部表情圖像。其中的自動行動單元(AU)檢測模型對總共950 000張圖像進行了注釋,而其余的25 000 張圖像則由11 個AU進行了人工注釋。

2017 年,丹佛大學發布了包含超過一百萬張來自Internet 的圖像數據庫AffectNet[17],這些圖像是通過使用與情感相關的標簽查詢不同的搜索引擎而獲得的。它是迄今為止最大的數據庫,它以兩種不同的情感模型(分類模型和維度模型)提供面部表情,其中450 000 張圖像具有手動注釋的用于8種基本表情的標簽。

2018年,由倫敦帝國理工學院和倫敦米德爾塞克斯大學發布的4D Facial Behaviour Analysis for Security(4DFAB)Database[18]數據庫,具有超過1 800 000 張高分辨率3D面孔,記錄了在5年期間的4個不同會議中捕獲的180個主題。它包含對象的4D動態視頻,顯示6個基本表情的自發性和姿勢性面部表情。

相比之下,國內的數據庫較少,隨著深度學習方法在圖像處理領域的廣泛應用,研究人員對圖像數據庫的需求與日俱增,建立大規模的圖像數據庫是當前急需解決的問題。

2004 年,清華大學建立的人臉表情視頻數據庫[19],包括了70個人的1 000段臉部表情視頻,涵蓋了常見的8類情感類表情和中文語音發音的說話類表情。

2007 年,北京航空航天大學建立的BHU(Beihang University)人臉表情數據庫[20]是一個較為全面的人臉表情數據庫,包含3類人臉表情:單一表情、混合表情和復雜表情。

2008 年,中國科學院發布的CAS-PEAL(Chinese Academy of Sciences-Pose Expression Accessory and Lighting)人臉數據庫[21]包含了1 040 個人的6 種面部表情和動作,包括中性、閉眼、皺眉、微笑、驚奇和張嘴。

2017年,北京郵電大學建立了Real-world Affective Face Database(RAF-DB)[22-23]數據庫,其中包含從Internet下載的29 672 個高度多樣化的面部圖像。通過手動眾包注釋和可靠的估計,為樣本提供了7個基本和11個復合情感標簽。具體而言,將來自基本情感集的15 339張圖像分為兩組(12 271個訓練樣本和3 068個測試樣本)進行評估。

2018年,香港中文大學建立的The Expression in-the-Wild Database(ExpW[24]),包含使用Google 圖像搜索下載的91 793 張臉孔。每個面部圖像都被手動注釋為7個基本表情類別之一。

2 針對表情識別的深度學習方法

深度學習是一種模擬人腦活動的網絡結構。該類方法可以將原始數據通過一些簡單的、非線性的、多層次表征模型,轉變成為更高層次的、更加抽象的表達[25]。在處理人臉圖像數據時,深度學習通過多層次的結構來學習人臉表情特征,與傳統的機器學習相比,深度學習可以依靠自己的學習過程來進行人臉表情特征的提取,將提取到的表情特征融合成更復雜抽象的特征,再輸入到表情分類器進行表情分類。因此結構模型的層數越多,學習到的表情特征更高級,深度學習網絡的性能就會更強。目前基于深度學習的非正面表情識別方法,主要包括:基于卷積神經網絡的識別方法、基于深度置信網絡的方法、基于遞歸神經網絡的方法、基于深度自動編碼器的方法,以及基于生成對抗式網絡的方法,以上幾種算法比較如表3所示。

2.1 基于卷積神經網絡的識別方法

卷積神經網絡(Convolutional Neural Networks,CNN)[28]是一個具有層次結構的多層感知器。如圖3所示:一個基礎的CNN 是由輸入層(input)、卷積層(convolution)、激活層(activation)、池化層(pooling)、全連接層(fully connecter)以及輸出層(output)組成的。

表3 用于表情識別的深度學習算法比較

圖3 卷積神經網絡結構示意圖

卷積層是網絡中最核心的模塊。主要作用是對圖像進行特征提取;激活函數是用來模擬人的神經系統,只對部分神經元的輸入做出反應。對卷積層的輸出做一次非線性映射,不僅可以增加網絡的表示能力,還能使網絡具備良好的非線性建模能力;池化層主要作用是數據降維,從而減少計算量、內存使用量以及參數的數量,在一定程度上降低過擬合的可能性和提高模型的容錯性;全連接層一般是CNN 網絡中的最后一層。在經過卷積層、激活層、池化層進行特征提取之后,得到的結果作為全連接層的輸入。損失函數用來衡量錯誤的程度以及用來指導網絡訓練的大體方向。它表示了預測值與真實值的不一致程度,即通過損失函數來計算樣本預測分類的結果與真實類別的誤差,利用反向傳播算法將誤差向前傳播,從而指導網絡的參數訓練。在表情識別中,該方法可以對圖像的相關特征和圖形的拓撲結構進行自行提取。從CNN 提出至今,已出現了多種模型。2.1 節將對經典的CNN 模型進行詳細介紹,并對不同模型的性能進行對比。

2.1.1 LeNet

LeNet 是LeCun 等[29]在1998 年設計的最早用于手寫數字識別的卷積神經網絡。具體結構如圖4[29]所示。

經典的LeNet-5 網絡模型由一個輸入層、兩個卷積層、兩個池化層、兩個全連接層和一個輸出層組成,每層都包含不同的訓練參數,是其他深度學習模型的基礎。

文獻[30]在LeNet-5網絡的基礎上對網絡結構和內部結構進行了優化和改進。添加批量規范化,解決不同特征帶來的網絡模型過擬合問題。選擇最大重疊池化和平均重疊池化減少數據量的同時,充分提取表情特征,有效提高了識別的準確率,增加了對光線、姿勢和遮擋物狀態下識別人臉表情的魯棒性。但是還需將網絡參數量大、運算量大、對運算設備要求高的問題考慮進去。文獻[31]針對局部遮擋問題,提出改進的交叉鏈接多層LeNet-5 卷積神經網絡模型。在LeNet-5 的基礎上增加卷積層和池化層,從網絡結構中提取的低級特征與高級特征相結合構造分類器,最后,使用Softmax分類器進行分類識別,在遮擋條件下具有較高的識別率。

2.1.2 AlexNet

2012 年,AlexNet[32]獲得ILSVRC2012 比賽冠軍,如圖5[32]所示,該網絡模型使用雙GPU 并行訓練,在LeNet-5 的基礎上增加了激活函數ReLU,防止梯度消失,加速網絡訓練速度;網絡使用數據增強并在全連接層使用Dropout,防止模型過擬合問題;提出LRN層,提高模型精度。

圖4 LeNet-5網絡結構圖

圖5 AlexNet網絡結構圖

文獻[33]提出了一種基于LBP 特征映射與CNN 相結合的人臉表情識別算法。首先,將原始圖像進行LBP特征映射之后,再送入改進后的AlexNet網絡,最后,將LBP特征映射與CNN結合進行特征融合。該方法對光照變化具有很好的魯棒性。

2.1.3 VGGNet

VGG 網絡[34]由牛津大學視覺組和Google Deep-Mind 公司的研究員于2014 年提出,獲得ILSVRC-2014中定位任務第一名和分類任務第二名。如表4 所示,VGGNet由5個卷積組、2個全連接特征層和1個全連接分類層組成。該網絡實驗證明,AlexNet中LRN層對性能的提升并無作用且浪費內存計算的損耗,且在AlexNet的基礎上進行改進,使用較小的卷積核,較深的網絡層次來提升深度學習的效果。

表4 VGGNet網絡結構

文獻[35]提出了一種端到端可訓練的補丁門控卷積神經網絡(PG-CNN),它可以自動感知人臉的遮擋區域,并聚焦于最具甄別性的未遮擋區域。該網絡以人臉圖像作為輸入,圖像被饋入VGG網絡,并以某些特征圖的形式表示;然后,PG-CNN 將整個人臉的特征圖分解為24 個子特征圖,用于24 個局部patch,每個局部patch被編碼為一個加權的局部特征向量;最后,將加權后的局部特征進行級聯,作為被遮擋人臉的表征。文獻[36]使用改進的VGGNet網絡對表情圖像進行特征提取,以解決傳統方法在表情特征提取方面特征表現能力不足的缺點,再將VGGNet 的最后一個全連接層去掉,設計一個4層神經網絡模型對表情特征進行訓練,在全連接層中添加BN層,使得每一層之間不會發生偏移。添加Dropout層,使整個網絡變得稀疏,降低網絡參數量。

2.1.4 GoogLeNet

GoogLeNet[37]在2014 年的ImageNet 比賽中獲得第一名,該架構吸收了網絡串聯網絡的思想,并在此基礎上做了很大改進,在AlexNet的基礎上,將多個不同尺寸的卷積核和池化層串聯形成Inception結構,以找出最優的局部稀疏結構并將其覆蓋為近似的稠密組件,大幅度減少參數數量,提升對網絡內部計算資源的利用。

如圖6 所示,Inception 網絡結構里有4 個并行的分支,前3 個分支使用3 個不同尺寸的卷積核來提取不同空間尺寸下的信息,中間兩個分支用1×1 的卷積核減少輸入的通道數,以降低模型復雜度,第4 個分支則使用3×3 最大池化層,后接1×1 卷積核來改變通道數。在經過4個并行的分支對輸入圖像進行處理后,再將每個分支的輸出在通道維度上連結,最后輸入到下一層。

圖6 Inception模塊

文獻[38]在GoogLeNet深度神經網絡中引入Dropout方法,有效地減少了過擬合給訓練過程帶來的影響。文獻[39]提出了一種深度神經網絡結構。網絡包括兩個卷積層,每個層后面是最大池化層,然后是4個Inception層,該架構在7 個公開的面部表情數據庫(MultiPIE、MMI、CK+、DISFA、FERA、SFEW 和FER2013)上進行了綜合實驗,其結果與最先進的方法相當,甚至更好,并且在精度和訓練時間方面優于傳統的卷積神經網絡。

2.1.5 ResNet

針對深度學習的表情識別研究中,傳統的提高識別精度的直接方法往往依靠網絡深度的增加。然而簡單通過疊加卷積層的方式來增加網絡深度,有時并不能改善識別效果,反而使梯度減緩和梯度消失的現象變得十分嚴重,從而導致識別性能的迅速惡化。針對這一問題,何愷明等人[40]提出了殘差網絡(Residual Network,ResNet),在2015年的ImageNet比賽分類任務中獲得第一名。

如圖7 所示,ResNet 網絡結構借鑒了HighWay Network[41],添加了捷徑,相比于VGGNet,ResNet沒有使用全連接層,而是使用全局平均池化層減少訓練參數,并使用批量歸一化(Batch Normalization,BN)方法,以促進深層網絡的訓練。

圖7 一個殘差模塊

文獻[42]提出一種跨數據集適應方案。設計了兩個組件:(1)一個特征提取器,使用ResNet 學習圖像特征,該網絡降低了不同數據集之間的差異性,同時提高了對情感類別的判別能力;(2)一個情感標簽提取器,使用卷積神經網絡(CNN)來減少數據集之間的注釋不一致性。再結合多個野外數據集,來解決面部表情識別中的兩個主要問題:(1)數據集偏差;(2)類別不平衡。文獻[43]針對自然狀態下的人臉存在多視角變化、臉部信息缺失等問題,提出了一種基于MVFE-Light Net(Multi-View Facial Expression Lightweight Network)的多視角人臉表情識別方法。首先,引入了深度可分離卷積和ResNet 來減少網絡參數,從而改善因網絡層數增加而導致識別率下降的問題;其次,在該系統中嵌入壓縮和獎懲網絡模塊來學習特征權重,通過加入空間金字塔池化的方式增強了網絡的魯棒性;最后,采用AdamW(Adam with Weight decay)優化方法使網絡模型加速收斂來進一步優化識別結果。在RaFD、BU-3DFE和Fer2013表情庫上的實驗表明,該方法具有較高的識別率,且減少了網絡計算時間。

2.1.6 其他方法

文獻[44]采用級聯網絡的方法。通過將從CNN 中獲得的強大感知視覺表示與長短期記憶(Long Short-Term Memory,LSTM)優勢相結合,來實現可變長度的輸入和輸出。提出了在空間和時間上都較深的模型,該模型將CNN 的輸出與LSTM 進行級聯,以處理涉及時變輸入和輸出的各種視覺任務。

由于卷積神經網絡具有權值共享、局部區域連接和降采樣的結構特點,使其在圖像處理領域表現較為出色。權值共享減少了網絡需要訓練的參數個數,同時降低了網絡模型的復雜度,而降采樣操作使其對于位移、縮放和扭曲,具有穩定不變性。卷積神經網絡使用反向傳播算法訓練神經網絡權值和閾值的調整,相比于其他網絡結構更容易訓練,CNN 的網絡結構特點使其在各個領域已被廣泛使用,但是,因為其網絡結構的特殊性,使得網絡在訓練時耗時過長,成本較高,并且,卷積神經網絡結構的泛化能力也有待提高。

大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)是近年來機器視覺領域最具權威的學術競賽之一,CNN 模型在ILSVRC比賽中的性能對比如表5所示。

2.2 基于深度置信網絡的方法

深度置信網絡(Deep Belief Networks,DBN)[45]是Hinton 等人在2006 年提出的一種包含多層隱單元的概率生成模型。DBN生成模型通過訓練網絡結構中的神經元間的權重使得整個神經網絡依據最大概率生成訓練數據,形成高層抽象特征,提升模型分類性能[46]。作為深度神經網絡的預訓練部分,可以為網絡提供初始化權重,并通過反向傳播方法對網絡進行參數優化,從而提高網絡模型的特征學習能力。該模型的每一層都由受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)[47]組成。

網絡結構如圖8 所示。其中每個圓形符號表示RBM,它的作用是經過預訓練初步完成整個深度置信網絡的訓練之后,采用反向傳播的方法,從而提高深度置信網絡模型的特征學習能力。RBM可以視為一個二分圖模型,隱藏層與可見層之間雙向連接,其中H 表示隱藏層,目的是將輸入轉換成輸出層可以使用的東西,用于提取特征,V表示可見層(輸入層),目的是輸入數據。

圖8 深度置信網絡結構示意圖

DBN 的優點在于,該方法通過預訓練得到的初始化權重非常重要,這是因為在預訓練這一階段的權重往往比隨機權重更接近最優權重,從而提升了網絡的整體性能,讓收斂速度加快[48]。該方法具有較強的無監督特征學習能力,在表情識別中,該方法主要用于特征提取和圖像降維。

文獻[49]使用像素級生成模型作為DBN 的最低級。DBN 可以從被遮擋的人臉中重建出完整的人臉,然后根據完整的人臉預測表情類別。

表5 ILSVRC比賽中CNN模型性能對比

若干個RBM“串聯”起來構成了DBN,DBN通過無監督學習框架訓練樣本,更加抽象地學習高層特征,適用于學習高維復雜的數據。DBN可以很好地將深層特征保留下來,但是細節往往損失嚴重,為了盡可能地保留細節特征,研究人員還需對DBN進行改進。

2.3 基于遞歸神經網絡的方法

遞歸神經網絡(Recurrent Neural Networks,RNN)[50]是一種可以描述動態時間行為的深度學習方法。和前向傳播的神經網絡不同,RNN 是在自身網絡中循環傳遞,從而起到了權重共享的作用。在深度學習方法中,RNN 的優點在于能夠處理序列數據,其最大的特點就是神經元在某時刻的輸出可以作為輸入再次輸入到神經元,這種串聯的網絡結構非常適合于時間序列數據,可以保持數據中的依賴關系[51]。

如圖9所示,其中x代表RNN網絡的輸入,St表示時刻t的隱藏狀態,Ot表示時刻t的輸出,U表示輸入層到隱藏層的權重矩陣,它能抽象原始輸入,作為隱藏層的輸入,V表示隱藏到輸出層的權重矩陣,可以調度RNN 網絡的記憶,W表示隱藏從到輸出層的權重矩陣,它能抽象隱藏層所學習到的東西,并作為最終輸出。在表情識別中,該方法主要用于來檢測圖像序列中的關鍵點以及行為識別等。

圖9 遞歸神經網絡展開圖

但是簡單的RNN模型在嚴格整合狀態信息的過程中有一個顯著的局限性,即所謂的“梯度消失”效應:在實踐中,通過長期時間間隔反向傳播錯誤信號的能力變得越來越困難[52]。為了解決這一問題,Hochreiter等人[53]提出了一種基于長短期記憶(LSTM)單元的遞歸神經網絡。LSTM模塊中具有一個記憶單元和三個門控單元:輸入門、遺忘門和輸出門。

如圖10 所示,xt表示網絡的輸入向量,ht是當前隱藏層向量,ct表示記憶單元的輸出。在LSTM長短期記憶模塊中,記憶單元負責跟蹤輸入序列中的元素之間的依賴性;輸入門it控制記憶單元的輸入;遺忘門ft控制輸入在記憶單元中保留程度;輸出門ot控制網絡的輸出。

LSTM的控制流程與RNN相似,都是在前向傳播的過程中處理流經細胞的數據,不同之處在于LSTM細胞的結構和運算有所變化。該網絡通過門控制將短期記憶與長期記憶相結合,解決傳統RNN 訓練中出現的梯度消失現象和長時依賴問題。

圖10 LSTM單元結構

文獻[54]和文獻[55]都采用了CNN 和RNN 級聯的方式,并且都利用了LSTM增強時間特征的學習。文獻[54]提出了一種利用LSTM遞歸神經網絡和卷積神經網絡來捕獲視頻序列的時空特征的視頻分類方法。首先使用強大的CNN來檢測空間特征,然后使用RNN從這些空間特征的序列中學習時間特征,制作出CNN-RNN或CRNN系統,效果顯著。文獻[55]提出了用重要幀替換視頻中不重要的幀的幀替換模塊,以此提高RNN 的性能,建立了3D-CNN 和LSTM-RNN 級聯的網絡,在AFW、CK+、MMI 數據庫上得到了有效驗證。文獻[56]提出一種基于圖像序列的雙通道加權混合深度CNN長短期記憶網絡(Weighted Mixture Deep Convolution Neural Networks-Long Short-Term Memory,WMCNNLSTM)。混合深度卷積神經網絡(Weighted Mixture Deep Convolution Neural Networks,WMDCNN)網絡能夠快速識別人臉表情,為WMCNN-LSTM 網絡提供靜態圖像特征。WMCNN-LSTM 網絡利用靜態圖像特征進一步獲取圖像序列的時間特征,實現了對面部表情的準確識別。

循環神經網絡結構特點使其能記憶之前的信息,并利用記憶的信息影響后面節點的輸出,得到的結果會更加準確,這種串聯的網絡結構在處理時間序列數據時很有優勢。然而,RNN在面對長序列數據時,容易出現梯度爆炸和梯度消失的現象,使得RNN 并不能很好地處理長距離的依賴。LSTM是RNN的一種改進,LSTM通過引入記憶單元和門控制單元,在一定程度上解決了RNN 出現的梯度消失問題。但是,相較于RNN,LSTM含有更多的參數需要學習,從而導致LSTM的學習速率會大大降低。

2.4 基于深度自動編碼器的方法

深度自動編碼器(Deep Auto Encoders,DAE)[57]是一種利用神經網絡對輸入樣本進行映射,從而實現特征提取的方法。該方法的優點在于自動編碼器是從數據樣本中自動學習的,這意味著很容易對指定類的輸入訓練出一種特定的編碼器,而不需要完成任何新工作。如圖11 所示,圖像經過輸入層進入編碼器后得到的數據經過解碼器到達輸出層。在表情識別中,該方法主要用于降維、去噪和圖像生成。

圖11 深度自動編碼器

文獻[58]基于空間連貫特征的快速任意姿態人臉表情識別方法(Spatially Coherent Feature Learning For Pose-Invariant FER,Spatial-PFER)。首先,通過合成技術得到任意姿態人臉圖像對應的正臉圖像;其次,基于合成的正臉圖像檢測51 個關鍵特征點,并以此特征點為中心提取一定大小的關鍵區域,用來訓練無監督特征學習算法稀疏自動編碼器,以得到具有高區分度的高層表情特征;最后進行任意姿態的人臉表情識別。文獻[59]提出一種基于內核的姿勢特定非線性映射(Kernelbased Pose Specific Non-linear Mapping,KPSNM)來識別各種頭部姿勢下的面部表情。首先,將提出的特征向量串聯;其次,利用基于稀疏編碼器的方法將特征向量壓縮,減少計算量;最后,使用所提方法將所有非正面數據映射到正面視圖,再利用“正則化”數據進行面部表情識別。文獻[60]提出將深度卷積網絡(CNN)作為深度堆疊卷積自編碼器(SCAE)在貪婪層無監督的方式預先訓練。通過預先訓練一個深度CNN 模型作為SCAE模型,以學習調整圖像亮度并學習對照明不敏感的隱藏表示。

深度自動編碼器能夠在無監督式的情況下學習,僅關注最關鍵的特征,來產生輸入的近似值,從而使提取的特征盡可能不受原始數據的污染。但是該網絡需要訓練的參數較多,花費的時間較長,容易出現過擬合現象。

2.5 基于生成對抗式網絡的方法

生成式對抗網絡(Generative Adversarial Networks,GAN)[61]是一種無監督的概率分布學習方法,該方法能夠在不依賴任何先驗假設的情況下,學習到高維且復雜的真實數據分布,并生成具有較高相似性的新數據集。GAN 的核心思想來源于博弈論中二人零和博弈,即使用判別器和生成器兩個網絡的對抗和博弈來處理生成問題。如圖12 所示,生成器利用滿足均勻分布或正態分布的隨機噪聲生成數據,判別器分辨出生成器的輸出和真實數據之間的差異性,整個網絡的優化過程就是尋找判別器和生成器網絡之間的納什均衡[62]。在表情識別中,該方法主要用于目標檢測。

圖12 生成對抗網絡的結構圖

文獻[63]提出一種雙通路生成對抗網絡(Two-Pathway Generative Adversarial Network,TP-GAN),通過同時感知全局結構和局部細節來實現真實感正面圖像的合成。文獻[64]提出負載平衡生成對抗網絡(Load Balanced Generative Adversarial Networks,LB-GAN)來精確地將輸入人臉圖像的偏航角旋轉到任意指定的角度。LBGAN將具有挑戰性的綜合問題分解為兩個約束良好的子任務,分別對應于一個面規范化器和一個面編輯器。歸一化器首先將輸入圖像正面化,然后編輯器將正面化圖像旋轉到由遠程代碼引導的所需姿勢。文獻[65]提出一種基于生成對抗網絡(GAN)的多任務學習方法。模型在人臉正面化過程中學習情緒并保留表征,學習到的表征對頭部姿態變化較大的面部表情識別具有判別性,合成的正面人臉圖像保持了識別任務中有效的表情特征。文獻[66]提出一種新穎的基于Wasserstein 生成對抗網絡方法來執行遮擋的面部表情識別。在用復雜的面部表情信息對面部遮擋圖像進行補充之后,通過學習圖像的面部表情特征來實現識別。文獻[67]提出一種生成對抗網絡用于遮擋重建。該模型是一種適用于圖像轉換的條件GAN 模型,對于合理的尺寸遮擋,能夠消除遮擋的影響,并恢復基本模型的性能。文獻[68]提出一種對人臉局部遮擋圖像進行用戶無關表情識別的方法。該方法能夠為圖像中的遮擋區域生成上下文一致的補全圖像,緩解因局部表情信息缺失帶來的影響,提高識別算法的魯棒性。

GAN 的生成器接收隨機變量同時生成“假”樣本,判別器根據輸入的樣本判斷其真假性,兩者相互對抗彼此提升。獨特的對抗思想使得GAN能生成更加真實的樣本,而且GAN 框架可以訓練任何生成器網絡。盡管GAN已被廣泛應用于圖像視覺領域,但GAN仍有很多待解決的問題,生成器和接收器在訓練過程中需要很好的同步,這使得網絡難以收斂,訓練也變得較為困難,而且GAN在學習生成離散數據時,效率很低。

深度學習算法在正面表情識別中已實現了較高的識別率,但是在非正面表情識別中的研究仍處于起步階段。本文總結了近年來深度學習應用于非正面表情識別的表現,如表6所示。

表6 非正面表情識別的深度學習主要方法的性能

非正面人臉面部表情識別一直以來是計算機視覺、模式識別的研究熱點。傳統機器學習利用特征工程,人為對圖像數據進行特征提取,其泛化能力較低,深度學習的出現打破了傳統的先特征提取,后模式識別的固定模式,并且可以同時進行特征提取和表情分類。

卷積神經網絡具有層級抽象的能力,能夠利用全局信息進行學習,在圖像領域獲得了極大的成功,也不斷有新的發展。深度學習在非正面表情識別上的應用,大多基于VGGNet、GoogLeNet 與ResNet 網絡模型,其核心結構均為CNN。由于生成式對抗網絡在生成高質量目標樣本方面的優勢,逐漸在面部表情識別領域中被使用,以進行姿勢不變面部表情識別或增加訓練樣本的數量和多樣性。該模型從生成器中直接提取出該信息用于減輕人物無關信息帶來的干擾,從而提高表情識別率。RNN 及其擴展模型LSTM 作為基本的時序網絡結構廣泛運用于視頻序列的學習。然而其網絡結構使其難以捕捉到有效的圖像特征。針對該問題,提出級聯網絡,將多個不同網絡串聯構成更深層次網絡,首先提取出有表情判別能力的空間特征,然后將該信息依次輸入到時序網絡中進行時序信息的編碼[70]。

需要注意的是,在表6 中,多數算法是在實驗室環境下,采用標準數據庫進行訓練與識別的。然而在自然條件下,面部表情常常會受到像物體遮擋、光照變化、拍攝條件(設備、噪聲)造成的圖像分辨率低等不利因素的影響,而傳統的機器學習方法無法提取圖像的高級特征,需要深度神經網絡更有效地學習特征。比如:(1)使用多網絡融合,集合多種不同網絡并結合各自優勢以提取更深層的表情特征;(2)使用多任務網絡,聯合多個網絡,通過共享相關任務之間的表征,減少數據參數以及整體模型復雜度,使預測更加高效;(3)使用級聯網絡,將兩個結構不同的神經網絡組合并設計更深的網絡模型,以分層方法有序地訓練多個網絡以增強其特征學習能力。通過這些方法緩解網絡模型的過擬合問題的同時,可以消除與面部表情無關的干擾因素。

3 總結和展望

本文首先陳述了課題的背景,接著介紹了深度學習常用的人臉圖像數據庫后,詳細介紹了深度學習的神經網絡、循環神經網絡等算法結構和原理以及優缺點,接著對非正面表情識別的深度學習解決方案進行了詳細介紹。通過分析現有研究成果,認為還有以下幾方面是非正面人臉表情識別面臨的挑戰和可能的研究方向,目前非正面表情識別存在的問題進行總結如下:

(1)標準數據庫不夠真實。由于采集條件的不同和標注的主觀性,數據偏差和標注不一致在不同的人臉表情數據集中非常普遍。最近的研究通常在特定的數據組內評估他們的算法,并能達到令人滿意的性能[71]。然而,通過標準數據庫訓練的模型,往往在未知測試數據上不能取得令人滿意的效果。現有的非正面表情數據庫包含的人物狀態與真實環境具有較大差異,因此導致從標準數據庫中訓練出來的算法,在推廣性方面差強人意,還達不到實用的要求。

(2)訓練成本過高。較傳統的特征提取和表情分類方法,很多深度學習模型已經可以得到較好的準確率,但在訓練過程中,由于深度學習模型的復雜度較高,需要訓練的模型參數較多,因而導致算法訓練成本高、耗時長。

(3)數據類型單一。現有方法多針對靜態圖像,開展非正面表情識別研究;而在針對動態圖像的非正面人臉表情識別中,由于受光照、遮擋物以及時間因素的影響,算法的識別性仍有待改進。

針對上述問題,考慮可以從以下三個方面入手:

(1)跨數據庫性能是面部表情識別系統通用性和實用性的重要評價標準[72-73]。針對數據庫問題,構造一個具有豐富自然環境下的人臉表情數據集,是解決真實環境下,保持算法識別率、提升算法推廣性與魯棒性的有效方法。目前出現的自然環境下的表情數據集有AFEW[14],然而由于數據集從電影中提取而來,與自然環境下的人臉圖像存在一定差異,這使得該數據集的應用非常小眾。但是這仍然是解決該問題的有效方法。

(2)非正面表情識別相對耗時,近年來,許多研究者在深度學習壓縮和加速方面,提出了可從以下三個角度進行優化:

①算法層壓縮加速。深度神經網絡存在大量的參數冗余,網絡剪枝目的是移除冗余連接,減少網絡的計算量。文獻[74]提供了一種結合延遲、網絡條件和移動設備的計算能力的上下文感知修剪算法,以獲得最佳的深度學習模型,但該方法只注重模型性能,模型訓練速度有待提高;權值量化通過減少表示每個權重的比特數,來壓縮神經網絡。文獻[75]對權重參數采取了k均值聚類后量化的方法,對網絡進行壓縮,雖然該方法加快了網絡的速度,但在大規模數據集上表現較差;知識蒸餾[76]的本質是學生對教師的擬合,用于將一個深且寬的網絡壓縮為一個小型網絡,該方法雖然簡單,但在多個圖像分類任務中取得了很好的效果。

②框架層加速。目前出現的DenseNet[77]在模型優化方面,減少了訓練參數,且所需計算量少,與現有算法相比,具有更高的精確度。但該方法著重關注模型結構的優化,而忽略了模型運算速度。Mobile[78]采用了深度可分離卷積,以達到減少網絡權值參數和提升模型運算速度的目的。該方法在非正面表情識別的研究中,具有較大潛力。

③硬件層加速。可以通過優化硬件配置,獲取性能提升。

(3)深度學習模型在針對動態圖像的非正面人臉表情識別中,仍無法取得較好的泛化能力以及算法魯棒性。針對該問題,文獻[54]采用級聯網絡,先提取圖像的空間特征,然后將其輸入到時序網絡并提取圖像的時序特征,以實現動態圖像的表情識別。這種網絡級聯的形式可以較好地解決動態圖像的表情識別,是處理動態圖像中非正面表情識別研究的有效嘗試。

在人工智能迅速發展的大環境下,對非正面人臉表情的實時識別與分析需要顯著,非正面人臉表情識別的研究前景也變得更為廣闊,非正面人臉表情識別未來的發展可以從以下方向探索:

(1)實用性。目前針對非正面表情識別的研究方案計算量較大,訓練時間也較長,對硬件設備要求較高,導致其難以使用到輕便設備中,隨著移動終端的大面積普及,如何將深度學習模型運用到移動端與嵌入式設備中,增加表情識別實用性,有待進一步研究。

(2)微表情。微表情是一種自發性的表情,動作幅度小、持續時間短,建立微表情數據庫,將表情識別的方法用于微表情進行識別將是未來研究的重點。

(3)多模態表情識別。目前的多模態情感分析方法主要集中在深度神經網絡[79]。人的情感表達方式有多種方式,面部表情只是其中的一種模態,可以考慮與其他模態結合到一個高層的框架中,彼此提供互補信息,進一步增強模型的魯棒性。例如:可以將音頻與圖像相融合進行多模態的表情識別。

猜你喜歡
深度數據庫特征
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 欧美福利在线| 欧美一区二区三区香蕉视| JIZZ亚洲国产| 色噜噜狠狠狠综合曰曰曰| 国产在线日本| 欧美在线导航| 国产精品自拍露脸视频| 色综合色国产热无码一| 久久美女精品国产精品亚洲| 性色生活片在线观看| 日韩在线成年视频人网站观看| 国产精品九九视频| 女人18毛片久久| 日韩麻豆小视频| 乱人伦99久久| 色偷偷一区| 久久99久久无码毛片一区二区 | 日本少妇又色又爽又高潮| 九九热视频精品在线| 久久综合丝袜长腿丝袜| 亚洲欧美成人影院| 色国产视频| 凹凸国产熟女精品视频| 欧美福利在线| 色婷婷在线影院| 国产黄在线免费观看| 精品国产女同疯狂摩擦2| 国产亚洲精品无码专| 波多野结衣视频一区二区| 中文字幕乱码二三区免费| 亚洲美女视频一区| 免费观看亚洲人成网站| 在线看国产精品| 91蜜芽尤物福利在线观看| 欧美一区二区啪啪| 国产精品视频导航| 激情成人综合网| 囯产av无码片毛片一级| 国产91av在线| AV老司机AV天堂| 亚洲精品国产日韩无码AV永久免费网 | 亚洲娇小与黑人巨大交| 五月天在线网站| 成人av专区精品无码国产| AV无码无在线观看免费| 思思热精品在线8| 日本91视频| 国产视频一区二区在线观看| 亚洲精品福利视频| 久久免费视频播放| 亚洲精品自在线拍| 欧美三级日韩三级| 午夜影院a级片| 18禁影院亚洲专区| 国产SUV精品一区二区| 亚洲欧洲日韩综合| 欧美97色| 国产精品网拍在线| 久久亚洲欧美综合| 综合久久五月天| 露脸国产精品自产在线播| 女人爽到高潮免费视频大全| 韩国自拍偷自拍亚洲精品| 色男人的天堂久久综合| 在线精品亚洲一区二区古装| 99久久精彩视频| 日本人妻一区二区三区不卡影院| 激情亚洲天堂| 蜜桃视频一区二区三区| 成年片色大黄全免费网站久久| 免费一级大毛片a一观看不卡| 亚洲国产成人精品青青草原| 99精品这里只有精品高清视频| 久久黄色视频影| 国产污视频在线观看| 国产麻豆精品久久一二三| 国产精品流白浆在线观看| 超碰91免费人妻| 欧美97欧美综合色伦图| 国产男人天堂| 波多野结衣在线一区二区| 国产在线拍偷自揄观看视频网站|