999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SR-VGG19的人臉表情識別算法研究*

2021-10-08 13:56:16楊詞慧張杰妹
計算機與數字工程 2021年9期
關鍵詞:特征模型

張 業 楊詞慧 張杰妹 蔣 沅

(南昌航空大學信息工程學院 南昌 330063)

1 引言

人臉表情識別是計算機視覺、模式識別和人類情感理解等領域的研究熱點之一[1],在人機交互、網絡安全、情緒分析、人工智能和智能家居[2]等方面有著廣泛的應用。在人臉表情識別中,特征提取是最核心的一個步驟。如何提高表情識別的準確性和魯棒性,弱化個體差異信息產生的負面影響是人臉表情識別領域亟待解決的關鍵問題。針對以上問題,本文提出一種基于空間金字塔池化(Spatial Pyramid Pooling,SPP)[3]和改進的區域候選網絡(Improved Regional Proposal Network,IRPN)[4]的VGG19網絡模型[5](VGG19 network model based on SPP and IRPN,SR-VGG19)用于表情識別。采用IRPN固定窗口代替滑動窗口來避免特征的重復提取,通過結合Dropout[6]和BN[7]策略提高網絡模型的泛化能力,并應用SPP方法,增強特征的表達能力。

在表情特征提取方面,研究學者們提出了多種方法。1978年,心理學家Ekman與Friesen[8]提出了面部動作編碼系統(Facial Action Coding System,FACS),該系統根據面部特征類型和運動特征定義了基本形變單元。Heikkil?等[9]利用中心對稱局部二值模式算法來提取更具判別性的局部二值模式特征,在此基礎上利用支持向量機來進行分類。該算法在降低特征維度的同時,有效地提取了局部特征。以上方法雖在一定程度上可以實現人臉表情的識別,但仍存在以下問題:1)人為設計的特征取決于算法的設計,算法設計周期較長,成本相對較高;2)特征提取和分類是兩個獨立的過程,無法融合到端對端模型,當人為設計的特征出現問題時,之后的表情分類會受到較大的影響。

自2012年Alex[10]提出卷積神經網絡之后,許多學者將其應用在人臉表情識別領域,并取得了較好的識別效果。如Nair等[11]提出一種改進的深度置信網絡(Deep Belief Network,DBN),在DBN的最頂層加入三階波爾茲曼機,并在三維物體識別數據庫NORB上進行實驗,獲得了較好的識別效果,例證了DBN可實現優于傳統的SVM等淺層模型的分類識別性能。雖然上述基于卷積神經網絡的方法可有效提高人臉表情識別的準確率,但淺層神經網絡仍存在以下幾點不足:1)淺層的神經網絡只能學習圖像中低層次的簡單特征;2)淺層神經網絡提取的特征魯棒性較差。針對上文所提及的人為設計特征提取算法和淺層神經網絡算法的不足,本文嘗試用改進的深層卷積神經網絡來提高表情識別的準確率。

2 SR-VGG19網絡模型表情識別算法概述

VGG網絡在2014年的ILSVRC定位和分類兩個問題上分別取得了第一名和第二名。該網絡結構相對較深,通常含有16~19層,本文將重點介紹VGG19網絡模型。該模型采用多個3×3的卷積核來代替之前的大尺寸卷積核,并可以多次利用非線性激活層,大大地降低了網絡中的參數量,提高網絡計算效率。與單一結構的卷積層網絡比較,VGG19可以更好地提取圖像特征以及提高網絡計算效率。但VGG19網絡模型限制了輸入圖片的尺寸大小、泛化能力弱,并且由于網絡結構中含有三層全連接層,使網絡參數大幅度增加,從而需要占用更大的計算內存,耗費計算資源。針對該網絡結構存在的以上不足,本文對VGG19網絡模型主要進行以下三個方面改進。

2.1 SPP

由于VGG19網絡對輸入圖片的尺寸有限制,因此在對VGG19網絡模型訓練之前,需對不符合VGG網絡模型的輸入圖像進行縮放或裁剪處理,但縮放會在一定程度上使圖片發生形變,而裁剪可能會導致圖像空間信息丟失。針對此問題,本文在VGG19網絡中引入SPP方法。SPP通過利用多個不同尺寸窗口對最后一層卷積層提取的特征圖進行池化處理,分別將得到的結果進行合并從而得到固定長度的輸出。通過SPP可實現任何尺寸的輸入,從而解決VGG19網絡模型限制輸入圖片尺寸的問題。SPP是一種多尺度的池化,可以從不同尺度反映圖像的特征信息,提高了尺度的不變性;且多窗口的池化操作可提高網絡識別的準確率。從某種程度上來講,通過SPP可以增強圖像提取特征的表達能力,進一步提高VGG19網絡模型對表情進行識別的準確率。

2.2 Dropout和BN

為了提高網絡的泛化能力和魯棒性,在網絡結構的全連接層之前應用Dropout策略。在深度學習網絡模型訓練過程中,Dropout主要分為兩個階段,即學習階段和測試階段。在學習階段,對隱藏層神經元按一定概率使其從網絡中隨機失活,以減小訓練的網絡規模;在測試階段,采用模型預測平均的方法對整個神經網絡輸出的概率值進行計算。為避免網絡模型在訓練過程中出現梯度消失或梯度爆炸等問題,本文在網絡的每一卷積層中加入BN方法。通過對每個輸入層進行規范化來解決內部協變量轉移的問題,以提高網絡模型的訓練收斂速度。

2.3 IRPN

為進一步提高網絡對人臉表情識別的準確率,本文引入了IRPN網絡來生成多個候選區域以提高識別精度。RPN是一個基于滑窗的無類別物體檢測器,主要用于生成候選區域,用來估計目標物體的位置和大小。該方法在最后一個共享卷積層的卷積特征圖上滑動一個小網絡,該小網絡以輸入卷積特征圖的一個n×n的滑動窗口作為輸入。每個滑動窗口都映射到一個512維特征向量的低維空間,該特征向量被輸入到兩個同級的全連接層——回歸層和分類層。但該方法存在以下兩個弊端:1)對于不同尺寸的人臉表情圖像,RPN都采用固定尺寸的滑動窗口,因此可能出現窗口尺寸相對于圖片尺寸過大或過小的情況,這會限制其在人臉表情識別中的應用。2)滑動窗口會產生較多的窗口冗余,增加了網絡的計算量。針對RPN的上述缺點,本文采用IRPN方法,具體的IRPN結構如圖1所示,本文采用三種固定尺寸的分割方法,固定尺寸分別為2×2、3×3、5×5,產生的候選框總個數為k×(2×2+3×3+5×5)。使用固定窗口代替RPN中的滑動窗口,即將原固定大小N×N空間窗口變為多尺寸空間窗口的操作,相當于構建了多個RPN網絡。并在最后一層的共享卷積層輸出的卷積特征圖上進行M種固定尺寸圖像分割,將劃分出來的每個分割窗口映射到K種形狀估計,對VGG19網絡(512維)的特征向量進行拼接,得到分類層為2K分數和回歸層為4K坐標。

圖1 IRPN結構

改進后的SR-VGG19網絡模型具體結構如圖2所示。該網絡模型包含5段卷積,共有16個卷積層,對每一卷積層中都進行BN處理,以提高網絡模型的收斂速度。每一段卷積,都包含2個~4個卷積層級聯,每一段卷積之后都連著最大池化層,以縮小圖片的尺寸。在第5段卷積層之后,利用IRPN方法對卷積特征圖進行窮舉,以獲取更多的目標候選框。對不同大小的候選框,經SPP處理之后,生成固定長度的特征。為了避免網絡在訓練過程中出現過擬合現象,在全連接層加入Dropout。

圖2 SR-VGG19網絡模型結構

2.4 激活函數

在SR-VGG19網絡模型中,本文采用常用的Relu激活函數,表達式如下:

式中x表示神經元的輸入。Relu函數是一個分段函數,把所有的負值都變為0,而正值保持不變。這種單側抑制的作用使得神經網絡中的神經元具有稀疏激活性,使網絡模型能夠更好地挖掘相關特征,擬合訓練數據,有效地防止網絡梯度消失問題,使得模型的收斂速度處于一個穩定狀態。

2.5 損失函數

就分類問題而言,目前較常用的損失函數主要有以下三種:0-1損失函數、均方誤差損失函數和交叉熵損失函數。0-1損失函數雖然可以用于衡量誤分類問題,但該函數曲線是非凸的,呈現階躍和不連續現象,在求最優解時較為復雜。均方誤差損失函數通過求解數據之間的最小距離平方獲得最優解,多用于最小二乘法中。應用于深度學習訓練時,其使得多個訓練點到最優線路距離最短。均方誤差損失函數與Sigmoid激活函數一起使用會導致輸出層神經元學習率下降變緩慢。而交叉熵損失函數為對數函數,曲線趨勢為單調性,從而使梯度隨損失單向變化,有利于梯度下降反向傳播,從而可以更好地更新每一層的參數,以縮短預測值和實際值之間的距離。所以本文采用的損失函數為交叉熵損失函數。交叉熵損失函數用來表示預測值和實際值之間的差距,損失函數的值越小,其得到分類結果越準確。具體的表達式如下:

式中,xi表示每一類的數據,yi表示每一類的正確答案,hθ(xi)表示經過SR-VGG19之后得到的預測值,m代表類別個數。

3 實驗設計

3.1 數據集

本文實驗選用FER2013和CK+表情數據庫作為測試數據集。FER2013數據集總共有35887張圖片,其中28709張用于訓練,其余7178張圖片用于測試。FER2013數據集中的每張圖片大小均為48×48,并按人物的表情分為七類:生氣,厭惡,恐懼,開心,傷心,驚訝,中性,具體如圖3所示。

圖3 CK+數據集樣例圖

CK+數據庫是在Cohn-Kanade數據集基礎上擴展而來的。該數據庫包含123個被試對象,共含有593個視頻序列,其中118個被試對象具有相應的人臉表情標簽,共327個視頻序列。

用數字0~6分別表示圖像序列中人臉面部的種表情,即0=生氣,1=蔑視,2=厭惡,3=恐懼,4=傷心,5=傷心,6=驚訝,具體如圖4所示。

圖4 CK+數據集樣例圖

3.2 數據增廣

為了防止網絡過快地出現過擬合現象,本文對公開的數據集進行增廣處理,如圖像旋轉、翻轉、切割、鏡像等。在網絡的訓練階段,通過對原輸入圖像的左上角、右上角、左下角、右下角和中心區域進行隨機切割,得到的圖像尺寸為45×45。并對隨機切割后的圖像進行隨機鏡像處理,將處理之后的圖像作為輸入圖像對網絡進行訓練。在網絡的測試階段,采用均值法減少由于數據處理不當而產生的訓練樣本異常現象。測試后,對得到的概率取平均值,以減少異常值,降低錯誤分類。

4 實驗結果與對比分析

4.1 SR-VGG19與VGG19對比實驗分析

表1是SR-VGG19與VGG19網絡模型對人臉表情識別的對比實驗結果。從表1中可以看出,本文提出的SR-VGG19網絡模型在FER2013公開數據集和私人數據集上的人臉表情識別的準確率均高于VGG19網絡模型的準確率,其分別為71.608%和73.168%。這主要是由于SR-VGG19網絡模型在VGG19網絡模型的基礎上,引入了IRPN網絡,該網絡可以產生更多的目標尺寸,其對于極端的人臉表情圖像有很好的識別效果,并且該網絡模型可以實現多種尺度表情特征的共享,增強了模型分類識別的能力;同時,采用Dropout和BN結合策略,從一定程度上解決了網絡模型在訓練過程中出現的過擬合問題,并提高了網絡模型的泛化能力。除此之外,由于本文訓練數據集圖片尺寸為48×48,不符合經典VGG19網絡模型對輸入圖片尺寸224×224的要求,原網絡模型需要對輸入圖片進行裁剪或縮放等處理,導致圖像空間信息丟失或形變。因此為解決輸入圖片尺寸受限同時不丟失原輸入圖像的空間信息問題,本文在經過IRPN網絡之后的卷積特征圖應用SPP代替最大池化。應用SPP方法,解決了原VGG19網絡模型限制輸入圖片尺寸的問題,從而提高了網絡的泛化性。改進后的網絡模型在訓練過程中,隨著訓練次數的增加,人臉表情識別的準確率也隨之增加,具體如圖5所示。

表1 SR-VGG19與VGG19人臉表情總值別準確率對比實驗

4.2 在FER2013數據集上的對比實驗分析

表2為2013Kaggle比 賽[12]前 十 名 算 法 和DNNRL、FC3072、CPC方法以及SR-VGG19網絡模型對人臉表情識別的準確率。表中前10行是2013kaggle人臉表情識別比賽前十名算法的準確率,11~13行是近些年提出的DNNRL、FC3072、CPC新網絡結構模型的識別效果,最后一行是本文提出的SR-VGG19網絡模型的準確率。由表2的對比實驗結果可知,本文提出的SR-VGG19網絡模型在FER2013數據集上對人臉表情的識別率達到73.168%,與以上提出的算法相比較,本文算法的識別率具有明顯的優勢。主要原因在于本文在原VGG19網絡結構基礎上,加入BN和Dropout策略,有效地防止了網絡過深而出現的過擬合現象,并加快了網絡模型的訓練收斂速度;同時引入SPP方法有效地解決了VGG19網絡對輸入圖片尺寸的限制問題;且IRPN網絡的應用有效地提高了網絡的識別精度。從而驗證了SR-VGG19網絡模型對人臉表情識別的準確性和適用性。

4.3 在CK+數據集上的對比實驗

表3給出了不同的方法在CK+數據集上對人臉表情識別準確率的比較結果。因為CK+是一個小樣本數據集,樣本量小且容易產生過擬合,因此本文采用Dropout和BN策略解決過擬合問題。為了驗證本文算法的有效性,利用10次交叉驗證方法,即將數據集分為10份,每次選8份作為訓練集,兩份作為測試集。從表3的對比結果可以看出,本文提出的SR-VGG19網絡模型的準確率均優于以上對比實驗方法,其準確率達98.990%。該網絡模型在CK+數據庫上測試的過程中,隨著測試次數的增加,準確率也隨之增加,具體如圖6所示。由表2和表3的對比實驗結果可知,本文提出的同種網絡模型應用在不同的數據集上,識別率有較大的差距。其主要原因是由于CK+數據集是在實驗環境下獲取,且該數據集經過了增廣處理,圖像質量相對較高,所以在該數據集上進行人臉表情識別準確率較高。

表3 在CK+數據集上的對比實驗

圖6 SR-VGG19在CK+測試的準確性

4.4 測試實例

為了進一步驗證SR-VGG19網絡模型對人臉表情識別的準確性。基于已訓練好的網絡模型,本文隨機選取10張測試圖片分別對已訓練好的SR-VGG19網絡模型進行測試。其具體的測試過程主要包含以下幾部分。首先,將待測試的圖片輸入SR-VGG19網絡,經過該網絡的前向傳播得到其相應的預測值;然后,利用交叉熵損失函數計算實際值與預測值之間的距離;最后,通過反向傳播更新網絡模型每一層的參數。圖7給出了其中兩張測試圖片的具體測試結果。第一張測試圖片經過SR-VGG19網絡模型的識別分類,得到的七種分類結果概率值分別為生氣97.82%、蔑視0%、恐懼0.35%、高興0%、傷心1.48%、驚訝0%、中性0.35%,其中生氣的表情概率最高,即97.82%,與測試圖片表情一致,故表情類別為生氣。第二張測試圖片經過SR-VGG19網絡模型的識別分類,得到的七種分類結果概率值中,傷心表情的概率值最高,即為96.37%,其次中性表情概率值為3.28%,而生氣、蔑視、恐懼、高興、驚訝這五種表情概率值接近于0%。故得到對應的表情類別為傷心,與測試圖片表情一致。其余8張圖片也均達到了96.28%以上的識別準確率。

圖7 測試實例

5 結語

本文提出了一種改進的SR-VGG19網絡模型,采用SPP方法,解決了VGG網絡模型限制輸入圖片尺寸的問題,同時增強了圖像提取特征的表達能力。在網絡結構最后一層卷積層之后,引入IRPN方法,使用固定窗口代替滑動窗口對卷積特征圖進行窮舉,以獲取更多尺寸的候選框。在網絡的訓練過程中,使用Dropout方法,來避免網絡出現過擬合現象。實驗結果表明,本文提出的SR-VGG19網絡模型可以有效地對人臉表情進行分類,并取得較好的識別效果。本文提出的網絡模型雖有效地提高了人臉表情識別的準確率,但對于某些人臉表情,如傷心、難過的識別率還有待提高。其原因主要有以下兩點:1)用于網絡訓練的數據集太少,且許多難以區分的表情數據及相對應的標簽數據也相對較少,故需要增加大量的訓練樣本,以提高網絡的魯棒性。2)傷心和難過的表情差異在現實生活中也是難以區分的。因此本文下一步將針對該問題設計子網絡結構或集成多個網絡模型,并對初始特征進行特征融合,以期進一步提高人臉表情識別的準確率。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美69视频在线| 国产麻豆精品久久一二三| 黄色网站不卡无码| 国产91成人| 国产午夜精品一区二区三| 成人日韩欧美| 国产精品福利在线观看无码卡| 日本精品视频| JIZZ亚洲国产| 久久青草精品一区二区三区| 九九免费观看全部免费视频| 99免费视频观看| 国产乱子精品一区二区在线观看| 国内精品久久久久鸭| 91午夜福利在线观看| AV无码国产在线看岛国岛| 国产福利在线免费| 爱色欧美亚洲综合图区| 国产99在线观看| 第一区免费在线观看| 国产麻豆精品手机在线观看| 欧美成人区| 国产精品久久久久无码网站| 美女无遮挡免费视频网站| 欧美综合区自拍亚洲综合绿色| 日韩精品免费一线在线观看| 九九九精品成人免费视频7| 亚欧乱色视频网站大全| 特黄日韩免费一区二区三区| 国产精品三区四区| 亚洲人成网站色7799在线播放| 国产网站免费| 久久性妇女精品免费| 亚洲无码精彩视频在线观看| 亚洲精品无码日韩国产不卡| 试看120秒男女啪啪免费| 永久在线精品免费视频观看| 欧美伦理一区| 欧美不卡视频在线| 性视频一区| 国产99视频在线| 国产男女XX00免费观看| 亚洲美女高潮久久久久久久| 欧美成人手机在线观看网址| 国产成人精品无码一区二 | 国产无遮挡裸体免费视频| 国产丝袜丝视频在线观看| 国产超薄肉色丝袜网站| 国产成人艳妇AA视频在线| 亚洲天堂成人在线观看| 99999久久久久久亚洲| 国产日产欧美精品| 亚洲综合色婷婷中文字幕| 亚洲欧美不卡| 欧美区日韩区| 99热线精品大全在线观看| 久久a级片| 污网站免费在线观看| 久久久精品无码一二三区| 国产丝袜啪啪| 一级黄色欧美| 亚洲中文精品人人永久免费| 亚洲另类国产欧美一区二区| 一级全黄毛片| 无码人妻热线精品视频| 九九热这里只有国产精品| 国产黄在线免费观看| 国产真实乱人视频| 日韩欧美中文亚洲高清在线| 日本免费精品| 免费观看无遮挡www的小视频| 永久在线精品免费视频观看| 亚洲精品你懂的| 91福利国产成人精品导航| 青青青视频蜜桃一区二区| 人妻无码一区二区视频| 亚洲欧美不卡视频| 九九免费观看全部免费视频| 日韩中文无码av超清| 国产白浆在线观看| 一级毛片基地| 国产精品一区在线观看你懂的|