999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種識別表情序列的卷積神經網絡

2018-05-08 07:04:23張金剛王書振
西安電子科技大學學報 2018年1期
關鍵詞:融合

張金剛, 方 圓, 袁 豪, 王書振

(1. 中國科學院 西安光學精密機械研究所,陜西 西安 710119; 2. 中國科學院大學,北京 100094; 3. 中國科學院 光電研究院,北京100094; 4. 西安電子科技大學 計算機學院,陜西 西安 710071)

一種識別表情序列的卷積神經網絡

張金剛1,2,3, 方 圓4, 袁 豪4, 王書振4

(1. 中國科學院 西安光學精密機械研究所,陜西 西安 710119; 2. 中國科學院大學,北京 100094; 3. 中國科學院 光電研究院,北京100094; 4. 西安電子科技大學 計算機學院,陜西 西安 710071)

傳統(tǒng)的人臉表情識別方法需要人為指定特征訓練方向,卷積神經網絡方法雖然可以自動訓練分類特征,但是存在無法識別表情序列的弊端.針對此問題,運用一種多網絡融合技術,使構建的網絡能夠對表情序列進行識別.網絡構建方法為:首先構建多個卷積神經網絡,使每個網絡處理一幀圖片;然后將處理結果在融合層進行融合;最后通過一個分類器輸出識別結果.在CK+人臉表情數(shù)據(jù)庫上,分別對3幀、4幀和5幀表情序列進行實驗,均獲得了較高的識別率.

人臉表情識別;卷積神經網絡;深度學習;多網絡融合

人臉表情中蘊藏著豐富的情感信息,是人與人之間信息交流的一種重要手段.人臉表情識別技術作為一個涉及心理學、機器視覺、圖像處理、模式識別等領域的交叉性課題,一直以來都是一個研究熱點,并且在人機交互、虛擬現(xiàn)實、安防監(jiān)控、身份認證等領域有著廣泛的應用前景.

目前的人臉表情識別方法主要是在靜態(tài)圖片上分析表情,并且需要人為指定特征提取方向.常用的有基于人臉幾何特征的方法[1],也有一些基于頻域、像素的方法,如Haar小波[2]、Gabor小波變換[3]、局部二值模式(Local Binary Patterns, LBP)[4]等.還有一些基于模型匹配的方法,如活動外觀模型(Active Appearance Models, AAM)[5].這些方法有兩個不足之處:需要使用一組人工設計特征提取方向,這會在一定程度上丟失人為設定外的特征信息;以單一靜態(tài)圖片作為輸入,從而忽略了幀間信息,未能結合運動時序下的表情變化給出分類決策.

卷積神經網絡(Convolutional Neural Networks, CNN)方法[6-8]以其局部感受野和權值共享的特點,再加上池化方法的應用,大大降低了神經網絡中參數(shù)的個數(shù),使得該方法非常適合處理圖像數(shù)據(jù).2012年,文獻[9]中構造了一個8層的卷積網絡AlexNet,并在ImageNet競賽上以絕對的優(yōu)勢獲得冠軍,Top-5的錯誤率為15.3%,相比于第2名使用的非卷積網絡方法,將分類錯誤率降低了近10%; 2014年,Google運用22層的卷積網絡GoogleNet[10]把ImageNet上的識別錯誤率降低到6.67%; 2015年,微軟研究院[11]使用152層的殘差網絡,將識別的錯誤率進一步降低到3.57%,而人類在這一數(shù)據(jù)集上的錯誤率約為5.1%.這些足以體現(xiàn)出卷積神經網絡在圖片識別領域的強勢.卷積神經網絡的優(yōu)勢在于,該方法無須人為顯示設定特征,可以通過網絡的訓練自動獲取特征,并直接通過網絡給出識別結果.這樣獲取的特征更具有推廣特性和表征能力,并且某些在主觀上認為不可行的特征也能發(fā)揮效用.然而,傳統(tǒng)的卷積神經網絡的方法卻存在僅僅只能處理單一幀圖片的弊端,筆者在原有網絡的結構上進行了創(chuàng)新,運用了多網絡融合技術,使得新構建的網絡可以對人臉表情序列進行識別.

1 人臉表情識別網絡模型

1.1 處理單一幀的卷積神經網絡

如果僅處理單一幀,并對相應的表情進行識別,可以設計一個簡單的卷積網絡結構,如圖1所示.

圖1 處理單一幀的卷積神經網絡結構圖

該網絡含有2個卷積層、1個下采樣層和1個全連接層,最后接一個輸出層.輸出層函數(shù)即激活函數(shù),這里選擇softmax函數(shù),其表達式為

(1)

其本質就是將一個K維的任意實數(shù)向量壓縮(映射)成另一個K維的實數(shù)向量,向量中的每個元素取值都介于(0,1)之間,其中j=1,2,…,k.式(1)中的z表示全連接層的輸出,即輸出層的輸入.

將神經網絡的輸出轉換為概率向量,通過該向量可以看出對不同類別分類概率的大?。搶雍?個神經元,表示對6種不同表情進行分類.

網絡的輸入是一張128×128像素的圖片,輸出是一個6維概率向量,每一個維度代表了一種表情分類的概率.在圖像識別領域,這種結構已經被證明可以取得非常好的效果,但同時也存在局限性,它只能以單一幀圖片作為輸入.人臉表情是一個連續(xù)的、動態(tài)的過程,若僅以一幀作為輸入,則會丟失幀間信息,而這些信息反映著表情的變化過程,是重要的分類依據(jù).

1.2 多卷積神經網絡融合

針對傳統(tǒng)卷積網絡只能以單一圖片作為輸入的弊端,提出一種多卷積網絡融合技術,使每個卷積網絡處理一幀圖片,然后將它們的處理結果融合起來,共同決策分類.網絡結構如圖2所示.

圖2 多層次、3幀卷積神經網絡結構圖

該模型由3個單獨的卷積網絡組合而成,可以同時處理3幀圖片的輸入.若要處理更多圖片,需增加卷積網絡的個數(shù).文中分別對3幀、4幀和5幀的表情序列進行了實驗,將對應的網絡結構分別命名為3幀卷積神經網絡、4幀卷積神經網絡和5幀卷積神經網絡.

現(xiàn)就3幀卷積神經網絡中的單個卷積網絡結構進行說明.第1層是一個卷積層,分別對卷積核大小為 5× 5、11× 11和 17× 17進行實驗,輸出8個特征圖; 第2層也是一個卷積層,分別對卷積核大小為 3× 3、9× 9和 15× 15進行實驗,輸出16個特征圖; 第3層是采樣窗口大小為 2×2 的下采樣層,使用最大池化方式進行采樣操作; 第4層是一個全連接層,含有64個神經元.1幀輸入圖片先后經過兩次卷積操作,然后執(zhí)行一次下采樣操作,最后通過全連接層輸出一個64維的向量.3幀圖片會同時進行上述處理,因此在經過前4層之后,會得到3個64維的輸出向量.接著將這3個向量通過一個融合層進行融合.最后通過一個輸出層輸出分類概率向量.

1.3 融 合 層

融合層完成的功能是將多個網絡在其輸出層進行融合,使之構成一個網絡.融合的方式有連接、求和以及求積3種.設兩個網絡具有同維度的輸出向量,分別為

x=(x1,x2,…,xn) ,y=(y1,y2,…,yn) ,

(2)

則在融合層會使用如下方式將其融合成一個向量.

(1) 連接方式.將2個向量進行拼接,拼接公式如下:

c(x,y)=(x1,x2,…,xn,y1,y2,…,yn) .

(3)

(2) 求和方式.將2個向量按元素相加,求和公式如下:

s(x,y)=(x1+y1,x2+y2,…,xn+yn) .

(4)

(3) 求積方式.將2個向量按元素相乘,求積公式如下:

m(x,y)=(x1×y1,x2×y2,…,xn×yn) .

(5)

2 人臉表情數(shù)據(jù)及預處理

實驗數(shù)據(jù)來自CK+(extended Cohn-Kanade dataset)數(shù)據(jù)庫[12],該數(shù)據(jù)庫由卡耐基梅隆大學于2010年發(fā)布,主要用于人臉表情分類識別的研究.CK+數(shù)據(jù)庫包含了123個成年人的總共593個表情序列,每個表情序列都由至少6幀圖片組成,展現(xiàn)了一個人從自然到高峰的表情變化.

實驗中取生氣(Angry)、厭惡(Disgust)、害怕(Fear)、高興(Happy)、難過(Sadness)和驚訝(Surprise)6種人臉表情進行分類識別,如圖3所示.為了比較幀數(shù)多少與識別率的關系,分別取序列中后3幀、后4幀和后5幀圖片進行對比實驗.每幀圖片還需經一系列預處理工序,從而得到最終實驗數(shù)據(jù)集.

圖3 人臉表情示例

首先將非灰度圖片進行灰度處理,轉換為灰度圖片; 然后使用haar特征從圖片中提取出人臉;最后將圖片歸一化為 128× 128像素.同時,為了增加訓練集和測試集的數(shù)量,在原有的數(shù)據(jù)上做順時針15°和逆時針15°的旋轉變換,以生成新的數(shù)據(jù)加入訓練集.整個擴展后的實驗數(shù)據(jù)集共包含927個表情序列,約含 4 600 多張圖片.為了提高實驗結果的可靠性,采用5次交叉驗證方法,將每類表情平均分成5份,每次取其中4份組成訓練集,剩下的1份作為測試集,最終結果取5次實驗的平均識別率.

3 網絡訓練

3.1 網絡搭建環(huán)境

實驗使用Keras框架搭建網絡.Keras是一個基于python的神經網絡框架,支持theano和tensorflow的無縫切換.使用Keras框架搭建網絡十分簡單,只需要數(shù)十行代碼就可以完成一個網絡的構建,并且支持在圖形處理器上運行代碼.實驗的硬件平臺為Inter(R) Core(TM) i5-4460 CPU 主頻 3.2 GHz,16 GB 內存,NVIDIA GeForce GTX 1060 GPU 顯存 6 GB.

3.2 損失函數(shù)及訓練算法

實驗使用交叉熵函數(shù)(Cross Entropy Function,CEF)作為訓練網絡的損失函數(shù),即

(6)

其中,θ為神經網絡的訓練參數(shù),y為期望輸出,a為神經元的實際輸出,n是訓練樣本的個數(shù).神經網絡訓練的目的是要最優(yōu)化這個損失函數(shù).在訓練過程中首先嘗試了隨機梯度下降(Stochastic Gradient Descent, SGD)算法,公式如下:

其中,θt表示t時刻的訓練參數(shù),Δθt表示t時刻θt的修正量,η是學習率,gt為x在t時刻的梯度.該式沿著負梯度方向更新訓練參數(shù)θ.但是,隨機梯度下降算法并未取得理想結果,隨后選用動量算法進行訓練,公式如下:

Δθt=ρΔθt-1-ηgt,

(9)

其中,ρ是衰減系數(shù),表示要在多大程度上保留原來的更新方向,這個值在0~1之間.

動量算法的思路是模擬物體運動的慣性,在更新的時候在一定程度上保留了之前的更新方向.這樣一來,可以在一定程度上增加穩(wěn)定性,從而學習得更快,并且還有一定擺脫局部最優(yōu)的能力.該方法較隨機梯度下降算法在本實驗上取得了更好的效果,但依舊不太理想.最后選用了Adadelta算法進行訓練,其效果顯著,公式如下:

其中,gt為x在t時刻的梯度,ρ是衰減系數(shù).通過衰減系數(shù)ρ令每一個時刻的gt隨著時間按照ρ指數(shù)衰減,相當于僅使用離當前時刻比較近的gt信息,從而使得在很長時間之后,參數(shù)仍然可以得到更新.

4 實驗結果及分析

筆者做了3組實驗,分別從幀數(shù)量、卷積核的大小和融合形式方面探究與識別率的關系.實驗中統(tǒng)一將卷積層第1層的特征圖數(shù)量設為8,卷積層第2層的特征圖數(shù)量設為16,全連接層神經元數(shù)設為64.

表1 不同識別算法間的對比

表1中每個卷積網絡的卷積層第1層的卷積核大小設置為17×17,卷積層第2層的卷積核大小設置為 15× 15,融合層使用連接方式.從表1中可以看到,多層次卷積網絡方法相較于傳統(tǒng)的方法,在識別率上有了較大幅度的提升.在多層次卷積網絡方法中,隨著輸入幀數(shù)的增加,識別率也有小幅度提高.

圖4(a)展示的是3幀卷積神經網絡訓練過程的識別率曲線,方形節(jié)點曲線表示訓練集的識別率,三角節(jié)點曲線表示測試集的識別率.圖4(b)展示的是3幀卷積神經網絡訓練過程中損失值曲線,方形節(jié)點曲線表示訓練集的損失值,三角節(jié)點曲線表示測試集的損失值.

圖4 3幀卷積神經網絡訓練結果

表2使用3幀卷積神經網絡結構,融合層使用連接方式,分別設置了4種不同的卷積核大?。畯谋碇锌梢钥闯?,隨著卷積核的增大,識別率逐步提升,但會有一個閾值.若將卷積核設置過大,則反而會使識別率大幅降低.

表2 卷積核大小與識別率的關系

表3 不同融合方式下的識別率融合方式識別率/%連接92.15求和91.94求積79.03

表3使用3幀卷積神經網絡結構,每個卷積網絡的卷積層第1層的卷積核大小設置為 17× 17,卷積層第2層的卷積核大小設置為 15× 15.從實驗結果上看,使用連接或求和的融合方式,均可取得較高的識別率,但是求積的融合方式在此結構下并未取得理想效果.

5 結 束 語

參考文獻:

[1] GHIMIRE D, LEE J. Geometric Feature-based Facial Expression Recognition in Image Sequences Using Multi-class AdaBoost and Support Vector Machines[J]. Sensors, 2013, 13(6): 7714-7734.

[2] PANNING A, AL-HAMADI A K, NIESE R, et al. Facial Expression Recognition Based on Haar-like Feature Detection[J]. Pattern Recognition and Image Analysis, 2008, 18(3): 447-452.

[3] GU W, XIANG C, VENKATESH Y V, et al. Facial Expression Recognition Using Radial Encoding of Local Gabor Features and Classifier Synthesis[J]. Pattern Recognition, 2012, 45(1): 80-91.

[4] SHAN C, GONG S, MCOWAN P W. Facial Expression Recognition Based on Local Binary Patterns: a Comprehensive Study[J]. Image and Vision Computing, 2009, 27(6): 803-816.

[5] MARTIN C, WERNER U, GROSS H M. A Real-time Facial Expression Recognition System Based on Active Appearance Models Using Gray Images and Edge Images[C]//Proceedings of the 2008 8th IEEE International Conference on Automatic Face and Gesture Recognition. Piscataway: IEEE, 2008: 4813412.

[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[7] 劉如意, 宋建鋒, 權義寧, 等. 一種自動的高分辨率遙感影像道路提取方法[J]. 西安電子科技大學學報, 2017, 44(1): 100-105.

LIU Ruyi, SONG Jianfeng, QUAN Yining, et al. Automatic Road Extraction Method for High-resolution Remote Sensing Images[J]. Journal of Xidian University, 2017, 44(1): 100-105.

[8] 史鶴歡, 許悅雷, 馬時平, 等. PCA預訓練的卷積神經網絡目標識別算法[J]. 西安電子科技大學學報, 2016, 43(3): 161-166.

SHI Hehuan, XU Yuelei, MA Shiping, et al. Convolutional Neural Networks Recognition Algorithm Based on PCA[J]. Journal of Xidian University, 2016, 43(3): 161-166.

[9] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks[C]//Proceedings of the Advances in Neural Information Processing Systems. Vancouver: Neural Information Processing System Foundation, 2012:1097-1105.

[10] SZEGEDY C, LIU W, JIA Y, et al. Going Deeper with Convolutions[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.

[11] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[12] LUCEY P, COHN J F, KANADE T, et al. The Extended Cohn-Kanade Dataset (CK+): a Complete Dataset for Action Unit and Emotion-specified Expression[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2010: 94-101.

Multipleconvolutionalneuralnetworksforfacialexpressionsequencerecognition

ZHANGJingang1,2,3,F(xiàn)ANGYuan4,YUANHao4,WANGShuzhen4

(1. Xi’an Institute of Optics and Precision Mechanics of the Chinese Academy of Sciences, Xi’an 710119, China; 2. University of the Chinese Academy of Sciences, Beijing 100094, China; 3. Chinese Academy of Sciences, Academy of Opto-Electronics, Beijing 100094, China; 4. School of Computer Science and Technology, Xidian Univ., Xi’an 710071, China)

As an important part of the human-computer interaction system, facial expression recognition has been a hot research field. The convolutional neural network cannot recognize expression sequence although it can train the classification features automatically for the reason that the direction of feature training need to be specified manually. In order to solve this problem, this paper improves the network structure, and proposes a multi convolutional network fusion method that can be used to identify the expression sequences containing multiple frames. First, we construct a number of convolutional neural networks, so that each network processes one frame, and then merge the results in the merge layer, and finally pass the softmax classifier to give the identity result. On the CK+facial expression database, experiments are carried out on the 3rd, 4th and 5th frames of expression sequences, and a high recognition rate is obtained for all experiments.

facial expression recognition; convolutional neural network; deep learning; multi network convergence

2017-05-22

時間:2017-07-17

國家自然科學基金資助項目(61640422,61775219,61771369,61540028);中央高校基本科研業(yè)務費專項資金資助項目(NSIY221418)

張金剛(1982-),男,副研究員,E-mail: zhjg007@126.com.

王書振(1978-),男,副教授,E-mail: shuzhenwang@xidian.edu.cn.

http://kns.cnki.net/kcms/detail/61.1076.TN.20170717.2102.002.html

10.3969/j.issn.1001-2400.2018.01.027

TP391

A

1001-2400(2018)01-0150-06

(編輯: 郭 華)

猜你喜歡
融合
一次函數(shù)“四融合”
兩個壓縮體融合為一個壓縮體的充分必要條件
村企黨建聯(lián)建融合共贏
融合菜
寬窄融合便攜箱TPFS500
寬窄融合便攜箱IPFS500
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
寬窄融合便攜箱IPFS500
《融合》
“四心融合”架起頤養(yǎng)“幸福橋”
福利中國(2015年4期)2015-01-03 08:03:38
主站蜘蛛池模板: 亚洲成在人线av品善网好看| 最新国语自产精品视频在| а∨天堂一区中文字幕| 亚洲第一区欧美国产综合| AⅤ色综合久久天堂AV色综合| 国产资源免费观看| 一级爱做片免费观看久久| а∨天堂一区中文字幕| 久久久噜噜噜久久中文字幕色伊伊| 国产欧美日韩91| 无码日韩视频| 国产成年无码AⅤ片在线| 亚洲日韩精品欧美中文字幕| 日韩在线永久免费播放| 欧美亚洲欧美区| 欧美成人精品在线| 久久久久亚洲精品无码网站| 久久一日本道色综合久久| 亚洲成人在线网| 亚洲 欧美 日韩综合一区| 精品一区二区三区视频免费观看| 手机在线国产精品| 久久黄色一级片| 国产精品白浆在线播放| 永久免费无码日韩视频| 永久毛片在线播| 国产成人高清精品免费软件| 精品人妻无码区在线视频| 自拍欧美亚洲| 中文字幕va| 欧美久久网| 亚洲精品制服丝袜二区| 激情国产精品一区| 91免费国产在线观看尤物| 毛片久久久| 国产精品毛片一区视频播| 午夜啪啪福利| 亚洲精品桃花岛av在线| 亚洲综合激情另类专区| 孕妇高潮太爽了在线观看免费| 国产91视频观看| 六月婷婷激情综合| 国产乱子精品一区二区在线观看| 久久亚洲天堂| AV片亚洲国产男人的天堂| 欧洲极品无码一区二区三区| 国产精品私拍在线爆乳| 狠狠五月天中文字幕| 欧美日韩综合网| 亚洲aⅴ天堂| 无码在线激情片| 免费网站成人亚洲| 全部无卡免费的毛片在线看| 亚洲国语自产一区第二页| 亚洲国产成人无码AV在线影院L| 亚洲Aⅴ无码专区在线观看q| 免费观看成人久久网免费观看| 亚洲AⅤ永久无码精品毛片| 国产白浆在线| 国产jizz| 岛国精品一区免费视频在线观看| 男女男精品视频| 人妻少妇乱子伦精品无码专区毛片| 国产精品 欧美激情 在线播放| 国产精品久久久久鬼色| 色悠久久综合| 日韩精品无码免费一区二区三区| 日韩一区二区三免费高清| 久久久久久久久久国产精品| 91福利一区二区三区| 重口调教一区二区视频| 久久久精品久久久久三级| 亚洲精品第五页| 亚洲AⅤ波多系列中文字幕| 国产精品亚洲片在线va| 亚洲第一网站男人都懂| 91在线视频福利| 国产福利影院在线观看| 国产欧美日韩在线在线不卡视频| 亚洲欧美日韩成人高清在线一区| 国产精品久久久免费视频| 欧美成人看片一区二区三区|