李 勇 林小竹 蔣夢(mèng)瑩
隨著計(jì)算機(jī)的快速發(fā)展,人機(jī)交互越來越多地出現(xiàn)在日常生活中,如何讓計(jì)算機(jī)更好地理解人類的心理是人機(jī)交互必須要解決的問題.人的面部表情中包含豐富的信息,研究指出,面部表情可以比動(dòng)作和語言更好地表達(dá)人類的心理活動(dòng)[1],面部表情識(shí)別也因此成為了人機(jī)交互中不可或缺的部分.一個(gè)普通人可以很好地讀取別人的面部表情并做出相應(yīng)的判別,但對(duì)于計(jì)算機(jī)來說這是一項(xiàng)十分困難的任務(wù),為此大量的專家學(xué)者投入到該領(lǐng)域的研究中來.面部表情是一個(gè)十分復(fù)雜的系統(tǒng),各國研究者們構(gòu)建了不同的模型來實(shí)現(xiàn)表情分類,其中最具代表性的就是Ekman等[2]在1978年提出了面部動(dòng)作編碼系統(tǒng)(Facial action coding system, FACS),隨后在1984年根據(jù)不同動(dòng)作單元的組合定義了6種基本的表情:生氣、厭惡、開心、悲傷、驚訝、恐懼.研究者們據(jù)此構(gòu)建了不同的表情庫,其中日本的JAFFE公開庫就是采用這六種基本表情構(gòu)建的表情庫,并且在此基礎(chǔ)上增加了第7類表情:無表情.卡耐基梅隆大學(xué)的Lucey等[3]于2010年在Cohn-Kanade dataset的基礎(chǔ)上發(fā)布了The extended Cohn-Kanade dataset(CK+),這個(gè)庫中包括了123個(gè)人的593個(gè)視頻序列,其中有327個(gè)序列是包含表情標(biāo)簽的序列,該庫中的表情除了6種基本的表情以外增加了蔑視和無表情兩種.進(jìn)入上世紀(jì)90年代以后,面部表情識(shí)別與分析迅速發(fā)展起來,研究者們提出了不同的算法來提高識(shí)別的準(zhǔn)確率,主要的方法有兩種:1)是基于幾何的方法,例如Lanitis等[4]采用幾何特征方法進(jìn)行識(shí)別,該方法是通過標(biāo)記人眼、口、鼻等特征點(diǎn),計(jì)算其相對(duì)位置來識(shí)別表情,雖然這種方法大大減少了輸入的數(shù)據(jù),但是僅用有限的點(diǎn)來表示復(fù)雜的人臉表情顯然會(huì)丟失很多重要的信息,因而整體的識(shí)別率并不太高;2)是基于整體的識(shí)別方法,例如Praseeda等[5]使用Gabor小波和SVM相結(jié)合的方式進(jìn)行面部表情識(shí)別,首先用Gabor濾波器對(duì)表情圖像濾波、提取特征,將提取到的特征用于SVM訓(xùn)練,訓(xùn)練分類器進(jìn)行表情的分類識(shí)別,這種方法同樣依賴于前期人工提取特征的優(yōu)劣,人為干擾因素較大.近年來,隨著計(jì)算機(jī)運(yùn)行速度的提高,處理大數(shù)據(jù)成為可能,同時(shí)互聯(lián)網(wǎng)的快速發(fā)展,研究者采集大量的數(shù)據(jù)變得相對(duì)容易,在此基礎(chǔ)上,深度卷積神經(jīng)網(wǎng)絡(luò)被證實(shí)了在圖像識(shí)別領(lǐng)域有巨大的優(yōu)勢(shì).Krizhevsky等[6]于2012年在ImageNet圖像數(shù)據(jù)集上使用AlexNet卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)取得驚人的成績(jī),其識(shí)別率遠(yuǎn)超傳統(tǒng)的識(shí)別方法.這個(gè)數(shù)據(jù)集包含約120萬張訓(xùn)練圖像、5萬張驗(yàn)證圖像和10萬張測(cè)試圖像,分為1000個(gè)不同的類別,傳統(tǒng)的特征提取方法被網(wǎng)絡(luò)結(jié)構(gòu)取代,網(wǎng)絡(luò)可以自行提取特征并分類而不需要人工干預(yù).
2006年,機(jī)器學(xué)習(xí)領(lǐng)域泰斗Hinton與他的學(xué)生在Science上發(fā)表的文章[7]掀起了深度學(xué)習(xí)研究的浪潮,多隱層的神經(jīng)網(wǎng)絡(luò)再次回到人們視野之中.在那以后,斯坦福大學(xué)、紐約大學(xué)、蒙特利爾大學(xué)等名校迅速成為深度學(xué)習(xí)研究的重要場(chǎng)所,甚至美國國防部DARPA計(jì)劃也首次資助了深度學(xué)習(xí)項(xiàng)目[8].卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一支,也迅速受到了廣泛的關(guān)注.現(xiàn)今,深度學(xué)習(xí)廣泛地應(yīng)用于監(jiān)控視頻事件檢測(cè)[9]、自然語言處理[10]、語音信號(hào)的基音檢測(cè)[11]、圖像分類與識(shí)別等領(lǐng)域[12?15].
卷積神經(jīng)網(wǎng)絡(luò)雖然是在近年來才受到廣泛的關(guān)注和應(yīng)用,但早在1962年Hubel等[16]就通過對(duì)貓視覺皮層細(xì)胞的研究,提出了感受野(Receptive field)的概念.1984年日本學(xué)者Fukushima等[17]基于感受野的概念而提出的神經(jīng)認(rèn)知機(jī)(Neocognitron)可以看作是第一個(gè)實(shí)現(xiàn)了的卷積神經(jīng)網(wǎng)絡(luò),這也是感受野概念在人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的首次應(yīng)用. Le Cun等[18]提出的深度卷積神經(jīng)網(wǎng)絡(luò),就是以神經(jīng)認(rèn)知機(jī)為基礎(chǔ),并使用了反向傳播算法來識(shí)別手寫數(shù)字,后來在1998年正式確定的LeNet-5模型,在文檔識(shí)別中取得了很好的效果[19],該模型當(dāng)年成功用于美國大多數(shù)銀行支票的手寫數(shù)字識(shí)別,是卷積神經(jīng)網(wǎng)絡(luò)在工業(yè)界最早的應(yīng)用.Le Cun設(shè)計(jì)的LeNet-5卷積網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示.
LeNet-5卷積神經(jīng)網(wǎng)絡(luò)可以看成是一個(gè)多隱層的人工神經(jīng)網(wǎng)絡(luò),其基本結(jié)構(gòu)主要包括輸入層、卷積層、池化層、全連接層和輸出層.其中卷積層和池化層會(huì)交替出現(xiàn),構(gòu)成了特殊的隱層.如圖1所示, Input是輸入層,輸入大小為32像素×32像素的圖片,MNIST手寫數(shù)字庫中圖片大小為28像素×28像素,所以實(shí)際使用時(shí)將其擴(kuò)展為大小為32像素×32像素的圖片使用.Layer 1層是卷積層,共有6個(gè)特征圖,每一副輸入為32像素×32像素的圖片都與6個(gè)不同的大小為5像素×5像素卷積核卷積,得到大小為28像素×28像素的特征圖. Layer 2層是池化層,Layer 1中6個(gè)大小為28像素×28像素的特征圖經(jīng)過池化后得到6個(gè)大小為14像素×14像素的特征圖.Layer 3層是卷積層,共有16個(gè)大小為10像素×10像素的特征圖.每個(gè)10像素×10像素的特征圖是由前一層的某幾個(gè)或全部特征圖與5像素×5像素的卷積核卷積得到,具體連接方式如表1所示.Layer 4層是池化層,共16個(gè)5像素×5像素的特征圖,由Layer 3層16個(gè)特征圖經(jīng)過池化得到.Layer 5層是卷積層,共有120個(gè)1像素×1像素的特征圖,每一個(gè)特征圖都是由Layer 4層所有的特征圖與5像素×5像素卷積核卷積得到.Full層是全連接層,共有84個(gè)單元,Layer 6層與Layer 5層為全連接關(guān)系.Output層是輸出層,輸出分類結(jié)果.
不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)采取的是局部連接(Locally-connection)的方式,不僅有效地減少了與神經(jīng)元連接的參數(shù)個(gè)數(shù),而且在誤差反向傳播過程中,讓梯度在一個(gè)較小的廣度范圍內(nèi)傳播[20],使得訓(xùn)練變得更加容易.權(quán)值共享也是卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)特點(diǎn),對(duì)于輸入圖像的每一個(gè)小塊,用相同的卷積核進(jìn)行卷積操作,這種方法來源于局部感受野的概念,可以使得圖像具有平移不變性.最后,卷積神經(jīng)網(wǎng)絡(luò)中的池化操作,就是一次下采樣操作,將相鄰的幾個(gè)像素點(diǎn)用一個(gè)像素點(diǎn)代替,根據(jù)采樣方法的不同分為Max-pooling和Avg-pooling,該操作可以使圖片具有一定的縮放不變性.

圖1 LeNet-5結(jié)構(gòu)圖Fig.1 The LeNet-5 convolutional neural network

表1 LeNet-5網(wǎng)絡(luò)Layer 2與Layer 3之間的連接方式Table 1 Connection between LeNet-5 network′s Layer 2 and Layer 3
LeNet-5卷積神經(jīng)網(wǎng)絡(luò)是通過不同的卷積核自行提取特征,將原始數(shù)據(jù)經(jīng)過一些簡(jiǎn)單的非線性的模型轉(zhuǎn)變?yōu)楦邔哟蔚摹⒏映橄蟮谋磉_(dá),最終使用高層次的特征進(jìn)行分類識(shí)別.然而這種分類方法沒有考慮到低層次的細(xì)節(jié)特征,而且隨著網(wǎng)絡(luò)深度加深,網(wǎng)絡(luò)訓(xùn)練的困難程度在增加,尤其是梯度消失或爆炸問題[21],為了能夠解決深層網(wǎng)絡(luò)的訓(xùn)練問題,研究者提出了跨層的連接方式.早期訓(xùn)練的多層感知機(jī)通常將輸入作線性變換后加到輸出上[22],近年來Srivastava等[23]提出了一種新的網(wǎng)絡(luò)連接結(jié)構(gòu)Highway networks,該結(jié)構(gòu)主要特點(diǎn)是提供了一種門限機(jī)制,一部分的特征不需要經(jīng)過處理直接通過某些網(wǎng)絡(luò)層,該結(jié)構(gòu)更加容易優(yōu)化,并且在CIFAR-10數(shù)據(jù)集上表現(xiàn)優(yōu)于Romero等[24]提出的FitNets.而He等[25]提出的深度殘差網(wǎng)絡(luò)同樣在標(biāo)準(zhǔn)的前饋卷積網(wǎng)絡(luò)上,增加了一些跨層的連接,目的也是為了降低訓(xùn)練的難度,該結(jié)構(gòu)不僅在層數(shù)上刷新了記錄,而且在ImageNet和COCO幾個(gè)主要的任務(wù)中都取得了優(yōu)異的成績(jī).Sun等[26]提出的DeepId網(wǎng)絡(luò)中也有設(shè)計(jì)將最后的池化層和卷積層與全連接層相連,張婷等[27]提出的跨連的卷積神經(jīng)網(wǎng)絡(luò)(Cross-connected convolutional neural net-work,CCNN)可以有效地將低層次特征與高層次特征結(jié)合起來,構(gòu)造出更好地分類器,在性別分類中取得了不錯(cuò)的結(jié)果.本文在LeNet-5的結(jié)構(gòu)基礎(chǔ)上引入跨連的思想,將LeNet-5網(wǎng)絡(luò)的兩個(gè)池化層與全連接層相結(jié)合用于最后的分類器構(gòu)造中.
雖然LeNet-5在手寫數(shù)字集上取得了巨大的成功,但是將該結(jié)構(gòu)用于表情識(shí)別時(shí)卻難以得到理想的結(jié)果,本文提出了改進(jìn)的LeNet-5結(jié)構(gòu)如圖2所示,包括一個(gè)輸入層、3個(gè)卷積層、2個(gè)池化層、一個(gè)全連接層和一個(gè)輸出層.網(wǎng)絡(luò)輸入是32像素×32像素的圖片,經(jīng)過卷積池化操作后將前兩個(gè)池化層與全連接層結(jié)合起來作為softmax分類器的輸入,最終獲得7種表情的分類輸出.表2為各層的網(wǎng)絡(luò)參數(shù).
整個(gè)網(wǎng)絡(luò)的訓(xùn)練過程分為正向傳播和反向傳播,其中正向傳播過程就是隱層提取特征的過程,主要是卷積和池化操作.反向傳播采用BP反向傳播算法傳遞誤差,使用隨機(jī)梯度下降算法,更新權(quán)值參數(shù).給定輸入,整個(gè)網(wǎng)絡(luò)的計(jì)算過程如下:
1)對(duì)于卷積層輸入X,卷積過程

其中,x表示輸入X中卷積區(qū)域M中的元素,w表示卷積核中的元素,m,n表示卷積核的大小,b表示偏置,f(·)表示ReLU激活函數(shù).卷積核大小及卷積步長(zhǎng)如表2所示.

圖2 改進(jìn)的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)Fig.2 Improved LeNet-5 convolutional neural network

表2 卷積網(wǎng)絡(luò)參數(shù)Table 2 Convolutional network parameters
2)對(duì)于池化層輸入Y,池化過程

其中,y表示池化層輸入Y中池化區(qū)域p中的元素,down(·)是下采樣過程,保留池化區(qū)域中的最大值.池化區(qū)域大小及步長(zhǎng)如表2所示.
3)對(duì)于全連接層輸入Z

其中,z表示輸入Z中的元素,w表示權(quán)值,b表示偏置,f(·)表示ReLU激活函數(shù).
4)對(duì)于輸出層輸入X

式(4)為Softmax分類器的假設(shè)函數(shù),計(jì)算的是輸入分類為類別j時(shí)的概率,w是權(quán)值參數(shù),k為總的類別數(shù).其損失函數(shù)為

其中,1{·}是示性函數(shù),1{值為真的表達(dá)式}=1, 1{值為假的表達(dá)式}=0.
反向傳播過程如下:輸入樣本得到實(shí)際輸出之后首先需要計(jì)算每一層的反饋傳遞誤差

式(6)為網(wǎng)絡(luò)各層的反饋傳遞誤差,式中符號(hào)?表示矩陣或向量中對(duì)應(yīng)的元素相乘.參考圖2可知,δ7是輸出層(Output)的反饋傳遞誤差,out表示網(wǎng)絡(luò)的實(shí)際輸出,y表示網(wǎng)絡(luò)的目標(biāo)輸出.δ6是Layer 6層的反饋傳遞誤差,w7是Layer 6與輸出層之間的權(quán)值.本算法采用的是ReLU激活函數(shù),f′表示ReLU激活函數(shù)的導(dǎo)數(shù).全連接層是由跨連接組合而成,Layer 5層只與該層中(1177≤i≤1260)部分連接,故誤差傳遞時(shí)只需使用δ6(1177≤j≤1260)參與計(jì)算,式中δ5是Layer 5層的反饋傳遞誤差,w6是Layer 5與Layer 6之間的權(quán)值.δ4i是Layer 4層第i個(gè)特征圖對(duì)應(yīng)的反饋傳遞誤差,w5是Layer 4與Layer 5之間的卷積核,對(duì)于每一個(gè)δ4i,都是將δ5j(1≤j≤120)與w5進(jìn)行外卷積得到,⊕表示的是外卷積操作,參考文獻(xiàn)[27]定義外卷積與內(nèi)卷積如下:假設(shè)有A和B兩個(gè)矩陣,大小分別為M×N,m×n,其中M,N≥m,n.內(nèi)卷積C=A⊙B,C中所有元素

其中,1≤i≤M?m+1,1≤j≤N?n+1.外卷積定義為

δ3是Layer 3層的反饋傳遞誤差,up(·)是一個(gè)上采樣操作,同時(shí)需要乘以激活函數(shù)的導(dǎo)數(shù).δ2i是Layer 2層的反饋傳遞誤差,它的計(jì)算過程與Layer 4層相似,每個(gè)δ2是由δ3(1≤j≤16)與w3進(jìn)行外卷積得到,不過這里要注意Layer 2與Layer 3之間的連接方式,具體可參見表2.δ1是Layer 1層的反饋傳遞誤差,與Layer 3層類似.
計(jì)算權(quán)值和偏置的偏導(dǎo)數(shù):

式(9)即為各層權(quán)值和偏置的偏導(dǎo)數(shù),其中f6為L(zhǎng)ayer 6的特征圖,以此類推,f5、f4、f2分別為對(duì)應(yīng)層的特征圖,input是輸入圖像.式中⊙表示內(nèi)卷積操作,定義見式(7).
對(duì)于訓(xùn)練集S={xl,yl}算法流程如下:
1)確定迭代次數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)步長(zhǎng),隨機(jī)初始化卷積核以及偏置.其中初始學(xué)習(xí)步長(zhǎng)選擇為0.005,隨著訓(xùn)練次數(shù)的增加,測(cè)試誤差變化較小時(shí),將學(xué)習(xí)步長(zhǎng)除以10,直至學(xué)習(xí)步長(zhǎng)降至0.00005,停止訓(xùn)練.
2)輸入樣本,正向傳播,計(jì)算實(shí)際輸出.
3)優(yōu)化目標(biāo)函數(shù),采用反向傳播算法計(jì)算反饋傳遞誤差.
4)計(jì)算參數(shù)的修正量.
5)通過梯度下降法更新參數(shù)值.
本文所有實(shí)驗(yàn)均在Matlab7.0上實(shí)現(xiàn),硬件平臺(tái)為L(zhǎng)enovo Tian-Yi 100:Intel(R)Core(TM)i5-5200u CPU,主頻為2.20GHz,內(nèi)存為4.00GB.
本實(shí)驗(yàn)分別采用JAF FE表情數(shù)據(jù)庫和CK+數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn).JAFFE表情數(shù)據(jù)庫包含7種表情,分別屬于10名女性,每個(gè)人每種表情有2~4張,共213張圖片.圖3為7種表情的示例圖像.

圖3 JAFFE表情庫7種表情示例圖像Fig.3 7 kinds of facial expression image in JAFFE expression dataset
CK+數(shù)據(jù)庫中有123個(gè)人的不同表情序列,為保持一致性,在CK+數(shù)據(jù)庫中也只考慮七種表情,從庫中取出七類表情共990幅圖片,圖4為7種表情示例圖像.

圖4 CK+表情庫7種表情示例圖像Fig.4 7 kinds of facial expression image in the CK+ expression dataset
將數(shù)據(jù)集中圖片統(tǒng)一裁剪采樣至大小為32像素×32像素,采用交叉驗(yàn)證的方法,將JAFFE數(shù)據(jù)集中圖片分為3份,每次取其中兩份為訓(xùn)練數(shù)據(jù),另一份為測(cè)試數(shù)據(jù);將CK+中圖片分為5份,每次取其中4份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù).
表3為本文算法在JAFFE表情庫中不同表情的分類結(jié)果,表4為本文算法在CK+數(shù)據(jù)庫中不同表情的分類結(jié)果.由表3和表4可以看到,在一些測(cè)試集上,整個(gè)網(wǎng)絡(luò)表現(xiàn)較好,正確率高,但是在另一些上表現(xiàn)相對(duì)較差,其原因可能是訓(xùn)練樣本數(shù)據(jù)中能提取出的表情特征不足,無法獲得足夠的特征進(jìn)行訓(xùn)練,導(dǎo)致分類器分類效果較差,這個(gè)現(xiàn)象也反映出了樣本數(shù)據(jù)對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的重要.
表5為不加跨連方式的網(wǎng)絡(luò)與加了跨連接之后的網(wǎng)絡(luò)在測(cè)試集上的正確率對(duì)比.實(shí)驗(yàn)過程中,由于樣本較少,不加跨連方式的網(wǎng)絡(luò)訓(xùn)練難度大,參數(shù)調(diào)整困難,而跨連接網(wǎng)絡(luò)收斂速度快,訓(xùn)練更容易.由表5可以發(fā)現(xiàn),直接采用LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別正確率很低,不能很好地分類,主要原因是LeNet-5是設(shè)計(jì)用于手寫數(shù)字識(shí)別,相對(duì)于數(shù)字而言,面部表情特征更復(fù)雜,然而樣本數(shù)量卻更少,僅用高層次特征不足以訓(xùn)練得到好的分類器,本文加入了跨連接的方法后,低層次特征參與最后的分類器的構(gòu)造后,識(shí)別效果顯著提高,即使在小樣本中也有不錯(cuò)的正確率.由表5還可以發(fā)現(xiàn),同樣的結(jié)構(gòu)在JAFFE表情庫中得到的正確率高于CK+庫中的正確率,原因是JAFFE中只有10名亞洲女性的表情圖像,而在CK+中包含了123個(gè)不同性別不同膚色的人的表情圖像,后者更為復(fù)雜,因而需要的樣本數(shù)量更多,否則難以學(xué)習(xí)到足夠多和足夠好的特征進(jìn)行分類.

表3 JAFFE表情庫不同表情的分類正確率(%)Table 3 Classi fi cation accuracy of diあerent expressions in JAFFE expression dataset(%)

表4 CK+數(shù)據(jù)庫不同表情的分類正確率(%)Table 4 Classi fi cation accuracy of diあerent expressions in CK+dataset(%)

表5 網(wǎng)絡(luò)是否跨連接正確率對(duì)比(%)Table 5 Classi fi cation accuracy of the network whether cross connection or not(%)
表6為本文方法與傳統(tǒng)非深度學(xué)習(xí)方法的比較,可以看出,相對(duì)于SVM等淺層學(xué)習(xí)方法,本文算法在JAFFE表情數(shù)據(jù)上表現(xiàn)較為優(yōu)異.

表6 不同方法在JAFFE上的對(duì)比(%)Table 6 The comparison of diあerent methods on JAFFE(%)
卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是自動(dòng)地、隱式地學(xué)習(xí)特征,不需要人為地定義特征,如果有足夠多的樣本用于訓(xùn)練,網(wǎng)絡(luò)可以學(xué)習(xí)到很好的特征進(jìn)行分類.相反如果沒有足夠多的樣本進(jìn)行訓(xùn)練,那么卷積神經(jīng)網(wǎng)絡(luò)就不如人為地定義特征能更快地找到樣本之間的聯(lián)系,從而達(dá)到好的分類效果.本文在LeNet-5的網(wǎng)絡(luò)基礎(chǔ)上,引入跨連接的方法,設(shè)計(jì)出新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將其應(yīng)用于面部表情識(shí)別.實(shí)驗(yàn)結(jié)果表明,低層次特征的應(yīng)用可以一定程度上彌補(bǔ)樣本數(shù)量的不足,獲得不錯(cuò)的分類效果.另外,由本次實(shí)驗(yàn)可知,卷積神經(jīng)網(wǎng)絡(luò)現(xiàn)在沒有一種通用的結(jié)構(gòu)可以很好地解決多種問題,在手寫數(shù)字庫上表現(xiàn)非常好的LeNet-5結(jié)構(gòu)在表情識(shí)別中表現(xiàn)較差,所以不同的問題需要設(shè)計(jì)不同的結(jié)構(gòu)來解決問題,這給卷積神經(jīng)網(wǎng)絡(luò)的普及帶來了一定的困難.
下一步研究計(jì)劃是尋找各層特征之間的關(guān)系,運(yùn)用反卷積等方法實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)各層特征的可視化,更好地理解各層特征,進(jìn)而找到更加通用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方法.
1 Pantic M,Rothkrantz L J M.Expert system for automatic analysis of facial expressions.Image and Vision Computing, 2000,18(11):881?905
2 Ekman P,Friesen W V.Facial Action Coding System:A Technique for the Measurement of Facial Movement.Palo Alto,CA:Consulting Psychologists Press,1978.
3 Lucey P,Cohn J F,Kanade T,Saragih J,Ambadar Z, Matthews I.The extended Cohn-Kanade dataset(CK+): a complete dataset for action unit and emotion-speci fi ed expression.In:Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).San Francisco,CA,USA:IEEE, 2010.94?101
4 Lanitis A,Taylor C J,Cootes T F.Automatic interpretation and coding of face images using fl exible models.IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997,19(7):743?756
5 Praseeda Lekshmi V,Sasikumar M.Analysis of facial expression using Gabor and SVM.International Journal of Recent Trends in Engineering,2009,1(2):47?50
6 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classiifcation with deep convolutional neural networks.In:Proceedings of the 25th International Conference on Neural Information Processing Systems,Lake Tahoe,Nevada,USA: NIPS,2012.1097?1105
7 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786): 504?507
8 Yu Kai,Jia Lei,Chen Yu-Qiang,Xu Wei.Deep learning: yesterday,today,and tomorrow.Journal of Computer Research and Development,2013,50(9):1799?1804
(余凱,賈磊,陳雨強(qiáng),徐偉.深度學(xué)習(xí)的昨天、今天和明天.計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799?1804)
9 Wang Meng-Lai,Li Xiang,Chen Qi,Li Lan-Bo,Zhao Yan-Yun.Surveillance event detection based on CNN.Acta Automatica Sinica,2016,42(6):892?903
(王夢(mèng)來,李想,陳奇,李瀾博,趙衍運(yùn).基于CNN的監(jiān)控視頻事件檢測(cè).自動(dòng)化學(xué)報(bào),2016,42(6):892?903)
10 Xi Xue-Feng,Zhou Guo-Dong.A survey on deep learning for natural language processing.Acta Automatica Sinica, 2016,42(10):1445?1465
(奚雪峰,周國棟.面向自然語言處理的深度學(xué)習(xí)研究.自動(dòng)化學(xué)報(bào), 2016,42(10):1445?1465)
11 Zhang Hui,Su Hong,Zhang Xue-Liang,Gao Guang-Lai. Convolutional neural network for robust pitch determination.Acta Automatica Sinica,2016,42(6):959?964
(張暉,蘇紅,張學(xué)良,高光來.基于卷積神經(jīng)網(wǎng)絡(luò)的魯棒性基音檢測(cè)方法.自動(dòng)化學(xué)報(bào),2016,42(6):959?964)
12 Sui Ting-Ting,Wang Xiao-Feng.Convolutional neural networks with candidate location and multi-feature fusion.Acta Automatica Sinica,2016,42(6):875?882
(隨婷婷,王曉峰.一種基于CLMF的深度卷積神經(jīng)網(wǎng)絡(luò)模型.自動(dòng)化學(xué)報(bào),2016,42(6):875?882)
13 Wang Wei-Ning,Wang Li,Zhao Ming-Quan,Cai Cheng-Jia, Shi Ting-Ting,Xu Xiang-Min.Image aesthetic classi fi cation using parallel deep convolutional neural networks.Acta Automatica Sinica,2016,42(6):904?914
(王偉凝,王勵(lì),趙明權(quán),蔡成加,師婷婷,徐向民.基于并行深度卷積神經(jīng)網(wǎng)絡(luò)的圖像美感分類.自動(dòng)化學(xué)報(bào),2016,42(6):904?914)
14 Chang Liang,Deng Xiao-Ming,Zhou Ming-Quan,Wu Zhong-Ke,Yuan Ye,Yang Shuo,Wang Hong-An.Convolutional neural networks in image understanding.Acta Automatica Sinica,2016,42(9):1300?1312
(常亮,鄧小明,周明全,武仲科,袁野,楊碩,王宏安.圖像理解中的卷積神經(jīng)網(wǎng)絡(luò).自動(dòng)化學(xué)報(bào),2016,42(9):1300?1312)
15 Sun Xiao,Pan Ting,Ren Fu-Ji.Facial expression recognition using ROI-KNN deep convolutional neural networks.Acta Automatica Sinica,2016,42(6):883?891
(孫曉,潘汀,任福繼.基于ROI-KNN卷積神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別.自動(dòng)化學(xué)報(bào),2016,42(6):883?891)
16 Hubel D H,Wiesel T N.Receptive fi elds,binocular interaction and functional architecture in the cat′s visual cortex.The Journal of Physiology,1962,160(1):106?154
17 Fukushima K,Miyake S,Ito T.Neocognitron:a neural network model for a mechanism of visual pattern recognition.IEEE Transactions on Systems,Man,and Cybernetics, 1983,SMC-13(5):826?834
18 Le Cun Y,Boser B,Denker J S,Howard R E,Habbard W,Jackel L D,Henderson D.Handwritten digit recognition with a back-propagation network.Advances in Neural Information Processing Systems 2.San Francisco,CA,USA: Morgan Kaufmann Publishers Inc.,1989.396?404
19 Le Cun Y,Bottou L,Bengio Y,Haあner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278?2324
20 Bengio Y.Learning deep architectures for AI.Foundations and TrendsR○in Machine Learning,2009,2(1):1?127
21 Glorot X,Bengio Y.Understanding the diきculty of training deep feedforward neural networks.In:Proceedings of the 13th International Conference on Arti fi cial Intelligence and Statistics(AISTATS)2010.Sardinia,Italy:Chia Laguna Resort,2010.249?256
22 Ziegel R.Modern Applied Statistics with S-plus(3rd edition),by Venables W N and Ripley B D,New York: Springer-Verlag,1999,Technometrics,2001,43(2):249
23 Srivastava R K,GreあK,Schmidhuber J.Highway networks.Computer Science,arXiv:1505.00387,2015.
24 Romero A,Ballas N,Kahou S E,Chassang A,Gatta C,Bengio Y.FitNets:hints for thin deep nets.Computer Science, arXiv:1412.6550,2014.
25 He K M,Zhang X Y,Ren S Q,Sun J.Deep residual learning for image recognition.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. arXiv:1512.03385,2016.770?778
26 Sun Y,Wang X G,Tang X O.Deep learning face representation from predicting 10,000 classes.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,OH,USA:IEEE,2014. 1891?1898
27 Zhang Ting,Li Yu-Jian,Hu Hai-He,Zhang Ya-Hong.A gender classi fi cation model based on cross-connected convolutional neural networks.Acta Automatica Sinica,2016, 42(6):858?865
(張婷,李玉鑑,胡海鶴,張亞紅.基于跨連卷積神經(jīng)網(wǎng)絡(luò)的性別分類模型.自動(dòng)化學(xué)報(bào),2016,42(6):858?865)
28 Kumbhar M,Jadhav A,Patil M.Facial expression recognition based on image feature.International Journal of Computer and Communication Engineering,2012,1(2):117?119