李丹錦
(北京工業(yè)大學信息學部,北京100000)
在圖像識別領域中,人臉識別是主流的研究方向,從傳統(tǒng)圖像處理的人臉檢測和人臉邊緣特征提取,VGG-Face實現(xiàn)人臉識別的高維特征提取,以及近年國內seetaFace算法的提出,都標志著人臉識別領域算法的突飛猛進,廣義的人臉識別主要包括四大人臉技術,分別為人臉檢測、人臉對齊、人臉驗證和狹義的人臉識別,分別實現(xiàn)了在自然場景中對人臉處理的各個流程,其中人臉識別的延伸領域也有了很大發(fā)展,如人的性別、年齡、表情等特征的識別,本文主要實現(xiàn)了人臉檢測、人臉對齊、人臉多模態(tài)識別的算法和相關的改進,并將其與視頻分類的算法相結合,實現(xiàn)在視頻領域的智能化應用,為未來做視頻分類提供思路、鋪墊基礎。
本文主要具體針對人臉的表情識別進行研究,對基于視頻片段的表情識別做出改進,以期提高基準算法的識別準確率和實時性。得出人臉多模態(tài)的分類標簽后,繼續(xù)研究視頻關鍵片段的選取,確定一段短視頻的數(shù)個關鍵序列,針對這些序列做多模態(tài)識別,對每個序列保留分類相似度前二的兩個標簽,隨后利用這些關鍵序列的情感標簽做數(shù)據(jù)分析,得到視頻的情感分類標簽。算法的整體流程圖如圖1所示:

圖1 算法基本流程
人臉多模態(tài)識別文中主要指人臉面部多表情識別,本文定義的表情種類有7種,分別為Angry、Disgust、Fear、Happy、Neutral、Sad、Surprise,本課題基于視頻片段做研究,在表情識別的流程中主要包括人臉檢測、人臉矯正(對齊)、人臉多模態(tài)識別三部分工作。本文在數(shù)據(jù)集AFEW上做最終訓練,該數(shù)據(jù)集主要截取于電影中的經典場景,需要處理的原始數(shù)據(jù)是自然場景下的圖像數(shù)據(jù),而非規(guī)格化之后的標準數(shù)據(jù),在算法處理上會有一些不同。
首先對于人臉檢測算法,并非本文重點研究內容,而且目前人臉檢測算法趨于成熟,故而直接采用seetaFace實現(xiàn)人臉檢測功能。
實現(xiàn)人臉檢測后由于數(shù)據(jù)集是自然場景人臉數(shù)據(jù),故而需要得到人臉矯正后的正臉圖像才能用于人臉的表情識別的算法訓練,矯正人臉首先到得到人臉的特征點或三維偏轉角度,本文做人臉對齊的數(shù)據(jù)集同時標注了人臉68個特征點和基于正方位的三維偏轉角,故設計卷積網絡直接回歸得到人臉的三維偏轉角。模型上借鑒VGG-Face淺層網絡的特點,設計5層卷積的簡單模型。
模型首先接收124×124大小的灰度圖像并標記人臉的偏轉角度為網絡的輸入,隨后通過卷積核較大(size分別為7和5)的兩層網絡將圖像快速收縮,并提取低維邊緣特征,同時在第一層網路后將其結果歸一化,隨后連接三層小卷積核(size為3)網絡進一步細化人臉邊緣特征,最后連接兩層全連接層,做回歸函數(shù)得到結果序列。模型結構如圖2所示。
基于視頻的人臉多模態(tài)識別的baseline算法為VGG+LSTM算法,基本思想為通過VGG模型提取特征,繼而采用LSTM對視頻片段做加強訓練。
C3D模型主要改變了傳統(tǒng)2D卷積的特點,創(chuàng)新性的引入了3D卷積的方式,2D卷積在映射特征的時候只能在單層featuremap上提取,而3D卷積網絡可以在相鄰的featuremap上映射特征。

圖2 人臉對齊卷積模型

圖3 多模態(tài)baseline模型
HoloNet模型算法則是采用另外一種改進方式進行算法的改進,即引入殘差的思想。整個模型體現(xiàn)了殘差設計的思想,在將提取的特征圖和上層樣本同時作為下一層的輸入,以減少模型提取過程中特征的損失提高識別的準確率。
在研究經典多模態(tài)算法的基礎,借鑒其中經典思想,本文提出了一種基于VGG模型改進的新的模型結構,用于本文人臉多模態(tài)識別的應用。
首先在預處理階段采用灰度圖、meanLBP圖、basicLBP圖組合而成的三通道圖像數(shù)據(jù)代替?zhèn)鹘y(tǒng)的RGB 3色圖像,而適當減少VGG網絡淺層網絡,保留其淺層網絡收斂圖像的作用,并適當弱化淺層網絡邊緣特征提取的作用。LBP算法是一種傳統(tǒng)的人臉邊緣特征提取的算法,以此方式可以在預處理階段先對人臉邊緣特征做針對化的簡單處理,以提高卷積網路運算的速度和特征提取的這針對性,有效提高模型準確率。
其次,對于VGGFace算法而言,高層網絡卷積核主要實現(xiàn)的是高維特征的提取,在此提出的模型上的改進思路為,將VGG模型高層網絡卷積單元適當替換為殘差網絡單元。其中殘差網絡的模型特點是將原始數(shù)據(jù)和經過卷積映射處理后的數(shù)據(jù)一同作為下一層卷積的輸入。模型圖為圖5和6。
以此適當保留卷積映射之前特征,有效提高的模型的準確率。圖4為處理結果:

圖4 LBP處理后的樣本
在對場景進行多模態(tài)識別之前,我們需要對短視頻截取關鍵場景,本文定義的關鍵場景是有人物,且?guī)逦瑫r可以代表一個長場景的一段序列,這段序列一般由十幾到數(shù)十幀組成,需要設計算法用于實現(xiàn)對一個視頻進行關鍵場景的選取。

圖5 殘差網絡單元

圖6 表情識別卷積模型
首先本文采用關鍵幀定位算法,即對一個轉場鏡頭的視頻序列確定關鍵幀,選取關鍵幀前后X幀(不超過該場景的始、終位置)組成關鍵場景,在此規(guī)定一個轉場鏡頭有且僅有一個關鍵幀。具體算法描述為:
第一步,對視頻進行場景切割。將待分類視頻分割為數(shù)個場景片段,即根據(jù)檢測到的轉場處切割視頻,得到數(shù)個場景視頻,此處場景轉換檢測算法采用dHash算法。
第二步,確定場景關鍵幀。關鍵幀確定算法采用圖像熵最大化。
第三步,選取關鍵幀前X幀(臨界值為場景起始)和后X幀(臨界值為場景結束)組合為截取的該場景的關鍵場景。
第四步,對于每個場景都采用上述算法,得到一個視頻的若開關鍵場景。
其中圖像熵的定義為:對一副圖像來說,直方圖可被認為是一種概率密度函數(shù),設hk表示整幅圖像中像素值為k的像素所占的比例,考慮到當hk=0的實際情況,加上約束條件:當hk=0,則loghk=0。因此,圖像熵表示為:

其中將圖像由rgb格式轉化為hsv:格式,h、s、v 3個分量加權系數(shù)為0.9、0.3、0.1,得圖像綜合熵為:

圖像熵最大化關鍵幀定位即為計算一段幀序列中每幀圖像的熵,選取最大值作為這段序列的關鍵幀。
本文首先構建一個情感與視頻類別的簡單三分類映射,以驗證上述算法的可行性。其中為各個情感設置標志位,其中相鄰情感有一定的相似度和漸變性,將 sad、fear、angry歸類為消極情感,將 disgust、surprise歸類為介于消極情感和積極情感之間的過渡情感,將neutral、happy歸類為積極情感。
在上述表情識別結果中,每個標簽保留可能性前兩位的標簽數(shù)據(jù)。
1)如果t1與t2同屬一個大分類,則直接選取t1作為其最終標簽。
2)如果t1與t2分屬兩個不同的分類時,該標簽為

一段視頻分為了n個場景,每個場景都有一個關鍵序列,上述實現(xiàn)了每個場景的標簽選取,每個場景的權重為Wn,Wn由該場景占總視頻的比重確定。最終視頻標簽:

人臉表情識別整個算法最終在AFEW公開數(shù)據(jù)集上得出53.8%的準確率,高于baseline的準確率(49.3%),仍有待繼續(xù)優(yōu)化卷積模型。
對于整個視頻分類的算法效果而言,整體可以實現(xiàn)對視頻大致歸類的效果,部分實驗結果如表1所示。

表1 實驗結果表
結果可見對于消極情感的準確率最高,而待測視頻最易被誤識別為過渡情感。
通過上述人臉多模態(tài)和視頻解析分類算法,將人臉識別與視頻處理和分類綜合應用相結合,得到了理想的實驗效果。通過實驗也得出人臉多模態(tài)技術能夠用于對視頻進行情感層面的分類。