999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面部表情交互識別方法研究

2021-02-28 06:20:18劉秋實趙長寬
小型微型計算機系統 2021年10期
關鍵詞:模型

劉秋實,趙長寬,張 昱,陳 默,于 戈

(東北大學 計算機科學與工程學院,沈陽 110169)

1 引 言

一直以來,基于視覺的人類行為識別是一個非常活躍的研究領域,在人類行為識別中,雙人交互行為識別是一個重要組成部分[1].目前,雙人交互行為識別的研究在智慧教育、智能安防、視頻監控領域中有很大的應用前景,尤其是多種神經網絡模型的提出,推動了深度學習技術在雙人交互行為識別上的應用[2].

瑞士IDIAP研究院提出了社交信號處理網絡[3],能夠獲得大量有關個體的情感、意圖及社會關系的社交信息.該研究表明,多種非語言行為都可以作為表達人的情感、意圖的社交信號.在人與人之間的互動中,大量的信息是通過人與人之間說話的方式、面部表情、手勢和其他方式[4].美國著名心理學家Albert Mehrabian研究發現[5],面部表情在感情交流中占有約55%的重要性,因此表情在人們的交流互動中占有舉足輕重的地位.

目前,雙人交互行為識別方法重點關注人的身體行為(如握手、擁抱、斗毆等)所引起的交互活動,對面部表情引起的交互問題研究的很少.另一方面,為滿足人機交互的需求,表情識別技術經過幾十年發展,取得了顯著成果.但是,這方面的研究主要是針對個人的表情識別,沒有考慮表情交互問題.

因此,本文嘗試將表情識別和交互行為識別兩個概念聯系起來,以將發生在可以相互影響兩方或者多方之間的表情序列作為表情交互的研究對象.

本文將表情交互識別問題定義為,從給定的視頻序列中分離出特定的表情交互序列,通過分類學習,判別交互雙方的人際關系行為模式.人際關系是指人與人之間通過交往與相互作用而形成的直接的心理關系,人際行為是指人際關系在行為上的表現,具有反應性和雷同性等特征,反應性是指一方的行為會引起另一方的行為,雷同性是指個體的人際行為具有很大的相似性.鑒于人際行為具有雷同性,可把人際行為分為若干類型,即有若干種人際關系行為模式[6].

數據集由標簽和數據兩部分組成.其中數據為典型場景下關鍵幀表情構成的表情交互序列,目前最常使用的表情劃分形式包括憤怒,厭惡,恐懼,幸福,悲傷,驚奇和中立7個基本類別[7].雖然人臉表情識別研究已經有了很大進展,但傳統的特征提取和分類方法對于復雜多變的環境考慮不足,削弱了表情識別的適用性[8],在現實生活中不受約束的自動面部表情識別遇到了多種挑戰,例如遮擋、光照變化、頭部運動以及受試者的年齡、性別、膚色和文化差異[9],考慮到表情交互序列對表情識別準確率的要求較高,本文采用人工方法,進行表情識別,保證表情數據的準確性.標簽為社會心理學領域普遍認同的8種代表性的人際關系行為模式[10],本文按照標簽對每一個數據樣本進行人工標注.

人類的情感反應不可避免地受到他人的影響.例如,在電影《霸王別姬》中,菊仙看著程蝶衣因飽受毒癮折磨而痛苦不堪時會抱著他失聲痛哭,局外的觀眾看此場景,也忍不住淚目,這就是一種共情現象.共情是從他人的參照系中理解或感受他人經歷的能力,即將自己置于他人位置的能力[11],共情作為人類社會行為的一個顯著特征,可以作為衡量雙方交互的一個重要手段.因此,本文引用共情這一概念,將情感計算融入到識別模型中.為了對共情程度進行量化,本文定義了參數值e作為其量化值.

本文提出的算法流程圖如圖1所示,其中表情交互序列是由交互雙方A、B的表情序列疊加而得到的,除此之外,參數值e也作為特征值輸入從而改善模型效果.

圖1 面部表情交互行為識別算法流程圖

本文的貢獻主要有以下方面:

1)提出了基于視覺的表情交互識別問題,將表情交互行為和人際關系行為模式這兩種概念相關聯,為解決雙人交互識別問題提供了新的思路.

2)建立了基于神經網絡的3種識別模型.分別采用全連接神經網絡(FCN)、卷積神經網絡(CNN)、長短期記憶網絡(LSTM),利用采集的雙人交互數據進行訓練,通過輸入表情交互序列,可判斷出雙方當前的具體人際關系行為模式.

3)引入共情這一概念,提出對其進行量化的方法,將其量化值融入到神經網絡模型中,進一步提高識別的準確率.

4)在實際數據集上進行了對比性能實驗,結果表明,本方法具有較高的識別準確率.

2 相關工作

目前關于表情交互行為的研究很少,但深度學習在表情識別、行為分析、情感計算等相關領域已經取得了很多成果,可以為后續工作提供借鑒.

在表情識別領域中,深度學習的快速發展促使研究人員利用深度神經網絡開發面部表情識別(FER)系統.近幾年來,研究人員為提高表情識別效率及降低特殊場景下表情識別的失誤率提出了各種新穎的表情識別模型和算法.Kai Wang等人[12]提出了一種簡單而有效的自修復網絡(SCN),它能有效地抑制不確定性,防止深度網絡對不確定的人臉圖像進行過擬合.Huiyuan Yang等人[13]針對人臉表情可以分為中立部分和表情部分的假設提出一種新穎的殘余表情識別算法(DeRL)從而緩和個體特征對面部表情的影響.Chieh-Ming Kuo等人[14]提出了一個精簡的FER模型,在性能不降低的條件下還能夠有效減少參數量提高效率.

面部表情行為是人類眾多表達行為的一種,雖然FER可以取得很好的效果,但多種模態(語音、文字)的結合可以互補信息,進一步增強模型的魯棒性.S Poria等人[15]開發了一個基于LSTM的神經網絡模型,從視頻的話語中提取上下文特征,用于多模態情感分析.此外Hazarika等人[16]提出的CMN模型,Navonil Majumder等人[17]提出的DialogueRNN模型均在多模態情感數據集IEMOCAP上表現出了很好的效果.相比于傳統方法,神經網絡在對數據進行情感特征提取時表現出了一定的優越性.

在行為分析領域中,隨著大規模骨架數據集變得可用,基于骨架的人體動作識別受到了越來越多的關注,Chao Li[18]提出了一種端到端的共現特征學習框架,其使用了CNN來自動地從骨架序列中學習分層的共現特征;Sijie Yan[19]提出基于骨架的動作識別的時空圖卷積網絡(ST-GCN);Chenyang Si[20]等人提出了一種新的注意力增強圖卷積LSTM網絡(AGC-LSTM),用于從骨架數據中識別人體動作.隨著單人行為分析模型的不斷提出,雙人交互行為識別技術也受到了關注,X.Ji[21]等人考慮到RGB圖像和深度圖像各自的優點以及信息互補的特點,提出了一種多源信息融合算法對雙人交互行為進行識別.但其研究對象主要是身體交互行為,不同于本文的表情交互行為.

3 數據準備

3.1 數據與標簽定義

輸入數據集定義為S={s1,s2,s3,…,sn},其中,n為樣本數,si為第i個樣本的表情交互序列,si={t1,t2,t3,…,tm},m為時間片數,tj為第j個時間片下交互雙方的表情交互序列.其中tj=tAj+tBj,tAj、tBj分別為交互雙方A、B在第j個時間片下的表情.

通常,將肉眼可識別的人類面部表情稱為“宏表情”,其持續時間一般在0.5s-4s之間[22],易于被人察覺和識別.考慮到人的反應時間和記錄時間,規定3s記錄一個“宏表情”,因此在建立數據集時,將時間片長度設定為3s,同時將7種基本表情及其序列號進行映射,如表1所示.

表1 表情與序列號關系

設R為實數域,則根據One-hot編碼,tj的表示形式為tj∈R1×7矩陣,si的表示形式為si∈Rm×7.

本文在8種典型人際關系行為模式基礎上,根據實際情況擴展兩個其他類型.標簽定義為Y={y1,y2,y3,…,yn}.根據One-hot編碼,標簽yi的表現形式為yi∈R1×10.

10種模式如表2所示,盡管8種標簽適用于絕大部分場景.我們發現仍有小部分場景需要其他類型的標簽,主要有:1)8種標簽不能包含的其他類別,但其仍屬于人際關系行為模式,例如,由一方的興致勃勃導致另一方的挖苦甚至憤怒,或者由一方的傷心難過導致另一方的興奮甚至嘲笑;2)不可識別的類型.在這類場景中一方行為未能明顯影響或改變另一方行為,交互雙方情感色彩過于平淡,比如交互雙方一問一答,并未流露過多情感,因此這一類別不屬于人際關系行為模式.

表2 標簽與序列號關系

3.2 時間窗口范圍設定

在日常生活中,人與人之間的交互往往不受時長限制,但在課題研究中,由于人力有限,且視頻時長愈長,所耗費的人工采集時間愈長,因此本文只基于時長較短的交互視頻片段進行處理,同時我們提出以下要求:1)視頻反映內容需要貼近日常生活,具有普適性.2)視頻中兩人發生交流,且有表情互動.3)所有視頻片段時長相同.

時間窗口即視頻時長,本文共采集50個滿足上述要求60s的視頻片段,但60s未必是最佳時間窗口,最佳時間窗口不宜過長也不宜過短,若過長則不利于人工標簽,且很有可能出現前后標簽不一致的情況.但時長過短也不科學,僅僅幾秒鐘的視頻片段不足以反應出二者交互狀態.對此我們進行了一次粗略調查,首先采集50個滿足上述要求60s的視頻,然后從大學生中隨機采訪5個普通人,每人對其中的10段視頻進行觀察,并分別記錄他們在觀察10段視頻過程中判定標簽的最短識別時間和最長維持時間,表3記錄了5人A、B、C、D、E對于10段視頻的標簽最短識別時間均值和最長維持時間均值,同時對于5個人的標簽識別時間均值和標簽持續時間均值再次求平均值.

表3 標簽識別時間及標簽維持時間記錄表

調查顯示,對于一段60s的雙人交互視頻,通常在17.3s左右,人們可以給視頻打出一個較為合理的標簽,而對于該標簽,其維持的時間大約在31.5s左右,超過一定時長,標簽有很大概率將會發生改變,因此時間窗口設定在15s-30s范圍內.

3.3 共情的度量方法

共情即人類識別他人的感受能力,研究表明人類識別他人感受的能力與一個人的模仿能力有關,并且似乎是基于一種天生的能力,這種能力將一個人看到的另一個身體動作和面部表情與自己產生相應的動作或表情的本體感受相關聯[23].

因此本文將交互雙方的表情相似度作為共情的度量參數e.相似度的計算通常采用歐氏距離,但距離和共情程度應當是負相關的關系,即距離越大,共情程度越低.

同時對于雙人表情交互場景,需要考慮一些實際問題,比如,在得知一方情緒低落時,另一方的第一反應通常是先詢問對方,傾聽對方的講述,其次才是安慰對方,替對方感到難過,情感產生共鳴并不是一瞬間的事情,持續時間也并不固定,考慮到傾聽時間、反應時間等因素,在進行進行表情相似度計算時,不再直接使用歐式距離.

因此,本文采用動態時間規整算法(DTW算法)[24],該算法在計算距離前需要完成模板匹配,然后基于這一路徑,再計算相應的距離.動態時間規整算法在語音識別領域中得到了廣泛應用,由于在語音識別中人的語速不同,導致發音長短不一,時間長度不同,雖然在本文中,交互雙方的時間序列長度相同,但要考慮到時間的延遲.現設定sA、sB分別為交互雙方A、B的表情交互序列,sA={tA1,tA2,tA3,…tAm},sB={tB1,tB2,tB3,…tBm},其中m為時間序列數,同時構造矩陣D∈Rm×m,D′∈Rm×m.

D(i,j)=d(tAi,tBj)

(1)

D′(i,j)=D(i,j)+min{D(i,j-1),

D(i-1,j),D(i-1,j-1)}

(2)

其中d(tAi,tBj)表示tAi與tBj的歐氏距離.則D(i,j)為歐氏距離向量中對應的元素值,D′(i,j)為累計距離向量中對應的元素值.按照公式(2)從(0,0)開始匹配兩個序列,直至到達終點D′(-1,-1),終點所求得的累計距離即是最終的共情量化值e,且e∈R1.

4 識別模型

本節共介紹3種識別模型.第1種識別模型采用全連接神經網絡(FCN),該模型結構簡單,但沒有考慮數據內各個元素之間的關系;第2種識別模型采用卷積神經網絡(CNN),該模型在圖片處理方面具有出色的表現,其優勢在于緊密聯系圖片內各個像素的位置,本文的數據具有特征和時間兩個維度,其結構類似于圖片,適用于卷積神經網絡;第3種識別模型采用長短期記憶(LSTM)神經網絡,作為循環神經網絡(RNN)的變種,該模型最擅長處理序列化結構數據,同時考慮到了數據在時間維度上的長期依賴性,符合本文采集數據的特點.

4.1 全連接神經網絡模型

全連接神經網絡(FCN)僅包含一層全連接層,數據通過全連接層后直接完成分類,其中權重矩陣和偏置的設計僅與輸入數據元素的數目和輸出數據元素的數目有關,不考慮其具體形狀.若輸入矩陣si∈Rm×7輸出pi∈R1×10,則權重w和偏置b的表現形式分別為w∈R7m×10,b∈R1×10.

4.2 卷積神經網絡模型

第2種識別模型采用卷積神經網絡(CNN),其特點在于隱藏層可劃分為卷積層和池化層.

4.2.1 卷積層

由于表情交互序列具有一定的時間連續性,因此卷積核需要提取表情在時間維度上的特征,輸入數據si∈Rm×7,其中m為時間序列數,卷積核大小設定為3×1,即對前一時間片、當前時間片及后一時間片的特征進行提取,同時為了對數據的觀察更加仔細,卷積核步長設定為1,數目設定為16.基于TensorFlow的API具有一旦零填充,輸出大小和輸入大小一致的特點,因此經過卷積層后輸出的大小為f(s)∈Rm×7×16.

4.2.2 池化層

經過卷積層處理后,數據仍需要通過池化層,進一步完成特征提取,其目的是去掉不重要的特征值從而減少參數數量.本文采用最大池化層(max pooling),其大小設定為2×1,相應地,2個維度的步長分別取值為2、1,因此經過池化層后,數據的元素數目可縮減為原來的1/2.最終數據通過全連接層完成分類.

4.3 長短期記憶神經網絡模型

長短期記憶(LSTM)神經網絡是一種特殊的循環神經網絡(RNN),擅長處理序列化結構的數據的同時又具有更強大的記憶功能.本文的表情交互序列si={t1,t2,t3,…,tm},則輸入矩陣xt可表示為tj∈R1×7,相應地,cell數目與時間片數目相同等于m,同時LSTM網絡通過遺忘門ft、輸入門it、輸出門ot選擇性地篩選數據,完成對cell狀態Ct的不斷更新,最后一個時間片下的ht即為LSTM層的輸出.經過LSTM層后,數據再通過全連接層完成分類.

ft=σ(Wf[ht-1,xt]+bf)

(3)

it=σ(Wi[ht-1,xt]+bi)

(4)

(5)

(6)

ot=σ(Wo[ht-1,xt]+bo)

(7)

ht=ot×tanh(Ct)

(8)

4.4 輸出結果

初始分類后的預測結果為p1,引入參數值e后得到的預測結果為p2,可定義為公式(9)和公式(10).其中w為權重.

p1=f(wT(s))

(9)

(10)

5 實驗評價

本實驗采用安裝一顆Intel(R)Core(TM)i5-5200U CPU處理器和4GB內存的筆記本電腦,操作系統是64位Windows 7,深度學習框架為Tensorflow(版本號為1.2.1),編程語言為Python(版本號3.6.8).

5.1 實驗數據

由于時間窗口設定為15s-30s范圍內,因此根據3.2節提出的視頻要求,我們人工采集了1000個時長30s的視頻片段,且視頻片段的前15s、18s、21s、24s、27s、30s依次作為不同時間窗口下的數據集,視頻主要來源于電視劇:《都挺好》、《超級翁婿》、《獨生子女的婆婆媽媽》.

5.2 實驗結果

5.2.1 不同時間窗口測試準確率比較

根據調查顯示,合理的時間窗口在15s-30s范圍內.同時由于每隔3s應當記錄一次兩人交互表情,則相應的時間序列數m={5,6,7,8,9,10}.為了尋找其中最合適的時間窗口值,需要基于每個時間窗口的表情交互序列進行訓練,并測試相應的準確率.本文基于3種神經網絡分別進行測試.對于不同時間窗口,準確率如表4所示.

表4 3種經網絡下不同時間窗口的數據測試準確率記錄表

通過表4,可以看出時間窗口為27s時,基于3種模型進行訓練并測試的準確率最高,因此設定27s為最佳時間窗口,此時交互雙方表情序列長度為9,在之后實驗中均將27s的表情交互序列作為研究對象.

整體來看,LSTM神經網絡模型效果要好于全連接神經網絡模型和卷積神經網絡模型(如圖2所示),這是因為LSTM相比CNN具有記憶的能力,其最大的優勢在于每一時間步的輸出都考慮到之前所有的輸入,CNN神經網絡模型中的卷積核雖然也可以提取數據在時間維度上的特征,但其大小是固定的,且并未考慮數據在時間維度上的長期依賴性.在最佳時間窗口下,準確率最高可以達到74.1%,這說明表情交互可以在一定程度上反應出人際關系行為模式.

5.2.2 共情量化值的比較

本文通過DTW算法統計出各個標簽下共情量化值e的均值.

通過表5可以看出在各種標簽下,交互雙方的共情量化值具有明顯差異,且共情量化值與共情程度是負相關的關系.在人際關系行為模式中,標簽5(表2標簽5)的共情程度最低.標簽3(表2標簽3)的共情程度最高.除此之外,自定義的其他兩類標簽(表2標簽9、表2標簽10),共情程度也有明顯差異,標簽9的共情程度較低,標簽10的共情程度較高,事實上在這一類別中,由于雙方表情均過于平淡,其表情相似度很高,因此共情程度反而很高,但由于其不屬于人際關系行為模式,因此即使共情程度很高也不能說明二者情感產生強烈共鳴,但其仍然可以作為反應標簽的特征值.

表5 各標簽下表情序列距離平均值

5.2.3 對比實驗

除深度學習模型之外,本文還采用了傳統的機器學習模型對最佳時間窗口下的數據進行訓練并測試,結果如圖2所示.

圖2 6類模型測試準確率

本文采用十折交叉驗證技術對模型效果進行評估,通過結果可以看出,樸素貝葉斯模型(NBS)對于表情交互序列數據的識別效果要好于K近鄰模型(KNN)和決策樹模型(DT),這主要是由于樸素貝葉斯算法的健壯性比較好,但其準確率仍然低于基于深度學習的神經網絡模型.分析其原因,是由于本文采集的表情交互序列數據在時間維度上是存在相關性的,而傳統的機器學習模型忽略了特征之間的相關性,這也證明了深度學習網絡模型的優越性.

此外通過DTW算法,對于每個樣本,都可以求得一個共情量化值e,本文將其引入并作為特征值進行訓練.

對于27s的表情交互序列,本文用十折交叉驗證技術對3種神經網絡模型分別進行評估,并將其與引入共情量化值e前的測試結果進行對比,結果如圖3所示.其中β代指未引入共情量化值e,γ代指引入共情量化值.

圖3 3類神經網絡模型測試準確率

可以看到,相比于之前的結果,準確率有所提高.因此證明共情量化值在某種程度上與人際關系行為模式存在著一定的聯系,同時可以起到改進模型的效果.

此外本文還統計了3類神經網絡模型在其中一次測試中的混淆矩陣.如圖4-圖6所示.總體來看,3類模型在個別標簽下表現效果不好,比如標簽1,標簽4,其原因是數據量過少,即屬于當前類別下的訓練集和測試集數目有限,因此分類效果不好,對比來看,LSTM網絡模型分類效果略好于卷積神經網絡和全連接神經網絡模型,但其并非在所有標簽下召回率都達到最高值,因此模型結構仍有待改進.

圖4 FCN混淆矩陣圖5 CNN混淆矩陣圖6 LSTM混淆矩陣Fig.4 FCN confusion matrixFig.5 CNN confusion matrixFig.6 LSTM confusion matrix

6 結束語

本文提出將深度學習技術應用到表情交互行為的識別上,對表情交互給出了定義,即發生在相互影響兩方或者更多方之間的表情序列,之后,進行了數據的采集,并通過運用深度學習開發平臺TensorFlow構建了3種神經網絡算法的模型,對數據進行了測試,測試準確率最高可以達到75.2%.因此,可以采取識別表情交互行為的方式判斷二者當前的人際關系行為模式.

本文的研究雖然取得了一定的進展,但仍然存在一些問題,本文的模型結構仍有待改進,在數據方面,表情是人工進行識別的,后期可采用準確率可匹配人工識別準確率的表情識別算法,節省工作量,基于擴充數據集,可進一步提高識別的準確率.另一方面,雙方在交互過程中,不僅面部表情會影響情感交流,頭部的運動,手勢的變化都在交流中起到了至關重要的作用,因此,綜合應用面部表情、頭部運動和手勢變化等多模態數據的交互行為研究是未來的重要方向.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费a级毛片18以上观看精品| 国产精品手机在线播放| www精品久久| 97成人在线视频| 久久精品娱乐亚洲领先| 午夜日本永久乱码免费播放片| 亚洲欧美日韩高清综合678| 麻豆AV网站免费进入| 国产女人在线| 亚洲最大福利视频网| 99热这里只有精品国产99| 免费一看一级毛片| 亚洲国产日韩视频观看| 久久综合婷婷| 亚洲黄色片免费看| 亚洲综合第一页| 免费欧美一级| 亚洲欧美综合另类图片小说区| 97久久人人超碰国产精品| 欧美综合区自拍亚洲综合绿色| 欧美日韩亚洲综合在线观看| 欧美综合区自拍亚洲综合绿色| 久久狠狠色噜噜狠狠狠狠97视色 | 国产精品中文免费福利| 欧美不卡视频在线观看| 亚洲成A人V欧美综合| 国产欧美日韩综合在线第一| 欧洲亚洲欧美国产日本高清| 亚洲欧美色中文字幕| 亚洲综合中文字幕国产精品欧美 | 老色鬼欧美精品| 97综合久久| 中字无码精油按摩中出视频| 精品视频在线一区| 午夜色综合| 色哟哟国产精品一区二区| 精品国产Av电影无码久久久| 一级做a爰片久久毛片毛片| 麻豆国产原创视频在线播放| 亚洲品质国产精品无码| 欧美日韩一区二区在线播放| 一本大道无码日韩精品影视| 性色生活片在线观看| 欧洲免费精品视频在线| 国产人成在线视频| 精品久久久久久中文字幕女| 亚洲综合天堂网| 国产区免费精品视频| 欧类av怡春院| 99热在线只有精品| 欧美黑人欧美精品刺激| 国产麻豆福利av在线播放| 在线观看视频99| 欧美国产日产一区二区| 日韩国产黄色网站| 亚洲 欧美 日韩综合一区| 亚洲精品视频免费观看| 国产精品 欧美激情 在线播放| 国产激情国语对白普通话| 在线观看亚洲精品福利片| 国产高清不卡视频| 欧美黄网站免费观看| 99热这里只有精品5| 国产白浆视频| 国产亚洲男人的天堂在线观看 | 91口爆吞精国产对白第三集 | 国产成人高清亚洲一区久久| 国产美女无遮挡免费视频| 亚洲视频免| 女人18毛片久久| 性做久久久久久久免费看| 这里只有精品在线| 国产乱子伦手机在线| 91精品视频在线播放| 亚洲最大情网站在线观看| 日韩美一区二区| 在线亚洲小视频| 国产精品高清国产三级囯产AV| 无码日韩人妻精品久久蜜桃| 亚洲浓毛av| 免费一级毛片| 77777亚洲午夜久久多人|