

摘要:預測未來是否會出現微表情具有重要的應用價值,尤其在情感識別、人機交互、心理健康、司法調查等多個領域。微表情的感知預測不僅可以提高情感感知的精確度,還能幫助人們在多種場景中做出更及時、更精準的反應。該文提出了一種基于深度學習的微表情感知預測方法。首先,利用卷積神經網絡模型提取微表情視頻幀的圖像特征;然后,通過長短時記憶網絡捕捉長時間跨度內微表情視頻幀之間的依賴關系,并使用Seq2Seq架構構建視頻幀序列到未來標簽序列的映射;最后,利用輸出標簽類型預測未來視頻序列中是否會出現微表情。該文在CAMSEⅡ數據集上進行實驗,實驗結果證明了該方法的有效性。
關鍵詞:微表情感知;卷積神經網絡;長短時記憶網絡
中圖分類號:TP391.1
文獻標識碼:A
文章編號:1009-3044(2025)20-0016-03
0引言
微表情是快速且不自主的面部反應,通常表現為面部區域的細微變化,持續時間非常短(通常小于0.5秒)。由于微表情具有無意識的特點且難以模仿,它們成為探索人類真實情感的重要手段。在審訊、刑偵和心理治療等領域[1],提前感知和預測微表情的發生能夠幫助相關人員及時調整審訊策略或治療方法。
因此,準確檢測微表情開始出現的幀對于后續的微表情定位和識別等任務至關重要。然而,當前微表情處理仍依賴于專家對視頻的人工檢測,這不僅費時而且效率低下。
受Hu等人[2]在宏觀表情預測任務的啟發,本文提出了一種基于深度學習的微表情感知預測模型,能夠在時間序列上預測微表情是否會出現。該方法采用卷積神經網絡(ConvolutionalNeuralNetwork,CNN)對視頻幀進行特征提取,使用長短時記憶網絡(LongShort-TermMemoryNetwork,LSTM)保留時間序列中的重要信息,并使用Seq2Seq(Sequence-to-Sequence)架構來處理圖像幀序列到未來標簽序列的映射問題。此外,本文還結合使用了教師強制(TeacherForcing)策略,通過在訓練過程中將真實標簽作為輸入來加速訓練。
1相關工作
1.1微表情
微表情是自發的、非自愿的情緒表達,很難偽造,能夠有效地傳達一個人真實的內心感受。因此,微表情在多個領域中都具有廣泛的應用價值。在教育領域中[3],教師可以通過觀察學生的微表情來評估其課堂參與情況,從而調整教學策略以提升教學效果。在心理治療中[4],治療師能夠通過分析患者的微表情來了解其真實的情感需求,從而實施更為精準的治療方案。在司法訊問中[5],執法人員可以通過觀察嫌疑人的微表情判斷其是否在撒謊,進而提高調查效率。
由于非專家在微表情研究方面面臨較大挑戰,采用計算機視覺技術進行微表情研究顯得尤為關鍵。
深度學習的進步使得精準的微表情感知預測成為可能?;谏疃葘W習的微表情感知預測算法能夠顯著提升感知的準確性,推動這一領域的進一步研究和發展。
1.2卷積神經網絡(CNN)
卷積神經網絡是圖像處理中廣泛應用的一種深度學習架構[6],能夠自動地從原始圖像中學習出具有辨識力的空間特征。傳統的手工特征提取方法往往無法捕捉圖像中復雜的細節信息,而CNN通過多層卷積操作,能夠提取出圖像中不同層次的空間信息,尤其在處理微表情這種細節化且短暫的面部變化時具有明顯優勢。
1.3長短時記憶網絡(LSTM)
長短時記憶網絡是循環神經網絡(RecurrentNeu?ralNetwork,RNN)的一個變種[7],專門設計用于處理和預測時間序列數據。LSTM通過其內置的記憶單元,能夠有效捕捉長時間跨度內的依賴關系,避免了傳統RNN在處理長序列時容易出現的梯度消失問題,其結構如圖1所示。微表情的變化通常是連續的,且需要跨多個時間步進行識別,因此LSTM非常適合處理這種具有長期依賴關系的任務。
2模型框架
本文提出的模型設計基于CNN和LSTM的組合,如圖2所示,旨在通過CNN提取圖像的空間特征,并通過LSTM捕捉圖像序列之間的時間依賴關系。
2.1CNN特征提取模塊
CNN主要由卷積層和池化層構成,具體結構如圖3所示。卷積層負責將輸人的RGB圖像轉換為特征圖,通過卷積核的滑動操作提取局部特征,如邊緣、紋理等面部細節。而池化層則通過減少圖像的空間維度,保留最顯著的特征信息,進一步降低計算復雜度,避免過擬合。經過卷積和池化后的特征圖會被展平,并傳遞至全連接層,生成一個低維的特征向量。這些特征向量隨后作為ISTM的輸人,為后續的時間序列建模提供充分信息。
微表情通常表現為面部細小肌肉的變化,這些變化往往具有較為明顯的空間特征,如表情的邊緣、紋理等。CNN通過局部感受野的特性,能夠有效捕捉這些細節,為微表情的識別提供可靠的特征支持。
2.2Encoder(LSTM)
LSTM作為Encoder部分,接收CNN提取的每幀圖像的特征向量,并將其作為時間序列輸入。LSTM通過記憶和更新隱藏狀態(hn)以及細胞狀態(cn)來保留時間序列中的重要信息,逐步捕捉視頻幀之間的動態變化。Encoder的最終輸出是一個隱藏狀態,該隱藏狀態包含了視頻序列的上下文信息,這些信息將作為Decoder的輸入。
2.3Decoder(LSTM)
輸出的隱藏狀態生成未來幀的預測標簽Decoder部分同樣采用LSTM,負責基于。微表情的Encoder預測是一個逐步生成的過程,因為模型需要預測每一幀是否含有微表情。Decoder接收來自Encoder的隱藏狀態,逐步生成未來幀的標簽。
在訓練過程中,引入了TeacherForcing策略。該策略通過將每一時刻的真實標簽作為Decoder的輸入,而非使用上一時刻的預測結果,從而加速了模型的收斂并減小了訓練誤差。TeacherForcing策略能夠有效地減少梯度傳播中的誤差積累,使模型能夠更快地學到正確的時間序列映射。
在預測階段,Decoder的輸入會基于前一時刻的預測結果進行遞推,生成后續幀的微表情預測標簽。這種遞歸式的生成方式能夠逐步捕捉微表情的發生及其變化。
2.4Seq2Seq架構
列長度不等的任務Seq2Seq架構廣泛應用于處理輸入序列與輸出序[8]。在微表情感知任務中,輸入是圖像幀序列,而輸出是未來幀的標簽序列。Encoder部分通過LSTM處理輸入圖像序列,并生成一個上下文信息(即隱藏狀態)。Decoder部分則基于這些上下文信息逐步生成輸出標簽序列。Seq2Seq架構能夠有效地處理這種映射關系,確保從圖像序列到微表情預測標簽的有效轉換。
3實驗與結果分析
3.1數據集和實驗環境
本研究采用中國科學院自主建立的自發宏表情和微表情識別數據庫集CASMEⅡ[9],這是原始CASME數據集的增強版[10],具有更多的微表情樣本,總計255個樣本,來自26名有效受試者。這些樣本使用高速攝像機以每秒200幀的速度進行錄制,分辨率為640×480像素,相比CASME數據集,具有更高的時間和空間分辨率。每個樣本都標注了開始、峰值和結束幀,并包括了5種情感類別:快樂、驚訝、厭惡、壓抑以及其他類別,共計5個類別。實驗操作系統為Ubuntu22.04.5,軟件環境配置為Python3.10,硬件配置為ROCm6.2.4,顯卡為AMDRadeonRX7900XTX24GB,CPU為13thGenIntel(R)Core(TM)i5-13600KF,GPU內存為32GBDDR42400MHz。
3.2模型訓練
在本文實驗中,輸入數據為CASMEⅡ數據集視頻文件夾中包含的若干幀圖片,且每個視頻包含一個Onset幀,表示微表情的開始。其他幀的標簽是0或1,表示該幀是否屬于微表情。Excel標簽文件提供了每個視頻的Subject、Filename和Onset等信息,用于確定每個視頻的微表情開始幀。
通過構建滑動窗口的方式訓練數據,每個滑動窗口由連續的5幀組成并預測未來5幀的狀態。每個滑動窗口在經過CNN提取特征后作為Encoder的輸入。最后輸出的預測值在經過Decoder后映射為預測結果標簽。標簽為1表示微表情已開始,標簽為0表示微表情未開始。
針對微表情感知模型訓練,采用Adam優化器,初始學習率為0.001,使用dropout正則化,共訓練30個周期。訓練使用適用于二分類問題的BinaryCross EntropyLoss(BCELoss)作為損失函數。在二分類問題中,目標是將樣本分為0和1兩個類別。BCELoss用于衡量模型預測的概率分布與真實標簽之間的差異。其定義如公式(1)所示:
式中:N為類別的數量;yi為樣本真實標簽(0或1);pi為模型預測的類別為1的概率,輸出值通常通過sigmoid激活函數得到,表示模型預測為類別1的概率。
3.3實驗結果及分析
本文采用準確率(Accuracy)來評估微表情感知模型,其定義如公式(2)所示:
式中:TP為真陽性;TN為真陰性;FP為假陽性;FN為假陰性。
實驗的評估結果情況如表1所示。
4結束語
本研究提出了一種基于深度學習的微表情感知預測模型,旨在提高微表情的預測準確性與時效性。該模型首先利用卷積神經網絡對視頻的每一幀進行特征提取,捕捉面部表情中的關鍵信息。然后,通過長短時記憶網絡處理這些特征序列,能夠有效捕獲微表情序列中的時間依賴性,并建立起時間上的連續性。模型結合了Seq2Seq架構,在時間序列的學習中采用了TeacherForcing策略,以加速收斂過程并增強模型的預測能力。此模型不僅能夠準確捕捉微表情的時序模式,還能有效預測未來可能發生的微表情,具有較強的實時性和精確度。
在實驗驗證方面,本文所提出的模型在微表情預測任務中表現優越,較傳統方法具有明顯的性能提升。通過對比實驗,模型在多個評估指標上均表現出色,尤其在捕捉微表情細微變化和時序關聯性方面展現了強大的能力。實驗結果表明,模型能夠精確地捕捉微表情的快速變化。此外,所提出的模型展示了其在實際應用中的巨大潛力和發展前景,尤其在情感計算和人機交互領域。微表情作為一種潛在的情感表達方式,對于理解人類真實情感狀態、提升人機交互體驗具有重要意義?;谠撃P偷奈⒈砬轭A測技術,未來可以廣泛應用于智能客服、情感計算、心理健康監測、虛擬角色交互等多個領域,為人工智能系統與人類情感的更好融合提供支持。
參考文獻:
[1]VRIJA,MANNS.Policeuseofnonverbalbehaviorasin?dicatorsofdeception[M]//AppLICATIONSOFNONVERBALCOMMUNICATION.NewYork:PsychologyPress,2005:63-94.
[2]HUYH,CHENBY,LINJ,etal.Human-robotfacialcoexpres?sion[J].ScienceRobotics,2024,9(88):4724.
[3]DACREPOOLL,QUALTERP.Improvingemotionalintelli?genceandemotionalself-efficacythroughateachinginterven?tionforuniversitystudents[J].LearningandIndividualDiffer?ences,2012,22(3):306-312.
[4]WHITEHILLJ,SERPELLZ,LINYC,etal.Thefacesofengage?ment:automaticrecognitionofstudentengagementfromfacialexpressions[J].IEEETransactionsonAffectiveComputing,2014,5(1):86-98.
[5]EKMANP.Liecatchingandmicroexpressions[M]//ThePhiloso?phyofDeception.Oxford:OxfordUniversityPress,2009:118-136.
[6]周飛燕,金林鵬,董軍.卷積神經網絡研究綜述[J].計算機學報,2017,40(6):1229-1251.
[7]楊麗,吳雨茜,王俊麗,等.循環神經網絡研究綜述[J].計算機應用,2018,38(S2):1-6.
[8]LIZ,CAIJ,HES,etal.Seq2seqdependencyparsing[C]//Pro?ceedingsofthetionalLinguistics.27StroudsburgthInternationalConferenceonComputa:ACL,2018:3203-3214.?
[9]YANWJ,LIXB,WANGSJ,etal.CASMEⅡ:animprovedspontaneousmicro-expressiondatabaseandthebaselineevalu?ation[J].PLoSOne,2014,9(1):e86041.
[10]YANWJ,QIW,LIUYJ,etal.CASMEdatabase:adatasetofspontaneousmicro-expressionscollectedfromneutralizedfaces[C]//201310thIEEEInternationalConferenceandWork?shopsonAutomaticFaceandGestureRecognition(FG).Shanghai,China.IEEE,2013:1-7.
【通聯編輯:代影】