崔小洛
(九州職業技術學院 江蘇 徐州 221116)
計算機圖像處理和人工智能的進步為學生的課堂學習活動帶來新的機遇與挑戰。現在可以通過監控攝像系統實時跟蹤和監控學生的課堂學習狀態,從而可以從多個維度評估學生課堂學習情況。許多研究表明,積極情緒和消極情緒分別能夠促進和抑制認知和記憶過程。在課堂學習中,擁有快樂、感興趣的學習情緒的學生在學習活動中表現的更積極、更有效率,而有困惑、煩躁、厭惡等消極情緒的學生會存在學習速度慢、效率低等問題。因此,教師在課堂學習活動中需要要時刻關注學生的情緒變化,盡可能幫助學生保持積極的情緒。但在實際的課堂環境中,教師難以充分考慮學生的情緒狀態。因此,可通過監控攝像系統,實時記錄學生的學習狀態,并根據人工智能算法自動識別學生的情緒變化,準確識別學生的情緒狀態。這樣教師既可以及時調整教授進度,緩解學生的不良情緒,又可以根據學生的情緒狀態靈活安排教授內容,提高學生的整體學習效率[1]。微表情是指任何只持續1/25 ~1/5 秒的快速表情[2],這樣的表達往往揭示了人們可能試圖壓抑或隱藏的真實情緒,因此,可以通過識別學生在課堂學習中的微表情變化,進一步得到學生的情緒狀態。為改進學生課堂學習質量,本文提出一種基于圖卷積神經網絡的學生課堂微表情識別算法,可以有效識別課堂中學生的微表情。
微表情是一種快速而微妙的面部動作,它顯示了人們潛在的真實情緒。微表情最顯著的特點是:與正常的面部表情相比,微表情的持續時間非常短。因此,通常很難在實時對話中發現人們的微表情。
Haggard 和Isaacs 于1966 年首先發現了微表情。三年后,Ekman 和Friesen 也報告說在他們的獨立工作中發現了微表情。他們檢查了一部為一名精神病患者拍攝的電影,該患者后來承認她向醫生撒謊以隱瞞她的自殺計劃。盡管患者在整個視頻中似乎都很開心,但當逐幀檢查視頻時,發現了一種隱藏的痛苦表情,僅持續了兩幀(1/12 秒)。Ekman 還指出微表情是檢測謊言的重要線索,因為它們通常發生在高風險的情況下,如果人們被發現撒謊或作弊,將會產生嚴重后果。例如,當嫌疑人被警察審訊時。后來許多其他研究人員加入分析微表情及其與謊言的關系。公眾對微表情的興趣在科學研究和媒體領域都在快速增長。但在計算機視覺中,微表情仍然是一個相當新的話題。
在1998 年Picard 提出情感計算的概念后,面部表情識別成為熱門話題。目前,已經開發了許多很好的方法來從面部表情中自動識別人類的情緒狀態。對于一般的面部表情識別問題,有許多廣泛使用的數據庫和算法,包括姿勢面部表情和自發面部表情。與大量的一般的面部表情識別研究出版物相比,在識別微表情方面研究較少。Shreve 等使用應變模式作為特征描述符來發現視頻中的微表情,他們的算法成功地發現了七個微表情樣本中的七個,但只有一次誤報。然而,他們的數據集包含姿勢而不是自然的微表情,并且他們為微表情設置的標準(2/3 s)比大多數公認的持續時間長。雖然對微表情的持續時間沒有嚴格的規定,但大多數人認為它們不應超過1/2 s。Polikovsky 等使用200 fps 高速攝像機記錄了10 名參與者的微表情,并使用梯度方向直方圖作為微表情識別的描述符。但他們在采集數據時要求參與者在面部肌肉強度較低的情況下進行七種基本情緒,并盡快恢復到中性狀態。
早期關于微表情自動識別的研究主要集中在微表情和宏觀表情的區分上。例如,Wu 等使用GentleSVM 算法用于發現和識別微表情,GentleSVM 是Gentleboost 算法和SVM 分類器的組合。Sariyanidi 等[3]發現,來自三個正交平面算子的相關完整局部二進制模式比普通正交平面算子可以實現更高的識別精度。Borza 等[4]從視頻中的每一幀圖像中提取圖像紋理特征,然后通過廣義支持向量機識別微表情,自動分割圖像序列。使用主動形狀模型,Li等[5]通過以下步驟定位人臉的標志點:首席,通過面部動作編碼系統將人臉分割成12 個區域;其次,對每個區域進行預處理,通過梯度直方圖提取圖像序列特征;再次,進行k-means 聚類并建立聚類注釋;最后,通過梯度直方圖和加權投票識別微表情。Lung[6]提出了微表情的小波函數識別方法。考慮到微表情的持續時間短,動作幅度小,Li等[7]在進行微表情識別之前,通過歐拉視頻放大增強了小動作幅度。He 等[8]根據動作單元識別微表情,首先,定義一套精細的面部定位規則;然后,面部位置由規則確定之后,將嘴角定位在臉上;最后,采用跟蹤學習檢測對微表情的動作進行跟蹤識別。Wang 等[9]提出了一種主方向平均光流特征的策略,其中提取主要方向視頻特征,并結合平均光流特征提取人臉圖像中某些塊的特征。
近年來,深度學習越來越多地應用于圖像檢索、人臉識別和表情識別。深度學習方法通常基于神經網絡,如卷積神經網絡、遞歸神經網絡和深度神經網絡等。Kim 等[10]將卷積神經網絡與遞歸神經網絡結合成一種小規模的時空特征學習方法來識別視頻中的微表情。Jain 等[11]將支持向量機分類器與線性核和深度信念網絡進行集成,并成功將集成方法應用于識別各種面部特征。部分學者將圖像處理和表情識別引入課堂學習評價。例如,Zhao 等[12]開發了一種用于課堂面部表情識別的情感計算模型,該模型依賴于樹分類器來識別學生的面部表情。Huang 等[13]通過特征提取和分類識別各種人臉的表情:根據學生的學習狀態、水平和效果分析他們的情緒狀態,并根據情緒為學生創建情緒模型評價指標。
在本文中,遵循深度學習的思想來設計用于學生課堂微表情識別的端到端網絡。以往的基于深度學習的微表情識別算法僅考慮微表情數據的特征表示,比如卷積神經網絡、自動編碼器等,忽視了數據的空間結構信息。圖卷積神經網絡能夠充分利用微表情數據的空間結構信息,更加準確地進行微表情識別。因此,考慮將圖卷積神經網絡應用于微表情識別。首先,根據學生課堂微表情的訓練數據,采用熱核方式構建K 近鄰圖,并進一步計算得到數據的鄰接矩陣和拉普拉斯矩陣;其次,通過切比雪夫多項式進行圖卷積計算,構建圖卷積神經網絡模型,并設計圖卷積神經網絡的前向傳播規則和損失函數;最后,完成圖卷積神經網絡模型訓練后,可將學生課堂微表情測試樣本輸入圖卷積神經網絡模型,得到預測結果。本文提出的圖卷積神經網絡模型可有效進行學生課堂微表情識別,能夠幫助學生更好地進行課堂學習,也可以使教師及時發現和解決學生在課堂上存在的問題。
基于圖的半監督學習[14]可以通過利用數據的圖或流形結構來解決問題。然而,將傳統神經網絡(例如卷積神經網絡和遞歸神經網絡)直接應用到圖上是非常具有挑戰性的。最近關于機器學習的研究使圖上的卷積成為可能。目前,將卷積推廣到任意結構圖的圖卷積神經網絡已獲得越來越多的關注。然而,到目前為止,使用圖卷積神經網絡對學生課堂微表情進行分類的研究較少。在本文中,受圖卷積神經網絡[14]思想的啟發,提出了一種基于圖卷積神經網絡的學生課堂微表情識別算法。不同于文獻[14]中的半監督學習方式,本文將圖卷積神經網絡推廣至多分類的監督學習。
給定學生的微表情數據為X∈?N×m,其中m表示特征維數,N 表示樣本的數目。我們利用微表情數據X構建一個無向圖G(ν,ε,A) ,其中ν表示圖中頂點的集合,且滿足條件;ε表示圖中連接頂點的邊;A∈?N×N表示鄰接矩陣,其中,如果頂點i 和頂點j 間存在連接邊,則A中的元素aij表示這條邊的權重。
對于學生微表情數據的每個樣本,選擇它的K 個相似樣本作為近鄰,并得到它與每個近鄰之間的相似度,進而構造相似度矩陣S∈?N×N。
采用熱核方式構建K 近鄰圖,則兩個樣本i和j之間的相似表示為
其中,σ表示熱核參數,Xi和Xj分別為原始微表情數據的第i 和第j 個樣本。在計算相似矩陣后,選取每個樣本的前K 個相似樣本作為其近鄰,構造鄰接矩陣A∈?N×N。
定義鄰接矩陣A的對角度矩陣為D,其中的對角元素為。則無向圖G(ν,ε,A) 的拉普拉斯矩陣可以定義為
對應的對稱歸一化拉普拉斯矩陣為
其中,I為單位矩陣。
給定信號X(微表情數據)和濾波器gθ=diag(θ)(其中θ為網絡參數,且滿足θ∈?N),X和gθ的頻譜卷積可以通過在頻譜域中分解X,然后將每個頻率乘以gθ來實現,即
其中,U是Ls的特征向量矩陣,可通過對Ls的特征值分解得到,即:Ls=U ΛUT,Λ為Ls特征值的對角矩陣;⊙為卷積操作;UTX表示X的圖傅里葉變換;gθ可以作為Λ中特征值的函數,即gθ(Λ)。
在對式(4)進行估計時,需要顯式計算拉普拉斯特征向量,這不利于大型圖的計算。為了規避此問題,可通過切比雪夫多項式將濾波器gθ逼近到K 階。這時,gθ(Λ)可被近似為
其中,kT為切比雪夫多項式,θ′為切比雪夫系數。可以計算為,其中mλ為sL的最大特征值。因此,圖上的K 定域卷積為
圖卷積神經網絡的前向傳播規則如下
其中,H(l)和H(l+1)分別是網絡第l 層的輸入和輸出,σ(·)為激活函數,W(l)為第l 層的權值矩陣。在圖卷積神經網絡中,初始化第1 層網絡的輸入為X,即H(1)=X,網絡的最后一層是包含softmax 函數的分類層,即
其中,H(?)和W(?)分別為最后一層網絡的輸出和權值矩陣,Z∈?N×C為微表情的分類概率分布矩陣,其中C為類別數目。Z中的元素Zi表示樣本屬于第j個類別的概率。因此,定義交叉熵損失函數為
其中,Y為真實的樣本標簽矩陣,當樣本屬于第i類別時,Yi=1,否則Yi=0。
根據以上模型訓練方式學習多層圖卷積神經網絡。在完成訓練后,當輸入新的學生微表情數據時,模型可準確輸出微表情分類,完成微表情識別任務。
本文設計了一種基于圖卷積神經網絡的學生課堂學習微表情識別算法。首先,根據學生課堂微表情的訓練數據,采用熱核方式構建K 近鄰圖,并進一步計算得到數據的鄰接矩陣和拉普拉斯矩陣;其次,通過切比雪夫多項式進行圖卷積計算,構建圖卷積神經網絡模型,并設計圖卷積神經網絡的前向傳播規則和損失函數;最后,完成圖卷積神經網絡模型訓練后,可將學生課堂微表情測試樣本輸入圖卷積神經網絡模型,得到預測結果。微表情識別技術和算法的進步和發展能夠促進學生的學習效率,本文提出的圖卷積神經網絡模型可有效進行學生課堂微表情識別,能夠幫助學生了解自己的內心狀態,促進有意義的學習,也可以使教師及時調整授課策略,緩解學生的不良情緒,提高學生的學習效率。