重慶第二師范學院 曾文韜 張曉琴 王小亞 曾 瑞 李宗劍
隨著人工智能技術在教育領域的迅速發展,傳統的課堂教學評價已無法滿足如今豐富多彩的課堂教學。通過對學生五類課堂表情(傾聽、理解、疑惑、抗拒、不屑)的檢索結果,可及時掌握學生在課堂中的情緒變化和參與情況,為改善教學質量提供幫助。
在“一對多”的教學模式下,老師和學生的互動大多是提問、討論、作業的方式,這些方式不可避免帶來傳遞的滯后性。多媒體相關技術的引入,使課堂變得豐富多彩,從一定程度上改善了課堂氛圍,但教師獲得學生反饋的滯后性依舊未能得到有效改善。人臉表情圖像檢索是通過圖像傳感器采集人的面部表情,通過表情分析進行分類的一項技術。本文將卷積神經網絡(Convolutional Neural Networks,CNN)與課堂教學相結合,研究基于CNN的課堂表情圖像檢索技術。
心理學家Mehrabian指出,情感信息表達=7%語言+38%聲音+55%面部表情。由此可見表情所表達的情感基本就反應了一個人的心理狀態。在課堂教學中,學生的表情反應出自身的學習狀態和課堂教學質量。目前針對課堂學生表情并沒有統一的分類,經過多方面的資料查閱和信息收集,以及深入到課堂環境進行實地觀測,本文采用五類課堂表情分類,分別為:傾聽,理解,疑惑,厭倦和不屑。
傾聽。當學生并不反感教師當前所講內容,并且愿意繼續聽教師講述。
理解。當學生理解并消化了教師當前的教學內容,產生了學習興趣,并且對后續教學內容好奇,或是對教師當前的教學內容非常滿意。
疑惑。當學生對教師所講內容產生了不同意見,或是完全不能理解時,他們的心情會有幾分奇怪和驚訝。
厭倦。當學生精神狀態不佳,或對教師當前的教學內容沒有興趣,注意力已經完全沒有集中在課堂,內心只是期待趕快下課。
不屑。由于未知的原因,學生對教師的教學內容和教學方式產生了反感,或是對教師當前的教學內容不屑一顧,此時學生還沒有完全失去對于教學內容的興趣,他們只是希望教師及時地做出針對性的改變。
CNN是多層感知機(Multilayer Perceptron,MLP)的變種,由生物學家休博爾和維瑟爾在早期關于貓視覺皮層的研究發展而來。CNN可以自動從(通常是大規模)數據中學習特征,并把結果向同類型未知數據泛化。CNN的結構包含卷積層,池化層,全連接層等。
CNN中對圖像的特征提取主要由卷積層和池化層完成。
一張輸入圖像,首先需經過卷積層卷積。所謂“卷積”就是在輸入圖像中對一個小區域的像素加權平均后讓其成為輸出圖像中每個對應像素的過程。權值由一個函數定義,這個函數被稱為卷積核。一個卷積核,可提取到一張圖像中相同的特征,但每張圖的特征多種多樣,一個卷積核不可能提取到全部的特征。因此通常的做法是采用多重卷積核,即采用多個卷積核對同一張圖像進行卷積,確保提取到盡可能多的特征。
通過卷積后的特征圖不僅能在一定程度上保留盡可能多的特征,還能去掉圖像中許多不必要的細節。但卷積后參數數量依然龐大,還需進一步去掉更多細節,同時最大程度保留特征,這一過程被稱為池化。一般情況下,特征圖中存在特征的區域相比于其它區域的計算值會相對較高,因此采用最大池化可保留更多的特征。
通過卷積和池化,在減少參數數量的同時保留了特征,但上述過程為線性過程,無法解決非線性問題,因此引入激活函數來為CNN添加非線性因素。
圖片分類由CNN的全連接層完成,全連接層根據提取的特征來確定圖片所屬類別。因為卷積操作所提取到的特征只是圖片的局部特征,因此在進行分類之前,全連接層還需將提取到的特征進行重組,特征重組本質上是將一個特征空間線性變換到另一個特征空間。對于輸入特征為二維的特征圖,全連接層采用一個和特征圖大小一致的卷積核對該特征圖進行全局卷積,將局部特征整合到一起,輸出結果。這種做法一定程度上減少了特征位置對于分類的影響,忽略了圖片中特征本身的空間結構特性,極大的增強了神經網絡的魯棒性。
CNN將特征重組后的結果交給softmax分類器輸出分類的結果。Softmax分類器在CNN的最后一層,本質上是一個函數,常用于多分類模型,返回每個類別的概率,概率最大項對應的結果就是最終結果。不管輸出結果正確與否,都代表CNN完成圖片的檢索,也表示CNN完成前向傳播,接下來就需要根據CNN對圖片的檢索結果和真實結果的差值,進行反向傳播修改卷積核權重等相關超參數,使下一次的檢索結果更加接近真實結果,這個差值即為損失函數。
首先,經人工數據比對后的圖片作為輸入圖片進入神經網絡,特征提取由卷積層和池化層完成,經過兩層卷積池化保留主要特征。接著采用全連接層將卷積層和池化層提取到的局部特征進行特征重組,并交給softmax分類器進行圖片檢索,然后根據損失函數值,反向傳播對相關超參數進行修改,使預測結果更加接近真實結果。
課堂表情圖像的檢索是建立在良好的CNN模型基礎上。表情檢索流程的設計如圖1所示。

圖1 表情檢索流程
每個神經網絡的訓練都需要大量數據,考慮到目前并沒有關于課堂表情的數據集,因此實驗采用的數據以fer2013數據集為基礎,按照五類課堂表情對該數據集進行篩選,篩選后的結果為訓練集5364張圖片,驗證集662張圖片,測試集1354張圖片,每張圖片均屬于五類表情之一。
實驗所采取的數據集所含的數據樣本較少,針對該情況,我們在訓練CNN之前對數據集的數據樣本進行擴充,擴充方式包括但不限于旋轉,翻轉,顛倒,這些方式也是訓練神經網絡常規的數據樣本擴充方式。
在CNN網絡結構的設計上,用于訓練的圖片尺寸為48×48,相比于大尺寸圖片所蘊含的信息相對較少,如果結構設計過于復雜可能丟失圖片的顯著特征從而影響訓練結果,最終導致實驗結果不理想。因此我們設計了9層神經網絡的結構,其中3層卷積,2層池化,4層全連接的結構,如圖2所示。

圖2 CNN實驗結構
在CNN的訓練過程中,梯度下降方法是隨機梯度下降方法,損失函數為交叉熵函數,初始學習率為0.01,每次學習率衰減為10-6,初始動量為0.9,應用內斯特羅夫動力。將所有的訓練數據分為若干組,每組有128個圖片樣本,總共訓練50個周期。
在定位人臉的過程中,我們采用的是OpenCV的臉部追蹤器。定位到臉部后,將臉部圖像截取下來進行預處理,然后將預處理后的圖片提交給訓練好的CNN模型,通過模型檢索后輸出結果,并實時反饋結果。
為了探究不同數量的樣本集及其它超參數對CNN訓練結果的影響,我們在數據集上進行了多次實驗,相關結果如表1所示。

表1 CNN訓練結果
卷積的次數和數量在很大程度上影響局部特征的提取效率與準確度,多次卷積確實對提取特征比較有利,但也會使神經網絡變得復雜,需要訓練的參數也會增加,進而導致模型訓練的效率下降。經過多次的對比試驗,我們選取其中表現最好的模型進行應用效果的測試,最終模型的實際應用效果如圖3所示。

圖3 CNN應用效果示例
結語:針對課堂教學的應用需求,結合神經網絡技術,本文研究了基于CNN的課堂表情圖像檢索技術。本文采用的數據集原型來自fer2013數據集,而該數據集某種程度上并不是非常適合課堂表情檢索。雖采用了數據樣本擴充的方式,但相較于神經網絡需要的大數據量依然不夠,因此,解決課堂表情數據樣本不足問題和進一步改進CNN網絡結構以提高應用效果是接下來的研究方向。