金 力, 金正賢,盧海妹,許歡慶,黃方亮
(1.安徽中醫藥大學 醫藥信息工程學院,安徽 合肥 230012; 2.西北工業大學 公共政策與管理學院,陜西 西安 710129; 3.安徽醫科大學 基礎醫學院,安徽 合肥 230032)
2015年10月,國務院出臺的《統籌推進世界一流大學和一流學科建設總體方案》中明確提出:培養拔尖創新人才是“雙一流”建設的核心任務之一[1].高等教育學研究表明,創新型人才的培養除了與課堂教學的授課質量密切相關[2],還取決于授課過程中學生面部表情所反映出的聽課專注程度[3].鑒于此,在對面部表情與課堂教學效果進行關聯分析的基礎上,利用深度學習技術構建出課堂教學效果評價模型已成為目前高等教育學領域研究的熱點問題.
面部表情識別一般是指通過顏面、眼部及口部肌肉的變化來表征各種情緒狀態,它是一種非常重要的非語言交往手段.藝術家們往往會通過對人物面部表情的描繪來表現人物內心的情感,從而能夠栩栩如生地展現人物的精神風貌.有“人面教皇”之稱的美國著名的心理學家保羅·埃克曼長期致力于面部表情與內心真相的研究,他發現不自主的反應是真感情的最佳指標,若被測者的面部表情與其真實想法不一致時,總會露出相應的破綻;此外,梅拉賓法則也明確指出:人們交往過程中約有55%的信息是通過面部表情進行傳達,通過交談傳遞的信息不足7%.鑒于此,國內相關高校采用深度學習等技術對被測者的面部表情與課堂教學效果進行了較為深入的研究.劉全明團隊[4]以FER2013人臉數據集為研究對象,針對小尺寸的人臉檢測問題構建了一種改進的多尺度特征融合算法,并在此基礎上提出了基于輕量級卷積神經網絡的面部表情識別方法,最終的實驗結果表明該方法識別的準確率最高可達73.669%.
華中師范大學的石奕等[5]提出了一種基于改進VGG網絡模型的表情專注度和抬頭率相結合的課堂教學效果評價系統,并通過實際的課堂教學實驗可推知很多有意思的教學規律.例如上課前十分鐘左右班級的整體關注度會緩慢上升,同樣在下課前五分鐘左右該關注度會急速下降.這就要求授課教師在不同的授課時段采取不同的授課方式,通過提升學生的學習興趣以達到令人滿意的教學效果.
重慶師范大學的唐康等[6]提出了一種基于深度學習的面部表情檢測方法.首先,在優化融合FaceBoxes和MTCNN的基礎上構建人臉檢測模型;其次,應用網絡開源的人臉數據庫集FDDB對該模型進行測試與優化;最后在統計學生抬頭率的基礎上構建基于面部表情的課堂教學評估標準.
目前基于面部表情識別的課堂教學效果評價模型識別的準確率還較低,尚未達到商用化水平,因此本文在現有研究的基礎上,針對人臉檢測與課堂教學效果評價的內在聯系,重點構建出切實可行的課堂教學效果評價模型并應用于教學實踐.
為了提高模型識別的效果,傳統的神經網絡模型需要大量的參數,因而很容易造成梯度爆炸和模型無法訓練等情況[7],而CNN(Convolutional Neural Networks)模型通過局部連接和網絡參數共享權值等方式,降低了模型的復雜度和網絡參數的數量,提高了模型的執行效率,故本文采用卷積神經網絡技術進行面部表情的測試和訓練.CNN模型一般有卷積層、池化層和全連接層組成[8].
(1)卷積層
卷積層主要負責對輸入的圖形進行卷積運算,由不同的卷積單元組成,主要負責提取圖像的相關特征.
(1)
(2)池化層
池化層主要通過降采樣方法來壓縮數據量和減少模型參數量,提高模型執行效率,一般常用Max pooling(最大池化)方法.
(2)
(3)全連接層
全連接層中的每個神經元與其上一層的所有神經元進行全連接.全連接層可以整合卷積層或者池化層中具有類別區分性的局部信息.假設x1、x2、x3為全連接層的輸入,a1、a2、a3為輸出,則:
a1=W11*x1+W12*x2+W13*x3+b1,
(3)
a2=W21*x1+W22*x2+W23*x3+b2,
(4)
a3=W31*x1+W32*x2+W33*x3+b3.
(5)
大多情況下,采用Relu函數作為神經元的激勵函數,采用Softmax函數作為輸出層的分類函數.
為了解決因網絡深度加深導致的梯度爆炸和學習效率降低的問題,本文采用基于ResNet算法的深度殘差網絡結構,即將前面若干層的數據輸出直接引入后面數據層的輸入部分.為有效緩解網絡層加深導致的梯度消失問題,殘差網絡結構如圖1所示.

圖1 殘差網絡結構圖
由于ResNet50算法是在VGG19網絡的基礎上優化形成的,網絡深度由19層變為50層,其中包括49個卷積層和1個全連接層,其中stage2至stage5階段中ID BLOCK表示不改變維度的殘差塊,輸入和輸出維度相同,用來加深網絡結構深度,可以串聯;CONV BLOCK表示添加維度的殘差塊,主要用來改變網絡結構的維度,輸入和輸出維度不同,無法直接進行串聯操作,該算法結構如圖2所示[9].
(1)根據某次課堂教學表情的識別結果,將每位學生的面部表情分為以下7類并賦以相應的分值:Angry(10)、Disgust(20)、Fear(30)、Sad(50)、Neutral(60)、Surprise(80)、Happy(100),該分值即為此次該生課堂教學效果的評價分值;

圖2 ResNet50算法結構圖
(2)將某門課程學生每次課堂教學效果的評價分值累加后除以相應的次數,即為該生在該課程中的課堂教學效果評價分值.
需要指出的是,若某學生未出席某次課堂教學,則該生該次的課堂教學效果評價分值直接認定為0分.
本文采用的Jaffe(The Japanese Female Facial Expression Database)數據庫共有213張不同表情的圖片,如表1所列.該數據庫由10位女性的7種表情組成,圖3給出了Jaffe數據庫中的部分表情示例.

表1 本文采用的Jaffe數據庫中面部表情分布情況

圖3 本文采用的Jaffe數據庫中部分表情示例圖
本面部表情識別模型測試與訓練的環境如下.
軟件環境:Windows 7下的TensorFlow 1.4.0版本;
硬件環境:Intel(R) Core(TM) i7-4590 CPU @ 3.30 GHz;內存:12.0 GB.
本文分別采用ResNet50、Random Forest、Logistic Regression、Decision Tree和K_Nearest 5種算法進行了對照訓練,迭代100次后,上述5種算法的收斂程度、模型識別的準確率和損失值的變化曲線分別如圖4(a)和圖4(b)所示[10-11].

(a)模型訓練acc(%)

(b)模型訓練loss(%) 圖4 5種算法在訓練集中的比較曲線
為了評價模型的實際性能,分別用上述5種算法對測試集進行訓練,各算法的模型準確率和損失值的變化曲線如圖5(a)和圖5(b)所示.

(a)模型測試acc(%)

(b)模型測試loss(%) 圖5 5種算法在測試集中的比較曲線
通過分析圖4 和圖5,發現上述5種算法在訓練集和測試集中的表現各不相同,其中ResNet50算法在訓練集和測試集中的表現最好,而Random Forest算法在訓練集和測試集中的表現最差.
為了進一步分析上述5種算法的效果,本文繪制了ROC曲線,如圖6所示.

圖6 5種算法的ROC曲線圖
ROC曲線圖是顯示分類效果真正率和假正率之間折中的圖形化顯示方法,真正率沿y軸繪制,假正率沿x軸繪制.在ROC曲線圖中,靠近左上角的模型,表示模型效果較好.在圖6中,左上角的模型是ResNet50模型,適合表情識別;表現最差的模型是Decision Tree,離左上角最遠.另外,ROC曲線圖面積表示另一個分類器標準,模型所占面積越大,表示模型預測型更優.從總面積來看,ResNet50模型面積最大,模型性能最好,Decision Tree所占面積最小,模型性能效果最差.
本文以安徽中醫藥大學2020~2021學年第一學期《大學英語》課程為例,給出了部分專業班級面部表情識別信息一覽表,具體信息如表2所列.

表2 2020-2021學年第一學期部分專業班級《大學英語》課堂教學面部表情識別信息一覽表
由表2可看出,本文提出了基于ResNet50算法的課堂教學效果評價模型有如下規律:①基于ResNet50算法的面部表情識別準確率明顯高于其他5種算法;②學生對于某門課程的課堂教學專注度越高,則該門課程的得分也越高;③若某門課程的課堂教學次數越多,則學生的課堂學習效果評價分值越接近學生在該門課程的總評成績.筆者依據本成果先后獲得安徽省教學成果三等獎1項(成果獎名稱:高校學生網上評學系統的研發與實踐,證書號為2017jxcgj582)和安徽省教學成果二等獎1項(成果獎名稱:中醫藥院校工科類創新人才培養模式的研究與實踐,證書號為2019jxcgj821).隨著系統功能的進一步完善,該模型將在課堂教學效果評價方面發揮著越來越重要的作用.