陳良波, 許維勝
(1.同濟大學 電子與信息工程學院,上海 201804; 2.同濟大學 信息化辦公室,上海 200092)
2015年“互聯網+教育”被寫進政府工作報告[1],隨后智慧教育、智慧校園、智慧教室等研究熱潮持續上升。目前,對智慧教室的研究多關注智慧教室的概念界定、技術空間設計、配備標準、互動方式、教學模式等層面[2],而對于如何利用人工智能技術對教學情境進行理解以促進教學向智能化邁進的研究至今鮮見報道。
國內高校對教師的教學評價主要有以下3種方式:教學督導定期聽課抽查、學生網上評教、通過學生期末成績進行考核。前兩種方式容易受到主觀因素的影響,使結果真實性降低;后一種方式只注重過程,是一種結果性評價,但忽略了教學過程的重要性。
在人工智能高速發展的今天,研究如何使用人工智能技術來促進教育智能化發展顯得意義非凡。
本文將深度學習算法應用到智慧教室中,數據化呈現教師表情狀況,為教學考核提供數據支持,而且可以用于分析學生對教學內容的感興趣程度,是深度學習的應用擴展和創新。
全國許多高校都在致力于建設智慧教室,同濟大學部分教室已配備具有跟隨錄播功能的高清攝像頭,對教室教學過程進行跟隨拍攝,獲得1 920×1 080分辨率的教學視頻,為本文研究提供數據支持。心理學研究表明:人的情感有55%通過面部表情展現,38%通過語言表達方式呈現,而言語本身僅傳達8%的信息量[3]。該研究成果為本文研究提供了理論依據。
對視頻中教師表情進行分析,根據表情結果推斷教師在上課過程中的情緒狀況、課堂氛圍、教學情緒積極程度等數據化指標,并結合教學視頻人為評價和學生課堂情況滿意度調查,可以檢驗教學情境理解的結論與實際情況的相符合程度。
人臉檢測算法大致分為以下2類:一類是通過模式設計進行特征提取,并采用AdaBoost算法將弱分類器訓練為強分類器以實現人臉檢測;另一類是使用端到端的深度學習模型。綜合考量了當前主流算法在人臉檢測精確度、召回率和速度方面的性能,本文選擇MTCNN[4](multi-task convolutional neural network)作為人臉檢測算法。
表情識別是一個圖像分類任務,對該任務的研究也可以分為以下2類:一類是設計模式、提取特征、選擇特征、確定分類器來完成分類的傳統方式;另一類是使用深度學習模型。考慮到深度學習模型在圖像分類任務上的優良表現,比較了各大主流圖像分類深度神經網絡模型的性能、結構和參數量,本文選擇Xception[5]模型完成表情識別。人臉檢測技術和表情識別構成了本文研究的技術基礎。
人臉檢測使用多任務級聯神經網絡MTCNN,其結構如圖1所示。首先,通過P-Net模型生成初步人臉候選框和邊界回歸向量,并使用非極大值抑制去除重復的候選框;然后,使用R-Net模型改善候選框;最后,采用O-Net模型輸出人臉、人臉位置和5個特征點的位置坐標。使用FDDB標準數據集和WIDER FACE數據集進行測試,MTCNN性能和速度都具有優越性。在實際教室中,采用教室監控獲得的教室圖片進行測試,測試所得ROC曲線(受試者工作特征曲線)如圖2所示。由圖2可知,平均真陽性率為93.6%,性能滿足本文研究的需求。
通過測試得到以下檢測結果:①MTCNN對人臉檢測效果非常可靠,檢測到的人臉圖片直接預處理后輸入后續表情識別模型;②由于MTCNN的召回率和精確度都很高,因此部分人臉圖片存在角度偏轉較大、遮擋等情況,在表情識別之前需要對這些情況進行判斷清理后,方可將檢測到的人臉圖片輸入表情識別模型。

圖1 MTCNN結構Fig.1 Structure of MTCNN

圖2 人臉檢測ROC曲線Fig.2 ROC curve of face detection
采用常用的7類表情劃分方法,將表情分為生氣、厭惡、恐懼、高興、憂傷、驚奇、中性。本文采用FER2013數據集訓練模型,數據集采集自非限制條件,相對于標準姿態數據集有更好的魯棒性和通用性。使用Xception模型實現表情分類,Xception模型的結構如圖3所示。
參考Zhang等[4]的工作,使用42×42的灰度圖作為輸入。Conv2D(32,(3,3))指用32個3×3的卷積核進行普通卷積操作,ReLU則表示對卷積結果使用ReLU激活函數進行非線性處理;MaxPool表示最大值采樣,采樣核為3×3;SeparableConv2D表示深度可分離卷積操作;在Conv2D和SeparableConv2D之后進行批規范化處理;Add Layer表示融合層,采用相加融合;GlobalAveragePooling表示全局均值池化;Softmax表示采用Softmax作為激活函數。

圖3 Xception模型結構Fig.3 Structure of Xception model
(1)訓練數據準備
FER2013數據集分為訓練集、驗證集和測試集3個部分,各部分的數據量是28 709、3 584、3 584,將訓練集和驗證集2個部分合并為訓練集。對訓練集進行擴展,分別做20°內小角度隨機旋轉3次,水平鏡像變換、亮度隨機調整、對比度隨機調整、剪切變換各1次,再將原始48像素表情圖片隨機縮放為42到56像素并隨機裁剪其中42×42部分作為訓練數據重復2次,最后擴展得到訓練集圖片共計355 278張,大小為42×42,拆分其中的10%作為模型訓練過程中的驗證集。
(2)模型訓練
使用小批量數據集訓練,batch size設置為64。
使用Adam優化算法和交叉熵損失函數,學習率為0.001。
采用Early Stop機制。驗證集上的準確率10個epoch后沒提升,學習率變為0.1倍,50個epoch后驗證集上的準確率不再提升或者損失函數值不再降低,訓練結束。訓練到258個epoch后模型收斂,獨立訓練4個模型以建立投票機制,得到最后的表情識別結果,如表1所示。

表1 FER2013測試集混淆矩陣Tab.1 Obfuscation matrix of FER2013 test set
表1中數值表示真實表情被識別為各類的概率,對角線上黑體數值表示各類表情被正確識別的概率。從表1可以得到:平均正確率為74.31%,比當前最好的研究成果Sang等[6]的71.19%提升了3.12%;“高興”表情識別效果最好為91.00%,教學情境理解由“高興”表情得出的結果可靠性高;“驚奇”、“中性”、“厭惡”等3類表情識別效果非常好地滿足研究需求;“生氣”和“憂傷”表情表達的情緒都是消極情緒,對表情分析的結果沒有影響。Xception單獨模型參數量只有20.6×103個,4個模型的投票機制參數量也僅有82.4×103個,Sang等[6]的最優模型參數量4.19×106個,為本文模型參數量的50.8倍,因此本文所使用模型在計算上更具優勢。
本文中:“高興”、“中性”和“驚奇”表情的識別正確率滿足研究需求;“生氣”和“憂傷”為相近表情,傳遞的情緒特征都為消極情緒,對表情分析的結果沒有影響;“厭惡”和“恐懼”在教室中出現的概率非常小,對表情分析的影響可以忽略。
在實際教室環境中對師生表情識別情況測試的結果表明:“生氣”和“憂傷”表情更接近“中性”表情。
智慧教室中的教學情境理解通過表情分析實現,表情分析的對象是教師。對教學視頻以一定采樣間隔進行分析,計算教師每一類表情總數在所有表情總數中的比例。圖4展示了一個教師各類表情情況,圖5展示了3個教師“高興”表情對比情況。

圖4 一個教師各類表情情況Fig.4 Emotion expression of one teacher

圖5 3個教師的“高興”表情情況Fig.5 Happy expression of three teachers
從圖4可以看出:①不同表情所占的比例不同,而且各類表情比例存在明顯差別,“恐懼”、“厭惡”和“驚奇”等3類表情所占比例非常少,與實際情況相符;②受算法對“生氣”和“憂傷”2類表情識別效果的影響,“生氣”和“憂傷”表情比例偏高,實際情況更接近“中性”;③“高興”表情檢測正確率、可靠性都非常高,可以反映教師在上課過程中上課情緒的積極程度、情感投入度、課堂氣氛活躍情況。
從圖5可以看出:①不同教師在授課過程中“高興”表情的比例不同;②部分教師進入課堂后“高興”表情比例會發生顯著變化。
由教師的表情分析結果理解以下教學情境:
(1)各類表情的比例分布情況展現的是教師的上課風格。“高興”表情比例高,課堂氛圍活躍度高。“中性”表情比例是一種基準,用來衡量一個教師的情感基調,是一個參考指標。
(2)“高興”表情的識別效果最好,結果最可靠。同一個教師“高興”表情的變化情況反映的是課堂上情緒活躍度的變化情況。“高興”表情比例降低,教師情感向著呆板、深沉方向轉變,相應地引導課堂氛圍活躍度降低;“高興”表情比例變高,教師情緒向著激昂方向轉變,相應地引導課堂氛圍活躍度提升。
(3)上課后“高興”表情的變化趨勢反映的是從課堂開始到逐步進入上課教學過程中教師情感積極程度的變化。“高興”表情比例變化平緩或者趨于穩定則教師上課情緒平穩,波動不大;“高興”表情比例顯著升高則教師上課積極情緒提升,活躍度提高,由平穩變得更有激情。
為了驗證模型對教學過程中表情分析得出的教學情境與實際情況是否相符,采取人為觀察教學過程中教師的表情狀況,對教學視頻進行主觀評價,以驗證模型可靠性。
邀請了同濟大學大數據與網絡安全實驗室的1名教師、4名同學(2男2女)觀看教學視頻,給教學過程獨立評分,分為以下3種情況:①教師情感積極程度,0~5;②教師積極情感變化情況,-1、0、1;③課堂氛圍活躍狀況,0~5。圖5中3名教師相應的平均得分情況如表2所示。

表2 教師主觀評價得分情況Tab.2 Teacher’s subjective evaluation score
從表2可以看出,在情感積極程度上由高到低是教師1 > 教師3 > 教師2,3個指標得出的結論與圖5所展示的結果相一致。通過主觀驗證,主觀結果與表情分析得出的教學情境相符合,證明了通過表情分析對教學情境理解的可靠性和科學性。
從智慧教室現有的教學條件出發,以同濟大學教室內安裝的跟隨錄播攝像頭拍攝的視頻為數據源,以現階段深度學習算法為手段,以教師表情為研究對象,通過課堂上教師的表情分析實現了對教學情境中教師情感積極程度、課堂氛圍等教學情境的理解,不僅可以為教學考核提供參考,還能夠用于分析學生對教學內容的感興趣程度。
本文研究是對深度學習算法應用領域的擴展,更是當下為智慧教室研究提供的一種新視角,有助于推動深度學習算法在智慧教育中的應用,促進教育智慧化。然而,教室內得到的視頻存在模糊、太遠等情況,表情識別模型在實際應用中還需要改進和優化。在以后的工作中可以從改善教學中數據采集條件、提升表情識別算法和增加教室內其他特征如教師的肢體語言等方面進行完善,以更高性能的算法提升情境理解與實際狀況的符合程度,以多維視角對教學情境進行全面理解。