焦爽,閆禹行
(1.長春教育學院,吉林 長春 130033;2.長春理工大學,吉林 長春 130022)
學生課堂是教育的重要場所,了解學生的學習狀況和興趣是提高教學質量、促進個性化教育發展的重要途徑。所以,準確評估學生的課堂狀態就顯得尤其重要。目前,普遍的課堂評價方法有問卷調查法和訪談法等。這些方法都不能反映出評估的客觀性和及時性。
在學生的學習過程中,情緒會影響學生的認知行為,因此掌握學生在課堂中的情緒狀態對于提高課堂效率、促進學生個性化教育的發展尤為重要。但情感是隱性的,因此情感的獲取和評價相對困難。當學生處于快樂等積極情緒中時,可以促進課堂學習;而消極情緒,如抑郁,則不利于學習活動的開展。因此,有許多相關研究根據學生的表情來評估學生的學習狀態。但是,目前還存在一些潛在的問題,例如,當學生在低頭或遮住部分臉部時,無法準確識別學生的面部表情,因此無法根據表情對學生進行評估。面對以上問題,我們提出了基于全局多尺度和局部注意力網絡(MA-Net)的智能教學評價方法。該方法客觀、及時地評價學生的學習狀態,得到的課堂評估結果更有意義。
在采集圖像時,因為光照強度的緣故,導致圖像中呈現不同程度的亮度和暗度。這會使得圖像在特征提取環節受到影響,為了提高圖像的清晰度,就要將圖像灰度值的差別變大。
本文采用OpenCV 對圖像進行直方圖均衡化處理,直方圖均衡化就是對圖像進行非線性拉伸,使得變換后的圖像中灰度值分布變寬并且更均勻,同時縮小圖像中像素個數少的灰度值。
為了更好地提取適合分類的特征,核主成分分析(KPCA)在傳統PCA 的基礎上,提出了改進算法。KPCA 采用非線性方法來提取樣本的特征,通過映射函數將樣本映射到高維特征空間F,在F 上進行PCA 分析。設輸入樣本X(=1,…,)被映射為(X),滿足條件:

是訓練樣本數,協方差矩陣:

將式(1)(2)(4)(5)帶入式(3)得:
在施工過程中,必須盡可能地做出明確標示,提醒相關的施工人員加以注意,采取相對合理的支護方式預防塌方的時間。對于一些塌方前的征兆,一定要做好總結。在實際的施工過程中必須要多加注意,對于發生的異常情況,一定要認真分析并制定相對應的預防措施,及時進行處理才能有效地保證施工人員的安全。

根據式(4)和式(6)分別計算特征向量和投影主分量V(=1,…,)。
假設測試樣本為,則其在V上的投影:


核矩陣進行歸一化,即:

其中是×的矩陣,且:

圖1 顯示了所提出的全局多尺度特征結構。

圖1 多尺度特征結構


多尺度模塊由四個多尺度塊組成,后跟一個全局平均池化(GAP)層。在GAP 之后,我們可以獲得一個大小為512 的特征向量。
由于多尺度卷積同時考慮了更深的語義和更淺的幾何特征,學習的多尺度特征不僅增強了全局特征的多樣性,而且降低了更深卷積對遮擋和變體姿態的敏感性。因此,網絡可以獲得更全面的全局特征表示,這充分解決了在學生上課時捕獲的圖像存在面部遮擋或者非正面姿勢的問題。
在我們的方法中,中層特征圖被分成幾個沒有重疊的局部特征圖,每個局部特征圖的網絡都可以通過注意力機制自主地關注局部顯著特征。
圖2 顯示了所提出的注意力模塊結構。經過兩次3×3 卷積后,我們可以得到∈R表示的特征圖。然后,采用卷積注意力模塊(CBAM)作為我們的注意力網絡。該方法可以沿通道和空間兩個維度依次推導注意力圖,然后將注意力圖乘到輸入特征圖中進行自適應特征細化。

圖2 注意力模塊的結構
在我們的網絡中,注意力網絡以作為輸入,推導出一維通道注意力映射M∈和二維空間注意力映射M∈。因此,注意力網可以表示為:
F=M(F)⊙(M()⊙)
其中⊙表示基于元素的乘法。
局部注意力模塊由四個并行的局部注意力網絡構成,每個網絡由四個注意力塊組成。局部注意力模塊以4 個14×14×28 局部特征圖作為輸入,將每個局部14×14×28特征圖輸入到相應的局部注意力網絡中。通過局部注意力模塊,我們可以獲得四個局部7×7×512 特征圖。然后將四個局部特征圖沿空間軸連接起來,并在連接后的14×14×512特征圖上應用GAP 層,得到大小為512 的特征向量。
類似地,為了更好地解釋局部注意力模塊的效果,我們對CAM 進行了可視化,以驗證局部注意力模塊和注意力機制的性能。如圖3所示,第二行和第三行的圖像分別是局部特征模塊和局部注意力模塊的可視化結果(LF 表示局部特征模塊,LA 表示局部注意力模塊)。與傳統的ResNet 相比,基于局部注意力的CAM 結果可以引導網絡聚焦局部顯著性區域,這對于增強對遮擋和非正面面部表情條件的魯棒性至關重要。例如,前四張圖像是被遮擋的人臉,模塊只能關注非遮擋區域,這與人類的感知是一致的。最后四張圖像是非正面人臉,局部注意力模塊能夠聚焦于局部顯著性區域。與局部特征模塊相比,基于注意力的方法可以增強局部特征的顯著性,并將注意力集中在動作單元上,這充分解決了課堂上遮擋和非正面姿勢問題對FER 的干擾。

圖3 傳統ResNet 的類激活映射(CAM)、局部特征模塊和局部注意力模塊對比



我們的模型通過Circle Loss 函數作為損失函數,來指導對卷積核參數的更新,增加特征的類間距離同時減小特征的類內距離,以便提出的神經網絡能夠明確地學習特定表達式的特征,從而進一步增強我們的模型對臉部遮擋的判別能力。
為了驗證所提出的方法的有效性,我們在公開的面部表情數據集KDEF、FED-RO、Pose-AffectNet 上進行了實驗。
2.1.1 KDEF 數據集
該數據集包含70 位演員的7 類面部表情圖像,共4 900張,均是像素為562×762 的彩色圖像。
2.1.2 FED-RO 數據集
為了解決遮擋問題,Li 等人在野外采集并標注了一個具有真實遮擋的面部表情數據集(FED-RO)。他們通過挖掘Bing和谷歌搜索引擎的遮擋圖像來收集這個數據集。每張圖片都由三個人仔細地貼上標簽。FED-RO 共包含400張圖像,將圖像分為7 種基本表情。
2.1.3 Pose-AffectNet
該數據集上人臉的俯仰角或航向角均大于30°。總共包含1 948個和985個角度分別大于30°和45°的表情圖像。
本文實驗采用CPU 為Intel core i5,使用的語言為Python,采用深度學習框架Pytorch 進行實驗。
為了評估方法的有效性,我們在FED-RO 測試集上進行了多次實驗,與其他方法比較結果如表1所示,我們的方法在FED-RO 上的準確率為70.00%,明顯優于其他先進方法,我們的方法對遮擋條件具有良好的魯棒性,這充分解決了學生在上課時臉部遮擋或者非正面姿勢帶來的困難。

表1 Fed-RO 數據集的對比實驗準確率
圖4 展示了全局多尺度和局部注意力網絡的基于KDEF數據集的混淆矩陣,其中縱向坐標代表真實標簽,橫向坐標代表模型的預測結果,對角數據代表著預測各類表情預測正確的概率。由圖4 可知,對于高興和驚訝的識別效果較好,恐懼、厭惡和悲傷的識別率較低,這是因為恐懼表情和驚訝表情十分相似,都是睜大眼睛及張大嘴巴;悲傷表情和厭惡表情也很相似,都是閉嘴或皺眉頭,這就導致網絡不能很好的區分這幾類表情,實驗結表明,我們的方法可以很好捕捉到學生課堂中的情緒狀態,使老師及時、快速、高效的掌握學生的學習狀態。

圖4 全局多尺度和局部注意力網絡的基于KDEF 數據集的混淆矩陣
為了測試本文實驗算法的有效性,我們在初中課堂進行了實驗。采用海康高清攝像頭,我們對檢測到的圖像進行預處理,然后把預處理圖像作為表情識別網絡的輸入,實時獲取識別結果。圖5 為部分表情的實驗效果,根據真實場景的實驗結果,表明我們的識別算法很有效,精度也很高。

圖5 全局多尺度和局部注意力網絡應用效果圖
本文以初中課堂為應用場景,旨在利用人工智能技術,推動教學質量的提升,提出了一種全局多尺度和局部注意力網絡(MA-Net)的智能教學評價方法,幫助教師及時、快速地掌握學生在課堂中的情緒狀態,使其能夠更合理安排教學內容以及調整教學方式,同時進一步促進教育的信息化和智能化。