楊明遠,左 棟
(華北水利水電大學數學與統計學院 河南 鄭州 450046)
在智慧教育相關的課題研究中,學生課堂行為識別問題一直是研究的重點內容。隨著計算機存儲和計算技術的發展,人工智能融入教育領域,為學生課堂行為量化分析提供了可能。疫情以來,線上課堂已成為教學中不可或缺的一部分,如何在線上課堂掌握學生的學習狀況,為教師提供客觀的課堂情況是亟待解決的問題。因此,將深度學習引入教學活動,了解學生的上課狀態,對教學改革具有積極意義[1-2]。在針對學生行為識別的研究中,對于學生相似動作難以區分識別的情況,張鑫褆[3]基于人體2D骨架提出多維融合的LSTM網絡,在克服梯度彌散的條件下,提高了對相似動作的識別率;周葉[4]在經典的實例分割算法Faster R-CNN的基礎上,利用特征金字塔解決不同尺度學生課堂行為檢測的同時,將視頻中上一幀的檢測結果作為當前幀的目標候選框,實現了比較準確的學生身份關聯;柯斌等[5]用Inception V3網絡對學生行為進行識別,但模型忽視了手機,筆和課本等重要信息的特征,使得看書,低頭玩手機行為容易混淆;Abdallah等[6]對數據集進行數據增強,通過深度遷移學習的方法,在學生課堂表情識別中取得79.4%的準確率;Lin等[7]使用OpenPose框架收集骨骼數據,提出一種基于姿態估計和人物檢測技術的誤差校正方案,以減少骨架數據中的錯誤連接,構建表示人體姿勢的特征向量。采用關節位置、關節距離和骨角度等特征對學生行為分類。上述方法雖然對學生行為進行識別,但模型識別準確率不高、魯棒性較差、有效特征的提取不足。本文在YOLOV5模型的基礎上改進,加入CA注意力模塊從空間和通道兩個維度提升網絡的特征提取能力,提高特征提取的有效性,增加模型的魯棒性,在保證模型實時檢測的情況下,實現了對學生課堂抬頭聽課、玩手機、睡覺等七種行為識別率的提高。
YOLOV5是Ultralytics公司2020年5月發布的目標檢測網絡模型。YOLOV5輸入端有自適應縮放,Mosaic數據增強,目的是為了增加數據的多樣性,使模型的泛化性能更好。Backbone有Focus、CSP、SPP等網絡模塊,主要目的是提取特征圖。Neck部分是特征融合階段,采用FPN+PAN(特征金字塔和路徑聚合網絡)網絡。Prediction部分使用三個大小不同的候選框分別預測小、中、大物體。其網絡結構如下圖所示:

圖1 YOLOV5網絡結構圖
注意力機制最早是自然語言處理中為了使模型更注重語言中的關鍵詞提出的,后來被應用在計算機視覺中,簡單來說,注意力機制就是模仿人類在觀察這個世界,接受視覺信息時的處理方式。當閱讀一篇論文時,一般會把注意力放在眼睛看到的這句話上,而周圍的其他信息會被過濾掉,注意力機制就是源于這種思想。在特征提時,給有用的信息更高的權重,無用的信息對應更小的權重。
CA使用信息嵌入和注意力生成的方式[8],不僅提取到不同特征圖的重要性,還獲取到特征圖上的位置信息。CA注意力模塊如圖所示:
信息嵌入階段:
為了使注意力模塊能夠獲得具有精確的位置信息和通道信息,CA對全局池化進行分解,轉化為兩個一維特征編碼操作:給定輸入X,先使用大小為(h,1)和(1,w)的池化單元沿水平方向和垂直方向對每個通道進行編碼。高度為h的第c通道的輸出可以表示為:

同樣,沿垂直方向寬度為w的第c通道的輸出可以表示為:
編碼后得到沿兩個方向聚合特征的一對方向感知的特征圖,這種特征編碼可以獲得沿著一個空間方向的通道信息,并保存沿著另一個空間方向的位置信息,這有助于網絡更準確地獲取感興趣的目標。
注意力生成階段:
注意力生成主要利用捕獲到的位置信息和通道信息,使感興趣的區域被準確地捕獲。根據圖2所示,信息嵌入后的特征圖先進行concatenate操作,然后進入卷積變換得:

圖2 CA注意力機制模塊

然后沿著空間維數將x分解為兩個單獨的張量xh和xw,再利用兩個卷積變換將他們變為具有相同通道數的張量得:

最后,CA注意力機制模塊的輸出為:

YOLOV5有四種網絡結構,結構的框架是一樣的,網絡寬度和深度越來越大,模型的檢測準確率不斷增加,但檢測速度在不斷下降。本文研究的主要目的是在保證模型檢測速度的情況下,提高模型的魯棒性,因此選擇了YOLOV5s,在此基礎上加入注意力機制模塊。改進后的網絡結構如圖所示:

圖3 YOLOV5s+CA網絡結構

本文的數據來源于真實的課堂場景,在課堂上拍攝真實的學生課堂視頻數據,將數據轉換為圖片格式后,把學生行為動態分為抬頭聽課,低頭,玩手機,記筆記,舉手,睡覺,交頭接耳等七類,然后對圖片進行標注,標注后的數據輸出為YOLO格式。把數據按4:1的比例劃分為訓練集和測試集。
2.3.1 學習率調整相關參數

表1 學習率調整相關參數
模型采用不同的策略來學習不同的權重,對網絡的權重參數使用權重衰減來優化,偏置和BN層的權重用基于梯度的移動加權平均(SGD + Momentum)優化,這種方法可以解決SGD優化算法更新擺動幅度大的問題,同時可以使網絡的收斂速度加快。學習率的更新使用預熱和余弦退火算法,當損失函數值較大時,以較大的學習率來訓練模型;損失函數值接近全局最優損失值時,余弦退火算法會給一個較小的學習率來接近全局最優。
2.3.2 損失函數相關參數
如表2所示,設置預測框損失、分類和回歸損失的比例,分類和回歸的正樣本權重都設置為1,同時聚焦損失函數,增加對難負樣本的訓練。

表2 損失函數相關參數
2.3.3 算法訓練
在RTX3060的顯卡下,配置完成YOLOV5s模型的環境,在模型的backbone中加入CA注意力機制,根據硬件配置及數據集特點,設置訓練參數:迭代次數300次,輸入圖片大小為640×640,batch-size為8,聚焦損失函數,標簽平滑正則化設置為0.1。
從表3看出,加入CA注意力機制后的模型識別效果最好,與YOLOV5s相比提升了2%的mAP。這是源于CA不僅關注淺層和深層的特征圖之間信息重要性的不同,還關注了同一特征圖上不同位置的信息重要性的不同。這種方式會使模型訓練時更加注重特征信息的不同。加入CA注意力模塊后模型訓練結果如下:

表3 改進后模型與YOLOV5s對比
從圖4可以看出,隨著訓練次數的增多,模型很快收斂,訓練集和測試集上的損失函數基本減小到10-2以下,準確率達到了90%以上,mAP0.5最高達到0.91,與YOLOV5s相比,加入CA注意力機制后的模型mAP0.5提升了2%左右。

圖4 YOLOV5+CA注意力機制模型的訓練結果
本文的模型在YOLOV5s的基礎上加入CA注意力模塊,通過實驗對比CA注意力機制對本文的學生課堂行為識別的效果最好,與原模型相比提升了2%左右的mAP。CA注意力機制效果最好的主要原因是因為,CA不僅考慮通道的信息同時也考慮空間的信息,并認為兩者是同樣重要的。模型在滿足識別準確率的前提下,同時滿足對學生課堂行為識別實時性的要求,該算法的識別速度達到142/s,這完全滿足實時性的要求,可在學生課堂行為識別系統中應用,實現對學生課堂聽課水平,專注度的智能化處理,對獲取疫情下線上課堂學生學習狀態,為老師提供客觀的課堂數據提供有力支持。對大力發展人工智能尤其是深度學習與教育評價領域的融合發展具有重要意義。