王禹鈞,馬致明
(新疆師范大學計算機科學技術學院,新疆 烏魯木齊 830054)
近年來,深度學習技術在教育領域中的應用越來越深入。《中國教育現代化2035》《關于加強新時代教育管理信息化工作的通知》等都不約而同地提及要充分且正確利用現代技術,大力發展智慧課堂[1]。在課堂中,學生是學習活動的主體,學生的行為是課堂教學質量好壞最直接的反映[2]。通過對課堂中學生行為進行識別,能更好地分析學生的上課情況、了解學生的學習興趣。因此,利用深度學習技術實時掌握學生課堂學習情況是非常必要的。然而在課堂環境下對學生行為進行識別是一項極其復雜的任務,由于學生課堂行為識別模型規模較大,因此課堂中的行為識別困難問題仍然存在。
目前,國內對課堂行為研究主要集中在學生表情識別、班級抬頭率及課堂異常行為識別。魏艷濤等[3]利用遷移神經網絡模型VGG16,實現了課堂上7種典型的學生行為識別。曾劼倫[4]對YOLOv3(You Only Look Once version 3)模型的損失函數進行改進,同時通過網絡優化、多尺度特征融合的方法,將其改進后的YOLOv3模型用于學生行為檢測,得到較好的準確率。黃勇康等[5]提出了一種基于深度時空殘差卷積神經網絡的算法,用于實時識別學生在課堂中的行為,首先將目標檢測、跟蹤技術相結合獲取學生圖像,然后利用深度時空殘差卷積神經網絡學習每個目標的時空行為特征,實現了對課堂場景中多個學生的行為進行實時識別。郭俊奇等[6]根據課堂場景提出了經過改進網絡結構和損失函數的YOLOv5模型,并以多目標為主要特征,對學生課堂行為進行識別,并采用對比實驗對該方法有效性進行驗證。UDDIN 等[7]在研究中,利用深度遞歸神經網絡,建立了一個以人體感應器為基礎的行為識別系統,通過多個身體傳感器進行數據融合,如心電圖等,采用主成分分析對所抽取的特征進行強化,再對循環神經網絡(RNN)進行訓練,最后將其應用到行為識別中,取得了較好的結果。
盡管課堂行為研究領域不斷涌現出新方法,但對于學生課堂行為的識別依然存在一定的不足,主要體現如下:數據集缺失、模型計算量大、實時性差、后排學生難以識別等。為此,本文提出了一種智慧課堂環境下基于深度學習技術的學生課堂行為識別模型YOLOv5-GC,并在標注真實智慧課堂場景的學生行為數據集的基礎上開展相關研究,通過實驗驗證了本模型在識別速度與精度等方面均有一定提升,對推進智慧課堂的建設,實現智能化教學和管理具有現實意義。
不同學者思考與詮釋學生課堂行為的視角不同,界定亦不相同。本文參考皮連生等對學生課堂行為所做的定義,定義學生課堂行為是學生課堂上在特定時間內表現的一切行為的匯總[8],其中有符合課堂行為規范、促進教師教與學生學的積極行為,如認真聽課、記筆記、積極答題等;也有不符合課堂行為規范,給教學造成干擾,并給教師和同學都造成消極影響,需要教師及時干預的消極行為。
本文提出YOLOv5-GC模型用于識別學生課堂行為,首先融入重影網絡(Ghost Net)實現YOLOv5輕量化,接著加入Coordinate Attention增強對學生關鍵特征的提取能力。模型結構如圖1所示。

圖1 基于深度學習的學生課堂行為識別模型(YOLOv5-GC)算法結構圖Fig.1 Algorithm structure diagram of student classroom behavior recognition model YOLOv5-GCbased on deep learning
本文將輕量化Ghost模塊引入YOLOv5,替換其主干網絡中的普通卷積層。將原網絡的普通卷積模塊替換成Ghost Conv層,Ghost模塊與C3組成新的C3Ghost模塊,極大地減少了參數量。將Coordinate Attention加入主干網絡末層,使其在通道間建立特征映射關系,充分利用全局特征、提高特征層有用信息的占比,減少誤檢、漏檢情況,具有較好的性能。
由于要把模型部署到教室中,因此具體部署時要考慮設備必須具備足夠的計算能力,才能達到網絡正常工作的要求。在網絡參數多、計算量大的情況下,對設備存儲和計算能力有很高的要求。YOLOv5主干網絡層均采用大量卷積操作,會造成網絡參數多、計算量大等問題。王立輝等[9]提出Ghost Net,它提供了一種全新的Ghost模塊,Ghost Net將線性操作與普通卷積相結合,通過以前生成的普通卷積特征圖線性變換為相似特征圖生成高維卷積效果,如圖2所示。

圖2 Ghost模塊原理圖Fig.2 Schematic diagram of ghost module
Ghost Net通過線性變換降低模型參數及計算量。Ghost Net使用Ghost模塊取代傳統卷積層,采用輸出特征層個數較少的卷積層,以及可提高冗余性、計算量少的線性操作替代傳統卷積層。它既確保了精度,也降低了計算量,核心思想是利用較少的參數產生更多的特征,達到網絡結構輕量化的目的。本文將Ghost模塊引入YOLOv5,替換主干網絡中的普通卷積層,極大地減少了參數量。
有研究顯示:當加入少量運算復雜度時,加入注意力機制可以改善輕量化模型的性能[10]。課堂場景下,盡管YOLOv5模型能提取出富有細節的特征圖,但課堂情景具有復雜性,如何使模型能夠學習重要場景中的特征以增強關鍵特征提取的能力成為必須解決的問題。Coordinate Attention獲取通道之間的特征信息時,實現了空間方向上準確位置信息及感興趣區域的獲取[11]。這種注意力機制的每個權重都包含通道間信息、橫向與縱向空間信息,可以幫助網絡更加準確地定位目標信息,提高識別能力。它不但得到通道之間的信息,與方向有關的位置信息也被考慮在內,能幫助模型對目標進行定位與識別,并且靈活輕量,能在網絡核心結構上進行簡單插入。Coordinate Attention的具體構造如圖3所示,依次實現坐標信息嵌入模塊和坐標注意力生成模塊兩個功能。

圖3 坐標注意力機制結構圖Fig.3 Coordinate Attention structure diagram
YOLOv5模型大部分由卷積神經網絡組成,如何能更加高效地抽取特征信息是比較關鍵的,并且在實際課堂環境下學生被遮擋的問題尤為嚴重,存在小目標學生難以識別的問題。為此,本文提出加入Coordinate Attention改善模型的特征提取能力,使模型的關鍵特征提取能力有了很大的提升。YOLOv5的主干網絡的主要工作是提取輸入處理后照片的特征,也就是說抽取特征的能力在很大程度取決于主干網絡。為使網絡能自主學習關鍵特征并摒棄其他不重要的特征,所以在主干網絡上增加了Coordinate Attention。
由于課堂類數據集場景具有獨特性與保密性,因此學生課堂行為識別的數據集相對缺乏。目前,并不存在專用公開數據集,需要自行構建數據集完成模型訓練。研究人員觀察大量課堂視頻后發現,課堂教學過程中學生的行為是多樣的,不同行為能夠體現學生不同的學習狀況。結合上述文獻的行為分類及觀察課堂實錄中的學生行為,本文確定書寫、聽課、舉手、低頭、左顧右盼、小組討論6種行為類型用于學生課堂行為數據集的構建。數據集來自小學公開課視頻分幀形成的圖片,視頻來源網站為國家教育資源公共服務平臺,共采集50節不同課堂的教學視頻,每節課的時間平均為40 min左右,作為原始實驗數據。考慮到視頻識別模型會更加復雜,難以應用于智慧課堂,盡管本文收集到的原始數據為課堂視頻,但僅是針對單幀圖片的學生行為進行識別。數據處理的流程如下:使用Python進行腳本的編寫,將間隔設置為30 s,以均勻采樣幀并按照一定幀數間隔將視頻解碼成圖片。經過多輪刪減篩選,篩選出清晰的課堂學生圖片。處理完成后,收集并整理獲得3 002張小學生課堂圖片數據,截取數據集圖片如圖4所示。

圖4 數據樣例圖片Fig.4 Sample data images
由于收集的學生課堂行為圖像過少,為達到訓練所需的樣本量,對現有圖像數據做了擴充處理。在智慧課堂實際應用中,存在各類不同的場景,例如光照的強弱、教室的環境不同等。可以通過對數據集進行增強以增加不同條件下的數據,從而提高訓練模型的適應力。本文利用一些常見的數據增強方式對訓練集進行擴展,包括圖像旋轉、將噪聲隨機加入原始圖像中、隨機變換圖像色彩等方法。擴增數據集之后,重新過濾圖像數據集,共得到4 120 張學生課堂圖片,行為數量共71 016個。
實驗硬件環境配置如下:處理器為intel(R)Xeon(R)E5-2699v3,顯卡為RTX3060 12 GB顯存。軟件環境配置如下:編程語言為Python,深度學習框架為Py Torch1.9.0,操作系統為Windows 10。訓練集、驗證集、測試集的比例按照7∶2∶1進行劃分。epochs為200,Batch-size為16。在訓練期間,各訓練輪次會根據訓練情況調整學習率的取值,初始學習率設定為0.001,模型采用余弦退火算法更新學習率的動態取值。輸入端采用Mosica數據增強包括隨機尺寸拼接等技術進行疊加處理等。
mAP為類別平均像素準確率,能衡量模型在所有類別的效果,它是評價算法性能的最終指標之一。除了評價精度的指標,還有檢測速度的指標如FLOPs(浮點運算數),處理一張圖片所需的浮點運算量可以衡量模型的復雜度;Inference Time為推理時間,是指檢測每張圖片需要使用的時間,用來衡量模型推理速度的快慢;Params為參數量,指模型訓練中需要訓練的參數總數,模型參數量決定了模型的體積,也影響推理時間。
為了驗證YOLOv5-GC融合模型對學生課堂行為的識別效果,同時方便對比原始模型的提升程度,本文選取快速區域生成網絡(Faster R-CNN)、YOLOv4、YOLOv5幾種經典模型進行對比實驗,這些模型常用于目標檢測任務。為了更好地比較改進模型和傳統模型,需要將基礎參數保持一致,以免因參數不一致而影響結果。
運用改進后的YOLOv5模型對6種行為的識別精度都明顯上升,相對其他算法表現出了更高的精度,如表1所示。

表1 不同模型識別學生行為結果Tab.1 Recognition results of student behavior using different models
如表2所示,分別從4個方面對Faster R-CNN、YOLOv4、YOLOv5等經典模型進行對比實驗。本文所提方法的mAP高于除Faster R-CNN 外的其他相似的算法。Faster R-CNN是兩階段算法,它的精度較高,但是占用的內存也較大。根據智慧課堂的建設需求,YOLOv5-GC模型更加適用于真實課堂中學生行為的識別。由于最終目標是將模型應用于課堂終端,因此模型的參數規模、運算符點數、推理耗時也是重要的衡量指標。

表2 對比實驗結果Tab.2 Comparison of experimental results
由表2 可知,mAP從高到低排序為Faster R-CNN、YOLOv5-GC、YOLOv5、YOLOv4。YOLOv5-GC 的mAP為86.2%,較原模型有了明顯的提高,Faster R-CNN是兩階段算法,有精度高的優勢,它的mAP達86.5%,雖然優于YOLOv5-GC融合模型,但是Faster R-CNN的參數量巨大,不符合智慧課堂的應用要求,難以部署在真實的課堂場景中。本文所提模型使用的參數量最少,較原模型降低2.7 MB,更加輕量且方便在教室環境下布置。YOLOv5-GC 模型比原模型推理時間減少16.7%,耗時越短,模型實時檢測能力越好。從浮點運算量這個指標來看,YOLOv5-GC模型的復雜度大大降低,方便在智慧課堂部署。綜上可知,本文提出的模型速度指標上表現最好,它具有精度高、參數量少、識別耗時短等優點,平衡檢測速度與精度,滿足實時檢測的條件,符合智慧課堂設備的應用要求。
為驗證實驗的延展性和適用性,本小節選取YOLOv5、YOLOv5+Ghost、YOLOv5+Coordinate Attention、YOLOv5+Ghost+Coordinate Attention進行研究,融合形成四種模型進行消融實驗,消融實驗結果如表3所示。

表3 消融實驗結果Tab.3 Results of ablation experiments
由表3可知,融合Ghost Net+Ghost+Coordinate Attention在各個指標上都表現最好,相較YOLOv5模型,mAP上升3.5%,參數量減少2.7 MB,運算量、推理時間也顯著減少,模型的復雜度降低,使得模型更加輕量化,在降低模型復雜度的同時提升了模型檢測的精度。只加入Ghost Net后,mAP上升較小,但是參數量和推理時間顯著減少,識別速度顯著提升,由此可見,Ghost在輕量化參數量方面具有優越性。輕量化網絡替換后,可以達到實時檢測的要求,對部署設備要求較低,易在于課堂安裝。只加入Coordinate Attention后,mAP上升3.1%,提取特征能力的提高,使能夠關注到關鍵特征,但是參數量和速度略微增加。Coordinate Attention是為輕量級網絡設計的,它可以讓輕量化后的網絡在更大區域擁有注意力,同時彌補Ghost Net輕量化但特征提取不足的缺點,達到了提升mAP的效果。所以,從幾個指標來看,加入Ghost Net和Coordinate Attention對模型輕量化、提升關鍵特征有很大的幫助。本文提出的YOLOv5-GC實現YOLOv5網絡輕量化和識別精度的提升。通過改進YOLOv5模型,并將其應用于學生課堂行為的識別,同智慧課堂的建設需要緊密結合起來。
考慮到實時檢測的速度與精度,本文根據真實課堂場景在YOLOv5的基礎上改進學生課堂行為識別模型。在分析當前學生課堂行為識別方法存在的問題后,提出一種基于YOLOv5改進的YOLOv5-GC模型,并在輕量化模型、注意力機制添加等方面提出了改進策略,對效果進行驗證。通過對比實驗驗證模型的泛化能力,使用消融實驗驗證各模塊的有效性。本文提出的YOLOv5-GC模型參數規模顯著減少,識別精度和速度也有一定的提升,便于在移動設備端部署,可應用于智慧課堂中對學生的行為進行精確識別,具有一定的應用價值。后續將開展教師行為研究,探究師生互動行為如何影響學生學習行為,為優化智慧課堂環境下師生互動效果提供一定依據,其理論意義和現實意義更值得期待。