





摘" 要:學生課堂行為識別能夠有效提升課堂教學效果,是智慧教育不可或缺的一環。鑒于缺乏相關研究數據,文章首先構建了學生課堂行為數據集。在特殊的課堂環境中,學生數量眾多且常相互遮擋,后排學生目標體積較小,所以在復雜多變的環境下,難以將學生行為與周圍背景區分開來。因此,文章提出一種基于改進YOLOv7目標檢測算法的學生行為識別方法(YL7CA),將CA注意力機制嵌入到YOLOv7中,以便更準確地檢測學生行為。該方法在自建數據集上獲得了92.6%的檢測精度,能有效檢測出抬頭、低頭、轉頭、玩手機、讀寫、睡覺這六類常見的學生課堂行為。
關鍵詞:YOLOv7;行為識別;注意力機制;目標檢測
中圖分類號:TP183;TP391.4" 文獻標識碼:A" 文章編號:2096-4706(2025)04-0069-05
Research on Student Classroom Behavior Recognition Based on the Improved YOLOv7 Algorithm
ZHANG Xiaoni, YANG Mengmeng, ZHANG Junfeng, SU Liping
(Henan Vocational College of Water Conservancy and Environment, Zhengzhou" 450008, China)
Abstract: Student classroom behavior recognition can effectively improve the effect of classroom teaching, which is an indispensable part of smart education. In view of the lack of relevant research data, this paper first constructs a dataset of student classroom behavior. In the special classroom environment, there are a large number of students and they often block each other, and the volume of the rear student target is small. Therefore, in the complex and changeable environment, it is difficult to distinguish the student behavior from the surrounding background. Therefore, this paper proposes a student behavior recognition method based on the improved YOLOv7 object detection algorithm (YL7CA), which embeds CA Attention Mechanism into YOLOv7 to detect student behavior more accurately. This method obtains a detection accuracy of 92.6% on the self-built dataset, and can effectively detect six common types of student classroom behaviors, including looking up, looking down, turning around, playing on mobile phones, reading and writing, and sleeping.
Keywords: YOLOv7; behavior recognition; Attention Mechanism; object detection
0" 引" 言
隨著信息技術和人工智能的快速發展,學生課堂行為識別已成為智慧教育[1]的熱點之一。課堂行為識別旨在通過計算機視覺技術,對學生在課堂上的各種行為進行自動檢測和分類,從而為教師提供實時、客觀的反饋,幫助教師更好地了解學生的學習狀態和行為習慣,優化教學策略,提升教學質量。然而,傳統的課堂行為識別方法往往存在精度不高、響應遲緩等問題,限制了其在現實教育場景中的應用和普及。因此,結合計算機技術研究一種高效、準確的學生課堂行為識別算法,具有重要的理論意義和實踐價值[2]。
目前,學生行為識別方法大多基于深度學習技術。黃勇康等人[3]設計了一種基于學生課堂行為的智能教學評估系統,從空間和時間的維度提出了深度時空殘差卷積神經網絡,并使用該網絡學習學生行為的時空特征,最終對學生行為的識別取得了較高的準確率。張小妮等人[4]提出了一種基于YOLOv5目標檢測算法的多尺度特征融合的學生行為識別方法,提高了各類行為的識別率。沈西挺等人[5]采用稠密光流的方法處理數據,結合2DCNN、3DCNN和LSTM提取人體動作特征,采用Softmax分類器對捕捉到的人體行為進行分類,其識別率顯著提升。姜權晏等人[6]基于骨架行為識別提出多維特征嵌合注意力機制的方法,利用時空建模和通道之間的相對性捕獲動作信息,通過嵌合全局特征和局部特征獲取多尺度動態信息,得到較好的識別效果。
本文聚焦于學生課堂行為,構建學生課堂行為數據集,克服數據稀缺難題。隨后,致力于優化模型設計,強化其捕捉學生行為特征的能力,結合注意力機制,關注更重要的學生行為特征信息,從而構建出一種高效的學生課堂行為識別模型。此模型旨在顯著提升行為識別的準確性,為教育評估與個性化教學提供有力支持。
1" 相關技術
1.1" YOLOv7目標檢測
YOLOv7[7]于2022年被提出,是YOLO系列較新的目標檢測算法。其在速度、精度以及多尺度檢測等方面的優勢,使其在各種實際應用場景中都能發揮出色的作用。YOLOv7的結構主要分為輸入端、主干網絡(Backbone)和頭部(Head)三個部分,其模型結構如圖1所示。這種結構使YOLOv7能夠高效地進行目標檢測。YOLOv7還采用了一些創新的策略和技術來提升其性能。例如,它引入了模型重參數化思想,將重參數化引入到網絡架構中,以優化模型的性能和訓練速度。同時,YOLOv7融合跨網格搜索與YOLOX匹配策略,創新標簽分配,優化識別效果。
1.2" 注意力機制
注意力機制模擬人類視覺系統的工作方式,使模型智能篩選信息,重視關鍵內容而忽略冗余。通過分配注意力權重,引導模型深度挖掘重要細節,從而顯著提升處理精度與效率,優化整體性能。
CA(Coordinate Attention)注意力機制[8]是一種深度學習中的創新技術,旨在提升模型對輸入數據的空間結構理解。它通過將精確的位置信息編碼到神經網絡中,使模型能夠更好地捕捉輸入特征圖的空間關系,并強化對通道依賴性的建模。CA注意力機制的關鍵理念是把通道的注意力分解為兩個1D特征編碼過程,按照兩個不同的空間方向聚合特征,從而有效整合空間坐標信息到生成的注意力圖中。通過這種方式,模型可以更加關注關鍵區域,提高特征表示能力,進而提升目標檢測、圖像分類等任務的性能。CA注意力模塊如圖2所示。
教室環境具有較強的復雜性,背景復雜、遮擋嚴重、小目標占比高,不同行為之間存在相似性和差異性,使得YOLOv7檢測識別學生課堂行為的能力有限。由于YOLOv7的網格劃分策略,小目標的特征信息容易被背景噪聲淹沒,導致檢測不穩定甚至漏檢。CA注意力機制可以幫助模型更好地理解輸入數據的關聯性和重要性,從而提高模型的性能。通過加權處理輸入數據,模型能夠更精準地關注與當前任務相關的信息。將CA注意力機制引入YOLOv7可以彌補其在復雜背景下對小目標檢測的不足,進一步提升模型的整體性能和適用性。
2" 基于注意力機制的學生課堂行為識別
2.1" 學生課堂行為數據集
目前并無可用的學生課堂行為公開數據集。本文通過參考經典行為數據集及他人對學生課堂行為的研究[9-10],構建了一個適用于教學場景目標和學生課堂行為研究的數據集。
1)數據采集。數據源自真實課堂環境,全面覆蓋了不同學生在各類課程中的行為狀態變遷。通過考慮人數、學科及教室布局的差異,實施多次拍攝,旨在廣泛捕捉學生行為的多樣性。同時,針對人數密度、遮擋程度及拍攝時段的變化,進行重復數據采集,確保樣本的豐富性與代表性,從而更加精準地反映學生課堂行為的全貌。
2)數據處理。處理學生行為數據時,精選高質量圖像以表征典型行為。鑒于行為連續性,相鄰幀差異細微,故采取每5秒一幀的采樣策略,減少冗余,確保圖像樣本的多樣性和代表性。然后清洗數據,去除已損壞圖像、模糊圖像以及相似圖像。
3)數據標注。將學生行為劃分為raise_head(抬頭)、bow_head(低頭)、turn_head(轉頭)、play_phone(玩手機)、read_write(讀寫)、sleep(睡覺)。按照各類行為的標準,使用圖像標注工具LabelImg對課堂圖像進行標注。
該數據集共包含1 903張課堂圖像,并按照3:1:1 的比例劃分訓練集、驗證集和測試集,分別包含1 146張、379張、378張圖像。其中,訓練集用于訓練模型,以擬合數據特征;驗證集用于優化模型配置,包括調整超參數,并快速反饋訓練過程中的潛在問題;而測試集獨立存在,專門用于評估訓練完成的模型在未見數據上的泛化效果。
2.2" 實驗環境
實驗過程中,嚴格控制實驗條件,確保所有對比實驗均在相同參數設置下進行,以消除外部變量對結果的干擾。所有實驗依托Windows 10操作系統,以Python 3.9作為編程語言,框架技術為PyTorch,加速環境為CUDA 11.3,GPU為NVIDIA GeForce RTX 3060,顯存大小為6 GB。模型參數如表1所示。
2.3" 評價指標
目標檢測任務中,常用準確率(Accuracy)、精確率(Precision)、查全率(Recall)、F1分數(F1-score)、AP(Average Precision)、mAP(mean Average Precision)等作為評價指標。其中,AP是不同Recall下Precision的均值,能夠有效評價模型對數據集中每一類的檢測效果;mAP則是AP的平均值,用于評估模型在圖像中識別和定位特定類別對象的能力。AP是針對單一類別計算得出,而mAP是所有類別AP的平均值。mAP值越高,表明模型在所有類別上的平均性能越好,本文采用mAP作為主要評價指標。
2.4" 實驗結果和分析
本文將CA注意力模塊與目標檢測模型YOLOv7相結合,構建了新的學生行為識別模型——YL7CA。該模型充分利用YOLOv7快速檢測的特點與優勢,在保證對學生行為進行實時檢測的同時,進一步提升了模型對學生行為重要特征的關注度,增強了模型在復雜環境下提取目標特征的能力。此外,CA注意力模塊通過捕獲長距離依賴性和有效整合空間坐標信息,增強了特征表示能力,提高了模型對關鍵信息的敏感度,能夠捕捉到學生行為中的細微差異和變化,從而提升了學生課堂行為識別的準確性和效率。YL7CA模型結構如圖3所示。
為使模型充分學習學生課堂的各類行為特征,以適應復雜多變的課堂環境,在模型訓練階段,將訓練迭代次數設置為500次。圖4直觀展示了引入CA注意力模塊后,模型訓練過程中幾個關鍵性能指標的變化趨勢。
隨著訓練迭代的不斷推進,邊框回歸損失(Bounding Box Regression Loss)顯著下降,這意味著模型在逐步優化其預測邊界框與目標真實邊界框之間的匹配程度,使預測結果更加精準。同時,定位損失(Objectness Loss)也呈穩步減少趨勢,反映出模型區分和定位不同課堂行為區域的能力在不斷增強。分類損失(Classification Loss)同樣顯著下降,標志著模型識別不同類別課堂行為的性能在持續改善。
綜上所述,圖4所示的模型損失變化趨勢,不僅驗證了CA注意力模塊在提升學生課堂行為識別模型性能方面的有效性,還表明通過增加訓練迭代次數、優化模型結構等方式,可以顯著提升模型的學習能力和泛化能力。
本文深入探究了模型優化后對學生課堂行為識別精度的提升效果,尤其是在多樣化教室環境背景下,優化后的模型對學生課堂行為識別的影響。系統評估了YOLOv7和YL7CA兩種模型在不同課堂場景下的行為識別性能,模型改進前后的實驗結果如表2所示。
由表2可知,原模型YOLOv7對raise_head、bow_head、turn_head、play_phone、read_write、sleep的檢測精度分別為95.4%、96.7%、87.8%、86.9%、87.5%和90.5%;YL7CA對這六類學生課堂行為的檢測精度分別為96.7%、98.2%、89.2%、89.1%、90.8%和91.8%,YL7CA對每類學生課堂行為的檢測效果均優于YOLOv7。
從實驗結果來看,添加CA注意力模塊的YL7CA模型檢測效果更佳。YOLOv7的檢測精度為90.8%,YL7CA的檢測精度達到92.6%,其平均精度比原模型高出1.8%,且對各類學生課堂行為的檢測效果均有提升,其中,bow_head、play_phone、read_write的精度分別提升1.5%、2.2%、3.3%。由此可見,YL7CA模型能夠有效檢測學生在課堂上的各類行為,驗證了CA注意力機制在處理復雜背景噪聲、增強特征表達能力方面的有效性,在提升學生課堂行為識別任務中具有顯著成效。
3" 結" 論
本文首先構建了相關數據集,解決了數據難題;其次,在YOLOv7的基礎上提出了新的學生課堂行為識別模型——YL7CA。該模型融合了CA注意力模塊,探究了注意力機制在復雜環境下提升學生課堂行為識別精度的有效性。實驗結果表明,YL7CA對學生課堂行為的識別效果最優,與YOLOv7相比,mAP提升1.8%,且對各類學生課堂行為的檢測效果均有提升。
參考文獻:
[1] 中共中央國務院印發《中國教育現代化2035》 [N].人民日報,2019-02-24(001).
[2] 舒杭,顧小清.數智時代的教育數字化轉型:基于社會變遷和組織變革的視角 [J].遠程教育雜志,2023,41(2):25-35.
[3] 黃勇康,梁美玉,王笑笑,等.基于深度時空殘差卷積神經網絡的課堂教學視頻中多人課堂行為識別 [J].計算機應用,2022,42(3):736-742.
[4] 張小妮,張真真.基于YOLOv5和多尺度特征融合的學生行為研究 [J].現代信息科技,2023,7(8):96-98+102.
[5] 沈西挺,于晟,董瑤,等.基于深度學習的人體動作識別方法 [J].計算機工程與設計,2020,41(4):1153-1157.
[6] 姜權晏,吳小俊,徐天陽.用于骨架行為識別的多維特征嵌合注意力機制 [J].中國圖象圖形學報,2022,27(8):2391-2403.
[7] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors [J/OL].arXiv:2207.02696 [cs.CV].[2024-07-25].https://arxiv.org/abs/2207.02696.
[8] HOU Q B,ZHOU D Q,FENG J S. Coordinate Attention for Efficient Mobile Network Design [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13708-13717.
[9] 白捷,高海力,王永眾,等.基于多路特征融合的Faster R-CNN與遷移學習的學生課堂行為檢測 [J].廣西師范大學學報:自然科學版,2020,38(5):1-11.
[10] 張小妮.基于深度學習的課堂環境下學生行為檢測與分析 [D].鄭州:華北水利水電大學,2023.
作者簡介:張小妮(1996-),女,漢族,河南周口人,碩士研究生,研究方向:大數據與云計算。
收稿日期:2024-08-16
基金項目:河南省科技攻關(242102211054)