摘要:隨著人工智能的發(fā)展和“智慧課堂”概念的興起,課堂行為智能化識(shí)別成為研究的熱點(diǎn)。目前,國(guó)內(nèi)外研究多采用數(shù)個(gè)學(xué)生或教室的局部影像,而對(duì)于學(xué)生人數(shù)密集、尺度變化范圍大且存在大量物體遮擋的全景教室圖像實(shí)時(shí)檢測(cè)鮮有涉及。為此,文章基于YOLOv9網(wǎng)絡(luò),加入CA模塊,構(gòu)建了CA-YOLOv9網(wǎng)絡(luò);之后,通過(guò)結(jié)構(gòu)分析實(shí)驗(yàn)、消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),得到了CA-YOLOv9網(wǎng)絡(luò)的最佳結(jié)構(gòu),并驗(yàn)證了其識(shí)別性能;最后,將訓(xùn)練好的CA-YOLOv9網(wǎng)絡(luò)應(yīng)用于全景多尺度課堂行為識(shí)別,證明了該網(wǎng)絡(luò)能在不降低推理速度的同時(shí)提升檢測(cè)精度,初步驗(yàn)證了該網(wǎng)絡(luò)在智慧課堂中實(shí)時(shí)應(yīng)用的可行性。文章的研究可為及時(shí)了解學(xué)生的學(xué)習(xí)狀態(tài)和教師教學(xué)方法的有效性提供依據(jù),有助于推動(dòng)人工智能與教育教學(xué)的深度融合。
關(guān)鍵詞:課堂行為;行為識(shí)別;實(shí)時(shí)全景;CA-YOLOv9網(wǎng)絡(luò);CA模塊
【中圖分類(lèi)號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2024)07—0123—08 【DOI】10.3969/j.issn.1009-8097.2024.07.013
2018年,教育部在《高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃》中提出要“不斷推動(dòng)人工智能與教育深度融合、為教育變革提供新方式”[1]。高效、智能化的課堂行為研究,已成為時(shí)代發(fā)展的必然訴求[2]。課堂行為既是課堂學(xué)習(xí)投入的具象化表達(dá),也是教學(xué)質(zhì)量的可視化檢測(cè)手段,多年以來(lái)一直是學(xué)界和教育界關(guān)注的熱點(diǎn)。早期有關(guān)課堂行為的分析數(shù)據(jù),多來(lái)源于研究人員隨堂聽(tīng)課或觀看教學(xué)視頻時(shí)的手動(dòng)記錄和人工編碼。隨著信息技術(shù)的飛速發(fā)展,教育生態(tài)、教學(xué)分析和評(píng)價(jià)手段也隨著人工智能的介入而發(fā)生重大變化[3],針對(duì)課堂行為的研究呈現(xiàn)出鮮明的從人工標(biāo)注到智能分析、從單維檢測(cè)到多維互證的發(fā)展軌跡。然而,目前課堂行為研究缺乏開(kāi)放的、已標(biāo)注的學(xué)生行為數(shù)據(jù)集,導(dǎo)致課堂行為自動(dòng)化分析多囿于數(shù)據(jù)的分類(lèi)與統(tǒng)計(jì),檢測(cè)精準(zhǔn)度不高。對(duì)此,本研究基于YOLOv9網(wǎng)絡(luò),加入坐標(biāo)注意力(Coordinate Attention,CA)模塊,構(gòu)建CA-YOLOv9網(wǎng)絡(luò),以期通過(guò)位置信息和通道注意力機(jī)制提高真實(shí)教室環(huán)境下學(xué)生課堂行為實(shí)時(shí)檢測(cè)的精準(zhǔn)度。
一 研究現(xiàn)狀
計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用于課堂行為研究,最初是通過(guò)將學(xué)生的特征模板在原始課堂圖像上進(jìn)行像素點(diǎn)級(jí)別的滑動(dòng)匹配來(lái)進(jìn)行課堂行為識(shí)別。特征模板的設(shè)置均由人工完成,這對(duì)研究人員的專(zhuān)業(yè)性要求高且費(fèi)時(shí)、低效。隨著計(jì)算機(jī)性能的提升,深度學(xué)習(xí)算法逐漸被應(yīng)用于課堂行為識(shí)別領(lǐng)域。例如,Lin等[4]、Zhou等[5]通過(guò)使用OpenPose框架收集骨骼數(shù)據(jù),根據(jù)關(guān)節(jié)位置、關(guān)節(jié)距離、骨角度等特征對(duì)學(xué)生行為進(jìn)行分類(lèi)。但是,使用骨骼數(shù)據(jù)分析方法通常需要耗費(fèi)相當(dāng)?shù)挠?jì)算資源,加上遮擋情況的存在會(huì)導(dǎo)致信息不完整,致使該方法在密集人群中識(shí)別速度慢且容易遺漏目標(biāo)。目前,大多數(shù)課堂行為識(shí)別使用目標(biāo)檢測(cè)算法,如魏艷濤等[6]利用VGG16網(wǎng)絡(luò)對(duì)單個(gè)學(xué)生的7種典型課堂行為(包括聽(tīng)課、舉手、站立、左顧右盼、睡覺(jué)、書(shū)寫(xiě)、看書(shū))進(jìn)行識(shí)別,平均準(zhǔn)確率可達(dá)93.33%;董琪琪等[7]通過(guò)改進(jìn)的SSD算法,對(duì)小型智慧教室中五類(lèi)特征明顯的學(xué)生課堂行為(包括舉手、睡覺(jué)、回答、寫(xiě)字、聽(tīng)講)進(jìn)行識(shí)別;謝偉等[8]使用YOWO模型,通過(guò)時(shí)序性分析對(duì)7類(lèi)行為(包括書(shū)寫(xiě)、站立、睡覺(jué)、聽(tīng)講、翻書(shū)、玩手機(jī)、左顧右盼)進(jìn)行識(shí)別;黃勇康等[9]采用YOLOv5s+DeepSORT算法,并將此算法與多種算法進(jìn)行比較,發(fā)現(xiàn)此算法識(shí)別的平均準(zhǔn)確率達(dá)到88.1%。但是,上述研究都存在數(shù)據(jù)類(lèi)別不平衡或遮擋畫(huà)面大量漏檢的情況。周葉[10]利用Faster R-CNN檢測(cè)框架,并引入特征金字塔和主要樣本注意機(jī)制,在一定程度上解決了數(shù)據(jù)類(lèi)別不平衡的問(wèn)題,但也存在對(duì)被遮擋物的檢測(cè)精度不高的問(wèn)題。而Tang等[11]基于改進(jìn)的YOLOv5目標(biāo)檢測(cè)網(wǎng)絡(luò),使用基于距離的交并比(DIoU)提高了對(duì)被遮擋對(duì)象的區(qū)分度。以上研究均對(duì)課堂行為的實(shí)時(shí)、智能化識(shí)別進(jìn)行了有益探索,但所用數(shù)據(jù)的畫(huà)面尺度范圍變化較小且教室人數(shù)較少,鮮少涉及全體學(xué)生課堂行為方面的分析。
數(shù)據(jù)集是進(jìn)行課堂行為分析的要素,但目前面向自發(fā)性真實(shí)大學(xué)教學(xué)的課堂行為數(shù)據(jù)集較為缺乏,已有的數(shù)據(jù)集多采自中學(xué)課堂。例如,F(xiàn)u等[12]構(gòu)建了一個(gè)由5126張圖像組成的actrecc-
classroom課堂行為數(shù)據(jù)集,其中少量圖像來(lái)自于網(wǎng)絡(luò)視頻截取,大部分圖像來(lái)自于某中學(xué)的課堂錄像;Zheng等[13]構(gòu)建了一個(gè)來(lái)自30所上海市不同中學(xué)的學(xué)生行為數(shù)據(jù)集,含有70000個(gè)舉手樣本、20000個(gè)站立樣本和3000個(gè)睡眠樣本;Fan等[14]通過(guò)對(duì)網(wǎng)絡(luò)視頻的截取和標(biāo)注,提出了一個(gè)公開(kāi)的學(xué)生課堂行為數(shù)據(jù)集SCB-dataset。然而,這些數(shù)據(jù)大多采自公開(kāi)課,在一定程度上并不能反映學(xué)生的真實(shí)狀態(tài)。此外,當(dāng)前對(duì)課堂行為的識(shí)別大多僅針對(duì)單個(gè)學(xué)生或教室的局部圖像,而對(duì)于分析整個(gè)班級(jí)中所有學(xué)生的課堂行為來(lái)說(shuō),全景課堂畫(huà)面比數(shù)個(gè)學(xué)生的特寫(xiě)更有實(shí)際應(yīng)用價(jià)值。為此,本研究嘗試構(gòu)建一個(gè)全新的、涵蓋整個(gè)教室范圍、標(biāo)注了常見(jiàn)課堂行為的數(shù)據(jù)集,提出基于YOLOv9改進(jìn)的CA-YOLOv9網(wǎng)絡(luò),并通過(guò)結(jié)構(gòu)分析實(shí)驗(yàn)、消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),驗(yàn)證該網(wǎng)絡(luò)對(duì)實(shí)時(shí)全景多尺度課堂行為識(shí)別的有效性。
二 CA-YOLOv9網(wǎng)絡(luò)
1 CA-YOLOv9網(wǎng)絡(luò)的構(gòu)建
YOLOv9是YOLOv7團(tuán)隊(duì)在2024年2月打造的新一代目標(biāo)檢測(cè)網(wǎng)絡(luò)[15],含有可編程梯度信息(Programmable Gradient Information,PGI)的輔助監(jiān)督框架。YOLOv9網(wǎng)絡(luò)分為主分支和輔助可逆分支,在網(wǎng)絡(luò)推理過(guò)程中僅使用主分支,但能通過(guò)輔助可逆分支接收梯度信息,在節(jié)省推理成本的同時(shí)提高了檢測(cè)精度。基于YOLOv9網(wǎng)絡(luò),加入CA模塊,本研究構(gòu)建CA-YOLOv9網(wǎng)絡(luò),這是一種基于YOLOv9網(wǎng)絡(luò)改進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò),可用于課堂行為識(shí)別。
2 CA-YOLOv9網(wǎng)絡(luò)的結(jié)構(gòu)
CA-YOLOv9網(wǎng)絡(luò)由骨干網(wǎng)絡(luò)(Backbone)和頭部網(wǎng)絡(luò)(Head)組成,其結(jié)構(gòu)如圖1所示。在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)首先調(diào)整圖像尺寸(Resize)并將其輸入到Backbone。Backbone中含有Conv模塊、GELAN模塊和CA模塊,其中Conv模塊是卷積模塊;GELAN模塊由跨階段局部網(wǎng)絡(luò)(Cross Stage Partial Network,CSPNet)和高效層聚合網(wǎng)絡(luò)(Efficient Layer Aggregation Network,ELAN)組合而成,通過(guò)多層堆疊的模塊結(jié)構(gòu)對(duì)原始的ELAN模塊聚合能力進(jìn)行了泛化;而CA模塊為坐標(biāo)注意力機(jī)制模塊。在本研究中,CA模塊添加至第三個(gè)GELAN模塊的后面。在Head部分,3個(gè)尺寸不同的特征圖分別經(jīng)過(guò)瓶頸層(Channel Bottleneck Linear,CBLinear)進(jìn)行歸一化處理后,再依次經(jīng)過(guò)通道融合模塊、GELAN模塊、卷積模塊,之后經(jīng)回歸分支和分類(lèi)分支處理,得到3個(gè)不同尺寸大小的輸出。
3 CA-YOLOv9網(wǎng)絡(luò)中的CA模塊
CA模塊將位置信息加入到通道注意力模塊中,通過(guò)平均池化層(X Avg Pool,Y Avg Pool)嵌入坐標(biāo)信息,再由卷積層(Conv)、批量歸一化層(BN)、激活函數(shù)層(Sigmoid)生成注意力,對(duì)通道信息和長(zhǎng)程依賴(lài)進(jìn)行編碼。CA模塊結(jié)構(gòu)如圖2所示,可使網(wǎng)絡(luò)更加精準(zhǔn)地定位目標(biāo)。在信息嵌入部分,CA模塊按照公式(1)進(jìn)行編碼。
公式(1)
對(duì)于給定輸入,可使用尺寸為(H, 1)或(1, W)的池化核(Pooling Kernel),分別沿著水平坐標(biāo)、垂直坐標(biāo)對(duì)每個(gè)通道進(jìn)行編碼。其中,H為高度信息,W為寬度信息。在坐標(biāo)注意力生成階段,需對(duì)上一階段的變換進(jìn)行拼接(Concatenate)操作,拼接后的特征通過(guò)卷積變換函數(shù),進(jìn)行卷積和批量歸一化(BatchNorm)操作;特征在水平方向和豎直方向分解為兩個(gè)單獨(dú)的張量gh、gw,并進(jìn)行卷積和激活,最后的輸出如公式(2)所示。
公式(2)
4 CA-YOLOv9網(wǎng)絡(luò)中的損失函數(shù)
損失函數(shù)可用于定量地評(píng)估網(wǎng)絡(luò)的預(yù)測(cè)值與真實(shí)值之間的差距,通常根據(jù)損失函數(shù)的輸出變化來(lái)調(diào)整和改進(jìn)網(wǎng)絡(luò)模塊的參數(shù)。CA-YOLOv9網(wǎng)絡(luò)中的損失函數(shù)如公式(3)所示。其中,Lobj表示目標(biāo)置信度損失,Lcls表示類(lèi)別置信度損失,Lr表示坐標(biāo)回歸損失;而h1、h2、h3為超參數(shù),在實(shí)驗(yàn)中分別設(shè)置為0.1、0.125、0.005。此外,Lobj和Lcls都采用交叉熵?fù)p失函數(shù)(Binary CrossEntropy,BCE)進(jìn)行網(wǎng)絡(luò)訓(xùn)練中的權(quán)重更新。
公式(3)
三 實(shí)驗(yàn)設(shè)計(jì)
為得到CA-YOLOv9網(wǎng)絡(luò)的最佳結(jié)構(gòu),并驗(yàn)證CA-YOLOv9網(wǎng)絡(luò)應(yīng)用于真實(shí)課堂中的實(shí)時(shí)行為識(shí)別性能,本研究設(shè)計(jì)了結(jié)構(gòu)分析實(shí)驗(yàn)、消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)。
1 構(gòu)建數(shù)據(jù)集
本實(shí)驗(yàn)的數(shù)據(jù)均來(lái)自于廣東省G大學(xué)學(xué)生人數(shù)較多的大學(xué)英語(yǔ)課堂視頻錄像,這些錄像由分辨率為1920×1080的高清攝像頭錄制。由于攝像頭部署在黑板上方,故所攝視頻存在因各種遮擋而造成的肢體、面部特征不完全的情況。圖像包含特寫(xiě)鏡頭和全景鏡頭,與攝像頭距離的不同造成了人物在畫(huà)面中的像素占比存在顯著差異,因此圖像中包含多尺度的目標(biāo)人物信息。此外,為了提高樣本的多樣性,本研究選取3個(gè)教室各個(gè)時(shí)段的課堂視頻作為樣本。視頻中的學(xué)生包括本科生和碩士研究生,每個(gè)班級(jí)的人數(shù)為40~60余人不等。
本研究自主構(gòu)建了場(chǎng)景較復(fù)雜、人數(shù)較多、遮擋較嚴(yán)重的真實(shí)課堂環(huán)境下的全景多尺度學(xué)生行為數(shù)據(jù)集——Real University Student Classroom Behavior Dataset(RUSCB-dataset),含有5000張已標(biāo)注好的課堂行為圖像。圖像的提取方法為每條視頻隔30幀截取一張作為關(guān)鍵幀保存,然后將原始圖像輸入數(shù)據(jù)標(biāo)注軟件,對(duì)目標(biāo)檢測(cè)框進(jìn)行標(biāo)注。本實(shí)驗(yàn)標(biāo)注了7種常見(jiàn)的課堂行為:聽(tīng)講、閱讀、玩手機(jī)、交談、睡覺(jué)、舉手、站立,相應(yīng)的學(xué)生動(dòng)作如圖3所示。
2 實(shí)驗(yàn)環(huán)境和訓(xùn)練參數(shù)
實(shí)驗(yàn)環(huán)境配置為:GPU采用NVIDIA GeForce RTX 3090,深度學(xué)習(xí)框架采用Pytorch2.0 cuda11.7。為得到CA-YOLOv9網(wǎng)絡(luò)的最佳結(jié)構(gòu),訓(xùn)練參數(shù)設(shè)置為:batch-size=8,迭代次數(shù)為300次。對(duì)于網(wǎng)絡(luò)的權(quán)重參數(shù),本實(shí)驗(yàn)采用權(quán)重衰減策略,以避免過(guò)擬合問(wèn)題。在偏置和BatchNorm層的權(quán)重,則采用基于梯度的移動(dòng)加權(quán)平均(SGD+Momentum)進(jìn)行優(yōu)化處理。
3 評(píng)價(jià)指標(biāo)
CA-YOLOv9網(wǎng)絡(luò)的評(píng)價(jià)指標(biāo)采用通用標(biāo)準(zhǔn),主要包括精度(Precision)、召回率(Recall)、平均精度均值(mean Average Precision,mAP)。其中,mAP采用mAP0.5指標(biāo),表示IoU為0.5時(shí)的mAP。
4 實(shí)驗(yàn)步驟
實(shí)驗(yàn)的具體步驟為:①錄制真實(shí)課堂視頻,每條視頻隔30幀截取一張關(guān)鍵幀,標(biāo)注課堂行為,構(gòu)建數(shù)據(jù)集。②構(gòu)建YOLOv9_CA_1、YOLOv9_CA_2、YOLOv9_CA_3三種不同的網(wǎng)絡(luò)結(jié)構(gòu)并進(jìn)行結(jié)構(gòu)分析實(shí)驗(yàn),以探究CA模塊在YOLOv9網(wǎng)絡(luò)結(jié)構(gòu)中不同位置的影響。③進(jìn)行消融實(shí)驗(yàn),驗(yàn)證CA模塊的有效性。④選取CA-YOLOv7、YOLOv7、YOLOv5、RT-detr四種廣泛使用的目標(biāo)檢測(cè)網(wǎng)絡(luò),與CA-YOLOv9網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)以檢驗(yàn)識(shí)別性能。所有網(wǎng)絡(luò)均在自建的RUSCB-dataset數(shù)據(jù)集和公開(kāi)的SCB-dataset數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,且實(shí)驗(yàn)環(huán)境設(shè)置保持一致,超參數(shù)設(shè)置相同。⑤用訓(xùn)練好的CA-YOLOv9網(wǎng)絡(luò)識(shí)別G大學(xué)課堂錄像中學(xué)生的不同課堂行為,并在畫(huà)面下方實(shí)時(shí)統(tǒng)計(jì),計(jì)算出每一類(lèi)行為在所有行為中的占比。
四 實(shí)驗(yàn)結(jié)果與分析
1 結(jié)構(gòu)分析實(shí)驗(yàn)
在YOLOv9_CA_1、YOLOv9_CA_2、YOLOv9_CA_3三種網(wǎng)絡(luò)結(jié)構(gòu)中,CA模塊被分別添加到第一、第二、第三個(gè)GELAN模塊的后面,如圖4所示。
三種網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)設(shè)置相同,在RUSCB-dataset數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。結(jié)構(gòu)分析實(shí)驗(yàn)結(jié)果如表1所示,可以看出:三種網(wǎng)絡(luò)結(jié)構(gòu)中,YOLOv9_CA_3的精度值、平均精度值均為最高,說(shuō)明YOLOv9_CA_3對(duì)課堂行為的識(shí)別性能最佳,原因可能在于此網(wǎng)絡(luò)結(jié)構(gòu)能夠利用更抽象的特征,避免低級(jí)的特征被過(guò)早地過(guò)濾掉。
2 消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)
消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)的數(shù)據(jù)分析結(jié)果如表2所示。在消融實(shí)驗(yàn)中,基線(Baseline)是CA-YOLOv9網(wǎng)絡(luò)中移除CA模塊的原始YOLOv9網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明:將CA模塊融入YOLOv9網(wǎng)絡(luò)中后,識(shí)別的精度提升了1.23%、平均精度(mAP0.5)提升了2.59%,說(shuō)明CA模塊的融入可使YOLOv9網(wǎng)絡(luò)的目標(biāo)定位更精準(zhǔn),體現(xiàn)了更好的目標(biāo)檢測(cè)性能。而在對(duì)比實(shí)驗(yàn)中,CA-YOLOv9網(wǎng)絡(luò)的各項(xiàng)指標(biāo)相較于其他網(wǎng)絡(luò)均有明顯提升,說(shuō)明CA-YOLOv9網(wǎng)絡(luò)對(duì)課堂行為的識(shí)別性能更優(yōu)。
消融實(shí)驗(yàn)中不同網(wǎng)絡(luò)識(shí)別結(jié)果的可視化效果對(duì)比如圖5所示。其中,不同顏色的實(shí)線框表示不同行為類(lèi)別的識(shí)別結(jié)果,如黃色虛線方框表示未能檢測(cè)出的目標(biāo)框,而紅色X型圖標(biāo)表示檢測(cè)錯(cuò)誤的目標(biāo)框。圖5顯示,YOLOv9網(wǎng)絡(luò)的黃色虛線方框和紅色X型圖標(biāo)多于CA-YOLOv9網(wǎng)絡(luò),說(shuō)明CA-YOLOv9網(wǎng)絡(luò)的識(shí)別性能更優(yōu)。
3 實(shí)時(shí)全景多尺度課堂行為識(shí)別
在數(shù)據(jù)集RUSCB-dataset中,測(cè)試集的預(yù)測(cè)結(jié)果分類(lèi)混淆矩陣如表3所示,可以看出:在7種常見(jiàn)的課堂行為中,識(shí)別精度最高的是“站立”(占97%),說(shuō)明CA-YOLOv9網(wǎng)絡(luò)對(duì)“站立”這種顯示出全部或大部分身體特征的行為有很好的識(shí)別作用,只需很少的數(shù)據(jù)便可達(dá)到很高精度的訓(xùn)練效果。“聽(tīng)講”的識(shí)別精度也較高(占91%),這得益于其樣本數(shù)量較大;“閱讀”“舉手”“睡覺(jué)”的識(shí)別精度都超過(guò)了80%。但是,“玩手機(jī)”“交談”容易被預(yù)測(cè)為樣本數(shù)量較多的“閱讀”,其識(shí)別精度略低于80%。之所以出現(xiàn)誤判,主要是因?yàn)椤巴媸謾C(jī)”存在手機(jī)被遮擋的問(wèn)題,且手部動(dòng)作和手機(jī)在畫(huà)面里屬于微小目標(biāo),特征提取存在一定的難度;而“交談”的樣本量過(guò)小,且多是由兩個(gè)目標(biāo)進(jìn)行的動(dòng)作,而學(xué)生在低頭時(shí)嘴部特征不明顯。
在進(jìn)行全景多尺度課堂行為實(shí)時(shí)識(shí)別的過(guò)程中,單幀圖像的檢測(cè)時(shí)間為49.5ms(其中,單幀圖像的網(wǎng)絡(luò)前處理速度為0.3ms/幀,推理速度達(dá)46.4ms/幀,后處理速度為2.8ms/幀),結(jié)合上述7種常見(jiàn)課堂行為的識(shí)別精度分析結(jié)果可知:CA-YOLOv9網(wǎng)絡(luò)能在不降低推理速度的同時(shí)提升檢測(cè)精度。另外,49.5ms的單幀圖像檢測(cè)時(shí)間顯著小于實(shí)時(shí)視頻處理的最大閾值(約100ms),這初步驗(yàn)證了CA-YOLOv9網(wǎng)絡(luò)在智慧課堂中實(shí)時(shí)應(yīng)用的可行性。
五 結(jié)語(yǔ)
高效、準(zhǔn)確地評(píng)估和分析學(xué)生的課堂行為,是分析教學(xué)樣態(tài)和提升教育質(zhì)量必不可少的環(huán)節(jié)。針對(duì)大學(xué)教室復(fù)雜、密集的課堂環(huán)境,本研究在YOLOv9的基礎(chǔ)上,加入CA模塊,提出CA-YOLOv9網(wǎng)絡(luò),并通過(guò)結(jié)構(gòu)分析實(shí)驗(yàn),得到CA-YOLOv9網(wǎng)絡(luò)的最佳結(jié)構(gòu)為YOLOv9_CA_3;通過(guò)消融實(shí)驗(yàn),發(fā)現(xiàn)CA-YOLOv9網(wǎng)絡(luò)的精度和平均精度比其他網(wǎng)絡(luò)都有所提升;而通過(guò)對(duì)比實(shí)驗(yàn),進(jìn)一步驗(yàn)證了CA-YOLOv9網(wǎng)絡(luò)對(duì)課堂行為的識(shí)別性能更優(yōu)。另外,本研究還將CA-YOLOv9網(wǎng)絡(luò)應(yīng)用于自主構(gòu)建的真實(shí)課堂環(huán)境下的全景多尺度學(xué)生行為數(shù)據(jù)集,對(duì)7種常見(jiàn)的課堂行為進(jìn)行了識(shí)別,結(jié)果顯示:除了“玩手機(jī)”“交談”兩種行為的識(shí)別精度略低于80%,CA-YOLOv9網(wǎng)絡(luò)對(duì)其他行為的識(shí)別精度都比較高;單幀圖像的檢測(cè)時(shí)間為49.5ms,驗(yàn)證了CA-YOLOv9網(wǎng)絡(luò)能在不降低推理速度的同時(shí)提升檢測(cè)精度,具備了在智慧課堂中實(shí)時(shí)應(yīng)用的可行性。未來(lái),CA-YOLOv9網(wǎng)絡(luò)有望應(yīng)用于智能課堂系統(tǒng)中,實(shí)現(xiàn)對(duì)學(xué)生聽(tīng)課狀態(tài)和教師教學(xué)方法的客觀評(píng)估,對(duì)于促進(jìn)教育教學(xué)與人工智能的深度融合有重要意義。后續(xù)研究將致力于解決數(shù)據(jù)不平衡的問(wèn)題,增加小比例動(dòng)作樣本的數(shù)量,以進(jìn)一步提升CA-YOLOv9網(wǎng)絡(luò)對(duì)課堂行為識(shí)別的精度,同時(shí)針對(duì)手部動(dòng)作、面部動(dòng)作等微小的行為特征探索更有效的識(shí)別方法。
————————
參考文獻(xiàn)
[1]教育部.教育部關(guān)于印發(fā)《高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃》的通知[OL].
lt;http://www.moe.gov.cn/srcsite/A16/s7062/201804/t20180410_332722.htmlgt;
[2]孫眾,呂愷悅,駱力明,等.基于人工智能的課堂教學(xué)分析[J].中國(guó)電化教育,2020,(10):15-23.
[3]盧國(guó)慶,謝魁,劉清堂,等.基于人工智能引擎自動(dòng)標(biāo)注的課堂教學(xué)行為分析[J].開(kāi)放教育研究,2021,(6):97-107.
[4]Lin F C, Ngo H H, Dow C R, et al. Student behavior recognition system for the classroom environment based on skeleton pose estimation and person detection[J]. Sensors, 2021,(16):5314.
[5]Zhou J, Ran F, Li G, et al. Classroom learning status assessment based on deep learning[J]. Mathematical Problems in Engineering, 2022,(1):7049458.
[6]魏艷濤,秦道影,胡佳敏,等.基于深度學(xué)習(xí)的學(xué)生課堂行為識(shí)別[J].現(xiàn)代教育技術(shù),2019,(7):87-91.
[7]董琪琪,劉劍飛,郝祿國(guó),等.基于改進(jìn)SSD算法的學(xué)生課堂行為狀態(tài)識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2021,(10):2924-2930.
[8]謝偉,陶亞平,高潔,等.基于YOWO的課堂學(xué)習(xí)行為實(shí)時(shí)識(shí)別[J].現(xiàn)代教育技術(shù),2022,(6):107-114.
[9]黃勇康,梁美玉,王笑笑,等.基于深度時(shí)空殘差卷積神經(jīng)網(wǎng)絡(luò)的課堂教學(xué)視頻中多人課堂行為識(shí)別[J].計(jì)算機(jī)應(yīng)用,2022,(3):736-742.
[10]周葉.基于Faster R-CNN的小學(xué)生課堂行為檢測(cè)研究[D].成都:四川師范大學(xué),2021:25-30.
[11]Tang L, Xie T, Yang Y, et al. Classroom behavior detection based on improved YOLOv5 algorithm combining multi-scale feature fusion and attention mechanism[J]. Applied Sciences, 2022,(13):6790.
[12]Fu R, Wu T, Luo Z, et al. Learning behavior analysis in classroom based on deep learning[A]. 2019 Tenth International Conference on Intelligent Control and Information Processing (ICICIP)[C]. Marrakesh, Morocco: IEEE, 2019:206-212.
[13]Zheng R, Jiang F, Shen R. Intelligent student behavior analysis system for real classrooms[A]. ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. Barcelona, Spain: IEEE, 2020:9244-9248.
[14]Fan Y. SCB-dataset: A dataset for detecting student classroom behavior[OL]. lt;https://arxiv.org/pdf/2304.02488gt;
[15]Wang C Y, Yeh I H, Liao H Y M. YOLOv9: Learning what you want to learn using programmable gradient information[J]. lt;https://arxiv.org/pdf/2402.13616gt;
Real-time Panoramic Multi-scale Classroom Behaviors Recognition Based on CA-YOLOv9 Network
TAN Su-Yan1""" WANG Zu-Xuan2""" HE Gao-Da3[Corresponding Author]
(1. School of Foreign Studies, Guangzhou University, Guangzhou, Guangdong, China 510006;
2. School of Physics, South China Normal University, Guangzhou, Guangdong, China 510006;
3. School of Foreign Studies, South China Agricultural University, Guangzhou, Guangdong, China 510642)
Abstract: With the development of artificial intelligence and the rise of “smart classroom” concept, the intelligent recognition of classroom behavior has become a research focus. At present, local images of several students or classrooms are mostly used in domestic and foreign studies, but the real-time detection of panoramic classroom images with densely populated students, a wide range of scale changes and a large number of object occlusions is rarely involved. Therefore, based on CA-YOLOv9 network, this paper added coordinate attention (CA) module, and constructed CA-YOLOv9 network. Then, the optimal structure of CA-YOLOv9 network was obtained through structural analysis experiment, ablation experimentand comparison experiment, and further verified its recognition property. Finally, the trained CA-YOLOv9 network was applied to panoramic multi-scale classroom behaviors recognition, proving that the network can improve the detection accuracy without decreasing the inference speed, and preliminarily verified the feasibility of the network’s real-time application in a smart classroom. The research of this paper could provide the basis for timely understanding students’ learning status and the effectiveness of teachers’ teaching methods, and help to promote the deep integration of artificial intelligence and education and teaching.
Keywords: classroom behavior; behavior recognition; real-time panorama; CA-YOLOv9 network; CA module
————————
*基金項(xiàng)目:本文受?chē)?guó)家社會(huì)科學(xué)基金項(xiàng)目“大學(xué)英語(yǔ)云平臺(tái)學(xué)習(xí)者用戶體驗(yàn)認(rèn)知負(fù)荷研究”(項(xiàng)目編號(hào):22BYY094)、廣東省哲學(xué)社會(huì)科學(xué)規(guī)劃2023年度“外語(yǔ)專(zhuān)項(xiàng)”項(xiàng)目“教育生態(tài)學(xué)視域下‘一主三維’大學(xué)英語(yǔ)課程思政鏈研究”(項(xiàng)目編號(hào):GD23WZXC01-13)資助。
作者簡(jiǎn)介:譚蘇燕,副教授,碩士,研究方向?yàn)橥庹Z(yǔ)教學(xué)、信息技術(shù)及其教育應(yīng)用,郵箱為jercytan@163.com。
收稿日期:2024年3月9日
編輯:小米