999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人物交互的學(xué)生課堂行為識(shí)別研究

2024-03-12 04:07:47周珍玉秦學(xué)蔡芳鄧霞
現(xiàn)代教育技術(shù) 2024年2期

周珍玉 秦學(xué) 蔡芳 鄧霞

摘要:深度學(xué)習(xí)技術(shù)促進(jìn)了學(xué)生課堂行為識(shí)別研究的發(fā)展,為精準(zhǔn)刻畫學(xué)生的課堂學(xué)習(xí)行為提供了有效途徑。然而,該方法面臨真實(shí)課堂場(chǎng)景下目標(biāo)多、行為特征復(fù)雜等困難,導(dǎo)致行為識(shí)別準(zhǔn)確率不高。基于此,文章提出了一種基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò),將交互對(duì)象作為重要特征引入課堂行為識(shí)別,首先將原網(wǎng)絡(luò)中的檢測(cè)模塊替換為YOLOv5s,然后引入歐氏距離減少冗余人-物節(jié)點(diǎn)關(guān)系,并設(shè)計(jì)新特征提取算法優(yōu)化聽課這類無交互物品的學(xué)生行為識(shí)別,最后通過實(shí)驗(yàn)驗(yàn)證了此網(wǎng)絡(luò)有效性和準(zhǔn)確性。文章通過研究,旨在為規(guī)模化課堂行為識(shí)別研究提供理論參考和實(shí)踐借鑒,進(jìn)一步優(yōu)化課堂教學(xué)效果的過程化評(píng)價(jià),促進(jìn)教學(xué)質(zhì)量提升。

關(guān)鍵詞:目標(biāo)檢測(cè);學(xué)生行為識(shí)別;人物交互;圖卷積

【中圖分類號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2024)02—0053—09 【DOI】10.3969/j.issn.1009-8097.2024.02.006

課堂教學(xué)一直是教育研究的重點(diǎn),對(duì)學(xué)生在課堂上的行為進(jìn)行觀察識(shí)別及分析,能夠幫助教師精準(zhǔn)掌握其整體學(xué)習(xí)狀態(tài),從而提供有效干預(yù)和指導(dǎo),改善學(xué)習(xí)效果,推動(dòng)教學(xué)高質(zhì)量發(fā)展。在課堂教學(xué)中,學(xué)生作為學(xué)習(xí)活動(dòng)的主體,其課堂行為不僅與自身的學(xué)習(xí)成效密切相關(guān),也是反映教師教學(xué)質(zhì)量的重要參照。傳統(tǒng)的課堂行為識(shí)別主要通過人工方式開展,耗時(shí)且效率低[1],而隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,深度學(xué)習(xí)網(wǎng)絡(luò)憑借其能夠有效提取課堂視頻中的復(fù)雜特征,以及自動(dòng)識(shí)別學(xué)生行為動(dòng)作的優(yōu)勢(shì),為課堂行為識(shí)別提供了一種高效的方案。目前,基于深度學(xué)習(xí)的學(xué)生課堂行為識(shí)別處于前期研究階段,主要研究方法是通過面部表情、人體骨架及頭部和姿態(tài)估計(jì)來識(shí)別學(xué)生的課堂行為,這種方法雖然能識(shí)別學(xué)生行為,但缺點(diǎn)是對(duì)學(xué)生與周圍物品的交互關(guān)注不夠。而在真實(shí)的教室環(huán)境下,很多課堂行為還包含學(xué)生和周圍物品的交互,如看書、書寫、玩手機(jī)等,分析學(xué)生與周圍物品的交互關(guān)系,能夠?yàn)檎n堂行為識(shí)別提供更多有用的信息,有助于提升課堂行為識(shí)別的準(zhǔn)確性。人物交互(Human-Object Interaction,HOI)檢測(cè)作為視覺關(guān)系中的子任務(wù),旨在將場(chǎng)景中的對(duì)象與各種語義角色相關(guān)聯(lián),從而更精細(xì)地了解當(dāng)前的活動(dòng)狀態(tài)[2],利用HOI技術(shù)分析人-物間的交互關(guān)系,能為行為識(shí)別提供更多有效信息。由此,本研究參考當(dāng)前基于深度學(xué)習(xí)的課堂行為識(shí)別方法,引入人物交互技術(shù),以看書、玩手機(jī)、聽課、書寫四種典型行為為例,分析學(xué)生與其周圍物品之間的交互關(guān)系,以期提升課堂行為識(shí)別的準(zhǔn)確性,更好地幫助教師掌握學(xué)生的學(xué)習(xí)狀態(tài),并進(jìn)行精準(zhǔn)的學(xué)習(xí)指導(dǎo)或干預(yù),同時(shí)為智慧課堂的實(shí)施提供參考。

一 文獻(xiàn)綜述

當(dāng)前,采用深度學(xué)習(xí)技術(shù)對(duì)教室監(jiān)控視頻進(jìn)行分析,以識(shí)別學(xué)生的課堂學(xué)習(xí)行為已成為新的研究熱點(diǎn),并取得了一定的研究成果。例如,Li等[3]基于ESRGAN檢測(cè)網(wǎng)絡(luò)對(duì)課堂監(jiān)控視頻進(jìn)行處理,采用YOLOv5s識(shí)別出課堂監(jiān)控圖像中學(xué)生玩手機(jī)、上課、睡覺等行為;Cao等[4]提出了基于MobileNetV2的改進(jìn)輕量級(jí)網(wǎng)絡(luò),采用C-反相殘差塊代替?zhèn)鹘y(tǒng)模塊,提高了網(wǎng)絡(luò)的識(shí)別精度,同時(shí)識(shí)別出學(xué)生睡覺、書寫等課堂行為;Liu等[5]通過對(duì)YOLOv5s網(wǎng)絡(luò)中的BN層進(jìn)行校正,增強(qiáng)了網(wǎng)絡(luò)的特征提取能力,有效識(shí)別出學(xué)生書寫、吃東西、聽課等行為;王澤杰等[6]則結(jié)合學(xué)生的人體骨架信息特征,識(shí)別學(xué)生玩手機(jī)、起立等典型的課堂行為。這些基于深度學(xué)習(xí)的學(xué)生行為研究方法,通常是直接提取圖像中學(xué)生的特征信息來進(jìn)行行為分類,對(duì)特定實(shí)驗(yàn)環(huán)境下典型課堂行為的識(shí)別效果較為理想,但實(shí)際教室場(chǎng)景普遍會(huì)受一些客觀因素的影響,包括學(xué)生遠(yuǎn)近不一、動(dòng)作較相似、存在遮擋等,這些客觀因素是通用教室監(jiān)控視頻場(chǎng)景下進(jìn)行行為識(shí)別的難點(diǎn)和挑戰(zhàn)。

大量研究表明,識(shí)別一個(gè)人的動(dòng)作行為,不僅要檢測(cè)單個(gè)目標(biāo)對(duì)象,還需要識(shí)別其與周圍物品的交互活動(dòng)[7]。近年,部分研究人員致力于視覺關(guān)系檢測(cè)的研究,并取得了重大進(jìn)展[8],發(fā)現(xiàn)相比于目標(biāo)檢測(cè)、圖像分割、動(dòng)作識(shí)別等傳統(tǒng)機(jī)器視覺任務(wù),視覺關(guān)系檢測(cè)更關(guān)注對(duì)象對(duì)之間的語義關(guān)系。2015年,Chao等[9]提出用于人物交互的大型數(shù)據(jù)集HICO,使HOI檢測(cè)這一技術(shù)取得了重大發(fā)展。HOI檢測(cè)主要分為單階段和雙階段兩條技術(shù)路線:①單階段的HOI檢測(cè)直接檢測(cè)圖片中的交互行為,但其針對(duì)多目標(biāo)識(shí)別時(shí)準(zhǔn)確率較低。②雙階段的HOI檢測(cè)主要分為基于多流分支和基于圖卷積神經(jīng)網(wǎng)絡(luò)兩大研究方向,其中基于多流分支的檢測(cè)方法將特征提取、空間關(guān)系等分支網(wǎng)絡(luò)結(jié)合構(gòu)成多流分支。例如,Kolesnikov等[10]提出BAR-CNN網(wǎng)絡(luò),借助鏈?zhǔn)揭?guī)則分解概率網(wǎng)絡(luò),對(duì)人與物的空間位置關(guān)系進(jìn)行編碼;Wang等[11]提出的IPNet網(wǎng)絡(luò)用于預(yù)測(cè)人-物的交互點(diǎn),并進(jìn)行交互關(guān)系定位和分類。上述研究方法主要通過提取人與物的外觀特征和空間關(guān)系來推理交互關(guān)系,但對(duì)上下文特征缺乏重視,識(shí)別精度還有較大的提升潛力。鑒于此,Wang等[12]提出DCANet網(wǎng)絡(luò),將全局上下文特征整合到人物交互檢測(cè)中,使網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確性得到了提升。基于圖卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法為人物交互檢測(cè)提供了新的思路,該方法將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于HOI檢測(cè),將人物間的交互關(guān)系構(gòu)建成解析圖,并利用圖神經(jīng)網(wǎng)絡(luò)捕獲更多上下文特征。借鑒該思想,Gao等[13]提出DRG網(wǎng)絡(luò),利用抽象的空間語義來描述每一組人與物,并通過雙重關(guān)系圖聚合場(chǎng)景中的上下文信息。Ulutan等[14]提出的可視空間圖網(wǎng)絡(luò)(Visual-Spatial-Graph Network,VSGNet)通過構(gòu)建人-物之間的交互關(guān)系圖,較好地表征了空間關(guān)系特征,對(duì)人-物交互識(shí)別精度有顯著提升。考慮到雙階段VSGNet網(wǎng)絡(luò)在識(shí)別精度及表征人-物空間關(guān)系等方面的優(yōu)勢(shì),本研究以VSGNet為基礎(chǔ),提出基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò),優(yōu)化和改進(jìn)目標(biāo)檢測(cè)模塊、人物交互關(guān)系構(gòu)建等環(huán)節(jié),從而實(shí)現(xiàn)課堂行為識(shí)別。

二 基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò)設(shè)計(jì)與優(yōu)化

VSGNet網(wǎng)絡(luò)由檢測(cè)和識(shí)別兩階段構(gòu)成,檢測(cè)網(wǎng)絡(luò)采用Faster R-CNN檢測(cè)圖像中的目標(biāo),識(shí)別網(wǎng)絡(luò)則通過提取人-物對(duì)的視覺特征及空間配置信息,利用圖卷積來分析配對(duì)之間的結(jié)構(gòu)連接,進(jìn)而分析、識(shí)別人-物交互關(guān)系。本研究以VSGNet網(wǎng)絡(luò)作為基線,設(shè)計(jì)了基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò)。同時(shí),考慮到人物交互檢測(cè)方法在課堂行為識(shí)別中存在一些典型問題,如對(duì)筆、手機(jī)等小目標(biāo)和多目標(biāo)的漏檢和誤檢,對(duì)不存在交互物品行為的識(shí)別誤差等,本研究將原VSGNet的Faster R-CNN檢測(cè)模塊替換為YOLOv5s,并重新設(shè)計(jì)距離計(jì)算方法以減少無效的候選人-物交互關(guān)系,然后針對(duì)無交互物品行為識(shí)別需要改進(jìn)視覺特征提取算法。

1 目標(biāo)檢測(cè)網(wǎng)絡(luò)優(yōu)化

YOLOv5s是由Ultralytics團(tuán)隊(duì)提出的一種單階段網(wǎng)絡(luò),與雙階段的Faster R-CNN網(wǎng)絡(luò)相比,其檢測(cè)速度更快[15]。此外,在檢測(cè)小目標(biāo)時(shí),YOLOv5s的檢測(cè)精度也超越了Faster R-CNN[16]。在本研究中,第一階段檢測(cè)網(wǎng)絡(luò)的輸出作為第二階段輸入,檢測(cè)階段網(wǎng)絡(luò)的準(zhǔn)確性是正確識(shí)別學(xué)生行為的基礎(chǔ)和關(guān)鍵所在。因此,本研究嘗試將YOLOv5s網(wǎng)絡(luò)應(yīng)用到教室場(chǎng)景,替換原VSGNet中的Faster R-CNN。

2 基于歐氏距離的交互關(guān)系篩選

教室場(chǎng)景下識(shí)別的學(xué)生課堂行為通常只與學(xué)生周圍的物品有關(guān)。如果以學(xué)生節(jié)點(diǎn)為中心,連接圖片中的所有物品節(jié)點(diǎn),會(huì)導(dǎo)致節(jié)點(diǎn)間連接數(shù)量急劇上升,節(jié)點(diǎn)數(shù)增多,削弱與學(xué)生節(jié)點(diǎn)真正有關(guān)系的物品節(jié)點(diǎn)的重要程度,進(jìn)而影響交互關(guān)系的判斷,不利于學(xué)生行為的識(shí)別。鑒于此,本研究利用歐氏距離對(duì)學(xué)生節(jié)點(diǎn)與物品節(jié)點(diǎn)之間的距離進(jìn)行篩選和優(yōu)化:取學(xué)生檢測(cè)框和物品檢測(cè)框的中心點(diǎn)作為端點(diǎn),通過計(jì)算兩個(gè)端點(diǎn)之間的歐氏距離,縮小物品節(jié)點(diǎn)的選擇范圍。計(jì)算過程如下:假設(shè)學(xué)生檢測(cè)框坐標(biāo)為(x1, y1, x2, y2),物品檢測(cè)框坐標(biāo)為(x3, y3, x4, y4),那么學(xué)生與物品間的歐氏距離計(jì)算如公式(1)所示。

通過對(duì)視頻的統(tǒng)計(jì)和分析,輸入圖片中學(xué)生與桌面物品的歐氏距離與輸入圖片的高(H)的比值小于0.15。因此,將兩個(gè)檢測(cè)框中心點(diǎn)距離與H比值的閾值設(shè)定為0.15,舍棄比值超過0.15的物品節(jié)點(diǎn)。圖卷積分支可視化如圖1所示,圖中最大長方形表示整張圖片,中等長方形表示人的檢測(cè)框,小長方形表示物的檢測(cè)框,人與物檢測(cè)框間的直線表示交互關(guān)系。其中,圖1(a)表示原圖卷積分支,圖1(b)表示改進(jìn)后的圖卷積分支。通過對(duì)比圖1(a)和圖1(b)可以發(fā)現(xiàn),圖1(b)刪除了大量無效邊,能顯著提升人與真實(shí)存在交互關(guān)系物品的重要程度,從而提升行為識(shí)別準(zhǔn)確率。

3 無交互物品行為特征融合算法設(shè)計(jì)

原VSGNet網(wǎng)絡(luò)使用圖卷積網(wǎng)絡(luò)來學(xué)習(xí)學(xué)生與周圍物品之間的交互關(guān)系,但視頻中“聽課”這一動(dòng)作類別不存在交互物品,這導(dǎo)致網(wǎng)絡(luò)對(duì)該動(dòng)作的識(shí)別不夠穩(wěn)定。針對(duì)這一不足,本研究在原網(wǎng)絡(luò)中增加了一個(gè)無交互物品的行為識(shí)別模塊,通過視覺分支獲取學(xué)生檢測(cè)框中的特征向量和整張圖片中的上下文特征向量。但是原VSGNet視覺分支在提取無交互物的學(xué)生特征時(shí)存在兩個(gè)問題:因池化操作會(huì)造成部分特征信息丟失;采用的小卷積核對(duì)尺度較大的人物目標(biāo)識(shí)別效果欠佳。鑒于此,本研究提出一個(gè)基于上下文的殘差模塊(記為CM_Resnet),由一個(gè)可分離大核卷積和一個(gè)殘差模塊串聯(lián)而成,在不顯著增加網(wǎng)絡(luò)復(fù)雜度的前提下捕獲更豐富的特征。

基于以上分析,本研究得到無交互物品的學(xué)生行為特征提取網(wǎng)絡(luò),其結(jié)構(gòu)如圖 2 所示。該 結(jié)構(gòu)使用 YOLOv5s 網(wǎng)絡(luò)檢測(cè)出“學(xué)生”這一目標(biāo),并將對(duì)應(yīng)的檢測(cè)框及相關(guān)信息輸入該網(wǎng)絡(luò), 經(jīng)過 ROI+Residual 操作后引入基于上下文的 CM_Resnet 模塊,接下來經(jīng)過 GAP 處理,得到框 中強(qiáng)化后的學(xué)生目標(biāo)的特征向量 以及整張圖片的特征向量,即上下文特征向量 。最后,將 、 相乘可得到該動(dòng)作類別概率 。

綜上所述,基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。首先,對(duì)教室監(jiān)控視頻進(jìn)行數(shù)據(jù)預(yù)處理,采用YOLOv5s網(wǎng)絡(luò)檢測(cè)出教室內(nèi)學(xué)生、手機(jī)、書本、筆四種目標(biāo);然后將檢測(cè)結(jié)果以形如<學(xué)生,動(dòng)作,物品>的三元組形式輸入識(shí)別網(wǎng)絡(luò)。識(shí)別網(wǎng)絡(luò)主要包括視覺、空間注意和圖卷積三個(gè)分支。視覺分支使用區(qū)域池化ROI提取特征,再經(jīng)殘差塊Residual、全局平均池化GAP處理,輸出人、物的視覺特征向量。將上述特征向量連接并通過全連接層進(jìn)行投影,最后得到人-物對(duì)的視覺特征向量,其計(jì)算如公式(2)所示。其中,Wvis表示投影矩陣,fh、fo、fc分別表示人、物、上下文背景的視覺特征向量。

空間注意分支利用人和物檢測(cè)框的位置信息,生成人-物對(duì)的空間關(guān)系特征向量aho。將aho與視覺特征向量拼接得到,其計(jì)算如公式(3)所示。經(jīng)投影矩陣變換再由Sigmoid函數(shù)作用得到人-物對(duì)的交互得分iho以及動(dòng)作類別概率。由于aho編碼了空間配置,因此aho也可用于輔助HOI分類,aho經(jīng)投影矩陣變換得到動(dòng)作類別概率

圖卷積分支利用圖卷積神經(jīng)網(wǎng)絡(luò)將人與物關(guān)系表征為圖結(jié)構(gòu),通過遍歷和更新圖中的節(jié)點(diǎn),提取節(jié)點(diǎn)間交互關(guān)系的特征,可得圖卷積分支分類預(yù)測(cè)概率。最后,將三個(gè)分支的概率相乘,計(jì)算出最終預(yù)測(cè)的動(dòng)作類別概率Ρho,其計(jì)算如公式(4)所示。

三 教室監(jiān)控視頻場(chǎng)景下學(xué)生課堂行為識(shí)別的實(shí)驗(yàn)與分析

1 實(shí)驗(yàn)對(duì)象與環(huán)境

由于目前還沒有公開的真實(shí)教室場(chǎng)景下的學(xué)生行為數(shù)據(jù)集,因此本研究基于真實(shí)教室場(chǎng)景下的監(jiān)控視頻進(jìn)行數(shù)據(jù)集制作。課堂監(jiān)控視頻來自研究團(tuán)隊(duì)承擔(dān)課程的5個(gè)教室場(chǎng)景,分別是貴州省A大學(xué)的大數(shù)據(jù)專業(yè)2019級(jí)和2020級(jí)共兩個(gè)年級(jí)的4個(gè)教學(xué)班級(jí)、信管專業(yè)2021級(jí)的1個(gè)教學(xué)班級(jí)。實(shí)驗(yàn)硬件環(huán)境為:CPU采用Intel(R)Core(TM)i7-10700KF,GPU采用NVIDIA GeForce RTX 2060。軟件環(huán)境為:操作系統(tǒng)采用Win10,Python版本為3.8.13,深度學(xué)習(xí)框架采用PyTorch 1.8.0。

2 數(shù)據(jù)集構(gòu)建

該數(shù)據(jù)集來源于真實(shí)教學(xué)場(chǎng)景下的課堂監(jiān)控視頻,本研究通過分析監(jiān)控視頻,發(fā)現(xiàn)學(xué)生上課時(shí)的行為在連續(xù)時(shí)間內(nèi)變化幅度較小,故以50幀一張的間隔抽取圖片,圖片的分辨率為1920×1080。本研究選取了5個(gè)不同教室的監(jiān)控視頻進(jìn)行圖片抽取,每張圖片包含10~15位學(xué)生,共計(jì)1963張圖片,學(xué)生實(shí)例16685個(gè)。本研究將得到的數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,同時(shí)按照4:1的比例劃分,即訓(xùn)練集1571張,測(cè)試集392張。通過分析目前現(xiàn)有的數(shù)據(jù)集,發(fā)現(xiàn)學(xué)生課堂行為主要集中在Look(看書)、Play(玩手機(jī))、Listen(聽課)、Write(書寫),因此本研究主要這四種學(xué)生課堂行為進(jìn)行研究。

3 實(shí)驗(yàn)流程

本研究的實(shí)驗(yàn)分為三個(gè)步驟:①分析課堂監(jiān)控視頻抽取圖像幀,確定典型課堂行為,并完成行為標(biāo)注。②將實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分,同時(shí)按照4:1的比例劃分。③基于構(gòu)建的數(shù)據(jù)集,對(duì)本研究提出的基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò)(記為Our_method)進(jìn)行訓(xùn)練,依次驗(yàn)證其整體性能及各優(yōu)化改進(jìn)模塊的有效性。

4 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò)及其優(yōu)化方案的可行性和有效性,本研究根據(jù)實(shí)驗(yàn)流程展開多項(xiàng)驗(yàn)證、消融和對(duì)比實(shí)驗(yàn)。評(píng)價(jià)依據(jù)采用深度學(xué)習(xí)領(lǐng)域常用的關(guān)鍵性能指標(biāo):平均精度(mean Average Precisio,mAP)、精確率(Precision,P)、召回率(Recall,R)。

(1)基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò)整體性能分析

基于構(gòu)建的真實(shí)課堂場(chǎng)景學(xué)生行為數(shù)據(jù)集,各動(dòng)作類別的平均準(zhǔn)確率實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看出,Look、Play、Write三種課堂行為的精度均有提升(分別提升了2.56%、3.49%、2.55%),驗(yàn)證了本研究對(duì)原網(wǎng)絡(luò)中圖卷積分支的物節(jié)點(diǎn)設(shè)置閾值進(jìn)行篩選可提高網(wǎng)絡(luò)識(shí)別性能的結(jié)論。此外,改進(jìn)后的網(wǎng)絡(luò)能識(shí)別出學(xué)生“聽課”這一課堂行為,證明了本研究對(duì)不存在交互物品的“聽課”動(dòng)作進(jìn)行重新規(guī)劃并計(jì)算其動(dòng)作類別概率具有理論可行性。從實(shí)驗(yàn)結(jié)果可得出,本研究改進(jìn)方案是可行的,且達(dá)到了預(yù)期識(shí)別效果。

圖4則更為直觀地展示了該網(wǎng)絡(luò)的識(shí)別結(jié)果,可以看出,改進(jìn)后的網(wǎng)絡(luò)能較準(zhǔn)確地識(shí)別學(xué)生Look、Write、Play三種課堂行為。最后一幅圖片顯示,網(wǎng)絡(luò)也能成功識(shí)別“Listen”行為。

(2)改進(jìn)目標(biāo)檢測(cè)網(wǎng)絡(luò)的驗(yàn)證結(jié)果分析

依據(jù)本研究的設(shè)計(jì),將原網(wǎng)絡(luò)中的Faster R-CNN替換為YOLOv5s后,實(shí)驗(yàn)結(jié)果如表2所示。表中的mAP、P、R分別提升了3.54%、2.6%、4.9%,平均檢測(cè)速度更是快了近2.93倍。可見,針對(duì)實(shí)際教室場(chǎng)景中的多目標(biāo)檢測(cè)更宜采用YOLOv5s網(wǎng)絡(luò),其檢測(cè)效果如圖5所示。

(3)圖卷積改進(jìn)模塊消融實(shí)驗(yàn)分析

為進(jìn)一步分析識(shí)別階段的兩處優(yōu)化對(duì)行為識(shí)別網(wǎng)絡(luò)的性能提升,本研究設(shè)計(jì)了相應(yīng)的消融實(shí)驗(yàn),其結(jié)果如表3所示。實(shí)驗(yàn)數(shù)據(jù)表明,本研究提出的課堂行為識(shí)別網(wǎng)絡(luò)的識(shí)別精度明顯提升,其中mAP提升了3.85%,平均檢測(cè)時(shí)間下降了34.6%。在方案2中,縮短了物節(jié)點(diǎn)遍歷范圍后,平均檢測(cè)時(shí)間明顯縮短,提升了約1.53倍。從方案3的實(shí)驗(yàn)結(jié)果可以看出,引入CM_Resnet模塊后,平均檢測(cè)時(shí)間增加了0.0064s,僅增加了2.73%,而精度提升了1.46%,進(jìn)一步說明了CM_Resnet模塊能提取到更加豐富的特征,驗(yàn)證了引入該模塊的理論可行性。

(4)不同網(wǎng)絡(luò)性能的對(duì)比實(shí)驗(yàn)

為驗(yàn)證本研究提出的整體改進(jìn)網(wǎng)絡(luò)的可行性和通用性,本研究將整體改進(jìn)后網(wǎng)絡(luò)與主流的DCANet、DRG、IPNet等人物交互識(shí)別網(wǎng)絡(luò)在教室監(jiān)控視頻數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6所示。從圖6可知,DCANet網(wǎng)絡(luò)的識(shí)別表現(xiàn)較差,這是由于其對(duì)圖片中的目標(biāo)特征提取不充分導(dǎo)致的;IPNet網(wǎng)絡(luò)主要通過計(jì)算人與物的檢測(cè)框之間的交互向量對(duì)行為進(jìn)行分類,但將其應(yīng)用于教室場(chǎng)景時(shí),由于教室內(nèi)目標(biāo)與目標(biāo)之間的間距較小,容易誤判;DRG網(wǎng)絡(luò)識(shí)別結(jié)果僅次于基線網(wǎng)絡(luò)VSGNet,與VSGNet不同的是,DRG只利用圖網(wǎng)絡(luò),將人與物關(guān)系表示為對(duì)偶關(guān)系圖,導(dǎo)致圖中關(guān)系很密集,并且沒有考慮到人與物之間的空間關(guān)系。

此外,在本研究提出的網(wǎng)絡(luò)訓(xùn)練前期即前40次迭代中,mAP沒有其他網(wǎng)絡(luò)高,這是因?yàn)榫W(wǎng)絡(luò)訓(xùn)練前期學(xué)習(xí)到的特征還不充分,而經(jīng)過40次迭代后,Our_method學(xué)習(xí)到足夠多的特征,mAP開始逐步提升并優(yōu)于其他網(wǎng)絡(luò)。可見,Our_method更適合用于教室場(chǎng)景下的學(xué)生課堂行為識(shí)別任務(wù)。

四 結(jié)語

本研究通過分析學(xué)生與周圍物品的交互關(guān)系,提出了一種基于人物交互的學(xué)生課堂行為識(shí)別網(wǎng)絡(luò),利用學(xué)生與周圍物品的交互關(guān)系,重點(diǎn)對(duì)學(xué)生的四種典型課堂行為進(jìn)行了識(shí)別,并經(jīng)實(shí)驗(yàn)驗(yàn)證了本研究的有效性和可行性。但與此同時(shí),本研究也還存在一些不足:①在學(xué)生課堂行為識(shí)別網(wǎng)絡(luò)的檢測(cè)階段,仍存在目標(biāo)對(duì)象漏檢問題;②由于攝像頭位于教室前側(cè)方位,所拍攝的監(jiān)控視頻存在較小的角度偏移,不利于特征提取,因此影響了目標(biāo)檢測(cè)精度和人物關(guān)系篩選。后續(xù)研究將繼續(xù)改進(jìn)檢測(cè)網(wǎng)絡(luò),減少小目標(biāo)物品的漏檢誤檢;擴(kuò)充數(shù)據(jù)集,增加課堂場(chǎng)景及行為的多樣性,進(jìn)一步提升網(wǎng)絡(luò)識(shí)別行為的準(zhǔn)確率和實(shí)用性,以更好地推動(dòng)規(guī)模化課堂行為分析,促進(jìn)課堂教學(xué)改革與優(yōu)化。

參考文獻(xiàn)

[1]徐家臻,鄧偉,魏艷濤.基于人體骨架信息提取的學(xué)生課堂行為自動(dòng)識(shí)別[J].現(xiàn)代教育技術(shù),2020,(5):108-113.

[2]Gao C, Zou Y, Huang J B. iCAN: Instance-centric attention network for human-object interaction detection[OL].

[3]Li L, Liu M, Sun L, et al. ET-YOLOv5s: Toward deep identification of students in-class behaviors[J]. IEEE ACCESS, 2022,10:44200-44211.

[4]Cao D, Liu J, Hao L, et al. Recognition of studentss behavior states in classroom based on improved mobile netV2 algorithm[J]. International Journal of Electrical Engineering & Education, 2023,60:2379-2396.

[5]Liu S, Zhang J, Su W. An improved method of identifying learners behaviors based on deep learning[J]. The Journal of Supercomputing, 2022,(10):12861-12872.

[6]王澤杰,沈超敏,趙春,等.融合人體姿態(tài)估計(jì)和目標(biāo)檢測(cè)的學(xué)生課堂行為識(shí)別[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,(2):55-66.

[7]Siadari T S, Han M, Yoon H. Three-stream network with context convolution module for human-object interaction detection[J]. ETRI Journal, 2020,(2):230-238.

[8]Yu D, Xu Z, Fujita H. Bibliometric analysis on the evolution of applied intelligence[J]. Applied Intelligence, 2019,(2):449-462.

[9]Chao Y W, Wang Z, He Y, et al. HICO: A benchmark for recognizing human-object interactions in images[A]. 2015 IEEE International Conference on Computer Vision (ICCV)[C]. Santiago, Chile: IEEE, 2015:1017-1025.

[10]Kolesnikov A, Kuznetsova A, Lampert C, et al. Detecting visual relationships using box attention[A]. 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW)[C]. Seoul, Korea (South): IEEE, 2019:1749-1753.

[11]Wang T, Yang T, Danelljan M, et al. Learning human-object interaction detection using interaction points[A]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Seattle, WA, USA: IEEE, 2020:4115-4124.

[12]Wang T C, Anwer R M, Khan M H, et al. Deep contextual attention for human-object interaction detection[A]. 2019 IEEE/CVF International Conference on Computer Vision (ICCV)[C]. Seoul, Korea (South): IEEE, 2019:5693-5701.

[13]Gao C, Xu J, Zou Y, et al. DRG: Dual relation graph for human-object interaction detection[A]. ECCV 2020: Computer Vision - ECCV 2020[C]. Cham: Springer, 2020:696-712.

[14]Ulutan O, Iftekhar A, Manjunath B S. VSGNet: Spatial attention network for detecting human object interactions using graph convolutions[A]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. Seattle, WA, USA: IEEE, 2020:13614-13623.

[15]Li M L, Sun G B, Yu J X. A pedestrian detection network model based on improved YOLOv5[J]. Entropy, 2023,(2):381.

[16]楊睿寧,惠飛,金鑫,等.改進(jìn)YOLOv5s的復(fù)雜交通場(chǎng)景路側(cè)目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2023,(16):159-169.

Research on Classroom Behavior Recognition of Students Based on Human-object Interaction

Abstract: Deep learning technology promotes the development of research on students classroom behavior recognition, which provides an effective approach to accurately depict students classroom learning behaviors. However, the method faces many difficulties in real classroom scenarios, such as multiple targets and complex behavior characteristics, resulting in low accuracy of behavior recognition. Based on this, this paper proposed a classroom behavior recognition network for students based on human-object interaction, which incorporated interactive objects as key features into classroom behavior recognition. Firstly, the detection module in the original network was substituted with YOLOv5s. Secondly, the Euclidean distance was employed to reduce redundant human-object node relationships. Meanwhile, a new feature extraction algorithm was designed to optimize such behavior recognition of students listening without interactive objects. Finally, the effectiveness and accuracy of this model were verified through experiments. Through research, this paper was expected to provide theoretical reference and practical experience for the research on large-scale classroom behavior recognition, and further optimize the procedural evaluation of classroom teaching effects, therefore promoting the improvement of teaching quality.

Keywords: object detection; students behavior recognition; human-object interaction; graph convolutional

主站蜘蛛池模板: 亚洲免费毛片| 亚洲AⅤ无码国产精品| 成人免费一区二区三区| AⅤ色综合久久天堂AV色综合| 久久综合九九亚洲一区| 欧美激情第一区| 亚洲三级电影在线播放| 欧美日韩久久综合| 天天干伊人| 亚洲中文字幕国产av| 国产午夜无码专区喷水| 99久久精品国产麻豆婷婷| 日本午夜影院| 亚洲一区色| 久久狠狠色噜噜狠狠狠狠97视色 | 日韩少妇激情一区二区| 亚洲成人福利网站| 精品在线免费播放| 手机在线免费毛片| 国产精品亚洲五月天高清| 男女男免费视频网站国产| 久久黄色影院| 日韩精品无码免费一区二区三区 | 大陆精大陆国产国语精品1024| JIZZ亚洲国产| 国产欧美日韩在线一区| 国产剧情无码视频在线观看| 一级毛片无毒不卡直接观看| aa级毛片毛片免费观看久| 五月天丁香婷婷综合久久| 国产H片无码不卡在线视频 | 青青草一区二区免费精品| 国产精品.com| 亚洲欧美成人| 69综合网| AV老司机AV天堂| 亚洲欧洲日产国产无码AV| 欧美综合区自拍亚洲综合绿色| 亚洲一区无码在线| 亚洲侵犯无码网址在线观看| 狠狠亚洲五月天| 波多野结衣国产精品| 91精品专区国产盗摄| 57pao国产成视频免费播放 | 毛片在线播放网址| 色婷婷在线影院| 国产超碰一区二区三区| 国产香蕉在线视频| 国产小视频免费| 乱人伦视频中文字幕在线| 久久这里只有精品23| 国产乱子伦视频在线播放| 天天干天天色综合网| 国产成人久视频免费| 国产亚洲精品va在线| 一区二区三区国产精品视频| 国产人碰人摸人爱免费视频| 中文字幕无码av专区久久| 久久超级碰| 国产成人精品高清不卡在线| 国产精品va免费视频| 亚洲无码高清视频在线观看| 在线国产你懂的| 久青草网站| 一级一毛片a级毛片| 看av免费毛片手机播放| 国产精品不卡永久免费| 狼友视频国产精品首页| 日韩激情成人| 狠狠ⅴ日韩v欧美v天堂| 日韩国产欧美精品在线| 一级毛片在线播放| 欧美性猛交一区二区三区| 91免费观看视频| 99无码熟妇丰满人妻啪啪 | 欧美成人午夜在线全部免费| 91国内在线视频| 国产精品自拍合集| 日韩A∨精品日韩精品无码| 欧美日韩国产精品综合| 成人在线不卡| 亚洲第一区精品日韩在线播放|