龐世燕, 郝京京, 胡瀚淳, 楊玉芹
(華中師范大學(xué)人工智能教育學(xué)部, 武漢 430079)
課堂教學(xué)是學(xué)校教育教學(xué)的主陣地,對(duì)教師課堂教學(xué)行為進(jìn)行過(guò)程性評(píng)價(jià)可以幫助教師改善教學(xué)行為,對(duì)于提高教學(xué)質(zhì)量具有重要意義.在傳統(tǒng)的課堂教學(xué)中,通過(guò)觀看課堂錄像的方式來(lái)進(jìn)行教師教學(xué)行為評(píng)價(jià)工作量大、時(shí)效性差,難以大范圍推廣應(yīng)用.教育部印發(fā)的《教育信息化2.0行動(dòng)計(jì)劃》提出,要以人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等新興技術(shù)為基礎(chǔ),積極開(kāi)展智慧教育創(chuàng)新研究和示范,推動(dòng)新技術(shù)支持下的教育模式變革和生態(tài)重構(gòu)[1].隨著我國(guó)教育信息化建設(shè)已經(jīng)步入2.0時(shí)代,傳統(tǒng)課堂正在逐步轉(zhuǎn)型為智慧課堂.相比于傳統(tǒng)課堂,智慧課堂對(duì)教學(xué)設(shè)備軟硬件進(jìn)行了升級(jí).在教師教學(xué)行為評(píng)價(jià)領(lǐng)域,可以借助課堂錄播設(shè)備獲取實(shí)時(shí)的教師教學(xué)行為視頻,采用智能化的算法及時(shí)評(píng)估教師教學(xué)行為,方便教師及時(shí)了解上課狀態(tài),促進(jìn)教學(xué)方法的改進(jìn)和教學(xué)策略的調(diào)整.
隨著教育技術(shù)的發(fā)展,課堂教學(xué)行為分析的數(shù)據(jù)樣態(tài)、技術(shù)環(huán)境、評(píng)價(jià)理念等都在不斷變化[2],這些變化促進(jìn)了技術(shù)與教育的深度融合.回顧教學(xué)行為分析領(lǐng)域的技術(shù)環(huán)境發(fā)展歷史,能夠看出技術(shù)的發(fā)展進(jìn)步在不斷降低對(duì)人的依賴(lài)程度,以人工智能技術(shù)的出現(xiàn)和應(yīng)用為劃分依據(jù),教學(xué)行為分析技術(shù)的發(fā)展逐漸分化出傳統(tǒng)與智能兩種形態(tài).
傳統(tǒng)的教學(xué)行為識(shí)別與分析方法一般采用人工觀察與教學(xué)行為分析軟件相結(jié)合方式,圍繞該類(lèi)型軟件的設(shè)計(jì)與開(kāi)發(fā)的相關(guān)研究較多.孫吉鵬等[3]設(shè)計(jì)并實(shí)現(xiàn)了一種以學(xué)習(xí)行為分析為核心的段落粒度在線(xiàn)教程系統(tǒng),它能夠?qū)崟r(shí)記錄保存學(xué)習(xí)者在文章每個(gè)段落的學(xué)習(xí)情況,并以可視化的方式展示學(xué)習(xí)者的最終學(xué)習(xí)行為數(shù)據(jù).李白樺等[4]基于ITIAS編碼模板開(kāi)發(fā)了一種課堂教學(xué)視頻分析軟件,可用于分析教師的教學(xué)狀態(tài)與教學(xué)風(fēng)格.張乃龍[5]開(kāi)發(fā)了基于達(dá)成度分析的實(shí)踐課程教學(xué)過(guò)程管理系統(tǒng),在記錄學(xué)習(xí)者教學(xué)任務(wù)完成情況的同時(shí)階段性分析其學(xué)習(xí)能力達(dá)成度,整個(gè)課程學(xué)習(xí)完成后計(jì)算學(xué)習(xí)者的最終能力達(dá)成度各個(gè)指標(biāo).
人工智能技術(shù)能夠大大簡(jiǎn)化過(guò)于依賴(lài)人工的重復(fù)勞動(dòng)工作,現(xiàn)如今已有諸多相關(guān)研究將人工智能與教育理論相結(jié)合,由人工智能技術(shù)來(lái)完成課堂教學(xué)視頻中教學(xué)行為的智能識(shí)別以及智能分析.人體行為識(shí)別旨在對(duì)視頻監(jiān)控中的人體行為進(jìn)行檢索并識(shí)別,是人工智能領(lǐng)域的研究熱點(diǎn).基于傳統(tǒng)方法的人體行為識(shí)別算法存在對(duì)樣本數(shù)據(jù)依賴(lài)大、易受環(huán)境噪聲影響等不足[6].陳江濤[7]使用濾波算子與形態(tài)學(xué)處理方法來(lái)提取課堂教學(xué)圖片中師生的MHI-HOG組合特征,并送入到“BP神經(jīng)網(wǎng)絡(luò)-SVM”組合分類(lèi)器來(lái)識(shí)別彎腰、蹦跳、散步、揮手以及其它等六類(lèi)動(dòng)作.譚斌等[8]使用遷移學(xué)習(xí)方式增強(qiáng)目標(biāo)檢測(cè)算法Faster-RCNN的檢測(cè)性能,并使用該網(wǎng)絡(luò)完成課堂教學(xué)活動(dòng)中學(xué)生的“玩”“學(xué)習(xí)”和“睡覺(jué)”三種行為的準(zhǔn)確檢測(cè).鄭譽(yù)煌[9]使用HR-Net來(lái)提取出教師的人體骨架信息圖,基于該信息來(lái)智能識(shí)別教師的板書(shū)行為.于海港等[10]提出一種雙流時(shí)空殘差卷積網(wǎng)絡(luò)能夠顯著增強(qiáng)二維CNN的行為視頻時(shí)空信息捕獲能力.
目前,教師教學(xué)行為存在課堂場(chǎng)景復(fù)雜、教師間行為表達(dá)差異大、教師行為數(shù)據(jù)集匱乏等問(wèn)題.為此,本文基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)框架,提出了一種新的教師教學(xué)行為識(shí)別方法.該方法首先基于OpenPose[11]提取教師骨架點(diǎn),一方面因?yàn)镺penPose的姿態(tài)估計(jì)技術(shù)比較成熟,開(kāi)源的預(yù)訓(xùn)練模型可以直接應(yīng)用于教室場(chǎng)景,另一方面和原始影像相比,教師骨架點(diǎn)數(shù)據(jù)量更小,且更利于描述動(dòng)作信息;然后基于時(shí)空?qǐng)D卷積網(wǎng)絡(luò)框架聚合多幀影像的骨架點(diǎn)信息,通過(guò)時(shí)空信息的聯(lián)動(dòng)來(lái)顯著提升教師教學(xué)行為識(shí)別的準(zhǔn)確性;最后基于實(shí)拍的視頻數(shù)據(jù)制作了兩組教師行為識(shí)別數(shù)據(jù)集,驗(yàn)證了本文算法的有效性.
基于時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)[12](Spatial Temporal Graph Convolutional Networks,STGCN)的教師教學(xué)行為識(shí)別方法如圖1所示.一是梳理并確定教師教學(xué)行為類(lèi)別,人工方式構(gòu)建可供后續(xù)圖卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練使用的數(shù)據(jù)集;二是使用人體姿態(tài)估計(jì)算法OpenPose,從教師視頻中提取出教師骨架的關(guān)節(jié)點(diǎn)信息序列;三是采用時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建教師教學(xué)行為識(shí)別模型,對(duì)教師教學(xué)行為進(jìn)行預(yù)測(cè).

圖1 基于ST-GCN的教師教學(xué)行為識(shí)別方法Fig.1 Teacher’s teaching action recognition method based on ST-GCN
在教師教學(xué)行為分類(lèi)方面,何燦輝[13]從功能角度出發(fā)將手勢(shì)語(yǔ)分為會(huì)意性手勢(shì)、象形性手勢(shì)、指示性手勢(shì)、評(píng)價(jià)性手勢(shì)、情意性手勢(shì)和強(qiáng)調(diào)性手勢(shì).周鵬生[14]根據(jù)教師課堂非言語(yǔ)行為特點(diǎn)并結(jié)合第三人稱(chēng)觀察視角將教師的非言語(yǔ)課堂教學(xué)行為歸納為七類(lèi),包括說(shuō)明性動(dòng)作、象征性動(dòng)作、工具性動(dòng)作、表露性動(dòng)作、調(diào)節(jié)性動(dòng)作、適應(yīng)性動(dòng)作和距離性動(dòng)作.本文從教師的非言語(yǔ)行為角度出發(fā),將教師教學(xué)行為分為六類(lèi),具體描述見(jiàn)表1.

表1 教師教學(xué)行為分類(lèi)及描述
在此基礎(chǔ)上,使用視頻剪輯工具Premier來(lái)控制視頻僅有教師出鏡并完成教學(xué)行為片段的剪輯,根據(jù)行為類(lèi)別將視頻文件保存至對(duì)應(yīng)類(lèi)別文件夾,以此方式構(gòu)建教師教學(xué)行為識(shí)別數(shù)據(jù)集.
OpenPose是Cao等基于部位仿射場(chǎng)與部位置信度圖提出的一種人體骨架點(diǎn)檢測(cè)器,可以及時(shí)、準(zhǔn)確地獲取圖像中人物的骨骼關(guān)鍵點(diǎn)信息,其處理步驟如圖2所示.

圖2 OpenPose人體骨架點(diǎn)提取流程Fig.2 Flowchart of human skeleton point extraction based on OpenPose
首先,利用VGG16主干網(wǎng)絡(luò)進(jìn)行特征提取生成高階特征;其次,使用兩個(gè)多階段卷積網(wǎng)絡(luò)分支用來(lái)分別預(yù)測(cè)教師的關(guān)節(jié)點(diǎn)部位置信度圖和部位仿射場(chǎng);最后,使用非極大值抑制處理過(guò)濾掉重疊部位置信度圖,完成關(guān)節(jié)點(diǎn)匹配生成最終的教師骨架關(guān)節(jié)點(diǎn)預(yù)測(cè)圖.
以上述人體骨架點(diǎn)提取結(jié)果為輸入,對(duì)骨架點(diǎn)信息進(jìn)行歸一化預(yù)處理后輸入時(shí)空?qǐng)D卷積網(wǎng)絡(luò)模型.基于時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)的教學(xué)行為識(shí)別模型結(jié)構(gòu)如圖3所示,整個(gè)網(wǎng)絡(luò)包含了10層ST-GCN模塊和一個(gè)全連接層作為“分類(lèi)器”,并使用Softmax對(duì)類(lèi)別向量進(jìn)行尺度歸一化獲得類(lèi)別信息,其中每個(gè)ST-GCN模塊不僅包括圖卷積與時(shí)間卷積模塊,還包括了殘差網(wǎng)絡(luò)和注意力機(jī)制用于改善行為識(shí)別的分類(lèi)性能.

圖3 時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.3 ST-GCN Model architecture diagram
本文中時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)[11]的圖結(jié)構(gòu)數(shù)據(jù)為包含18個(gè)節(jié)點(diǎn)和T幀的骨架點(diǎn)序列,可表示為公式:
G=(V,E),
(1)
其中,節(jié)點(diǎn)集合V={vti|t=1,…,18,i=1,…,T}包含了骨架點(diǎn)序列中的所有骨架點(diǎn)信息,每個(gè)節(jié)點(diǎn)均包含橫、縱坐標(biāo)與置信度三個(gè)特征值,可表示為v=(x,y,score).骨架點(diǎn)序列的連接邊E包括空域邊子集ES和時(shí)域邊子集EF,其中ES表示在同一視頻幀中所有骨架點(diǎn)之間的空間連接信息,記為ES={vtivtj|(i,j)∈H},H是一組自然連接的人體關(guān)節(jié),EF表示相鄰兩幀中相同骨架點(diǎn)之間的連接信息,寫(xiě)作EF={vtiv(t+1)i}.
針對(duì)于骨架點(diǎn)序列數(shù)據(jù)存在兩種邊關(guān)系,本文使用一種時(shí)空?qǐng)D卷積方式來(lái)充分學(xué)習(xí)其時(shí)空特征,時(shí)空?qǐng)D卷積可拆解為圖卷積和時(shí)間卷積兩部分,如圖4所示.

圖4 時(shí)空?qǐng)D卷積方式示意圖Fig.4 Schematic diagram of spatial temporal graph convolution
此外,為了使模型更好地適用于復(fù)雜教室場(chǎng)景,文中的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)在傳統(tǒng)時(shí)空?qǐng)D卷積框架的基礎(chǔ)上,添加了注意力模塊和殘差卷積模塊,以進(jìn)一步提升模型的表達(dá)和適應(yīng)能力.因此每一層的時(shí)空?qǐng)D卷積包括圖卷積模塊、注意力模塊、時(shí)間卷積模塊和殘差卷積模塊四部分,詳細(xì)介紹如下.
1) 圖卷積模塊
首先利用圖卷積來(lái)充分學(xué)習(xí)單幀骨架點(diǎn)的空間信息,圖卷積的公式如下:
(2)

2)注意力模塊
當(dāng)教師的教學(xué)行為發(fā)生時(shí)通常是部分骨架點(diǎn)的運(yùn)動(dòng)變化更加顯著,因此本文使用一種注意力模塊來(lái)關(guān)注顯著變化的骨架點(diǎn),它能夠更好地表征教師的教學(xué)行為.(A+I)表示骨架點(diǎn)空間連接關(guān)系,在注意力模塊中對(duì)其通過(guò)矩陣元素內(nèi)積方式來(lái)添加一層可學(xué)習(xí)掩碼M,寫(xiě)作(A+I)⊙M,M初始化為18×18的全一矩陣,在訓(xùn)練中通過(guò)動(dòng)態(tài)學(xué)習(xí)注意力掩碼的權(quán)重,從而調(diào)整各個(gè)骨架點(diǎn)在行為運(yùn)動(dòng)中的不同貢獻(xiàn).
3)時(shí)間卷積模塊

(3)

4)殘差卷積模塊
殘差卷積的數(shù)學(xué)描述如下面公式(4)所示,以l層的骨架點(diǎn)集合特征Xl作為輸入進(jìn)入到殘差模塊的兩個(gè)分支,直接映射對(duì)應(yīng)圖卷積加時(shí)間卷積的時(shí)空特征融合分支,即FTCN(FGCN(xl)),其中FGCN為式(2)的簡(jiǎn)寫(xiě),FTCN指代公式(3),殘差映射則是1×1卷積的殘差分支,記作h(Xl).
Xl+1=h(Xl)+FTCN(FGCN(Xl)).
(4)
為了充分驗(yàn)證基于時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)的教師教學(xué)行為識(shí)別方法的有效性,根據(jù)搜集方式的不同制作了兩組數(shù)據(jù)集.一組為模擬課堂視頻數(shù)據(jù)集,該數(shù)據(jù)集采用被試成員模擬課堂教學(xué)活動(dòng),按照六種教學(xué)行為的標(biāo)準(zhǔn)錄制,主要用于算法研究.另一組為網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集,用于驗(yàn)證本文提出的方法在真實(shí)教學(xué)情境中的有效性.以下是兩組數(shù)據(jù)集的介紹.
1) 模擬課堂視頻數(shù)據(jù)集
針對(duì)教學(xué)視頻資源平臺(tái)中教師教學(xué)行為存在拍攝角度過(guò)高、教學(xué)行為類(lèi)別較少的問(wèn)題,本研究邀請(qǐng)21名課題組成員參與了模擬環(huán)境下的教師課堂教學(xué)行為數(shù)據(jù)集的拍攝工作.為了盡可能模擬真實(shí)教學(xué)場(chǎng)景,在數(shù)據(jù)集的拍攝過(guò)程中使用了三臺(tái)攝像機(jī)架設(shè)在左側(cè)、正面及右側(cè)三個(gè)角度,分別呈現(xiàn)-45°、0°及45°,從而能夠多角度地捕捉教師的課堂教學(xué)行為.另一方面要求受試者使用不同幅度、不同體態(tài)來(lái)完成正常上課時(shí)的各類(lèi)教學(xué)行為,最終完成教師課堂教學(xué)行為數(shù)據(jù)集的采集與制作,將其命名為模擬課堂視頻數(shù)據(jù)集.該數(shù)據(jù)集的概況如表2所示,其中類(lèi)別數(shù)量統(tǒng)計(jì)的是三個(gè)角度的有效視頻數(shù)量,對(duì)拍攝過(guò)程中有問(wèn)題的部分視頻進(jìn)行了剔除.部分示例如圖5所示.

表2 模擬課堂視頻數(shù)據(jù)集概況
2) 網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集
線(xiàn)上數(shù)據(jù)集的收集來(lái)源主要是各大視頻網(wǎng)站與中小學(xué)課程資源平臺(tái),包括國(guó)家教育資源公共服務(wù)平臺(tái)“一師一優(yōu)課,一課一名師”、國(guó)家中小學(xué)網(wǎng)絡(luò)服務(wù)云平臺(tái)、優(yōu)酷以及bilibili等網(wǎng)站.在中小學(xué)課程資源平臺(tái)中教學(xué)視頻資源通常按照學(xué)段科目進(jìn)行排列展示,因而數(shù)據(jù)集的獲取較為容易.同時(shí)為保證數(shù)據(jù)集內(nèi)各數(shù)據(jù)都能夠擁有較大的差異性,筆者在視頻網(wǎng)站中也進(jìn)行了相關(guān)視頻的搜集,通過(guò)使用“課程實(shí)錄”“中小學(xué)教學(xué)”等關(guān)鍵詞進(jìn)行搜索來(lái)查找目標(biāo)數(shù)據(jù).筆者與課題組內(nèi)成員使用在線(xiàn)觀看方式來(lái)篩選符合要求的數(shù)據(jù),最終得到原始線(xiàn)上教學(xué)視頻數(shù)據(jù)812個(gè),并將該數(shù)據(jù)集命名為網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集.該數(shù)據(jù)集中的概況如表3所示,示例如圖6所示.

表3 網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集概況

圖6 網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集示例Fig.6 Examples of online classroom video dataset
本文所采用的實(shí)驗(yàn)環(huán)境如表4所示.

表4 實(shí)驗(yàn)環(huán)境相關(guān)配置參數(shù)
按照6∶2∶2的比例來(lái)劃分整個(gè)數(shù)據(jù)集,對(duì)模型訓(xùn)練文件的超參數(shù)進(jìn)行設(shè)置與修改.訓(xùn)練時(shí)骨架點(diǎn)的鄰接矩陣采用空間分區(qū)策略,整個(gè)訓(xùn)練迭代次數(shù)為200次.實(shí)驗(yàn)中采用的優(yōu)化器為SGD,動(dòng)量設(shè)置為0.9和0.999,學(xué)習(xí)率設(shè)為0.001,衰減參數(shù)設(shè)置為1e-4,batch size為32,模型權(quán)重文件設(shè)置每隔10個(gè)epoch保存一次,模型的輸入包括骨架點(diǎn)序列數(shù)據(jù)與骨架點(diǎn)的連接矩陣兩部分,其中骨架點(diǎn)序列數(shù)據(jù)共包含5個(gè)特征維度,即(N,C,T,V,M)對(duì)應(yīng)視頻個(gè)數(shù)、單個(gè)骨架點(diǎn)特征維數(shù)、視頻幀數(shù)、骨架點(diǎn)數(shù)以及人數(shù);骨架點(diǎn)的鄰接矩陣則是固定骨架點(diǎn)序號(hào)的18×18矩陣,用于表示各個(gè)骨架點(diǎn)之間的連接關(guān)系,1代表有連接,0代表無(wú)連接.
為了驗(yàn)證本文方法的有效性,通過(guò)實(shí)驗(yàn)探究了不同數(shù)據(jù)集分布、是否使用遷移學(xué)習(xí)方式、不同類(lèi)別等因素對(duì)教師課堂教學(xué)行為識(shí)別性能的影響,并與其他方法進(jìn)行了比較,證明了本文方法的有效性.
在模擬課堂視頻數(shù)據(jù)集上直接使用未加載預(yù)訓(xùn)練模型的時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模型驗(yàn)證,如表5所示,教師教學(xué)行為的預(yù)測(cè)準(zhǔn)確度為58.41%.通過(guò)分析該數(shù)據(jù)集的數(shù)量分布發(fā)現(xiàn)“會(huì)意性行為”這一類(lèi)別的數(shù)量要遠(yuǎn)超過(guò)其他類(lèi)別,使得類(lèi)別分布不均勻,導(dǎo)致模型預(yù)測(cè)偏向于數(shù)量更多的類(lèi)別.因而采用將其他5類(lèi)動(dòng)作的訓(xùn)練集全部復(fù)制兩次的方式使得各類(lèi)別數(shù)量更加均勻地分布在300上下,并基于已經(jīng)訓(xùn)練好的模型再次訓(xùn)練100個(gè)epoch后,在驗(yàn)證集上的準(zhǔn)確度提升到了73.40%,通過(guò)實(shí)驗(yàn)說(shuō)明數(shù)量分布對(duì)于模型性能具有重要影響.

表5 基于時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果
為了更加深入分析模擬課堂視頻數(shù)據(jù)集中不同類(lèi)別對(duì)整個(gè)模型的識(shí)別性能影響,將該數(shù)據(jù)集的測(cè)試集教師教學(xué)行為片段按照類(lèi)別分別打包和格式轉(zhuǎn)換,使用基于本數(shù)據(jù)集遷移學(xué)習(xí)方式獲得的最佳模型來(lái)驗(yàn)證時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)對(duì)單一類(lèi)別的預(yù)測(cè)性能,并分析其原因.詳細(xì)實(shí)驗(yàn)數(shù)據(jù)分布如表6所示,“適應(yīng)性行為”“會(huì)意性行為”“工具性行為”以及“說(shuō)明性行為”這四類(lèi)行為識(shí)別準(zhǔn)確度均達(dá)到85%以上.“指示性行為”的行為識(shí)別準(zhǔn)確度為77%,有23%的數(shù)據(jù)錯(cuò)誤識(shí)別為會(huì)意性行為,主要是因?yàn)楹雎员尘耙蛩睾笾赶騽?dòng)作與示意學(xué)生起立動(dòng)作存在一定相似性.而“評(píng)價(jià)性行為”的識(shí)別準(zhǔn)確率僅為41%,由表6最后一行可見(jiàn)該類(lèi)別容易錯(cuò)誤識(shí)別為會(huì)意性行為.

表6 模擬課堂視頻數(shù)據(jù)集行為識(shí)別混淆矩陣
由表7可見(jiàn)該數(shù)據(jù)集僅包含四類(lèi)教學(xué)行為,“適應(yīng)性行為”“指示性行為”和“工具性行為”這三類(lèi)的行為識(shí)別準(zhǔn)確度均超過(guò)95%,而“會(huì)意性行為”識(shí)別為78%.一方面網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集類(lèi)別相對(duì)較少,但各類(lèi)別的數(shù)量分布均衡,能夠獲得較高的行為識(shí)別準(zhǔn)確度;另一方面,和其他三類(lèi)行為相比,“會(huì)意性行為”的子類(lèi)別更豐富,包括教師的示意學(xué)生起立和坐下,還包括示意學(xué)生保持安靜,并且動(dòng)作幅度不明顯,容易與指示性行為相混淆,因而在四類(lèi)行為預(yù)測(cè)中識(shí)別結(jié)果相對(duì)較低.

表7 網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集行為識(shí)別混淆矩陣
本研究使用Kinetics-400數(shù)據(jù)集上的預(yù)訓(xùn)練模型文件完成基于網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集全監(jiān)督訓(xùn)練實(shí)驗(yàn)的遷移學(xué)習(xí)訓(xùn)練實(shí)驗(yàn),并且和不進(jìn)行遷移學(xué)習(xí)的方式進(jìn)行對(duì)比,詳細(xì)結(jié)果如圖7所示.可以看出在未進(jìn)行遷移學(xué)習(xí)時(shí),最高準(zhǔn)確度為85.02%,這是因?yàn)榫W(wǎng)絡(luò)課堂視頻數(shù)據(jù)集中教師的教學(xué)行為類(lèi)別為四類(lèi),而且各類(lèi)別數(shù)量分布十分均衡,使得識(shí)別性能較為理想.同樣在基于Kinetics-400數(shù)據(jù)集的預(yù)訓(xùn)練模型上進(jìn)行遷移學(xué)習(xí)時(shí),模型的性能得到增強(qiáng),最高能夠達(dá)到93.50%的分類(lèi)準(zhǔn)確度.

圖7 不同方式下網(wǎng)絡(luò)課堂視頻數(shù)據(jù)集的性能比較Fig.7 Performance comparison of online classroom video dataset under different methods
為了驗(yàn)證本文方法的有效性,采用C3D[15]、R(2+1)D[16]和本文方法在模擬課堂視頻數(shù)據(jù)集上進(jìn)行比較,此外,考慮到是否加載預(yù)訓(xùn)練模型對(duì)結(jié)果影響較大,本研究對(duì)是否加載預(yù)訓(xùn)練模型也進(jìn)行了對(duì)比,數(shù)據(jù)結(jié)果如表8所示.未加載預(yù)訓(xùn)練模型情況下,本文的方法超過(guò)了C3D和R(2+1)D方法的結(jié)果,能夠達(dá)到73.40%.在加載預(yù)訓(xùn)練模型的實(shí)驗(yàn)中,需要指出的是,對(duì)照組中R(2+1)D無(wú)預(yù)先訓(xùn)練模型,無(wú)法加載,C3D模型加載的是在UCF101數(shù)據(jù)集上訓(xùn)練得到的公開(kāi)預(yù)訓(xùn)練模型,而ST-GCN加載的是基于Kinetics-400數(shù)據(jù)集上的公開(kāi)預(yù)訓(xùn)練模型.本文方法的準(zhǔn)確度為89.04%,優(yōu)于C3D方法的結(jié)果.

表8 基于模擬課堂視頻數(shù)據(jù)集的不同方法性能比較
1) 方法對(duì)比
與R(2+1)D、C3D等卷積神經(jīng)網(wǎng)絡(luò)方法相比,在數(shù)據(jù)集的數(shù)量充足且類(lèi)別均衡的情況下,基于教師骨架點(diǎn)信息序列的時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)方法在教師教學(xué)行為檢測(cè)上的表現(xiàn)要優(yōu)于基于RGB視頻幀序列的R(2+1)D、C3D等方法.這主要是因?yàn)榻處煹慕虒W(xué)行為通過(guò)骨架點(diǎn)信息進(jìn)行表征,更不容易受到背景因素的影響,且不過(guò)于依賴(lài)教學(xué)視頻的畫(huà)質(zhì)清晰度,適當(dāng)?shù)那逦燃纯蓽?zhǔn)確提取出教師的骨骼骨架點(diǎn)信息.
ST-GCN的模型權(quán)重文件更加輕量化,這意味著整個(gè)網(wǎng)絡(luò)的權(quán)重參數(shù)在任意規(guī)模的數(shù)據(jù)集都能夠進(jìn)行充分地學(xué)習(xí),不會(huì)過(guò)度依賴(lài)大規(guī)模數(shù)據(jù)集,而基于卷積網(wǎng)絡(luò)的R(2+1)D、C3D網(wǎng)絡(luò)模型參數(shù)更多,且更加依賴(lài)大型數(shù)據(jù)集,因此本研究所使用的ST-GCN方法訓(xùn)練難度更低.此外,本文方法不需要進(jìn)行視頻幀的尺寸縮放和關(guān)鍵幀的抽取,更加方便快捷.
2) 類(lèi)別精度分析
從第四節(jié)的實(shí)驗(yàn)結(jié)果分析中可知,說(shuō)明性行為識(shí)別準(zhǔn)確度過(guò)高意味著該類(lèi)別訓(xùn)練集與測(cè)試集的行為動(dòng)作存在高度相似性,因而產(chǎn)生了一定程度的過(guò)擬合現(xiàn)象.識(shí)別準(zhǔn)確率最為穩(wěn)定并且準(zhǔn)確度較高的是工具性行為,主要是因?yàn)榻處熢谶M(jìn)行板書(shū)書(shū)寫(xiě)時(shí)的相似程度最高,且與其他類(lèi)別行為顯著不同.指示性行為與會(huì)意性行為中的示意學(xué)生起立或坐下存在一定相似性,因而存在一定程度的混淆.評(píng)價(jià)性行為一般表現(xiàn)為教師的鼓掌動(dòng)作,受限于樣本數(shù)量和動(dòng)作角度問(wèn)題因而識(shí)別準(zhǔn)確度較低.適應(yīng)性行為通常表現(xiàn)為教師在上課或者巡視時(shí)的小幅度身體晃動(dòng)與肢體動(dòng)作,并且該類(lèi)別的樣本數(shù)量較多,識(shí)別效果較為理想.
3) 本文方法的局限性
本文方法包括教師骨架點(diǎn)信息提取、數(shù)據(jù)格式轉(zhuǎn)換與數(shù)量劃分和行為識(shí)別三個(gè)步驟,行為識(shí)別效果容易受到拍攝角度和肢體動(dòng)作幅度以及持續(xù)時(shí)間的影響,存在一定的識(shí)別錯(cuò)誤情況,如圖8所示,雖然能夠準(zhǔn)確聚焦到教師的骨架點(diǎn),但是身體角度致使評(píng)價(jià)性行為錯(cuò)誤識(shí)別為會(huì)意性行為.

圖8 教學(xué)行為識(shí)別錯(cuò)誤情況Fig.8 Errors in teaching action recognition
本文提出了一種基于骨架點(diǎn)信息的時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)教師課堂教學(xué)行為識(shí)別方法,并進(jìn)行了相關(guān)實(shí)驗(yàn)探究其有效性.在該方法中,首先利用OpenPose算法對(duì)視頻中的教師骨架點(diǎn)信息進(jìn)行逐幀提取,通過(guò)格式轉(zhuǎn)換后送入到ST-GCN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而生成專(zhuān)用于教師的課堂教學(xué)行為智能識(shí)別模型,并人工構(gòu)建了兩組數(shù)據(jù)集驗(yàn)證了本文方法的可行性和有效性.通過(guò)具體實(shí)驗(yàn)探究類(lèi)別分布調(diào)整、不同類(lèi)別、是否使用遷移學(xué)習(xí)方式等因素對(duì)ST-GCN網(wǎng)絡(luò)的分類(lèi)性能影響,在不同方法的性能對(duì)比實(shí)驗(yàn)后證明基于骨骼骨架點(diǎn)信息進(jìn)行教學(xué)行為識(shí)別的ST-GCN方法擁有良好性能.
但是,當(dāng)前數(shù)據(jù)集的行為編碼表并不能涵蓋教師在真實(shí)課堂教學(xué)活動(dòng)中的所有行為,如教師的手勢(shì)動(dòng)作,因而擴(kuò)充教師行為編碼系統(tǒng)中的類(lèi)別將是后續(xù)研究的重要內(nèi)容.另一方面本研究制作的數(shù)據(jù)集為小樣本量類(lèi)型,數(shù)據(jù)量越大則越能帶給模型更強(qiáng)的魯棒性,因而后續(xù)研究將在此數(shù)據(jù)集基礎(chǔ)上對(duì)數(shù)量和類(lèi)別進(jìn)行更大規(guī)模的擴(kuò)充.