李柏翰 衣俊峰 李欣蔚 王支勇 魏艷濤





摘要:隨著人工智能技術(shù)在教育領(lǐng)域的不斷交叉融合,校園信息化和網(wǎng)絡(luò)化逐漸由數(shù)字化轉(zhuǎn)向智能化。通過(guò)機(jī)器自動(dòng)識(shí)別學(xué)生的課堂行為活動(dòng)可幫助教師高效精準(zhǔn)地獲取學(xué)生課堂狀態(tài),并進(jìn)行科學(xué)分析。近年來(lái),高中生由長(zhǎng)期不良坐姿導(dǎo)致的脊柱側(cè)彎和近視比例不斷攀升,對(duì)青少年的身體健康產(chǎn)生巨大的威脅。本文通過(guò)深度學(xué)習(xí)技術(shù)對(duì)深圳某高中采集的225名學(xué)生的9種正確及不良坐姿的圖片數(shù)據(jù)進(jìn)行處理和模型訓(xùn)練,分別使用Densenet和Xception網(wǎng)絡(luò)獲得7種坐姿80%以上的準(zhǔn)確率,并將其用于學(xué)生課堂狀態(tài)識(shí)別,有效助力學(xué)生課堂坐姿的提醒。
關(guān)鍵詞:深度學(xué)習(xí);智慧校園;計(jì)算機(jī)視覺(jué);行為識(shí)別
中圖分類號(hào):G434? 文獻(xiàn)標(biāo)識(shí)碼:A? 論文編號(hào):1674-2117(2022)06-0000-04
● 引言
課堂行為識(shí)別是教學(xué)領(lǐng)域的重要基本活動(dòng),在人工智能教育的應(yīng)用中,計(jì)算機(jī)視覺(jué)與課堂場(chǎng)景相結(jié)合對(duì)于智慧校園的信息化和網(wǎng)絡(luò)化建設(shè)具有較大應(yīng)用價(jià)值。該技術(shù)的應(yīng)用一方面可以改善傳統(tǒng)課堂和錄播系統(tǒng)需要消耗教師大量精力進(jìn)行觀察的問(wèn)題,減輕評(píng)課負(fù)擔(dān),有利于教師教學(xué)方法和教學(xué)策略的改進(jìn)和調(diào)整,另一方面也便于學(xué)生對(duì)自己課上行為和學(xué)習(xí)狀態(tài)有更深入的了解并及時(shí)反思,有效提高中小學(xué)課堂的教學(xué)質(zhì)量水平。[1-3]
據(jù)統(tǒng)計(jì),截至2019年3月,深圳市高中階段青少年脊柱側(cè)彎比例高達(dá)5%,近視比例為82%,而且有不斷升高趨勢(shì)。脊柱側(cè)彎和近視多由坐姿不良導(dǎo)致,因此,針對(duì)處于生長(zhǎng)發(fā)育關(guān)鍵時(shí)期的高中生每天維持長(zhǎng)達(dá)8~11個(gè)小時(shí)的久坐的現(xiàn)象,采集常見(jiàn)課堂學(xué)生姿態(tài)數(shù)據(jù),利用深度學(xué)習(xí)相關(guān)算法對(duì)高中生的坐姿進(jìn)行有效區(qū)分,實(shí)現(xiàn)對(duì)坐姿的監(jiān)控識(shí)別具有非常重要的現(xiàn)實(shí)意義,此技術(shù)的應(yīng)用可為有效避免學(xué)生坐姿不良而導(dǎo)致的骨骼和視力問(wèn)題提供有力的支持。
● 數(shù)據(jù)采集和標(biāo)注
1.數(shù)據(jù)采集
根據(jù)學(xué)生常見(jiàn)的正確及不良坐姿,以及頸椎、腰椎及腿部等不同形態(tài)的組合,將坐姿做如下幾種形態(tài)分類:①正面寫作業(yè)坐直。②手撐著頭向一邊斜(不分左右)。③駝背(正面)。④駝背(側(cè)面)。⑤蹺二郎腿(側(cè)面)。⑥蹺二郎腿(正面)。⑦正面坐直。⑧玩手機(jī)。⑨向一側(cè)趴著(不分左右)。因教室桌椅排布有部分遮擋,本文最終采用單個(gè)人擺拍的方式進(jìn)行數(shù)據(jù)采集。同時(shí),為了避免背景對(duì)識(shí)別效果的影響,場(chǎng)景選擇背景單一的教學(xué)樓墻壁前光線強(qiáng)弱明暗度一致的時(shí)刻進(jìn)行拍攝,目的是使采集的數(shù)據(jù)有相同的外部條件。
經(jīng)過(guò)篩選共采集了深圳某高中高一年級(jí)225名學(xué)生的9類行為共計(jì)2025張坐姿圖片,將采集的圖片分類后進(jìn)行數(shù)據(jù)預(yù)處理,使用旋轉(zhuǎn)、放大、剪切、空間顏色變化等方式對(duì)訓(xùn)練集進(jìn)行增強(qiáng)處理,按照1∶9的比例生成最終圖片,數(shù)據(jù)增強(qiáng)后,訓(xùn)練集約有18225張圖片,圖片格式為JPG。
2.數(shù)據(jù)標(biāo)注
使用Labellmg軟件對(duì)圖片進(jìn)行標(biāo)注,對(duì)相應(yīng)圖片里的目標(biāo)學(xué)生進(jìn)行圖框標(biāo)記,便于后續(xù)算法模型的學(xué)習(xí)。所標(biāo)范圍應(yīng)盡可能包含有效數(shù)據(jù),避免噪音數(shù)據(jù)對(duì)于結(jié)果的影響,圖片的存儲(chǔ)格式為xml。
● 模型算法
1.YOLO_v3檢測(cè)算法
用于目標(biāo)檢測(cè)算法常用的有兩種:①Faster-CNN算法。該算法分為特征學(xué)習(xí)和分類兩部分,運(yùn)算速度較慢,但是結(jié)果準(zhǔn)確率較高。②基于YOLO框架的目標(biāo)檢測(cè)算法。該算法采用全自動(dòng)端到端的方式實(shí)現(xiàn),速度快精度高,使用范圍較為廣泛。本文采用YOLO_v3版本進(jìn)行實(shí)驗(yàn)。
YOLO目標(biāo)檢測(cè)算法是通過(guò)卷積神經(jīng)網(wǎng)絡(luò)將圖像進(jìn)行網(wǎng)格劃分特征提取,圖像被分割成S×S個(gè)不同區(qū)域,針對(duì)網(wǎng)格中心落在具體的位置預(yù)測(cè)邊界框、置信度和類別。該算法包含53個(gè)卷積層,可以提取深層次的圖像特征,并使用不同尺寸預(yù)選框的Anchors boxes機(jī)制采集相同網(wǎng)格的特征,根據(jù)預(yù)測(cè)邊框與真實(shí)值的交并結(jié)合置信度選取預(yù)選框采集圖像特征。根據(jù)具體的應(yīng)用場(chǎng)景選取合適的數(shù)據(jù)集、合理的網(wǎng)格分布和參數(shù)訓(xùn)練策略。筆者就網(wǎng)絡(luò)中的核心部分做進(jìn)一步概述。
①IOU:IOU的值用來(lái)衡量?jī)蓚€(gè)邊界框之間重疊部分的相對(duì)大小,假如有兩個(gè)邊界框,它們重疊部分的大小除以它們總面積的值就是其IOU的大小。IOU的值越大,該預(yù)測(cè)邊界的準(zhǔn)確度就越高,一般以0.5作為其閾值。
②Bounding box:Bounding box用來(lái)幫助機(jī)器判斷一個(gè)網(wǎng)格單元中是否含有待檢測(cè)的物體。它包含5個(gè)值:X、Y、W、H和置信度。Bounding box的中心坐標(biāo)用X和Y表示,W和H的乘積表示預(yù)測(cè)邊框的大小,置信度值則表示預(yù)測(cè)的box和正確的標(biāo)注數(shù)據(jù)的IOU值,也就是該預(yù)測(cè)的準(zhǔn)確度,一般選擇有最大置信度值的Bounding box來(lái)預(yù)測(cè)這個(gè)物體。
③實(shí)現(xiàn)YOLO_v3算法的核心方式是將圖像用三種大小不同的網(wǎng)格進(jìn)行劃分(分別是13*13,26*26,52*52),然后對(duì)輸入圖像的特征進(jìn)行提取,得到其feature map。例如52*52,就是將圖像劃分成52*52個(gè)網(wǎng)格單元。每個(gè)單元網(wǎng)格里都有多個(gè)Bounding box,假如某個(gè)網(wǎng)格單元里擁有正確的標(biāo)注數(shù)據(jù)中某個(gè)物體的坐標(biāo),那么該網(wǎng)格單元就會(huì)起到預(yù)測(cè)這個(gè)物體的作用。[4]實(shí)驗(yàn)所用YOLO程序部分代碼如圖1所示。
2.分類算法的選擇
本研究使用遷移學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行分類訓(xùn)練,選用Densenet和Xception網(wǎng)絡(luò)分別測(cè)試,通過(guò)修改學(xué)習(xí)率(learning rate)和batch_size探討主要參數(shù)對(duì)識(shí)別性能、運(yùn)行時(shí)間的影響。
(1)Densenet算法
Densenet與Resnet的思路較為類似,Resnet在傳統(tǒng)的卷積層間增加了旁路連接,梯度流經(jīng)恒等函數(shù)到達(dá)更前層。而Densenet的區(qū)別是該網(wǎng)絡(luò)前后層連接的密集程度比較高,前面全部層的輸出都作為后續(xù)層的輸入,即dense block的設(shè)計(jì),每一層輸出的feature map都小于100。這種連接方式使梯度和特征的傳遞效率大大提高,參數(shù)的數(shù)量也在一定程度上更加輕量化。另外,因?yàn)閷訑?shù)較多使層與層之間的關(guān)聯(lián)性減弱,Densenet將每一層的損失與輸入直接連接起來(lái),從而緩解了梯度消失的現(xiàn)象。[5]
(2)Xception算法
Xception是Google繼Inception后提出的對(duì)Inception_v3的另一種改進(jìn)版本,后者的核心思想是通過(guò)多尺寸的卷積核對(duì)輸入數(shù)據(jù)進(jìn)行卷積運(yùn)算,卷積核的排布是1×1的卷積核連接多層并列的3×3卷積核運(yùn)算,此運(yùn)算方式可以大大降低卷積運(yùn)算的計(jì)算量。而Xception在Inception的基礎(chǔ)上采用了depthwise separable convolution運(yùn)算模式,即將一個(gè)卷積層分裂為兩個(gè)關(guān)聯(lián)的卷積運(yùn)算,第一個(gè)卷積層的filter與輸入的channel進(jìn)行映射卷積,第二個(gè)卷積層則只負(fù)責(zé)對(duì)前面的結(jié)果進(jìn)行合并,此種模式計(jì)算量根據(jù)乘法原理使運(yùn)行效率大大提高。[6]
● 實(shí)驗(yàn)與結(jié)果分析
1.實(shí)驗(yàn)環(huán)境
深度學(xué)習(xí)的模型訓(xùn)練量較大,需要高性能的專門處理圖像數(shù)據(jù)的GPU服務(wù)器作為支撐,本文所需的實(shí)驗(yàn)環(huán)境如表1所示。
2.實(shí)驗(yàn)結(jié)果分析
本文使用不同的深度學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行模型計(jì)算,采用控制變量法對(duì)參數(shù)進(jìn)行不同的設(shè)置,對(duì)比不同的參數(shù)和算法模型所得出準(zhǔn)確率、運(yùn)算時(shí)間等輸出量?jī)?yōu)劣。
①分別測(cè)試不同算法模型的下的學(xué)習(xí)率和batch_size的最佳值。
首先在batch_size=16時(shí),分別運(yùn)行出Xception和Densenet在學(xué)習(xí)率為0.00001,0.0001,0.001,0.005時(shí)的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖2所示。
由此可知,在學(xué)習(xí)率為0.0001時(shí),算法的準(zhǔn)確率較高,因此筆者在學(xué)習(xí)率(learning rate)=0.0001時(shí)分別進(jìn)行了batch_size=4,8,16,24, 32的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。
由圖3可知,隨著batch_size數(shù)值的不斷增加,算法的準(zhǔn)確率也隨之下降,從準(zhǔn)確率的角度來(lái)看,在batch_size=4時(shí)有最高的準(zhǔn)確率,但是訓(xùn)練時(shí)間比較長(zhǎng)(如表2)。所以從訓(xùn)練時(shí)間長(zhǎng)短和準(zhǔn)確率綜合來(lái)看,batch_size=16更占優(yōu)勢(shì)。
根據(jù)上述數(shù)據(jù)分析可得:在學(xué)習(xí)率=0.00001,0.001,0.005,batch_size=16時(shí),xception的準(zhǔn)確率都高于Densenet的對(duì)應(yīng)值,但在學(xué)習(xí)率=0.0001,batch_size=4,16,24,32時(shí),Densenet的準(zhǔn)確率高于Xception。因?yàn)檫x取的參數(shù)為L(zhǎng)earing rate=0.0001,batch_size=16,在這種參數(shù)下Densenet的準(zhǔn)確率更優(yōu),所以筆者最終選擇了Densenet網(wǎng)絡(luò)。
②不同坐姿在不同學(xué)習(xí)率和batch_size下各自的準(zhǔn)確率。
由于各個(gè)動(dòng)作姿勢(shì)和角度的不同,不同的坐姿在相同的參數(shù)下會(huì)有不同的準(zhǔn)確率,為了更好地掌握各個(gè)坐姿識(shí)別準(zhǔn)確率的反饋狀況,還要進(jìn)行細(xì)化不同坐姿的學(xué)習(xí)率測(cè)試,根據(jù)前面的數(shù)據(jù),將batch_size設(shè)定為16。
根據(jù)實(shí)驗(yàn)結(jié)果,在學(xué)習(xí)率=0.0001,batch_size=16時(shí),“寫作業(yè)駝背”的準(zhǔn)確率為66.7%,“側(cè)面翹二郎腿”的準(zhǔn)確率為56%,其余動(dòng)作的識(shí)別均能達(dá)到80%及以上的準(zhǔn)確率,滿足后期進(jìn)行數(shù)據(jù)融合的前期要求。
③數(shù)據(jù)融合后的圖片的效果檢測(cè)。
通過(guò)融合算法將YOLO_v3和Xception、Densenet分別進(jìn)行功能整合,即YOLO算法識(shí)別學(xué)生在圖片中不同坐姿的位置,并將其進(jìn)行標(biāo)注,Xception和Densenet對(duì)識(shí)別的坐姿進(jìn)行分類,從而判斷坐姿所屬的種類,Xception模型融合的效果,及具體的坐姿會(huì)標(biāo)注在圖框的左上角,實(shí)時(shí)反饋圖片的分類結(jié)果。
● 結(jié)論與展望
本文主要運(yùn)用深度學(xué)習(xí)技術(shù)識(shí)別課堂上學(xué)生的不良坐姿。其中,對(duì)坐正、用手撐著頭向一邊傾斜、駝背(分正側(cè)面)、趴向一側(cè)寫作業(yè)、蹺二郎腿(分正側(cè)面)以及玩手機(jī)等9個(gè)動(dòng)作進(jìn)行識(shí)別和分類,使用融合算法將YOLO_v3和Xception、Densenet分別進(jìn)行關(guān)聯(lián),從而達(dá)到7個(gè)種類的測(cè)試集80%的識(shí)別效果。實(shí)驗(yàn)不足之處:①數(shù)據(jù)樣本量采集渠道單一,可以拍攝更多種類圖片進(jìn)行訓(xùn)練,結(jié)合視頻動(dòng)態(tài)圖像進(jìn)行課堂行為分析,進(jìn)一步增加數(shù)據(jù)的覆蓋范圍及準(zhǔn)確率。②算法模型上采用遷移學(xué)習(xí)的策略,算法可以進(jìn)行更多嘗試和調(diào)試。
對(duì)學(xué)生在課堂上導(dǎo)致脊柱側(cè)彎和近視的不良坐姿的發(fā)現(xiàn),早期預(yù)防能夠更好地糾正與治療,希望基于深度學(xué)習(xí)技術(shù)的應(yīng)用及時(shí)地對(duì)坐姿不良的學(xué)生進(jìn)行干預(yù)。還可以結(jié)合課堂監(jiān)控、手環(huán)及手機(jī)APP對(duì)學(xué)生的課堂狀態(tài)進(jìn)行觀察、數(shù)據(jù)收集和分析全方位預(yù)防脊柱側(cè)彎、近視等疾病的蔓延。
參考文獻(xiàn):
[1]秦道影.基于深度學(xué)習(xí)的學(xué)生課堂行為識(shí)別[D].武漢:華中師范大學(xué),2019.
[2]何秀玲,楊凡,陳增照,等.基于人體骨架和深度學(xué)習(xí)的學(xué)生課堂行為識(shí)別[J].現(xiàn)代教育技術(shù),2020,30(11):8.
[3]劉新運(yùn),葉時(shí)平,張登輝.改進(jìn)的多目標(biāo)回歸學(xué)生課堂行為檢測(cè)方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(09):6.
[4]Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[C].Computer Vision & Pattern Recognition. IEEE,2016.
[5]Huang G,Liu Z,Laurens V,et al.Densely Connected Convolutional Networks[J].IEEE Computer Society,2016.
[6]William Byers.Deep Learning:What Mathematics Can Teach Us About the Mind [M].Singapore:World Scientific,2014.
本文是廣東省教育技術(shù)中心2020年度教育信息化應(yīng)用融合創(chuàng)新青年課題(課題立項(xiàng)號(hào):20JX07037)的研究成果。