柯斌 楊思林 曾睿 代飛 強振平



摘要:隨著人工智能和深度學習在教育領域的交叉融合,行為識別技術為學生課堂行為觀察提供了一種有別于傳統的新方法。以云南省X高校課堂視頻為基礎,經過預處理,獲得六大類行為(聽課、看書、書寫、拍照、低頭玩手機、桌面玩手機)30000張圖像樣本,運用Inception V3算法模型進行了研究,實驗結果:六大類行為總識別率達到88.10%,但各個行為識別率有所不同,其中“拍照”和“聽課”識別率較高。通過進一步的混淆矩陣分析,得到結論:模型對動作姿態單一的行為特征提取效果較好,但模型對手機、筆、課本等重要用具不夠重視,不能識別書寫動作和眼神角度,導致“看書”“書寫”“低頭玩手機”和“桌面玩手機”行為因人體動作姿態相似容易混淆。
關鍵詞:Inception V3;深度學習;學生課堂行為;行為識別
中圖分類號:TP391.41? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)06-0013-03
Abstract: With the cross-integration of AI and deep learning in the field of education, action recognition provides a new method for student classroom behavior observation, which is different from traditional method.Based on classroom video in X university of Yunnan province, this paper collects the original data by shooting students' class video.After preprocessing, the dataset of 30000 samples of six categories of behavior (watch, read, note, picture, eye-down, phone-desk) are obtained. And finally, action recognition of classroom behavior is preliminarily studied by using Inception V3 CNN model. Result: the total recognition rate of six categories of behavior is 88.10%, but the recognition rate of each behavior is different, "picture" and "watch" behavior are higher, other behavior are lower. Through further analysis of confusion matrix and error recognition samples, conclusion is drawn: The model has a higher recognition rate of simple action posture, behavior features extracted from deep learning are better. However, the model does not attach enough importance to the important props like phone, pen and book, it also can not recognize the "writing action" and "eye angle" very well, which leads to the confusion of "read", "note","eye-down", and "phone-desk" because of the similarity of action posture.
Key words:Inception V3;Deep Learning; Student Classroom Behavior; Action Recognition
課堂觀察最早是由Flanders提出的對課堂教學進行觀察和研究的基礎方法,通過它可以評價教師的教育理念和教學效果,同時結合學生的課堂學習表現情況進行有針對性的反饋和改進[1],因此課堂觀察不僅可以提高教師的教學能力,也可以提高學生的學習效果。而傳統的學生課堂行為是通過教師對學生進行人工課堂觀察來實現,由于種種原因,效果并不理想,在實際中并沒有發揮它應有的作用。隨著人工智能和深度學習的快速發展,行為識別技術為學生課堂行為觀察提供了一種新的可能性。深度學習通過大量的樣本訓練,學習并提取學生課堂行為的視覺特征,最終形成特征模型,后期通過軟件平臺實現學生課堂行為這一教學過程數據的挖掘利用[2-3]:教學過程監測;教學策略調整;學生成績預測[4-6],問題學生診斷及預警干涉[7];教師教學評估等等。可見學生課堂行為在智慧教育、個性化教育等方面都具有重要的現實意義。研究以云南省X高校的學生上課視頻為原始數據,運用Inception V3卷積神經網絡模型對學生課堂行為識別進行了研究,并根據實驗結果結論提出了幾個后繼研究方向。
1數據采集、預處理和標注
1.1視頻采集
學生課堂行為數據來源于高校學生上課視頻,在階梯教室共拍攝26課時,統一使用SONY NEX-FS700CK高清攝像機1920×1080分辨率拍攝。拍攝時,采用三腳架高角度固定構圖拍攝以便采集到更好的方便預處理的視頻。
1.2 數據預處理
數據預處理包括視頻編輯、圖像序列抽幀、樣本摳圖三個步驟:(1)視頻編輯,對原始視頻進行后期剪輯,剪去課前課后和課中休息的與正常教學無關的廢鏡頭,最終導出25幀/秒的MPEG視頻文件;(2)圖像序列抽幀,實驗使用2秒1幀的頻率對視頻進行采樣抽幀;(3)樣本摳圖,實驗使用PHOTOSHOP對圖像序列進行自動批處理裁剪得到單個學生樣本,摳圖基本原則是學生個體不能有前景遮擋且背景盡量不要出現其他學生的臉部。
1.3學生課堂行為分類與標注
在進行樣本訓練前,應把所有樣本進行初步分類,找出典型的值得研究的學生課堂行為。與中小學生不同,大學生的課堂行為較隨意也更加多樣化,在分類過程中,發現當代大學生喜歡用手機拍課件,這種課堂行為雖然發生次數不多且持續時間不長但是很普遍,嚴格來講它屬于學習行為,是記筆記的一種形式,和往常“手機在課堂中起負面作用”的印象是相反的,可見手機作為一種出現在課堂中的“道具”具有兩面性,研究也把這個典型的課堂行為納入其中。然后對非典型的課堂行為(如喝水、打哈欠等)和樣本數量較少的課堂行為(如睡覺、舉手等)進行二次清理,最終根據學生課堂行為姿態特征分為6大類(聽課、看書、書寫、拍照、低頭玩手機、桌面玩手機),具體行為姿態畫面特征如表1所示。
分類完成后經過人工標注,最終得到六大類學生課堂行為樣本總共30000張,其中“聽課”10870張,“看書”2480張,“書寫”8310張,“拍照”580張,“低頭玩手機”4220張,“桌面玩手機”3540張,各種行為比列基本符合高校課堂實際情況,其中學生A的課堂行為樣本如圖1所示。
2算法模型與實驗結果
2.1 Inception V3算法模型
深度學習Deep Learning,源于人工神經網絡,通過模仿人類大腦的思維方式以及神經網絡的接收反饋方式進行計算機模擬學習,是人工智能領域最具有發展前景的一個分支。卷積神經網絡Convolutional Neural Networks,簡稱CNN,是深度學習領域的代表算法和引領者,CNN模型由輸入層、核心部分、輸出層組成,而核心部分由卷積層、池化層和全連接層組成。如圖2所示,在樣本訓練時,CNN一般通過3x3卷積核對224x224x3圖像進行卷積操作生成特征圖,通常在比較淺的卷積層中,卷積操作可以提取到比較細節的特征,在比較深的卷積層中,卷積操作把之前提取到的細節特征進行組合和二次提取,得到更高級、抽象的特征,最終在多神經元組成的全連接層中得到特征矩陣;在樣本測試時,經過卷積操作和特征矩陣計算最終在SOFTMAX多分類器中輸出結果,數值最大的即是識別結果。實驗使用GoogLeNet的Inception V3模型,其網絡結構共有22層,模型對圖像進行1x3和3x1非對稱多尺度并行卷積處理,將多個不同尺度的卷積核,池化層進行整合,形成一個Inception module模塊,這種機制帶來的一個好處是大幅度減少了參數數量,并且使得網絡深度進一步提升的同時還增加了非線性表達能力。
2.2實驗結果
實驗使用Anaconda運行環境平臺,Tensorflow深度學習框架,系統運行環境如下:WIN7 64位操作系統;CPU Intel(R) Core(TM) i7-6800K,3.40GHz;DDR4內存16G;250G固態硬盤;2T機械硬盤;顯卡AMD Radeon(TM) RX 460 Graphics,4G顯存。
實驗把標注好的數據集按照9:1比例劃分,90%樣本數據作為訓練數據(27000張),10%樣本數據作為測試集(3000張)。另外,為了分析訓練集樣本數量對各種行為測試識別率的影響規律,實驗測試集Testset(3000張)始終不變,把27000張訓練樣本再劃分為5個訓練集依次進行訓練和測試,如表2所示,是數據集劃分和最終訓練測試數據,結果表明:訓練集的樣本數量對測試結果是有影響的,在Trainset1和Trainset3區間,隨著訓練樣本數量的增加,總識別率得到大幅提升,由78.80%上升到87.70%,說明此區間深度學習效果較好;在Trainset3和Trainset5區間,雖然訓練樣本數量的成比例增加,但是總識別率只有微幅提升和波動,最終達到88.10%,說明此區間訓練樣本數量對深度學習效果影響不大,接近于收斂狀態。
如圖3所示,是各類行為識別率趨勢圖,六類行為總結分析如下:(1)watch,識別率整體高于92%,比較穩定,隨著訓練樣本數量的增加,識別率小幅提升后微幅波動,最終達到95.73%,說明深度學習特征提取比較理想;(2)read,識別率整體較低,隨著訓練樣本數量的增加,識別率大幅提升,由18.24%最終上升到75.88%,說明深度學習特征提取還不夠好;(3)note,識別率整體較低,比較穩定,隨著訓練樣本數量的增加,識別率在波動中小幅提升,最終達到71.29%,說明深度學習特征提取不夠好;(4)picture,識別率整體高于96%,也比較穩定,隨著訓練樣本數量的增加,識別率微幅波動后最終達到97.37%,說明深度學習特征提取比較理想;(5)eye-down,識別率整體不穩定,隨著訓練樣本數量的增加,識別率在波動中提升后反而大幅下降,最終達到76.36%,說明深度學習特征提取不穩定,可能是因為eye-down與其他行為的人體動作姿態相似容易造成混淆;(6)phone-desk,識別率整體一般,隨著訓練樣本數量的增加,識別率在大幅提升后小幅下降,最終達到80.93%,說明深度學習特征提取不夠理想。
3實驗評估與分析
如表3所示,是Test5測試結果數據的混淆矩陣,針對6類行為對Trainset5訓練模型評估如下:(1)模型對watch的識別率高達95.73%,效果較好,容易誤判為read占比2.99%;(2)模型對read的識別率75.88%較低,容易誤判為phone-desk占比11.76%,read和phone-desk行為人體姿態的確有很大相似之處容易造成混淆,都是小角度低頭看桌面,僅僅從人體姿態來識別確實困難,兩者不同的地方在于,read是看書,而phone-desk是看桌面上的手機,說明模型并沒有完全提取到read和phone-desk的關鍵物品特征;(3)模型對note的識別率71.29%也較低,容易誤判為watch占比13.23%和phone-desk占比11.61%,note和phone-desk行為人體姿態也有很大相似之處,都是小角度低頭看桌面,兩者不同的地方在于手勢,note是拿筆進行書寫動作,而phone-desk是操作桌面上的手機;(4)模型對picture的識別率高達97.37%,其余全部誤判為watch;(5)模型對eye-down的識別率76.36%較低,容易誤判為read占比23.18%,eye-down和read行為人體姿態有相似之處,都是低頭看下面,關鍵區別在于低頭角度,eye-down更低一些,幾乎垂直地面大角度低頭看桌面下的手機,而read是小角度低頭看桌面上的書本,說明模型沒有提取到兩者的關鍵細微特征,行為識別不夠細膩;(6)模型對phone-desk的識別率80.93%,容易誤判為note占比15.37%,phone-desk和note的關鍵區別在于操作手機和書寫動作,而且兩者的手勢有相似之處,并且phone-desk畫面中手機具有一定的隱蔽性,增加了識別難度。
總體來說,訓練模型可以較好地識別picture和watch兩種人體姿態畫面特征簡單明顯的行為,而對于姿態畫面特征較相似較復雜的read、note、eye-down、phone-desk行為,存在普遍的混淆現象,模型的識別能力不夠理想。
4 總結和展望
由于實驗條件和樣本數量有限,六大類學生課堂行為最終識別率只達到88.10%,仍然需要提升才能進入最終的應用軟件研發階段,而后繼研究工作可以在以下幾個方面進行突破和深入:(1)目標檢測,從實驗結果結論可以看出,“手機”“筆”和“課本”等重要課堂用具對學生課堂行為的識別具有重要的作用,甚至可以說這些課堂用具是某些行為的關鍵特征,是區別于其他行為的重要標志,picture和phone-desk必須有“手機”,note必須有“筆”,read必須有“課本”,因此關鍵物體的目標檢測[8]具有很好的輔助作用;(2)運動檢測,幀差法[9]通過計算代表“手”和“筆”這部分像素在圖像序列或前后圖像幀中是否有位移變化來識別是否有“書寫動作”,適合于運動檢測,可以通過它識別出“手”和“筆”是否真的在進行“書寫動作”,只有存在“書寫動作”才能判斷是note行為,否則有可能是學生手上拿著筆(沒有書寫動作)卻在“看黑板”或“看書”甚至“桌面上玩手機”;(3)眼神識別,眼神通常代表了學生的心理活動和注意力,是判斷課堂行為的重要依據,眼神識別或頭部姿態識別是六類行為的重要區分之一,read和eye-down行為姿態特征幾乎相同,兩者非常容易混淆,一個目視桌面書本,一個目視桌子下面,唯一的區別就在于眼神角度不同;(4)手勢識別,手勢在一定程度上也代表學生的注意力,note和phone-desk的重要區別就在于手勢動作,因此手勢識別的輔助可以提升模型區分note和phone-desk的能力。
總之,學生課堂行為識別不同于一般的圖像識別,傳統的圖像識別只需要識別出某種物體即可,只要求學習到這個物體的關鍵共性特征,而行為識別要提取到人物或物體的行為姿態特征,難度大大提高。如果在關鍵物體目標檢測、運動檢測、眼神識別、手勢識別等技術上實現突破,肯定會更容易識別學生課堂行為的關鍵動作姿態特征,最終提升整體識別率,加強算法模型的泛化能力,最終進入應用階段。
參考文獻:
[1] 方海光,高辰柱,陳佳.改進型弗蘭德斯互動分析系統及其應用[J].中國電化教育,2012(10):109-113.
[2] 陳德鑫,占袁圓,楊兵.深度學習技術在教育大數據挖掘領域的應用分析[J].電化教育研究,2019,40(2):68-76.
[3] 柯斌,蘆俊佳.智慧教育背景下高校學生課堂行為數據挖掘與利用[J].電腦知識與技術,2020,16(26):148-150.
[4] 王亮.學習分析技術 建立學習預測模型[J].實驗室研究與探索,2015,34(1):215-218,246.
[5] 牟智佳,武法提.教育大數據背景下學習結果預測研究的內容解析與設計取向[J].中國電化教育,2017(7):26-32.
[6] 丁夢美,吳敏華,尤佳鑫,等.基于學業成績預測的教學干預研究[J].中國遠程教育,2017(4):50-56.
[7] 范逸洲,汪瓊.學業成就與學業風險的預測——基于學習分析領域中預測指標的文獻綜述[J].中國遠程教育,2018(1):5-15,44,79.
[8] 尹宏鵬,陳波,柴毅,等.基于視覺的目標檢測與跟蹤綜述[J].自動化學報,2016,42(10):1466-1489.
[9] 高凱亮,覃團發,王逸之,等.一種基于幀差法與背景減法的運動目標檢測新方法[J].電訊技術,2011,51(10):86-91.
【通聯編輯:王力】