■ 陳 ,李會會,韓嘉彬,陶 鵬
(1.天津外國語大學,天津 300204;2.天津外國語大學濱海外事學院,天津 300207)
課堂是教學活動的主要場所,教學活動是主要的知識傳授渠道。學生積極的課堂行為是保證教學效果的必要條件。但是“很多本科生聽課不認真,出現的非聽課行為多種多樣”[1],“課堂消極行為是經常發生的,涉及的學生范圍較廣,具有普遍性”[2],影響了教學效果。
消極課堂行為是指不利于課堂教學活動正常開展的學生行為,如遲到、早退、曠課、玩手機、說話聊天等。學生的課堂消極行為又可細分為“顯性消極行為”和“隱性消極行為”。常培文[3]認為遲到、早退、曠課、聊天說話屬于學生的顯性消極課堂行為,認為上課玩手機、睡覺、走神、做其他作業等不易覺察的行為為隱性課堂行為。本文通過文獻分析,將大學生隱性消極課堂行為分為低頭行為(偷玩手機、做其他課程作業)、轉頭行為(注意力在黑板范圍以外物體)、偽聽課行為(走神、瞌睡)。低頭行為中,無論是偷玩手機還是做其他課程作業,主要表現為一段時間內低頭。轉頭行為表現為一段時間范圍內的轉頭及一定幅度的轉體。偽聽課行為中的走神,也叫白日夢現象,表現為睜眼但一段時間內沒有眨眼行為、頭部無運動行為。偽聽課行為中的瞌睡,主要表現為閉眼且伴隨頭部動作失控。
本研究將分析對象定為學生的隱性消極課堂行為。經實驗研究我們發現,面部、眼部朝向和眼部動作(表情)以及表情所持續時間與上述隱性行為能夠形成對應關系,如表1。

表1 隱性課堂行為與表情特征及持續時間關系
卷積神經網絡是目前深度學習技術領域中非常具有代表性的神經網絡之一,在圖像分析和處理領域取得了眾多突破性的進展,包括圖像特征提取分類、場景識別等。卷積神經網絡相較于傳統的圖像處理算法的優點之一在于避免了對圖像復雜的前期預處理過程尤其是人工參與圖像預處理過程,它可以直接輸入原始圖像進行工作。Lécun Y等人[4]認為,深度學習的一個重要模型為卷積神經網絡,它獨特的網絡結構可以讓一定程度的平移、縮放、扭曲具有高度不變性,圖像識別的性能良好。湯雙霞[5]運用人臉識別技術,采集學生的實時人臉圖像進行人臉識別,完成學生個體的專注度分析。廖鵬等人[6]采用卷積神經網絡VGG預訓練網絡模型遷移學習,提取學生課堂異常行為特征,實現對玩手機、睡覺等異常行為的檢測分析,但是未涉及到“做其他課程作業、走神”等兩項消極行為表現。
本研究利用卷積神經網絡圖像處理技術捕捉學生的隱性消極課堂行為,將行為心理學和圖像識別技術相結合,由人工智能算法準確判斷學生課堂行為,為教學評估提供了新的可靠高效方法,具有重要的研究意義和實踐價值。
本文利用高分辨率攝像頭分別采集每名學生的上課面部視頻圖像,利用卷積神經網(CNN)對每一幀面部視頻圖像上的面部和眼部進行識別,根據黑板的長度與寬度建立坐標系,再根據學生座位位于教室的位置,建立原坐標系向新坐標系的映射,根據眼部識別的寬度比判定面部是否具有轉向,再根據面部方向與坐標系的關系判定面部是否面向黑板范圍,最后根據眼部動作識別判定是否有低頭、眨眼以及眼部(視線)是否朝向黑板。

圖1 臉部及眼部坐標映射
利用卷積神經網絡對視頻圖像提取面部特征,找到雙眼位置和雙眼中心點位置;建立坐標系,設置對應坐標系的雙眼位置和雙眼中心點坐標;根據雙眼外側到雙眼中心點的距離長度比,來判斷面部是否有向左、向右轉動動作。根據實驗觀察低頭幅度較小時可視為長時間閉眼動作,低頭幅度較大時無法識別面部特征。

圖2 (a)

圖2 (b)

圖2 (c)
圖2(a)為雙側雙眼外側到雙眼中心點的距離長度比等長的情況可以判定為面部朝向正向;圖2(b)左側雙眼外側到雙眼中心點的距離長度小于右側長度,即長度比小于1則可以認為頭部左轉,同時調整坐標系映射,使新坐標系垂直于面部正向,從而實現由于座位的不同位置與黑板的多角度映射調整。根據長度比等與坐標系,可以判定面部朝向是否已超出坐標系所設定的范圍;圖3(a)為坐標系多角度映射,適用于坐位位于教室兩邊的面部朝向判定;圖3(b)為教室中部正向黑板座位位置,面部具有轉動的情況。該情況可以根據左側雙眼外側到雙眼中心點的距離長度與右側長度的比例判定其面部朝向和朝向范圍。在觀察中會出現圖2(c)的情況,在觀察狀態時左側距離雙眼外側到雙眼中心點的距離長度基本為0,長度比可認為等于0,但在實際卷積神經網絡特征提取識別時該情況基本無法提取面部和眼部特征,所以圖2(c)情況可視為無法識別面部特征類型。

圖3 (a)

圖3 (b)
映射坐標系的變換可以采用坐標變換公式,實現坐標系的旋轉、平移,對面部朝向的坐標系映射進行變換。根據幾何關系坐標系平移變換的公示為:

對于眼部朝向,通過神經網絡識別眼部瞳孔部位,如瞳孔位于眼部正中則判定為眼部朝向正向,即眼部朝向黑板范圍,反之則判定為眼部未朝向黑板范圍如圖4。在觀察時發現,眨眼和低頭時眼部狀態均為閉眼狀態如圖5,所以眨眼和低頭的判定均為閉眼狀態,由于眨眼的閉眼平均時長小于2秒,而低頭的平均時長遠大于2秒,則在具體實驗時可以2秒為界限,用持續時間長短判定閉眼狀態為眨眼或是低頭。

圖4 瞳孔是否朝正向

圖5 眨眼和低頭時眼部狀態均為閉眼狀態
本文選取了10名大學本科學生,其中男女各5名,從正面采集其上課時的面部視頻,其中課程時長30分鐘(中間無休)。根據學生位于教室的不同位置,其上課時面部及眼部動作,設計識別類型,并根據識別類型分別進行計時:
面部、眼部同時朝向黑板范圍——A類;
面部未朝向黑板范圍,眼部朝向黑板范圍——B類;
面部朝向黑板范圍,眼部未朝向黑板范圍——C類;
面部和眼部均未朝向黑板范圍(面部左右轉)——D類;
閉眼(眨眼或低頭)——E類;
無識別狀態(用書遮擋臉部、回頭、低頭幅度大、離座等)——F類。
為實現自動計時統計分別對各狀態類型賦值:A=50、B=40、C=30、D=20、E=10、F=0。從面部圖像采集到數據分析的流程如圖6所示。

圖6 實驗流程圖
實驗采用的攝像設備標準為高清IP網絡攝像機,500萬像素的逐行掃描CMOS圖像,傳感器清晰度1080P(1920*1080分辨率)全實時廣播級圖像,水平清晰度分別為1050TVL,邊緣清晰度為850TVL,設置每秒采集圖像幀數25fps。30分鐘無間斷拍攝可得到圖像45000,圖像間隔為0.04秒,設置的圖像時間間隔能夠滿足于臉部和眼部微表情的識別以及有效動作的時間統計,同時還能夠在保證訓練樣本數量的前提下盡可能減低工作樣本數量,提高神經網絡的執行效率。
在圖像中的面部由于座位位置的不同可能存在大小不一的問題,所以本文采取級聯卷積神經網絡(MTCNN)對人臉的存在進行檢測,將人臉區域檢測與人臉關鍵點檢測放在一起。MTCNN將三個卷積神經網絡的輸出和輸入相連,分為P-Net、R-Net和O-Net三層網絡。其中P-Net是一個全連接網絡,通過FCN對原始圖向進行像素級的分類,快速生成具有一定可信度的人臉候選窗口,并將結果輸入R-Net。R-Net舍去大部分的錯誤輸入,并再次使用邊框回歸和面部關鍵點定位器進行人臉區域的邊框回歸和關鍵點定位,最后將輸出較為可信的人臉區域,供O-Net使用。O-Net會通過更多的監督來識別面部的區域,而且會對人的面部特征點進行回歸,最終輸出各面部的五個特征點。
根據對每張圖像的類型識別結果,按照類型圖像數量統計出各類型持續的時長,如圖7所示,隨機選取的1minute各類型時長統計。對于每種臉部和眼部的動作類型出現的時間點及維持的時長,數據分析程序部分可以自動判斷學生是否處在課堂隱形消極行為當中,并可以準確地判斷消極行為的時長。

圖7 時長統計圖
通過對研究對象的觀察和訪談,根據觀察樣本的統計規律,能夠得出各表情特征及持續時間與學生隱性消極狀態對應的關系,按面部及眼部動作的識別類型分布如下:
(1)面部、眼部同時朝向黑板范圍即A類狀態持續時長超過1分鐘,無其他類型的動作介入的可視為走神狀態,對圖像統計處理的時候A類圖像超過一分鐘以后繼續持續的部分計時為走神消極隱性行為。
(2)面部未朝向黑板范圍,眼部朝向黑板范圍即B類狀態持續時長超過1分鐘,無其他類型的動作介入的可視為未聽講狀態。
(3)面部朝向黑板范圍,眼部未朝向黑板范圍即C類狀態持續時長超過1分鐘,無其他類型動作接入可以視為未聽講,關注其他事物狀態。
(4)面部和眼部均未朝向黑板范圍(面部左右轉)D類狀態持續時長超過1分鐘,無其他類型動作介入的可視為未聽講,關注其他事物狀態。
(5)由于眨眼和低頭在識別類型下都屬于閉眼狀態,所以統一都按照低頭的時長統計處理,如E狀態持續時長在2分鐘以內,有可能低頭記筆記或看課本,如果超過2分鐘即有可能低頭做課堂無關的事情,可能是看手機,也可能是看其他書籍、做其他科目作業或打瞌睡。
(6)如果該圖像無法識別臉部狀態,則有可能為書籍遮擋面部、回頭、低頭幅度過大或離座,以上全部歸到F狀態下,如果F狀態持續2分鐘以上,則認定為消極課堂行為。
本研究將人工智能算法成果運用到教學評估中,利用卷積神經網絡圖像處理技術自動輸出學生的隱性消極課堂行為數據,節省人力,提高效率,為大學生課堂行為檢測及管理提供支撐,為教學評估提供新的可靠方法,具有重要研究意義和實踐價值。