武法提,賴 松,高姝睿,李魯越,任偉祎
(1.北京師范大學 教育學部 教育技術學院,北京 100875;2.北京師范大學 數字學習與教育公共服務教育部工程研究中心,北京 100875)
隨著信息技術的發展,在線學習受到越來越多的關注,逐漸成為不可或缺的一種學習方式。與傳統的面對面學習不同,在線學習打破了時空界限,學習者可以隨時隨地開展學習,并能根據自身需求靈活選擇學習內容、合理規劃學習安排。盡管在線學習具有諸多優勢,但時空分離的學習方式使得教師實時監控學習者成為較大挑戰,學習者也因缺少監督及與教師和同伴的情感交流而出現難以專注于學習的情況,這會在很大程度上影響學習者對學習內容的記憶與加工,從而影響學習效果,因此在線學習的專注度問題亟需得到關注與探究。為了幫助學習者意識到在線學習時自身的專注狀態,并幫助教師及時了解學習者情況,以據此調整教學策略,探索有效的在線學習專注度評估方法顯得尤為重要。
傳統的學習專注度評估方式主要有兩類,一類是由教師通過觀察學習者的外部行為表現(如肢體語言、面部表情等)判斷其專注程度,另一類則是由學習者進行專注狀態的自我報告,這兩類方法均存在一定主觀性,且難以實現對專注度實時、動態的評估,無法滿足在線學習的評估要求。隨著數據采集技術的成熟,教與學過程變得透明化,大量學者對如何基于學習者數據實現專注度的自動分析進行了探究。其中,較為常見的一種方法便是假設學習者在處于不同的專注狀態時,會表現出不同的非語言行為,因此可使用攝像頭以非侵入的方式采集學習者的計算機視覺數據,從中提取相關特征,并通過不同的機器學習方法識別學習專注度,該類方法已取得了不錯的識別效果。目前,體現個體外在行為表現的計算機視覺數據得到廣泛關注,而反映學習者信息關注范圍的眼動數據卻少有用于專注度識別。先前研究已發現,眼球運動與人類的認知和大腦活動之間存在著密切聯系[1][2],可識別吸引學習者注意的內容和潛意識行為。由此眼動追蹤技術也常用于多媒體學習研究領域,是一種記錄學習者行為與狀態的有效方法[3],故同樣具有識別在線學習專注度的可能。因此,本研究試圖探究結合面部線索與眼動特征來預測專注度的有效性,助力實現在線學習專注度的精準識別,為優化在線學習過程、提升在線學習效果提供有力支持。
從計算機視覺數據中提取面部線索、身體姿態等特征是識別專注度的常用方法。由于在線學習場景的特殊性,身體姿態難以被完整記錄,而通過高清攝像頭伴隨式地采集學習者的眼睛注視方向、頭部姿態、面部特征等面部線索數據易在在線學習場景中實現,因此,從該類數據中提取相應特征并建立學習專注度識別模型,是診斷在線學習專注狀態的有效方式,先前大量研究結論也證實了通過以上面部線索識別專注度的可行性。眼睛注視方向是通過個體眼球在三維空間中的注視點坐標識別出的視線關注點,是判斷學習者是否將注意力集中于學習內容的重要依據:例如鄭天陽通過計算學習者眼神在左右方向、上下方向的偏移值是否在合理范圍內來判斷專注狀態[4];Daniel等人則證實學習者對相應任務的注視時間、注視率、注視次數等是識別專注度的有效指標[5]。類似地,反映學習者頭部偏轉情況的頭部姿態也可較好地反映學習者的注意力范圍,從而判斷其是否專注于學習:如Useche等人認為可通過學習者頭部的俯仰值與偏航值判斷其是否專注[6],Xu等人同樣通過頭部的俯仰角、偏航角與旋轉角實現了較高精度的專注度識別[7]。面部特征則能通過個體五官的動作單元反映其情緒、疲勞程度等狀態,同樣是識別專注度的可行依據:如劉冀偉等人[8]與Peng等人[9]均是通過人臉的眉毛、眼睛、嘴巴等部位的運動特征實現了較高準確率的專注度識別;郭曉旭[10]、Sharma等人[11]、Gerard等人[12]均通過學習者的面部特征識別其表情,并通過給每種表情賦予不同權重從而計算學習專注度分數;張雙喜則基于學習者的眨眼及哈欠情況判斷其是否疲勞,并通過計算疲勞幀數比例判斷其是否專注[13]。
此外,也有研究在識別專注度時融合了以上幾類面部線索,表現出更高的識別準確率:Li等人使用面部特征、眼睛注視方向等特征訓練專注度識別模型,得出識別準確率為73.3%,相較于單獨使用面部特征或眼睛注視方向,準確率分別提升了4.67%及15.66%[14];熊碧輝融合了學習者的眼睛注視方向、頭部姿態、面部特征,通過計算3秒內無人臉幀數、頭部偏離幀數、眼睛閉合幀數和視線偏離幀數等占內總幀數的比值判斷學習者是否出現了不專注狀況,最終獲得了89.3%的準確率[15];阮益權則將有無人臉、眼睛開閉、視線落點等作為判斷學習者是否專注的依據,發現單一特征類型的最高準確率為74.1%,而融合全部特征依據后準確率高達91.9%[16]。可見,大量研究已證實,通過計算機視覺數據提取的面部線索是識別專注度的有效特征。
近年來,隨著眼動儀智能化程度的不斷提高,眼動追蹤技術常被用于多媒體學習領域。根據Just與Carpenter提出的“眼-腦”(Eye-Mind)假設,眼球運動為個體注意力的分配提供了動態追蹤的可能[17],即眼動特征與信息加工機制有著密切的聯系[18]。眼動特征中常關注的指標包括視線落點、注視時間及次數、眼跳路徑等:視線落點反映了個體所關注的具體信息區域,可明確其注意的位置和范圍;注視時間反映了加工難度與注意量,注視時間越長,一般說明在相應區域投入的注意量越多,信息處理可能會表現出復雜深入的特點[19];眼跳路徑則是個體注意力的動態轉移軌跡,能反映更為精細的視覺加工信息,如著名的帕福利迪斯實驗發現,閱讀困難者的回視路徑更多,因此可認為閱讀困難兒童負責行為順序的中樞存在缺陷,進而導致注意力的持續時間較短[20]。
由于專注度是注意集中程度的體現,故而眼動特征也為學習專注度的識別提供了可能性。目前,有少量研究探索了采用眼動特征識別專注度的可行性:例如D' Mello等人聚焦于在線閱讀場景,基于學習者對閱讀材料整體的注視頻率、注視持續時間、眼跳長度等全局特征以及不同長度單詞的閱讀時間、跳過的單詞數量、首次注視長度等關注材料詞匯的局部特征判定其是否專注于學習內容,結果顯示全局特征的識別精度高于局部特征,且結合全局特征與局部特征的識別準確率最高[21];Bixler等同樣關注到在線閱讀時的全局特征與局部特征,證實了采用眼動數據識別閱讀專注度的可行性[22];Veliyath等人則從學習者的眼動數據中提取出其眼球注視位置、被查看的任務位置及相應的時間戳等特征,使用四種機器學習方法進行專注狀態評估,最佳方法的識別準確率為77%[23]。可見,眼動特征具有較高的專注度識別潛力。
通過現有研究可以發現,結合多模態特征可以顯著提升學習專注度評估模型的性能,但目前,多數相關研究集中在從計算機視覺數據中提取的面部線索特征組合上,少有學者同時結合眼動數據預測學習專注度,這種組合可能會為專注度識別補充額外的有效信息,進而提高識別效果。因此,本研究通過伴隨式采集學習者在線學習中的過程性視頻數據和眼動數據,分別提取面部線索特征與眼動特征,通過傳統機器學習方法構建學習專注度評估模型,以探索對學習專注度的識別效果。
在在線學習中,閱讀是基于文本材料獲取并理解知識的重要途徑,也是常見的學習任務。本研究則聚焦在線閱讀場景,實驗環境設置如圖1所示。該學習場景選定在實驗室中,室內有可正常使用的辦公桌椅、臺式電腦等物理硬件,主要光照為日光燈。實驗過程中,需要伴隨式采集的數據包括面部線索數據以及眼動數據;同時采集能較為客觀、準確地反映被試專注度的腦電數據[24],以標定專注度真值。因此,實驗中需配備的數據采集硬件設備包括三類:(1)內置ThinkGear AM芯片的腦電頭帶設備,采集大腦的Alpha波、Beta波、Theta波等信號數據及由其系統計算的學習專注度數據(0—100);(2)Logitech網絡攝像頭,固定在顯示器的上邊緣中間位置,分辨率為1920×1080,采集被試的計算機視覺數據;(3)Tobii X2-60眼動儀,固定在顯示器的下邊緣中間位置,與被試雙眼的距離約為70cm, 采集被試的眼動數據。

圖1 環境設置
實驗以一篇插圖文本形式的閱讀材料作為實驗材料(如圖2所示),材料主題為龍卷風的產生原理,由標題部分、文本部分、插圖部分和思考題部分組成。文本部分包括三個部分:第一部分簡要描述了龍卷風是什么;第二部分詳細闡述了龍卷風是如何形成的;第三部分則介紹了龍卷風的分類。材料中包含兩張插圖:第一張插圖呈現了龍卷風的形態;第二張插圖則與文本中的第二部分相關,詳細描述了氣流運動的過程。思考題部分包含三道與文章主題相關的題目,被試可在完成材料閱讀后進行思考。整份閱讀材料可完整顯示在屏幕上,閱讀時間為10分鐘。閱讀實驗完成后,被試需完成由三道思考題組成的后測問卷,三個問題的分值均為6分,根據答案的正確性和完整性程度進行評分。

圖2 閱讀材料
實驗面向北京某高校招募了61名非地理專業的大四學生(24名男生,37名女生)作為被試,全部被試的視力正常或矯正視力正常。被試本著自愿的原則參與該實驗,實驗前全部被試均簽署了知情同意書,并在實驗結束后收到實驗酬金。
被試到達實驗地點后,主試先向其介紹實驗過程與注意事項,被試在無疑問后,需填寫背景信息問卷,而后主試調試攝像頭以確保被試人臉可被完整捕捉,調整Tobii X2-60眼動儀以校準被試眼睛,并幫助被試佩戴腦電頭帶設備;全部設備連接無誤后,被試需進行5分鐘的基線測試,也作為被試熟悉實驗環境的時間,之后正式開始實驗。在實驗過程中,被試仔細閱讀顯示器上的學習材料,并在10分鐘之內完成閱讀。閱讀結束后,被試按下鍵盤上的空格鍵,由主試保存設備采集的數據并幫助被試摘除設備;而后被試需填寫有關學習主題的知識后測問卷,以明確被試對知識的掌握程度。
實驗完成后,對采集的多模態數據進行檢查與篩選,剔除數據采集有誤的樣本,最終獲得55個有效樣本,每個樣本均包含視頻數據、眼動數據與腦電數據。其中,視頻數據的相關指標提取流程如圖3所示,即通過開源工具箱Open Face逐幀分解圖像[25],對每一幀圖像進行人臉檢測、面部特征點估計、面部特征輸出等步驟從而計算抽象特征,集成后獲得包含眼部視線方向、頭部姿態、面部動作單元等特征向量,并通過統計分析計算相應的均值、標準差、最小值與最大值等,共提取104個具體指標;眼動數據則通過Tobii Studio軟件進行預處理[26],首先使用區域劃分工具將閱讀材料標記為文本部分、插圖部分與思考題部分三個興趣區,而后導出在時域與空域上皆有追蹤痕跡的眼動數據,并提取出各興趣區的眼動特征,通過統計分析共得到12個眼動數據的量化指標,如表1所示;腦電數據則由頭戴式設備采集,根據eSense的相關參數[27],將具體的專注度數值劃分為高(簡稱H,數值為60—100)、中(簡稱M,數值為40—60)、低(簡稱L,數值為0—40)三種類型,以確定專注度標簽。此外,因不同特征的量綱不同,特征的實際數值間差異較大,不具備直接比較的意義,故使用Z-Score標準化方法將116個指標的取值轉化為標準分數。

圖3 面部線索特征提取流程

表1 視頻數據與眼動數據的相關指標

續表1
完成數據處理后,選擇六個常用且有效的機器學習方法同時執行具有三類學習專注度標簽的分類任務,包括單一規則法(OneRule)、線性邏輯回歸(SimpleLogistic)、支持向量機(SVM)、貝葉斯網絡(BayesNet)、決策樹(DecisionTree)與隨機森林(RandomForest)。為了評估和比較以上六種方法的預測性能,將基于混淆矩陣計算得出的準確率、精確率、召回率和F1分數作為性能參數[28]。此外,為了減少有監督機器學習方法中常見的過度擬合問題,利用交叉驗證來提高最終預測模型的魯棒性:采用五折交叉驗證配置來訓練和測試分類模型,即整個特征數據集被隨機分為5份子樣本,其中4份子樣本作為訓練數據,1份子樣本作為驗證數據,在選取可用的子樣本作為驗證數據后,得出的性能指標數值是5次迭代的平均值。一般而言,對于特定的分類任務,分類性能更好的方法具有更強大的預測能力,通常會被優先選擇,而任何比基線分類器性能更好的模型實際上均是有效的,本研究則選擇OneRule作為基線分類器。
為了明確結合視頻數據和眼動數據提高學習專注度識別的準確性,分別評估了單模態和多模態的機器學習模型的分類性能,如下頁表2所示。根據分析結果,基于從視頻數據中提取的面部線索特征的識別學習專注度的效果普遍并不理想,其中SVM、DecisionTree與RandomForest的表現不如OneRule基線分類器,所有性能參數均低于0.500。而眼動模型整體的評估效果較好,全部識別性能參數均高于0.500,能較為有效地區分不同的學習專注程度。此外,多模態模型的學習專注度評估性能整體優于基于單個模態的模型,性能參數值至少提高5.5%,且不論是單模態模型還是多模態模型,BayesNet方法的預測表現都是最優的,尤其在多模態模型中的識別準確率達到了0.745,是較為理想的識別結果。

表2 學習專注度分類結果
為了對比眼動模型與視頻模型的識別能力,本研究基于混淆矩陣計算了兩類特征對專注度類別的混淆概率,如圖4所示。通過分析可知,在視頻模型中,H被混淆為M的概率是14.3%,反之則為18.2%, M被混淆為L的概率是36.4%,反之為42.1%;在眼動模型中,H被混淆為M的概率是14.3%,反之則為13.6%,而M被混淆為L的概率是18.2%,反之則為21%。可見,眼動特征比面部線索特征對M和L的識別精度更高。總之,相比較而言,眼動特征比面部線索特征具有更強的學習專注度識別能力。

圖4 不同特征的學習專注度類別混淆概率
為了進一步驗證融合常用的面部線索特征與眼動特征識別專注度的有效性,使用配對樣本t檢驗測試了有無眼動特征的學習專注度分類F1分數的差異,分析結果如表3所示。實驗結果顯示,除了SimpleLogistic方法外,其它方法呈現的結果均表現出了不同水平的顯著差異。可見,使用從眼動數據中提取的特征明顯提高了分類器的預測能力。

表3 眼動特征的有效性檢驗
為明確專注度與學習結果的關系,判斷專注度是否會顯著影響學習者的學習成效,本研究對被試在實驗過程中的平均專注度與后測成績進行了相關性檢驗。分析結果顯示,平均專注度與后測成績在0.001水平上呈中等程度的顯著正相關,相關系數為0.536。可見,學習越專注的學習者,其學習成效越好。
通過分類結果可知,基于眼動特征的識別準確率整體高于面部線索,眼動特征的最佳識別準確率可高于面部線索14.5%;根據分類結果的混淆概率,眼動特征對中專注狀態與低專注狀態的識別精度明顯高于面部線索。可見,相較于面部線索,眼動特征具有更好的專注度識別能力,尤其表現在對中專注狀態與低專注狀態的診斷上,而在在線學習中,低專注狀態往往更需師生關注,且也是后續開展學習干預的重要依據:具體來說,若將過多中專注狀態混淆為低專注狀態,難免造成學習者接受不必要干預的現象,干擾其正常學習;若將低專注狀態識別為中專注狀態,則會導致相應學習者未能接受必要的教學指導,難以實現在線學習專注度診斷的核心價值。因此,眼動是更具備專注度識別潛力的有效特征。
面部線索中的眼部視線、頭部姿態、面部動作單元等特征是從學習者個體出發,明確其主要關注的內容范圍以及從面部動作中反映出的內部狀態;而眼動特征則是關注學習者對學習材料認知加工的實際落點,揭示其視覺信息的選擇模式及信息加工機制[29]。眼動特征表現出更好的在線學習專注度識別效果,其原因可能是:從特征產生上來看,在線學習時學習者僅能與固定范圍的機器進行人機交互,產生的動作幅度較小,且實驗時間較短,學習者尚未進入身體疲勞狀態或放松狀態,能出現的頭部姿態變化與面部動作單元十分有限,導致學習者處于不同專注狀態時的面部表現差異不大,故而面部線索對專注度識別的貢獻較小;從特征本身的特性來看,眼動特征與面部線索分別關注學習者的內部與外部特征,而對于無教師引導、僅能由學習者自行安排學習進度與策略的在線學習,學習者的認知加工方式會表現出較大差異,相較于個體狀態,其信息加工機制更能反映對學習材料的心理資源投入程度,故而眼動特征更具在線學習專注度的識別能力。
從專注度分類結果中可以看出,融合了面部線索與眼動特征的多模態專注度分類結果整體優于單模態;根據配對樣本T檢驗結果可知,除SimpleLogistic方法外,使用其余算法進行多模態專注度識別的效果顯著優于僅使用面部線索的單模態識別效果。雖然在視頻模型與多模態模型中使用SimpleLogistic方法的F1分數未表現出統計顯著性,但融合眼動特征后,其識別性能得到了改善,這可能是因為在相同的測試集下,有無眼動特征時錯誤識別的學習專注度類型幾乎是不同的。整體而言,融合多模態特征的專注度識別效果明顯優于單模態特征。
學習過程具有復雜性,學習的發生會體現在學習者心理特征、生理特征與行為特征的一系列變化[30],因此基于人的多重感知模式、采用多種方式追蹤學習過程、通過不同層面數據洞悉學習過程的多模態學習分析逐漸得到學者關注[31]。正如在專注度的識別中,單一模態的數據往往僅能片面地反映學習過程:面部線索主要可反映個體在學習過程中的一般專注程度,但難以明晰對學習內容的具體加工情況,較難確認其是否將注意力集中于學習內容;而外顯化的眼動特征往往較易“偽裝”,雖能明確學習者關注的具體信息,但對于其處理信息時內在狀態的判斷較為有限。而來自不同模態的面部線索特征與眼動特征代表了學習專注度的不同方面,能綜合判斷學習者對學習內容的專注程度,因而與僅使用單模態數據相比,不同模態的互補信息可以構建更為穩健的學習專注度評估模型。
根據學習專注度與后測成績的相關性分析可知,學習專注度會對學習成效產生顯著的影響,這也與先前的大量研究結論不謀而合。當學習者將較多的心理資源投入到學習過程中,其能較好地記憶學習內容并對相關信息進行處理與編碼[32][33],處于攝取知識的最佳狀態[34];若學習者投入的心理資源較少,有效學習將難以發生。可見,專注度是學習狀態的重要呈現,故而學習專注度可作為優化在線學習的重要抓手。
具體來說,對在線學習材料設計者而言,專注度識別利于明確學習者在面對不同內容時的學習狀態,可以此為依據進行材料中學習內容與教學設計的優化;同時,面部線索中的眼部視線、頭部姿態以及眼動特征等可明晰學習者對材料呈現的關注區域與關注重點,也可基于此完善學習材料的展現形式、頁面布局、色彩搭配等呈現方式。對教師而言,自動化的專注度識別可解決時空分離帶來的學習狀態診斷難題,及時、準確地了解全部學習者的學習專注狀態;依據學習者整體的專注度識別結果,教師可進行教學計劃的調整與教學內容的修正,完善學習者的學習內容;基于學習者個體的專注度識別結果及其表現出的認知加工策略,教師也可為其提供個人學習方案、學習腳手架等個性化的干預策略,助力精準教學的實現。而對學習者而言,反饋學習專注度有助于了解自身的學習狀態,進而調整個人學習方法與學習策略,促進自我調節的發生;也可在在線學習平臺中嵌入“專注提醒”功能,當學習者的專注度低于某一閾值時進行彈窗提示,召回其注意力,提升在線學習效果;同時,可依據學習特定內容時的專注度了解可能存在的學習漏洞,便于后續進行有針對性的查缺補漏;此外,專注度也是個人素養重要的組成部分,長期的專注度監控也利于學習者培養專注習慣,助力個人良好綜合素養的養成。
本研究著眼于在線學習專注度的識別問題,由于專注度是與許多非言語線索相關的復雜內隱現象,僅使用單一模態數據難以建立準確率較高的專注度評估模型,因此本研究收集了學習者的視頻數據與眼動數據,從中提取出相關的面部線索特征與眼動特征,進而使用機器學習方法進行在線學習專注度識別。實驗結果表明:相比較而言,眼動特征對學習專注度的識別效果更為出色,而面部線索特征的評估表現稍顯遜色,這表明眼動特征能為專注度識別提供更有價值的信息,可更為準確地揭示學習者的專注狀態;而與使用單模態相比,多模態融合可以明顯提高學習專注度識別的準確性,來自不同模態的特征代表了學習者專注度的不同方面,通過整合互補信息可以建立一個更為穩健的學習專注度評估模型,顯示了多模態學習分析的優勢,這也說明了融合不同模態的特征來識別學習專注度是具有良好發展前景的有效方式。融合多模態特征實現在線學習專注度的識別,有助于學習材料設計者優化材料內容與呈現方式,幫助教師及時掌握學習者狀態,并恰當調整教學計劃,實施個性化的干預策略,且利于學習者了解并調整自身學習表現,促進有效學習的發生或維持,并有助于專注習慣的養成。
研究雖取得了一定成果,但也存在些許局限,可能會在一定程度上影響研究結論的推廣價值,未來可進一步予以完善。首先,由于眼動儀的跟蹤范圍有限,被試的注意力被限制在一個固定的區域內,因此他們的外部表現難以完全地、自然地展現,這可能會影響學習專注度的識別效果。同時,由于學習材料內容較少,閱讀時間較短,被試可能在實驗過程中一直保持著生理緊張狀態,未能表現出放松狀態下的較多姿態特征,這也是本研究中面部線索特征的專注度識別準確率低于先前研究結論的可能原因,因此未來研究中可適當增添實驗材料內容,增加實驗時長;而因閱讀材料僅有一頁,不需被試進行點擊操作,故未能獲得學習者的點擊流數據,但有研究表明鼠標動力學特征對學習專注度具有一定的預測力,故而今后可進一步探究融合點擊流數據是否能提高在線學習專注度的識別準確性。此外,由于有效樣本量較少,本研究未能利用卷積神經網絡、循環神經網絡等深度學習方法來探索更好的預測性能,因此未來可擴大樣本量,建立更大范圍的數據集,提取更有意義的指標以構建更可靠的學習專注度預測模型,并驗證深度學習方法是否能夠有效提高學習專注度的預測能力。