范福蘭 黃艷琳 萬力勇 梅 林 熊 曳
多模態數據驅動的大學生混合式學習評價*
范福蘭1黃艷琳1萬力勇1梅 林2熊 曳3
(1.中南民族大學 教育學院,湖北武漢 430074;2.湖北開放大學 導學中心,湖北武漢 430074;3.華中科技大學附屬小學,湖北武漢 430074)
在深化新時代教育評價改革的背景下,充分應用多模態技術開展混合式學習的綜合性評價,對于破除當前本科教育教學中的唯分數學習評價頑疾具有重要作用。基于此,文章首先設計了多模態數據驅動的大學生混合式學習評價框架,并依托此框架通過自動錄播、線上平臺數據采集、測試等多種方式捕獲混合式學習環境下的大學生多模態學習數據;然后篩選最優特征選擇方法并融合多種分類算法,形成了大學生混合式學習評價模型;最后依據模型綜合評價學生的混合式學習情況,結果表明:方差選擇法與決策樹分類算法相結合,能達到最優評價效果;線上學習中的章節學習、視頻學習時長、話題討論和線下學習中的注意力、學習筆記是評價學生混合式學習的最佳評價特征,其中視頻學習時長對期末測試成績的影響最大。文章的研究對于改進大學生混合式學習評價,體現評價對提升本科教學質量的促進作用具有重要意義。
多模態數據;混合式學習;學習評價;分類算法
混合式學習通過線上學習和線下教學的有機整合,突破了時空限制,引導學習者隨時隨地學習,在教育教學中得到廣泛應用[1]。有效的混合式學習評價有助于精準定位學生的學習動態,為及時調整教學提供依據,是提升混合式學習質量的關鍵[2]。然而,紙筆測試仍是當前高校混合式學習評價的主導方式[3],難以全面刻畫動態、復雜的混合式學習過程,阻礙了混合式學習的高效開展。多模態學習評價旨在融合兩種及以上來源的數據,運用數據挖掘分析方法客觀評價復雜的學習行為并深入分析[4],其動態多維、精準全面的特性與混合式學習特征高度契合,為大學生混合式學習評價改革提供了新思路。同時,混合式學習的發生空間與活動方式多樣,其產生的大量多模態數據為多模態學習評價提供了充足的數據源,包括線上學習數據(如學習日志、研討交互、點擊數據)[5]、線下學習數據(如肢體動作、頭部姿勢、面部表情)等[6]。在此背景下,如何應用多模態學習評價對復雜的混合式學習活動進行測量與分析,成為了當前研究的熱點。基于此,本研究以探索混合式學習多模態評價中的數據特征選擇及其融合方法、構建大學生混合式學習評價模型為目標,通過數據采集、特征選擇與融合、模型構建等實證研究,探索多模態數據驅動的大學生混合式學習評價路徑,以期為改進混合式學習評價提供借鑒。
在混合式學習過程中,各類在線學習平臺與分析系統的使用,可實現學習行為的實時記錄,并產生了大量的線上學習數據,如學習日志、視頻瀏覽記錄、研討交互數據等[7][8]。由于線上學習數據容易被記錄與存儲,受到了研究者青睞。Van等[9]、Wu等[10]、武法提等[11]通過采集學生的線上學習數據,使用機器學習算法構建學習成績預測模型,進行學習成績預測和學生表現評估,取得了不錯的效果。隨著自動錄播設備、紅外攝像機等的應用,采集線下教學環境中的學習過程數據(如學生的面部表情、頭部姿勢、肢體動作等[12])成為現實,為學習評價提供了支持。然而,由于線下學習數據的記錄與分析相對復雜,研究者多不愿嘗試,導致當前高校混合式學習中的線下學習評價仍以紙筆測試、問卷調查為主[13][14],難以客觀評價學生的學習動態,降低了混合式學習評價結果的全面性和準確性。
多模態數據是指兩種及以上不同表示形式或來源通道的數據[15]。混合式學習涉及的多模態數據主要為線上、線下的學習過程數據,包括文本數據、圖像數據、音頻數據、生理數據等[16]。多模態數據驅動的學習評價通過采集和分析多維度學習過程數據,準確定位學習狀態,具有與混合式學習高度契合的動態、多維的特性:①動態性。紅外攝像機、FACET、學習管理平臺等能動態采集課堂教學情境中的自然數據并自動標注[17],包括學生的肢體動作、面部表情、交互對話等數據[18],可實現對學生學習動態的精準把握。②空間多維性。多模態數據分析可將物理學習空間的言語信息、面部表情等數據,與網絡學習空間的日志數據、視頻瀏覽量、研討交互數據等進行整合,實現對學生學習的多維、立體評價[19][20]。③高準確性。基于多模態數據的學習評價可有效提升數據分析的準確性,比單模態數據高5%[21]。Chango等[22]結合不同的數據融合與分類算法,分析大學混合課程中的多模態學習數據,以評價學生的混合式學習情況,結果表明:REPTree算法的準確率高達87.47%,獲得的評價效果最佳。
綜上所述,當前混合式學習評價研究側重線上學習行為的評價與分析,而線下日常真實學習場景中的數據融入不夠,因而存在片面性的問題。多模態數據驅動的混合式學習評價能多方位獲取學生的學習數據,并通過深入挖掘實現對學生學習過程的精準評價,為混合式學習評價提供了新思路。因此,如何融合線上學習數據與線下真實學習環境中的多模態細粒度學習過程數據來多維度綜合評價學生的學習情況,是當前混合式學習評價亟需解決的問題。基于此,本研究擬重點探討以下問題:①如何構建大學生混合式學習評價模型以達到最佳評價效果?②如何融合線上線下多模態學習數據開展大學生混合式學習評價?
多模態數據驅動的混合式學習評價可以更客觀地從多維度分析學生的真實學習情況,為提高混合式學習評價的精準性提供了新思路。本研究通過數據采集、特征選擇與融合、模型構建等實證研究,探索大學生混合式學習多模態評價路徑。
本研究以武漢市S大學教育技術專業的41名本科生為研究對象,其中男生9人、女生32人,年齡在20~22歲之間。
本研究的數據來源于專業必修課“教學系統設計”,內容包括線下智慧教室中的理論教學、微格教室環境下的教學實踐、“超星學習通”支持的線上學習等,共48學時。

表1 大學生混合式學習評價框架
注:一節理論課總時長為45分鐘。

圖1 多模態學習數據的采集與分析框架
本研究主要從兩個階段開展多模態學習數據的采集與分析,其框架如圖1所示。
(1)階段一:多模態學習數據的采集與預處理
依托線下學習數據、線上學習數據和學習績效三個特征維度,本研究從“教學系統設計”課程中收集了以下四種數據:①理論教學數據,是通過自動錄播系統從理論課堂采集的教學視頻數據。本研究采用半自動的方式,隨機抽取8個課時的教學視頻,將41名大學生的注意力、學習筆記、互動情況等學習數據進行編碼標注,形成結構化的課堂學習數據。②實踐練習數據,是在微格教室環境下,使用錄播設備采集的學生實踐數據,主要來源于教學模擬實踐、說課練習、課程教學設計。③線上學習數據,是通過在線學習平臺自動存儲的學生線上學習過程數據,主要涉及課程教學視頻學習、話題討論、章節學習等。④期末測試數據,是學生在本門課程的期末測試成績。
數據預處理過程如下:首先,對數據進行匿名化和數據清洗,刪除不完整的學習數據,如學生缺課、缺考等數據,以確保數據的完整性與有效性;其次,對學生的期末測試成績進行離散化處理;最后,對數據進行歸一化處理,將數據映射到0~1范圍之內。本研究采用L2范數歸一化方法,使向量歸一化到單位向量,即建立一個從到的映射,使的范數為1,其計算如公式(1)所示。通過對數據的多次校驗和處理,最終本研究抽取出36名大學生的有效數據作為研究樣本。

(2)階段二:多模態數據融合與評價模型訓練
通過相關性分析、方差選擇法、卡方檢驗等多種特征選擇方法,篩選出最重要的學習評價特征。之后,對評價模型進行訓練。模型訓練分為兩個階段:第一個階段是劃分數據集,將數據集隨機地平均分為10份,其中9份為訓練集,剩下1份為測試集;第二個階段是分類算法調參,對10種分類算法分別調整其超參數,調用分類算法擬合訓練集數據分布,并在測試集上測試分類效果,最后選擇分類效果最佳的超參數組合作為分類算法參數,篩選出最佳的特征選擇方法與分類模型組合,形成大學生混合式學習評價模型。
基于多場景數據和多種評價模型的融合分析方法能更全面地反映學習效果與不同學習特征之間的關系,提升評價模型的泛化能力[27]。基于此,本研究使用特征選擇和分類算法對經過預處理的多模態學習數據進行融合分析。
結合通州的區域發展規劃及目前的智慧交通管理發展趨勢,通州智慧交通管理系統未來的發展展望可以概括為以下3個方面:
特征選擇是指從已有的M個特征中選擇N個最佳特征使系統的特定指標最優化,可降低數據集維度,縮短數據處理時間和模型訓練時間,提升算法性能,是模型識別中關鍵的數據處理步驟[28]。本研究采用相關性分析、方差選擇法、卡方檢驗等方法,選擇最重要的學習評價特征。
①相關性分析:皮爾遜相關系數r常用于度量兩個變量和之間的線性相關性,其計算如公式(2)所示。的結果取值區間為[-1, 1],當變量之間的線性關系增強時,值趨于1或-1。本研究運用相關性分析計算所有特征對評價結果的相關系數,依據數值的高低刪除冗余或不相關的特征,篩選相關系數較高的學習特征,主要包括話題討論、視頻學習時長、章節學習、學習筆記和注意力。

②方差選擇法:先計算各個變量的方差,再根據閾值選擇方差大于閾值的變量——方差越大,表明信息量越大。本研究運用方差選擇法計算所有特征對評價結果的方差值,然后選擇方差大于閾值的特征,從中篩選得分較高的學習特征,主要包括話題討論、注意力、位置、視頻學習時長、無效聽課和學習筆記。
③卡方檢驗:檢驗定性自變量對因變量的相關性。假設自變量有N種取值,因變量有M種取值,根據自變量=且因變量=的樣本頻數的觀察值與理論值之間的偏差判斷理論值的正確率。x為觀察值與理論值之間的偏差,其計算如公式(3)所示。x越大,變量之間的相關程度越高。本研究運用卡方檢驗計算所有特征對評價結果的卡方值,選擇大于閾值的特征,從中篩選得分較高的學習特征,主要包括注意力、視頻學習時長、章節學習、學習筆記和實踐成績。

(1)分類算法的選擇
在分類算法的選擇上,決策樹、回歸分析、神經網絡、支持向量機等算法常用于分析學生的學習表現與效果[29]。本研究選擇10種常用的分類算法,即K近鄰、決策樹、支持向量機(SVM)、邏輯斯蒂回歸、隨機森林、梯度提升樹、多項式樸素貝葉斯、伯努利樸素貝葉斯、Bagging、AdaBoost,來分別比較不同算法對樣本的評價性能。
(2)評價指標
常用的機器學習分類算法評價指標有準確率(Accuracy)、召回率(Recall)、精準率(Precision)、F1-Score、ROC面積等[30],本研究主要分析以下評估指標:
①準確率:用于評價正確的樣本數量占總量的百分比。準確率的計算如公式(4)所示,值越大,說明模型的評價效果越好。

②F1-Score:是衡量二分類算法精準度的指標,能平衡分類模型的精準率和召回率,是兩者的調和均值。F1-Score的計算如公式(5)所示,其最大值是1、最小值是0;值越大,模型的評價效果越好。

③ROC面積:ROC曲線是反映敏感性和特異性連續變量的綜合指標。ROC是一個定性指標,無法對模型效果進行量化,但通過計算ROC曲線下方面積(即AUC)可實現模型效果的量化。AUC值一般在0.5~1之間,值越大,說明模型的評價效果越好。
本研究在相關性分析、方差選擇法、卡方檢驗等特征選擇方法篩選最佳特征的基礎上執行10種分類算法,采用十折交叉驗證法對各分類算法進行訓練和測試,結果如下:
①基于相關性分析的模型評價效果分析。算法輸出結果顯示,邏輯斯蒂回歸算法能很好地擬合數據特征之間的線性關系,并且擅長處理二分類問題,其評價效果(準確率為0.717,F1-Score值為0.834,ROC面積為0.783)優于其他算法。
②基于方差選擇法的模型評價效果分析。算法輸出結果如表2所示,可以看出:準確率最高的是K近鄰、決策樹(均為0.775);F1-Score值最高的是決策樹(0.864);ROC面積最大的是邏輯斯蒂回歸(0.783)。綜合考慮,評價效果最優的為決策樹算法(準確率為0.775,F1-Score值為0.864,ROC面積為0.633)。方差選擇法選取的特征信息量大,但關聯性不強,而決策樹算法能夠處理特征不相關的情況,因此在多個評價指標上的表現優于其他算法。

表2 基于方差特征選擇的算法輸出結果
注:準確率、F1-Score值、ROC面積越靠近1,模型評價效果越優。下同。
③基于卡方檢驗的模型評價效果分析。結果顯示,邏輯斯蒂回歸算法的評價效果最優(準確率為0.717,F1-Score值為0.834,ROC面積為0.783)。卡方檢驗的原理是檢驗兩個變量的相關性,而通過卡方檢驗選取的兩兩特征之間具有一定的關聯。與基于相關性特征選擇類似,邏輯斯蒂回歸在這些特征集合上的分類表現更優,可見邏輯斯蒂回歸能取得較好的評價結果。
在特征選擇過程中,本研究使用相關性分析、方差選擇法、卡方檢驗等特征選擇方法和10種分類算法評價大學生混合式學習評價模型的效果。對10種分類算法的評價效果求平均,結果如表3所示,可以看出方差選擇法的評價效果最優(準確率為0.722,F1-Score值為0.828,ROC面積為0.592)。而在基于方差選擇法的模型評價效果分析中,決策樹分類算法的評價效果優于其他算法。因此,教師在多模態數據驅動的混合式學習評價中,宜采用方差選擇法選取特征數據,并在此基礎上結合決策樹分類算法構建大學生混合式學習評價模型,以取得最優評價效果。

表3 三種特征選擇方法下10種分類算法的平均評價效果
本研究使用相關性分析、方差選擇法、卡方檢驗等方法選擇最佳特征,對特征選擇中獲得的特征指標重要性值求平均,生成特征權重值。根據特征權重值大小,本研究將權重值大于0.15的特征確定為評價學生混合式學習的最佳特征,包括線上學習中的章節學習、視頻學習時長、話題討論和線下學習中的注意力、學習筆記,具體如表4所示。

表4 特征權重值
在數據融合與分析的基礎上,本研究對采集的原始數據進行半自動編碼提取特征,之后進行離散化處理和歸一化處理,經過特征選擇后輸入到決策樹分類算法中進行決策融合分析,得到決策樹分類結構圖,如圖2所示。圖2顯示,對期末測試成績影響最大的是視頻學習時長,之后依次是章節學習、注意力、學習筆記。而話題討論沒有出現在決策樹分類結構圖中,主要原因是決策樹生成后進行了剪枝(Pruning)——此方法可通過剪去一些不可靠的分枝來簡化模型,降低數據的過擬合風險。結合決策樹分類結構圖中的路徑,教師可以直觀地分析學生的混合式學習情況。例如,通過節點0、1、4、7這條路徑可以發現:學生的線上視頻學習時長越長,越有可能通過期末測試。

圖2 決策樹分類結構圖
多模態數據驅動的混合式學習評價,可以實現對學習數據的全面采集與分析,提升評價的準確性和全面性。然而,當前研究或側重于更易采集與分析數據的線上學習環境,造成了評價結果的片面性;或發生在實驗室環境下,通過自動錄播、智能可穿戴設備等完成對少量學生多模態數據的采集與分析,難以在日常的課堂教學中推廣使用。基于此,本研究設計了大學生混合式學習評價框架。以此為依托,本研究以日常真實的混合式學習課程為例,探索線上學習數據與日常線下學習數據的采集和分析方法,多維度準確定位學生的混合式學習狀態。研究結果顯示,特征選擇方法中的方差選擇法與分類算法中的決策樹分類算法相結合,能構建出效果最優的大學生混合式學習評價模型;線上學習中的章節學習、視頻學習時長、話題討論和線下學習中的注意力、學習筆記是評價學生混合式學習的最佳評價特征,其中視頻學習時長對期末測試成績的影響最大。
上述研究結果,可供50人以內的本科生常態化混合式課程學習評價直接使用。一線教師可借鑒特征選擇結果,合理設置混合式學習評價指標,并依據數據分析方法構建混合式學習評價模型,以準確評價大學生的混合式學習情況。本研究以智慧教室、在線學習平臺、移動學習設備等日常的教育技術為支撐,采用本科教學中廣泛應用的項目式學習、小組協作學習等方法,其研究成果易于借鑒和推廣。但是,由于研究樣本較少,導致精度更高的深度學習方法無法開展。后續研究將進一步探索小樣本學習方法,深入研究小樣本多模態數據驅動的混合式學習評價,以更精準地定位學生的學習動態。
[1]趙濤.智慧技術支持下混合式學習模式建構與實踐研究[J].中國電化教育,2021,(9):137-142.
[2]曹海艷,孫躍東,羅堯成,等.“以學生為中心”的高校混合式教學課程學習設計思考[J].高等工程教育研究,2021,(1):187-192.
[3]吳立寶,曹雅楠,曹一鳴.人工智能賦能課堂教學評價改革與技術實現的框架構建[J].中國電化教育,2021,(5):94-101.
[4]王一巖,鄭永和.多模態數據融合:破解智能教育關鍵問題的核心驅動力[J].現代遠程教育研究,2022,(2):93-102.
[5]牟智佳,武法提.教育大數據背景下學習結果預測研究的內容解析與設計取向[J].中國電化教育,2017,(7):26-32.
[6][7]丁華.混合式教學模式下大學生學業評價改革研究[J].中國大學教學,2021,(5):72-76.
[8][12][17]張琪,武法提,許文靜.多模態數據支持的學習投入評測:現狀、啟示與研究趨向[J].遠程教育雜志,2020,(1):76-86.
[9]Van Goidsenhoven S, Bogdanova D, Deeva G, et al. Predicting student success in a blended learning environment[A]. Proceedings of the Tenth International Conference on Learning Analytics & Knowledge[C]. New York: ACM, 2020:17-25.
[10]Wu M, Zhao H, Yan X, et al. Student achievement analysis and prediction based on the whole learning process[A]. 2020 15th International Conference on Computer Science & Education (ICCSE)[C]. Delft: IEEE, 2020:123-128.
[11]武法提,田浩.挖掘有意義學習行為特征:學習結果預測框架[J].開放教育研究,2019,(6):75-82.
[13]翟苗,張睿,劉恒彪.高校混合式教學形成性評價指標研究[J].現代教育技術,2020,(9):35-41.
[14]賈鸝宇,張朝暉,趙小燕,等.基于人工智能視頻處理的課堂學生狀態分析[J].現代教育技術,2019,(12):82-88.
[15]任澤裕,王振超,柯尊旺,等.多模態數據融合綜述[J].計算機工程與應用,2021,(18):49-64.
[16]馬志強,岳蕓竹,王文秋.基于多模態交互信息的協作學習投入分析[J].現代教育技術,2021,(1):47-53.
[18]Camacho V L, De La Guia E, Olivares T, et al. Data capture and multimodal learning analytics focused on engagement with a new wearable IoT approach[J]. IEEE Transactions on Learning Technologies, 2020,(4):704-717.
[19]牟智佳,符雅茹.多模態學習分析研究綜述[J].現代教育技術,2021,(6):23-31.
[20]Shewalkar A. Performance evaluation of deep neural networks applied to speech recognition: RNN, LSTM and GRU[J]. Journal of Artificial Intelligence and Soft Computing Research, 2019,(4):235-245.
[21]Huang Y, Du C, Xue Z, et al. What makes multi-modal learning better than single (provably)[J]. Advances in Neural Information Processing Systems, 2021,34:10944-10956.
[22][23]Chango W, Cerezo R, Romero C. Multi-source and multimodal data fusion for predicting academic performance in blended learning university courses[J]. Computers & Electrical Engineering, 2021,89:106908.
[24]Lane E S, Harris S E. A new tool for measuring student behavioral engagement in large university classes[J]. Journal of College Science Teaching, 2015,(6):83-91.
[25]炕留一,葉海智,張瑾,等.基于多維數據的課堂教學行為評價研究[J].現代教育技術,2022,(4):68-77.
[26][27][30]胡航,杜爽,梁佳柔,等.學習績效預測模型構建:源于學習行為大數據分析[J].中國遠程教育,2021,(4):8-20、76.
[28]陳永波,李巧勤,劉勇國.基于動態相關性的特征選擇算法[J].計算機應用,2022,(1):109-114.
[29]王改花,傅鋼善.網絡學習行為與成績的預測及學習干預模型的設計[J].中國遠程教育,2019,(2):39-48.
The Blended Learning Evaluation for University Students Driven by Multi-modal Data
FAN Fu-lan1HUANG Yan-lin1WAN Li-yong1MEI Lin2XIONG Ye3
Under the background of deepening the education evaluation reform in the new era, fully applying multi-modal technology to carry out the comprehensive evaluation of blended learning plays an important role in eliminating the stubborn problem of score-only learning evaluation in the current undergraduate education and teaching. Based on this, the paper firstly designed the blended learning evaluation framework for university students driven by multi-modal data, and captured university students’ multi-modal learning data in the blended learning environment through multiple methods of automatic recording, online platform data collection and testing, relying on the constructed framework. Then, the optimal feature selection method was selected and a variety of classification algorithms were integrated to form the blended learning evaluation model for university students. Finally, based on this model, students’ blended learning situation was comprehensively evaluated. The results indicated that the best evaluation results could be achieved through the combination of variance selection method with decision tree classification algorithm. Meanwhile, chapter learning, video learning duration, topic discussion in online learning and attention, learning notes in offline learning were the best evaluation features for evaluating students’ blended learning, among which video learning duration had the greatest impact on final test scores. The research of this paper was of great significance for improving university students’ blended learning evaluation and reflecting the facilitation role of evaluation in promoting the undergraduate teaching quality.
multi-modal data; blended learning; learning evaluation; classification algorithm

G40-057
A
1009—8097(2023)01—0099—09
10.3969/j.issn.1009-8097.2023.01.011
本文受國家社科基金高校思政課研究專項項目“疫情防控背景下高校思政課在線教學行為模式研究”(項目編號:20VSZ010)資助。
范福蘭,講師,博士,研究方向為多模態學習分析與評價、信息技術與課程教學融合,郵箱為fanfulan@mail.scuec.edu.cn。
2022年7月23日
編輯:小米