







摘"要:當前,利用大數據分析技術對在線學習者進行行為數據分析,探索蘊含在數據中的規律,探討學習行為特征對學習成效的影響,這方面的工作具有重要的理論和實際意義。利用大數據分析結果,一方面,可以反饋、干預和預測學習者的學習行為及成效,幫助學習者更好地掌握學習過程、提高學習效率;另一方面,也有助于教師和平臺運營人員針對不同的用戶群體提供個性化的環境和學習指導,促進在線學習的可持續發展和教育教學領域的創新與變革。
關鍵詞:線上學習;數據挖掘;學習行為;學習成效
一、概述
當前線上學習蓬勃發展,廣泛的學習人群、豐富的在線課程資源以及多樣化的交互手段產生了大量的學習行為數據。如何利用大數據分析技術對在線學習者進行行為數據分析,探索蘊含在數據中的規律,探討學習行為特征對學習成效的影響,這方面的工作具有重要的理論和實際意義。
近年來,國內外不少專家學者在MOOC學習者行為分析領域進行了實驗和探索,例如,參考文獻[1]中的學者提出了一種以神經網絡作為分類器的預測方法對MOOC課程的輟課率進行預測;參考文獻[2]中的學者根據行為分析將MOOC學習者分為主動者、被動者和旁觀者,并且分析了不同學習者的課程完成率。賈積有等人[3]基于北京大學6門MOOC課程的平臺數據對學習者的學習行為進行了統計分析;陳蘭嵐等人[4]基于Canvas"Network提供的MOOC開放數據對學習者的類型與行為進行了分析;林麒麟等人[5]利用KMean聚類的方法對不同人群學習行為進行聚類,探討了學習行為與學習成效的關系。
以上工作豐富了在線學習者行為分析領域的研究成果,為本課題的相關研究提供了堅實的理論基礎。本項目以某大學網絡教學平臺中的慕課數據作為基礎,收集了同一時期上課的學生的學習行為和學習成效數據,對學生的學習行為特征及其對學習成效的影響進行了探究分析,以期為在線學習和發展提供有益參考。
二、基于KMEAN聚類的學習者類型劃分
本文收集的數據信息包括:(1)學習者的基本信息(姓名、性別、學號、專業、年級);(2)課程信息(課程名稱、學科類別、課程章節數、課程起止時間);(3)學習者的學習行為信息(簽到次數、章節學習次數、作業次數、作業平均分、討論發帖數、討論回帖數);(4)學習者的學習效果信息(學習成績)。
對于每名學習者的學習行為數據,選取章節學習次數(Chapter"Learning"Number,CLN)、簽到次數(Sign"In"Number,SIN)、討論回帖數(Discussion"Reply"Number,DRN)、作業平均分(Average"Homework"Scores,AHS)四個特征,利用KMEAN算法進行聚類分析,聚類結果見圖1。此外,根據聚類結果,我們計算了每類學習者的學習特征及學習成績均值,分析結果見表1。
由聚類分析結果可知,根據CLN、SIN、DRN、AHS四個特征,把學習人群大概分為Cluster1—Cluster4,共四類。其中,Cluster2和Cluster4:章節學習次數、簽到次數、討論回帖數和作業平均分處于較高水平,屬于在線學習學霸用戶。Cluster2的學習章節次數明顯高于Cluster4,而且Cluster2熱心幫助同學,討論回帖次數在四類中也是最高,對應的學習成效也是最佳。Cluster1和Cluster3:章節學習次數、簽到次數、討論回帖數和作業平均分處于較低水平,學習成效較好。此外,雖然Cluster3的學習成效低于Cluster1,但是該類學習者屬于積極參與討論型,其討論回帖數高于后者。不同類間的學習成效情況見圖2。
三、基于多元線性回歸的學習成效預測模型
本節將章節學習次數、簽到次數、討論回帖數、作業平均分四個特征作為模型自變量,將學生學習成績(Students'"Academic"Performance,SAP)作為因變量,進行多元線性回歸分析。表2展示了評價模型所使用的檢驗統計量。從該表可以觀察到R、R2、調整后的R2、標準估計誤差以及DW統計量(DurbinWatson)。在本研究中,回歸模型調整后的R2值為0719,表明該模型具有較高的擬合度。此外,DW統計量為1.640,說明模型的殘差存在正自相關性。
方差分析的結果顯示,回歸部分的F值為92.332,其相應的P值為0,這一數值小于顯著性水平0.05,由此可以得出章節學習次數、簽到次數、討論回帖數以及作業平均分對學生成績的解釋能力非常顯著。表3展示了線性回歸模型的回歸系數及其他相關統計量。從該表中可以看出,線性回歸模型的截距項為-6.53,章節學習次數的回歸系數為0.005,簽到次數的回歸系數為1.668,回帖數的回歸系數為0.222,作業均分的回歸系數為0.638。值得注意的是,簽到次數、回帖數和作業均分的顯著性水平分別為0.001、0.000和0.000,這表明它們的系數在統計上非常顯著。由此,我們可以構建出以下回歸方程:
表4列出了若干重要的殘差統計量。從該表中可以提取出預測值、殘差、標準預測值以及標準殘差的最小值和最大值等關鍵統計信息。具體來說,殘差的最大值為15.143,而最小值為-45.809,平均值則為0。圖3展示了標準化殘差的直方圖,這幅圖呈現了標準化殘差的頻率分布情況,清晰地表明標準化后的殘差基本符合正態分布特征。而圖4則呈現了標準化殘差的正態PP圖。該圖的橫軸代表實際觀察值的累積概率,縱軸則為理論預期的累積概率。如果樣本數據遵循正態分布類型,那么所有散點應當大致聚集在對角線附近。根據圖4的展示結果,可以確認該分布確實如此,進一步表明標準化殘差近似遵循正態分布,這與直方圖所示的結果一致。
結語
本文對MOOC學習者的學習行為和學習成效進行了探究分析。根據學習者的章節學習次數、簽到次數、討論回帖數及作業平均分四個特征,利用KMEAN算法對其進行聚類,并探討了不同類學習者的學習特征與學習成效之間的區別。進一步地,本文構建了學習者的學習成效與學習行為特征之間的多元線性回歸方程,分析結果表明,學生的學習成績主要受出勤次數、參與討論次數和歷次作業表現的影響。本項目運用數據挖掘技術及統計分析方法,對在線學習者的學習行為數據進行了深入分析,旨在探索學習行為數據中變量之間潛在的關系,并研究學習行為特征如何影響學習成效。通過對大數據分析結果的應用,可以為構建個性化學習模式和優化課程教學設計提供重要依據,從而增強教學改革的效果。
參考文獻:
[1]Chaplot"D"S,Rhim"E,Kimnbsp;J.Predicting"Student"Attrition"in"MOOCs"using"Sentiment"Analysis"and"Neural"Networks[C].CEUR"Workshop"Proceedings"1432,2015(3):712.
[2]TSENG"S"F,TSAO"Y"W,YU"L"C,et"al.Who"will"pass?Analyzing"learner"behaviors"in"MOOCs[J].Research"and"Practice"in"Technology"Enhanced"Learning,2016,11(1):111.
[3]賈積有,繆靜敏,汪瓊.MOOC學習行為及效果的大數據分析:以北大6門MOOC為例[J].工業和信息化教育,2014(9):2329.
[4]陳蘭嵐,宋海虹.基于MOOC數據挖掘的學習行為和學習成效分析[J].教育教學論壇,2019(21):5051.
[5]林麒麟,李川,俸世洲.基于MOOC數據挖掘的學習行為與成效研究[J].科技風,2019(25):246247.
基金項目:中央民族大學一流本科課程建設項目“高等數學(經管類)”(2024—2026)
作者簡介:馮杰(1982—"),女,漢族,山東濰坊人,博士研究生,講師,研究方向:數據挖掘、生物信息處理。