楊璐 郭文鋒 賀強 高宇鵬



摘? 要: MOOC(Massive Open Online Courses)作為典型的“互聯網+教育”模式正在影響著教育發展,但是較高的退課率影響了教學效果。根據“學堂在線”MOOC平臺收集的數據,對學習者的學習行為進行統計分析,發現不退課學習者的平均學習次數明顯多于退課學習者的平均學習次數。采用主成分分析法分析七種學習行為次數,提取出“完成作業”(problem)和“觀看視頻”(video)兩種學習行為作為影響退課的主要因素。采用機器學習方法AdaBoost算法對學習者是否退課進行預測。結果顯示,采用主成分分析法確定的兩種學習行為對退課預測具有明顯作用。
關鍵詞: MOOC; 主成分分析; AdaBoost; 退課預測
中圖分類號:TP399? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)08-33-04
Abstract: As a representative model of teaching via the Internet, Massive Open Online Courses (MOOC) has been influencing the development of education, but the high dropout rate bring out bad teaching effects. According to the data collected by MOOC platform xuetangx.com, the statistical analysis of learners' learning behavior shows that the average learning times of non-dropout learners are significantly higher than that of dropout learners. Principal component analysis (PCA) is used to analyze seven kinds of learning behaviors, and two kinds of learning behaviors, "problem" and "video", are extracted as the main factors affecting dropout. AdaBoost algorithm, a machine learning method, is used to predict whether learners will dropout or not. The results show that the two learning behaviors determined by the principal component analysis method have obvious effects on the prediction of dropout.
Key words: MOOC; principal component analysis; AdaBoost; dropout prediction
0 引言
MOOC(Massive Open Online Courses),中文稱為“慕課”,是教學模式借助互聯網發展的一種新型教學模式,具有課程免費、內容豐富、學習自由等特點。在過去的六年里,MOOC平臺不斷涌現,國內外著名高校紛紛在MOOC平臺開設精品課程,越來越多的學員通過MOOC平臺學習。
對MOOC的研究工作主要基于學習行為的統計進而對MOOC的教學設計提供建議。樊超[1]等采用人類動力學研究方法對用戶的學習時間間隔分布和持續時間分布、用戶學習的活躍性等進行了分析并提出了合理化建議。伍杰華[2]等使用統計方法對學習者的學習背景、課程完成情況、學習行為特征等進行分析。牟智佳[3]等通過視頻學習次數、評價參與次數、文本學習次數和論壇主題發起數分析,將MOOC學習群體分成三類。童小素[4]等通過學習行為分析,建立了MOOC質量評價指標體系,利用該體系進行評價實踐。安哲鋒[5]等針對MOOC學習質量建立模型,對學習內容的質量、學習支持的質量、學習交互的質量、學習期望的質量以及學習感知的質量五個方面進行分析,以促進MOOC學習質量的提升。王雪[6]等對教學視頻的學習評論進行分析,總結了教學設計、教學內容、教師和技術規范等四方面的MOOC教學視頻設計。張璐妮[7]等針對某MOOC平臺的外形課程和學習者數據,采用回歸分析方法對課程參與人數和討論區帖子關注度等因素進行分析。張潤芝[8]等選取了304門MOOC課程的基本信息和授課教師視頻語言表達技巧的信息,通過多元線性回歸分析法等研究了課程的基本信息對教師視頻語言表達技巧的影響。曹曉明[9]等通過MOOC視頻的不同組織方式對學習者的學習成績、認知負荷和專注度的影響進行了研究,為視頻制作提供了參考。
綜上所述,目前關于MOOC的研究主要集中在對學習行為的分析進而幫助改進教學設計,而對影響學習者學習效果因素的探索比較少,大量的學習者不能完成MOOC課程的學習。因此,本文基于“學堂在線”MOOC平臺學習者的學習數據,對影響MOOC退課的七種學習行為進行分析,采用機器學習方法(AdaBoost算法)對MOOC退課進行預測。
1 AdaBoosting算法
集成學習(Ensemble)[10]是在原始數據集上構建多個分類器(每個分類器稱為基分類器),然后采用一定的規則(如投票法)對未知樣本的類標簽進行預測。當各個基分類器之間是相互獨立的,且基分類器分類效果好于隨機猜測分類器時,集成分類器的性能優于單個分類器。
Boosting算法作為集成學習的一種,首先使用一種學習算法對訓練樣本進行分類,如果分類性能不高,則不能對所有樣本進行正確的分類。對于不能正確分類的樣本,則增大其權重,反之,對于正確分類的樣本就減小其權重,再重新進行學習。這樣迭代多次后,分類器就可以對所有樣本進行正確分類了。
AdaBoost算法[11]作為Boosting算法的典型代表,其基本思想是,初始時每個訓練樣本的權重相同,然后使用一個弱分類器對訓練集進行多次迭代訓練,根據訓練結果為訓練樣本重新賦予權重,即對不能正確分類的樣本賦予較大的權重,這樣在下次迭代訓練時重點學習那些不能正確分類的樣本。每次迭代后都會得到一個預測模型,每個預測模型根據其預測準確率也賦予一個權重。迭代結束后,產生一個預測模型序列。最后,對預測模型采用加權平均法得到最終的預測模型。詳細計算流程見算法1。
2 數據描述
本文采用的數據為“學堂在線”MOOC平臺2013年10月27日到2014年8月1日部分學習者的選課記錄和行為記錄,每條記錄包括學習者的注冊賬號、學習時間、學習方式、學習行為和是否退課。其中學習行為包括七種類型:完成作業(problem)、觀看視頻(video)、訪問課程內容(access)、訪問wiki(wiki)、課程討論(discussion)、瀏覽網頁(navigate)和關閉網頁(page_close)。
3 數據處理
首先,統計退課學習者和不退課學習者在整個學習期間每種學習行為的平均次數(見表1),其次,為了降低算法的計算復雜度,在不影響預測準確率的前提下,采用主成分分析法PCA[12](Principal Component Analysis)來降低數據的維度。主成分分析法PCA,是一種被廣泛使用的數據壓縮算法,其目的是在盡量減小信息損失的情況下,通過析取主成分(即方差較大的特征),將高維的數據轉換為低維的數據,從而降低算法的復雜度。本文選取方差占比超過80%的特征作為主成分。通過主成分分析法PCA對數據進行降維,每種學習行為的方差及方差占比計算結果見表2。
4 預測結果
本文選取的數據集為二分類非平衡數據集,不退課的學習者數為24961,退課的學習者數為95581,非平衡率為1:3.83。在傳統的分類方法中,常采用預測準確率(precision)作為評價指標。但對非平衡數據分類,準確率不能真正評價分類性能。在對非平衡數據分類的評價指標中,ROC(receiver operating characteristic)曲線[13]被認為是一種較全面的指標。ROC曲線取假正例率TPR=TP/(TP+TN)為橫坐標,取真正例率TPR=TP/(TP+TN)為縱坐標。分類結果的混淆矩陣見表3。采用ROC曲線下的面積(AUC)作為評價指標,AUC越大說明模型的分類性能越好。
從表4可以看出,采用主成分分析法降維后的數據較好地預測了退課率,預測精度基本未受影響,也反映了采用主成分分析法對原始數據集進行降維,選取的特征較好地反映了原始數據集的特征,保證了主成分分析方法的有效性。在描述學習的七種學習行為中,完成作業(problem)和觀看視頻(video)是影響退課的兩種主要學習行為。MOOC平臺可通過分析學習者的這兩種行為,及時發現可能會退課的學習者,盡早采取一定的措施(如向學習者推送學習提醒信息)以降低退課率。
5 總結與展望
“學堂在線”作為國內領先的MOOC平臺,于2013年10月10日正式啟動,經過五年多的發展,已運行了國內外幾十所頂尖高校的優質課程。與學習者選課人數相比,完成課程的人數太少。
本文選取“學堂在線”2013年10月27日到2014年8月1日近一年學習者的選課記錄,通過分析七種學習行為的平均次數,發現完成課程的學習者的平均次數要明顯多于退課學習者的平均次數。因此,本文首先對七種學習行為的次數進行匯總。然后通過主成分分析法進行特征提取,選取其中兩種學習行為(觀看視頻和完成作業),這兩種學習行為對學習者是否退課影響最大。最后采用AdaBoost算法對學習者退課進行預測,結果顯示其具有較高的準確率。而且對特征提取前后進行對比,采用“觀看視頻”和“完成作業”這兩種學習行為對學習者是否退課的預測,準確率略有下降,但在時間復雜度方面有明顯的改善,這也說明了采用主成分分析法對特征提取的有效性。
綜合本文分析,當教師設置MOOC課程時,應著重考慮視頻的設置、組織,以及作業集的設置、評分等環節。本文不足之處是未研究其余五種學習行為對學習者退課的影響,以及未考慮學習者的學習活躍性等因素對退課的影響。
參考文獻(References):
[1] 樊超,宗利永.MOOC在線學習行為的人類動力學分析[J].開放教育研究,2016.22(2):53-58
[2] 伍杰華,付慧平.MOOC學習行為的統計、預測與展望[J].工業和信息化教育,2017.2:81-89
[3] 牟智佳,武法提.MOOC學習結果預測指標探索與學習群體特征分析[J].現代遠程教育研究,2017.3:60-68,95
[4] 童小素,賈小軍.MOOC質量評價體系的構建探究[J].中國遠程教育(綜合版),2017.5:63-71
[5] 安哲鋒,張峰峰.MOOC學習質量立體模型的構建研究——基于學習者體驗視角的研究[J].成人教育,2018.38(6):21-26
[6] 王雪,周圍,王志軍等.MOOC教學視頻的優化設計研究——以美國課程中央網站Top20 MOOC為案例[J].中國遠程教育,2018.520(5):47-56
[7] 張璐妮,唐守廉,劉宇泓.MOOC學習者參與行為實證研究——以“中國大學MOOC”外語課程為例[J].北京郵電大學學報(社會科學版),2018.102(3):101-107
[8] 張潤芝.大規模開放在線課程教師視頻語言表達技巧影響因素研究[J].電化教育研究,2018.5.
[9] 曹曉明,朱姍,薛錫雅.實踐型慕課的視頻組織方式對學習效果影響的實驗研究[J].電化教育研究,2018.5.
[10] Dietterich T G. Ensemble Methods in Machine Learning[J].Proc International Workshgp on Multiple Classifier Systems,2000.1857(1):1-15
[11] Wu X, Kumar V. The Top Ten Algorithms in Data Mining[M].CRC Press,2009.
[12] H?skuldsson A. A combined theory for PCA and PLS[J].Journal of Chemometrics,1995.9(2):91-123
[13] Fawcett T. An introduction to ROC analysis[J].PatternRecognition Letters,2005.27(8):861-874