郭文鋒 樊超 郭新東
摘 要: MOOC(Massive Open Online Courses)作為一種新的教學模式正發(fā)展得如火如荼,但學員退課率一直高居不下,直接影響了MOOC教師以及MOOC平臺的發(fā)展。本研究以“學堂在線”平臺學員的學習行為數(shù)據(jù)為基礎,對影響退課的七種學習行為進行相關性分析,為了避免多重指標帶來的多重共線性問題,根據(jù)相關性較小的原則選擇其中的五種學習行為。最后采用二元邏輯回歸模型進行建模并預測學員的退課情況。實驗表明,選取的五種學習行為對退課影響顯著,預測準確率較高。本研究為MOOC教師盡早采取教學干預提供了一定的理論依據(jù)。
關鍵詞: MOOC; 學習行為; 相關性分析; 二元邏輯回歸; 退課預測
中圖分類號:G434 文獻標志碼:A 文章編號:1006-8228(2017)12-50-04
Predicting the MOOC dropout rate with binary logistic regression model
Guo Wenfeng1, Fan Chao1, Guo Xindong2
(1. College of Arts and Sciences, Shanxi Agricultural University, Taigu, Taigu 030801, China;
2. College of Information Science and Engineering, Shanxi Agricultural University)
Abstract: Although MOOC develops prosperously as a new teaching model, the dropout rate of trainee remains high all the time. This will directly influence the development of MOOC teachers and MOOC platforms. According to the data from xuetangx.com, this study analyzes the correlation of seven learning behaviors affecting dropout. To avoid multicollinearity generated from multiple indicators between seven learning behavior, five of them are selected based on the rule of little correlation. Binary logistic regression model is used to predict the dropout rate. Experiments demonstrate that the selected five learning behaviors have significant influence to the dropout and the accuracy of prediction is higher. The study offers a theoretic basis for MOOC teachers to take teaching intervention as soon as possible.
Key words: MOOC; learning behavior; correlation analysis; binary logistic regression; dropout prediction
0 引言
MOOC(Massive Open Online Courses),大型開放式網(wǎng)絡課程,簡稱“慕課”,是近幾年由美國一些著名大學發(fā)起的網(wǎng)絡學習平臺。與傳統(tǒng)的課堂學習相比,MOOC具有如下特點:①采用各種社交網(wǎng)絡工具,形式多樣化;②課程的學習不受空間和時間的限制;③課程對學員的學歷沒有任何限制;④更強調(diào)學員的學習自主性。
目前對MOOC的研究基本可以歸結(jié)為三類。
⑴ 通過分析學習行為發(fā)現(xiàn)規(guī)律,改善MOOC教學活動以及評價體系。
Yousef等通過對在線課程、遠程課程和MOOC的相關文獻分析,提出了一套包含75個評價指標的MOOC質(zhì)量保障標準[1]。童小素等在借鑒已有評價規(guī)范的基礎上,采用文獻調(diào)研法和專家訪談法,建立了一套質(zhì)量評價指標體系,其中包括3個一級指標和26個二級指標[2]。秦瑾若等通過MOOC與傳統(tǒng)網(wǎng)絡課程教學活動的對比,提出基于深度學習理論的MOOC學習活動設計,并將其應用于“現(xiàn)代教育技術(shù)”課程中[3]。樊超等從人類動力學的角度對MOOC在線學習行為進行分析發(fā)現(xiàn),用戶的選課量和選課人數(shù)存在很大差異,在線學習具有陣發(fā)和重尾的特征,以及在線學習時間和次數(shù)服從冪律分布[4]。
⑵ 通過對學習行為進行統(tǒng)計分析,進而提出整改意見。
李帥等以東北大學MOOC平臺上的《高級語言課程設計》課程為數(shù)據(jù)集,對學生的知識點學習情況、在網(wǎng)站上的逗留時間以及觀看視頻的行為動作(快進/退、全屏、跳轉(zhuǎn)課程、暫停、滾動條滾動、文本模塊間跳轉(zhuǎn))進行了統(tǒng)計分析[5]。吳江等分別從選課、退課、課程參與和成績四個方面對愛課程網(wǎng)絡平臺上的一門課程的學習者行為進行統(tǒng)計分析[6]。王萍等基于edX平臺的數(shù)據(jù)集,采用統(tǒng)計分析方法,對學習者類型、特征、行為進行分析研究[7]。徐舜平等借鑒數(shù)據(jù)挖掘中的回歸分析方法,對“學堂在線”平臺的一門課程“電路原理”學習行為數(shù)據(jù)進行研究[8]。
⑶ 通過對學習行為與學習效果之間的關系進行分析,建立模型對學習效果進行預測。
蔣卓軒等針對北京大學在Coursera上開設的6門慕課,通過分析學習行為特點將學習者進行分類,并通過學習者的若干典型行為特征對學習成果進行預測[9]。伍杰華等以edX在線學習網(wǎng)站上2012-2013年學生學習的信息為基礎,對學習者的性別、學歷、國籍、課程交互次數(shù)、課程訪問天數(shù)、播放視頻次數(shù)、學習章節(jié)數(shù)做了統(tǒng)計分析,最后采用機器學習的SVM和KNN算法進行建模并對完課率進行了預測[10]。李曼麗等以“學堂在線”平臺的一門課程的學習數(shù)據(jù)為基礎,采用Tobit和Logit兩個定量分析模型,分別對MOOC學習者的課程參與和完成情況進行深入分析[11]。Jiang, S.等以學習者第一周的MOOC完成課后作業(yè)和在線討論為研究對象,采用邏輯回歸方法預測學習者獲得證書的概率[12]。
綜上所述,目前關于學習行為對退課影響的研究比較少, MOOC較高的退課率嚴重影響了MOOC的持續(xù)發(fā)展。本文試圖通過分析學員的七種學習行為與退課的關系,采用二元邏輯回歸模型對學員的退課進行預測,為MOOC的教學改革提供一定的理論依據(jù)。
1 邏輯回歸模型
邏輯回歸模型是機器學習中一種重要的分類模型,由于其算法簡單、高效且容易被推廣而被廣泛應用。例如預測用戶點擊某商品后是否會購買,預測學生成績及格與否等。這些都屬于二分類問題。除此之外,邏輯回歸也被推廣至多類的分類問題。本文主要研究MOOC的學員是否會退課,故選擇邏輯回歸模型的二元邏輯回歸方法。
一般地,線性回歸函數(shù)為:y=f(x)=θTX,其中X=(x1,x2,…,xm)T為樣本點,θ=(θ1,θ2,…,θm)T為參數(shù)向量。函數(shù)是樣本X的各個屬性的線性組合,參數(shù)θ表示了X中各個屬性對結(jié)果的影響程度。
二元邏輯回歸模型可以表示為:,其中y∈{0,1},。決策函數(shù)為:。
為了找到參數(shù)θ,可以采用最大似然估計,即使得最大。
2 實例研究
本文選取“學堂在線”MOOC平臺的學員學習記錄(包括選課記錄和行為記錄)為數(shù)據(jù)集,采用二元邏輯回歸模型對學員的退課情況進行分析,并對退課進行預測。
2.1 MOOC數(shù)據(jù)描述
“學堂在線”MOOC平臺于2013年10月10日正式向全球發(fā)布,是教育部在線教育研究中心的研究交流和成果應用平臺。本文采用的數(shù)據(jù)集為“學堂在線”為KDD-2015 CUP競賽提供的公開數(shù)據(jù)。
數(shù)據(jù)記錄了2013年10月27日至2014年8月1日“學堂在線”MOOC平臺的部分學員的選課記錄和行為記錄,其中包括112,448名學員、39門課程、200,905人次選課記錄和13,545,124條行為記錄,且每個學員至少選修過一門課程。
其中,行為記錄包括七種學習行為:完成課后作業(yè)(problem)、觀看課程視頻(video)、訪問課程內(nèi)容(access)、訪問課程wiki(wiki)、參與課程論壇討論(discussion)、訪問課程其他部分(navigation)和關閉網(wǎng)頁(page_close)。為了研究七種不同學習行為對退課的影響,本文對每個學員在整個學習期間的七種學習行為分別進行匯總,得到每個學員每種行為的總次數(shù),分別記為:X1、X2、X3、X4、X5、X6和X7。
2.2 變量選擇
首先研究不同學習行為與退課(1表示退課,0表示繼續(xù)學習)的線性相關性。七種學習行為與退課的皮爾遜積矩相關系數(shù)如表1所示。
從表1可以看出,七種學習行為與退課的相關系數(shù)都是負數(shù),即學習行為發(fā)生的總次數(shù)越多,退課率越低,與實際情況相符。按相關系數(shù)的絕對值進行排序,X4(wiki)和X5(discussion)與退課相關性最小,說明訪問課程wiki和參與論壇討論對退課影響較小。
其次,為了避免變量之間的多重共線性問題,本文對七種學習行為兩兩計算皮爾遜積矩相關系數(shù),將相關系數(shù)≥0.8認定為高度相關的變量,應將高度相關的一對變量中的一個予以排除。七種學習行為之間的皮爾遜積矩相關系數(shù)如表2所示。
從表2可以看出,X2(video)和X3(access)之間的相關系數(shù)為0.81,因為觀看課程視頻可能會涉及課程內(nèi)容,如觀看課程視頻與閱讀教材相結(jié)合,所以觀看視頻越多,訪問課程內(nèi)容也會越多。X2(video)和X7(page_close)之間的相關系數(shù)為0.82,因為觀看課程視頻與關閉網(wǎng)頁高度相關,課程視頻位于一個網(wǎng)頁上,觀看完視頻會關閉網(wǎng)頁,所以觀看視頻越多,關閉網(wǎng)頁自然越多。
這里我們排除X3(access)和X7(page_close)這兩個變量,下一節(jié)我們將選取X1(problem)、X2(video)、X4(wiki)、X5(discussion)和X6(navigation)這五個變量(學習行為)對退課進行建模。
2.3 預測模型建立
本文采用二元邏輯回歸模型,預測MOOC學員的退課情況。假設P(P∈[0,1])為學員的退課率,則(1-P)為不退課率。P/(1-P)為學員退課的邏輯回歸比,對其取自然對數(shù)為ln[P/(1-P)]。
假設自變量為Z1(problem)、Z2(video)、Z3(wiki)、Z4(discussion)和Z5(navigation),因變量為P,則邏輯線性回歸方程為:,其中θi(i=0,1,2,3,4,5)為邏輯回歸系數(shù)。則根據(jù)上式可得,學員退課發(fā)生的概率為:。根據(jù)決策函數(shù)(見1.邏輯回歸模型)可知,當P>0.5時,預測為學員退課(結(jié)果為1);否則,預測為學員不退課(結(jié)果為0)。
2.4 預測結(jié)果
為了評價二元邏輯回歸模型對MOOC退課的預測性能,本文采用的評價指標有準確率(accuracy)、查準率(precision)、查全率(recall)、F1和AUC。
為了計算指標值,本文引入二分類混淆矩陣。即把退課(1)作為正類,不退課(0)作為負類。則分類結(jié)果的混淆矩陣如表3所示。
從表4可以看出,盡管MOOC數(shù)據(jù)集存在類別偏斜的情況,即正例與負例的數(shù)量之比為95581:24961,但accuray仍然達到了0.84。同時,precision值與recall值比較接近,所以F1值較接近最大值,說明二元邏輯回歸模型較好地對MOOC的退課情況進行了預測。
為了評價預測模型的泛化能力,本文引入ROC曲線。ROC曲線的橫坐標為假正例率、縱坐標為真正例率。ROC曲線下面積(AUC)的大小決定了模型的泛化能力,AUC越大說明模型的泛化能力越強。
從圖1可以看出,實線即為二元邏輯回歸模型的ROC曲線(AUC=0.78,即陰影區(qū)域面積),虛線為隨機模型對應的ROC曲線(AUC=0.5,即虛線下方區(qū)域面積)。由于0.78>0.5,說明二元邏輯回歸模型較好地預測了實例。同時也說明了本文選取的五個變量(學習行為)是比較合適的,它們較好地反映了數(shù)據(jù)集的特征。
3 總結(jié)與討論
本文研究七種不同學習行為對退課的影響,通過相關分析,選擇其中對退課影響最顯著的五種,然后建立預測模型——二元邏輯回歸模型并對退課情況作出預測。在這五種學習行為中,①訪問課程的其他部分(navigation)、觀看課程視頻(video)以及完成課后作業(yè)(problem)對退課影響最大。可以推斷,要完整學完一門課程,除了觀看課程視頻,還要做課后作業(yè),以及參考課程的其他內(nèi)容。為了提高課程的完課率,MOOC平臺可以針對觀看視頻次數(shù)少,完成課后作業(yè)少的學員實施教學干預。②參與課程論壇討論(discussion)對退課影響較小,原因可能是MOOC平臺提供的是文字形式的討論方式,不利于有效交流與溝通。為此,MOOC平臺可以設置視頻或語音形式的討論模式。
本文的不足之處是,MOOC數(shù)據(jù)集對學員以及課程信息進行隱藏,使得本文無法深入理解學員的不同學習行為對課程退課的影響以及影響程度。今后將選取不同MOOC學習平臺以及多學科課程數(shù)據(jù)作為研究對象,探索學習行為對不同學科課程退課情況的影響,為MOOC教學干預提供借鑒和參考。
參考文獻(References):
[1] Yousef A M F, Chatti M A, Schroeder U, et al. What Drives
a Successful MOOC? An Empirical Examination of Criteria to Assure Design Quality of MOOCs[C]// IEEE, International Conference on Advanced Learning Technologies. IEEE,2014:44-48
[2] 童小素,賈小軍.MOOC質(zhì)量評價體系的構(gòu)建探究[J].中國遠
程教育:綜合版,2017.5:63-71
[3] 秦瑾若,傅鋼善.基于深度學習理論的MOOC學習活動設計
——以“現(xiàn)代教育技術(shù)”課程為例[J].現(xiàn)代教育技術(shù),2017.5:12-18
[4] 樊超,宗利永.MOOC在線學習行為的人類動力學分析[J].開
放教育研究,2016.22(2):53-58
[5] 李帥,張巖峰,于戈等.MOOC平臺學習行為數(shù)據(jù)的采集與分
析[J].中國科技論文,2015.20:2373-2376
[6] 吳江,馬磐昊.MOOC學習者行為分析研究——以愛課程平
臺的一門慕課為例[J].知識管理論壇,2015.3.
[7] 王萍.基于edX開放數(shù)據(jù)的學習者學習分析[J].現(xiàn)代教育技
術(shù),2015.25(4):86-93
[8] 徐舜平,趙慶剛,許健等.基于數(shù)據(jù)挖掘的MOOC學習過程監(jiān)
測指標分析——以“電路原理”課程為例[J]. 現(xiàn)代教育技術(shù),2017.27(3):119-126
[9] 蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學習行為分析與預
測[J].計算機研究與發(fā)展,2015.52(3):614-628
[10] 伍杰華,付慧平.MOOC學習行為的統(tǒng)計、預測與展望[J].工
業(yè)和信息化教育,2017.2:81-89
[11] 李曼麗,徐舜平,孫夢嫽.MOOC學習者課程學習行為分析
——以“電路原理”課程為例[J].開放教育研究,2015.21(2):63-69
[12] Jiang, S., Warschauer, M., & Williams, A. et al.(2014).
Predicting MOOC Performance with Week 1 Behavior[A]. Proceedings of the 7th International Conference on Educational Data Mining[C].Worcester: Worcester Polytechnic Institute:273-275