郝巧龍
近年來,MOOC以“互聯(lián)網(wǎng)+教育”模式迅速發(fā)展,積累了海量學(xué)習(xí)行為數(shù)據(jù),MOOC學(xué)習(xí)行為分析及成績預(yù)測成為研究熱點。筆者收集學(xué)習(xí)行為數(shù)據(jù),用Clementine構(gòu)建了MOOC成績預(yù)測模型,為驗證其有效性,依托智慧樹平臺數(shù)據(jù)結(jié)構(gòu)課程的行為數(shù)據(jù)展開實證研究,旨在為其課程團(tuán)隊提供指導(dǎo)意見。
【關(guān)鍵詞】MOOC 數(shù)據(jù)挖掘 回歸分析 成績預(yù)測模型
MOOC(Massive Open Online Course)的理想是任何人在任何時間和地點學(xué)到任何知識。2012年斯坦福大學(xué)等名校組建了Coursera、Udacity和edX平臺。2013年清華北大等名校和互聯(lián)網(wǎng)公司展開了MOOC實踐,研發(fā)了學(xué)習(xí)者在線交互平臺,為分析成績與行為的關(guān)系提供數(shù)據(jù)支持。國內(nèi)在部分課程上進(jìn)行MOOC教學(xué)但實證研究較少。蔣卓軒[2]首次描述中文MOOC學(xué)習(xí)行為并預(yù)測成績。Suhang Jiang用績效考核和公開課結(jié)合進(jìn)行一周的干預(yù),用logistic回歸分析預(yù)測成績驗證了及時干預(yù)的激勵作用。筆者理論上對比國內(nèi)外學(xué)習(xí)行為分析及成績預(yù)測成果,用線性回歸分析構(gòu)建了MOOC成績預(yù)測模型;實踐上用Clementine進(jìn)行實證研究,預(yù)測效果良好并提出應(yīng)用方案,為教師的決策支持提供嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)保障。
1 成績預(yù)測模型構(gòu)建
筆者分五個模塊構(gòu)建了MOOC成績預(yù)測模型(圖1)。
模塊一:確定變量初始集。根據(jù)預(yù)測目標(biāo)確定變量范圍,回歸分析的前提是因變量為數(shù)值型變量。
模塊二:全部變量進(jìn)入回歸方程。選擇進(jìn)入法和逐步法將全部變量加入方程中便于對比預(yù)測結(jié)果。
模塊三:篩選重要影響變量進(jìn)入回歸方程。為保證結(jié)果的普適性,需要對變量初始集依次進(jìn)行散點圖分析、統(tǒng)計量分析和特征選擇,剔除相關(guān)性弱的構(gòu)成變量集3。在變量集3上選擇上述兩種方法進(jìn)入方程。
模塊四:評估預(yù)測模型確定最優(yōu)回歸模型。方程通過回歸方程的擬合優(yōu)度檢驗、回歸方程的顯著性檢驗和回歸系數(shù)的顯著性檢驗后才能用于實際問題,通過評估模塊二、三的模型確定最優(yōu)模型。模塊五:呈現(xiàn)預(yù)測模型結(jié)果。模型結(jié)果直觀呈現(xiàn)變量關(guān)系,形式為Y=ε+β0+β1X1+β2X2+…+βkXk。因變量Y為總成績;ε為誤差且ε~N(0,σ2);β0…βk為未知參數(shù);自變量X1…Xk為影響因素。
2 實證研究
在2015年3月至6月數(shù)據(jù)結(jié)構(gòu)的學(xué)習(xí)行為數(shù)據(jù)上展開研究,因為有本校學(xué)生參與,分析結(jié)果可信度強(qiáng)。所用設(shè)備是Intel Core i3處理器,Win 7操作系統(tǒng),2.27GHz主頻,6G內(nèi)存。
2.1 研究過程
模塊一:預(yù)處理行為數(shù)據(jù)存入learner_all表得到變量初始集。總成績?yōu)橐蜃兞縔,自變量是學(xué)生編號、學(xué)校編號、持續(xù)時間、學(xué)習(xí)進(jìn)度、觀看時長、筆記數(shù)、一~七次作業(yè)成績、發(fā)帖數(shù)、回帖數(shù)、得分帖數(shù)、一~六次見面課成績、在線成績、論壇得分、見面課成績和期末成績,編號為X1~X26。
模塊二:X1不起作用將其過濾;將總體樣本分區(qū)70%為訓(xùn)練集30%為測試集;添加回歸模型目標(biāo)為總成績,選擇進(jìn)入法和逐步法使全部變量進(jìn)入方程,為模型結(jié)果連接表輸出和分析節(jié)點,執(zhí)行數(shù)據(jù)流(圖2)顯示結(jié)果。
模塊三:一是散點圖分析:讀入learner_all設(shè)置總成績?yōu)檩敵銎渌兞繛檩斎?;添加散點圖節(jié)點Y軸為總成績X軸為25個自變量,X2、X9、X10與Y不相關(guān)將其剔除得到變量集1。二是統(tǒng)計量分析:添加統(tǒng)計量節(jié)點由Pearson相關(guān)性強(qiáng)度得知X3與Y相關(guān)性弱剔除后構(gòu)成變量集2。三是特征選擇:添加特征選擇節(jié)點目標(biāo)為總成績輸入為21個自變量,其中X4變異系數(shù)低將其剔除形成變量集3。為變量集3添加分區(qū)節(jié)點設(shè)置同模塊二;添加回歸模型選擇進(jìn)入法和逐步法執(zhí)行,為模型結(jié)果連接表輸出和分析節(jié)點,執(zhí)行數(shù)據(jù)流(圖2)顯示結(jié)果。
模塊四:
(1)回歸方程的擬合優(yōu)度檢驗
依據(jù)判定系數(shù)R2和估計標(biāo)準(zhǔn)差來檢驗,R2越接近1表明擬合優(yōu)度越高。進(jìn)入法使變量進(jìn)入方程(無論篩選變量與否),R2均為1表明擬合優(yōu)度高。逐步法進(jìn)入方程R2為1估計標(biāo)準(zhǔn)差為0.314小于進(jìn)入法的0.331,顯示出逐步法的優(yōu)越性且擬合優(yōu)度提高。
(2)回歸方程的顯著性檢驗
依據(jù)概率p值、殘差平方和、殘差均方進(jìn)行檢驗,p小于0.05表明因變量與所有自變量線性關(guān)系顯著。進(jìn)入法使變量進(jìn)入方程(無論篩選變量與否),p為0線性關(guān)系顯著。表明篩選變量后方程變精練預(yù)測能力未減弱。逐步法建模后殘差均方減至0.110小于進(jìn)入法的0.111,p為0線性關(guān)系顯著。
(3)回歸系數(shù)的顯著性檢驗
依據(jù)概率p值進(jìn)行檢驗,p小于0.05表明自變量與因變量線性關(guān)系顯著。進(jìn)入法使全部變量進(jìn)入方程,僅7個變量p值小于0.05線性關(guān)系不顯著。進(jìn)入法使重要影響變量進(jìn)入方程,較多變量p值大于0.05但值變小。表明篩選變量后線性關(guān)系有改善。逐步法建模p最大為0.02表明線性關(guān)系顯著。
為直觀展示預(yù)測效果,連接四個回歸模型添加分析、評估和輸出表節(jié)點。全部變量_進(jìn)入法對應(yīng)為$E-總成績,篩選變量_進(jìn)入法對應(yīng)$E1-總成績,全部變量_逐步法對應(yīng)$E2-總成績,對應(yīng)$E3-總成績。分析節(jié)點結(jié)果表明測試集的最大/小誤差比訓(xùn)練集小,且$E3-總成績最佳。評估節(jié)點結(jié)果顯示$E3-總成績增益明顯接近最佳線。圖3展示了訓(xùn)練集和測試集的預(yù)測值與總成績吻合。綜上所述,最優(yōu)回歸模型是篩選變量_逐步法所得的模型。
模塊五:結(jié)果表達(dá)式為
2.2 研究結(jié)果
2.2.1 結(jié)果分析
結(jié)果表明系數(shù)不同對總成績的影響也不同。X24、X23、X25和X26權(quán)重較大。論壇中發(fā)/回帖數(shù)反映學(xué)習(xí)積極性,得分帖數(shù)反映知識掌握程度,論壇參與越積極總成績越高;在線學(xué)習(xí)時觀看視頻次數(shù)越多知識掌握越牢固,自主學(xué)習(xí)能力越強(qiáng)越及時提交作業(yè);見面課是學(xué)習(xí)者與教師進(jìn)行互動探討極大提升積極性;梳理前期知識能顯著提高期末成績。
2.2.2 應(yīng)用方案
一是學(xué)習(xí)者進(jìn)行自我干預(yù);二是教師和管理者對學(xué)習(xí)者進(jìn)行人工干預(yù);三是開發(fā)者接受學(xué)習(xí)者的建議后對學(xué)習(xí)者進(jìn)行系統(tǒng)干預(yù)。
學(xué)習(xí)者應(yīng)對重點環(huán)節(jié)做出自我調(diào)整,提高自主學(xué)習(xí)能力,縮短學(xué)習(xí)懈怠時間。教師和管理者應(yīng)精心設(shè)計教學(xué)視頻和題庫,激發(fā)學(xué)習(xí)興趣提高在線成績;論壇討論應(yīng)縮短答疑時間,高質(zhì)量帖子應(yīng)加分;見面課是人工干預(yù)的好時機(jī),能直觀地調(diào)動各校學(xué)習(xí)者的積極性,及時解決疑難點;期末考試題的設(shè)計應(yīng)有區(qū)分度。開發(fā)者應(yīng)以改進(jìn)在線體驗和提供優(yōu)質(zhì)資源為目標(biāo),增加個性化制定學(xué)習(xí)計劃模塊,根據(jù)學(xué)習(xí)者設(shè)置的自我干預(yù)條件及時提醒和系統(tǒng)干預(yù)。
3 結(jié)束語
筆者宏觀上運用多元線性回歸分析構(gòu)建了普適的成績預(yù)測模型,微觀上進(jìn)行實證研究,所得表達(dá)式使得教師和學(xué)習(xí)者可直接定位重點模塊,同步提高教和學(xué)的效果。預(yù)測結(jié)果為教師和管理者的決策支持提供了嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)保障,為后續(xù)學(xué)習(xí)行為分析及成績預(yù)測起到借鑒和推動作用。
參考文獻(xiàn)
[1]湯敏.慕課革命:互聯(lián)網(wǎng)如何變革教育[M].北京:中信出版社,2015.
[2]蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J].計算機(jī)研究與發(fā)展,2015,03:614-628.
作者單位
中國海洋大學(xué)信息科學(xué)與工程學(xué)院 山東省青島市 266100