陳子健 朱曉亮



摘要:該文采用數據挖掘和機器學習的方法,研究從教育數據中挖掘影響在線學習者學業成績的因素并構建分類預測模型。首先,通過計算所有單個數據屬性和學業成績類別之間的相關系數和計算所有屬性的信息增益率兩種方法共同確定學業成績的影響因素。然后,提出采用集成學習的方法構建集成式學業成績分類預測模型,并比較多種算法構建的單一分類模型和集成分類模型的性能。最后,進一步采用嵌套集成學習的方法構建在線學習者學業成績分類預測模型,并對模型的性能進行評估。研究成果可以為在線學習者學業成績影響因素研究和預測建模研究提供借鑒,也有助于推進在線學習學業預警、學業成績預測和評價的實踐。
關鍵詞:教育數據挖掘;機器學習;預測建模;學業成績;在線學習
一、引言
在線教育已經逐漸被人們認可和接受,特別是在K12教育、語言類教育和職業技能培訓領域發展迅速。截至2016年12月,中國在線教育用戶規模達1.38億,較2015年底增加2750萬人,年增長率為25.0%。不同于面對面的課堂教學情境,在線學習中師生處于分離狀態,且學習者數量龐大。如何對在線學習者的學業成績進行預測,依據預測結果實施學業預警,并為教學決策提供依據,是在線教育需要解決的一個問題。利用教育數據挖掘技術,通過數據驅動的方式構建在線學習者學業成績預測模型,即從數據中自動學習預測模型是目前研究的熱點。……