杜佳恒 邱飛岳



摘要:學生的成績是教師優化教學過程、調整教學決策的重要標準,文章運用了多種機器學習算法對學生的數學成績進行建模,通過比較模型的準確率、精確率、召回率、F1-Score,最終確定了人工神經網絡是最優的模型。通過對數據特征重要性評估,得出了影響學生成績的主要因素是母親的工作、父親的工作、出勤量、掛科數、健康狀況、出去玩的頻率及周飲酒量的結論。
關鍵詞:機器學習;成績預測;支持向量機;樸素貝葉斯網絡;決策樹;神經網絡
中圖分類號:G642.0? ? ?文獻標志碼:A? ? ?文章編號:1674-9324(2020)16-0101-02
一、引言
近年來,隨著信息技術的發展,人類正從IT時代走向DT時代,教育相關的數據在內容與數量上有了巨大的增長,越來越多的研究者開始對教育數據進行探索和分析,目的是發現教育的新特點、新規律,以提高教學水平和教育質量。本研究將機器學習算法方面的內容應用到教育領域中,通過對學生數學成績數據進行預處理、特征選擇、模型構建及評估來預測學生的成績,從而為老師提高學生成績提供一定的建議。
二、研究方法
本次研究將采用多種機器學習算法對學生的成績進行預測,包括支持向量機、樸素貝葉斯網絡、決策樹、人工神經網絡。通過對各個模型的對比,最終選擇出一個最優的模型,并根據該最優模型為老師的教和學生的學提供一定的指導。
三、實驗數據
本次研究中用到的數據集來源UCIMachineLearningRepository,它是一個多變量數據集,由30個特征列和一個目標列構成,包括395條學生數學成績及一些影響成績的相關數據,如人口統計學、社會和學校相關的數據等。
四、數據預處理與特征選擇
首先對數據進行探索性分析,檢查數據集有沒有空缺值及異常值;對于目標列,這里按照大于10分設為1,其他為0的方式進行量化,目的是通過訓練,找出可以預測分數的模型。由于該數據集包含不同內容和范圍的數據,所以如何對其進行歸一化就顯得特別重要,因為進行了歸一化后的數據可以使模型更加有效地進行建模。對于文本數據,我們首先可以將其數字化,而后對其進行獨熱編碼。
其次是特征選擇,特征選擇主要的特點是選擇一個子類的特性,可以作為一個輸入數據,并減少不合適的數據,此步驟有助于提高對給定數據集預測的準確性。在本研究中,我們采用隨機森林計算特征重要性程度,以檢驗哪些特征對學生的成績最重要。圖1顯示了基于熵的特征重要性。在特征選擇過程中,需要選擇高等級特征,排除其他特征。
五、成績預測模型構建
基于上述預處理后的數據,采用10折交叉驗證的方式,分別采用支持向量機、樸素貝葉斯網絡、決策樹和神經網絡進行了實驗。
實驗運行的環境是:Windows10家庭版、Python3.7、Inteli7-7500U以及8G內存。預測模型各個指標的性能如表1和表2所示。這里使用的性能評價標準為準確率、精確率、召回率、F1-Score。準確率是用來衡量模型對數據集中樣本預測正確的比例;精確率是指被預測為正例的樣本中有多少是真正的正例;召回率是用來評判你有沒有把樣本中所有的真的正例全部找出來,指的是預測為某一類別的真實類別占所有真實類別的比例;F1-Score是指精確率與召回率的調和平均值。
六、總結
本文通過多種算法對學生成績進行了建模,通過比較模型的準確率、精確率、召回率、F值,確定了人工神經網絡為最佳的分類模型,并得出了影響成績的主要特征。通過實驗結果,可以為學校管理者、教師開展精準教學提供一定的參考,由于本次數據集不大,會影響模型的準確率,接下來將會收集更多數據進行建模。
參考文獻:
[1]胡祖輝,徐毅.大數據背景下高校教育數據的分析與應用研究[J].現代教育科學,2017,(01):109-114.
[2]徐瑋.大數據對高等教育的影響和挑戰[J].教育教學論壇,2013,(37):4-5.
[3]ROMERO C,LOPEZ MI.Predictingstudents'final performance from participation in on-line discussion forums[J].Computers & Education,2013,(68):458-472.
Research on the Application of Machine Learning in Mathematics Achievement Prediction
DU Jia-heng,QIU Fei-yue
(Zhejiang University Technology,Hangzhou,Zhejiang 310014,Chian)
Abstract:Students' performance is an important standard for teachers to optimize teaching process and adjust teaching decision-making.In this paper,a variety of machine learning algorithms are used to model students' mathematical performance.By comparing the accuracy,accuracy,recall rate and F1 score of the model,it is finally determined that the artificial neural network is the optimal model.Through the evaluation of the importance of data characteristics,the main factors affecting students' performance are mother's work,father's work,attendance,number of subjects,health status,frequency of going out to play and weekly alcohol consumption.
Key words:machine learning;performance prediction;support vector machine;naive bayesian network;decision tree;neural network
收稿日期:2019-06-10
作者簡介:杜佳恒(1994-),男(漢族),浙江杭州人,浙江工業大學教育科學與技術學院,碩士研究生在讀,研究方向:教育大數據與學習分析。
通訊作者:邱飛岳。