

摘要:隨著教育信息化的持續推進,教育領域產生了大量數據,如學生的基本信息、考試成績、答題記錄、課堂行為、學習情感等。這些數據包含了豐富的信息,反映了學生的知識水平、能力素質、學習風格、興趣愛好等方面。利用數據挖掘技術,可以從這些數據中提取有用的特征和模式,構建有效的預測模型,為教育管理和決策提供支持。本文使用機器學習方法對學生的數學成績進行預測,并比較和分析不同算法在預測性能和效率方面的差異。
關鍵詞:機器學習;數學成績預測;GBDT;隨機森林
一、引言
(一)研究背景及意義
隨著教育信息化的發展,教育數據的規模和復雜度不斷增加。如何有效地利用這些數據提高教學質量和效果,成了教育領域的一個重要課題。教育數據挖掘(Educational Data Mining, EDM)是一門運用數據挖掘技術和方法,對教育數據進行分析和挖掘,從中發現有價值的知識和規律,以支持教育決策和改進教育過程的學科[1]。
(二)國內外研究現狀
學生成績預測是教育數據挖掘和機器學習領域的一個重要課題,旨在利用學生的歷史數據和個人特征,構建有效的預測模型,從而為教育決策和教學改進提供參考和支持[4]。近年來,隨著教育信息化的發展和大數據技術的普及應用,對學生成績預測的研究也取得了一定的進展,主要表現在以下幾個方面:1.數據來源和類型的多樣化。2.方法的創新和技術的改進。3.應用場景的拓展和目標的深化。
(三)本文創新點
本文在基于機器學習的數學成績預測研究方面,具有以下幾個創新點:
1.本文利用了一種新穎的數據集,即來自中國教育部發布的全國中學生數學能力測試(National Mathematics Ability Test for Middle School Students, NMATMS)的數據集。該數據集包含了2019年和2020年兩屆全國中學生數學能力測試的參考資料、試題、答案、評分標準、成績分布等信息,以及參加測試的學生的基本信息、答題記錄、成績等信息。該數據集具有規模大、覆蓋廣、質量高、結構完整等特點,可以為數學成績預測提供豐富的數據源。
2.本文采用了一種先進的機器學習技術,即GBDT算法。該算法是一種集成式學習方法,通過迭代生成多棵決策樹,并將它們加權組合起來,形成一個強預測模型。該算法具有處理高維數據、處理非線性關系、處理缺失值、提高泛化能力等優點,可以為數學成績預測提供高效的技術手段。
3.本文針對一個具有實際意義和挑戰性的問題,即預測中學生在全國數學能力測試中的表現。該問題涉及對中學生數學水平和能力的評估及提升,對于教育改革和發展具有重要價值。本文不僅預測了學生在總分和等級上的表現,還根據預測結果提出了個性化的教育建議。
二、相關概念和理論技術
(一)教育數據挖掘相關概念
教育數據挖掘(Educational Data Mining, EDM)是一門運用數據挖掘技術和方法,對教育數據進行分析和挖掘,從中發現有價值的知識和規律,以支持教育決策和改進教育過程的學科[8]。
教育數據包含在教育活動中產生或收集的各種類型和形式的數據,包括學生的基本信息、學習行為、學習表現、學習反饋等,以及教師的教學行為、教學評價、教學資源、課程內容、考試題目等[9]。數據挖掘是指從大量復雜的數據中提取隱含的、有用的、潛在的信息和知識的過程,包括數據預處理、數據模式挖掘、數據模式評價和知識表示等步驟[10]。
(二)機器學習相關技術
機器學習算法是指根據不同的學習任務和目標,設計并實現數據分析和數據挖掘的算法,以發現數據中的知識和規律,或進行預測和分類等。機器學習算法可以分為以下幾種類型:
1.監督學習:監督學習是指利用帶有標簽的訓練數據來學習一個函數,然后用該函數對新的數據進行預測或分類。2.無監督學習:無監督學習是指不需要事先給定數據的標簽,而是根據數據本身的特征來發現數據的內在結構或模式。3.強化學習:強化學習是指通過與環境進行交互,不斷地嘗試、探索和學習,以達到最大化累積獎勵或最小化累積代價的目標。
(三)GBDT算法
GBDT算法是一種基于梯度提升(Gradient Boosting)思想的集成學習方法,它使用多棵回歸樹(Regression Tree)作為基學習器,通過迭代地擬合損失函數的負梯度來提升模型的性能。GBDT算法具有以下特點:
1.GBDT算法是一種加法模型,即每一棵樹都是在前面所有樹的基礎上進行優化,形成一個累加的效果。
2.GBDT算法是一種前向分布算法,即每一步只學習一個基學習器,并將其加入集成模型中,而不調整之前已經學習的基學習器。
3.GBDT算法使用了梯度提升的策略,即每一步都利用損失函數的負梯度作為殘差來擬合新的基學習器,從而使得損失函數下降最快。
4.GBDT算法使用了回歸樹作為基學習器。回歸樹可以處理數值型和類別型特征,可以自動進行特征組合和非線性擬合,可以通過剪枝和正則化來防止過擬合。
GBDT算法在數據挖掘、機器學習、計算廣告等領域有著廣泛的應用,它可以有效地提高預測準確性、降低泛化誤差、增強模型魯棒性。同時,GBDT算法也有一些局限性,比如它需要較長的訓練時間、不能處理高維稀疏特征、不能在線更新等。因此,針對GBDT算法的不足,出現了許多改進和優化的方法和變體,如XGBoost、 LightGBM、 CatBoost等。
三、 數據集處理與學生成績分析
(一)數據集描述
本文使用的數據集是來自中國教育部發布的全國中學生數學能力測試的數據集。該數據集包含了2019年和2020年兩屆全國中學生數學能力測試的參考資料、試題、答案、評分標準、成績分布等信息,以及參加測試的學生的基本信息、答題記錄、成績等信息。
(二)學生成績分析
為了幫助教師了解學生的學習狀況,提高教學質量和效果;幫助學生了解自己的學習情況,提高學習興趣和效率;幫助家長了解孩子的學習情況,讓家長提供合理的教育支持和引導,本節運用數據挖掘、機器學習、統計學等方法,對學生的考試成績、學習行為、學習態度等數據進行分析和挖掘,以發現學生的學習特點、能力水平、優勢劣勢、進退步情況等,從而為教育教學提供科學的依據和指導。
(三)數據集處理
數據集處理是指對原始數據進行一系列的操作,以提高數據的質量和適用性,為后續的機器學習建模和分析提供有效的數據輸入。為了構建有效且準確的成績預測模型,本文對數據集中的原始數據進行了標準化處理,將標稱類型和二元類型數據統一轉換為數值型數據。以下是經過統一數值轉換后的數據集屬性特征說明,詳見表1。
(四)預測模型評價指標
在本文的學生成績預測模型評估中,選用了幾個常見的分類模型效果評價指標,即準確率、精確度、召回率和F1分數。這些指標的選擇至關重要,因為機器學習任務的最終目標是構建具有強泛化能力的模型。
1.準確率(Accuracy):表示所有預測正確的樣本數量與總樣本數量之間的比例。準確率是評估模型整體性能的重要指標,其值越高越好。
2.精確度(Precision)**:精確度反映了模型預測為某一類別的樣本中有多少是真正屬于該類別的。這個指標衡量了模型的精確性,即模型的預測是否可靠。
3.召回率(Recall)**:召回率表示實際屬于某一類別的樣本中,有多少被模型正確檢測出來了。這個指標幫助我們了解模型對于某一類別的覆蓋程度。
4.F1分數(F1-score):F1分數是精確度和召回率的綜合考量,它平衡了模型的精確性和覆蓋率。F1分數值越高,表示模型在精確性和覆蓋率之間的平衡越好。
上述公式中,TN是指模型將負類別樣本正確地預測為負類別;FP是指模型將負類別樣本錯誤地預測為正類別;FN是指模型將正類別樣本錯誤地預測為負類別。
考慮到數據處理可能導致正負樣本不均衡問題,選擇這些評價指標有助于全面評估模型的性能,確保模型在不同方面均表現出色。這四個指標的目標都是追求最大化,即其值越高越好,以確保構建具有強泛化能力的學生成績預測模型。
四、 基于GBDT的數學成績預測研究
(一)實驗設計
本文使用了全國中學生數學能力測試(NMATMS)的數據集作為實驗數據,該數據集包含了2019年和2020年兩屆全國中學生數學能力測試的參考資料、試題、答案、評分標準、成績分布等信息,以及參加測試的學生的基本信息、歷史成績、家庭情況等信息。本文選取了2020年八年級學生的數據作為實驗對象,共有79078名學生,每個學生有13個特征和一個目標變量。特征包括性別、年齡、父母和睦關系、母親受教育程度、父親受教育程度、母親工作類型、父親工作類型、每周學習時長、學習遇挫次數、是否想要接受高等教育、上課缺勤次數、第一階段歷史成績、第二階段歷史成績等。目標變量是學生在數學能力測試中的總分,范圍是0-100分。
(二)實驗結果
本文使用Python語言和scikit-learn庫實現GBDT和隨機森林算法,并比較GBDT和隨機森林算法在數學成績預測方面的準確性。隨機森林算法是一種平均模型,即每一棵樹都是通過獨立的訓練并給出預測結果,然后對所有樹的結果進行平均或投票。隨機森林算法是一種自助聚合算法,即每一步都從原始數據集中有放回地抽取一個子集,并用該子集訓練一個基學習器。隨機森林算法使用了自主采樣和特征子空間采樣的方法引入隨機性,從而降低模型的方差和過擬合風險。隨機森林算法也使用了回歸樹作為基學習器,但與GBDT不同的是,隨機森林中的回歸樹不進行剪枝,而是完全生長,以保證每棵樹的高偏差和低方差。
(三)結果分析
1.性能:GBDT模型在準確率、精確度、召回率以及F1分數等評價指標上均優于隨機森林模型。這說明,在學生數學成績的預測任務中,GBDT模型能更準確地捕捉和學習數據之間的復雜關系。
2.計算效率:盡管GBDT在性能上表現更佳,但它在訓練階段所需的時間是隨機森林的兩倍。在需要快速迭代的場景中,其較長的模型訓練時間會成為制約應用的因素。在測試時間(預測時間)方面兩者相差不大,但隨機森林略快。
五、結束語
本文基于全國中學生數學能力測試(NMATMS)的數據集,使用了GBDT和隨機森林算法,對學生的數學成績進行預測,并對兩種算法的性能進行了對比和分析。實驗結果表明,GBDT在準確率、精確度、召回率和F1分數四種指標上都優于隨機森林,說明GBDT在學生數學成績預測方面有更好的準確性和泛化能力。但隨機森林在訓練時間上明顯優于GBDT,說明隨機森林有更高的計算效率。此外,本文使用了國內最大規模的中學生數學能力測試數據集,覆蓋了不同地區、不同類型、不同水平的中學生,反映了全國中學生數學能力的整體狀況和分布特征,具有較高的代表性和普遍性。
作者單位:朱梓銘 上海市寶山區上大附中
參考文獻
[1] 張文奇,王海瑞,朱貴富.基于因果推斷和多頭自注意力機制的學生成績預測[J].現代電子技術,2023,46(17):111-116.
[2] 李果,張萌,康瑞.基于logistic回歸的學生成績預測模型研究[J].中國信息技術教育,2023(15):77-80.
[3] 陳亞文. 基于機器學習的中職學生成績預測與分層教學實踐研究[D].山東師范大學,2023.
[4] 朱迪安. 數據驅動下高校學生畫像構建和成績預測方法研究[D].太原科技大學,2023.
[5] 郭鳴飛. 基于成績增值的高校教師教學質量評價研究[D].浙江科技學院,2022.
[6] 楊淑瑩,李軍廣.基于注意力機制的門控循環單元網絡學生成績預測[J].天津理工大學學報,2022,38(04):32-37.
[7] 王博.基于機器學習的數學成績預測系統設計[J].電腦知識與技術,2022,18(25):26-28+32.
[8] 單春宇,張怡文,張婷,等.融合時間序列和協同過濾的學生成績預測方法[J].淮北師范大學學報(自然科學版),2022,43(03):69-74.
[9] 徐琦,劉興紅,余亞烽,等.在線教育環境下基于學習者畫像的成績預測研究[J].考試研究,2022(05):89-99.
[10] 章劉,陳逸菲,袁加偉,等.Stacking集成學習模型在混合式成績分類預測中的應用[J].計算機系統應用,2022,31(07):325-332.