曹夢川 歐陽儀 伍丹 杜朋軒



摘? 要:對學生的學習成績進行預測分析,提前預警學生可能存在的掛科或成績下降風險,從而幫助學生和教師更好地制定學習計劃和提高教學效率。采集了包括學生的平時成績、考勤、性別和期末成績等多種因素的數據,使用線性回歸模型進行數據建模和預測分析。研究結果表明,該模型預測誤差小,具有實際應用價值。研究成果可為學生和教師提供有益的參考,以便更好地實現教育教學目標。
關鍵詞:機器學習;數據建模;預測分析;線性回歸
中圖分類號:TP181;TP39? 文獻標識碼:A? 文章編號:2096-4706(2023)19-0142-04
Research on Student Learning Situation Early Warning Method Based on Machine Learning
CAO Mengchuan, OU Yangyi, WU Dan, DU Pengxuan
(Ningxia Polytechnic, Ningxia? 750021, China)
Abstract: This research focuses on predicting and analyzing students' academic performance, gives an early warning of possible risk of failing or declining grades in advance, and helps students and teachers better plan their studies and improve teaching efficiency. The research collects data on various factors including students' regular grades, attendance, gender, and final grades, and uses linear regression models for data modeling and prediction analysis. The results show that the model has small prediction errors and practical application value. The results of this research can provide useful references for students and teachers to better achieve educational and teaching goals.
Keywords: Machine Learning; data modeling; prediction analysis; linear regression
0? 引? 言
學生成績是評價學生學習成果的重要指標之一。然而,現今本科、大專的教育模式與高中、初中的截然不同,因每學期代課的班級、院系、年級不同,教師很難及時關注所有學生的學習情況。當學生在學習過程中出現學習狀態下滑、成績掉落、有期末掛科風險等情況,教師無法及時幫助學生調整學習狀態,學生也會因此產生消極的學習態度。因此,如何對學生學習情況進行監控預警,及時發現學生在學習過程中的問題并提供對應的幫助,是教育工作者和家長們一直關注的問題。在這樣的背景下,本文提出了一種使用機器學習對學生平時成績進行數據建模以預警學生學習情況的方法。
1? 實現方法
本次研究采用Python為主要開發語言,Python擁有眾多可用于數據科學、人工智能、機器學習等領域的開發庫,可以幫助開發者更加高效地編寫和構建程序,大幅簡化代碼編寫,將重心更多地放在科研中。開發工具采用Jupyter Notebook;使用Pandas開發庫進行數據前期數據清洗、特征處理;采用的機器學習算法、二值化、特征縮放、模型構建、模型評分、數據集劃分等方法來自scikit-learn開發庫。
1.1? 流程設計
圖1為學生平時成績預測模型的實現流程圖。
1.2? 原始數據集建立
本文以寧夏職業技術學院軟件學院2021級100位學生在2021—2022年第二學期所學“數據分析與應用”課程的歷史數據作為原始數據,采集特征包括學生的姓名、學號、性別、年級、期中成績、平時成績、考勤、期末成績、課堂作業成績。
1.3? 特征工程
特征工程是對學生學情預警數據建模的第二步,也是最重要的一步,它是指對原始數據進行特征提取、特征轉換和特征選擇等操作,以獲得對建模有用的特征(圖2)。特征工程是建立學生學習成績模型的關鍵環節,直接影響模型的準確性和實用性。將經過特征工程處理后的數據集劃分為訓練集和測試集,其中訓練集占80%,測試集占20%,便于后續的測試與驗證。
1.3.1? 數據清洗
數據清洗是指在對原始數據進行處理之前,對數據進行檢查、修改和刪除,以確保數據質量和準確性的過程。在本次研究中,首先要檢查學生信息是否存在缺失值和異常值,如果存在缺失值,需要采用合適的方式對數據進行處理,例如當該學生的成績出現了空缺值,可采用該名學生的平均值填充;如果存在異常值,則刪除該數據。
1.3.2? 特征提取
特征提取是機器學習中的一個重要步驟,其目的是將原始數據轉換為更具有代表性的特征。在機器學習中,特征是指用于描述數據的屬性或特性。良好的特征提取可以幫助機器學習算法更準確地建立模型,提高預測和分類的準確性。本次實驗所收集到的學生數據特征不是全部都可用于訓練模型,需要從學生數據中提取有用的特征,將無用特征刪除。實驗進行了以下的特征提?。?/p>
刪除無用特征:在本次研究中,學生的姓名、學號、年級對于成績預警來說沒有任何幫助,需要將其刪除。刪除后特征如表1所示。
合并特征:將每個學生的平時成績和課堂作業成績特征合并為一個平時成績特征,合并比例為平時成績占比60%,課堂作業成績占比40%;將期中成績和期末成績特征合并成為期末成績特征,合并比例為期中成績占比40%,期末成績占比60%。合并后將原始成績特征刪除。合并后如表2所示。
1.3.3? 特征編碼
特征編碼是將數據集中的特征轉換為機器學習算法可以理解和處理的形式的過程。在機器學習中,算法只能處理數字化的特征,因此需要將非數字化的特征轉換為數字化的形式。特征編碼的作用是將非數字化的特征轉換為數字化的形式,以便機器學習算法可以對其進行處理和分析,提高模型的準確性和效率,從而提高模型的預測能力。由于學生的性別特征無法直接被用于模型訓練,所以需要將特征二值化,男轉換為1,女轉換為0。本次研究采用Scikit-learn庫中的Binarizer類對數據進行二值化。
1.3.4? 特征縮放
特征縮放是指將不同特征的取值范圍縮放到相同的區間內,常見的縮放方式包括標準化和歸一化。特征縮放提高了模型訓練的速度和精度,避免異常值對模型的影響,使模型更容易理解。在本次實驗中各項數據之間的差距較大,需要對數據進行特征縮放,以保證數據具有可比性。經過多次實驗表明,對特征使用標準化縮放所達到的模型效果更適用于本次的研究。
1.3.5? 數據集劃分
由于在模型構建的過程中需要不斷地檢驗模型的準確率、檢驗模型的配置及訓練程度、過擬合還是欠擬合等,所以需要將訓練數據再劃分為兩個部分,一部分用于訓練的訓練集,另一部分是進行檢驗的驗證集。驗證集可以重復使用,主要用于輔助構建模型,調整模型。在本次實驗中,將處理后的數據以8:2的比例劃分訓練集和測試集。
1.4? 模型選擇和構建
模型選擇和構建是建模的核心環節,該環節的主要任務是選擇適合學生數據建模的機器學習模型,不同的模型有不同的假設和約束條件,可以適用于不同的問題和數據集。選擇一個合適的模型可以提高預測的準確性和泛化能力,避免過擬合或欠擬合的問題。因此在模型選擇和構建過程中,需要考慮模型的準確性、可解釋性、泛化能力等因素。
在學生平時成績數據建模中,常用的機器學習模型包括線性回歸模型、決策樹模型、支持向量機模型和神經網絡模型等。本次研究采用線性回歸模型,下面是模型選擇和構建的具體步驟。
1.4.1? 模型選擇
線性回歸是一種用于建立變量之間線性關系的模型,該模型假設自變量與因變量之間存在線性關系,即自變量的每一個單位變化都會導致因變量發生相同的單位變化,同時它的系數具有可解釋性,可以通過系數的大小和符號來解釋不同自變量對因變量的影響程度和方向。在學生成績預警建模中,因為學生平時各項學習指標會影響學生的期末成績,所以可以使用線性回歸模型來預測學生的學情。線性回歸模型的公式如下:
y = β0 + β1 x1 + β2 x2 + … + βn xn
其中,y為因變量,x1、x2、xn為自變量,β0、β2、βn為模型的參數。
在本次研究中,模型的線性回歸公式為:
y = θ0 + θ1 x1 + θ2 x2 + θ3 x3
其中,x1為平時成績,x2為考勤,x3為性別(0或1),θ0、θ1、θ2、θ3為模型參數,y為期末成績。
1.4.2? 模型的構建
模型的構建分為三個步驟:模型擬合、模型評估和模型應用。其中模型擬合的本質是求解上述公式的參數θ0、θ1、θ2、θ3,使用最小二乘法計算預測值與真實值的平方差,即可求解模型的參數,公式如下:
其中,yi為真實值, 為預測值。將模型代入上式,得到:
將上式關于模型參數求導,得到模型參數的最優解:
其中, 為模型參數的最優解,x為數據集的自變量(考勤、性別、平時成績),y為數據集的因變量(期末成績)。將? 帶入公式內,即可實現模型擬合。
在模型擬合之后,需要對模型進行評估,以確定模型的準確性和泛化能力。為了保證實驗的嚴謹,本次研究選擇了選擇3種評估方式對模型進行評估,包括均方誤差(Mean Squared Error, MSE)、均方根誤差(Root Mean Squared Error, RMSE)和決定系數(Coefficient of Determination, R2)。
均方誤差(MSE)是評估線性回歸模型預測效果的常用指標。它計算的是預測值與真實值之間差的平方的平均值。其公式如下:
其中,yi為第i個樣本的真實值, 為該樣本的預測值,m為樣本數。
均方根誤差(RMSE)是MSE的平方根,它更直觀地反映了預測值與真實值之間的差距。其公式如下:
決定系數(R2)是評估線性回歸模型擬合優度的指標,它表示模型能夠解釋樣本數據變異性的比例。其取值范圍在0到1之間,越接近1表示模型的擬合效果越好。R2的公式如下:
其中, 為所有樣本數據的平均值。
表3是采用MSE、RMSE、R2三種評估方式的結果。
從表中可以看出,該線性回歸模型在測試集上的MSE為8.48,RMSE為2.91,R2為0.87,說明該模型具有較高的預測準確性,可以滿足實驗的初步要求。
在模型評估之后,即模型應用階段,可將學生平時成績信息帶入模型,模型將預測學生的成績通過接口傳入預警方法中。預警方法通過對預測成績進行分級,60以下為紅色預警,70~79為黃色預警,80~100為綠色預警,當學生預測成績處于黃色和紅色預警階段,證明該名學生有成績下降和掛科的風險。
綜上所述,模型選擇和構建是學生平時成績數據建模的關鍵環節。在選擇模型時,需要考慮模型的準確性、可解釋性、泛化能力等因素,并根據實際需求選擇最合適的模型。在構建模型時,需要進行模型擬合、模型評估和模型應用等步驟,以獲得準確、穩定和可靠的預測結果。
2? 結果驗證分析
本次結果驗證使用2022級人工智能技術與應用班級28位同學在2022—2023學年第一學期“數據分析”課程數據進行結果驗證,并使用預測結果和真實結果進行對比,以下是其中5位學生的預測成績和實際成績的數據對比,結果如表4所示。
由表4可得出,學生的期末成績預測值與實際期末成績進行對比,預測的成績與實際的成績之間的誤差較小,預測值可有效地反映學生在學習過程中的成績情況,說明該模型具有實際的應用價值,可以為學生和老師提供有效的成績預警。通過分析該模型參數的權重,發現學生的平時成績對于預測模型的影響最大,考勤和性別的影響相對較小。這也說明了學生的平時成績是影響學生成績的重要因素,需要在教學中重點關注和提升。
3? 結? 論
通過上述實驗可以看出,基于線性回歸算法構建的學生平時成績預測模型的預測準確率是可以初步滿足學生學情預警的。雖然預測結果存在一定的誤差,但整體上預測結果與實際成績的差距較小。在實際應用中,可以使用該模型來進行學生的成績預警,及時發現學生的學情問題,提供個性化的學習建議,及時調整學習態度,在一定程度上改善學習狀態,從而實現對學生學情的監測和預警。未來,可以進一步改進模型,采用更加復雜的機器學習算法,如決策樹、隨機森林等,以提高預測的準確性。
參考文獻:
[1] 王琪,靳瑩.中等教育學段學情分析研究述評 [J].教育理論與實踐,2023,43(2):54-57.
[2] 魏超.機器學習算法在大學生綜合素質測評預警中的對比研究 [J].電腦編程技巧與維護,2022(12):127-129.
[3] 崔爭艷,劉晨晨,孫濱.基于機器學習的MOOC學習者棄學預測與預警系統實現 [J].信息與電腦:理論版,2022,34(1):65-67.
[4] 徐彩鳳.依托TPACK理論,推進統計信息化教學——以“一元線性回歸模型的應用”為例 [J].中學數學月刊,2023(3):48-50+63.
[5] 李治軍,姚蓉.基于主成分分析和多元線性回歸的黑龍江省用水效率研究 [J].水利科技與經濟,2023,29(2):60-64.
[6] 李非.案例分析在統計多元線性回歸預測模型教學中的應用研究 [J].現代職業教育,2019(8):86-87.
[7] 劉學彥,趙建立,相文楠,等.擬線性回歸預測模型的穩定最小二乘解 [J].數學的實踐與認識,2011,41(20):92-97.
作者簡介:曹夢川(1990—),男,漢族,寧夏銀川人,助教,碩士,研究方向:數據分析、人工智能。
收稿日期:2023-04-09
基金項目:2022年度職業教育研究和開放教育綜合改革研究專項課題(XJ202207);2020年寧夏回族自治區科學技術學會第五批自治區青年科技人才托舉工程