孫杰



摘要 針對學生成績預測過程中預測方法過于復雜、涉及數據集過于龐大的問題,本文提出了基于高斯樸素貝葉斯算法的學生成績預測。本文采集選修《大學生計算機基礎》共計465名本科生的三次平時測驗成績作為樣本集,并劃分為訓練集和測試集,采用交叉驗證的策略避免過擬合問題。結果表明,基于高斯樸素貝葉斯算法的預測模型在測試集上預測的精度達到92%,樸素貝葉斯方法可以直接基于平時測驗成績預測學生的最終考試成績。另外,實驗發現,樣本集的數據分布越是接近于正態分布,預測精度越高,再剔除60分以下測驗成績之后,預測精度達到96%。
關鍵詞:樸素貝葉斯算法; 成績預測; 大學生;成績
中圖分類號:TP181? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)20-0023-04
Application of Gaussian Naive Bayes Algorithm in College Students' Performance Prediction
SUN Jie
(School of applied technology China Institute of Labor Relations, Beijing 100048, China)
Abstract: In order to solve the problem that the prediction method is too complex and the data set is too large in the process of student performance prediction, this paper proposes a student performance prediction method based on Gaussian naive Bayes algorithm. In this paper, we collect the three test results about 465 samples in “computer foundation of college students”, and divide them into training set and test set. We use cross validation strategy to avoid over fitting problem. The results show that the prediction accuracy of the prediction model based on Gaussian naive Bayes algorithm reaches 92% in the test set, and the naive Bayesian method can directly predict the students final test scores based on the practice at ordinary times. In addition, it is found that the closer the data distribution of the sample set is to the normal distribution, the higher the prediction accuracy is. After eliminating the test scores below 60 points, the prediction accuracy reaches 96%.
Key words: naive bayesian algorithm; performance prediction; college students
近年來,學生成績預測的研究成為研究者關注的焦點。一般來講,課程期末考試成績占課程最終成績的比重較大,故期末考試成績的優劣直接影響學生的評優甚至畢業,因此,通過合理的手段提前預測課程的期末成績,將有助于任課教師實施針對性的教學,對學習困難的學生加以幫助,對學習成績優異的學生加以提高。
由于在線學習的發展,關于網絡學習環境下的學生成績預測研究也有了新的發展,如在網絡課程學習中基于學生學習行為的成績預測[1],以及綜合考慮在線學習者的學習背景、家庭環境,以及學習者的行為特征,基于各類分類算法優劣的比較,進行成績預測的研究[2-3];第二類是基于獨立算法或多算法融合的成績預測研究,如:基于七門主干課成績,通過貝葉斯網絡的結構進行參數學習,并最終應用于學生成績的預測[4];“基于模糊聚類和支持向量回歸的成績預測”[5]一文,不僅提出了成績預測的一種融合算法,而且指出“現有的成績預測模型往往過度使用不同類型的屬性”的問題;劉毓等人[6]首先用相關分析法計算了基礎課程成績與目標課程成績的相關系數,選取了與目標課程成績相關度高的基礎課程成績作為輸入項,然后引入遺傳算法對反向傳播(Back Propagation, BP)神經網絡的初始權值和閾值進行優化,實現學生目標課程成績預測;陳曦等人[7]在構建課程知識圖譜的基礎上,計算各課程在知識層面的相似度,并融入協同過濾學生成績預測方法;以及基于多元回歸和決策樹模型的學生成績預測研究[8],等等。
樸素貝葉斯算法使用簡單,在各類研究中效果良好,故而在研究中大量出現。如基于樸素貝葉斯方法的文本分類研究[9],結合樸素貝葉斯算法與Bootstrapping方法的語義標注研究[10],改進樸素貝葉斯算法并應用于入侵檢測的研究[11]。另外,在與其他算法結合應用的過程中也表現出了良好的分類效果[12-15]。本課題研究將學生成績預測的數據收集范圍限定在某一門課程之內,減少了數據收集的難度;利用樸素貝葉斯方法,使用經驗知識不斷修正預測結果,從而保證預測結果更趨緊于客觀評價。