基于多元線性回歸的學生成績預測研究

2022-04-02 05:28:40劉曉雲劉鴻雁李勁松王冠幫

計算機技術與發展 2022年3期

劉曉雲，劉鴻雁，李勁松，王冠幫

(1.渤海大學教育科學學院，遼寧錦州 121000；

2.渤海大學信息科學與技術學院，遼寧錦州 121000)

0 引言

隨著中國經濟的快速發展，人才需求越來越大，教育也越來越受到社會的關注。為了保證教學質量，國家也不斷頒布新的教育整改政策，數據挖掘技術也逐漸深入地應用到了教育領域，例如關聯規則、多元線性回歸、聚類分析、分類預測等等。其中成績預測可以督促學生，使學生及時調整自己的學習方法，改變學習策略，并且使教師及時改進教學策略，所以成績預測是提升學生成績的重要手段。它也成為了教育數據挖掘領域的一個熱點研究課題[1]。

對學習成績進行預測分析對提高教學質量有著十分重要的作用，一些國內外學者對此已經開展了相關研究。尤佳鑫利用多元線性回歸方法，預測了云環境下的學生學業成績[2]。徐銘希采用多種機器學習算法對學生成績進行預測并構建最優模型[3]。趙光等人利用多元線性回歸方法，構建大學英語四級考試成績預測模型[4]。張曉等人通過多元線性回歸，分析了基礎課程對專業課程的影響[5]。汪慧利用多元線性回歸方法，建立通過影響電子技術的6門課的成績預測該門課的模型[6]。雖然國內外學者已經開展相關的成績預測研究，但多是利用現有全部成績預測某科成績。利用一年級預測畢業成績較少，未能充分發揮成績預測的及時性。

目前普遍認為，一個人的學習成績是符合一定趨勢的，并且一年級時期開展的課程，包括基礎課和通識課，對畢業總體成績也有著一定的影響。其中如解析幾何這樣的專業基礎課程，對后面其他專業課的學習有著直接的影響。因此利用一年級預測畢業成績具有可行性和可預測性。

回歸分析是研究統計規律的方法之一。應用回歸分析評價考試成績不僅能分析各種因素對考試成績的影響大小，還能對成績進行合理的預測[7-8]。鑒于多元回歸分析的以上優點，所以建立多元回歸模型不僅可以幫助教師改進教學方法，還可以幫助學生及時調整自己的學習方法，以便得到更好的成績，為提高教學質量提供了保障。

1 回歸分析

1.1 線性回歸

線性回歸有很多實際用途。分為以下兩大類：如果目標是預測或者映射，線性回歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以后，對于一個新增的X值，在沒有給定與它相配對的y的情況下，可以用這個擬合過的模型預測出一個y值。

給定一個變量y和一些變量X1,X2,…,Xp，這些變量有可能與y相關，線性回歸分析可以用來量化y與X之間相關性的強度，評估出與y不相關的X，并識別出哪些X時子集包含了關于y的冗余信息。

1.2 多元線性回歸

多元回歸分析是指在相關變量中，將一個變量視為因變量，其他一個或多個變量視為自變量，建立多個變量之間線性或非線性的數學模型數量關系式，并利用樣本數據進行分析的統計分析方法。另外，也要討論多個自變量與多個因變量的線性依賴關系的多元回歸分析，稱為多元多重回歸分析模型。通常影響因變量的因素有多個，這種多個自變量影響一個因變量的問題，可以通過多元回歸分析來解決。在線性回歸分析中，多元線性回歸比一元線性回歸具有更大的實用意義[9-10]。

多元線性回歸分析的基本任務如下：根據因變量與眾多自變量的實際觀察值建立因變量對多個自變量的多元線性回歸方程；評定各個自變量對因變量影響的相對重要性以及測定最優多元線性回歸線性方程的偏高度等[11-13]。許多多元非線性回歸問題可以通過多元線性回歸來解決，所以多元線性回歸具有廣泛的應用。

1.3 多元線性回歸模型

設變量Y與變量X1,X2,…,Xp間有如下的線性關系：

Y=β0+β1X1+…+βpXp+ε

(1)

其中，β0是回歸常數，β1,β2,…,βp是總體回歸參數，當p=1時，稱公式(1)為一元線性回歸模型，p≥2時，稱之為多元線性回歸模型。ε為隨機誤差，且服從ε～N(0,σ2)分布。

參數β的估計方法最常用的是最小二乘估計法(ordinary least square，OLS)，其目標函數為最小化：

(2)

因在解決實際問題時，矩陣X'X通常都是奇異的。所以當X'X是非奇異矩陣時，表明變量之間不完全相關，而這時得到的最小二乘估計為：

(3)

從而可得回歸模型為：

(4)

1.4 多元線性回歸模型的檢驗

由建立的多元線性回歸模型以及已得到的回歸系數，要對整個回歸方程進行擬合檢驗，可以采用R2檢驗。

判定系數R2的定義為：

(5)

其中，SSR表示回歸平方和，其定義如公式(6)，反映了由于x與y之間的線性關系引起的y的變化部分；SST表示總離差平方和，其定義如公式(7)，反映因變量的n個觀察值與其均值的總離差；SSE表示殘差平方和，其公式如公式(8)，反映除了x對y的線性影響之外的其他因素對y變差的作用，是不能由回歸直線來解釋的y的變差部分。

(6)

(7)

(8)

三者之間的關系滿足：

SST=SSR+SSE

(9)

R2反映的是回歸直線對數據的擬合優度，取值在[0,1]之間。R2趨近于1，說明回歸方程擬合得越好，相反，R2趨近于0，說明回歸方程擬合得越差。

2 基于多元線性回歸的學生成績預測研究

鑒于SPSS軟件是目前教育研究領域使用最為廣泛的統計軟件之一，具有界面美觀、操作簡潔的特點，因此該文在實驗數據處理中使用了SPSS軟件[14]，用其對實驗數據進行單次實驗。而預處理和統計分析部分基于Matlab系統完成。

2.1 數據預處理

2.1.1 數據收集

實驗數據選用某學校計算機應用專業一年級共55名學生的課程成績。由于部分課程涉及分流培養，因此實驗數據僅使用17門課程。

2.1.2 數據處理

(1)為保護學生隱私，將原始學生姓名用編號替代以及將性別、學號等身份信息隱藏，只保留所需的成績、課程名稱等基本信息。

(2)為了使數據結果更具有合理性、普遍性，除去極端學生成績的影響，因此去掉低于平均成績大于X+3σ或小于X-3σ的學生，最后剩下53名學生的課程成績。

(3)實驗數據中的部分課程成績采用等級制進行的賦分(優秀、良好、中等、及格、不及格)，對這類數據前期進行了轉換和處理，轉換原則為“優秀”對應95分，“良好”對應85分，“中等”對應75分，“及格”對應65分，“不及格”對應59分。

(4)為避免數據屬性的影響，對所有實驗數據都進行了歸一化[0,1]處理，最終獲得的部分實驗數據如表1所示。

表1 部分學生成績

2.2 建立多元線性回歸模型及其分析

2.2.1 實驗原理與結果

中國旅游業的發展經歷了從單一入境旅游市場，到入境旅游、國內旅游兩個市場并舉，再到入境旅游、國內旅游、出境旅游三個市場全面發展的過程[4]。與此相應，我國旅游業三大市場發展戰略也經歷一系列的調整變化，現定位為“全面發展國內旅游、積極發展入境旅游、規范發展出境旅游”[4]。

平均絕對誤差(mean absolute error，MAE)是所有單個觀測值與算術平均值的偏差的絕對值的平均，所以選用簡便、直觀的平均絕對誤差作為評估成績預測模型的預測誤差指標[15]，其計算公式如下所示。

(10)

其中，N為樣本個數；Score和Scorep分別為原始成績和模型預測成績。MAE值越小，模型預測誤差越小，預測越準確。

該文隨機從53名學生中選出3名、5名、10名和20名作為測試樣本(訓練樣本數量即為50名、48名、43名和33名)，并分別進行100次隨機選擇。然后對得到的MAE值取其平均值，得到的最終平均預測性能結果如表2所示。

表2 訓練和測試樣本MAE詳情

統計結果表明，訓練和測試誤差都小于1.9%，說明構建的預測模型具有較高的預測精度，已證明利用一年級預測畢業成績可行。此外，從表中也可看出構建的模型性能對訓練樣本需求較低，更利于推廣。

2.2.2 單次實驗結果分析

為了更加清楚地展現實驗結果，分別選用上述四種實驗的某一次實驗結果進行具體分析。利用SPSS軟件進行分析，令四年總體平均成績為因變量，17門課程成績為自變量。

(1)實驗4。

(-0.014)X7+0.009X8+(-0.021)X9+0.025X10+(-0.005)X11+

0.085X12+0.192X13+0.140X14+0.290X15+0.092X16+(-0.108)X17

(11)

表3 模型摘要

表4 多元回歸模型概要

對所建立的實驗4的線性回歸模型進行R2檢驗，從表3可以看出，R2的值為0.894，接近0.9，趨近于1，說明模型的擬合度很高。從表4可以看出，模型的準確性為97.3%(>95%)，進一步說明模型的擬合度高。

通過模型預測出剩余20個測試樣本的預測值，如表5所示。預測差值最高不超過3.5分，平均誤差為1.43%，預測性能精度較高。

表5 實驗4真實值和預測值對比

(2)實驗3。

類似地，實驗3的43個訓練樣本得到的標準線性回歸方程為：

0.162X6+(-0.007)X7+(-0.014)X8+0.008X9+0.023X10+0.011X11+

0.092X12+0.163X13+0.079X14+0.264X15+0.127X16+(-0.073)X17

(12)

通過模型預測出剩余10個測試樣本的預測值，如表6所示。預測差值最高不超過1.5分，平均誤差為0.9% ，預測性能精度較高。

表6 實驗3實際值與預測值對比

(3)實驗2。

實驗2的48個訓練樣本得到的標準線性回歸方程為：

0.164X6+(-0.010)X7+(-0.013)X8+(-0.004)X9+0.017X10+0.001X11+

0.087X12+0.167X13+0.093X14+0.284X15+0.119X16+(-0.073)X17

(13)

通過模型預測出剩余5個測試樣本的預測值，如表7所示。預測差值最高不超過1.4分，平均誤差為0.97%，預測性能精度較高。

表7 實驗2實際值與預測值對比

(4)實驗1。

實驗1的50個訓練樣本得到的標準線性回歸方程為：

+(-0.010)X7+0.010X8+0.010X9+0.038X10+(-0.011)X11+0.088X12

+0.185X13+0.094X14+0.268X15+0.107X16+(-0.084)X17

(14)

通過模型預測出剩余3個測試樣本的預測值，如表8所示。預測差值最高不超過1.2分，平均誤差為0.61%，預測性能精度較高。

通過這四個實驗的單次實驗表明，結果與訓練樣本數量關系不大，可行性較強。并且構建的預測模型具有較高的精度，可以為學校改進教學方案，提高教學質量提供一定的參考信息，具有重要的意義。

3 結束語

成績預測是提高教學質量的重要輔助工具之一，但是目前多是基于全部成績進行研究。因此該文提出利用多元回歸方法構建通過一年級成績預測畢業成績的預測模型，并以某學校計算機應用專業的學生課程成績為研究對象開展研究。大量實驗結果表明可以利用一年級成績預測畢業成績，并且該文構建的預測模型具有較高的準確度。該研究可以為教學的改進提供依據，為老師對學生采取幫扶措施提供參考。但學生成績預測是一個比較復雜的課題，本次研究只考慮了成績因素，因此在下一步的研究中會考慮學科背景、素質測評等更多因素，構建更加精確的預測模型。