秦鈺娟
(西南大學,重慶 400715)
通過對葡萄牙兩所學校的學生數學成績分析,了解可能影響學生成績的因素并建立模型,試圖為預測其他具有相似背景學生的成績提供依據。
隨著社會競爭增大,對學生來說成績愈發重要,有大量的文章研究過影響學生成績的因素,主觀幸福感對學生數學成績有積極的影響作用,性格特征對學生不同學科有不同影響,除了這些主觀心理因素,生源省份,任課教師,所在學院等客觀因素對學生成績也有影響。本文探討的指標更客觀也更容易推廣。
本論文使用的數據是由葡萄牙米尼奧大學的Paulo Cortez 和Alice Silva收集的。表格包含395名葡萄牙中學生的數學成績以及可能影響學生成績的30個指標。
該數據利用學校報告和問卷調查收集了兩所葡萄牙中學學生各方面信息,變量都被整理成為有兩個或五個分類的的數字,如表1。
該文采用方差分析模型。為簡明闡述模型,假設自變量有母親教育程度,學校,更高的教育,戀愛與否。其相應的數學模型為:

其中母親教育水平的5個程度依次為0,1,2,3,4,以教育水平為4為基準。其他變量以此類推。
方差分析模型的整體顯著性,統計學上用以下的方法檢驗該假設。考慮兩個不同的模型:
模型A:G3=母親教育程度+學校+更高的教育+戀愛與否+隨機擾動
模型B:G3=學校+更高的教育+戀愛與否+隨機擾動
這兩個模型所產生的殘差平方和分別記為RSS和RSS,構造如下F-統計量:

在原假設成立的條件下,該F統計量服從一個自由度為(df,n-p-1)的F分布。若拒絕原假設,則母親教育程度這個因素是重要的。類似可檢驗其他因素的顯著性。
隨機選取數據的80%建立學生第三學年數學成績G3關于各個因素的回歸模型。方差分析結果表明學校,性別等一些因素不顯著(假設5%的顯著水平),將其剔除后再做方差回歸分析結果如表2。
精密量取供試品溶液1 mL,置于100 mL量瓶中,用溶劑稀釋至刻度,搖勻,精密量取5 mL稀釋液置于100 mL量瓶中,用溶劑稀釋至刻度,搖勻,作為靈敏度溶液。
模型的F檢驗拒絕原假設,說明建立的模型是顯著的;調整判決系數為0.15,因為所有的變量中能直接影響G3的很少,但這同時也是我們能將這個模型應用到每個學生的原因,如果有可以很直接影響G3的變量,可能模型的判決系數會很高,可這同時也影響了模型的推廣。

表1 數據介紹
接下來我們形依次分析各個通過模型檢驗的變量對G3的影響。
家庭地址在城市和鄉村的學生分別有307人和88人,城市學生成績明顯高于農村。
母親教育程度為0的學生成績反而要好,這是因為該分類下學生只有3人,樣本數量太少不具代表性。隨著母親教育程度的提高,學生的成績有些許上升的趨勢。
每周學習時間小于2小時和2-5小時的學生分別有105人和198人,占總人數的78%。隨著學習時間的增加,學生成績有上升的幅度。
學生掛科數目為0,1,2,3的人數分別為312,50,17和16。隨著掛科次數的增加,學生成績明顯呈下降趨勢。
隨著學生外出時間由非常少到非常多,學生成績有先上升后下降的趨勢。
學生年齡從15到22歲人數依次為82,104,98,82,24,3,1,1。排除樣本量小的分類,在前四個年齡中學生成績隨年齡增加稍有下滑。
選取剩下20%數據應用到模型中并采用相對預測誤差預測和檢驗模型。即

表2 對訓練集的第二次方差分析

但是學生成績預測出來有可能為0,因此在分母上加上0.1。用R求得該相對誤差大約為33%。
由我們建立的統計模型可以得出以下結論:在控制其他因素不變時,可以得到如下結論:
(1)年齡的增加會帶來數學成績的增加,平均年齡增加一歲,數學成績增加0.04分;
(2)位于城市的學生的數學成績比農村的平均高出0.77分;
(3)隨著母親教育程度的增加,學生的數學成績呈上升趨勢。這與家庭環境影響學生學習成績調查研究結論一致,母親受教育程度是家庭環境的一部分;
(4)學生成績隨著學習時間的增加而增加;
(5)隨著掛科次數的增多,學生成績呈下降趨勢;
(6)不談戀愛的學生比談戀愛的平均成績高出1.3分;
(7)適度的外出可以增加學生的成績。
這篇文章探究了學生的數學成績同學生自身的一些指標的關系。模型的判決系數為15%,相對預測誤差為0.33。雖然模型的判決系數并非十分理想,但是鑒于實際情況如:樣本量的大小、某些重要的決定性變量未收集等條件等的限制,依舊選擇接受該結果。在未來后續的研究中可以從如下方面進行改進:第一,收集一些直接決定學生成績的因素如:學生的智商水平,學生自身對課程的喜愛程度等。第二,增大樣本量收集更多的學生成績樣本。