李香林,王 梅
(呂梁學院 數(shù)學系,山西 離石 033001)
學生成績是研究高校學生發(fā)展的常用指標,李巖使用高校學生的學習成績,結合決策樹算法成功的找到了影響學生成績的主要因素[1].曾旭研究員使用聚類算法對學生的成績進行分析將學生分為不同的類簇,對不同的類簇進行分析研究,掌握學生的學習情況[2].陸汝飛基于大數(shù)據(jù)挖掘理念,將多元統(tǒng)計方法引入高校成績分析[3].從課程教學、研究、管理等多個角度對各類數(shù)據(jù)集合進行計算和綜合分析[4],做出比較合理的教學決策可以改善和提高教學質(zhì)量.學習成績受學習動力、專業(yè)難度、課程設置、老師因素、生源地、周圍環(huán)境等諸多因素,這些影響因素錯綜復雜,利用結構性分析預測成績往往比較困難.將歷年的學生成績數(shù)據(jù)進行時間序列建模,對分析影響班級發(fā)展狀態(tài)有一定的指導意義.
呂梁學院數(shù)學系信息與計算科學和數(shù)學與應用數(shù)學兩個專業(yè),簡稱專業(yè)一和專業(yè)二,四個班級156人.1—6學期共76門課程.
兩個專業(yè)學生以數(shù)學大類培養(yǎng),前四學期的課程一樣,上課教師無明顯差別,班主任、教學制度、教學環(huán)境、任課老師無區(qū)別,成績分析有對比意義.成績的結構性分析較困難,其他因素無大的區(qū)別情況下,成績具有時序性,故采用簡單平均法.
高考成績均分為專業(yè)一407.1分,專業(yè)二406.54分,兩個專業(yè)學生高考成績接近.為了觀察地區(qū)性質(zhì)對學生成績的影響,觀察學生省份分布,專業(yè)一的學生分布在5個省,專業(yè)二的省份分布在11個省,專業(yè)二的省份分布較廣,但區(qū)域類別相差不大.統(tǒng)計學生所在地市分布,專業(yè)一的城鎮(zhèn)學生占39%,農(nóng)村學生占61%,專業(yè)二的城鎮(zhèn)學生占26%,農(nóng)村學生占74%,專業(yè)一的城鎮(zhèn)占比高于專業(yè)二.
按專業(yè)取1-6學期期末成績的平均分,變化趨勢如圖1所示.從圖可以看出,兩個專業(yè)學生在第一學期時成績與高考成績趨勢一致,專業(yè)一略高于專業(yè)二,但顯示出下滑的趨勢.經(jīng)過第二學期后,大三學期開始,專業(yè)一明顯表現(xiàn)出好于專業(yè)二,且專業(yè)一學生比專業(yè)二學生發(fā)展更平穩(wěn)的良好態(tài)勢.

圖1 兩個專業(yè)成績對比圖
時間序列的分析是建立在客觀事物發(fā)展規(guī)律的基礎上的,通過之前真實數(shù)據(jù)的變化趨勢,利用統(tǒng)計分析得出之后變化趨勢的結論.通常情況下,時間序列分析的方法對短期預測更為準確.
經(jīng)常用到的自回歸積分滑動平均模型(ARIMA模型)[5],結合了自回歸(AR)、差分(I)、移動平均線(MA)三種方法.ARIMA模型預測過程包括:
(1)對序列的平穩(wěn)性進行識別.根據(jù)時間序列的散點圖、自相關函數(shù)和偏自相關函數(shù)圖以ADF單位根檢驗其方差、趨勢及其季節(jié)性變化規(guī)律.
(2)對非平穩(wěn)序列進行平穩(wěn)化處理.如果數(shù)據(jù)序列是非平穩(wěn)的,并存在一定的增長或下降趨勢,則需要對數(shù)據(jù)進行差分處理,如果數(shù)據(jù)存在異方差,則需對數(shù)據(jù)進行技術處理,直到處理后的數(shù)據(jù)的自相關函數(shù)值和偏相關函數(shù)值無顯著地異于零.
(3)模型識別.根據(jù)偏相關函數(shù)和自相關函數(shù)的拖尾或截尾確定模型AR、MA、ARMA.
(4)參數(shù)估計.檢驗是否具有統(tǒng)計意義.
(5)假設檢驗.診斷殘差序列是否為白噪聲.
(6)利用已通過檢驗的模型進行預測分析.
3.2.1 數(shù)據(jù)處理
觀察兩個專業(yè)四個班成績的折線圖圖2和圖3發(fā)現(xiàn),成績不是平穩(wěn)的,考慮為非平穩(wěn)的時間序列,因此需要對時間序列進行平穩(wěn)化差分處理.

圖2 專業(yè)1兩個班級的成績對比圖

圖3 專業(yè)二兩個班級的成績對比圖
3.2.2 模型識別
由二階差分序列可知,偏相關系數(shù)拖尾,自相關系數(shù)不明顯,如圖4,可以認為拖尾,所以采用ARMA(p,q)模型擬合.

圖4 二階差分后的自相關圖
3.2.3 參數(shù)估計
對于ARMA(p,q)中參數(shù)p,q進行確定,算出階數(shù)小于5的所有ARMA(p,q)模型.由最小BIC(1,0)=4.39準則可知,選擇AR(1)模型進行擬合最合適.
利用模型進行參數(shù)估計,估計方法為最小二乖法,估計結果擬合模型為:
在所有的時間序列模型中ARMA(1,2)最優(yōu),所以選擇ARIMA(1,2,3)模型進行參數(shù)估計.
3.2.4 模型檢驗

圖5 ARIMA(1,2,3)殘差的顯著性檢驗
利用ARIMA(1,2,3 )模型對第七學期成績進行預測,結果如表1,預測成績與實際成績對比如表2所示.

表1 第七學期成績預測

表2 真實成績與預測成績對比
第七學期成績以實踐性、綜合性為主,體現(xiàn)學生的綜合能力.從表2可以看出預測成績與真實成績對比,表現(xiàn)出一致的趨勢,專業(yè)一好于專業(yè)二.具體地,2班好于1班,4班后期發(fā)展稍好于3班,差距不大.
畢業(yè)時,班主任從班級制度、班級管理、班級學風、班級事務四個方面對兩個專業(yè)和四個班級進行了綜合評價,班級管理和班級學風建設是影響學生成績的主要因素.專業(yè)一的班級管理和班級學風相對于專業(yè)二較好,所以專業(yè)一的成績高于專業(yè)二.整體而言,班級2較為優(yōu)秀,班級1優(yōu)秀,班級4良好,班級3偏差,與表2的預測趨勢一致.
在高考成績、班主任、教學制度、教學環(huán)境、課程、任課教師無差別,學生結構、專業(yè)課程一定的條件下,第二學期成績集體處于下滑過程,從第三學期開始,兩個專業(yè)都開始一致性回升,專業(yè)一成績趨勢明顯好于專業(yè)二.班級管理、班級學風成為影響成績的主要因素,這二者的形成主要在一年級,所以一年級是非常關鍵的時期,抓管理、抓學風是最主要的工作.三年級開始專業(yè)課程不同,有稍微的區(qū)別,分析其原因可能是專業(yè)課程特點不同造成,這可以利用其它方法進一步研究.