張洋瑞 霍光
[摘要]隨著數字化校園建設的日益深入,一卡通已成為大學生不可或缺的生活必需品,它記錄了包括學習、生活、消費等信息在內的海量的學生數據。對這些數據進行挖掘和分析,不但可以有效掌握大學生的在校行為,還能夠通過構建行為分析模型對大學生成績進行預測,為教學部門、學工部門進行差異化教學和管理提供數據支持和決策依據,為教輔部門更好的為學生服務提供改進方向。
[關鍵詞]數字化校園 校園一卡通
隨著互聯網應用的普及和各高校規模的擴大,各大高校都已經初步建成了包括人事、教學、財務、學工、后勤、招生、一卡通等功能相對完善的數字化管理系統。借助這些系統,學校管理人員能夠快捷、高效地對學生的學習與生活進行了解和管理。
作為應用最為廣泛的“校園一卡通”系統,大部分高校管理人員僅僅關注了系統所實現的功能,去忽視了系統內部所存儲的學生信息數據。事實上,“校園一卡通”是集數據共享、身份認證、金融消費等多項功能于一體的信息集成系統?!耙豢ㄍā痹跒閹熒峁﹥炠|、高效信息化服務的同時,系統自身也積淀了千萬條流水記錄,其中包含有圖書借閱、上課出勤、食堂消費、體育健身等學生行為記錄,透過這些記錄學校可以在一定程度上了解和掌握學生在校園內的日常生活與學習行為,以便及時、有效的制定出相應的措施。
一、數據來源和定義
本文的數據來源于數字化校園數據中心中與一卡通信息相關聯的多個業務系統。筆者希望利用數據挖掘技術從紛繁復雜的一卡通信息中,找出影響學生成績的主要因素。如表1所示,前11項為分類指標參數,第12項為預期分類結果。為了簡化分類模型的復雜性,本文將專業排名進行了重新定義。按照比例將專業排名前10%定義為“A”;中間80%定義為“B”;后10%定義為“C”。
二、預測模型的建立
(一)主成分分析
將表1中的指標參數轉換列向量,該向量由12個特征組成,用xi表示每個學生樣本的特征列向量,其表示形式如公式1所不:
即把每個學生樣本的特征量看作是一組隨機向量,并用KL變換得到正交變換基,對應其中較大的特征值的基底有著相似的形狀。主成分分析(PCA)算法利用這些基底的線性組合可以描述、表達和逼近原缺陷圖像,具體實現步驟如下:
計算平均值
計算差值分量
求協方差矩陣的特征值和特征向量
協方差矩陣的維數為(m×n)×(m×n),其維數較大,可通過求解MT的特征值和特征向量獲得MT的特征值和特征向量。求出ATA的特征值λi及其正交歸一化特征向量vi,根據特征值的貢獻率選取前p個最大特征向量及其對應的特征向量。累計貢獻率φ是保留部分的累計方差在方差總和中所占百分比,也可以將其理解為所選取的主成分與原始數據的相似程度。φ越大表示所保留的成分與原始數據越接近。
本文選取累計貢獻率φ>90%,并根據所求出的前p個特征值和特征向量求出原協方差矩陣的特征向量。
由其構成的新的特征向量為:
(二)SVM分類
支持向量機(support Vector Machine,SVM)是1995年由Vapnik提出的,由于其具有諸多優點而得到廣泛研究應用和發展。目前SVM技術已經十分成熟,相應的算法軟件包得到了學術界的認可,其中最為具代表性的要算臺灣大學林智仁教授開發的LibSVM軟件包。本文的分類預測也是應用LibSVM軟件包實現的,核函數選擇的是徑向基函數(Radial basis function,RBF),并采用5次交叉驗證。
本文實驗樣本取自英語專業兩個平行班級,以一班30名學生的數據作為訓練樣本構建分類器,用二班28名學術的數據作為測試樣本,驗證分類預測模型的準確率。
由表2可以看出,分類預測錯誤大部分在將B類學生誤識為A類和將B類誤識為c類,另外還有一小部分錯誤來自于將A類誤識為B類。這表明本文所提預測模型對前10%和后10%學生的預測中混入了部分中等生,即在一定程度上擴大了排名靠前和靠后學生的范圍。
本文所提方法雖然識別精度不高,但對于高校教學改革和學生管理仍然具有較高的實際應用價值,比如可以將模型預測出的“后10%的學生名單”導入“學位預警系統”,提醒任課教師、學工人員以及學生本人盡早采取改進措施,避免掛科、降級等事件的發生。
三、結論
“校園一卡通”中存儲或關聯的學生信息,確實能夠表征學生的一些特征。對這些數據的挖掘和分析能夠在一定程度上按專業成績排名對學生進行分類預測。為教學部門、學工部門進行差異化教學和管理提供數據支持、決策依據和改進方向,是高校教學改革的有效助力工具。