單 耀 王藝嵐 張家華
(華北科技學院, 北京 101601)
隨著大數據時代的來臨,從數據獲得結論對社會的生產和生活產生了深遠的影響。大數據技術大致可以分為兩個部分,其一為大量數據的獲取與管理,其二為數據的統計分析與數據挖掘。通過數據挖掘技術,可以得到表面上不易得到的深層次規律,為系統決策提供支持。這項技術可以應用于學生學習成績的分析。一方面由于學生的基礎,學習習慣與方法,課程特點的不同,導致考試的成績呈現一定的規律性。另一方面,學生的學習成績是一個典型的多變量數組,應用數據挖掘技術可以有效地分析。借助計算機分析的手段,可以快速準確地對學生的成績進行分析,從而指導教與學水平的提高[1-2]。從國內相關研究來看,數據挖掘技術應用于學生學習成績分析的案例呈現上升的趨勢,未來可能成為一種學生學習效果評價,學習方法評價與提高的新手段。數據挖掘技術手段多樣,目標各異,如回歸[3],決策樹[4-5],支持向量機[6],K-最近鄰[7]等。本文以主成分分析為切入點及手段對學生的學習成績進行了分析,回答了成績共生組合與學習習慣等問題,為提高教與學質量的分析提供了基礎。
選取樣本為我校采礦工程系卓培班與普通班大一的考試成績,其中卓培班34人,普通班19人。由于開設課程略有差別,卓培班參與分析的課程有計算機基礎、C語言、大學語文、大學數學、采礦工程導論等16門課,普通班參與分析的課程有17門課。作為示例,表1是普通班一部分課程的考試成績。
主成分分析法是一種非監督分析方法。通過將相關性較高的變量用較少變量來表示,達到減少變量,分析變量間共生組合關系,以及樣品間共生組合關系的目的。在計算的過程中,按照數據按列歸一化,計算協方差矩陣,計算相關系數矩陣特征值與貢獻率的順序進行計算。特征值按照降序進行排列,代表了方差變化較大的方向,從而達到降維的目的。每一個變量在特征值上有荷載值。在某一特征值上荷載值高的一些變量具有相似的變化趨勢,從而可以找到其中的共生組合關系。

表1 普通班部分課程考試成績
特征值在原數據空間中所指向的方向作為新的變量。經過主成分分析法計算后的變量個數小于原變量的個數。具體數值的選取可以根據具體問題,并參考累計貢獻率來確定。累計貢獻率達到總方差的80-85%,即可認為代表了絕大多數方差的變化。
原變量在特征值上的載荷可以在圖上表示。具有類似變化規律的變量在載荷圖上表現出聚類的特征。為計算這一聚類特征,應用高斯混合模型的方法進行計算。相比較于較常用的K-means計算方法,高斯混合模型可以計算每一個點歸屬不同類別的概率,用“軟邊界”將數據分類,比K-means方法更加接近實際。
這一計算過程可用R語言來實現。卓培班成績最大的三個特征值分別為4.07,2.24和1.92,累計貢獻率為82%,因此用三個特征值可以代表卓培班考試成績矩陣。在這一基礎上計算每個變量在三個特征值上的載荷,并進行聚類。聚類的結果如圖1(A)所示。在圖中,圓形(第一組)表示了計算機基礎,法律基礎,大學英語(一,二),采礦工程導論,國防教育與C語言程序設計七門課,三角形(第二組)表示了高等數學(一,二),大學物理,線性代數,理論力學五門課,十字形(第三組)代表了兩個學期的體育課,正方形(第四組)代表了大學語文與物理實驗兩門課。

圖1 兩個班級大學生考試成績主成分分析與聚類分析結果
從各門課在三個維度的載荷來看,第一組在RC1上的載荷較高,其它三組載荷接近為零;第二組在RC3上的載荷較高,同時其它三組載荷接近為零;第三組在RC2上的載荷較高,第四組在RC2上有一定的負值,其它兩組的載荷接近為零。計算結果顯示了各門課在成績分布上的聚類關系。這種關系代表了課程的特點,學生的學習習慣與效果。RC1維度上顯示了記憶對課程的影響,說明大學英語,計算機基礎等課程記憶的重要性,而其它課程受記憶的影響相對較小。RC3維度顯示了理解對課程的影響。這一結果與一般的理解相近,即數學,物理,力學偏重理解的特征,同時對其它課程的影響較小。
應用同樣的方法對普通班的成績進行了分析。普通班成績最大的三個特征值分別為5.80,2.99和1.86,累計貢獻率為93%。用三個特征值可以代表普通班考試成績矩陣。計算每門課在三個特征值的載荷,并進行聚類,結果如圖1(B)所示。在圖中,圓形(第一組)表示了C語言程序設計,高等數學(一,二),大學物理,物理實驗,兩個學期的體育課;第二組(三角形)表示了線性代數,計算機基礎,法律基礎,心理健康與國防教育五門課;第三組(正方形)表示了大學語文,大學英語(一,二),采礦工程導論四門課。
從各門課在三個維度的載荷來看,第一組在RC1上的載荷較高,其它兩組的載荷接近于零。第二組在RC2上的載荷較高,其它兩組的載荷接近于零。第三組在RC3上哦載荷較高,其它愛那個組的載荷接近于零。第一組包含一些理解能力要求較高的課程,如高等數學與大學物理,物理實驗等。與卓培班不同的是,C語言程序設計與體育課與數學與物理的相關性較高,被劃分為一組。第二組主要包含了一些記憶性要求較高的課程,如法律基礎和心理健康等,與卓培班分析結果不同的是,線性代數表現出較強的相關性,被劃分到這一組。第三組的四門課程也表現出較強的記憶要求。
兩個班級的考試成績表現出一些相同的規律,但同時也表現出一些個性特點。這些特點可能會受到以下因素的影響:課程的特點,如課程的內容,前后課程的關系等;教學的過程,如教學的方法,講授的內容,學習的要求,考試的要求等;學習的方法,如個人學習習慣與學習方法的建立,個人精力投入,班級的學風等。這些因素共同影響了學生的學習成績,要想切實提高教與學的質量,提高學生學習的效率,主成分分析與聚類應是一個切入點。另一方面,這項工作是一項復雜的系統工程,需要更加深入的研究。
通過對學生成績的數據挖掘,得出了兩個班級基礎課學習效果的共生組合關系。發現:
(1) 在學習的課程中有明顯的共生組合關系,說明學生的學習效果,以及學習的過程,學習的方式有其規律性;
(2) 不同的班級表現出了不同的規律,說明學生的學習效果受到一些內部與外部因素的影響,通過找到這些規律就可以找到提高學生學習效果的方法。