改進的主成分聚類分析法在教育信息化中的應用

2015-12-25 08:04:32張文宇王秀秀任露馬月

軟件 2015年7期

張文宇++王秀秀++任露++馬月

摘要：隨著的多媒體教學的應用和發展，為了有效利用高校教育信息化系統中保存的大量信息，進而對教學情況進行科學合理地評估，本文提出了改進的主成分聚類分析法并構建了基于此方法的學生成績綜合評價模型。首先對原始數據集進行了變換處理，再對評價指標進行預處理，進而結合系統聚類法對綜合主成分結果進行系統聚類，最后對某高校學生成績綜合評價進行了改進的模型驗證。仿真結果正確可靠，表明了此方法在教育信息化中應用的有效性，最終為教育教學管理者提供了決策支持。

關鍵詞：教育信息化；綜合評價；改進主成分分析法；SPSS仿真

中圖分類號：TP391.41

文獻標識碼：A

DOI： 10.3969/j.issn.1003-6970.2015.07.003

0 引言

教育信息化是教學改革的技術支持和強大動力，它對教育質量的提高也有著不可忽視的意義。教育信息化系統能夠有效管理教育信息化過程中積累的大量信息，本文根據系統信息的采集與分類，客觀地評價學生成績的實際情況，從而更好地方便教育管理者掌握教學動態過程。

目前，數據挖掘技術中使用范圍最廣、頻率最高的要數主成分分析法、關聯規則和聚類法。與此相對應，應用于國內外的教育科研分析中的數據挖掘方法主要也是以上幾種。但由于在學生成績評價過程中指標繁多，以及指標之間存在一定程度的重疊性和干擾性，加大了評價的難度；但這些方法容易受到評價者主觀因素的影響；運用單一的主成分分析法在評價樣本繁多、指標復雜的問題時會造成評價結果的不合理性。因此，筆者提出采用改進的主成分聚類分析法構建綜合評價模型，進行學生成績綜合評價，該模型能夠客觀地反映樣本的實際情況，克服主觀因素的影響，為教育管理者提供可靠的指導依據。

1 主成分分析的基本思想

主成分分析是指將多個變量轉化為少數幾個變量的過程，其中轉換之后的這幾個變量包含了原變量的信息，且彼此之間互相獨立，通過轉換之后的變量能夠線性地表示原始變量。它能將原本多維的變量空間轉換為較低維的綜合指標問題，并將反映最大信息量的綜合指標列為第一主成分，其次為第二、第三主成分。主成分的個數一般按照需要體現的原始信息的百分比來確定，得到的主成分之間是相互獨立的。

傳統的主成分分析法步驟如下：

設有n個樣本，每個樣本均有p個描述指標X₁，X₂，……，XP，原始數據矩陣為：X=（X_ij）_n*p

Stepl：標準化處理。由于選取的指標存在量綱和數量級上的差異，為了使綜合評價的結果客觀合理，在進行主成分分析前，需要進行無量綱化處理。一般采用均值化法進行標準化處理。

Step2：主成分分析標準化處理后的指標，得到相關系數矩陣：R=（rij）PxP。

Step3：解特征方程：，并求特征值和特征向量

Step4：計算各主要成分的方差貢獻率ak和累計方差貢獻率a（k）。其中，ak表示第k個主成分提取原始p個指標的信息量，a（k）表示前k個主成分保留的原始變量指標的信息量。

Step5：確定主成分的個數：一般取用累計貢獻率達到85%以上的特征值所對應的第一、第二、…、第m個主成分。

Step6：計算前m個主成分的得分。其中，

2 改進的主成分聚類分析方法

采用主成分分析方法進行數據挖掘時，獲得的原始數據集可能存在非線性關系，或者樣本之間的數量級不統一，為了保證原始數據集的完整性以及分析結果的可靠性，改進的主成分聚類分析法首先對原始數據集進行了變換處理，在此基礎上通過標準化、均值化或極值化統一量綱或數量級。

2.1 對非線性數據的線性化處理

主成分分析法的原理是利用降維思想將多個指標轉換為幾個綜合指標。傳統的方法采用的是線性變換，但是在實際問題研究時，如果樣本指標變量間的相關性不高，主成分的降維效果也不明顯，為了保證原始數據的完整性以及綜合評價模型的可靠性，需要對變量可能存在非線性關系的原始數據樣本進行變換處理，本文采用對數中心變換法進行源數據的處理。該方法可理解為對源數據的“幾何平均合成”后的對數表示0。

2.2 評價指標的預處理

利用主成分分析方法來做綜合評價的原理是通過樣本數據的協方差或是相關系數矩陣來分析源數據的主成分，進而據此盡可能多的反映原變量的信息。然而無論是協方差還是相關系數矩陣都很容易受到指標數量級以及量綱的影響，所以如何選擇合適的方法來預處理原始信息就顯得尤為重要，但這同時就削弱了源數據中各樣本的差異性，針對以上這個問題本文首先從評價指標的預處理方面來改進主成分分析方法。

對原始數據矩陣進行的無量綱化處理后的數據矩陣可以表示為和分別為指標矩陣對應的方差，為指標所對應的相關系數，其中相關系數的計算公式為：

原始指標之間的相互關系依賴于原指標的相關系數，而在本文中，經過數據的極值化變換、均值化變換以及標準化變換，使得原指標相關系數未發生改變，因而原始指標之間的相互關系也因此未發生變化。因此采取以下方法來選取主成分原始指標的處理方法。

令A為選取主成分原始指標處理方法的函數，其中a₁、a₂、a₃分別表示數據標準化值、數據均值化值、數據極值化值，則

（1）數據的標準化處理

令，得到標準化處理后的相關系數矩陣為：

（2）數據的均值化的處理：

令，于是得到均值化處理后的相關系數為：

通過均值化處理各指標間的相關系數不會發生改變，因此選取均值化方法處理源數據可以在保證數據無量綱的同時原始數據的變異程度不會發生變化，可以更生動地反映數據樣本的實際情況。

通過均值化處理，數量級和量綱對指標的影響不僅得到了消除，同時還使得樣本的所有信息得到了保留。

令，則可得出相關系數矩陣：

2.3 綜合評價聚類分析

本論文構建綜合評價模型時采用改進的主成分聚類分析法，首先利用主成分分析法降低原始指標的維度，得出相互獨立的主成分，再對其結果進行聚類分析，通過這兩種方法的結合可以有效避免單一方法評價的不合理性。

系統聚類法是一種多元統計方法，它將變量或者樣品按照其性質上的相似關系進行分類從而分析評價變量。它的優點是可以得到良好的分類結果在不了解分類對象的分類結構的情況下，且這些劃分出來的子集中的點都高度的內在相似。然而其主要的缺陷是無法對各類之間的優劣程度進行評價。而主成分分析法卻可以較輕松地綜合評價多指標體系在僅有少量數據的前提下，但其缺點是僅使用q個主成分對系統進行全面評價并不客觀，在實踐中無法避免其片面性，因而評價結果與事實或多或少會出現差距。基于兩者的特點，在對系統進行綜合評價時可以將這兩種方法結合起來使用。

本文中，首先采用“對數中心變換法”的主成分分析法來對原始數據信息進行分析，然后利用聚類方法來分析若干個主成分，再對樣品在每個聚類類別進行分類排序并參照q個主成分的排序結果的改進的主成分聚類分析方法對系統進行綜合評價。

本文采用離差平方和法對選定的新數據進行聚類分析。離差平方和法是在分類正確的情況下，不同類樣本之間的離差平方和S較大，而同類樣本之間的離差平法和則較小。基本的步驟是首先視n個樣本為一類，然后逐次縮小類的數量。類的個數每縮小一次，S的值就應該增大，然后再逐次合并使S增加最小的兩類，以此類推直至所有樣本被歸類完畢。然后計算每類變量的所有均值，接著計算每個樣本的類均值距離平方，最后再求得所有樣本的距離之和。

假定n個樣本被分為k類，分別為G₁，G₂.，.，G_k，n_t表示類G_t中樣本的個數，x_it表示G_t中的第i個樣本的變量指標值向量，xt表示Gt的重心，則Gt中樣本的離差平均和公式和全部類內離差平方和公式分別如下所示：

在實踐應用中，因為其分類效果較好，離差平方和方法的應用較為普遍。

3 基于改進的主成分聚類分析方法的基本步驟

基于改進的主成分聚類分析法的基本步驟如下：

Stepl：采用對數中心變換法變換處理原始數據集。

Step2：根據具體實例，選取三種評價指標的預處理方法的一種統一原始數據集，進行標準化、均值化或極值化處理。

Step3：根據標準化后的數據，建立關于P個指標的相關系數矩陣R。

Step4：求得相關系數矩陣R的特征值和特征向量。

Step5：分別計算每個主成分的方差貢獻率a_k，并據此求得累積方差貢獻率a（k）。

Step6：確定主成分的個數。

理論上來說是要求以較少的主成分實現最大程度的表示原始指標變量的信息量.其實質是在k和a_k之間進行權衡：一是，要求k盡可能地小；二是，要求a_k盡可能的大。

Step7：求各主成分函數的表達式

主成分函數表達式為：

其中初始因子載荷矩陣每列的系數除以它們相應的特征根后開平方后得到表示標準化后的數據，i=l，2，…，k。

Step8：計算綜合主成分值

通常在進行綜合時選取加權算術平均法，以各個主成分的方差貢獻率ak為權重，以此求出各個樣本的主成分綜合評價得分，具體公式為：F=a₁F₁+a₂F₂+…+a_kF_k

Step9：主成分指標聚類

對于選定的新數據陣（F₁，F₂，¨，F_i），對上述主成分分析的結果采用聚類分析法進行處理。再結合綜合成分得分，以此確定樣品在各類中的排序，最后得到綜合評價結果。

通過以上基本步驟，得到綜合評價結果，最終為原始數據集樣本對象的綜合比較和排序分析提供了模型和方法依據。

4 學生成績綜合評價模型實例仿真

4.1 模型建立

（1）數據收集

學生成績綜合評價模塊所采用的原始數據是某高校12級電商專業所有畢業生的大學成績，包含的數據信息有學號、課程名稱、學分、成績等，其中包含了72個學生的22門課程信息。

（2）數據預處理

剔除不相關數據樣本。原始數據集中的學分、平時成績、課程性質、績點、學院班級對學生特征分析模塊的分析研究沒有任何意義，所以去除。

（3）類似數據項合并

在原始數據集中存在類似數據項，例如，大學英語I和大學英語II、高等數學CI和高等數學CII、體育I和體育II，對于這些類似數據項通過平均值二合一（四舍五人取整），對軍事理論、中國近現代史綱要、思想道德修養與法律基礎以及合并之后的形式與政策，同樣采用平均值的方法進行合并，通過類似項合并后，得到15門課程。

（4）數據數值化

在原始數據集中，計算機操作和認識實習的成績是通過優秀、良好、中等、及格來表示的，在數據預處理過程中，將其轉化為百分制，分別為90、80、70、60。采用SPSS進行主成分分析，構建學生教育評價模型，具體實例仿真過程及結果分析如下所述。

4.2 實例仿真

（1）指標選取

該模塊主要是利用某高校電商12級學生的成績，對所有學生進行綜合評價分析，所以采用的指標是電商的所有課程。

（2）對于原始數據集指標變換及評價指標的預處理，本文采用均值化方法。

（3）求經過標準化后的原始數據集的相關矩陣，及其相關矩陣的特征根。

（4）確定主成分的個數

如圖1所示是由第2步求得到的方差貢獻率和其相關系數矩陣的特征根，由于前5個主成分貢獻率為72.825%，能夠很好地反映總體指標，同時考慮圖2中的變量不出現損失，因此提取的主成分個數為5。

圖2所示的是初始因子載荷矩陣，可知，在第一個因子上所有課程都具有相對較高的載荷，大學英語、網頁設計基礎、體育、認識實習、電子商務概論、計算機操作以及思想理論在第二個因子上有較高的載荷，第三至第五的因子載荷與此類似，正數說明載荷較高，能更好的反映所對應的指標課程。

（5）確定主成分函數的表達式

主成分系數向量是由圖2中的每列的系數與其特征根之商開根后得到。計算主成分函數的表達式如下，

（6）計算綜合主成分值

由上述矩陣計算，得到的5個主成分函數，分別反映了不同的課程指標信息，最后得出綜合主成分公式：F=0.0.46Fl+0.0 8F2+0.068F3 +0.063 F4+0.05 7F5

通過改進的主成分聚類分析方法可以求出電商12級學生的主成分綜合值。同時對這些學生按照他們的綜合主成分值進行排序，部分結果如表1所示，可知，學號為4、5、62的同學綜合主成分得分較高，說明這三名學生的綜合成績評價較高，同時可以看出影響每個學生綜合評價的5個主成分值。

分析不同的主成分，挖掘學生綜合評價的具體影響因素，并針對具體問題提出解決方法。

（7）對綜合主成分值進行系統聚類并進行評價與分析

利用SPSS軟件對主成分得分進行進一步的聚類分析，同時參考各類中每個同學的綜合主成分均值以此對類進行排序。參照類中每個學生成績的綜合主成分得分，確定每個同學在各類中的排名，最終得到綜合的評價結果。系統聚類圖如圖3所示，

求得這五類中樣本的平均得分并排序：第一類{4、5、62、64}；第二類{61、27、7、12}；第三類{21、65、70、1、13、28}；第四類{24、38、50、34、47、18、51}；第五類{63、29、59、55}。

由分析結果可以發現，學號為4、5、62、64的同學綜合得分較高，被聚成一類，對比原始成績可以發現，這些同學的原始得分均較高，為班級表現比較突出的同學，與實際情況相符；學號為61、27、7、12的同學表現次之，與實際情況相符；與傳統的主成分分析相比，改進的主成分聚類分析方法能夠在很大程度上克服主觀因素的影響，同時在對原始信息的處理中采用了變換和均值化處理方法，使挖掘的結果更加準確，在此基礎上運用聚類分析方法，將成績相似的同學聚為一類，為準確評估學生的整體水平和有針對性的尋求解決方案提供更可靠的依據。

5 結束語

本文在傳統主成分分析法的基礎上改進了數據的預處理及最后的綜合評價過程，并建立了基于改進的主成分聚類分析方法的學生成績綜合評價模型，最后以某高校學生信息為挖掘目標，以規范化的方式對相關信息進行了統一處理，且應用SPSS軟件進行了實例仿真，將原有課程的15個指標綜合成了5個指標的評價體系，更好的反映了學生的綜合成績，克服了傳統方法的不足，為教學研究管理以及學生的綜合評價提供了依據，并且說明了在教育信息化中應用數據挖掘技術的有效性，教育信息化的發展逐漸需要數據挖掘技術作為支撐，此方法的應用對于后續研究教育信息化以及相關實踐教學具有指導性意義。