黃 瑩
(貴州職業技術學院,貴州 貴陽 550001)
聚類技術在學生成績分析中的應用
黃 瑩
(貴州職業技術學院,貴州 貴陽 550001)
文章將數據挖掘中的聚類技術引入到對學生成績分析中,通過尋找影響學生學習成績的內部原因及其他結論,可以有針對性地提高教學質量。針對傳統K-均值算法中初始中心點選取存在的缺陷,將Huffman樹構造的思想用于優化初始中心點的選取,改善傳統K-均值聚類算法容易陷入局部最優而非全局最優的不良結果。將該改進的聚類算法應用到學生成績劃分中。在對學生成績分析的過程中,分析也驗證了該改進算法在學生成績分析中的優越性和有效性。
聚類技術;K-均值算法;成績分析
隨著高校的不斷擴招,學生數量越來越大,傳統的學生成績分析僅僅通過分值的高低、平均值來簡單劃分,學生成績中存在的隱含信息無法知曉,已不適應深入分析的需要。本文將數據挖掘中的聚類技術應用于學生成績分析,判斷學生成績中影響成績高低的因素及由此產生的結果,可幫助教師有針對性地指定學生的學習計劃,提高教學質量。
數據庫系統用于管理和處理數據,從而可以對數據進行加以分析、利用。然而,在實際使用中,對于如此龐大的數據,往往需要對其作較高層次的處理,找出其中規律和模式,以幫助管理者更好地利用這些數據做一系列的決策及研究,因此,數據庫系統提供的功能是遠遠不夠的。數據挖掘(Data Mining)正是在這樣一個背景下產生的,數據挖掘是指從大量數據中提取或“挖掘”知識。這些知識是事先未知的、隱含的、但潛在有用的信息,數據挖掘意味著從大量的、不完全的、模糊的、隨機的、帶噪的數據中提取人們感興趣的信息或者模式的過程[1]。
聚類問題產生于多門學科,聚類分析最初出現在統計學領域,是多元分析的一個分支,主要研究的算法是基于對距離分析的,如:K-均值算法、最短距離法等。關于聚類問題,尚存在許多需要去研究的領域,如:處理形狀不規則的數據對象的能力;處理數據量大、數據模型復雜的數據集合時,提高聚類結果精確度的問題;處理帶噪數據、孤立點數據、未知數據或者錯誤數據的能力;處理高屬性數據的能力;降低對先決條件的依賴性。這些問題的存在也是未來聚類分析研究的主要方向。
K-Means聚類算法是一種基本且應用廣泛的聚類分析方法,屬于劃分方法的一種。基于給定的聚類目標函數(即:判別準則),指定聚類的類別數k,采用迭代更新的方法,最終得到k個聚類中心表達的聚類結果。每一次迭代都是向目標函數值靠近,終止條件為:聚類結果使目標函數取得極小值,聚類效果較優。K-Means算法以類內平方誤差和函數為目標函數,k個劃分是用戶事先指定的,通過迭代優化,使目標函數值最小。其中,目標函數是集合中每個簇的數據點到該簇中心點的平方和。該算法本質上是一種枚舉法,屬于硬劃分,即:每個對象必須而且只屬于一個劃分,每個劃分包含至少一個對象。
K-Means算法是解決聚類問題的一種經典算法。它的主要優點是算法簡潔快速。如果結果簇是密集的,且簇與簇之間區別明顯時,它的效果最好。同時,對于大數據集的處理,該算法相對效率較高。但是,K-Means算法也存在著一些問題,比較顯著的有:初選擇始聚類中心的問題、K值的估計。
針對傳統K-均值算法中初始中心點選取存在的缺陷,將Huffman樹構造的思想用于優化初始中心點的選取,改善傳統K-均值聚類算法容易陷入局部最優而非全局最優的不良結果,并將該改進的聚類算法應用到學生成績劃分中,可有效避免隨機選取初始中心點導致的結果不穩定性,一定程度上也減少了算法陷入局部最優的可能性。
(1)計算數據的相異度矩陣,作為構造Huffman樹權值的依據,將數據樣本構造成一棵Huffman樹。分析算法的實際需要,在構造樹時,選取歐式距離最小的兩個數據點作為新樹的左右子樹,并將這兩點的算術平均值作為新樹根結點的值;重新計算所有樹根節點的相異度矩陣。
(2)根據圖論理論,按照Huffman樹結點構造過程的逆序找到k-1個結點,將這k-1個結點去掉可得到k個子樹,這k個子樹的根節點即為k個初始聚類中心點。
(3)根據這k個初始聚類中心點,按照傳統K-Means聚類算法進行聚類即可。
在運用K-Means算法進行學生成績分析時,首先,進行數據預處理以保證聚類結果的質量和提高聚類的效率,然后根據聚類結果分析學生成績;對某班的單科成績進行分析,找出對學生總體成績影響最重要的因素,以便為相關教師改變教學方式和方法、提高整體教學質量方面提供依據。同時,推廣到不同考試科目的成績進行綜合分析,得出學生成績整體的情況及其相關科目之間的共性及學生特征,從而為進一步完善整體成績管理系統提供技術支持。在對學生成績分析的過程中,也驗證了該改進算法在學生成績分析中的優越性和有效性。
運用Huffman樹的思想尋找到初始聚類中心點,接下來,使用傳統的聚類算法對數據集進行聚類,即可得到改進的K-Means聚類算法。本文首先描述了傳統的K-Means聚類算法基本思想,分析了該算法存在的缺陷及現有的改進思想。針對初始聚類中心點選取的問題,介紹了目前主要的改進方法,并在此基礎上提出了改進的算法—使用構造Huffman樹的思想來選擇初始聚類中心點。對改進算法的思想及算法流程作了詳細描述,并對改進前后算法的性能作了比較。實驗結果證明,改進的算法提高了算法穩定性及結果有效性。
在對K-Means算法進行改進分析之后,將其運用到學生的成績分析中,對學生成績進行更深層次的分析。因為聚類主要是深度數據分析,應用聚類技術進行試卷成績分析是益處良多,可以將考試成績與諸多因素進行關聯分析。可為指定學生的下一步學習計劃提供依據,從而進一步提高學校教學質量。
某次考試試題難度偏高、任課教師評分標準較嚴,通常將導致學生整體成績偏低。在這樣的基礎上對學生的學習情況進行評價將產生不公正、不合理的結果,也會影響教師對學生的教學計劃制定、教學效果的優良評估。總之,傳統的成績分析方法有以下幾點不足:
(1)無法表示某一屬性值在整個數據集內動態分布的情況。
(2)等級劃分可能會將原始屬性差別并不大的數據分成不同等級,導致水平相差不大的同學其等級差別較大,對一部分同學不公平。
(3)如果數據含有多種條件,每個條件的格式也不一致,如果直接轉換,可能導致其與原始數據的差距,影響到后期等級評定的結果。
學生成績是教師指定教學計劃、進行教學管理的主要依據,但是由于有限的成績分析方法,這部分數據沒有得到充分的利用,很多成績里面隱含的有用信息無法輸出。如果通過數據挖掘,獲取學生成績所體現出的隱含信息,可以有針對性地進行教學計劃修改與指導,提高學生的學習水平。傳統的成績分析有如下的不足:成績中包含的有指導性的信息,可能被忽略;某一個科目對于整體科目的影響無法識別。
經過聚類分析,可將學生的成績歸類為不同的簇,簇的形狀、大小、聚類中心值可以為教學效果的評價提供參考;根據簇的形狀評價;根據簇的大小評價;根據簇中心點評價。
數據的預處理是數據挖掘過程中一個非常重要的環節,一般要占去挖掘過程中大部分的工作量。經驗表明,如果數據準備工作做得非常細致,在模型建立階段就會節省大量的精力。
通過研究數據挖掘、聚類分析及K-Means算法,并將其應用到學生成績的分析中,進行客觀的成績分析與總結,本文可以得到如下結論。
(1)聚類算法在學生成績分析中的應用彌補傳統評價方法的不足,可以從不同的方面比較學生成績的差異,為教師制定與改進有針對性的教學計劃起到很大的幫助。
(2)K-means算法作為一種啟發式的聚類算法,在數據量小的情況下,聚類結果不一定理想。通過本文的實驗及其驗證的結果分析,K-means聚類算法進行了改進,在初值選擇部分,引入Huffman算法選定初值,不僅可得到穩定的運算結果,還可以保證運算時間短。
[1]朱明.數據挖掘導論[M].合肥:中國科學技術大學出版社,2002.
[2]蔡元萃,陳立潮.聚類算法研究綜述[J].科學情報開發與經濟,2007(1):145-146.
[3]陳文偉.數據倉庫與數據挖掘教程[M].北京:清華大學出版社,2006.
[4]行小帥,焦禮成.數據挖掘的聚類算法[J].電路與系統學,2000(1):59-67.
[5]李玉梅.數據挖掘初探[J].現代管理科學,2005(4):24-29.
[6]董長虹,賴志國,余嘯海.Matlab圖像處理與應用[M].北京:國防工業出版社,2004.Application of clustering method to analysis of students’grades
Huang Ying
(Guizhou Vocational Technology Institute,Guiyang 550001,China)
In this paper,the clustering technology of data mining is introduced into the analysis of student grades,by looking for the internal factors that influence students'grades and some other results,which can be targeted to improve the quality of teaching.According to the defects existing in selection of initial center point of traditional K- Means Algorithm,the the idea of Huffman tree structure is used to optimize the selection of initial center point and improve the bad result that traditional K-Means Clustering Algorithm is easy to fall into local optimum and non-adverse results of the global optimum.Improved clustering algorithm is applied to the division of students'grades.In the process of analyzing the students'performance,the analysis also validated the superiority and effectiveness of the improved algorithm in the analysis of students'grades.
cluster;K-Means Algorithm;analysis of students'grades
黃瑩(1988—),女,貴州安順。