999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聚類技術在學生成績分析中的應用

2016-03-27 22:21:20
無線互聯科技 2016年19期
關鍵詞:數據挖掘分析學生

黃 瑩

(貴州職業技術學院,貴州 貴陽 550001)

聚類技術在學生成績分析中的應用

黃 瑩

(貴州職業技術學院,貴州 貴陽 550001)

文章將數據挖掘中的聚類技術引入到對學生成績分析中,通過尋找影響學生學習成績的內部原因及其他結論,可以有針對性地提高教學質量。針對傳統K-均值算法中初始中心點選取存在的缺陷,將Huffman樹構造的思想用于優化初始中心點的選取,改善傳統K-均值聚類算法容易陷入局部最優而非全局最優的不良結果。將該改進的聚類算法應用到學生成績劃分中。在對學生成績分析的過程中,分析也驗證了該改進算法在學生成績分析中的優越性和有效性。

聚類技術;K-均值算法;成績分析

隨著高校的不斷擴招,學生數量越來越大,傳統的學生成績分析僅僅通過分值的高低、平均值來簡單劃分,學生成績中存在的隱含信息無法知曉,已不適應深入分析的需要。本文將數據挖掘中的聚類技術應用于學生成績分析,判斷學生成績中影響成績高低的因素及由此產生的結果,可幫助教師有針對性地指定學生的學習計劃,提高教學質量。

1 數據挖掘與聚類分析

數據庫系統用于管理和處理數據,從而可以對數據進行加以分析、利用。然而,在實際使用中,對于如此龐大的數據,往往需要對其作較高層次的處理,找出其中規律和模式,以幫助管理者更好地利用這些數據做一系列的決策及研究,因此,數據庫系統提供的功能是遠遠不夠的。數據挖掘(Data Mining)正是在這樣一個背景下產生的,數據挖掘是指從大量數據中提取或“挖掘”知識。這些知識是事先未知的、隱含的、但潛在有用的信息,數據挖掘意味著從大量的、不完全的、模糊的、隨機的、帶噪的數據中提取人們感興趣的信息或者模式的過程[1]。

聚類問題產生于多門學科,聚類分析最初出現在統計學領域,是多元分析的一個分支,主要研究的算法是基于對距離分析的,如:K-均值算法、最短距離法等。關于聚類問題,尚存在許多需要去研究的領域,如:處理形狀不規則的數據對象的能力;處理數據量大、數據模型復雜的數據集合時,提高聚類結果精確度的問題;處理帶噪數據、孤立點數據、未知數據或者錯誤數據的能力;處理高屬性數據的能力;降低對先決條件的依賴性。這些問題的存在也是未來聚類分析研究的主要方向。

2 基于K-Means算法的聚類分析

K-Means聚類算法是一種基本且應用廣泛的聚類分析方法,屬于劃分方法的一種。基于給定的聚類目標函數(即:判別準則),指定聚類的類別數k,采用迭代更新的方法,最終得到k個聚類中心表達的聚類結果。每一次迭代都是向目標函數值靠近,終止條件為:聚類結果使目標函數取得極小值,聚類效果較優。K-Means算法以類內平方誤差和函數為目標函數,k個劃分是用戶事先指定的,通過迭代優化,使目標函數值最小。其中,目標函數是集合中每個簇的數據點到該簇中心點的平方和。該算法本質上是一種枚舉法,屬于硬劃分,即:每個對象必須而且只屬于一個劃分,每個劃分包含至少一個對象。

K-Means算法是解決聚類問題的一種經典算法。它的主要優點是算法簡潔快速。如果結果簇是密集的,且簇與簇之間區別明顯時,它的效果最好。同時,對于大數據集的處理,該算法相對效率較高。但是,K-Means算法也存在著一些問題,比較顯著的有:初選擇始聚類中心的問題、K值的估計。

針對傳統K-均值算法中初始中心點選取存在的缺陷,將Huffman樹構造的思想用于優化初始中心點的選取,改善傳統K-均值聚類算法容易陷入局部最優而非全局最優的不良結果,并將該改進的聚類算法應用到學生成績劃分中,可有效避免隨機選取初始中心點導致的結果不穩定性,一定程度上也減少了算法陷入局部最優的可能性。

3 基于Huffman樹的K-Means聚類算法核心步驟

(1)計算數據的相異度矩陣,作為構造Huffman樹權值的依據,將數據樣本構造成一棵Huffman樹。分析算法的實際需要,在構造樹時,選取歐式距離最小的兩個數據點作為新樹的左右子樹,并將這兩點的算術平均值作為新樹根結點的值;重新計算所有樹根節點的相異度矩陣。

(2)根據圖論理論,按照Huffman樹結點構造過程的逆序找到k-1個結點,將這k-1個結點去掉可得到k個子樹,這k個子樹的根節點即為k個初始聚類中心點。

(3)根據這k個初始聚類中心點,按照傳統K-Means聚類算法進行聚類即可。

4 聚類技術在學生成績分析中的應用

在運用K-Means算法進行學生成績分析時,首先,進行數據預處理以保證聚類結果的質量和提高聚類的效率,然后根據聚類結果分析學生成績;對某班的單科成績進行分析,找出對學生總體成績影響最重要的因素,以便為相關教師改變教學方式和方法、提高整體教學質量方面提供依據。同時,推廣到不同考試科目的成績進行綜合分析,得出學生成績整體的情況及其相關科目之間的共性及學生特征,從而為進一步完善整體成績管理系統提供技術支持。在對學生成績分析的過程中,也驗證了該改進算法在學生成績分析中的優越性和有效性。

運用Huffman樹的思想尋找到初始聚類中心點,接下來,使用傳統的聚類算法對數據集進行聚類,即可得到改進的K-Means聚類算法。本文首先描述了傳統的K-Means聚類算法基本思想,分析了該算法存在的缺陷及現有的改進思想。針對初始聚類中心點選取的問題,介紹了目前主要的改進方法,并在此基礎上提出了改進的算法—使用構造Huffman樹的思想來選擇初始聚類中心點。對改進算法的思想及算法流程作了詳細描述,并對改進前后算法的性能作了比較。實驗結果證明,改進的算法提高了算法穩定性及結果有效性。

在對K-Means算法進行改進分析之后,將其運用到學生的成績分析中,對學生成績進行更深層次的分析。因為聚類主要是深度數據分析,應用聚類技術進行試卷成績分析是益處良多,可以將考試成績與諸多因素進行關聯分析。可為指定學生的下一步學習計劃提供依據,從而進一步提高學校教學質量。

某次考試試題難度偏高、任課教師評分標準較嚴,通常將導致學生整體成績偏低。在這樣的基礎上對學生的學習情況進行評價將產生不公正、不合理的結果,也會影響教師對學生的教學計劃制定、教學效果的優良評估。總之,傳統的成績分析方法有以下幾點不足:

(1)無法表示某一屬性值在整個數據集內動態分布的情況。

(2)等級劃分可能會將原始屬性差別并不大的數據分成不同等級,導致水平相差不大的同學其等級差別較大,對一部分同學不公平。

(3)如果數據含有多種條件,每個條件的格式也不一致,如果直接轉換,可能導致其與原始數據的差距,影響到后期等級評定的結果。

學生成績是教師指定教學計劃、進行教學管理的主要依據,但是由于有限的成績分析方法,這部分數據沒有得到充分的利用,很多成績里面隱含的有用信息無法輸出。如果通過數據挖掘,獲取學生成績所體現出的隱含信息,可以有針對性地進行教學計劃修改與指導,提高學生的學習水平。傳統的成績分析有如下的不足:成績中包含的有指導性的信息,可能被忽略;某一個科目對于整體科目的影響無法識別。

經過聚類分析,可將學生的成績歸類為不同的簇,簇的形狀、大小、聚類中心值可以為教學效果的評價提供參考;根據簇的形狀評價;根據簇的大小評價;根據簇中心點評價。

數據的預處理是數據挖掘過程中一個非常重要的環節,一般要占去挖掘過程中大部分的工作量。經驗表明,如果數據準備工作做得非常細致,在模型建立階段就會節省大量的精力。

5 結語

通過研究數據挖掘、聚類分析及K-Means算法,并將其應用到學生成績的分析中,進行客觀的成績分析與總結,本文可以得到如下結論。

(1)聚類算法在學生成績分析中的應用彌補傳統評價方法的不足,可以從不同的方面比較學生成績的差異,為教師制定與改進有針對性的教學計劃起到很大的幫助。

(2)K-means算法作為一種啟發式的聚類算法,在數據量小的情況下,聚類結果不一定理想。通過本文的實驗及其驗證的結果分析,K-means聚類算法進行了改進,在初值選擇部分,引入Huffman算法選定初值,不僅可得到穩定的運算結果,還可以保證運算時間短。

[1]朱明.數據挖掘導論[M].合肥:中國科學技術大學出版社,2002.

[2]蔡元萃,陳立潮.聚類算法研究綜述[J].科學情報開發與經濟,2007(1):145-146.

[3]陳文偉.數據倉庫與數據挖掘教程[M].北京:清華大學出版社,2006.

[4]行小帥,焦禮成.數據挖掘的聚類算法[J].電路與系統學,2000(1):59-67.

[5]李玉梅.數據挖掘初探[J].現代管理科學,2005(4):24-29.

[6]董長虹,賴志國,余嘯海.Matlab圖像處理與應用[M].北京:國防工業出版社,2004.Application of clustering method to analysis of students’grades

Huang Ying

(Guizhou Vocational Technology Institute,Guiyang 550001,China)

In this paper,the clustering technology of data mining is introduced into the analysis of student grades,by looking for the internal factors that influence students'grades and some other results,which can be targeted to improve the quality of teaching.According to the defects existing in selection of initial center point of traditional K- Means Algorithm,the the idea of Huffman tree structure is used to optimize the selection of initial center point and improve the bad result that traditional K-Means Clustering Algorithm is easy to fall into local optimum and non-adverse results of the global optimum.Improved clustering algorithm is applied to the division of students'grades.In the process of analyzing the students'performance,the analysis also validated the superiority and effectiveness of the improved algorithm in the analysis of students'grades.

cluster;K-Means Algorithm;analysis of students'grades

黃瑩(1988—),女,貴州安順。

猜你喜歡
數據挖掘分析學生
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
趕不走的學生
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
學生寫話
電力系統及其自動化發展趨勢分析
學生寫的話
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 在线视频一区二区三区不卡| 女同久久精品国产99国| 97久久精品人人做人人爽| 亚洲精品天堂在线观看| 国产在线观看99| 尤物亚洲最大AV无码网站| 亚洲婷婷在线视频| 亚洲人成网7777777国产| 97成人在线观看| 伊人久久久久久久| 免费看av在线网站网址| 国产欧美日韩另类精彩视频| 亚洲区欧美区| 久久视精品| 22sihu国产精品视频影视资讯| 国产精品太粉嫩高中在线观看| 日韩国产综合精选| 日韩欧美中文亚洲高清在线| 666精品国产精品亚洲| 国产无码网站在线观看| 久久这里只有精品66| 精品国产免费观看| 国产美女在线免费观看| 人妻精品久久无码区| 欧美午夜在线播放| 99尹人香蕉国产免费天天拍| 少妇精品久久久一区二区三区| 国产成人91精品免费网址在线| 欧美一区日韩一区中文字幕页| 激情乱人伦| 国产福利免费视频| 久久五月天国产自| 午夜三级在线| 国产成年女人特黄特色毛片免 | 国产精女同一区二区三区久| 国产伦片中文免费观看| 在线a视频免费观看| 91免费在线看| 免费一级毛片不卡在线播放| 国产黑人在线| 午夜视频在线观看免费网站| 国产一区三区二区中文在线| 国产青青操| 99成人在线观看| 女人毛片a级大学毛片免费| 亚洲精品你懂的| 日韩一级二级三级| 免费啪啪网址| 欧美成人一级| 国产精品免费入口视频| 国产男女XX00免费观看| 中文字幕无码电影| 国产成人综合网在线观看| 国产一二三区在线| 91亚洲免费视频| 人妻丰满熟妇αv无码| 欧美一区二区自偷自拍视频| 91无码网站| 亚洲激情区| 国产网站一区二区三区| 国产XXXX做受性欧美88| 日本精品影院| 999在线免费视频| 国产亚洲欧美在线视频| 永久免费精品视频| aaa国产一级毛片| 中国一级毛片免费观看| 午夜精品福利影院| 国产午夜人做人免费视频中文| 日本午夜精品一本在线观看| 亚洲日韩在线满18点击进入| 在线观看无码av五月花| 中文字幕在线看视频一区二区三区| 日韩成人免费网站| 欧美色视频日本| AV无码无在线观看免费| 在线国产资源| 国产一区在线视频观看| 日韩av在线直播| 亚洲成人在线免费| 亚洲欧洲日产国码无码av喷潮| 免费在线不卡视频|