湖南第一師范學院 胡 英
數(shù)據(jù)挖掘在成績分析中的研究與應(yīng)用
湖南第一師范學院 胡 英
隨著時代的發(fā)展,教育改革的深化,每一年的高校升學率都在直線上升,這給學校的教學管理帶來了很大的沖擊和挑戰(zhàn)。數(shù)據(jù)挖掘技術(shù)能夠從大量的信息資源中搜索到有價值的信息,可以幫助教學管理者進行有效決策,提高工作效率。本文主要討論數(shù)據(jù)挖掘技術(shù)在學生成績分析中的應(yīng)用,希望對于高校的教學管理有一定參考價值。
數(shù)據(jù)挖掘 成績分析 研究 應(yīng)用
隨著科學技術(shù)的快速發(fā)展,數(shù)據(jù)庫已經(jīng)被廣泛應(yīng)用于各行各業(yè),隨著數(shù)據(jù)庫中的數(shù)據(jù)量不斷增長,要從大量的信息資源中挑選出有效的信息是非常重要的工作,數(shù)據(jù)挖掘技術(shù)在這樣的背景環(huán)境之下應(yīng)運而生。數(shù)據(jù)挖掘技術(shù)在教育界的使用具有重要的意義,它可以幫助教育管理決策者有效地做出判斷和決策,有助于從海量的學生信息中發(fā)現(xiàn)一些隱藏的、有價值的信息指導(dǎo)教師的教學以及深入研究學生的學習情況。
隨著數(shù)據(jù)庫的廣泛使用,數(shù)據(jù)量也不斷增多,從大量隨機的數(shù)據(jù)中找出隱藏在其中有用的信息的過程就是數(shù)據(jù)挖掘。這種技術(shù)是一種深層次對信息進行分析的方法。數(shù)據(jù)挖掘技術(shù)的應(yīng)用包含很多學科知識,它的功能十分強大。它在教育領(lǐng)域的應(yīng)用可以實現(xiàn)分析學生成績與各種因素之間的內(nèi)在聯(lián)系。
隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,高校研究人員已經(jīng)逐漸將數(shù)據(jù)挖掘及時應(yīng)用到學生的成績分析中,幫助研究人員找到一些影響學生成績的相關(guān)因素,同時能夠全面地分析這些因素與學生成績之間的內(nèi)在關(guān)系。數(shù)據(jù)挖掘結(jié)果可以幫助管理者制定提高學生成績的方案,最大程度地提高學生學習積極性和熱情,從而實現(xiàn)教學質(zhì)量和教學效果的大幅度提高。
在高校學生成績分析中使用的數(shù)據(jù)挖掘技術(shù)主要有三種:關(guān)聯(lián)規(guī)則、分類技術(shù)、聚類分析。這三種方法都有自身的特點,但是對于學生成績分析都有重要作用。
1.關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘方法主要是從實際應(yīng)用的角度出發(fā),使用數(shù)據(jù)庫挖掘技術(shù)對學生成績分析和處理,然后可以得到一些有規(guī)律的資源,例如,學生成績的實際趨勢變化、學生成績與課程的關(guān)聯(lián)性、學生成績所體現(xiàn)出來的水平層次以及教師對學生成績的影響等,這些相關(guān)性可以為學校的教學與管理提供輔助性的幫助。
關(guān)聯(lián)規(guī)則挖掘方法是數(shù)據(jù)挖掘技術(shù)中非常重要的方法,主要是用于探索數(shù)據(jù)中不同項目之間的內(nèi)在聯(lián)系。支持度和置信度用于衡量關(guān)聯(lián)規(guī)則中的規(guī)則興趣度。最為常用的方法是Apriori。這種方法使用的是逐層進行檢索的方式,需要對數(shù)據(jù)庫進行重復(fù)性的搜索和掃描,產(chǎn)生很多的候選集。在分析學生成績的時候,應(yīng)用關(guān)聯(lián)規(guī)則技術(shù),能夠從有效的數(shù)據(jù)中搜索到有效的信息資料。隨著信息技術(shù)的快速發(fā)展,Apriori算法在技術(shù)上也進行了相應(yīng)的改進和提高,所以在進行檢索的時候能夠更加方便和簡潔,而且檢索到的信息資源也十分全面。例如,對學生的英語六級信息數(shù)據(jù)庫中的成績進行挖掘,在檢索的結(jié)果中找到了一些有價值的關(guān)聯(lián)項集:在2013年的上學期沒有通過英語六級的學生中有80%是男生,然而全體男生中有60%沒有通過大學英語六級。說明這所高校通過英語六級的情況是女生處于偏優(yōu)的勢態(tài)。人們通常認為理工科的男生對于英語的學習天賦比女生的英語天賦要差一些,所以學校應(yīng)該采取相應(yīng)的教學和管理方案提高男生在英語學習方面的不足,使學生的綜合素質(zhì)得到提高。
根據(jù)關(guān)聯(lián)規(guī)則得出的信息,給學校管理者的提示是要加強對理工學科男生英語學習的管理,實施多元化管理模式進行學生的分類管理。例如,對于一些自我約束比較差的男生以及英語的實際應(yīng)用水平比較低的學生進行外語早自習輔導(dǎo)的同時,還應(yīng)該對于他們進行強制性的晚自習輔導(dǎo)。一方面,可以提升學生的英語成績;另一方面,有利于學生利用晚自習的時間來充實自己的英語知識。同時,學校還應(yīng)該對外語級別比較低的男生進行思想政治教育,因為學生覺悟的提高可以使學生自覺地養(yǎng)成良好的學習習慣。很多學生平時由于缺乏良好的生活學習習慣,沒有形成學習英語的積極性和熱情。因此應(yīng)該對其進行多元化管理,將英語學習成績優(yōu)異的學生的重點進行綜合素質(zhì),提高成績優(yōu)異的學生在平時的學習和生活過程中起到模范帶頭作用。這樣也可以幫助英語水平低的男生解決一些英語學習上的困難。除此之外,這種關(guān)聯(lián)規(guī)則挖掘法可以提示給英語教師在教學中應(yīng)該注重分析平時男生的英語學習情況。針對男生的學習狀況提出一些針對性的教學方案,激發(fā)男生對于英語學習的積極性和熱情,提高男生的英語六級的通過率。這是一項關(guān)于學生英語成績的分析,對于學生其他學科的成績也可以用這種數(shù)據(jù)挖掘技術(shù),進而分析影響學生成績的因素。針對影響因素的性質(zhì)不同,統(tǒng)計分析這些因素與學生成績之間的關(guān)系,然后相應(yīng)改變教學和管理制度,提高教學質(zhì)量。
2.分類技術(shù)
分類技術(shù)當中最為典型的方法就是決策樹的方法,決策樹是一個類似于流程圖的樹狀結(jié)構(gòu),其中每一個樹節(jié)點表示的都是一類或者多類分布。ID3算法是分類技術(shù)中最為典型的一種算法。把決策樹的分類方法應(yīng)用到學生成績分析中,全面分析影響學生成績的相關(guān)因素,并分析相關(guān)因素與學生成績之間的內(nèi)在聯(lián)系,為教學的管理提供一些有效信息,幫助決策者做出正確決策,促使學校順利完成教學任務(wù),提高教學效果和教學效率。
在生成決策樹過程中,由于某種原因可能會導(dǎo)致數(shù)據(jù)庫中的數(shù)據(jù)被劃分成越來越小的部分,決策樹會遭遇到失去統(tǒng)計意義。為了盡量避免這些現(xiàn)象的發(fā)生,應(yīng)該在設(shè)計算法之間事先將分類屬性進行正確分組,然后根據(jù)這些事先設(shè)計的分類值進行全面分析和判斷,但是當發(fā)生一個屬性值并不符合給定集合的時候,應(yīng)該馬上停止進一步劃分這個子集。隨著科學技術(shù)的進步,ID3算法也在不斷改進,提高了這種算法的工作效率。例如,要想在學校的數(shù)據(jù)庫中搜索學生大學計算機基礎(chǔ)課程的成績,改良后的算法所用的時間比改良之前的算法所用的時間明顯減少很多,在很大程度上提高了工作效率。
在分類機制的基礎(chǔ)之上建立的粗糙集理論在分析學生成績中也有重要作用,這種理論可以將一些不全面和不準確的信息進行分析和處理,這種特征正好符合數(shù)據(jù)挖掘中的數(shù)據(jù)特性。這種理論主要的應(yīng)用范圍是離散值屬性,對于學校數(shù)據(jù)庫中學生的成績進行分析時,應(yīng)該對其進行離散化,才能夠?qū)崿F(xiàn)粗糙集理論的意義。例如,在進行高校學生的成績分析中,應(yīng)該對基本的數(shù)據(jù)表屬性約值,然后對初步數(shù)據(jù)表進一步的值約簡,這樣才能夠?qū)崿F(xiàn)分類規(guī)則,粗糙集理論有著對于數(shù)據(jù)屬性的制約,同時還有其自身的優(yōu)點,優(yōu)點主要表現(xiàn)在可以直接地提取分類規(guī)則,為學生成績分析工作帶來方便。
3.聚類技術(shù)
聚類技術(shù)在學生成績中的應(yīng)用有著十分重要的意義,它可以被看作是統(tǒng)計學的一個分支,同類中的樣本比屬于不同類的樣本之間具有很高的相似性,這種分析方法是一種無指導(dǎo)的學習方法。例如,利用聚類分析技術(shù)研究學生成績在相同課程不同院系學生之間的分布。我們想要知道同一個年級不同院系的學生在學習相同課程的時候產(chǎn)生的學科成績的差異性,可以通過對11級3個系(外語系,美術(shù)系,經(jīng)濟管理系),10個班的三門課程(大學體育、大學英語、大學計算機基礎(chǔ))成績進行分析,了解學生的學習情況。檢索的結(jié)果發(fā)現(xiàn),外語系的學生這三門課程的成績都比較好,經(jīng)濟管理系的學生大學計算機基礎(chǔ)課程的成績比較高,美術(shù)系的學生只有大學體育成績比較差。根據(jù)這樣的分析結(jié)果,經(jīng)濟管理系的學生在英語和體育方面的成績比較差,所以在進行教學管理的時候應(yīng)該提出適合經(jīng)濟管理系學生的英語和體育教學方案,提高經(jīng)濟管理系學生的英語和體育成績。同時,還應(yīng)該制定適合美術(shù)系學生的體育教學方案,使學生體育成績和其他科目的成績一樣的優(yōu)秀,不要出現(xiàn)偏科現(xiàn)象。學校可以針對于美術(shù)系的學生制定早操計劃,增強學生體質(zhì),從而實現(xiàn)學生在進行藝術(shù)創(chuàng)作的時候,也擁有健康的身體。
高校學生成績數(shù)據(jù)庫按照學生學習的課程的性質(zhì)將課程分為四個類別,主要是公共必修課、專業(yè)基礎(chǔ)課、專業(yè)類必修課以及專業(yè)方向選修課。然后將其進行分類,對于一些不規(guī)則的數(shù)據(jù)進行處理。利用聚類分析技術(shù)中最典型的算法對學生學期成績進行處理和分析,可以將聚類數(shù)值定為7種。
其中,類別1是成績中等的學生;類別2是專業(yè)課的成績不理想但是其他學科成績位于中等的學生;類別3是所有科目成績都不理想的學生;類別4是專業(yè)類必修課科目的成績差,但是除此之外其他科目的成績位于中等的學生;類別5是各科目的學習成績都比較好的學生;類別6除了專業(yè)方向選修課程的成績之外,其他課程成績是中等的學生;類別7是學生的公共必修課程及格,除此之外的學科成績都比較差。通過分析可以得出類別1的學生比例比較高,高校理工科的學生成績比較好,但是還存在有一些學生的學習成績不及格。在教學管理的時候,對于一些單科學習成績不及格的學生進行專門的研究,然后制定相應(yīng)的教學方案,防止學生發(fā)生偏科現(xiàn)象。例如,有些理科學生的體育成績不及格,學校針對體育單科成績不及格但是其他科目都理想的學生加強體育教學,提高學生的體質(zhì),在文化課程優(yōu)異的同時保證他們身體健康,以實現(xiàn)學生綜合素質(zhì)的提高。
數(shù)據(jù)挖掘技術(shù)在學生成績分析中具有重要的使用價值,可以為教學管理者提供有效的數(shù)據(jù)和資源。同時,這種技術(shù)能夠在數(shù)據(jù)庫的海量信息中找出隱藏信息,發(fā)現(xiàn)影響學生成績的相關(guān)因素,為高校的教學改革提供科學的數(shù)據(jù)依據(jù)和基本的教學保障。
[1]劉美玲,李 熹,李永勝.數(shù)據(jù)挖掘技術(shù)在高校教學與管理中的應(yīng)用[J].計算機工程與設(shè)計,2010.05
[2]頁 川.大數(shù)據(jù)時代背景下挖掘教育數(shù)據(jù)的價值——教育部科學技術(shù)研究重點項目成果《教育數(shù)據(jù)挖掘:方法與應(yīng)用》出版[J].中國遠程教育,2013.04
[3]呂 嵐,林玉連.數(shù)據(jù)挖掘技術(shù)在教學管理中的應(yīng)用——以對某中學高中文科綜合考試成績進行聚類分析為例[J].軟件導(dǎo)刊,2008.10
[4]劉 芳,林海霞.數(shù)據(jù)挖掘技術(shù)在高校計算機等級考試成績分析中的應(yīng)用[J].廣西輕工業(yè),2008.11
[5]黃愛輝.決策樹C4.5算法的改進及應(yīng)用[J].科學技術(shù)與工程,2009.01
[6]陳曉玲.數(shù)據(jù)挖掘在學分制成績管理中的應(yīng)用研究[D].中南大,2009
[7]杜 聰.數(shù)據(jù)挖掘技術(shù)在科研評價系統(tǒng)中應(yīng)用研究[D].山東大學,2009
(此文系湖南第一師范學院科研課題,項目編號:XYS09N08)
ISSN2095-6711/Z01-2015-01-0086