999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹(shù)的學(xué)生成績(jī)分析

2019-05-23 10:44:40劉萃花朱娟
電腦知識(shí)與技術(shù) 2019年5期
關(guān)鍵詞:數(shù)據(jù)挖掘分析模型

劉萃花 朱娟

摘要:教育行業(yè)的持續(xù)教學(xué)和管理積累了豐富的教學(xué)數(shù)據(jù),如何深度挖掘這些數(shù)據(jù)背后的“寶藏”,是基于現(xiàn)代教育行業(yè)現(xiàn)狀和教學(xué)管理需求的重要課題。本文運(yùn)用數(shù)據(jù)挖掘中決策樹(shù)C5.0算法,對(duì)《數(shù)據(jù)庫(kù)原理》這門(mén)課程的學(xué)生期末考試成績(jī)進(jìn)行分類(lèi)研究,分析課程各個(gè)章節(jié)對(duì)于期末成績(jī)最具價(jià)值的影響,構(gòu)建了成績(jī)分析的決策樹(shù)模型。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)于細(xì)粒度挖掘課程內(nèi)容對(duì)學(xué)生成績(jī)的影響,具有重要意義,對(duì)于深入幫助教師制定教學(xué)計(jì)劃,突出教學(xué)重難點(diǎn),具有指導(dǎo)作用。

關(guān)鍵字:決策樹(shù);C5.0算法;成績(jī)分析

中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)05-0013-03

Analysis of Student Achievement Based on Decision Tree

LIU Cui-hua, ZHU Juan

(Jiujiang University, Jiujiang 332005, China)

Abstract: The continuous teaching and management of the education industry has accumulated rich teaching data. How to deeply explore the “treasure” behind these data is an important topic based on the status quo of modern education industry and the needs of teaching management. This paper uses the decision tree C5.0 algorithm in data mining to classify the students' final exam scores in the course of "Database Principles", analyzes the most valuable influences of the chapters on the final grades, and constructs a decision tree model for grade analysis.The experimental results show that this method is of great significance for the impact of fine-grained mining course content on student achievement. It has a guiding role for helping teachers to develop teaching plans and highlighting the difficult points of teaching.

Key words: decision tree; C5.0 algorithm; score analysis

新時(shí)代背景下,計(jì)算機(jī)的普及帶動(dòng)了數(shù)據(jù)收集、存儲(chǔ)和分析處理技術(shù)的發(fā)展。傳統(tǒng)數(shù)據(jù)分析技術(shù)已不再符合時(shí)代潮流,面臨數(shù)以萬(wàn)計(jì)的數(shù)據(jù),新興的數(shù)據(jù)挖掘技術(shù)展露出它的優(yōu)勢(shì),并以迅猛的速度席卷各個(gè)領(lǐng)域。此外,經(jīng)濟(jì)的發(fā)展推動(dòng)了社會(huì)對(duì)人才的渴求,教育這個(gè)熱門(mén)的話(huà)題再次被推向了人們的視野。如何提高教育水平?如何對(duì)學(xué)生學(xué)習(xí)進(jìn)行有效的管理?這些都亟待人們?nèi)ソ鉀Q。影響學(xué)生學(xué)習(xí)的因素有很多,其中學(xué)生成績(jī)作為最為直觀體現(xiàn)學(xué)生學(xué)習(xí)情況的重要因素一直被人們重點(diǎn)關(guān)注。由于往昔學(xué)生成績(jī)分析的方法還只是簡(jiǎn)單地統(tǒng)計(jì)查詢(xún)與對(duì)比,本文另辟蹊徑,將數(shù)據(jù)挖掘中的決策樹(shù)模型應(yīng)用于學(xué)生成績(jī)分析中,通過(guò)對(duì)學(xué)生成績(jī)的收集、處理與分析,得到隱藏在學(xué)生成績(jī)背后有效信息。這將更大程度上,幫助調(diào)整教育方式方法,致力于科學(xué)指導(dǎo)教育教學(xué)決策。

1 決策樹(shù)算法原理

決策樹(shù)的中心思想:將現(xiàn)有的數(shù)據(jù)一分為二,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)用以構(gòu)建決策樹(shù)模型和測(cè)試決策樹(shù)模型,并做進(jìn)一步改進(jìn),最終實(shí)現(xiàn)對(duì)新數(shù)據(jù)的預(yù)測(cè)。

1.1 屬性的選擇

決策樹(shù)的構(gòu)造就是一次次利用訓(xùn)練集中包含的屬性對(duì)訓(xùn)練集進(jìn)行劃分的過(guò)程,而其中屬性的選擇是決策樹(shù)構(gòu)造過(guò)程中的重要部分,如何在訓(xùn)練集眾多屬性中選擇最佳的屬性對(duì)訓(xùn)練集進(jìn)行劃分從而構(gòu)造出最優(yōu)決策樹(shù),是在構(gòu)造決策樹(shù)過(guò)程中需要重點(diǎn)關(guān)注的問(wèn)題。

1.2 C5.0算法

C5.0算法的歷史可以追溯到?jīng)Q策樹(shù)最經(jīng)典的算法ID3。ID3算法最初被提出后對(duì)決策樹(shù)算法產(chǎn)生了重大意義,后期經(jīng)過(guò)不斷地改進(jìn)和發(fā)展,提出了C4.5算法。而C5.0算法與C4.5有著密切的聯(lián)系。實(shí)際上,C5.0是從C4.5算法改進(jìn)而得來(lái)的,但在執(zhí)行效率上講,C5.0算法具有C4.5算法不可比擬的優(yōu)勢(shì)。在本文中,就是采用C5.0算法的思想進(jìn)行實(shí)踐分析,剖析學(xué)生成績(jī)背后的秘密。

2 決策樹(shù)構(gòu)建思路

在研究過(guò)程中,大體上遵循數(shù)據(jù)挖掘的流程。本文收集九江學(xué)院各個(gè)班級(jí)學(xué)生各章節(jié)具體成績(jī)及期末成績(jī),進(jìn)而分類(lèi)處理。實(shí)驗(yàn)中,利用SPSS Modeler軟件的C5.0節(jié)點(diǎn)結(jié)合數(shù)據(jù)構(gòu)造一棵關(guān)于各個(gè)章節(jié)成績(jī)與期末成績(jī)影響關(guān)系的決策樹(shù)。初始構(gòu)建的決策樹(shù)可能存在冗余的問(wèn)題,后期研究?jī)?yōu)化決策樹(shù)模型,最后評(píng)估決策樹(shù)模型并分析結(jié)果。具體構(gòu)建思路如圖1所示。

3 基于C5.0算法的學(xué)生成績(jī)分析

3.1 數(shù)據(jù)準(zhǔn)備

1) 確定數(shù)據(jù)挖掘?qū)ο?/p>

本次學(xué)生成績(jī)的實(shí)驗(yàn)數(shù)據(jù)以九江學(xué)院信息學(xué)院開(kāi)設(shè)的《數(shù)據(jù)庫(kù)原理》課程的學(xué)生成績(jī)?yōu)閿?shù)據(jù)挖掘的對(duì)象。并將《數(shù)據(jù)庫(kù)原理》課程劃分為六大章節(jié)知識(shí),并以此為基準(zhǔn),統(tǒng)計(jì)該門(mén)課程期末考試試卷知識(shí)點(diǎn)在各個(gè)章節(jié)的分值。

2) 數(shù)據(jù)的選擇

本文使用的實(shí)驗(yàn)數(shù)據(jù)采集于九江學(xué)院信息學(xué)院2017級(jí)學(xué)習(xí)《數(shù)據(jù)庫(kù)原理》課程的學(xué)生的期末考試試卷,以班級(jí)為單位人工登記各位學(xué)生期末考試的各項(xiàng)成績(jī)信息。

3.2 數(shù)據(jù)預(yù)處理

1) 數(shù)據(jù)采集

原始數(shù)據(jù)源不適用于數(shù)據(jù)挖掘,預(yù)先處理采集的數(shù)據(jù)是成功進(jìn)行數(shù)據(jù)挖掘的第一步。采集的數(shù)據(jù)將處理成Excel表格文件,儲(chǔ)存每一位學(xué)生關(guān)于《數(shù)據(jù)庫(kù)原理》期末考試的各項(xiàng)成績(jī)。其中,Excel表格文件設(shè)有姓名、學(xué)號(hào)、期末考試中各章節(jié)的所得成績(jī)、期末總成績(jī)等。

2) 數(shù)據(jù)清理

人工處理得到的數(shù)據(jù)往往存在著很大的不確定性,如數(shù)據(jù)缺失等。慣用處理缺失值方法有:忽略元組、用屬性平均值填充缺失值等。經(jīng)過(guò)調(diào)查,數(shù)據(jù)缺失的原因大多是同學(xué)缺考,為了保證數(shù)據(jù)的質(zhì)量,本文采用忽略元組的方法清理數(shù)據(jù)缺失的條目。

3) 數(shù)據(jù)集成

集成不同班級(jí)的期末成績(jī)數(shù)據(jù)的Excel表格文件到一個(gè)表格中。數(shù)據(jù)集成得到最終各個(gè)班級(jí)的期末考試成績(jī)數(shù)據(jù)包含姓名、學(xué)號(hào)、期末考試中各章節(jié)的所得成績(jī),期末總成績(jī)等。最終,得到數(shù)據(jù)樣本數(shù)為148條。

4) 數(shù)據(jù)歸約

精簡(jiǎn)集成的數(shù)據(jù),考慮到集成數(shù)據(jù)中姓名和學(xué)號(hào)邏輯上相互關(guān)聯(lián),且姓名可能存在重復(fù),所以去掉姓名的字段,保留學(xué)號(hào)字段。實(shí)驗(yàn)中將連續(xù)性的成績(jī)數(shù)據(jù)處理成離散型變量,將每個(gè)章節(jié)在期末考試所占分?jǐn)?shù)和期末考試成績(jī),按照各成績(jī)的80%、60%,化分為“Super”“Mid”“No”三個(gè)等級(jí)。

3.3 構(gòu)建決策樹(shù)模型

本文實(shí)驗(yàn)所使用到的構(gòu)建決策樹(shù)模型的數(shù)據(jù)挖掘工具是SPSS Modeler(版本15.0),利用其中所特有的C5.0節(jié)點(diǎn)構(gòu)建學(xué)生成績(jī)分析的決策樹(shù)模型。具體的學(xué)生成績(jī)分析決策樹(shù)模型流程圖如圖2所示。

在圖3的流程圖中,通過(guò)設(shè)置數(shù)據(jù)源和分區(qū)參數(shù),執(zhí)行現(xiàn)有流,得到初始決策樹(shù)模型,并且利用分析節(jié)點(diǎn),得到?jīng)Q策樹(shù)模型測(cè)試結(jié)果。構(gòu)建的決策樹(shù)模型在訓(xùn)練集和樣本集的表現(xiàn),其中訓(xùn)練集有71個(gè)樣本,測(cè)試集有77個(gè)樣本,表明該決策樹(shù)模型正確預(yù)測(cè)了55個(gè),即模型正確預(yù)測(cè)率為71.43%。總之,該模型在測(cè)試集上的整體預(yù)測(cè)能力不是令人滿(mǎn)意,因此引出下一步的優(yōu)化決策樹(shù)模型。

3.4 優(yōu)化決策樹(shù)模型

初始時(shí)構(gòu)建的決策樹(shù)明顯帶有殘缺性、并且存在異常分支。為了提高決策樹(shù)模型預(yù)測(cè)能力,本文將訓(xùn)練集和測(cè)試集的比例、修剪嚴(yán)重性以及每個(gè)子分支的最小記錄數(shù)作為影響決策樹(shù)模型預(yù)測(cè)準(zhǔn)確性的三個(gè)變量,通過(guò)控制變量的取值,反復(fù)驗(yàn)證形成不同變量下的決策樹(shù)模型的預(yù)測(cè)正確性,最后選取預(yù)測(cè)正確性最高的決策樹(shù)模型作為后期進(jìn)行結(jié)果分析的對(duì)象。最終得到三種方案:

1) 方案一:訓(xùn)練集和測(cè)試集的比例采取5:5的比重方式,修剪嚴(yán)重性置于0到100之間,每個(gè)子分支的最小記錄數(shù)為2。

2) 方案二:訓(xùn)練集和測(cè)試集的比例采取7:3的比重方式,修剪嚴(yán)重性置于0到100之間,每個(gè)子分支的最小記錄數(shù)為2。

3) 方案三:訓(xùn)練集和測(cè)試集的比例采取5:5的比重方式,修剪嚴(yán)重性置于0到100之間,每個(gè)子分支的最小記錄數(shù)取1、2、3、4、5。

通過(guò)方案一的執(zhí)行結(jié)果可以發(fā)現(xiàn),當(dāng)訓(xùn)練集和測(cè)試集的比例采取7:3的比重方式,隨著修剪嚴(yán)重性逐漸提高,對(duì)其采取5:5的比重方式時(shí)更加顯著。綜上所述,采用訓(xùn)練集和測(cè)試集之比為7:3、修剪嚴(yán)重性為20、每個(gè)子分支的最小記錄數(shù)為2的設(shè)置方式構(gòu)建決策樹(shù)模型,得到的模型如圖4所示。此時(shí)決策樹(shù)模型的預(yù)測(cè)正確性可達(dá)到85.11%,說(shuō)明此模型在預(yù)測(cè)期末成績(jī)上的能力是較好的。

3.5 模型評(píng)估與結(jié)果分析

從圖4可以看出,影響期末考試成績(jī)最重要的因素是第二章的成績(jī),說(shuō)明學(xué)生第二章成績(jī)的好壞更大程度上影響該同學(xué)期末成績(jī)的等級(jí)劃分。其次,第三章和第一章的成績(jī)也對(duì)期末成績(jī)有著重要影響。實(shí)際情況如下:

1) 如果某同學(xué)第二章和第四章成績(jī)處于中低等,第三章成績(jī)處于中高等,無(wú)論其他章節(jié)的等分高低,該同學(xué)的期末成績(jī)都將處于偏中高等。

2) 如果某同學(xué)第二章、第三章和第六章成績(jī)處于中低等,則預(yù)測(cè)該同學(xué)成績(jī)處于中低等,且更大程度上處于低等。

3) 即使某同學(xué)第三章、第四章和第六章成績(jī)處于中高等,甚至高等,但是如果他第二章成績(jī)處于中低等,那么預(yù)測(cè)其同學(xué)成績(jī)偏向于中等。

4) 如果某同學(xué)第二章成績(jī)處于高等,第二章成績(jī)也處于高等,則該同學(xué)成績(jī)一定處于高等,且如果第二章成績(jī)處于中低等,則該同學(xué)期末成績(jī)偏向中等。

綜上所述,我們得到各個(gè)章節(jié)成績(jī)和期末成績(jī)背后隱含的“寶藏”,并且通過(guò)信息總結(jié)以下幾點(diǎn)建議:

1) 對(duì)于《數(shù)據(jù)庫(kù)原理》這門(mén)課程,教學(xué)部門(mén)和教師應(yīng)著重準(zhǔn)備第二章的備課和教學(xué),可以適當(dāng)增加與第二章理論相配套的實(shí)踐,將理論與實(shí)踐相結(jié)合,提高學(xué)生學(xué)習(xí)興趣以及加深學(xué)生對(duì)第二章的學(xué)習(xí)和理解。雖然第二章的知識(shí)十分重要,但是第一章、第三章和第六章的成績(jī)也在一定程度上影響最終的期末成績(jī)。因此,教學(xué)者也應(yīng)該把握這幾個(gè)章節(jié)的教學(xué)質(zhì)量。

2) 學(xué)習(xí)《數(shù)據(jù)庫(kù)原理》這門(mén)課程,不僅僅是學(xué)習(xí)課程中的重點(diǎn)內(nèi)容,更應(yīng)該從整體、從宏觀上把握這門(mén)課程。通過(guò)數(shù)據(jù)挖掘?qū)嶒?yàn)得出的結(jié)論,將把控重點(diǎn)章節(jié)第二章與輔之提升第一章、第三章和第六章的成績(jī)相結(jié)合,共同促進(jìn)學(xué)生成績(jī)與教學(xué)質(zhì)量的提升。

當(dāng)然這些建議對(duì)于在校學(xué)習(xí)《數(shù)據(jù)庫(kù)原理》學(xué)生也同樣具有深遠(yuǎn)的意義,推動(dòng)學(xué)生與教學(xué)相適應(yīng),達(dá)到突破重點(diǎn)和深度學(xué)習(xí)的目的。

4 結(jié)束語(yǔ)

本文中對(duì)于學(xué)生成績(jī)的數(shù)據(jù)挖掘的實(shí)驗(yàn)得出的結(jié)果較之傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)方式得出的結(jié)果有著無(wú)法比擬的優(yōu)點(diǎn),它經(jīng)過(guò)多角度分析、深層次論證來(lái)提煉最精華的數(shù)據(jù),為以后學(xué)校相關(guān)部門(mén)和技術(shù)人員進(jìn)行進(jìn)一步學(xué)生成績(jī)分析,提供一種可行的思路和方法。未來(lái)對(duì)于學(xué)生成績(jī)分析的數(shù)據(jù)挖掘研究將不止于此,通過(guò)采集更多的樣本數(shù)據(jù),探索多方面影響因子,構(gòu)建更強(qiáng)預(yù)測(cè)能力的決策樹(shù)模型,協(xié)助教育決策。此外,利用決策樹(shù)其他算法得到更加豐富的學(xué)生成績(jī)背后的隱含“寶藏”,這也將大大提高獲得信息的可靠性,成為后期深入研究的方向。

參考文獻(xiàn):

[1] 狄曉嬌.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析[J].現(xiàn)代商貿(mào)工業(yè),2018,39(17):170-171.

[2] 郭宇紅,王路寧,毛玉琪.SPSS Clementine決策樹(shù)建模在圖書(shū)館中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2014(4):30-33.

[3] 熊蜀峰,聶黎明.基于C5.0算法的學(xué)生成績(jī)分析決策樹(shù)構(gòu)造[J].科技信息,2010(8):24-25.

[4] 涂波,張煒,胡文,等.基于決策樹(shù)C5.0算法的員工職稱(chēng)晉級(jí)評(píng)估研究[J].中國(guó)管理信息化,2018,21(8):63-64.

[5] 薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘[M].中國(guó)人民大學(xué)出版社,2014.

【通聯(lián)編輯:梁書(shū)】

猜你喜歡
數(shù)據(jù)挖掘分析模型
一半模型
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
隱蔽失效適航要求符合性驗(yàn)證分析
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
3D打印中的模型分割與打包
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 国产精品九九视频| 成年A级毛片| 欧美精品伊人久久| 国产女人18水真多毛片18精品 | 亚洲av无码片一区二区三区| 亚洲日韩日本中文在线| 午夜欧美在线| 一级毛片免费观看久| 国产又粗又猛又爽视频| 国产精品成人啪精品视频| 国产一级特黄aa级特黄裸毛片| 日韩亚洲高清一区二区| 无码啪啪精品天堂浪潮av| 亚洲成肉网| 国产又色又刺激高潮免费看| 老司机aⅴ在线精品导航| 亚洲色成人www在线观看| 欧美成人免费一区在线播放| 久久大香伊蕉在人线观看热2| 欧美精品H在线播放| 欧美在线观看不卡| 日韩在线2020专区| 久久香蕉欧美精品| 国产综合另类小说色区色噜噜| 国产精品亚洲片在线va| 国产成人精品高清不卡在线| 在线免费a视频| 亚洲最猛黑人xxxx黑人猛交| 国产精品熟女亚洲AV麻豆| 国产欧美日韩免费| 欧美成人综合在线| 中文字幕首页系列人妻| 综合社区亚洲熟妇p| 国产精品成人久久| 欧美区一区| 日韩一区二区在线电影| 国产精品亚洲一区二区三区z| 一本大道无码高清| 日韩 欧美 小说 综合网 另类| 喷潮白浆直流在线播放| 精品人妻一区二区三区蜜桃AⅤ| 亚洲精品无码日韩国产不卡| 第一页亚洲| 在线观看的黄网| 欧美国产在线看| 综合五月天网| 久久99热这里只有精品免费看| 亚洲欧美日韩另类在线一| 国产成a人片在线播放| 色亚洲激情综合精品无码视频 | 国产乱子伦精品视频| 国产成人精品无码一区二| 欧美a级在线| 亚洲成在人线av品善网好看| 女人天堂av免费| 久久香蕉国产线看观看亚洲片| 国产成人AV综合久久| 日韩第九页| 亚洲精品无码抽插日韩| 欧美精品在线观看视频| 欧美色视频网站| 日本亚洲成高清一区二区三区| 国产一在线观看| 国产精品亚欧美一区二区| 亚洲有无码中文网| 尤物亚洲最大AV无码网站| 性做久久久久久久免费看| 亚洲天堂视频网| 色有码无码视频| 久久精品一卡日本电影| 欧美午夜小视频| 91精品国产一区| 青青操视频在线| 欧美成人a∨视频免费观看| 国产人人乐人人爱| 国产综合欧美| 国产精品尤物铁牛tv| 国产成人高清精品免费软件| 国产视频一区二区在线观看| 996免费视频国产在线播放| 国产成人1024精品下载| 狠狠色成人综合首页|