999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ID3算法的五年制高職學(xué)生成績(jī)因素分析

2015-05-30 10:48:04王光法
軟件工程 2015年7期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘 要:近年來(lái),五年制高職教育飛速發(fā)展,各學(xué)校在不斷探索五年制高職教育方式方法的同時(shí),也形成了一定的培養(yǎng)評(píng)價(jià)機(jī)制,這些評(píng)價(jià)機(jī)制在培養(yǎng)方法與手段的評(píng)價(jià)方面,大都停留在經(jīng)驗(yàn)判斷和感性基礎(chǔ)上,缺乏科學(xué)計(jì)算支撐。文章在梳理相關(guān)培養(yǎng)環(huán)節(jié)基礎(chǔ)上,引進(jìn)數(shù)據(jù)挖掘算法,將五年制育人各個(gè)環(huán)節(jié)要素作為輸入,通過(guò)算法,將培養(yǎng)環(huán)節(jié)各數(shù)據(jù)要素隱含的信息量化到學(xué)生成績(jī)這一個(gè)“基點(diǎn)”上,并且通過(guò)構(gòu)造五年制高職教育中學(xué)生成績(jī)因素的決策樹(shù)實(shí)現(xiàn)數(shù)據(jù)可視化,從而指導(dǎo)我們優(yōu)化教育資源和培養(yǎng)結(jié)構(gòu),增強(qiáng)下一步教育方法改進(jìn)的精準(zhǔn)性與高效性。

關(guān)鍵詞:數(shù)據(jù)挖掘;五年制高職;ID3算法;決策樹(shù)

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A

1 引言(Introduction)

五年制高等職業(yè)教育近年來(lái)發(fā)展飛速,為各地培養(yǎng)了大批初中畢業(yè)起點(diǎn)的高等職業(yè)技術(shù)技能人才。然而五年制高職生源的普遍入學(xué)成績(jī)較上高中的學(xué)生成績(jī)低,這已經(jīng)是業(yè)內(nèi)共識(shí)。這就要求各五年制高職學(xué)校立足于生源實(shí)際特點(diǎn),科學(xué)利用各種教育方式和教育資源,挖掘有利因素積極促進(jìn)學(xué)生成長(zhǎng)成才。傳統(tǒng)的學(xué)生成績(jī)統(tǒng)計(jì)方法已無(wú)法發(fā)現(xiàn)學(xué)生成績(jī)數(shù)據(jù)中存在的關(guān)系和規(guī)則,更無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)[1]。因此一種新的數(shù)據(jù)分析技術(shù)——數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。文中將影響學(xué)生成績(jī)的因素通過(guò)ID3算法構(gòu)造五年制高職學(xué)生成績(jī)決策樹(shù),把學(xué)生成績(jī)和培養(yǎng)要素之間的關(guān)系實(shí)現(xiàn)可視化。為更好開(kāi)展教育教學(xué)工作和學(xué)生自我學(xué)習(xí)提供參考依據(jù)。

2 原理介紹(Principle introduction)

2.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM),簡(jiǎn)單地講就是從大量數(shù)據(jù)中挖掘或抽取出人們事先不知道但又潛在有用的知識(shí)的過(guò)程,又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡(jiǎn)稱KDD),它是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識(shí)的復(fù)雜過(guò)程。數(shù)據(jù)挖掘技術(shù)涉及多學(xué)科交叉領(lǐng)域,融合了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)、信息檢索、可視化、算法、高性能計(jì)算等最新研究成果。目前,數(shù)據(jù)挖掘方法主要有分類算法、回歸算法、分割算法、關(guān)聯(lián)算法、順序分析算法等。本文就是匯集五年制高職學(xué)生培養(yǎng)的訓(xùn)練集,采用分類算法,建立分類模型,為每個(gè)類別做出準(zhǔn)確的描述,從看似無(wú)關(guān)的數(shù)據(jù)中挖掘出分類規(guī)則,實(shí)現(xiàn)對(duì)下一步訓(xùn)練方法的決策和對(duì)未來(lái)的數(shù)據(jù)的預(yù)測(cè)。

2.2 決策樹(shù)的分類方法介紹

決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,是直觀運(yùn)用概率分析的一種圖解法[2]。決策樹(shù)是一個(gè)預(yù)測(cè)模型,它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹(shù)分為分類樹(shù)和回歸樹(shù)兩種,本文就是用影響學(xué)生成績(jī)的離散因素進(jìn)行分類算法構(gòu)造分類樹(shù)。所謂分類算法,簡(jiǎn)單來(lái)說(shuō),就是根據(jù)文本的特征或?qū)傩裕瑒澐值揭延械念悇e中。它提供一種在什么條件下會(huì)得到什么值的類似規(guī)則的方法,采用自頂向下的遞歸方式,在決策樹(shù)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同的屬性值從該節(jié)點(diǎn)向下分支,葉節(jié)點(diǎn)是要學(xué)習(xí)劃分的類,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條分類規(guī)則,整個(gè)決策樹(shù)就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則,如圖1所示。常用的分類算法包括:決策樹(shù)分類法、樸素的貝葉斯分類算法(native Bayesian classifier)、基于支持向量機(jī)(SVM)的分類器、神經(jīng)網(wǎng)絡(luò)法、k-最近鄰法(k-nearest neighbor,kNN)、模糊分類法等。

圖1 決策樹(shù)的構(gòu)造和剪枝去噪過(guò)程

Fig.1 Process of decision tree building and improving

2.3 ID3算法描述

ID3算法最早是由羅斯昆(J·Ross Quinlan)于1975年在悉尼大學(xué)提出的一種分類預(yù)測(cè)算法,算法的核心是“信息熵”,信息熵就是一組數(shù)據(jù)包含的信息概率的度量,該算法是以信息論為基礎(chǔ),以信息熵和信息增益度為衡量標(biāo)準(zhǔn)[3]。ID3算法通過(guò)計(jì)算每個(gè)屬性的信息增益,認(rèn)為信息增益高的是好屬性,每次劃分選取信息增益最高的屬性為劃分標(biāo)準(zhǔn),重復(fù)這個(gè)過(guò)程,直至生成一個(gè)能完美分類訓(xùn)練樣例的決策樹(shù)。

設(shè)數(shù)據(jù)劃分D為類標(biāo)記的元組的訓(xùn)練集。假定類標(biāo)號(hào)屬性具有M個(gè)不同值,定義m個(gè)不同的類Ci(I=1,2,…,m),Ci,D是Ci類的元組的集合,和分別表示D和Ci,D中元組的個(gè)數(shù)。對(duì)D中的元組分類所需的期望信息由下式給出:

(1)

假設(shè)屬性A具有v個(gè)不同的離散屬性值,可使用屬性A把數(shù)據(jù)集D劃分成v個(gè)子集{D1,D2,…,Dv}。設(shè)子集Dj中全部的記錄數(shù)在A上具有相同的值aj。基于按A劃分對(duì)D的元組分類所需要的期望信息由下式給出:

(2)

信息增益定義為原來(lái)的信息需求(基于類比例)與新的信息需求(對(duì)A劃分之后得到的)之間的差,即

Gain(A)=Info(D)-InfoA(D) (3)

通過(guò)ID3算法,計(jì)算出每個(gè)屬性的信息增益,把具有最高信息增益的屬性作為測(cè)試屬性創(chuàng)建一個(gè)節(jié)點(diǎn),并按照該屬性的每個(gè)值創(chuàng)建一個(gè)分支,各分支節(jié)點(diǎn)依此方法創(chuàng)建。

3 ID3算法在五年制高職學(xué)生成績(jī)分析中的運(yùn)用

(The use of ID3 algorithm in the analysis to

the students'achievements in five-year higher

vocational school)

3.1 學(xué)生成績(jī)因素整理

根據(jù)五年制高職學(xué)生學(xué)習(xí)結(jié)構(gòu)組成,大致分為課堂內(nèi)和課堂外,課堂內(nèi)初步分為:出勤情況、聽(tīng)課情況、作業(yè)完成情況,課堂外初步分為:課后看書(shū)情況、參加文體活動(dòng)情況以及是否學(xué)生干部。為了使結(jié)論更加客觀,樣本選取為即將離校實(shí)習(xí)的高年級(jí)學(xué)生,并且是在全校十多個(gè)專業(yè)中隨機(jī)抽取141名學(xué)生作為樣本,數(shù)據(jù)經(jīng)離散化處理后詳見(jiàn)表1。

表1 部分學(xué)生成績(jī)表

Tab.1 Part of the studentsachievements

編號(hào) 姓名 出勤情況 聽(tīng)課情況 課后看書(shū)情況 作業(yè)完

成情況 參加

活動(dòng) 學(xué)生

干部 總評(píng)

成績(jī)

1 胡揚(yáng) 正常 認(rèn)真 >0.5小時(shí) 一般 少 否 良

2 胡宏奇 正常 一般 >0.5小時(shí) 一般 一般 否 良

3 滕步南 正常 認(rèn)真 >1小時(shí) 認(rèn)真 一般 否 優(yōu)

4 張 正常 不認(rèn)真 <0.5小時(shí) 不認(rèn)真 一般 否 差

5 張悅 正常 一般 >0.5小時(shí) 一般 多 否 良

6 滕騰 正常 一般 >0.5小時(shí) 認(rèn)真 多 否 優(yōu)

7 徐堅(jiān)翔 正常 認(rèn)真 >1小時(shí) 認(rèn)真 多 是 優(yōu)

8 袁飛 正常 一般 >1小時(shí) 一般 多 是 優(yōu)

9 張少年 正常 一般 >0.5小時(shí) 一般 一般 否 良

10 史萱升 正常 一般 >0.5小時(shí) 一般 多 否 良

… …… …… …… …… …… …… …… ……

3.2 構(gòu)造學(xué)生成績(jī)決策樹(shù)

從表1觀察可知類標(biāo)號(hào)“總評(píng)成績(jī)”有三個(gè)取值(優(yōu)、良、差),因此有三個(gè)不同的類,即m=3,其中總評(píng)成績(jī)=“優(yōu)”的類有56個(gè)元組,等于“良”的有63個(gè)元組,等于“差”的有22個(gè)元組。根據(jù)公式(1)可以計(jì)算D中元組分類所需要的期望信息:

再根據(jù)每個(gè)屬性計(jì)算信息熵,首先從“出勤情況”屬性開(kāi)始,該屬性有三個(gè)值,依據(jù)每個(gè)樣本分布,對(duì)應(yīng)每個(gè)屬性所劃分的子集的信息熵:

表2 學(xué)生成績(jī)數(shù)據(jù)庫(kù)類標(biāo)記的因素元組統(tǒng)計(jì)表

Tab.2 The statistical database of the students'

achievements

出勤情況 聽(tīng)課情況 課后看書(shū)情況 作業(yè)完成 文體活動(dòng) 學(xué)生

干部

正常 一般 不正常 認(rèn)真 一般 不認(rèn)真 >1小時(shí) >0.5小時(shí) <0.5小時(shí) 認(rèn)真 一般 不認(rèn)真 多 一般 少 是 否

成績(jī)優(yōu)56 54 2 0 50 6 0 21 14 21 54 2 0 38 12 6 37 19

成績(jī)良63 59 4 0 22 39 2 9 29 25 46 17 0 25 17 21 23 40

成績(jī)差22 18 2 2 0 7 15 1 0 21 3 11 8 2 7 13 2 20

根據(jù)公式1和表2,對(duì)D的元組進(jìn)行分類所需要的期望信息為:

當(dāng)“出勤情況”=“正常”時(shí):

信息熵

當(dāng)“出勤情況”=“一般”時(shí):

信息熵

當(dāng)“出勤情況”=“不正常”時(shí):

信息熵

根據(jù)公式2:

再根據(jù)公式3得出這種劃分的信息增益是Gain(出勤情況)=Info(D)-Info出勤情況(D)=0.01693

同理,可計(jì)算Gain(聽(tīng)課情況)=Info(D)-Info聽(tīng)課

情況(D)=0.509681

Gain(課后看書(shū)情況)=Info(D)-Info課后看書(shū)

情況(D)=0.215816

Gain(作業(yè)完成情況)=Info(D)-Info作業(yè)完成

情況(D)=0.354715

Gain(文體活動(dòng)情況)=Info(D)-Info文體活動(dòng)

情況(D)=0.1551

Gain(干部情況)=Info(D)-Info干部情況(D)=0.13083

從計(jì)算可知,學(xué)生的“聽(tīng)課情況”具有最高的信息增益,它被選作測(cè)試屬性,創(chuàng)建一個(gè)節(jié)點(diǎn),用“聽(tīng)課情況”來(lái)標(biāo)記,并對(duì)于每個(gè)屬性引出一個(gè)分支,同理,在“認(rèn)真”“一般”和“不認(rèn)真”三個(gè)分支上,分別對(duì)其他屬性計(jì)算信息增益,按照上述方法遞歸,從而得出圖1決策樹(shù)。

圖2 影響學(xué)生成績(jī)因素決策樹(shù)

Fig.2 The decision tree of the factors that affect

students' achievements

從圖1可以看出,學(xué)生的學(xué)習(xí)成績(jī)主要取決于學(xué)生的聽(tīng)課情況因素,聽(tīng)課認(rèn)真的同學(xué)基本上學(xué)習(xí)成績(jī)都是優(yōu)良,聽(tīng)課不認(rèn)真的同學(xué)學(xué)習(xí)成績(jī)都不好。由于數(shù)據(jù)中存在著一些冗余和噪聲等,影響了決策樹(shù)的深度,進(jìn)行剪枝后的決策樹(shù)如圖2所示。

3.3 成績(jī)因素分析

從圖2的學(xué)生成績(jī)可視化因素中,影響學(xué)生成績(jī)因素除“聽(tīng)課情況”“課后看書(shū)”“作業(yè)情況”等外,還與“文體活動(dòng)”“是否學(xué)干”等因素有關(guān)。課堂聽(tīng)課質(zhì)量是關(guān)鍵因素,課外看書(shū)和認(rèn)真作業(yè)是對(duì)聽(tīng)課質(zhì)量的有力補(bǔ)充或彌補(bǔ)。而參加文體活動(dòng)會(huì)讓學(xué)生從活動(dòng)中習(xí)得的方法遷移到學(xué)習(xí)上,擔(dān)任學(xué)生干部工作也會(huì)促進(jìn)多方面的能力提高,具有激勵(lì)效應(yīng),共同形成學(xué)生成長(zhǎng)成才助推因素。這恰恰說(shuō)明了職業(yè)教育通常以學(xué)生的綜合素質(zhì)與能力為追求目標(biāo),在教育形式上與應(yīng)試教育相比“更加放得開(kāi)”,一些與常規(guī)教學(xué)內(nèi)容看似無(wú)關(guān)的因素,某種程度上卻促進(jìn)了學(xué)生的學(xué)習(xí)興趣和學(xué)習(xí)效果。

圖3 剪枝后的決策樹(shù)

Fig.3 Themodified decision tree

4 結(jié)論(Conclusion)

職業(yè)教育是素質(zhì)教育和能力教育的結(jié)合體,我們既要加強(qiáng)以課堂為中心的教學(xué)效果,培養(yǎng)并養(yǎng)成學(xué)生課后閱讀與認(rèn)真作業(yè)的良好習(xí)慣,還要加強(qiáng)校園文化建設(shè),發(fā)揮環(huán)境育人作用,充分調(diào)動(dòng)一切有利因素促進(jìn)學(xué)生成長(zhǎng)成才。

參考文獻(xiàn)(References)

[1] 王永梅.ID3算法在計(jì)算機(jī)成績(jī)分析中的應(yīng)用[J].合肥學(xué)院學(xué) 報(bào),2010,2(1):34.

[2] 決策樹(shù).[EB/OL].http://baike.baidu.com/link?url=2_RdpiP_ 9Xds9QLc-C4eAhQgKNfdu-fIkCBir0aPmesvmJl_LQLUXJV WO9z6eL5pRGc9tEx68boR6XgIHYwWkK.

[3] ID3算法[EB/OL].http://baike.baidu.com/link?url=In7lbKZgR g9RR4eTG3EzZIxZLzuE0JURWX299FCv569SxZbYrW2Gw rK4urr1qsjhTTpnDQQPwxSfCuvqsxxTqq.

作者簡(jiǎn)介:

王光法(1974-),男,碩士,講師.研究領(lǐng)域:算法應(yīng)用研究.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
主站蜘蛛池模板: 国产精品女熟高潮视频| 色综合国产| 精品天海翼一区二区| 亚洲日韩日本中文在线| 国产高潮视频在线观看| 91麻豆国产视频| 精品99在线观看| 无码网站免费观看| 粉嫩国产白浆在线观看| 最新精品久久精品| 国产精品自在在线午夜| 久久精品丝袜| 91破解版在线亚洲| 中文字幕在线欧美| 免费久久一级欧美特大黄| 国产成人盗摄精品| 免费在线a视频| 国产性精品| 在线国产资源| 制服丝袜一区| 伊人无码视屏| 视频在线观看一区二区| 国产三级韩国三级理| 精品色综合| 欧美劲爆第一页| 国内精品视频在线| 国产精品3p视频| 91偷拍一区| a毛片免费观看| 国产精品内射视频| 好吊色国产欧美日韩免费观看| 女人18毛片久久| 女同国产精品一区二区| 国产99视频精品免费观看9e| 高清国产va日韩亚洲免费午夜电影| 啪啪啪亚洲无码| 亚洲欧美不卡中文字幕| 久久久亚洲色| 白丝美女办公室高潮喷水视频| 欧美国产精品不卡在线观看| 亚洲精品色AV无码看| 久久99国产乱子伦精品免| 丁香五月激情图片| 亚洲欧美在线看片AI| 久久网欧美| 久久www视频| 91久久青青草原精品国产| 亚洲香蕉伊综合在人在线| 国产久操视频| 亚洲精品国产成人7777| 四虎精品黑人视频| 乱人伦中文视频在线观看免费| 在线观看亚洲精品福利片 | 国产精品午夜电影| 999福利激情视频| 色哟哟国产精品一区二区| 熟妇丰满人妻| 在线99视频| 免费高清自慰一区二区三区| 99精品视频在线观看免费播放| 亚洲高清无码久久久| 永久免费av网站可以直接看的| 国产成人精品日本亚洲77美色| 亚洲欧美另类专区| 四虎国产精品永久一区| a免费毛片在线播放| 亚洲丝袜中文字幕| 午夜电影在线观看国产1区| 精品国产免费第一区二区三区日韩| 日韩精品高清自在线| 欲色天天综合网| 欧美综合区自拍亚洲综合绿色 | 亚洲色偷偷偷鲁综合| 五月婷婷丁香色| 日本一区二区不卡视频| 青青久久91| 九九这里只有精品视频| 午夜免费视频网站| 亚洲无码精彩视频在线观看| 亚洲精品手机在线| 欧美伦理一区| 青青国产成人免费精品视频|