張悅 楊學(xué)全
摘 要:決策樹算法是一種直觀的、易于理解和實(shí)現(xiàn)的科學(xué)算法,將決策樹算法積極運(yùn)用于學(xué)生選課系統(tǒng)中能夠獲得諸多良好的效果。本文在分析決策樹以及決策樹分類算法中最常使用的C4.5算法的基礎(chǔ)上,重點(diǎn)研究了決策樹算法在學(xué)生選課系統(tǒng)中的應(yīng)用。
關(guān)鍵詞:決策樹算法;學(xué)生選課系統(tǒng);C4.5算法;應(yīng)用
如何提高學(xué)校網(wǎng)絡(luò)選課系統(tǒng)的使用效率和質(zhì)量,有效發(fā)揮選課系統(tǒng)的功能與作用,是各大教育機(jī)構(gòu)最為關(guān)切的重點(diǎn)課題。決策樹算法是一種直觀的、易于理解和實(shí)現(xiàn)的科學(xué)算法,將決策樹算法積極運(yùn)用于學(xué)生選課系統(tǒng)中能夠獲益良多,對于提高學(xué)生選課系統(tǒng)利用率具有極大幫助。
1 決策樹
決策樹是一種直觀的圖解法、預(yù)測模型,其建立在概率分析基礎(chǔ)之上,人們在把握研究對象各種已知情況發(fā)生概率前提下運(yùn)用決策分支畫來分析各種情況的映射關(guān)系,最終構(gòu)成一個(gè)類似于二叉樹結(jié)構(gòu)的空間架構(gòu)圖,因圖形很像一棵散開的樹而用術(shù)語稱為決策樹。決策樹主要由3個(gè)層次構(gòu)成:①最頂層為根節(jié)點(diǎn),由根節(jié)點(diǎn)向下分支不同的小節(jié)點(diǎn);②中間層為葉子節(jié)點(diǎn),相當(dāng)于屬性的展示,利用每個(gè)分支的測試屬性功能可以測試出節(jié)點(diǎn)的屬性;③最終層為葉節(jié)點(diǎn),該層主要負(fù)責(zé)規(guī)劃類別,當(dāng)開始由樹根向下逐層測試時(shí),根據(jù)節(jié)點(diǎn)屬性系統(tǒng)會(huì)自動(dòng)規(guī)劃節(jié)點(diǎn)類別。通過構(gòu)造決策樹模型,我們可以利用模型的數(shù)據(jù)生成、預(yù)測2大功能來得出某些規(guī)律或進(jìn)行預(yù)測,模型中樹的根節(jié)點(diǎn)相當(dāng)于一個(gè)空間的集合,葉子節(jié)點(diǎn)與葉節(jié)點(diǎn)是空間集合的分裂子集,通過屬性測試可可生成多個(gè)數(shù)據(jù)集合,最終形成葉節(jié)點(diǎn)的集合數(shù)據(jù),可獲得規(guī)律集合便于分析和研究。
2 決策樹分類算法--C4.5算法
在決策樹分類算法當(dāng)中,C4.5是一種最常使用的算法,其是基于ID3算法而延伸的一種更具效率性、準(zhǔn)確性的算法。C4.5算法被廣泛應(yīng)用于多個(gè)研究領(lǐng)域,主要由3大步驟組成:①算法:由決策樹提供給定的訓(xùn)練數(shù)據(jù),Generate Decision Tre;②輸入:samples(訓(xùn)練樣本)、Attribute list(備選屬性集合);③隨后輸出:一棵決策樹。具體如下:
(1)生成根節(jié)點(diǎn)N;(2)IF T都屬于D的同類,返回葉節(jié)點(diǎn)N后可標(biāo)記為D;(3)IF attribuetlist 為空或T中所剩余的樣本數(shù),若樣本數(shù)低于給定值則可返回葉節(jié)點(diǎn)N,其中標(biāo)記N為T類中出現(xiàn)最多次數(shù)的類;(4)For each attribuetlist 代表中屬性,其計(jì)算信息的增幅率為inf ormation gain ratio;(5)N的測試屬性為test attribute= attribuetlist,因而attribuetlist具有最高級增幅率屬性;(6)IF的屬性測試具有連續(xù)性,找到IF屬性即為該屬性的分割閥值;(7)For each 的節(jié)點(diǎn)N為一種始發(fā)的葉節(jié)點(diǎn)(IF的葉節(jié)點(diǎn)和樣本子集T相對應(yīng),為空時(shí)改分裂節(jié)點(diǎn)可生成始發(fā)節(jié)點(diǎn),從而標(biāo)記為T中出現(xiàn)最多的類。)
3 決策樹算法在學(xué)生選課系統(tǒng)中的應(yīng)用
學(xué)生選課系統(tǒng)的規(guī)劃和設(shè)計(jì)復(fù)雜而繁瑣,需要涉及許多計(jì)算機(jī)方面的知識(shí),同時(shí)選課系統(tǒng)是否合理、科學(xué)直接關(guān)系到教育者對相關(guān)信息的收集、整理和分析,進(jìn)而最終影響整個(gè)選課教學(xué)質(zhì)量以及學(xué)生對選修課的積極性。其中,目標(biāo)數(shù)據(jù)挖掘、課程設(shè)計(jì)決策樹分類法結(jié)果是決策樹算法與技術(shù)在學(xué)生選課系統(tǒng)中的應(yīng)用。
3.1 目標(biāo)數(shù)據(jù)挖掘
筆者從學(xué)校官網(wǎng)中隨機(jī)抽取了一些不同類學(xué)生的基本信息,運(yùn)用決策樹算法和技術(shù)對這些學(xué)生信息進(jìn)行統(tǒng)一分類,綜合分析學(xué)生的愛好及需求,以實(shí)現(xiàn)目標(biāo)數(shù)據(jù)挖掘,如表1是對學(xué)生信息進(jìn)行處理的方法。最后,以所得的目標(biāo)屬性、目標(biāo)數(shù)據(jù)來設(shè)置選修課程,以確保選修課程能夠得到學(xué)生的認(rèn)可與接受,數(shù)據(jù)挖掘后最終生成決策樹,如圖1所示。
(其中1、0分別代表女生、男生;0、1、2分別代表一、二、三年級;0、1分別代表文科、理科;0、1、2分別代表文學(xué)課、藝術(shù)課和專業(yè)課)
3.2 課程設(shè)計(jì)決策樹分類法結(jié)果
根據(jù)學(xué)生的愛好、需求以及期望值,運(yùn)用決策樹算法得出的結(jié)果顯示:對專業(yè)選修課有興趣愛好的多為二、三年級學(xué)生,男女比例相當(dāng),這是由于二、三年級學(xué)生開始為其今后畢業(yè)做準(zhǔn)備,以提高自身的專業(yè)知識(shí)與技能為根本學(xué)習(xí)目標(biāo)。而對文學(xué)選修課有興趣愛好的多為一、二年級學(xué)生,男女比例相當(dāng),這是由于一年級學(xué)生需要學(xué)習(xí)較多的專業(yè)課程,自身學(xué)習(xí)任務(wù)與壓力較大,因而在選修課程上偏向于簡單、輕松的課程,主要以開拓眼界與知識(shí)面為目標(biāo)。對于藝術(shù)選修課有興趣愛好的學(xué)生很少,一般是一年級女生偏向選擇該課程。由此數(shù)據(jù)分類結(jié)果得看得出一個(gè)結(jié)論:決定不同年級學(xué)生選課類型與方向的主要因素是興趣愛好、就業(yè)兩大因素,其中低年級選擇選修課程大多由自身愛好決定,而高年級學(xué)生在選擇選修課程時(shí)更多考慮的是求職就業(yè)。
參考文獻(xiàn):
[1]朱娟,楊豐華.改進(jìn)的決策樹算法在教務(wù)管理數(shù)據(jù)挖掘系統(tǒng)中的應(yīng)用[J].教育技術(shù)導(dǎo)刊,2010(4).