摘 要數據挖掘技術對于處理還有大量數據的數據集具有十分重要的作用,而對于數據的分類中,我們常常使用決策樹分類法。該方法被廣泛用于處理數據的分類問題.決策樹分類法在我們的生產、生活、學習等數據挖掘中具有十分重要的作用,它是數據挖掘中進行預測和分類研究的主要技術。
【關鍵詞】數據挖掘 決策樹 分類
數據挖掘中的分類任務主要是為了確定對象屬于哪個預定義的目標類。在我們的日常生活中,這一問題普遍存在,例如我們會根據需要來檢查接受到的電子郵件是否為垃圾郵件。在數據挖掘中的所有分類方法里,決策樹分類法是一種最為簡單且被廣泛使用的分類方法。
1 決策樹分類法的工作原理
決策樹是一種由結點和有向邊組成的層次結構,它主要有根節點、內部結點和葉結點構成。當我們分析一個分類實例時可以先去建立一個決策樹,根據決策樹分類,從決策樹的根節點開始,將測試的條件用于記錄的檢驗,根據測試結果選擇相應的分支到達另一個內部節點,經過一個新的選擇條件或者選擇相應的分支到達一個葉節點。最終都會到達一個葉節點,這一葉節點的類別即為被賦值給此檢驗記錄的。
2 決策樹的建立過程
人們開發了一些決策樹構造算法,主要采用的是貪吃算法的思想,利用局部最優的方法來建立決策樹。算法分為兩步,第一步,決策樹的生成過程。第二步,決策樹的剪枝,如圖1所示。
3 決策樹構造算法
(1)導入決策樹構造過程中所需要的函數庫;
(2)查看需要構造決策樹的源數據;
(3)通過rpart函數構造一個決策樹;
(4)查看決策樹的一些具體的信息和內容;
(5)繪制出決策樹圖;
(6)對決策樹進行適當的剪枝,防止過擬合,使得樹能夠較好地反映數據內在的規律并在實際應用中有意義;
(7)對剪枝后的決策樹圖進行繪制,得到最終的決策樹,對其進行相應分析和研究。
4 決策樹技術在職業院校學生的成績分析中的研究與應用
4.1 決策樹技術在職業院校學生的成績分析中的研究與應用的意義
現如今,國家開始越來越重視職業教育,各個職業院校開始不斷的擴大招生的規模,越來越多的學生開始選擇進入職業院校去學習一門扎實的技術。這些改變不僅了影響了傳統的招生模式,也影響了教師對學生的成績的評定方法。對于職業院校的學生的成績并不能單純通過考試的分數來評定學生的學習水平,而是要綜合考量學生的知識和技能水平。不少職業院校開始使用數據挖掘技術分析學生的學習成績,這不僅可以對學生的學業水平做出更科學的評定,而且對提高教學管理水平起到了很好的指導作用。
4.2 決策樹技術在職業院校學生的成績分析中的研究與應用的過程
4.2.1 確定數據挖掘的對象及挖掘的目標
本文對數據挖掘中的分類技術的研究,利用的是某校動畫設計班的Flash動畫制作課程的期末考試成績。通過決策樹技術,找到對于學生成績的主要影響要素,對教師的教學及學校的管理提供相應的幫助。
4.2.2 數據的收集與預處理
我們將所要使用的數據進行收集和整理,其中包括了20名學生的學號、出勤情況、上機作業的完成情況、成績、試卷難易、興趣。部分數據如表1所示。
4.2.3 算法的選定
通過分析成績數據的特點,此次研究我們將采用決策樹技術中的ID3算法來建立決策樹。
第一步,計算熵
任課教師對學生的成績評定結果中等級為A的共有8人,等級為B的共有7人,等級為C的共有5人。我們把樣本數據S記為S1=8,S2=7,S3=5,計算熵。
Info(S)==0.469
第二步,計算信息增益
學生的出勤情況中,出勤較好等級為A的有7名同學,其中有5個測試成績為A,2個為B;出勤為B的有10個同學,其中有3個成績為A,5個成績為B,2個成績為C;出勤為C的有3個,成績均為C。計算熵:
Info(A)=0.26
Info(B)==0.447
Info(S)==0
計算增益:
Gain(出勤)=Info(S)-(7/20)*Info(A)-(10/20)*Info(B)-(3/20)*Info(C)=0.15
以上機作業作為根的決策樹的熵和增益:
Info(A)=0.26
Info(B)==0.47
Info(C)=0.29
Gain(上機作業)=Info(S)-(7/20)*Info(A)-(8/20)*Info(B)-(5/20)*Info(C)=0.118
以學生對于試卷難度的評定為根節點時:
Info(高)==0.47
Info(中)==0.45
Info(低)=0.3
Gain(試卷難度)=Info(S)-(7/20)*Info(高)-(11/20)*Info(中)-(2/20)*Info(低)=0.027
以學生興趣作為根節點時:
Info(感興趣)==0.37
Info(一般)==0.42
Info(不感興趣)=0.24
Gain(興趣)=Info(S)-(9/20)*Info(感興趣)-(7/20)*Info(一般)-(4/20)*Info(不感興趣)=0.11
比較上述屬性的增益值,我們可以得到出勤的增益最大,按照增益最大的原則我們把該結點作為根節點,并且有三個分支,然后再對其他子樹進行遞歸計算,即可得到下中的決策樹,如圖2所示。
5 總結
觀察決策樹,我們可以發現,影響學生成績的最主要因素是學生的上課出勤情況,其次是上機作業的完成情況。上課出勤情況好,上機作業完成好的學生,考試成績均較高。因此任課教師和學校的管理部門,在以后的教學過程中應該主要去抓學生的出勤和上機作業的完成以提高學生的學習成績和操作技能。
參考文獻
[1]袁琴琴.基于決策樹算法的改進與應用[D].西安:長安大學,2006.
[2]曲開設.ID3算法的一種改進算法[J].計算機工程與應用,2003.
作者簡介
呂新穎,女,河北省秦皇島市人。現為西華師范大學計算機學院研究生在讀。
作者單位
西華師范大學計算機學院 四川省南充市 637002