龐 娜,王和平
(山西電力職業(yè)技術學院,山西 太原 030021)
ID3算法在教學過程中的應用
龐 娜,王和平
(山西電力職業(yè)技術學院,山西 太原 030021)
在教學過程中,不同的學生適應不同的教學方法,只有選擇合適的教學方法才能達到事半功倍的效果。本文使用決策樹算法中比較簡單適用的ID3算法,通過使用訓練數(shù)據(jù)計算信息增益從而選擇分裂屬性的次序,由此構建決策樹,并將構建好的決策樹應用于學生信息,對學生進行分類。
ID3算法;決策樹;分裂屬性;信息增益
教學其實也是一種藝術,有多種方法,目的只有一個,就是怎樣很好的引導學生朝著他們想要達到的方向前進,這個過程很漫長,在這過程中要采用很多不同的方法來教育學生。但是不同的學生所適用的教學方法是不同的:理科類學生要很有條理的去思考問題,想辦法解決問題;文科學生更多是通過感性的方式去理解事物;而工科的學生更多是通過實踐或?qū)嶒灁?shù)據(jù)來解釋某些現(xiàn)象。不同年齡階段的學生所適用的教學方法也不同:低年級的學生要接受更多的新事物、新概念,在講課時應更多使用圖示、列表等形象的方法;高年級的學生已經(jīng)掌握了一定的基礎知識,就應更多的采用引導探究為主的方法,培養(yǎng)學生學習的積極性和主動性。此外性別因素對學生的學習方法也有影響:男同學的動手能力要強一些;而女同學則更擅長語言文字的表達。因此選擇適當?shù)慕虒W方法可以在很大程度上提高學生的學習效率,達到因材施教,事半功倍的效果。要對不同類型的學生使用不同的教學方法,首先要根據(jù)不同學生的特點對其做適當?shù)姆诸悺?/p>
在求解分類問題的方法中,決策樹是最有用的一種方法。一旦建好樹,就可將其應用于數(shù)據(jù)庫中的元組,并得到分類結(jié)果。使用決策樹求解分類問題易于理解且高效,對大型數(shù)據(jù)庫具有很好的擴展性。本文通過ID3 算法構建決策樹,并將構建好的樹應用于數(shù)據(jù)對學生進行分類。
決策樹學習算法是以實例為基礎的歸納學習算法,通常用來形成分類器和預測模型,可以對未知數(shù)據(jù)進行分類或預測、數(shù)據(jù)預處理、數(shù)據(jù)挖掘等。決策樹主要適用于對具有多個屬性的數(shù)據(jù)進行分類。決策樹算法在解決問題時主要分為兩步:第一,構建決策樹;第二,將決策樹應用于數(shù)據(jù)。
決策樹構造的輸入是一組帶有類別標記的例子,構造的結(jié)果是一棵二叉樹或多叉樹。決策樹中每個結(jié)點按屬性進行標記,每個弧被標記為一個謂詞,這個謂詞可以應用于相應結(jié)點的屬性,每個葉節(jié)點被標記為一個類。發(fā)生分裂的屬性叫做分列屬性,在構建決策樹過程中首先要選擇最佳分裂屬性。影響學生的學習因素有很多,但是不能都作為分列屬性,如性格和社會環(huán)境雖然也會影響學生的學習,但如果將其納入分裂屬性會使決策樹過于復雜,不利于對數(shù)據(jù)分類。經(jīng)過篩選我們選取年級、性別、科目作為分裂屬性,由此構造決策樹。
通過對數(shù)據(jù)庫中學生信息數(shù)據(jù)進行轉(zhuǎn)換、加載和處理,同時綜合考慮影響學生學習的主要因素選取如表1樣本數(shù)據(jù)集。

表1 用于學生分類的訓練數(shù)據(jù)
表1中每一條記錄表示一個學生的信息,每一列表示學生一方面的屬性。其中性別、科目、年級作為分裂屬性,對學生是否適應圖形、圖表演示的教學方法進行判斷。
在構造決策樹的過程中哪個屬性作為分列屬性,以及分裂屬性次序的選擇會影響算法的性能。根據(jù)分列屬性選擇方法的不同有不同的決策樹算法。常用的決策樹算法有ID3算法,C4.5算法和C5.0算法等。C4.5和C5.0算法主要用于解決連續(xù)數(shù)據(jù)的分類問題。ID3算法則用于解決非連續(xù)數(shù)據(jù)的分類問題。學生的信息屬于非連續(xù)數(shù)據(jù),因此選用ID3算法。
要構建樹必須選擇分裂屬性的次序,ID3算法根據(jù)每個分裂屬性所產(chǎn)生信息增益的大小對其排序。
表1中共有18條記錄,訓練數(shù)據(jù)的初始狀態(tài)為:適應演示教學法的占(10/18),不適應的占(8/18)。首先計算初始集合的熵為:如果選擇科目作為分列屬性,則文、理、工科均有6個學生,文科學生組成子集的熵為:


理科學生組成子集的熵為:

工科學生組成子集的熵為:

上述兩個熵的加權和為:

因此,用科目作為分裂屬性所得的信息增益為:

同樣,分別選擇年級、性別,作為分裂屬性,所得到的信息增益分別是0.0526和0。因此選擇年級作為第一分裂屬性,接下來是科目,最后是性別。
訓練開始時所有數(shù)據(jù)都在根結(jié)點,然后遞歸地進行數(shù)據(jù)劃分,最終生成一棵初始樹。通過前面的訓練數(shù)據(jù)所生成的決策樹,見圖1。

從圖1中可以看到,在對學生信息數(shù)據(jù)進行分類時首先根據(jù)年級屬性可以將所有數(shù)據(jù)劃分成3個集合,每一個集合分別包含1,2,3年級的學生。具體每一個集合,又可以根據(jù)科目分為三類,分別表示各年級的文、理、工科學生子集合。最后可以根據(jù)性別確定每一個學生到底是否能適應圖形、圖表演示的教學方法。
在教學過程中存在有多種多樣的教學方法,如果直接按照不同的教學方法對學生分類,這樣所構成的決策樹過于復雜,所以效率不高。本文通過改變表中第四列的數(shù)據(jù),可以得到學生對不同教學方法的適應性。
教師在教學過程中通過將本班的學生信息輸入所構建好的決策樹中,得到學生對不同教學方法的適應程度,由此選擇適當?shù)慕虒W方法。
決策樹算法是常用的分類方法,這種算法分類精度高,形成的模式簡單,對噪聲數(shù)據(jù)有很好的健壯性。本文使用決策樹算法中比較簡單的ID3算法構造決策樹,對數(shù)據(jù)庫中的學生信息進行分類,從而找到適合于學生學習的教學方法。這種方法雖然理論清晰方法簡單,但是只考慮了性格、年級、性別三個因素,而影響學生的學習有眾多的原因,因此教師在實際教學過程中還應通過不斷的歸納總結(jié),積累經(jīng)驗使得算法進一步得到完善,使算法具有更強的實踐性和應用性。
1 王莉.ID3算法的研究與應用[J].福建電腦報,2010(1)
2 Margaret H.Dunham.數(shù)據(jù)挖掘教程[M].北京:清華大學出版社,2005
Application of ID3 Mothod on Teaching Process
Pang Na,Wang Heping
In the process of education , different students adapt to different method, however only proper teaching method can get twice the result with half the effort.This paper classifies the students according to the ID3 classification algorithm.To choose the right order of the splitting attributes, the mothod gets the information gain of different attributes using the training data and then constructs a decision tree.At last applies the decision tree to the classification of the students.
ID3 method; decision tree;splitting attribute; information gain
G642
A
1000-8136(2011)06-0131-02