



[摘 要] 高校教務管理數據庫中儲存了海量的數據,如何有效地從這些數據中挖掘潛在的信息,公正、客觀地評估高校班主任能力便顯得十分重要。將數據挖掘技術應用于高校班主任工作評估中,選取某高校班主任工作數據,采用ID3算法對數據進行分類和提取,構建了高校班主任評估決策樹。研究結果可為教學管理部門提供科學合理的決策支持,更好地指導日常教學和管理工作。
[關 鍵 詞] ID3算法;數據挖掘;高校班主任工作評估;決策樹
[中圖分類號] G647 [文獻標志碼] A [文章編號] 2096-0603(2016)01-0149-03
班主任工作評估是學校教學管理的重要環節,是評價班主任工作的主要手段。學校在每學期都會對班主任工作進行評價調查,在此過程中,高校教務管理數據庫中儲存了海量的數據,如何有效地從這些數據中挖掘潛在的信息,公正、客觀地評估高校班主任能力,并作出相應決策便顯得十分重要。數據挖掘技術作為解決該問題的強有力工具,受到人們的高度關注。目前,廣泛應用于各個行業中,隨著數據挖掘技術的成熟和應用領域的不斷擴展,將數據挖掘技術應用于高校的班主任工作評估中,對于提高學校教學管理水平將起到很好的指導作用。
本文將決策樹算法運用到高校班主任工作評估問題中,對某高校班主任評估數據進行分析,采用ID3算法計算不同屬性的信息增益,生成高校班主任評估決策樹,進而對班主任工作信息進行數據挖掘,評估班主任工作成績,揭示影響班主任工作成績各個因素間的關系,為教學管理部門提供決策支持,指導日常教學與管理工作,從而提高整個學校的教學管理水平。
一、ID3算法
1986年Quinlan提出了著名的基于信息熵的決策樹分類算法——ID3算法,該算法的核心是在決策樹中各級結點上選擇屬性,用最高信息增益作為結點的測試屬性,使得在每一個非葉子結點進行測試時,能獲得關于被測試樣本集最大的類別信息,使用該屬性將樣本集分成子集后,系統的熵值最小。期望該非葉子結點到達各后代葉結點的平均路徑最短,使生成的決策樹平均深度較小,從而提高分類速度和準確率。
ID3決策樹算法是一種自頂向下的貪心算法,從根結點開始,依次讓信息增益最高的屬性作為分裂屬性,將數據樣本劃分為不同的樣本子集,每個樣本子集構成一個子結點,再對每個子結點進行劃分,生成新的子結點,按上述過程一直循環,直到可以將樣本準確分類或已經選擇完所有的屬性,最終生成的決策樹每個葉結點都對應一個分類。
ID3算法原理如下:
設S是s個數據樣本的集合。假定類標號屬性具有m個不同值,定義m個不同類Ci(i=1,……,m)。設si是類Ci中的樣本數。對一個給定的樣本分類所需的期望信息由下式給出:
二、ID3算法在高校班主任工作評估中的應用
(一)數據預處理
我們在進行挖掘之前必須對數據進行整理和歸納,列出不同類型影響因素,為數據挖掘做好充分準備。對高校班主任工作成績評估進行分析時需要考慮“班主任總結成績”“學生測評成績”“參加例會成績”“開展班會成績”及“發表論文成績”等屬性對總成績的影響,高校班主任工作評估屬性如表1所示。除了“發表論文成績”屬性,將班主任屬性成績的所有值按80分以上、70~80分、0~70分劃分成“A”“B”“C”3類,總評成績按85分以上、70~85分、60~70分、0~60分劃分為“優”“良”“中”“差”4類。選擇某高校26名班主任工作評估的實例作為具體樣本,具體情況如表2所示。
(二)2ID3算法建立決策樹
1.計算信息增益
對所有屬性進行信息增益計算,先計算該樣本屬性的期望信息(信息熵)。
分析表中數據可知,26名班主任工作評估成績為優、良、中、差的人數分別為8,6,5,7人。根據公式(1)則有:
由公式(4)計算屬性“班主任總結成績”上分枝將獲得的信息增益是:
Gain(班主任總結成績)=INFO(S)-E(班主任總結成績)=0.878995
(2)學生測評成績
學生測評成績為“A”,“B”,“C”的人數分別為7,8,11人,相應信息熵的計算方法與上文一致:
INFO(A)=0
INFO(B)=1.0613
INFO(C)=0.9457
E(學習測評成績)=0.7267
Gain(學生)=INFO(S)-E(學生測評成績)=1.2518
(3)參加例會情況
參加例會情況成績為“A”,“B”,“C”的人數分別為8,8,10人,相應信息熵的計算如下:
INFO(A)=1.4056
INFO(B)=1.9056
INFO(C)=1.7610
E(參加例會成績)=1.6961
Gain(例會)=INFO(S)-E(參加例會成績)=0.2824
(4)開展班會情況
開展班會情況成績為“A”,“B”,“C”的人數分別為4,9,13人,相應信息熵的計算如下:
INFO(A)=0
INFO(B)=1.3921
INFO(C)=1.4196
E(開展班會成績)=1.1917
Gain(班會)=INFO(S)-E(開展班會成績)=0.7868
(5)發表論文情況
發表論文情況成績為“A”,“B”,“C”的人數分別為9,15,2人,相應信息熵的計算如下:
INFO(A)=1.8366
INFO(B)=1.9219
INFO(C)=1
E(發表論文成績)=1.8215
Gain(論文)=INFO(S)-E(發表論文成績)=0.1570
2.決策樹構建及分析
根據以上計算得出Gain(學生測評成績)最大,按照信息最大的原則,選擇學生測評成績為根節點建立決策樹,然后對每一顆子樹按照以上方法進行遞歸計算,最終就可得到由ID3算法構造出高校班主任工作評估的決策樹如下圖所示:
根據圖1的決策樹,高校班主任可以利用它作為平時工作的參考,例如,班里學生的測評成績是和班主任的工作評估直接掛鉤的,因此,想要成為一個優秀的班主任,學生測評成績最為重要;另一方面,如果一個班主任的學生測評成績是“A”,那么他的“開展班會成績”“參加例會成績”等屬性也不會差,最終其班主任評估成績為“優”。同時學校方面也可以利用這些隱藏的信息為教學管理部門提供決策,指導日常的教學及管理工作。
三、結論
在目前的數據挖掘研究領域中,決策樹算法仍然是應用最為廣泛的一種分類模型,相比其他的方法具有計算速度快、分類準確率高等優點。ID3算法是決策樹算法的一種典型算法,把ID3算法應用于高校班主任工作評估中,可以全面分析各個因素之間的內在聯系,挖掘更多隱藏的信息,從而給予公平、公正、客觀的評價標準。學校則可以利用這些隱藏的信息發現有用的價值,為教學管理部門提供決策支持,指導日常教學與管理工作,以嶄新的理念、科學的方法引導高校發展,從而提高整個學校的教學管理水平。
參考文獻:
[1]袁燕.決策樹算法在高校教學評價系統中的應用[J].浙江海洋學院學報:自然科學版,2006,25(4):440-444.
[2]桂維魁,陳濤,柳洋.基于ID3算法的考試成績分析決策樹的構造[J].天津城市建設學院學報,2008,14(2):139-141.
[3]李霞.ID3分類算法在銀行客戶流失中的應用研究[J].計算機技術與發展,2009,19(3):158-160.
[4]吳珊,趙敏君,黃雅婷,等.ID3決策樹在報考中的應用研究[J].電腦知識與技術,2013,9(30):6705-6709.