徐敏
摘要:教學管理決策在高校教育中是一項重要的工作。目前,高校內部運行的各種管理系統和各類數據庫,已經積累了包括學籍管理系統、成績管理系統在內的海量數據。本文主要研究如何采用數據挖掘技術在學院教務管理系統中,對海量數據進行發掘和應用,為人才培養提供比較客觀的決策支持。
關鍵詞:數據挖掘;決策樹;ID3算法
中圖分類號:G471 文獻標志碼:A 文章編號:1674-9324(2017)14-0009-02
一、前言
隨著信息技術的發展,數據挖掘正成為一個日益受到重視的熱點研究領域,并得以蓬勃發展,越來越顯示出其強大的生命力。據相關資料調查顯示,在一個大型企業數據庫中,只有其中百分之七的數據能夠得到很好的應用。同樣,高校內部運行的各種管理系統和各類數據庫,已經積累了海量的數據,然而隱藏在這些海量數據中的深層次的模式一直沒有得到充分的發掘和應用,學校管理者只能通過簡單數據查詢和排序等傳統數據庫技術功能獲得表面的信息。我們努力想要解決的是,如何對那些龐大的海量數據進行高層次的處理,從中找出管理者關心的規律和模式,以此幫助管理者更好地把現有的數據轉化為可供使用的知識進行決策和研究,來提高學校管理決策的科學性,提高管理水平和辦學質量。
二、決策樹分類算法
決策樹(Decision Tree)學習是以實例為基礎的歸納學習算法。它著眼于從一組無次序、無規則的事例中推理出決策樹表示形成的分類規則,它的一個最大優點就是在學習過程中不需要使用者了解很多背景知識(這也同時是它最大的缺點),只要訓練例子能夠用“屬性—結論”式的方式表達出來,就能使用該算法來學習。決策樹算法中最著名的算法是Quinlan提出的ID3算法。他把C.E.Shannon的信息論引入到了決策樹算法中,把信息熵作為選擇測試屬性的標準,對訓練樣本集進行分類,并構造決策樹來預測如何由測試屬性對整個樣本空間進行劃分。ID3算法采用信息量作為測試屬性的選擇標準來分割訓練樣本集并最終生成決策樹。
三、數據的收集和整理
本研究利用數據挖掘技術中的ID3算法,在教務管理系統中,實現一個專業方向選擇輔助指導的模塊,大學生在修完職業基礎課后,能更好地按自身的特點選擇專業方向。
在大學生專業方向輔助指導中,我們將以服裝系為例使用決策樹分類挖掘技術中的ID3算法,通過學生大學一年級專業基礎課的學習成績,配合問卷調查,預測學生最適合選擇的專業方向。
我們以華南女子學院服裝專業學生在大一期間的成績為挖掘數據源(共194個樣本),根據學生各科的學習成績信息,剔除了成績表中與專業發展方向無顯著相關性的屬性,如體育等課程屬性,選擇7門具有代表性的專業基礎課作為基礎數據進行處理。
其次,對訓練表中的每一列成績屬性的值進行離散化處理。我們將成績分成三個部分,用A表示[80,100]之間的分數,用B表示[70,79]之間的分數,用C表示[0,69]之間的分數。
除了學習成績之外,我們還需要考慮影響學生專業方向選擇的其他因素,服裝系的專業方向具體劃分為三個方面:制板與工藝方向;造型設計方向;市場營銷方向。
學生在大一修完專業基礎課后,自行選擇專業方向。為了更好地了解學生選擇專業方向的動機、階段性學習的完成情況,以及大學二年級工學結合的專業實踐后對自己所選方向的滿意度,我們設計了問卷調查調查:①學生的個人興趣:A.手工制作;B.創意設計;C.人際交往。②選擇專業方向時是否按興趣來選擇。③經過一年的專業學習,覺得現在的專業方向是否合適自己。
通過數據收集、數據整理之后,我們實際可以使用的數據記錄為182條,由于在系統實現過程中,我們還需要預留一部分數據進行數據分析準確度測試,因此,在放入訓練數據集進行決策樹模型生成訓練的實際數據記錄為146條。
四、利用ID3算法構造學生成績分析決策樹
(一)信息增益的計算
首先我們先利用公式計算出信息熵,參加數據挖掘的記錄有146條,經過兩年的專業學習后,認為自己更適合學習制板與工藝方向的有58人,認為自己更適合學習造型設計方向的有48人,覺得自己更適合市場營銷方向的有32人,不確定方向的8人。
下面計算信息增益值。
利用公式:信息增益值I(S/A)=H(S)-H(S/A)
經過整理后,參加數據挖掘的屬性有9個,通過計算得到的Gain(S,xq)最大,即個人興趣對分類最有幫助,所以選擇興趣對決策樹的結構進行首次分區,產生4分枝。
(二)遞歸創建決策樹
選擇興趣作為測試屬性之后訓練實例集分為4個子集,生成4個子節點,對每個子節點遞歸采用上述過程進行分類直至每個節點中各個實例屬于同類。
以“興趣=手工制作”為例。
選擇手工制作的同學一共有56人,經過兩年的專業學習后,認為自己更適合學習制板與工藝方向的有42人,更適合學習造型設計方向的有8人,更適合市場營銷方向的有4人,不確定方向的2人。
通過計算得到的Gain(S_xq.手工制作,sjyl)最大,即“服裝結構設計原理(簡稱設計原理)”的信息對分類最有幫助,所以選擇“服裝結構設計原理”的成績對決策樹的結構進行再次分區,產生3個分枝。
計算選擇興趣為“手工制作”的學生里,設計原理成績大等于80分,其余的6門課程成績相應的信息增益值,發現興趣選擇手工制作的所有設計原理成績大等于80分的同學在兩年的學習后認為自己最適合工藝方向因此不再另做計算。于是,我們研究興趣為“手工制作”且設計原理成績介于70—80分之間,其余6門成績的信息增益值計算。通過計算得到的Gain(S_xq.手工制作_sjyl.介于70—80分,jcgy)最大,按照信息增益最大的原則選擇“基礎工藝”的成績為根結點,并將樣本分成3部分,然后對每一棵子樹按照以上方法遞歸計算。由于決策樹的構建是一個遞歸的計算,而本研究采用數據結點較多,因此我們在Microsoft Visual Studio 2005環境下用C#語言編程,利用程序生成其余的決策樹。
(三)樹剪枝
在實際應用中,部分數據因數量太少以至于不能產生目標函數的有代表性的采樣,導致我們使用決策樹算法生成的決策樹很多分支反映的是訓練數據集中的異常。因此我們設置生成決策樹的最小樣本值為4,進行預剪枝處理。為了降低剪枝后的冗余,在剪枝后,如果有某個葉子結點下的所有屬性值指向的結果都相同,則認為該葉子結點是冗余的葉子結點,將被刪除,其屬性值將作為該結點原父節點的屬性值被保留。
由此決策樹導出相關規則如下。
1.if (興趣=手工制作and服裝結構設計原理≥80) then 適合工藝方向
2.if (xq=='手工制作' and服裝結構設計原理=='介于80~70' and基礎工藝≥80' and成衣工藝≥80and 款式效果圖≥80' and款式設計≥80') then 適合工藝方向
3.if (xq=='手工制作' and 服裝結構設計原理=='介于80~70' and基礎工藝≥80 and成衣工藝≥80 and款式效果圖≥80 and款式設計<70) then 適合工藝方向
本次參與數據挖掘的屬性較多,從而導出的規則也相當多,由于篇幅有限,這里不再一一羅列,我們將留做測試的36條數據運用到決策樹得出的所有規則里,經過測試有31條規則命中,準確率為86.1%。
五、應用開發運行環境
利用ID3算法得出的知識規則,我們在教務管理系統上增加了學生選擇專業方向的頁面。
硬件環境:PIII以上的微機
操作系統:Windows 2000
數據庫系統:SQL SERVER 2000
編程語言:ASP
采用B/S 模式
六、小結
本文主要討論的是使用ID3算法生成決策樹,最后由決策樹產生分類規則,完成了根據學生興趣以及專業課成績來判斷適合選擇的專業方向的決策樹模型建立。最后應用所獲得的規則,實現了教務管理系統中的專業方向選擇系統。
參考文獻:
[1]白雪.決策樹分類算法的研究及其在教學評估中的應用[J].電腦開發與應用.2007,(02):24-26.
[2]陳文偉,黃金才,趙新顯著.數據挖掘技術[M].北京:工業大學出版社,2002:7.
[3]欒麗華.決策樹分類技術研究[J].計算機工程,2004,9:94-96.
[4]李強.創建決策樹算法的比較研究-ID3,C4.5,C5.0算法的比較[J].甘肅科學學報,2006,(12):84-87.
[5]馬瑜,王有剛.ID3算法應用研究[J].信息技術.2006,(12):84-86.
[6]李道國,苗奪謙,俞冰.決策樹剪枝算法的研究與改進[J].計算機工程,2005,(8):19-21.