馬耀蘭
(北方民族大學 信息與計算科學學院,寧夏 銀川 750021)
數據挖掘在大學生綜合素質測評中的應用
馬耀蘭
(北方民族大學 信息與計算科學學院,寧夏 銀川 750021)
討論了數據挖掘中決策樹算法的原理及其模型的建立過程,并把它應用到高校的大學生綜合素質測評中,借助計算機對綜合素質測評信息進行挖掘,所獲取的知識對指導今后的教學和學生工作有重要意義.實驗仿真結果表明該模型能夠很好的實現預期的分類效果.
數據挖掘;決策樹;綜合素質
當今世界各國經濟、科技競爭歸根到底是人才的競爭,培養高素質人才已是一項戰略性任務.因此,高等院校理當成為培養高素質創造型人才的重地.高素質人才要求在政治思想、科技文化、綜合能力素質等各方面有突出表現.大學生評先樹優作為鼓勵先進、樹立榜樣的主要激勵措施,在培養全面發展的人才工程中發揮著重要作用.怎樣客觀、正確地評估和衡量學生的發展狀況和綜合素質,其方法如何,以及如何體現先進的管理思想和理念,已經成為一個值得探討的重要課題.本文把數據挖掘中的決策樹算法用于大學生綜合素質信息分析中,通過實例驗證決策樹算法具有較高的分類精度,它為信息社會的高校學生工作提供了一種全新的思路和方法.
決策樹方法是通過確定一系列的if-then的邏輯 (分枝)關系,從一組無秩序、無規則的事例中推理出一套分層規則,將所有可能發生的結局的概率分布用樹形圖表達,生成決策樹,從而達到對研究對象進行精確預測或正確分類的目的.決策樹是一個類似于流程圖的樹結構,樹結構中的每個內部節點代表一個屬性上的測試,每個分枝代表一個測試輸出,每個樹葉節點代表一個類,所以從決策樹的根到葉結點的一條路徑就對應著一條取舍規則,整棵決策樹就對應著一組析取表達式規則,因此能通過目標變量預測屬性變量.
為導出結構簡單的決策樹,可以以信息增益(Information Gain)、信息熵(Entropy)等為判據,選擇判定屬性.信息增益方法基于信息熵原理,信息熵是對信息混亂程度的一種度量.一般來說,信息如果是均勻的混合分布,則信息熵就高.若信息呈一致性分布,則信息熵就低.在決策樹中,“信息”由類標簽表示,即若數據子集中類別混合均勻分布,則信息熵較高.若類別單一分布,則信息熵較低.通過比較每個屬性形成劃分的前后信息熵的變化,選擇使得信息熵朝最小的方向變化的屬性,就能使得決策樹迅速地達到葉節點,從而能構造緊湊的決策樹.具體來說,對每個數據集或數據子集,信息熵可以定義為

式(1)中,c是數據集/子集Dj中決策類的個數,pi是第i個決策類在D中的比例.
對于任一個屬性,將數據集劃分為多個數據子集,則該屬性的信息增益為未進行劃分時的數據集的信息熵與劃分后數據子集的信息熵加權和的差,即

式(2)中,A是候選屬性,k是該屬性的分支數;D是未使用A進行劃分時的數據集,Dj是由A劃分而成的子數據集;|·|代表數據集的實例個數.
在所有屬性中,具有最大Gain(A)的屬性被選為當前進行劃分的結點.
屬性A的信息增益比率為

對于生成的決策樹,可以直接從中提取規則.此過程是將決策樹轉化成比較直觀的規則形式,可以更好地理解分類結果.分類規則是用if-then形式表示,每條規則都是一條從根到葉節點的路徑,葉結點表示具體的結論,而葉結點以上的結點及其邊表示的相應條件的條件取值.
本文以某高校綜合素質問卷調查所收集的信息為數據依據,應用數據挖掘中的決策樹算法對大學生綜合素質信息建立分類模型,相關屬性包括:性別、民族、專業、政治面貌、是否獨生子女、家住地區、英語水平、綜合素質等28個屬性.
對以上收集的樣本數據,經預處理(如噪聲數據的處理及冗余數據的處理)以后,我們為每個字段進行編號,并且將字段的每個取值轉化為“字母+數字”形式的示意字符串存儲于計算機之中,最終得到的用于建模的樣本數據集合相關信息如表1所示.

表1 經過處理后的樣本數據集合字段信息
本文采用數據挖掘軟件SPSSC lementine12.0進行決策樹模型的構建,在決策樹的構建中,有關C 5.0的模型參數均采用默認設置,本次C 5.0 算法生成的決策樹(見圖1)如下:

圖1 綜合素質測評的決策樹圖
決策樹模型的好壞是由其精度評價的,因此我們還分析了預測模型來評估它們產生精確預測值的能力,即在預測值和實際值之間的比較,結果如表2所示.

表2 預測值與實際值的比較分析
由表2可知,300名同學中,實際有140名同學綜合素質好,積極進取,模型預測準確了100名,即綜合素質好,積極進取的預測正確率達71.43%.實際有140名同學綜合素質雖有不足,但仍具有積極進取意識,模型預測準確了130名,即綜合素質雖有不足,但仍具有積極進取意識的預測正確率為92.86%.實際有20名同學綜合素質一般,進取意識不強,模型預測準確了20名,預測正確率達到100%.由此可以看出,決策樹的分類的精度較高.
結論:將決策樹算法應用到大學生綜合素質測評中,具有很好的效果.當然,還有很多不足之處,還需要改進.
〔1〕Han J,Kamber M.Data Mining:Concepts and Techniques.Morgan Kaufmann Publishers,2001:279-333.
〔2〕王闐,佘光輝.決策樹C4.5算法在森林資源二類調查中的應用[J].南京林業大學學報(自然科學版),2007,31(3):115-118.
〔3〕龐素琳,鞏吉璋.C5.0分類算法及在銀行個人信用評級中的應用[J].系統工程理論與實踐,2009,29(12):95-104.
〔4〕張洪田,葉樹江.構建工程應用型本科院校學生綜合素質教育模式的研究與實踐[J].中國高教研究,2010(1):59-60.
TP 311
A
1673-260X(2010)12-0033-03
北方民族大學教學研究項目(項目編號:2008TR32-YB)資助