999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘在大學生綜合素質測評中的應用

2010-10-20 07:27:10馬耀蘭
赤峰學院學報·自然科學版 2010年12期
關鍵詞:數據挖掘素質信息

馬耀蘭

(北方民族大學 信息與計算科學學院,寧夏 銀川 750021)

數據挖掘在大學生綜合素質測評中的應用

馬耀蘭

(北方民族大學 信息與計算科學學院,寧夏 銀川 750021)

討論了數據挖掘中決策樹算法的原理及其模型的建立過程,并把它應用到高校的大學生綜合素質測評中,借助計算機對綜合素質測評信息進行挖掘,所獲取的知識對指導今后的教學和學生工作有重要意義.實驗仿真結果表明該模型能夠很好的實現預期的分類效果.

數據挖掘;決策樹;綜合素質

1 引言

當今世界各國經濟、科技競爭歸根到底是人才的競爭,培養高素質人才已是一項戰略性任務.因此,高等院校理當成為培養高素質創造型人才的重地.高素質人才要求在政治思想、科技文化、綜合能力素質等各方面有突出表現.大學生評先樹優作為鼓勵先進、樹立榜樣的主要激勵措施,在培養全面發展的人才工程中發揮著重要作用.怎樣客觀、正確地評估和衡量學生的發展狀況和綜合素質,其方法如何,以及如何體現先進的管理思想和理念,已經成為一個值得探討的重要課題.本文把數據挖掘中的決策樹算法用于大學生綜合素質信息分析中,通過實例驗證決策樹算法具有較高的分類精度,它為信息社會的高校學生工作提供了一種全新的思路和方法.

2 原理與方法

2.1 決策樹概述

決策樹方法是通過確定一系列的if-then的邏輯 (分枝)關系,從一組無秩序、無規則的事例中推理出一套分層規則,將所有可能發生的結局的概率分布用樹形圖表達,生成決策樹,從而達到對研究對象進行精確預測或正確分類的目的.決策樹是一個類似于流程圖的樹結構,樹結構中的每個內部節點代表一個屬性上的測試,每個分枝代表一個測試輸出,每個樹葉節點代表一個類,所以從決策樹的根到葉結點的一條路徑就對應著一條取舍規則,整棵決策樹就對應著一組析取表達式規則,因此能通過目標變量預測屬性變量.

2.2 決策樹算法的理論基礎

為導出結構簡單的決策樹,可以以信息增益(Information Gain)、信息熵(Entropy)等為判據,選擇判定屬性.信息增益方法基于信息熵原理,信息熵是對信息混亂程度的一種度量.一般來說,信息如果是均勻的混合分布,則信息熵就高.若信息呈一致性分布,則信息熵就低.在決策樹中,“信息”由類標簽表示,即若數據子集中類別混合均勻分布,則信息熵較高.若類別單一分布,則信息熵較低.通過比較每個屬性形成劃分的前后信息熵的變化,選擇使得信息熵朝最小的方向變化的屬性,就能使得決策樹迅速地達到葉節點,從而能構造緊湊的決策樹.具體來說,對每個數據集或數據子集,信息熵可以定義為

式(1)中,c是數據集/子集Dj中決策類的個數,pi是第i個決策類在D中的比例.

對于任一個屬性,將數據集劃分為多個數據子集,則該屬性的信息增益為未進行劃分時的數據集的信息熵與劃分后數據子集的信息熵加權和的差,即

式(2)中,A是候選屬性,k是該屬性的分支數;D是未使用A進行劃分時的數據集,Dj是由A劃分而成的子數據集;|·|代表數據集的實例個數.

在所有屬性中,具有最大Gain(A)的屬性被選為當前進行劃分的結點.

屬性A的信息增益比率為

2.3 規則提取

對于生成的決策樹,可以直接從中提取規則.此過程是將決策樹轉化成比較直觀的規則形式,可以更好地理解分類結果.分類規則是用if-then形式表示,每條規則都是一條從根到葉節點的路徑,葉結點表示具體的結論,而葉結點以上的結點及其邊表示的相應條件的條件取值.

3 具體實施

3.1 數據準備和預處理

本文以某高校綜合素質問卷調查所收集的信息為數據依據,應用數據挖掘中的決策樹算法對大學生綜合素質信息建立分類模型,相關屬性包括:性別、民族、專業、政治面貌、是否獨生子女、家住地區、英語水平、綜合素質等28個屬性.

對以上收集的樣本數據,經預處理(如噪聲數據的處理及冗余數據的處理)以后,我們為每個字段進行編號,并且將字段的每個取值轉化為“字母+數字”形式的示意字符串存儲于計算機之中,最終得到的用于建模的樣本數據集合相關信息如表1所示.

3.2 結果分析

表1 經過處理后的樣本數據集合字段信息

本文采用數據挖掘軟件SPSSC lementine12.0進行決策樹模型的構建,在決策樹的構建中,有關C 5.0的模型參數均采用默認設置,本次C 5.0 算法生成的決策樹(見圖1)如下:

圖1 綜合素質測評的決策樹圖

決策樹模型的好壞是由其精度評價的,因此我們還分析了預測模型來評估它們產生精確預測值的能力,即在預測值和實際值之間的比較,結果如表2所示.

表2 預測值與實際值的比較分析

由表2可知,300名同學中,實際有140名同學綜合素質好,積極進取,模型預測準確了100名,即綜合素質好,積極進取的預測正確率達71.43%.實際有140名同學綜合素質雖有不足,但仍具有積極進取意識,模型預測準確了130名,即綜合素質雖有不足,但仍具有積極進取意識的預測正確率為92.86%.實際有20名同學綜合素質一般,進取意識不強,模型預測準確了20名,預測正確率達到100%.由此可以看出,決策樹的分類的精度較高.

結論:將決策樹算法應用到大學生綜合素質測評中,具有很好的效果.當然,還有很多不足之處,還需要改進.

〔1〕Han J,Kamber M.Data Mining:Concepts and Techniques.Morgan Kaufmann Publishers,2001:279-333.

〔2〕王闐,佘光輝.決策樹C4.5算法在森林資源二類調查中的應用[J].南京林業大學學報(自然科學版),2007,31(3):115-118.

〔3〕龐素琳,鞏吉璋.C5.0分類算法及在銀行個人信用評級中的應用[J].系統工程理論與實踐,2009,29(12):95-104.

〔4〕張洪田,葉樹江.構建工程應用型本科院校學生綜合素質教育模式的研究與實踐[J].中國高教研究,2010(1):59-60.

TP 311

A

1673-260X(2010)12-0033-03

北方民族大學教學研究項目(項目編號:2008TR32-YB)資助

猜你喜歡
數據挖掘素質信息
探討人工智能與數據挖掘發展趨勢
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
素質是一場博弈
什么是重要的素質
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
素質開發完全圖冊
孩子(2009年1期)2009-01-22 08:34:30
造就藝術家還是完善素質
主站蜘蛛池模板: 在线亚洲天堂| 欧美成人精品一区二区| 日本中文字幕久久网站| 小13箩利洗澡无码视频免费网站| 久久伊人色| 亚洲男人天堂久久| 中文成人无码国产亚洲| 欧美日韩久久综合| 亚洲av片在线免费观看| 国产美女免费| 伊人久久福利中文字幕| 91免费在线看| 国产精品大尺度尺度视频| 欧美特黄一级大黄录像| 精品国产欧美精品v| 中文字幕人妻无码系列第三区| 在线国产三级| 中文字幕日韩欧美| 国产成人三级在线观看视频| 久草青青在线视频| 黄片一区二区三区| 少妇被粗大的猛烈进出免费视频| 日本不卡免费高清视频| 国产又色又爽又黄| 亚洲精品视频免费| 女人18一级毛片免费观看 | 国产精品刺激对白在线| 国内丰满少妇猛烈精品播 | 人妻丰满熟妇啪啪| 亚洲高清在线播放| 亚洲综合第一区| 五月天丁香婷婷综合久久| 色偷偷av男人的天堂不卡| a毛片免费观看| 欧美人与动牲交a欧美精品| 国产一级二级在线观看| 精品国产黑色丝袜高跟鞋| 久久精品国产精品青草app| 欧洲欧美人成免费全部视频| 国产永久在线观看| 亚洲热线99精品视频| 园内精品自拍视频在线播放| 午夜精品一区二区蜜桃| 日韩东京热无码人妻| 欧洲熟妇精品视频| 成人在线欧美| 免费人成视网站在线不卡| 国产91在线|日本| 91国内在线视频| 久久天天躁狠狠躁夜夜2020一| 国产成人综合亚洲网址| 国产精品污污在线观看网站| 亚洲国产成人麻豆精品| 色网站在线视频| 国产精品永久在线| 国产美女一级毛片| 真人高潮娇喘嗯啊在线观看| 中文字幕在线欧美| 亚国产欧美在线人成| 尤物特级无码毛片免费| 免费观看国产小粉嫩喷水| 久久久精品久久久久三级| 亚洲一区二区三区国产精品| 日本免费新一区视频| 久久国产精品麻豆系列| 99精品国产自在现线观看| 亚洲人成在线精品| 亚洲天堂视频在线观看| 亚洲大学生视频在线播放| 漂亮人妻被中出中文字幕久久| 亚洲乱强伦| 亚洲黄色视频在线观看一区| 亚洲无码日韩一区| 一级不卡毛片| 免费高清自慰一区二区三区| 欧洲欧美人成免费全部视频| 一级不卡毛片| 丰满人妻久久中文字幕| 熟女成人国产精品视频| 亚洲成人网在线观看| 中文字幕免费播放| 亚洲国产一区在线观看|