999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析決策樹技術在計算機一級考試中的應用

2013-04-29 00:00:00潘敏
科技創新與應用 2013年5期

摘 要:決策樹技術是數據挖掘的一種實用而方便的分類技術。通過對計算機一級考試相關數據進行研究,選取影響一級考試通過率的重要因素,經過分析后作為決策屬性。根據ID3算法,挖掘出三大影響計算機一級考試通過率的重要屬性。本文結果表明,不僅獲得了具有一定價值的隱含信息,而且對計算機基礎教學有一定的指導作用。

關鍵詞:分類;計算機一級考試;決策樹

1 引言

目前,隨著信息技術的高速進步與發展,各行各業對人才提出新的標準,能夠熟練使用計算機已成為人們必須掌握的一種基本工作技能。計算機等級考試通過率與一個學校的計算機基礎教學水平成一定的正比關系,為更好的提高計算機教學的效果,從歷年的計算機等級考試成績數據中挖掘出有用信息,采取有針對性的有效措施提高計算機等級考試的通過率,具有十分重要的實用價值。

2分類

2.1 基本概念

分類是一種重要的數據分析形式,它提取刻畫重要數據類的模型。這種模型稱為分類器,預測分類的(離散的、無序的)類標號。例如,我們可以建立個分類模型,把銀行貸款申請劃分成安全或危險。這種分析可以幫助我們更好地全面理解數據[1]。

2.2 決策樹歸納分類

分類是數據挖掘的重要部分,現代商業支持系統的主要功能大多為分類。在數據挖掘技術中,有很多種分類的技術,較常見的為如下幾種方法:決策樹算法、關聯算法、粗糙集、遺傳算法、貝葉斯分類等[2]。

決策樹分類分兩階段。第一階段是利用訓練集建立并精化一棵決策樹,建立決策樹模型。第二階段是利用生成完畢的決策樹對輸入的數據進行分類[3]。

2.3 ID3 算法描述

ID3 算法的核心是選擇決策樹各級結點的屬性,采用自頂向下的遞歸方式,根據屬性選擇的標準--最高信息增益,作為決策樹的一個結點[4]。該屬性使結果集對樣本分類所需要的信息量最小。

2.3.1 分類期望信息

設數據分區D為訓練樣本的訓練集,假定類標號屬性具有m個不同值,定義m個不同類Ci (i=1,…,m),設Ci,D是D中Ci類元組的集合,|D|和|Ci,D|分別是D和Ci,D元組的個數,則對D中元組分類所需要期信息由下次給出[5]:

其中,pi是D中任意元組屬于類Ci的非零概率,并用|Ci,D|/|D|估計。

2.3.2 從決策樹種提出分類規則

規則表達式:IF-THEN。生成規則的方法為:

1)根節點到各個葉節點屬于一條規則。

2)根據每條路徑,以標準選擇恰當的屬性作為規則前提(IF)部分,相應的每條結點的葉節點為結論(THEN)部分。

3 決策樹分類在計算機一級考試中的應用

3.1 數據準備及預處理

筆者所在學校每年都會統計學生參與計算機考試的情況,本文從數據庫中選擇了2005年6月的計算機一級考試的411名學生作為研究對象,并進行分析處理后得到表1數據::

(1)將“是否完成計算機基礎課程學習”分為“完成”和“未完成”兩類。

(2)將“年級”分為“大一”、“大二”和“大三”三類。

(3)將“專業”分為“理科類”和“文科類”兩類。

(4)將“每周上機次數”分為“<3”“、3- 4”和“>4”三類。

(5)將“一級等級考試通過否”分為“是”和“否”兩類。

3.2構造決策樹

根據表1構建決策樹。根據ID3算法,按照計算機一級考試通過與否,逐步按照以下步驟構建決策樹。

第一步:根據表1,計算分類所需要的期望值。

將類標識屬性“是否通過計算機一級考試”分為兩類,D1代表通過計算機教試,D2代表沒有通過計算機考試。設D1對應于“是”,D2對應于“否”。對應元組為D1=8,D2=6

根據ID3算法中屬性選擇度量--信息增益原理,可算出給定樣本分類所需要的期望值:

第二步:計算每個屬性的信息增益

首先計算屬性“是否完成計算機基礎課程學習”的信息增益

對于該屬性的類“完成”,有6個“是”元組,3個“否”元組。對于類“未完成”,有2個“是”元組,3個“否”元組。

則,對元組進行分類所需要的期望信息為:

因此,這種劃分的信息增益

Gain(是否完成計算機基礎課程學習)=info(D1,D2)-info是否完成基礎課程=0.396位

同理,可以計算出Gain(年級)=-0.028 位,Gain(專業)= 0.128位,Gain(每周上機次數)=0.474位。

第三步:確定屬性結點

由于屬性“每周上機次數”的信息增益最高,因此被選為分裂屬性,作為第一個結點,將樣本訓練集分為三部分。然后將每個部分依上述方法計算,可以得到最終決策樹如圖1所示:

圖1 生成決策樹

3.3 提取分類規則

IF“每周上機次數>4”AND“完成計算機基礎課程學習” THEN 通過率為:28.6%。

IF“每周上機次數>4”AND“未完成計算機基礎課程學習”AND “專業為理科類”THEN通過率為:7%。

IF“每周上機次數=3-4”AND“專業為理科類” THEN 通過率為:21.4%。

3.4 結果分析

根據上述分類規則,可以得到結論,詳見圖2所示:

圖2 通過率分布

在每周上機次數>3的學生中,有80%的學生通過計算機一級考試。在完成計算機基礎課程的學生中,有66.7%的學生通過計算機一級考試。在理科類學生中,有60%的學生通過計算機一級考試。鑒于以上分析,得出以下結論:

(1)重視計算機基礎課程教學。首先,計算機一級考試通過率在某種程度上反映了各個高校的計算機基礎教育水平,因此各大高校越來越重視計算機基礎的教學,將計算機課程列入大學公共必修課。其次,計算機一級考試,由于其公平性、規范性、權威性,在社會各行各業中均有一定的影響力,在當今激烈的人才競爭中,通過計算機一級考試已經成為具有計算機基本技術的能力證明。再次,從本文結論可知,影響計算機一級考試通過率的最重要因素為:修完計算機基礎課程。因此,建議各高校參加一級計算機考試的學生必須修完計算機基礎課程。

(2)加強學生的上機操作力度。從結論中可以看出,學生所學的專業類別并不是決定計算機一級考試通過率的最大因素。學校應根據自身情況,增加學生每周上機的次數,以學生上機操作為主,教師指導為輔,加大學生自主學習能力的培養,使學生能在課余時間主動學習并掌握知識,學以致用,為計算機一級考試做好知識儲備。

參考文獻

[1]Jiawei Han, Micheline Kamber ,Jianpei,范明,孟小峰譯.數據挖掘概念與技術[M].機械工業出版社,2012.

[2]遲慶云.基于決策樹的分類算法研究與應用[D].2006.

[3] 胡少東.客戶細分方法探析[J]工業技術經濟 2005,24(7)66-69.)

[4] Cygnus GNU Binutils Cygwin Online publication 1999.

主站蜘蛛池模板: 国产剧情国内精品原创| 在线观看国产黄色| 国产第一页第二页| 国产欧美在线观看精品一区污| 亚洲精品国产首次亮相| 中文字幕在线看| 青青青亚洲精品国产| 免费一级毛片在线播放傲雪网| 精品一区二区三区无码视频无码| 拍国产真实乱人偷精品| 91在线免费公开视频| 91色国产在线| 99热在线只有精品| 中文字幕乱码中文乱码51精品| 国产成人区在线观看视频| 精品国产污污免费网站| 国产精品亚欧美一区二区三区| 色视频国产| 久久视精品| 国产精品极品美女自在线看免费一区二区| 精品国产香蕉伊思人在线| 制服丝袜在线视频香蕉| 亚洲乱亚洲乱妇24p| 欧美日一级片| 91青青在线视频| 欧美日韩亚洲国产主播第一区| 久久精品66| 日韩 欧美 国产 精品 综合| 国产精品亚洲精品爽爽| 亚洲国产午夜精华无码福利| 亚洲高清在线播放| 日韩av手机在线| 麻豆AV网站免费进入| 欧美一区二区自偷自拍视频| 亚洲一区二区三区在线视频| 久久香蕉国产线| 午夜人性色福利无码视频在线观看| 91极品美女高潮叫床在线观看| 免费一极毛片| 91人妻日韩人妻无码专区精品| 伊人久久大线影院首页| 亚洲女人在线| 国产午夜一级毛片| 欧美亚洲一区二区三区在线| 午夜在线不卡| 欧美成人午夜在线全部免费| 国产一区二区三区在线观看视频| 亚洲日韩在线满18点击进入| 亚洲精品视频网| 97狠狠操| 中文字幕啪啪| 亚洲欧美日韩另类在线一| 91最新精品视频发布页| 又污又黄又无遮挡网站| 国产人妖视频一区在线观看| 久久精品最新免费国产成人| 国产精品99在线观看| 99re经典视频在线| 精品久久久无码专区中文字幕| 国产日韩欧美黄色片免费观看| 国产日韩久久久久无码精品| 国产综合另类小说色区色噜噜| 国产自产视频一区二区三区| 超碰免费91| 国产精品成人免费综合| 熟女成人国产精品视频| 亚洲美女一级毛片| 久久夜色精品国产嚕嚕亚洲av| 欧美www在线观看| 91黄色在线观看| 欧美翘臀一区二区三区| 国产精品高清国产三级囯产AV| 国产av色站网站| 高清精品美女在线播放| 99久久精品国产麻豆婷婷| 成人伊人色一区二区三区| 日韩AV无码免费一二三区| 深爱婷婷激情网| 亚洲成人手机在线| 亚洲天天更新| 精品乱码久久久久久久| 国产视频大全|