999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析決策樹技術在計算機一級考試中的應用

2013-04-29 00:00:00潘敏
科技創新與應用 2013年5期

摘 要:決策樹技術是數據挖掘的一種實用而方便的分類技術。通過對計算機一級考試相關數據進行研究,選取影響一級考試通過率的重要因素,經過分析后作為決策屬性。根據ID3算法,挖掘出三大影響計算機一級考試通過率的重要屬性。本文結果表明,不僅獲得了具有一定價值的隱含信息,而且對計算機基礎教學有一定的指導作用。

關鍵詞:分類;計算機一級考試;決策樹

1 引言

目前,隨著信息技術的高速進步與發展,各行各業對人才提出新的標準,能夠熟練使用計算機已成為人們必須掌握的一種基本工作技能。計算機等級考試通過率與一個學校的計算機基礎教學水平成一定的正比關系,為更好的提高計算機教學的效果,從歷年的計算機等級考試成績數據中挖掘出有用信息,采取有針對性的有效措施提高計算機等級考試的通過率,具有十分重要的實用價值。

2分類

2.1 基本概念

分類是一種重要的數據分析形式,它提取刻畫重要數據類的模型。這種模型稱為分類器,預測分類的(離散的、無序的)類標號。例如,我們可以建立個分類模型,把銀行貸款申請劃分成安全或危險。這種分析可以幫助我們更好地全面理解數據[1]。

2.2 決策樹歸納分類

分類是數據挖掘的重要部分,現代商業支持系統的主要功能大多為分類。在數據挖掘技術中,有很多種分類的技術,較常見的為如下幾種方法:決策樹算法、關聯算法、粗糙集、遺傳算法、貝葉斯分類等[2]。

決策樹分類分兩階段。第一階段是利用訓練集建立并精化一棵決策樹,建立決策樹模型。第二階段是利用生成完畢的決策樹對輸入的數據進行分類[3]。

2.3 ID3 算法描述

ID3 算法的核心是選擇決策樹各級結點的屬性,采用自頂向下的遞歸方式,根據屬性選擇的標準--最高信息增益,作為決策樹的一個結點[4]。該屬性使結果集對樣本分類所需要的信息量最小。

2.3.1 分類期望信息

設數據分區D為訓練樣本的訓練集,假定類標號屬性具有m個不同值,定義m個不同類Ci (i=1,…,m),設Ci,D是D中Ci類元組的集合,|D|和|Ci,D|分別是D和Ci,D元組的個數,則對D中元組分類所需要期信息由下次給出[5]:

其中,pi是D中任意元組屬于類Ci的非零概率,并用|Ci,D|/|D|估計。

2.3.2 從決策樹種提出分類規則

規則表達式:IF-THEN。生成規則的方法為:

1)根節點到各個葉節點屬于一條規則。

2)根據每條路徑,以標準選擇恰當的屬性作為規則前提(IF)部分,相應的每條結點的葉節點為結論(THEN)部分。

3 決策樹分類在計算機一級考試中的應用

3.1 數據準備及預處理

筆者所在學校每年都會統計學生參與計算機考試的情況,本文從數據庫中選擇了2005年6月的計算機一級考試的411名學生作為研究對象,并進行分析處理后得到表1數據::

(1)將“是否完成計算機基礎課程學習”分為“完成”和“未完成”兩類。

(2)將“年級”分為“大一”、“大二”和“大三”三類。

(3)將“專業”分為“理科類”和“文科類”兩類。

(4)將“每周上機次數”分為“<3”“、3- 4”和“>4”三類。

(5)將“一級等級考試通過否”分為“是”和“否”兩類。

3.2構造決策樹

根據表1構建決策樹。根據ID3算法,按照計算機一級考試通過與否,逐步按照以下步驟構建決策樹。

第一步:根據表1,計算分類所需要的期望值。

將類標識屬性“是否通過計算機一級考試”分為兩類,D1代表通過計算機教試,D2代表沒有通過計算機考試。設D1對應于“是”,D2對應于“否”。對應元組為D1=8,D2=6

根據ID3算法中屬性選擇度量--信息增益原理,可算出給定樣本分類所需要的期望值:

第二步:計算每個屬性的信息增益

首先計算屬性“是否完成計算機基礎課程學習”的信息增益

對于該屬性的類“完成”,有6個“是”元組,3個“否”元組。對于類“未完成”,有2個“是”元組,3個“否”元組。

則,對元組進行分類所需要的期望信息為:

因此,這種劃分的信息增益

Gain(是否完成計算機基礎課程學習)=info(D1,D2)-info是否完成基礎課程=0.396位

同理,可以計算出Gain(年級)=-0.028 位,Gain(專業)= 0.128位,Gain(每周上機次數)=0.474位。

第三步:確定屬性結點

由于屬性“每周上機次數”的信息增益最高,因此被選為分裂屬性,作為第一個結點,將樣本訓練集分為三部分。然后將每個部分依上述方法計算,可以得到最終決策樹如圖1所示:

圖1 生成決策樹

3.3 提取分類規則

IF“每周上機次數>4”AND“完成計算機基礎課程學習” THEN 通過率為:28.6%。

IF“每周上機次數>4”AND“未完成計算機基礎課程學習”AND “專業為理科類”THEN通過率為:7%。

IF“每周上機次數=3-4”AND“專業為理科類” THEN 通過率為:21.4%。

3.4 結果分析

根據上述分類規則,可以得到結論,詳見圖2所示:

圖2 通過率分布

在每周上機次數>3的學生中,有80%的學生通過計算機一級考試。在完成計算機基礎課程的學生中,有66.7%的學生通過計算機一級考試。在理科類學生中,有60%的學生通過計算機一級考試。鑒于以上分析,得出以下結論:

(1)重視計算機基礎課程教學。首先,計算機一級考試通過率在某種程度上反映了各個高校的計算機基礎教育水平,因此各大高校越來越重視計算機基礎的教學,將計算機課程列入大學公共必修課。其次,計算機一級考試,由于其公平性、規范性、權威性,在社會各行各業中均有一定的影響力,在當今激烈的人才競爭中,通過計算機一級考試已經成為具有計算機基本技術的能力證明。再次,從本文結論可知,影響計算機一級考試通過率的最重要因素為:修完計算機基礎課程。因此,建議各高校參加一級計算機考試的學生必須修完計算機基礎課程。

(2)加強學生的上機操作力度。從結論中可以看出,學生所學的專業類別并不是決定計算機一級考試通過率的最大因素。學校應根據自身情況,增加學生每周上機的次數,以學生上機操作為主,教師指導為輔,加大學生自主學習能力的培養,使學生能在課余時間主動學習并掌握知識,學以致用,為計算機一級考試做好知識儲備。

參考文獻

[1]Jiawei Han, Micheline Kamber ,Jianpei,范明,孟小峰譯.數據挖掘概念與技術[M].機械工業出版社,2012.

[2]遲慶云.基于決策樹的分類算法研究與應用[D].2006.

[3] 胡少東.客戶細分方法探析[J]工業技術經濟 2005,24(7)66-69.)

[4] Cygnus GNU Binutils Cygwin Online publication 1999.

主站蜘蛛池模板: 99国产在线视频| 亚洲男人的天堂网| 成人福利免费在线观看| 精品人妻一区无码视频| 人人爱天天做夜夜爽| 国内毛片视频| 丰满人妻久久中文字幕| 伊人久久大香线蕉影院| 欧美日韩在线国产| 色哟哟色院91精品网站| 99视频在线观看免费| 久久精品亚洲热综合一区二区| 婷婷激情五月网| 亚洲精品国产精品乱码不卞 | 欧美成人午夜在线全部免费| 精品国产三级在线观看| 免费人成又黄又爽的视频网站| 国产精品自在在线午夜| 热re99久久精品国99热| 亚洲狼网站狼狼鲁亚洲下载| 国产新AV天堂| 亚洲成A人V欧美综合| 久久久精品久久久久三级| 色视频国产| 白浆免费视频国产精品视频| 黄色在线不卡| 狠狠干综合| 综合色88| 久久这里只有精品23| 欧美日本在线观看| 亚洲综合婷婷激情| 国产国拍精品视频免费看| 亚洲日韩每日更新| 五月婷婷精品| 日韩欧美高清视频| 五月天综合婷婷| 亚洲精品国偷自产在线91正片| 日本免费一区视频| 成人在线亚洲| 亚洲日韩图片专区第1页| 国产第一福利影院| 亚洲人网站| 人妻丰满熟妇αv无码| 在线无码九区| 久久国产高清视频| 国产一区二区精品高清在线观看| 久久6免费视频| 午夜精品一区二区蜜桃| 亚洲无线国产观看| 日本人妻一区二区三区不卡影院| 欧美日韩成人在线观看| 五月婷婷激情四射| 亚洲人在线| 丰满少妇αⅴ无码区| 操国产美女| 91精品国产一区| 亚洲欧洲一区二区三区| 亚洲AV无码乱码在线观看代蜜桃 | 韩日午夜在线资源一区二区| 色婷婷国产精品视频| 日本一区二区不卡视频| 国产福利大秀91| 国产免费高清无需播放器| 国产精品第一区| 日韩a级毛片| 97青草最新免费精品视频| AV熟女乱| 亚洲成人播放| 免费无码AV片在线观看国产| 88av在线| 最新日本中文字幕| 亚洲国产日韩在线成人蜜芽| 激情乱人伦| 亚洲精品自在线拍| 久久超级碰| 亚洲国模精品一区| 一级做a爰片久久毛片毛片| 国产91精品调教在线播放| 播五月综合| 亚洲天堂网在线观看视频| 无码'专区第一页| 婷婷中文在线|