999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹算法的CCT成績分析方法探討

2015-11-19 07:29:43廣州工商學院
當代教育實踐與教學研究 2015年10期
關鍵詞:數據挖掘數據庫信息

廣州工商學院 陳 雪

基于決策樹算法的CCT成績分析方法探討

廣州工商學院 陳 雪

本文主要介紹基于數據挖掘決策樹技術的學生成績分析的實現過程,使用學生的真實考試數據,進行數據預處理后應用算法構造決策樹。提取分類規則,通過計算規則的準確率與覆蓋率對規則進行約簡,從而挖掘有價值的規則。最后利用該分類規則,預測學生能否通過等級考試。研究結果表明,決策樹預測準確率高,能挖掘出影響學生通過CCT考試的關鍵因素,對計算機基礎課程教學有一定指導作用。

數據挖掘 決策樹 CCT 成績分析

全國高等學校計算機水平考試(College Computer Test,簡稱CCT),是經全國各省、市、自治區教委(教育廳)第八屆高教處長聯席會議協議,從1997年舉行,由教育部所屬全國各省、市、自治區教委(教育廳)組織,測試高等學校在校學生計算機應用知識與能力的全國統一標準的權威考試。這項考試制度實施至今,已得到廣東省普通高校和用人單位的廣泛認可,受到學生的高度重視。

筆者所在院校組織學生參加CCT考試已有十幾年時間,積累了大量的CCT相關數據。本文對筆者所在院校2014級學生參加全國高校計算機等級考試數據使用數據挖掘技術中的決策樹算法進行了分析,該方法首先收集大量數據,通過數據預處理得到適合的訓練樣本和檢測樣本,利用軟件構造出決策樹,通過對決策樹分析得到有價值的信息,并對決策樹模型的風險進行評估。決策樹方法分類精準,預測準確率高,為了更好地指導學生順利通過考試,挖掘大量數據背后所隱藏的對教學潛在有用信息,并據此對教學進行有針對性改革,是十分有必要的。

一、數據挖掘概述

1.數據挖掘定義。數據挖掘(Data mining)是從龐大的數據庫里,通過對不完全、有噪聲、模糊、隨機的數據處理,提取出隱藏在其中不被發現,但又很有利用價值的信息。數據挖掘是一個完整的、不斷完善的數據發現過程,可以對大型數據庫不斷挖掘、進行算法優化,提取有效信息,并通過信息分析做出決策。

數據挖掘是數據庫技術、情報檢索、數理統計、專家系統、機器學習、模式識別與人工智能等的有機結合,廣泛應用于教育教學、金融銷售、電信電力、生物醫學等各領域。數據挖掘的核心算法主要有決策樹算法、統計分析法、分類規則、遺傳算法、聚類算法等,其中決策樹算法以直觀性強、數據分析率高的優點而經常用于教學管理中。

2.決策樹算法。決策樹方法利用信息增益來找尋數據庫中具有最大信息量的字段,用以建立決策樹的某個結點,然后再根據該字段的不同取值來建立樹的分支,重復這個過程最終建立樹的下層結點和分支。決策樹方法可以使數據規則變得可視化,構造過程時間并不需要很長,雖然實際應用中決策樹可能表現得很復雜,但從根結點到葉子結點的每一條路徑仍然易于理解。這種易于理解性是決策樹的一個顯著的優點,所以決策樹方法能在知識發現系統中得到較廣泛的應用。

決策樹算法通過一系列規則對數據進行分類,思路在于從訓練樣本中,自動地構造出決策樹,根據這個決策樹再對任意實例進行檢測。決策樹的主要優點在于樹狀結構的決策樹分類模型,采用自頂向下的遞歸方式,簡單直觀的產生一個類似于流程圖的樹形結構,可以在根節點和各內部節點上分別選擇合適的描述屬性,并根據屬性的取值不同至上向下建立分枝。

3.決策樹算法應用

(1)挖掘準備工作

①數據采集。我院2014級學生是此次數據挖掘的對象,在挖掘中要注意深挖出和結論可能存在聯系的隱藏數據,在學生相關信息中找到有價值的內容,方便于決策樹的構造。在數據收集中主要獲得了以下三類數據:

第一,學生基本數據,包括學號、姓名、籍貫、年齡、性別、所屬院系、專業、班級,可以通過我院的學生學籍信息管理系統獲得。教師設計問卷調查表,對學生的電腦基礎、興趣愛好、是否預習、是否復習、是否宿舍有電腦等這一類輔助信息進行收集,注意問卷設計上要多選擇少填寫以規范數據格式。

第二,學生學習狀態數據,包含學生的學習態度和過程化考核成績信息,例如學生考勤信息、作業完成情況、期中考試成績、模擬考試成績等。信息的獲取來至于學生考勤表、學生平時成績登記冊、模擬考試成績細分表。其中成績細分表包含有學生在平時測試中的各章節各知識點得分情況。

第三,考試成績數據,包括學號、姓名、成績、科目、專業、班級、準考生號等,通過省考試中心的成績反饋文件獲取。

②數據預處理

根據采集到的數據特點,在挖掘之前要對其進行數據預處理工作,通過數據轉換來得到適合挖掘模型的數據,這一過程由數據集成、數據消減、數據清理、數據轉換構成,其工作量較大,需要占據挖掘過程的60%以上。

第一,數據集成。將采集得到的多個數據文件利用數據庫技術整合,建立起復雜大型的CCT考試成績分析數據庫。

第二,數據消減。通過數據集成建立起的CCT考試成績分析數據庫數據量大,數據結構復雜,但并不是所有的數據都有意義,應該根據實際需求挑選出有價值的的數據,來縮小數據庫的規模,要注意消減操作不能影響到知識獲取。對于數據挖掘工作來說沒有價值的一類數據,如學生學號、姓名、籍貫、年齡、所屬院系、班級、科目、準考證號等字段,要將其刪除,通過此步驟得到新的數據表。

第三,數據清理。在教師收集學生問卷調查時,由于學生的配合度不一,可能會得到某些不合格的數據,或在一些選項中存在遺漏,需要進行數據清理。對一些單項或少量統計不全的記錄,可以使用同類樣本的平均值來進行替換空缺選項。例學生問卷調查表中如果有某條記錄的“電腦基礎”、“是否宿舍有電腦”等信息為空時,可以綜合該班其他學生的該項平均值記錄來進行人工填補;如果存在無法填補或有較大錯誤的記錄,可以直接刪除,例如缺考學生的數據、未提交問卷調查的學生數據。

第四,數據轉換。數據清理之后,要把數據轉換以成數據挖掘所需要的形式。在收集到的數據中,很多類別的數據都很具體,如平時考勤信息、作業完成情況、模擬考試成績、CCT成績等,對于挖掘過程來說工作量過大,需要將數值泛化為離散的區間來處理有些數據之間存在語義模糊,需要進行信息缺陷處理,得到規范的數據表述。

考試分數。由于成績細分表中各章的分數占比都不同,為統一標準需進行百分制轉換,轉換的公式為:各章轉換得分=(各章得分÷各章總分)×100。接下來對所有分數離散化處理,按照以下五個等級劃分成績:0-44分為差,45-59分為較差,60-74為中等,75-84分為良好,大于等于85分為優秀。

考勤信息、作業完成情況。對以考勤信息、作業完成情況這類以次數表達的信息,也可按完成情況進行離散化處理并劃分成五個等級。

興趣愛好。興趣愛好屬于字典項數據,如果按學生所填信息將很難處理,將這一項目也泛化處理為五大類,包括閱讀、運動、藝術、上網、游戲。

(2)進行數據挖掘

本次挖掘的目的是從參加CCT成績的合格和不合格兩大類中去找出各類的重要影響因素和有用規則,采用了決策樹的CRT算法。具體實現時,使用SPSS軟件把數據調入分析系統,設置CCT考試成績評價為因變量,設置其他經過預處理的數據為自變量。采用隨機拆分樣本抽取數據方式,隨機抽取出80%的數據作為訓練樣本使用,剩余的20%數據作為檢驗樣本。基于本研究的數據樣本集和挖掘的需要,在最小個案數中,父節點最小設為60,子節點最小設為25,通過軟件分析系統輸出訓練樣本的決策樹。

(3) 數據分析評價

對得到的訓練樣本決策樹進行分析,可以看出盡管學生信息復雜,存在較大差異,但不合格學生的決策樹模型具有一定相似性,表現為宿舍里沒有電腦、出勤率差、平時成績差、學習習慣不好、EXCEL得分差、喜歡玩游戲。宿舍里有電腦、出勤率高、EXCEL得分優秀、業余愛好閱讀的學生合格率高。Excel題為關鍵性題型,Excel學習情況的好壞對通過與否影響較大。此結論對教師教學來說具有較強的指導意義。

實際操作中,對訓練樣本和檢測樣本進行測試,得到的分類準確率分別為86%和81%,處于合理區間范圍,對教學具有一定的指導意義。

構建決策樹反饋的評價模型風險表如下表所示:

評價模型風險表

從風險表的反饋數據來看,訓練樣本模型將不合格誤判為合格的個案錯判率為9.6%;檢測樣本模型的個案錯判率為10.8%。構建的模型風險可以接受,處于良好可控范圍,從技術層面上講,說明本研究采用決策樹CRT算法是可行的。訓練樣本建立模型的標準誤差為0.012,檢測樣本建立模型的標準誤差為0.016,根據偶然誤差的高斯理論,結合概率統計相關的知識,上述誤差值處于低位,說明系統在構建的模型時,具有一定的可靠性。

總之,數據挖掘技術是一種數據的深層次分析方法,通常通過長期對數據庫進行研究和開發才可獲得成果。人類往往只使用到低層次的簡單查詢操作,通過數據挖掘可以提高到從數據中挖掘有價值信息,提供分析預測依據、干預決策支持等高級應用中來。將其運用到CCT成績分析后,能提高工作效率,在預測學生通過情況時具有較高的準確率,風險程度處于良好可控范圍。需要注意的是,教師在利用該方法分析學生成績時應注重數據挖掘流程的設計安排,特別著重于選擇對挖掘有用的數據資源,以保證結果真實可靠。

[1]毛國軍.數據挖掘原理與算法[M].北京:清華大學出版社,2005

[2]Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2001

[3]劉志嫵.基于決策樹算法的學生成績的預測分析[J].計算機應用與軟件,2012

[4]曾 旭,司馬宇.一種基于ID3的計算機等級考試成績分析方法[J].遵義師范學院學報,2013

[5]陳瀟瀟.數據挖掘技術在高校學生成績分析中的應用研究[J].科技風,2013

[6]吳鐵洲,曾藝師.決策樹分類算法在教學評估中的應用[J].中國高等教育評估,2013

ISSN2095-6711/Z01-2015-10-0247

猜你喜歡
數據挖掘數據庫信息
探討人工智能與數據挖掘發展趨勢
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 2020国产精品视频| 伊人查蕉在线观看国产精品| 精品国产aⅴ一区二区三区| 91黄色在线观看| 亚洲欧美日韩色图| 国产毛片片精品天天看视频| 国产亚洲精久久久久久无码AV| 国产区免费精品视频| 国产日本一线在线观看免费| 国产伦片中文免费观看| 国产成人无码AV在线播放动漫 | 国产成人综合日韩精品无码首页 | 国产精品 欧美激情 在线播放| 亚洲国产综合精品一区| 免费A∨中文乱码专区| 亚洲最新地址| 国产草草影院18成年视频| 国产成a人片在线播放| 午夜少妇精品视频小电影| 强奷白丝美女在线观看| 亚洲IV视频免费在线光看| 国产免费观看av大片的网站| 日韩经典精品无码一区二区| 奇米精品一区二区三区在线观看| 热思思久久免费视频| 人妻精品久久久无码区色视| 欧美不卡视频一区发布| 国产精品女熟高潮视频| 成人午夜视频网站| av免费在线观看美女叉开腿| 国产精品视频猛进猛出| 综合色在线| 日韩资源站| 国产导航在线| 国产本道久久一区二区三区| 国产欧美视频在线| 首页亚洲国产丝袜长腿综合| 亚洲国产理论片在线播放| 久久国产亚洲欧美日韩精品| 91亚洲免费| 亚洲精品视频网| 成人在线不卡| 亚欧成人无码AV在线播放| 亚洲一区二区三区香蕉| 91欧洲国产日韩在线人成| 成人精品在线观看| 手机看片1024久久精品你懂的| 99re热精品视频国产免费| 亚洲欧美一区二区三区麻豆| 国产亚洲高清视频| 奇米影视狠狠精品7777| 欧美日本视频在线观看| 无码精品国产VA在线观看DVD| 亚洲高清免费在线观看| 日韩欧美中文在线| 亚洲欧洲日产国码无码av喷潮| 日韩国产高清无码| 午夜精品久久久久久久99热下载| 久久综合五月| 99精品福利视频| av在线人妻熟妇| 九九九国产| 亚洲伦理一区二区| 色噜噜综合网| 成人午夜精品一级毛片| 国产极品粉嫩小泬免费看| 亚洲无码四虎黄色网站| 老司机午夜精品视频你懂的| 国产经典免费播放视频| 日本91在线| 亚瑟天堂久久一区二区影院| 亚洲第一香蕉视频| 操美女免费网站| 熟妇丰满人妻av无码区| 国产人成网线在线播放va| 国产精品人成在线播放| 久久免费观看视频| 伊人91视频| 久久国产高潮流白浆免费观看| 草草影院国产第一页| 99热这里只有精品在线观看| 欧美精品导航|