999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下數據挖掘課程實踐教學改革與探索

2017-10-16 07:01:55魯江坤重慶人文科技學院計算機工程學院
新商務周刊 2017年4期
關鍵詞:數據挖掘實驗課程

文/魯江坤,重慶人文科技學院 計算機工程學院

大數據背景下數據挖掘課程實踐教學改革與探索

文/魯江坤,重慶人文科技學院 計算機工程學院

大數據背景;數據挖掘實踐教學;WEKA 工具

1 引 言

近年來,隨著大數據與移動互聯網、物聯網和云計算等新興信息技術的深度融合,以及大數據在各行各業的創新應用,大數據已經引起科技界、產業界和政府的高度關注[1-5]。大數據隱含著巨大的社會、經濟及科研價值。因此,通過有效地組織和應用大數據,建立“用數據說話、用數據決策、用數據管理、用數據創新”的管理機制,將極大地推動社會經濟和科學研究發展。其中,大數據分析與挖掘技術,作為探測數據價值的關鍵手段,是大數據研究與應用的核心[5-6]。同時,各行各業的數據科學與工程專業人才需求呈現爆發式增長。

到2017年為止,目前已有兩批35高校申請了數據科學與大數據技術專業。在上述背景下,高校計算機類本科專業開設數據挖掘課程是十分必要,且具有重要意義。通過數據挖掘課程學習,可以掌握數據預處理、關聯規則、分類、聚類、可視化等技術,培養學生的計算思維能力,提高學生實踐能力與創新應用能力,幫助學生形成科學思維和專業素養。但是,數據挖掘是一門具有前沿性、實踐性較強的交叉學科課程,其內容主要涉及人工智能、數據庫和統計學等多學科知識,從而導致數據挖掘課程存在教學難度大、理論教學過多、學習興趣難以提高等問題[7]。

2 數據挖掘實踐教學軟件分類

在數據挖掘實踐教學中,選擇合適的數據挖掘工具是非常重要的。現有的數據挖掘工具可分為商用數據挖掘工具和開源數據挖掘工具兩大類。其中,商用數據挖掘工具包括IBM 公司Intelligent Miner、Microsoft公司SQL Server Analysis Services、SPSS 公司Clementine、SAS公司Enterprise Miner等。但是,這些商用挖掘工具價格較高,且不能進行二次開發。因此,目前數據挖掘實驗教學大多采用開源數據挖掘工具。開源數據挖掘工具主要包括WEKA(Waikato Environment for Knowledge Analysis)、RapidMiner、NLTK(Natural Language Toolkit)、KNIME(KonstanzInformation Miner)和R- programming 等。其中,在2005年8月召開第11屆ACM SIGKDD國際會議上,懷卡托大學WEKA 小組榮獲數據挖掘和知識發現領域的最高服務獎。

另外,實驗數據是數據挖掘實踐教學順利開展的關鍵。在具體教學的過程中選擇教材為《數據挖掘實用案例分析》,配套相應的案例進行實踐教學,部分實驗數據來自教材配套光盤,部分實驗選擇TipDM來完成實驗。對于數據挖掘實驗來說,還有一些數據集來自于用于數據挖掘實驗的標準數據集主要來自于加州大學歐文分校(University of California,Irvine)公開提供的UCI機器學習數據集(http://archive.ics.uci.edu/ml/)。由于WEKA自帶23個示例數據集,WEKA 可作為數據挖掘實踐教學的首選工具,同時也支持學生選擇其它開源工具。

3 WEKA 數據挖掘實驗項目設置

整個教學的過程中選擇的是WEKA3.8.1版本。作為數據挖掘開源工具,WEKA 匯集了最前沿的機器學習算法、數據預處理工具以及數據可視化圖形用戶界面,WEKA 主界面稱為WEKA GUI選擇器,通過Explorer(探索者)、KnowledgeFlow(知識流)、Experimenter(實驗者)和Simple CLI(簡單命令行)、workbench等按鈕提供5種主要應用程序,并供用戶選擇。WEKA可以讀取ARFF、CSV和C4.5等格式的數據文件,并支持JDBC 訪問的各種數據庫。ARFF(Attribute- Relation File Format)是一種WEKA 專用文件格式。ARFF 文件是ASCII 文本文件,用于描述共享一組屬性(Attribute)結構的實例(Instance)二維表,表格中的行、列分別稱作一個實例和一個屬性。WEKA自帶23個ARFF 文件位于安裝目錄的data 子目錄下,可作為測試用示例數據集。WEKA 支持標稱型(nominal)、數值型(numeric)、字符串(string)、日期型(date)和關系型(relational)等5 種數據類型。另外,WEKA 還支持通過JDBC將數據庫字段類型映射到Java語言數據類型。

數據挖掘是一門與實際應用緊密結合且實踐性較強的課程。實踐教學環節中,首先教師詳細講解實驗步驟,然后安排學生進行實驗,并對實驗結果做詳細分析與評價。為了提高學生實踐應用能力,數據挖掘理論課和實驗課學時通常按2:1 分配。

?

4 WEKA 數據挖掘實踐教學示例

下面通過一個實踐教學示例介紹數據挖掘中決策樹分類C4.5算法,并通過WEKA 工具從實驗數據集中挖掘有用的規則或知識。

4.1 C4.5分類器實驗準備

示例中C4.5分類器實驗教學準備主要包括選用實驗數據集、掌握決策樹分類C4.5算法和掌握WEKA工具中Classify面板上測試模式用法等。

(1)選用實驗數據集。實驗數據集選取教材中配套的數據肝癌預測樣本數據.xls,實驗之前需要將其轉為.csv格式。該數據集包含300 個樣本和11個屬性,其中描述屬性10個,類別屬性1個,類別屬性DECISion包含是否復發兩個值。

(2)掌握決策樹分類C4.5算法。WEKA工具中J48是基于C4.5算法實現的決策樹分類法,其分類性能可通過系列參數設置來優化,如圖1(a)所示。

(3)掌握Classify 面板上測試模式用法。

WEKA工具支持4 種測試模式(Test options),一是“Use training set”,即直接將訓練集樣本用于測試,評估分類器預測性能;二是“Suppliedtest set”,即從一個文件中加載一組樣本,評估分類器預測性能;三是“Cross-validation”,即通過交叉驗證評價分類器,可在“Folds”文本框中輸入交叉驗證的折數;四是“Percentage split”,即取指定百分比的樣本用于訓練,其余樣本用于測試,評估分類器預測性能。

4.2 C4.5分類器實驗步驟

示例中C4.5分類器實驗步驟主要包括加載肝癌預測數據集、選擇并設置C4.5分類器、設置分類測試選項、構建和評估C4.5分類器、決策樹模型可視化顯示等。具體步驟如下:

(1)加載肝癌預測數據集:在WEKA 預處理面板中單擊“Open file”按鈕,選擇并打開data 目錄中的相應.csv格式的數據;

(2)選擇并設置C4.5分類器:首先單擊Classify選項切換到Classify面板;然后單擊Classify面板上部的Choose按鈕打開對話框,并單擊trees條目并展開子條目;最后單擊J48選擇C4.5分類器及默認參數設置“J48-C0.25-M 2”。注意:該步驟要求學生認真觀察、分析C4.5分類器參數設置。

(3)設置分類測試選項:從單擊Classify面板中“Test options”選擇Use training test選項,以確定測試策略;提醒學生可以嘗不同測試模式的效果。

(4)構建和評估C4.5分類器:單擊Classify 面板中Start按鈕,通過訓練集構建C4.5分類器,然后對所有訓練樣本進行分類來評估性能,并在Classify面板右側“Classifier output”區域顯示訓練和測試結果的文字描述。注意:該步驟要求學生仔細觀察、分析分類器輸出的文字描述。

(5)重復(1)~(4),如果更改數據集、重設分類器選項或調整測試選項,每次單擊Start 按鈕,都會構建和評估一個新分類器,并在Classify 面板左下角的“Result List”上添加相應的新條目。

(6)決策樹模型可視化顯示:在Classify 面板中單擊右鍵“Result List”中“trees.J48”條目,在彈出菜單中選擇“Visualize tree”菜單項,學生能夠非常清楚的看出結果的可視化效果。

采用WEKA工具實施數據挖掘實驗過程中,要打破驗證實驗方式。針對數據收集整理、數據挖掘實施、結果顯示及分析等每一個步驟,學生必須自主制定實驗方案,自主完成實驗。特別是在實施WEKA數據挖掘前,學生要清楚了解相關算法原理、各種參數含義以及對數據要求等。例如,本示例中學生要了解以下4個問題:(1)如何控制分類樹的精度;(2)如何處理不完整數據;(3)如何對連續屬性進行離散化;(4)如何在決策樹構造過程中進行剪枝。同時,教師在學生實施挖掘實驗時要加強巡視,對算法中參數設置、數據要求等可能出現的問題要及時啟發提示、釋疑, 并引導學生實施參數調整,查看其對挖掘結果的影響。

5 結論

數據挖掘是一門理論與實踐并重且涉及多學科的交叉學科課程,本科教學應當培養學生計算思

維能力,側重學生的實踐應用能力。WEKA 是用Java 開發的數據挖掘著名開源軟件,在開源數據挖掘工具WEKA 平臺上進行了數據挖掘算法實驗、測試、分析和二次開發,可以獲得更好的教學效果。另外,WEKA 安裝目錄中有幾個文件值得關注:WekaManual.pdf 是WEKA 用戶手冊;weka-src.jar 是打包源程序,可以解壓供學生學習、研究和分析相關數據挖掘與機器學習算法源代碼;RunWeka.ini是運行WEKA 的配置文件。

[1]陳恩紅,于劍.大數據分析專刊前言[J].軟件學報,2014,25(9):1887-1888.

[2]吳信東,葉明全,胡東輝,等.普適醫療信息管理與服務的關鍵技術與挑戰[J].計算機學報,2012,35(5):1-19.

[3]周慶,牟超,楊丹.教育數據挖掘研究進展綜述[J].軟件學報,2015,26(11):3026-3042.

[4]寧康,陳挺.生物醫學大數據的現狀與展望[J].科學通報,2015,60(5/6):534-546.

[5]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.

[6]梁吉業,錢宇華,李德玉,等.大數據挖掘的粒計算理論與方法[J].中國科學:信息科學,2015,45(11):1355-1369.

[7]黃嵐.數據挖掘課程實踐教學資源庫建設[J].計算機教育,2014(12):89-92.

隨著大數據與移動互聯網、物聯網、云計算等新興信息技術的深度融合,以及大數據在各行各業的創新應用,在計算機類專業本科生中開設數據挖掘課程變得十分重要。然而,數據挖掘是一門理論與實踐并重且涉及多學科的交叉學科課程,導致本科生學習該課程面臨較大難度和挑戰。因此,培養學生計算思維及實踐應用能力,并讓他們體驗實踐教學對完成教學目標尤為重要。本文重點討論以開源數據挖掘工具WEKA 為平臺進行實踐教學的思路,并給出WEKA 數據挖掘實踐教學實例。

編號:16CRKXJ11,名稱:以項目驅動的《數據挖掘》課程改革的實踐探索,重慶人文科技學院校級項目研究成果。

猜你喜歡
數據挖掘實驗課程
記一次有趣的實驗
數字圖像處理課程混合式教學改革與探索
探討人工智能與數據挖掘發展趨勢
軟件設計與開發實踐課程探索與實踐
計算機教育(2020年5期)2020-07-24 08:53:38
為什么要學習HAA課程?
做個怪怪長實驗
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 欧美成在线视频| 久久久久青草线综合超碰| 又黄又湿又爽的视频| 中文字幕在线日本| 久久香蕉欧美精品| 91麻豆精品视频| 色婷婷亚洲综合五月| 99尹人香蕉国产免费天天拍| 国产va欧美va在线观看| 国产人免费人成免费视频| 国产69精品久久久久孕妇大杂乱 | 国产成人免费手机在线观看视频| 国产欧美日韩综合一区在线播放| 国产亚洲欧美在线中文bt天堂 | 国产伦片中文免费观看| 久久国产拍爱| 丝袜无码一区二区三区| 精品一区二区三区视频免费观看| 久久久久久高潮白浆| 内射人妻无套中出无码| 五月天福利视频| 国产福利不卡视频| 日韩精品无码免费一区二区三区| 综合天天色| 无码粉嫩虎白一线天在线观看| 欧美在线视频a| 久久人妻xunleige无码| 日韩人妻少妇一区二区| 日本久久免费| 亚洲成A人V欧美综合天堂| 一级毛片基地| 97综合久久| 欧美一区二区三区国产精品| 熟妇丰满人妻| 三上悠亚一区二区| 亚洲精品无码久久久久苍井空| 国产成人精品男人的天堂| 91久久大香线蕉| 国产日韩AV高潮在线| 亚洲码一区二区三区| 全色黄大色大片免费久久老太| 精品国产91爱| www.youjizz.com久久| 免费观看精品视频999| 欧美综合成人| 国产97视频在线| 国产综合欧美| 国产欧美成人不卡视频| 97成人在线视频| 欧美日韩另类国产| 久久熟女AV| 日韩成人免费网站| 91精品视频播放| 日韩小视频在线播放| 国产精品99r8在线观看| 国产在线观看高清不卡| 欧洲高清无码在线| 国产成人精品亚洲77美色| 五月婷婷综合网| 国产办公室秘书无码精品| 中文成人在线| 99人妻碰碰碰久久久久禁片| 亚洲成人黄色在线观看| 一本大道无码日韩精品影视| 中文字幕 91| 午夜精品一区二区蜜桃| 精品视频在线观看你懂的一区 | 亚洲男人天堂久久| 国产剧情伊人| 久草视频精品| 特级毛片8级毛片免费观看| 国产黄色视频综合| 亚洲国产精品无码久久一线| a毛片基地免费大全| 中文字幕 欧美日韩| 国产簧片免费在线播放| 亚洲人成网站日本片| 97在线免费视频| 白浆免费视频国产精品视频| 99久久精品国产自免费| jizz在线观看| 2020亚洲精品无码|