999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下數據挖掘課程實踐教學探索

2016-11-22 10:11:24葉明全黃道斌盧小杰胡天寒
池州學院學報 2016年6期
關鍵詞:數據挖掘實驗學生

葉明全,黃道斌,盧小杰,胡天寒

(皖南醫學院計算機教研室,安徽蕪湖241002)

近年來,隨著大數據與移動互聯網、物聯網和云計算等新興信息技術的深度融合,以及大數據在各行各業的創新應用,大數據已經引起科技界、產業界和政府的高度關注[1-5]。大數據隱含著巨大的社會、經濟及科研價值。因此,通過有效地組織和應用大數據,建立“用數據說話、用數據決策、用數據管理、用數據創新”的管理機制,將極大地推動社會經濟和科學研究發展。其中,大數據分析與挖掘技術,作為探測數據價值的關鍵手段,是大數據研究與應用的核心[5-6]。同時,各行各業的數據科學與工程專業人才需求呈現爆發式增長。在上述背景下,高校計算機與信息類本科專業開設數據挖掘課程是十分必要,且具有重要意義。通過數據挖掘課程學習,可以掌握數據預處理、關聯規則、分類、聚類、可視化等技術,培養學生的計算思維能力,提高學生實踐能力與創新應用能力,幫助學生形成科學思維和專業素養。但是,數據挖掘是一門具有前沿性、實踐性較強的交叉學科課程,其內容主要涉及人工智能、數據庫和統計學等多學科知識,從而導致數據挖掘課程存在教學難度大、理論教學過多、學習興趣難以提高等問題[7]。

1 數據挖掘實踐教學軟件分類

在數據挖掘實踐教學中,選擇合適的數據挖掘工具是非常重要的。現有的數據挖掘工具可分為商用數據挖掘工具和開源數據挖掘工具兩大類。其中,商用數據挖掘工具包括IBM公司Intelligent Miner、Microsoft公司SQL Server Analysis Services、SPSS公司Clementine、SAS公司Enterprise Miner等。但是,這些商用挖掘工具價格較高,且不能進行二次開發。因此,目前數據挖掘實驗教學大多采用開源數據挖掘工具。

開源數據挖掘工具主要包括WEKA(Waikato Environment for Knowledge Analysis)、RapidMiner、NLTK(Natural Language Toolkit)、KNIME(Konstanz Information Miner)和R-programming等,如表1所示。其中,在2005年8月召開第11屆ACM SIGKDD國際會議上,懷卡托大學WEKA小組榮獲數據挖掘和知識發現領域的最高服務獎。

另外,實驗數據是數據挖掘實踐教學順利開展的關鍵。目前,用于數據挖掘實驗的標準數據集主要來自于加州大學歐文分校(University of California,Irvine)公開提供的UCI機器學習數據集(http:// archive.ics.uci.edu/ml/)。由于WEKA自帶23個示例數據集[10],WEKA可作為數據挖掘實踐教學的首選工具,同時也支持學生選擇其它開源工具。

表1 開源數據挖掘工具分類

2 WEKA數據挖掘實驗項目設置

作為數據挖掘開源工具,WEKA匯集了最前沿的機器學習算法、數據預處理工具以及數據可視化圖形用戶界面,WEKA主界面稱為WEKA GUI選擇器,通過Explorer(探索者)、KnowledgeFlow(知識流)、Experimenter(實驗者)和Simple CLI(簡單命令行)等按鈕提供4種主要應用程序,并供用戶選擇。

WEKA可以讀取ARFF、CSV和C4.5等格式的數據文件,并支持JDBC訪問的各種數據庫。ARFF(Attribute-Relation File Format)是一種WEKA專用文件格式。ARFF文件是ASCII文本文件,用于描述共享一組屬性(Attribute)結構的實例(Instance)二維表,表格中的行、列分別稱作一個實例和一個屬性。WEKA自帶23個ARFF文件位于安裝目錄的data子目錄下,可作為測試用示例數據集。WEKA支持標稱型(nominal)、數值型(numeric)、字符串(string)、日期型(date)和關系型(relational)等5種數據類型。另外,WEKA還支持通過JDBC將數據庫字段類型映射到Java語言數據類型。

表2 WEKA數據挖掘實踐教學內容

數據挖掘是一門與實際應用緊密結合且實踐性較強的課程。實踐教學環節中,首先教師詳細講解實驗步驟,然后安排學生進行實驗,并對實驗結果做詳細分析與評價。為了提高學生實踐應用能力,數據挖掘理論課和實驗課學時通常按1:1分配。WEKA軟件環境下數據挖掘實踐教學內容具體安排如表2所示。

3 WEKA數據挖掘實踐教學示例

下面通過一個實踐教學示例介紹數據挖掘中決策樹分類C4.5算法,并通過WEKA工具從實驗數據集中挖掘有用的規則或知識。

3.1 WEKA系統中C4.5分類器實驗準備

示例中C4.5分類器實驗教學準備主要包括選用實驗數據集、掌握決策樹分類C4.5算法和掌握WEKA工具中Classify面板上測試模式用法等。

(1)選用實驗數據集。實驗數據集選取WEKA系統中糖尿病數據集(diabetes.arff)。該數據集包含768個樣本和9個屬性,其中描述屬性8個,類別屬性1個,類別屬性class包含“tested_negative”和“tested_positive”兩個值。

(2)掌握決策樹分類C4.5算法。WEKA工具中J48是基于C4.5算法實現的決策樹分類法,其分類性能可通過系列參數設置來優化,如圖1(a)所示。

(3)掌握Classify面板上測試模式用法。WEKA工具支持4種測試模式(Test options),如圖1 (b)所示:一是“Use training set”,即直接將訓練集樣本用于測試,評估分類器預測性能;二是“Supplied test set”,即從一個文件中加載一組樣本,評估分類器預測性能;三是“Cross-validation”,即通過交叉驗證評價分類器,可在“Folds”文本框中輸入交叉驗證的折數;四是“Percentage split”,即取指定百分比的樣本用于訓練,其余樣本用于測試,評估分類器預測性能,可在“%”文本框中輸入值。

3.2 WEKA系統中C4.5分類器實驗步驟

示例中C4.5分類器實驗步驟主要包括加載糖尿病數據集、選擇并設置C4.5分類器、設置分類測試選項、構建和評估C4.5分類器、決策樹模型可視化顯示等。具體步驟如下:

(1)加載糖尿病數據集:在WEKA預處理面板中單擊“Open file”按鈕,選擇并打開data目錄中的diabetes.arff文件;

(2)選擇并設置C4.5分類器:首先單擊Classify選項切換到Classify面板;然后單擊Classify面板上部的Choose按鈕打開對話框,并單擊trees條目并展開子條目;最后單擊J48選擇C4.5分類器及默認參數設置“J48-C 0.25-M 2”。注意:該步驟要求學生認真觀察、分析C4.5分類器參數設置(如圖1(a)所示)。

(3)設置分類測試選項:從單擊Classify面板中“Test options”選擇Use training test選項,以確定測試策略。注意:該步驟要求學生分析分類器4種測試模式。

圖1 WEKA工具中C4.5分類器操作界面

(4)構建和評估C4.5分類器:單擊Classify面板中Start按鈕,通過訓練集構建C4.5分類器,然后對所有訓練樣本進行分類來評估性能,并在Classify面板右側“Classifier output”區域顯示訓練和測試結果的文字描述,如圖1(b)所示。注意:該步驟要求學生仔細觀察、分析分類器輸出的文字描述。

(5)重復(1)~(4),如果更改數據集、重設分類器選項或調整測試選項,每次單擊Start按鈕,都會構建和評估一個新分類器,并在Classify面板左下角的“Result List”上添加相應的新條目。

(6)決策樹模型可視化顯示:在Classify面板中單擊右鍵“Result List”中“trees.J48”條目,在彈出菜單中選擇“Visualize tree”菜單項,將彈出如圖2所示的決策樹可視化窗口,該視圖可以自由縮放和平移。

圖2 C4.5算法構建的決策樹視圖

采用WEKA工具實施數據挖掘實驗過程中,要打破驗證實驗方式。針對數據收集整理、數據挖掘實施、結果顯示及分析等每一個步驟,學生必須自主制定實驗方案,自主完成實驗。特別是在實施WEKA數據挖掘前,學生要清楚了解相關算法原理、各種參數含義以及對數據要求等。例如,本示例中學生要了解以下4個問題:(1)如何控制分類樹的精度;(2)如何處理不完整數據;(3)如何對連續屬性進行離散化;(4)如何在決策樹構造過程中進行剪枝。同時,教師在學生實施挖掘實驗時要加強巡視,對算法中參數設置、數據要求等可能出現的問題要及時啟發提示、釋疑,并引導學生實施參數調整,查看其對挖掘結果的影響。

4 結論

數據挖掘是一門理論與實踐并重且涉及多學科的交叉學科課程,本科教學應當培養學生計算思維能力,側重學生的實踐應用能力。WEKA是用Java開發的數據挖掘著名開源軟件,在開源數據挖掘工具WEKA平臺上進行了數據挖掘算法實驗、測試、分析和二次開發,可以獲得更好的教學效果。另外,WEKA安裝目錄中有幾個文件值得關注:WekaManual.pdf是WEKA用戶手冊;weka-src.jar是打包源程序,可以解壓供學生學習、研究和分析相關數據挖掘與機器學習算法源代碼;RunWeka.ini是運行WEKA的配置文件。

[1]陳恩紅,于劍.大數據分析專刊前言[J].軟件學報,2014,25 (9):1887-1888.

[2]吳信東,葉明全,胡東輝,等.普適醫療信息管理與服務的關鍵技術與挑戰[J].計算機學報,2012,35(5):1-19.

[3]周慶,牟超,楊丹.教育數據挖掘研究進展綜述[J].軟件學報,2015,26(11):3026-3042.

[4]寧康,陳挺.生物醫學大數據的現狀與展望[J].科學通報, 2015,60(5/6):534-546.

[5]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.

[6]梁吉業,錢宇華,李德玉,等.大數據挖掘的粒計算理論與方法[J].中國科學:信息科學,2015,45(11):1355-1369.

[7]黃嵐.數據挖掘課程實踐教學資源庫建設[J].計算機教育, 2014(12):89-92.

猜你喜歡
數據挖掘實驗學生
記一次有趣的實驗
探討人工智能與數據挖掘發展趨勢
做個怪怪長實驗
趕不走的學生
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
學生寫話
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
學生寫的話
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产福利免费视频| 日本午夜在线视频| 亚洲精品视频在线观看视频| 免费看美女毛片| 日韩色图在线观看| 精品久久国产综合精麻豆| 中文字幕天无码久久精品视频免费 | 99热这里都是国产精品| 九色综合伊人久久富二代| 国产精品毛片在线直播完整版| 亚洲精品视频免费看| 婷婷亚洲最大| 中文毛片无遮挡播放免费| 国产成人久久777777| 中文字幕亚洲综久久2021| 精品乱码久久久久久久| 色欲色欲久久综合网| 九九这里只有精品视频| 中美日韩在线网免费毛片视频| 国产在线拍偷自揄观看视频网站| 久热re国产手机在线观看| 亚洲无限乱码| yy6080理论大片一级久久| 毛片手机在线看| 高清不卡毛片| 亚洲天堂成人在线观看| 亚洲无卡视频| 无码中文字幕精品推荐| 亚洲成人精品在线| 日韩天堂视频| 色天天综合久久久久综合片| 精品国产网| 亚洲女人在线| 老司机精品99在线播放| 激情亚洲天堂| 九九久久99精品| 人妻精品全国免费视频| 中文字幕亚洲精品2页| 国产高潮流白浆视频| 日本久久网站| 婷婷色在线视频| 久久亚洲国产一区二区| 成人噜噜噜视频在线观看| 亚洲第一成年网| 爱做久久久久久| 亚洲最大综合网| 国产成人AV男人的天堂| 久久精品丝袜高跟鞋| 日韩免费毛片视频| 日韩中文无码av超清| 亚洲AV无码久久天堂| 国产波多野结衣中文在线播放 | 亚洲黄色视频在线观看一区| 久久精品电影| 亚洲精品自产拍在线观看APP| 欧美人在线一区二区三区| 久久青草免费91线频观看不卡| 自拍偷拍欧美| 午夜人性色福利无码视频在线观看| 欧洲极品无码一区二区三区| 亚洲bt欧美bt精品| 久久久四虎成人永久免费网站| 久久久久久久久亚洲精品| 日韩精品免费一线在线观看| 欧美不卡二区| 一级全免费视频播放| 亚洲欧洲一区二区三区| 白丝美女办公室高潮喷水视频| 朝桐光一区二区| 另类欧美日韩| 天天躁狠狠躁| 久久99精品国产麻豆宅宅| 好紧太爽了视频免费无码| 亚洲美女一区二区三区| 国产精品伦视频观看免费| 不卡无码网| 99热6这里只有精品| 久久九九热视频| 国产xx在线观看| 无码又爽又刺激的高潮视频| 欧美一级在线播放| 国产一区在线视频观看|