999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于阿里云大數據平臺的“數據挖掘”課程實驗教學方法探討

2018-07-09 13:09:30
實驗室研究與探索 2018年6期
關鍵詞:數據挖掘實驗教學實驗

王 振 武

(中國礦業大學(北京) 機電與信息工程學院,北京 100083)

0 引 言

隨著高等教育內涵式發展的不斷深入,人才培養對“數據挖掘”課程的實驗教學方法提出了更高的要求。傳統的教學方式是根據數據挖掘課程的教學大綱要求,在實驗機房內組織學生對數據挖掘相關算法進行編程實現與分析驗證,并且實驗數據和場景大多是模擬的“玩具例子”,和商業級應用實踐距離較遠,這使得學生對該課程的學習僅僅停留在對算法原理的理解層面,導致理論和實踐的嚴重脫節,這種教學方式已經不能適應現代教學的要求。實事求是地講,以前由于開發高水平的可視化數據挖掘平臺以及搜集相關行業數據都比較困難,在數據挖掘課程中開展貼近實戰的實驗教學是有難度的。近幾年,隨著大數據和云計算技術的快速發展,數據挖掘技術已經在諸多行業中進行了應用[1-4],我國已經把大數據作為基礎性戰略資源,實施了國家大數據戰略[5],因此大數據產業的發展急需數據挖掘專業人才,而高等學校和企業的產學結合、協同育人也得到了國家的強力支持。2015年國務院辦公廳頒布的《關于深化高等學校創新創業教育改革的實施意見》[6]中指出:要“探索建立校校、校企、校地、校所以及國際合作的協同育人新機制,積極吸引社會資源和國外優質教育資源投入創新創業人才培養”; 2017年中共中央辦公廳和國務院辦公廳進一步頒布了《關于深化教育體制機制改革的意見》[7],意見進一步明確:“實施靈活的學習制度,鼓勵教師創新教學方法,深入推進協同育人,促進協同培養人才制度化。”;與此同時,工業和信息化部在2017年頒布的《大數據產業發展規劃(2016-2020年)》[8]中也提出“加強大數據人才培養,整合高校、企業、社會資源,推動建立創新人才培養模式,建立健全多層次、多類型的大數據人才培養體系”;為進一步提高高等教育教學質量,教育部更是連續幾年面向企業征集產學合作協同育人項目,匯聚企業資源支持高校專業綜合改革和創新創業教育[9],正是得益于此,基于阿里云大數據平臺開展了數據挖掘課程的實踐教學改革。

1 阿里云大數據平臺介紹

目前,主流數據挖掘平臺可大致分為兩類:①以Weka等為代表的非商業化、免費開源的數據挖掘軟件;②以阿里云大數據平臺等為代表的企業級大數據可視化分析平臺。以Weka為代表的開源機器學習和數據挖掘平臺,集成了常見的機器學習算法,用戶可以在Weka中集成自己的算法,甚至對其進行擴展來實現自己的可視化數據挖掘工具。此類軟件的優點是代碼開源和免費,獲取成本低,缺點是支持的數據挖掘任務和數據類型不完整、缺乏具體領域的數據挖掘應用、平臺代碼學習周期較長且不支持商業級的分布式計算。與之對應,阿里云大數據平臺是商業化的數據挖掘系統,具有如下明顯優勢:

(1) 數據挖掘功能豐富。平臺封裝了100余種算法組件,內容不但覆蓋數據預處理、回歸、分類、聚類等基礎數據挖掘內容,而且涵蓋文本分析、統計分析、個性化推薦、圖像識別、語音識別以及社交網絡分析等多種綜合應用場景,部分內容如圖1所示。

圖1 阿里云大數據平臺部分功能

(2) 大數據挖掘支持能力強。平臺能夠處理結構化、半結構化和非結構化的離線數據或實時數據,如圖2所示,依托自主開發的飛天分布式操作系統和MaxCompute大數據計算服務,平臺向用戶提供多種分布式計算模型并能夠快速地解決海量數據的計算問題,這對于大數據挖掘是不可或缺的基礎性支撐,也是常規實驗室或開源軟件無法企及的。

圖2 阿里云大數據平臺的分布式計算

(3) 操作簡單靈活。阿里云大數據平臺提供可視化的操作界面,通過拖拉拽的方式拖動算法組件拼接實現業務邏輯,提供完整的數據挖掘鏈路,做到一站式體驗,平臺的體系結構如圖3所示。該平臺整合了完整的數據挖掘流程,它支持不同數據源的采集與整合,即數據既可以來自云端系統也可以來自本地業務系統,數據既可以是結構化的數據也可以是流式實時數據;平臺支持各種數據預處理功能,如數據清洗與轉換,支持類型豐富的數據模型以及數據挖掘功能,支持數據倉庫(ODPS)存儲和聯機分析處理(OLAP)功能,數據處理流程和結果以可視化形態展示,以滿足不同用戶的應用和數據消費。

圖3 阿里云大數據平臺的體系結構

2 基于阿里云大數據平臺的實驗教學方法

教育工作者從不同的角度對數據挖掘課程的實驗教學方法展開了研究。有的基于開源數據挖掘平臺或編程語言對數據挖掘算法進行設計和分析[10-11],有的討論了如何構建數據挖掘實驗平臺問題[12-13],還有部分作者討論了某一特定行業中的數據挖掘實驗教學問題[14-15],但這些研究工作還是停留在傳統的數據挖掘課程實驗教學模式上,僅僅解決了學生對某些具體算法原理的理解問題,還無法真正讓學生體會到數據挖掘技術的商業應用與實踐。本文依托教育部-阿里云產學合作專項綜合改革項目,基于阿里云大數據平臺提出了線下編程和線上操作相互結合、理論算法實現與商業應用實踐相互印證的實驗教學方法,實驗內容分為3個層次。

第1層次算法原理驗證性實驗。此階段在線下進行,學生使用Java語言或Matlab工具對數據挖掘的常用算法編程實現并進行分析驗證,具體算法包括:特征選擇與特征提取算法(Fisher判別法、主成分分析法等)、關聯規則挖掘算法(Apriori算法)、分類算法(決策樹、KNN、樸素貝葉斯以及支持向量機等)、聚類算法(K-means、K-mediods等)以及協同過濾算法等。此階段屬于算法原理驗證階段,通過代碼理解算法運行機制以及熟悉算法的優缺點,為后續的線上實驗打下良好的基礎。

第2層次數據挖掘基本任務實操性實驗。此階段基于阿里云大數據平臺在線上進行,對數據挖掘的基本任務進行實戰環境訓練。如圖4所示,阿里云大數據平臺提供可視化的操作方式,學生通過左側功能導航欄和實驗組件/模型列表來選擇相應的實驗內容,在工具欄和拖拽式圖形編輯區進行實驗的設計和參數設置,運行結果將以可視化的圖標方式展示。下面以預測某銀行用戶是否有定期存款(分類問題)為例,來說明具體操作流程,具體包含3個步驟:準備示例數據、模型訓練與評估、結果比較與展示。

1.功能導航欄;2.實驗、組件、模型列表;3.工具欄;4.DAG編輯區域;5.參數設置;6.運行按鈕

圖4 阿里云大數據平臺的操作方式

在數據準備階段用戶通過在平臺上創建目標表bank-data,然后上傳本地數據(共4萬條)來完成試驗數據準備工作(見圖5),上傳的數據可以在平臺上進行查看以驗證數據的準確性。數據上傳完畢之后可以進行分類模型的訓練與評估(見圖6),bank-data表中的數據通過拆分,一半用來做模型訓練,一半用來做模型驗證,本試驗中采用隨機森林、邏輯回歸、歸一化+邏輯回歸等3種模型分別進行訓練,并通過對模型訓練結果的數據驗證來判斷訓練模型預測的準確性,3種模型的評估報告可以通過混淆矩陣來查看(見圖7)。從圖7中可見,隨機森林(預測1)、邏輯回歸(預測2)和歸一化+邏輯回歸(預測3)的準確率分別為90.123%,90.128%和90.06%,即隨機森林和邏輯回歸方法在參數采用默認值的情況下模型準確率幾乎相同,歸一化+邏輯回歸的準確率相對稍微偏低。另外,在此實驗中學生們可以結合業務數據和模型經驗嘗試尋找模型的最優參數,體會和領悟模型調參的經驗和技巧。

第3層次數據挖掘場景應用性實驗。此階段基于阿里云大數據平臺在線上進行,屬于綜合性實驗。下面以個性化產品推薦為例說明在阿里云大數據平臺上的操作流程。個性化推薦系統和算法實現都很復雜,單憑個人之力很難在短時間內完成,此時阿里云大數據平臺的優勢就體現了出來,通過該平臺學生可以非常方便地了解個性化推薦的各個流程環節(見圖8)。該實驗涉及到的算法包括:特征抽取算法、興趣評分算法、矩陣分解算法、相似度計算優化以及協同過濾算法,實驗流程分為5個步驟:添加云計算資源、添加業務配置數據、配置推薦場景算法、API對接以及結果查看。阿里云大數據平臺基于阿里云自主研發的云計算平臺,進行個性化推薦首先需要添加云計算資源,例如大數據計算服務、表格存儲以及云監控等,然后配置推薦需要的業務數據,具體包括用戶數據表、用戶屬性維度表、物品數據表、物品屬性維度表、行為數據表、可被推薦物品表等(見圖9)。

圖5 準備示例數據

圖6 模型訓練與評估

圖8 個性化推薦的基本流程

實驗第3步是進行場景推薦算法的配置,推薦場景是指在客戶的APP中使用推薦功能的模塊名稱,場景隸屬于業務,使用到的數據就是業務中配置的數據,場景包含一個或多個算法流程,每一個算法流程代表一種推薦物品邏輯,由多個算法拼裝組成(見圖10)。系統之間的對接通過API方式實現(見圖11),API包括日志API、推薦API和算法任務API 3類,日志API用于接收業務系統采集數據,以行為類數據為主,推薦API提供推薦物品的物品列表,用于在業務系統中展示給消費者進行的推薦,算法任務API用于啟動離線計算流程的算法任務以及查看任務狀態等功能(見圖12)。推薦后的效果(如點擊率等指標)用戶可以通過圖形化的界面加以查看,通過這樣一個完整的流程,學生可以在實操環境中非常清楚地了解個性化推薦的流程和原理,這是在傳統的實驗室教學中所無法完成的。

圖9 添加業務配置數據

圖10 場景推薦算法配置

圖11 API對接

通過上述3個層次的實驗教學,學生不但可以理解數據挖掘算法的具體原理,而且通過在阿里云大數據平臺上的實際操作練習更加深刻地體會到數據挖掘技術實踐應用的魅力。通過教育部-阿里云產學合作專項綜合改革項目的實施,在總結數據挖掘課程理論和實驗授課經驗的基礎上,編寫并出版了《大數據挖掘與應用》[16]一書,以便更好地輔助實驗教學活動的開展,實踐證明基于阿里云大數據平臺的數據挖掘實驗教學是行之有效的。

圖12 結果查看

3 結 語

隨著人工智能和大數據技術的發展和應用,對數據挖掘人才的需求持續高漲。在數據挖掘課程的實驗教學中,傳統的算法編程實現式的教學方法已經不能適應高等教育內涵式發展的新要求。本文基于阿里云大數據平臺提出了線下編程與線上操作相結合、算法理論實現與商業應用實踐相互印證的教學方法,并給出了算法原理驗證性實驗、數據挖掘基本任務實際操作實驗以及數據挖掘場景應用性實驗等3個層次的漸進式實驗教學組織方式,不但激發了學生的學習興趣,而且深化了學生對數據挖掘技術的理解,教學實踐證明了該方法的有效性。

參考文獻(References):

[1] 韓阜益,陳建榮,唐俊峰,等.數據挖掘在高校資產管理中的應用[J].實驗室研究與探索,2017,36(3):295-298.

[2] 朱海兵,張濟韜,郭雅娟,等.基于數據挖掘的電力變壓器家族性缺陷預警[J].實驗室研究與探索,2016,35(6):37-41.

[3] 俞 春,袁 芳,劉啟新.高校信息資源服務的探索與實踐[J].實驗技術與管理,2011,28(4):228-230,243.

[4] 徐 寧,王 棟,李 曼,等.血液白細胞圖像自動識別系統開發與應用[J].實驗技術與管理,2012,29(12):44-47,50.

[5] 中共中央辦公廳、國務院辦公廳. 中華人民共和國國民經濟和社會發展第十三個五年規劃綱要[Z].2016.

[6] 國務院辦公廳.關于深化高等學校創新創業教育改革的實施意見[Z].2015.

[7] 中共中央辦公廳、國務院辦公廳.關于深化教育體制機制改革的意見[Z].2017.

[8] 工業和信息化部.大數據產業發展規劃(2016-2020)[Z].2017.

[9] 教育部.關于征集產學合作協同育人項目的函[Z].2016.

[10] 黃 嵐,周 娟.基于Weka的應用型本科數據挖掘課程實驗設計[J].電腦知識與技術,2017,13(21):7-9.

[11] 岳 強,胡中玉,文 瑾,等.基于R語言的數據挖掘課程實驗設計[J].微型電腦應用,2016,32(5):31-37.

[12] 謝瑤兵,向 陽,黃震華.基于Android移動終端的數據倉庫與數據挖掘課程實驗平臺建設[J].教育教學論壇,2014(6):248-249.

[13] 向 陽,郭 鑫,陳 千,等.數據倉庫與數據挖掘教學實驗平臺構建研究[J].教育教學論壇,2014(9):253-255.

[14] 駱世廣,駱昌日,張新華.基于綜合型設計性實驗項目的金融數據挖掘實驗教學[J].教師教育論壇,2013,26(3):83-87.

[15] 王瑞祥. 拋錨式教學在中醫院校數據挖掘實驗教學中的應用[J].西部中醫藥,2017,30(4):54-55.

[16] 王振武.大數據挖掘與應用[M].北京:清華大學出版社,2017.

猜你喜歡
數據挖掘實驗教學實驗
記一次有趣的實驗
探討人工智能與數據挖掘發展趨勢
小議初中化學演示實驗教學
甘肅教育(2020年4期)2020-09-11 07:42:36
電容器的實驗教學
物理之友(2020年12期)2020-07-16 05:39:20
對初中化學實驗教學的認識和體會
甘肅教育(2020年8期)2020-06-11 06:10:04
做個怪怪長實驗
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
幾何體在高中數學實驗教學中的應用
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产精品尤物在线| 91网站国产| 日韩av无码DVD| 欧美成在线视频| 亚洲精品制服丝袜二区| 亚洲国产成人在线| 强奷白丝美女在线观看| 精品国产自| 国语少妇高潮| 亚洲中文久久精品无玛| 欧美亚洲中文精品三区| 97久久超碰极品视觉盛宴| 国产人免费人成免费视频| 久久综合亚洲鲁鲁九月天| 欧美精品影院| 国产91无码福利在线| 天堂网亚洲系列亚洲系列| 97影院午夜在线观看视频| 无码国内精品人妻少妇蜜桃视频| 亚洲an第二区国产精品| 国产色图在线观看| 无码高潮喷水专区久久| 亚洲无线视频| 天天躁夜夜躁狠狠躁图片| 91久久夜色精品国产网站| 91欧美亚洲国产五月天| 真人高潮娇喘嗯啊在线观看| 欧美视频在线播放观看免费福利资源 | 久久久久青草线综合超碰| 国产成人无码久久久久毛片| 91精品国产情侣高潮露脸| 国产女人18水真多毛片18精品| 熟妇丰满人妻| 九九热在线视频| 欧美一区二区啪啪| a色毛片免费视频| 夜夜拍夜夜爽| 丰满的少妇人妻无码区| 中日韩欧亚无码视频| 婷婷丁香在线观看| 麻豆国产在线观看一区二区| 欧美日韩亚洲综合在线观看| 亚洲无线视频| 视频一本大道香蕉久在线播放| 日本免费a视频| 国产日韩av在线播放| 国产精品网址在线观看你懂的| 欧美日韩第三页| 在线播放国产99re| 久久精品日日躁夜夜躁欧美| 亚洲专区一区二区在线观看| 欧美爱爱网| 啪啪免费视频一区二区| 国产SUV精品一区二区6| 永久毛片在线播| 精品久久久无码专区中文字幕| 国产日韩欧美一区二区三区在线| 1级黄色毛片| 国产在线精品美女观看| 全午夜免费一级毛片| 无码一区中文字幕| 一级一级特黄女人精品毛片| 国产哺乳奶水91在线播放| 日韩高清欧美| 国产91视频观看| 国产亚洲成AⅤ人片在线观看| 久久成人免费| 国产极品粉嫩小泬免费看| 欧美午夜视频在线| 亚洲国产中文精品va在线播放| 欧洲免费精品视频在线| 直接黄91麻豆网站| 亚洲精品爱草草视频在线| 国产成人亚洲精品色欲AV | 欧美亚洲香蕉| 99在线国产| 欧美日韩国产成人高清视频 | 欧美性久久久久| 影音先锋丝袜制服| 天堂av综合网| 欧美日本在线观看| 手机在线国产精品|