摘要:國內外各大高校院所都非常重視數據倉庫與數據挖掘課程的開設,尤其是在大數據環境下,數據挖掘的重要性更加凸顯。本文詳細分析了數據挖掘課程產生的背景,確立數據挖掘課程在計算機及相關專業的定位,梳理數據挖掘課程的理論方法與內容體系,強調注重理論與實際應用項目的結合,對指導數據挖掘課程的教學改革與創新具有重要的指導和借鑒意義。
關鍵詞:數據挖掘;教學方法;大數據;課程體系
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2018)13-0146-03
一、引言
1.數據挖掘課程產生的背景。20世紀90年代,以美國信息工程領域專家數據倉庫的倡導者Willian Inmon在他對數據倉庫的定義中涵蓋了數據挖掘的概念。數據挖掘概念正式提出是在1995年的美國計算機年會(ACM)上。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的人們事先不知道但又是潛在有用的信息和知識的過程。目前國內外高校、研究部門均將數據挖掘作為重要的課程開設,KDD、ACM等信息科學領域的頂尖國際會議也將數據挖掘作為重要的內容展開研討。
2.數據挖掘課程在計算機及相關專業的定位。數據挖掘課程屬于多個學科的重要專業課程(如圖1所示),主要包括數據庫技術、計算機應用技術、統計學方法、機器學習、預測技術、軟計算、信息科學、可視化、網絡與電子商務等。
隨著信息技術的發展與普及,如何從海量的數據中提取有用的和有價值的信息即知識,已成為信息技術研究的重要問題,數據挖掘已經成為國內外高層管理決策研究的重要領域。在各個業務領域都涌現出大量的數據挖掘應用案例,可以在大量的分散的業務數據中挖掘有價值的信息,并使信息得到增值,以提高業務管理過程的經濟效益和社會效益。大數據也是在數據挖掘研究及應用普及的基礎上發展起來的,學習數據挖掘課程對今后大數據方面的應用研究將積累重要的研究基礎。
二、數據挖掘課程的理論方法與內容體系
1.數據挖掘課程的理論方法。數據挖掘課程的理論方法主要包括:數據與信息的存儲理論,數據采集與整合方法,數據的泛化與標準化,多維數據組織與管理;數據庫建立與管理決策;主題數據庫與數據倉庫、多維數據庫建立;數據挖掘理論與方法、KDD(Knowledge Discovery in Database,數據庫中的知識發現)、DSS(Decision Support System,決策支持系統)、預測與決策方法;結構化與非結構化數據挖掘;公共信息平臺架構及應用環境;大數據理論技術及應用。
2.數據挖掘課程的內容體系。數據挖掘課程由理論課程體系、教材體系與實驗體系三部分組成。(1)理論課程體系的主要內容包括:①數據預處理階段。數據的采集技術,數據清洗,數據整合標準,多維數據的數據結構,數據集成技術,等等相關內容。②面向主題數據庫的建立方法及多維數據庫的建立方法。③數據的訪問部分。數據挖掘模型系統(預測與決策支持系統),可視化、KDD、商務智能軟件系統等。(2)教材體系主要包括如下內容:數據采集與存儲、數據結構、數據庫管理、數據倉庫、數據挖掘、決策支持系統、智能商務決策等。(3)實驗課程體系的主要內容包括:①數據預處理及相關工具的應用。以運輸企業動態監控管理與決策分析為例,主要的實驗內容是運用GPS、RFID傳輸運輸途中所產生的數據進行采集、存儲與處理。熟練掌握在數據挖掘過程中如何采集和處理數據的方法及全部過程。②數據整合理論與方法的實驗。通過對車載設備的GPS、RFID及運輸途中相關業務數據的整合,讓學生們熟悉掌握來自不同系統的數據結構形式以及如何在計算機內部存儲和處理。③數據的存儲管理。EDI、RFID、GPS、傳感器等相關數據及運輸途中動態產生的數據,對整合與標準化后的數據進行存儲與管理。④對運輸車輛進行動態監控與科學管理。通過GPS顯示在GIS上的經緯度、車輛速度等信息,檢驗車輛運行的安全狀態,車輛的超速、異常狀態報警等監管功能。⑤數據挖掘模型系統的建立??焖侔l現知識算法,K均值算法,SVM算法,EM算法(最大期望算法,Expectation Maximization Algorithm),C4.5算法;PageRank算法(網頁排序),貝葉斯分類算法,K最近鄰(k-Nearest Neighbor,KNN)分類算法,Adaboost算法即自適應增強算法,CART算法即分類回歸樹算法。⑥常用數據挖掘工具。SPSS、SAS、R語言(R支持一系列分析技術,包括統計檢驗、預測建模、數據可視化工具)、WEKA(集成了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理、分類、回歸、聚類、關聯分析以及在新的交互式界面上的可視化)、Mahout(支持一些集群算法實現,都是使用MapReduce編寫)、Matlab商業數學軟件、Scala多范式編程語言、YALE開發工具、Python等。
三、數據挖掘課程教學方法探討
1.數據挖掘理論教學的重點。(1)理解數據挖掘及相關概念,如:數據倉庫與數據挖掘的主要特征,數據挖掘與KDD的區別,數據挖掘與商務智能的區別,數據挖掘與決策支持系統的區別。(2)數據采集、數據整合與集成、數據一致化標準化、多維數據存儲理論與技術。(3)公共信息平臺的架構建立方法與相關理論。(4)數據倉庫的建立機制,面向主題數據庫的建立方法。(5)數據挖掘理論、技術、模型與方法。(6)數據挖掘工具的應用。
2.數據挖掘工具的選擇與應用。授課中應注重適合結構化與非結構化數據的數據挖掘應用開發工具。(1)結構化數據挖掘的常用工具包括Matlab、SPSS、SAS、SQL、Weka等。(2)非結構化數據挖掘的常用工具有Hadoop(MapReduce、HDFS)、Mahout、NoSql、Scala、R語言、YALE、python等。除此之外,還應該考慮當前選定工具的特點如何,需要從實際應用重點出發來選擇適合的工具,比如R語言、python語言屬于能夠勝任結構化和非結構化數據的數據挖掘工具,如果某個應用需要圖形界面友好且運算功能強大的工具,只需選擇python語言;如果僅是一般的運算且對運行界面要求不高,則可選擇R語言;如果僅需數值統計與一般的挖掘功能,則Matlab、SPSS、SAS均可勝任。
3.理順數據挖掘與知識管理之間的關聯(如圖2)。
4.區分結構化與非結構化數據挖掘模型的建立機制。結構化數據挖掘模型主要包括預測模型系統(定性與定量預測模型及系統,如圖3)、優化模型系統、決策模型系統、快速發現知識模型等內容。非結構化數據挖掘模型主要包括多媒體(圖形、視頻、聲音等)挖掘模型系統、文本挖掘模型軟件系統等。
5.注重理論與實際應用項目的結合。在講授數據挖掘課程時,應明晰數據挖掘、數據倉庫、公共信息平臺之間的關聯,學習建立數據倉庫全過程的全部相關知識點。以科研項目作為示范應用,通過對一個實際研究項目的解析收到了良好的授課與學習效果。例如,將《東北亞航運中心公共平臺建立》項目搭建的數據倉庫架構體系作為講課的重要內容,詳細內容參見文獻。該公共平臺的業務主要包括六個組成部分:3G-MIS集成,異構數據集成,數據倉庫系統,業務支撐體系,應用服務體系,應用工具系統。可以將一個大的復雜系統運用形式化定義與知識描述,使其各個子系統之間的內容層次分明而清晰。
四、小結
數據挖掘是一門重要的專業基礎課程,必須具備多學科、多領域的理論知識,并結合實踐應用提升學生的學習效果和專業水平。
參考文獻:
[1]陳燕.數據挖掘技術與應用[M].第2版.北京:清華大學出版社,2016.
[2]許國根,賈瑛.實戰大數據——MATLAB數據挖掘詳解與實踐[M].北京:清華大學出版社,2017.
[3]陳燕,張金松.大數據技術及其應用[M].大連海事大學出版社,2015.