李忠 李姍姍
摘 要: 針對國內應用型本科院校數據挖掘課程內容差異問題,分析了不同專業的培養目標,從數據挖掘三大功能出發,給出了IT類專業數據挖掘課程的內容體系和學時安排;分析了防災科技學院最近兩屆學生數據挖掘課程的教學效果,結論為:合理的理論內容設置和實驗訓練,配合恰當的教學方法,可以提高學生的學習興趣,激發學習熱情,提高實際動手能力,從而達到人才培養目標。
關鍵詞: 數據挖掘; 課程內容體系; IT專業; 教學效果
中圖分類號:G642 文獻標志碼:A 文章編號:1006-8228(2014)11-65-02
Course construction of data mining course for IT specialty in application-oriented university
Li Zhong, Li Shanshan
(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)
Abstract: Aiming at the content differences of data mining course in the application-oriented university, the training objectives and requirement for different specialty are analyzed. The content system and hours arrangements of data mining courses for IT specialty starting are given from the three major functions of data mining. Based on the last two years' student teaching effectiveness of data mining courses, it is concluded that combining theoretical and experimental training content settings with appropriate teaching methods can improve learning interest, stimulate learning enthusiasm, improve operating ability and achieve training objectives.
Key words: data mining; course content system; IT specialty; teaching effectiveness
0 引言
毋庸置疑,我們正處在信息時代。根據國際互聯網管理機構2012年發布的數據,每天全球互聯網流量累計達1EB(即10億GB),這意味著每天產生的信息量可以刻滿1.88億張DVD光盤[1]。要想在如此浩瀚的數字海洋里尋找有用的信息,簡直是大海撈針!因此數據挖掘技術應運而生。大概十幾年前,微軟創始人比爾·蓋茨就預言,數據挖掘技術將是未來計算機發展的重要方向之一,事實也的確如此。
數據挖掘技術誕生于20世紀80年代末,是統計學和計算機科學的交叉學科,涉及數據庫技術、統計學、機器學習、神經網絡、模式識別、知識發現、專家系統、信息檢索、高性能計算、可視化以及面向對象程序設計等若干學科知識,在商業、金融、保險、體育、勘探、生物技術等領域獲得廣泛應用。也正因為該課程涉及的內容寬泛,要求知識面寬廣、數學基礎扎實等,前幾年主要在研究生階段開設。但是隨著信息技術的快速發展,本科生能力要求提高,知識傳授的重心下移,很多高校已在本科階段開設數據挖掘課程,以提高大學生解決實際問題的能力,進而為課程設計和畢業設計打下必要的基礎[2]。
1 國內高校本科數據挖掘課程開設現狀
通過院校實地交流,結合網絡搜索,我們已經收集了十幾所高校的數據挖掘課程教學大綱,開設專業包含有計算機類專業、經濟統計類專業、電氣自動化類專業、生物技術專業等,各專業根據自己的人才培養目標制訂教學大綱、教學計劃、考試大綱等,其內容存在很大差異。其中985、211高校主要以英語授課,采用國外原版教材,課程內容涉及算法、編程較多;而一般院校多采用中文教材,根據專業不同,內容也有很大差異。
經濟統計類專業開設數據挖掘課程,要求學生了解什么是數據挖掘,以及如何用數據挖掘來解決實際問題,了解如何通過幾種數據挖掘技術建立數學模型,了解主流數據挖掘系統的特點,能夠安裝、使用,要求能夠熟練使用典型的挖掘工具對實際數據進行分析,具備從數據資源提取信息與知識并進行輔助決策的基本能力。
自動化專業開設數據挖掘課程,要求學生了解數據挖掘概念、原理、過程,學會利用數據挖掘技術處理問題,了解有關數據挖掘算法原理,熟練運用數據挖掘技術建立數學模型,要求能夠熟練使用數據挖掘軟件解決問題。
計算機專業開設數據挖掘課程,要求學生了解數據挖掘概念、原理、信息處理過程,了解不同數據挖掘算法的原理并編程實現,學會利用數據挖掘技術建立數學模型以解決實際問題,熟悉數據挖掘成果的表達,要求熟悉幾種典型的數據挖掘軟件功能特點、使用方法、安裝等,了解不同軟件的優缺點和適用面向,具備從大量數據中獲取有價值的信息的能力。
可以看出,統計類專業主要要求學生具備數據挖掘軟件的使用能力,并根據挖掘結果進行輔助決策;IT類專業要求學生掌握數據挖掘有關算法的原理、處理過程,并要求編程實現算法,這無疑增加了很大難度。按照ACM SIGKDD課程委員會對數據挖據課程的建議,數據挖掘課程應重視長久的科學原理和領域概念。顯然,IT類專業的數據挖掘課程教學大綱更符合ACM SIGKDD課程委員會的建議。
2 IT專業數據挖掘課程內容設計
一般情況下,數據挖掘課程在本科的高年級段開設,大部分放在第七學期,也有少數高校放在第六學期。這個時候,IT類專業的大學生已經修完數據結構、數據庫原理、程序設計語言、面向對象程序設計等多門專業基礎課程,對于程序設計、數據庫系統開發等具有足夠的認識和使用能力,具備了開設數據挖掘課程所需要的前導知識。國內普通本科的數據挖掘課程學時設計存在很大差異,如南京工程學院設置32課時,其中課堂授課22學時,實驗設計10學時[3];鄭州航空管理學院僅設置16學時,其中授課10課時,實驗教學6課時[2]。在內容安排方面,也存在很大差異。南京工程學院計算機專業開設的數據挖掘課程包括概述、數據挖掘過程與挖掘軟件、關聯規則挖掘與序列模式挖掘、分類、聚類分析、Web挖掘等六部分內容;煙臺大學計算機專業開設的數據挖掘技術課程內容涵蓋概述、數據倉庫與聯機分析、關聯分析、分類技術、聚類分析、時間序列模式挖掘、Web挖掘技術等[4];鄭州航空管理學院的數據挖掘課程包括概述、決策樹、聚類分析、關聯分析、數據篩選等內容[2];漳州師范學院計算機科學系開設的數據挖掘課程內容涉及數據挖掘基礎知識、數據預處理、數據倉庫與OLAP技術、關聯和頻繁模式分析、分類與回歸、聚類和孤立點分析、時序數據和序列數據的挖掘、文本與Web數據挖掘、數據挖掘可視化、典型數據挖掘系統、數據挖掘的社會影響等內容[5]。
數據挖掘技術主要應用在三大領域,也就是三大功能:分類(預測)、聚類分析和關聯分析,因此在課程內容設置時,應考慮實用性,在三大功能基礎上布局各章節。筆者在近三年的數據挖掘課程教學實踐中,分別采用了西南財經大學的《數據挖掘教程》、中國科技大學的《數據挖掘導論》作為主講教材,參考了范明等人翻譯的《數據挖掘導論(完整版)》、Jiawei Han and Micheline Kamber著《Data mining Concept and Techniques》、范承工等著《大數據:戰略·技術·實踐》等,對課程內容進行了總結,提出了針對于應用型本科IT類專業48課時的數據挖掘課程內容體系,如表1。
從表1可以看出,數據挖掘課程理論授課32學時,實驗安排16課時,在充分進行數據挖掘算法原理、實例介紹基礎上,讓學生在實驗室里對數據挖掘的三大功能進行模擬訓練,提高學生的實際動手能力和分析問題解決問題能力,這也完全符合應用型本科人才培養目標要求。另外,考慮到數據倉庫與聯機分析部分內容已經在數據庫原理與應用課程中學習過,因此我們在內容設置時不再考慮。
表1 數據挖掘課程內容體系
[章節題目\&主要內容\&理論課時\&實踐課時\&第一章 數據挖掘概述\&介紹有關概念、應用領域、挖掘過程、SEMMA模型等\&2\&0\&第二章 數據預處理\&介紹數據采集與存儲、數據質量評價、數據整理、數據計劃分等;\&4\&2\&第三章 數據分類與預測\&介紹決策樹原理與應用、貝葉斯分類方法、人工神經網絡方法、K-近鄰方法、遺傳算法、支持向量機方法,等\&8\&4\&第四章 關聯分析\&介紹相關概念、先驗算法、Apriori算法等\&6\&4\&第五章 聚類分析\&聚類分析概述、K-均值算法、層次聚類方法等\&6\&4\&第六章 異類挖掘\&異類挖掘概述、基于統計的異類挖掘、基于時序的異類挖掘、基于空間的異類挖掘,等\&4\&2\&第七章 大數據挖掘\&大數據概述、大數據挖掘算法、大數據挖掘過程,等\&2\&\&]
3 教學效果分析
理論授課以工程項目驅動方式,在闡述基本概念、算法原理基礎上,采用實際的工程項目介紹數據挖掘課程相關算法的應用和過程,很好地吸引了學生的注意力,教學效果良好。以最近兩屆學生為例,采用調查問卷方式,從基本算法掌握、編程能力提高情況、考試成績、就業意向等四個方面進行考查,匯總結果如表2。
表2 教學效果調查匯總表
[調查
欄目\&基本算法
掌握情況\&編程能力
是否提高\&考試成績檔次\&是否愿意從事數據挖掘相關工作\&項目\&較好\&一般\&有\&無\&80以上\&60-80\&60以下\&是\&否\&2012屆
情況\&32\&44\&54\&22\&22\&36\&18\&24\&52\&42.1%\&57.9%\&71.1%\&28.9%\&28.9%\&47.4%\&23.7%\&31.6%\&68.4%\&2013屆
情況\&72\&48\&94\&26\&78\&39\&3\&44\&76\&60%\&40%\&78.3%\&21.7%\&65%\&32.5%\&2.5%\&36.7%\&63.3%\&]
說明:每屆學生的第一行為人數,第二行為所占百分比。
從表2可以看出,2013屆學生無論從考試成績,還是編程能力提高、基本算法的掌握情況等方面,都較2012屆學生好,尤其是不及格率大幅下降,優秀率大幅提升,對學生提高學習興趣、激發學習積極性大有好處。從就業意向看,愿意從事數據挖掘方面工作的學生也有提高,說明學生通過數據挖掘課程的學習,逐漸對該技術產生興趣。
4 結束語
就數據挖掘技術課程而言,對于IT類專業學生的要求應不同于經濟統計類專業學生,前者更應注重算法理解、設計,以及程序實現、成果表達等,后者則偏重于模型建立、軟件應用等。因此在課程內容設置、學時安排等方面應有所不同。IT類專業學生將來的工作主要以程序設計、軟件開發為主,因此數據挖掘課程內容更廣更深,學時也相應較多,培養目標要求也更高。合理的課堂內容設置和實驗訓練,配合適當的教學方法,可以很好地提高學生的學習興趣,激發學習熱情,增強分析問題解決問題的能力,讓學生產生從事數據挖掘工作的意向,達到人才培養目標要求。
參考文獻:
[1] 張艷.大數據背景下的數據挖掘課程教學新思考[J].計算機時代,
2014.4:59-61
[2] 李志勇,王翔,喻軍.信息管理專業數據挖掘課程教學探討[J].管理工
程師,2012.8:66-68
[3] 徐金寶.對應用型本科生開設數據挖掘課程的嘗試[J].計算機教育,
2007.7:27-30
[4] 譚征,孫紅霞,王立宏.普通院校本科生開設數據挖掘課程的教學研
究[J].福建電腦,2011.10:38-40
[5] 周忠眉.數據挖掘課程大綱的建設[J].漳州師范學院學報(自然科學
版),2005.1:88-90