劉亮亮 柳青
摘要:大數據時代對經管類專業的學生提出了新的挑戰和更高的要求,在經管類專業中引入數據挖掘課程是一個有益的嘗試,從內容重組、算法重現、案例教學、實踐教學等四個方面闡述了這門課程的教學方法。通過數據挖掘課程的學習學生的專業素養得到了提高,競爭力得以加強。
關鍵詞:大數據;數據挖掘;Python;教學方法;人才培養
中圖分類號:G642? ? ? ?文獻標識碼:A? ? ? ? 文章編號:1009-3044(2018)35-0136-02
Abstract:In the era of big data, new challenges and higher requirements have been put forward for students majoring in economics and management. Introducing data mining into economics and management is a beneficial attempt. This paper expounds the teaching methods of this course from four aspects: content reorganization, algorithm reappearance, case teaching and practice teaching.Through the course of data mining, students' professional quality has been improved and their competitiveness has been strengthened.
Key words: big data; data mining; Python; teaching method; personnel training
1 概述
我們所處的時代,各行各業的海量數據集不斷出現,新知識、新技術層出不窮,云計算、物聯網、數據挖掘、機器學習、深度學習的技術應用到各行各業中。2015年9月,國務院印發《促進大數據發展行動綱要》,系統部署大數據發展工作;2016年3月17日,《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》發布,在第六篇拓展網絡經濟空間中的第二十七章“實施國家大數據戰略”提出:把大數據作為基礎性戰略資源,全面實施促進大數據發展行動。麥肯錫全球研究所的報告[1]也指出有效地捕捉、分析、可視化、應用大數據來洞察、實現業務目標,將能夠幫助企業從激烈的競爭中脫穎而出。時代的發展,數據管理方式的變化必將帶來人才培養方式的革命性改變。以往計算機及相近專業的專業課程逐漸在經管類專業開設,數據挖掘就是其中的一門。由于數據挖掘課程在理工類專業開設較多,所以教學方法的討論也集中在計算機及相近專業。文獻[2]以構建課程核心知識體系為主題,采用案例教學法,改革傳統的教學評價方式,理論結合實踐對作為計算機應用專業的研究生核心課程數據挖掘進行了教學創新嘗試;文獻[3]也是對作為計算機科學與技術專業的核心課程數據挖掘提出以項目式學習為導向,案例輔助教學的教學方法,結合翻轉課堂教學模式,從課前學習、課中討論和課后應用三個環節開展教學活動,提倡研究生自主學習;文獻[4]詳細分析了數據挖掘課程產生的背景,確立數據挖掘課程在計算機及相關專業的定位,梳理了數據挖掘課程的理論方法與內容體系,強調注重理論與實際應用項目的結合。在經管類專業中開設數據挖掘課程,與在理工類專業開設既有相似的地方,又有很多不同點?;诖?,我們有必要探討在大數據背景下經管類專業開設數據挖掘課程如何設計教學內容,如何采用行之有效的教學方法提高學生數據分析數據挖掘的能力,以便能夠在大數據時代提高自己的競爭力。
2 經管類專業開設數據挖掘課程面臨的問題
數據挖掘課程是理論和實踐緊密結合的一門課程,理論要求較高,涉及數據與信息的存儲理論、知識發現、決策支持、預測和決策等多個方面;數據挖掘課程又是一門交叉學科,學生知識結構不完整,可能存在某些缺陷;工具的選擇也很多,Matlab、SPSS、SAS、Python等都是很好的數據挖掘工具,雖然不太可能要求學生每種工具都熟練掌握,但是要用到這些工具做數據挖掘必須掌握基本的語法結構和程序設計的方法,有的學生并不具備這方面的技能。
3 采用的教學方法
我們采用的教學方法是“理論——案例——實踐”貫穿于整個教學過程中。
3.1 教材的選擇以及內容的重組
數據挖掘的經典教材是由范明、范宏建等譯的《數據挖掘導論》,這本書的好處是考慮到學習這門課程的學生背景不同,他們可能并不具備廣博的統計學和數據庫知識,將統計學、線性代數和機器學習的必要基礎知識或融入正文,或包含在附錄中[5]。這樣的安排非常適合我們學校經管類的學生,他們并不具備非常完備的統計學、數學、計算機的知識,但又不是完全不懂,略知一二,具備學習數據挖掘的基本條件,他們的共同目標是盡快地將數據挖掘的知識應用到各自的領域。我們主要講解分類、聚類、回歸等算法,同時融合李航教授的《統計學習方法》[6]相關內容;對于算法這本書給出的均是算法框架,需要用一門高級語言真正來實現,為了更好地理解其中各項參數的意義,我們又參考了《集體智慧編程》[7]、《智能Web算法》[8]等有關編程的書籍;另外,利用網絡資源如Coursera上的 Machine Learning 公開課,講了很多經典算法,還提供了用Python寫的Demo。我們將這些內容融合在一起,組成具有經管特色的數據挖掘課程的內容。
3.2 要求學生理解并編寫算法,真正弄懂算法的內涵
數據挖掘課程中有很多經典算法,理解這些經典算法就要弄懂其中的關鍵步驟和涉及的函數。比如在單變量線性回歸問題中,著重要理解損失函數,理解了損失函數繼而能夠講解梯度下降算法。梯度下降算法主要有三種變種:批量梯度下降、隨機梯度下降、小批量梯度下降,主要區別在于使用多少數據來計算目標函數的梯度,不同方法主要在準確性和優化速度間做權衡。繼而我們要求學生從創建數據集、定義模型、定義損失函數、初始化模型到訓練、繪制擬合曲線圖、繪制訓練誤差圖,訓練完成以后,比較學得的參數和真實參數,用Python代碼一步一步地實現,并且嘗試用不同的學習率查看誤差下降速度(收斂率)。同樣在多變量線性回歸問題中,算法原理講解完成以后,也是類似地用Python代碼一步一步實現。這樣類似的算法還有很多,如對手寫數字進行識別要利用分類算法,分類算法有K-近鄰、樸素貝葉斯、支持向量機、AdaBoost算法等;群組發現或短文本聚類要用到聚類算法(K-means算法等)。這樣學生既熟悉了語言,又對算法有全方位的理解,真正弄懂算法的內涵。
3.3 案例教學:用機器學習庫解決問題
弄清楚解決問題的算法后,我們就要用到機器學習庫解決問題。對同一個問題可以使用不同的方法來解決。比如預測房價是一個回歸問題,sklearn機器學習包中已經自帶了該數據集,可以直接引用。先對房價數據集進行簡單的數據可視化,了解其中的數據情況。接著做線性回歸,劃分數據集為訓練集和測試集,然后導入線性回歸模型,隨后對訓練集進行訓練操作,預測結果,最后評估模型的性能。接著我們可以使用多項式回歸與曲線擬合、使用基于樹的算法進行回歸(決策樹回歸、隨機森林回歸),比較不同模型的性能。
3.4 實踐教學:利用所學完成實踐項目
學生了解算法再經過案例教學后,就可以利用所學完成實踐項目了。我們將學生分成小組,3~5個人一組,共同完成實踐項目。比如可以從中國國家統計局官網上下載有關房價的數據,分析房屋均價,并選取與其有關的如國內生產總值、全國居民消費水平等變量進行多元回歸分析。學生完成項目以后,學生自評、教師點評,既肯定做得到位的地方,也指出不足之處,以便學生能更好地提高和發展。同時這一屆做得好的項目可以當作下一屆的案例。
4 結束語
數據挖掘是一門重要的專業基礎課程,必須具備多學科、多領域的理論知識,并結合實踐應用提升學生的學習效果和專業水平[4]。在大學里,設置一門課程,不能只關注這門課程所含的內容,更要考慮教育培養學生基本專業能力、可持續發展能力等本質性的問題[2]。我們對在經管類專業中引入數據挖掘課程進行了有益的嘗試。實踐證明,通過這門課程的學習,學生運用數據挖掘的知識解決專業問題的水平顯著提高,懂得了團隊合作的重要性,增強了競爭力。同時,教師在教授這門課程的過程中完善了自身的知識結構,教學水平也得到了不斷地提高。
參考文獻:
[1] http://cdn.oreillystatic.com/en/assets/1/event/71/Big%20Data_%20The%20Next%20Frontier% 20Presentation.pdf.
[2] 張艷.大數據背景下的數據挖掘課程教學的新思考[J].計算機時代,2014(1):59-61.
[3] 陳晶,呂佳.高校數據挖掘課程教學模式探究[J].電腦知識與技術, 2018,14(1):45-46.
[4] 陳燕. 數據挖掘課程教學方法初探[J].教育教學論壇,2018,3(13):146-148.
[5] [美]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.數據挖掘導論:完整版[M].2版.范明,范宏建,等,譯.北京:人民郵電出版社,2011.1.
[6] 李航.統計學習方法[M]. 北京:清華大學出版社,2012.3
[7] [美]Toby Segaran.集體智慧編程[M]. 莫映,王開福, 譯.北京:電子工業出版社,2015.3.
[8] [英]Douglas G.Mcll wraith [美]HaralambosMarmains,DmitryBabenko.智能Web算法(第2版)[M]. 陳運文等,譯. 北京:電子工業出版社,2017.6.
[通聯編輯:王力]