李姍姍 李忠
摘 要: 為了解決數據挖掘教學中教學內容與就業需求相脫節問題,探討了以市場需求為導向的數據挖掘課程內容體系。該課程體系包含三大環節:基于縱向和橫向案例的理論教學;包含驗證性、設計性、綜合性實驗的實驗教學;基于自主學習的討論式教學。通過對教學效果的多角度分析認為,該內容體系的設計符合目前的市場環境需求,能夠實現人才培養和就業需求接軌。
關鍵詞: 就業需求; 數據挖掘; 課程內容體系; 人才培養
中圖分類號:G642 文獻標志碼:A 文章編號:1006-8228(2015)02-60-02
Exploration on course framework of data mining in application-oriented
university driven by employment needs
Li Shanshan, Li Zhong
(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)
Abstract: In order to solve the disjointed problem of teaching content of data mining course and employment needs, a market demand-oriented data mining course content framework is explored. The course content framework is comprised of three main components: the theory of teaching based on the lateral and longitudinal case, experimental teaching including verification, design, comprehensive experiments, and discussion teaching based on self-learning. Multi-angle analysis of teaching effectiveness shows that course content framework meets the needs of the current market environment and achieves the personnel training seamless integration with the employment needs.
Key words: employment needs; data mining; course content framework; personnel training
0 引言
隨著計算機軟件和硬件技術的快速發展,以及互聯網的急速發展和普及,企業級數據不斷膨脹,“TB級別”的數據庫存儲已并不罕見,諸如銀行、醫療、零售、電信、保險等行業,正在使我們漸漸窺探到海量數據時代的特征。大數據時代已經來臨。如何從浩如煙海的數據中挖掘出令人感興趣和有用的知識,成為各行各業急需解決的問題。
毋庸置疑,數據挖掘技術是解決這一問題的主要技術,目前,它被廣泛應用于各行各業,為企業挖掘出了寶貴的知識,帶來了巨大的利潤。同時,它也廣泛應用于科學研究中。比如,對大量的衛星監測數據進行挖掘分析,對海量地震數據進行挖掘分析,都可以從中發現新知識。數據挖掘技術的廣泛應用,必然驅使市場對數據挖掘技術人才的迫切需求。
在這一形勢下,作為培養應用型人才的本科院校,開設數據挖掘課程是非常必要的。已有很多高校開始嘗試在本科生中開設此課程[2-4]。不同的學校將該課程開設在不同的專業中,比如有計算機專業、信息管理專業、統計學、醫學等。然而,該課程是一門相對較新的交叉學科,涵蓋了概率統計,機器學習,數據庫等學科知識內容,難度較大,教學實踐中普遍存在教學內容不合理的問題。課程的基本教學內容是講授大量數據挖掘算法,導致學生單純地把數據挖掘理論看成是數學公式的堆砌,把數據挖掘系統編程看成是代碼的編寫,頭腦中缺乏完整的體系架構。學生學完后,不知道學的是什么,無法將所學靈活運用解決實際問題,這必然導致學生的技能與軟件企業的要求有差距,造成教學內容與就業需求相脫節。
本文從就業需求出發,探討本科院校計算機專業的數據挖掘課程內容體系,使得知識體系相對薄弱的本科生,通過課程學習,能滿足企業的需求,實現技能和企業需求的無縫接軌。
1 就業需求分析
當前數據挖掘應用主要集中在電信、零售、農業、網絡日志、銀行、電力、生物(基因)、天體(星體分類)、化工、醫藥等方面。主要解決以下幾個方面的問題:數據庫營銷、客戶群體劃分、背景分析、交叉銷售等市場分析行為,以及客戶流失性分析、客戶信用記分、欺詐發現等等[5]。我們對智聯招聘,中華英才網、51job等幾個大型招聘網站的幾百個數據挖掘相關職位進行了分析,主要分析了相關職位的工作內容、職位要求,需求企業。目前,市場急需的數據挖掘相關職位主要分為三大類,分別是數據分析師、數據挖掘軟件開發工程師、數據挖掘算法工程師,見表1。
數據分析師主要利用數據挖掘工具對運營數據等多種數據源進行預處理、建模、挖掘、分析及優化。該職位是受業務驅動的,特點是將現有數據與業務相結合,最大程度地體現數據價值。該職位對計算機編程等相關技術不作要求,但是需要有深厚的數據挖掘理論基礎,能熟練使用主流的數據挖掘(或統計分析)工具。數據挖掘軟件開發工程師主要是開發具有數據挖掘功能的軟件。當前主要包括如下方向:企業數據挖掘、Web數據挖掘、空間數據挖掘、多媒體數據挖掘等。該職位不但需要熟練掌握數據挖掘相關算法和理論,還需要掌握軟件開發語言,具有較強的編程能力。數據挖掘算法工程師主要偏向技術、算法層面。因現有算法已經不能滿足業務要求,必須開發出新的算法。比如,對企業供應鏈管理業務數據進行分析,針對預測及促銷模塊,改進已有算法,設計并實現新算法,提高數據處理速度及準確性。該職位需求與數據挖掘軟件開發工程師職位要求基本相似。可見,企業對就業者的要求主要包含三個方面:①熟練掌握數據挖掘相關理論和算法;②掌握一種數據挖掘分析工具;③具有數據挖掘軟件開發能力。
2 數據挖掘課程內容體系
基于企業對就業者的三大需求,我們構建了數據挖掘課程內容體系,整個課程由三個環節支撐,分別是理論教學、討論教學和實驗教學。
在理論教學方面,我們通過對企業對就業者關于數據挖掘算法和理論方面的要求,結合本科生的知識體系,制定了教學內容,見表2。內容主要包括數據挖掘的三大功能:分類與預測、聚類分析和關聯分析。共安排30學時。我們采用縱向、橫向雙向案例教學法開展理論教學。在對每種算法講解時,采用縱向深度案例教學,即由小數據集案例進行一步步算法推導,將比較抽象的算法具體化;主要解決的是“what”和“why”問題,即算法原理是什么的問題,重點是加深學生對算法的理解和吸收。比如,在學習ID3分類算法時,通過對一個只有14條用戶購買電腦的相關記錄來構建決策樹,并對某人是否購買電腦進行預測。每個大章節后,我們采用橫向案例教學法,即由實際大數據集工程案例來進行全過程挖掘分析,使學生能夠理論聯系實際;主要解決的是“how”問題,即如何使用算法進行實際案例的建模、挖掘和分析的全過程,重點是幫助學生用所學的算法解決實際問題,加強對數據挖掘全過程的理解。所選案例如地質調查數據的挖掘、黃河開河日期預測、購物籃商品關聯分析、衛星數據異常分析等。
由于本課程具有一定的研究性質,因此,為了培養學生的自主研究能力,激發學生的學習興趣,特別安排了調研討論環節。該環節中,學生分組對數據分類、關聯分析及聚類分析的應用案例進行課下調研分析,并安排2學時進行課上分組討論和匯報。
實驗課占16學時,主要培養學生基于數據挖掘軟件Spss-Clementine的數據挖掘分析能力,以及數據挖掘軟件開發能力。分為驗證性實驗、設計性實驗、綜合性實驗,見表3。驗證性實驗主要采用Spss-Clementine實現對數據的預處理、建模、挖掘、評估過程。設計性實驗中給定學生一組實際數據(數據主要來自與加州大學歐文分校UCI數據庫[6])進行多角度挖掘分析,培養學生的數據分析能力。綜合性實驗要求學生采用一種開發語言實現一種數據挖掘算法,并對感興趣的數據進行挖掘,進一步加強學生的軟件開發及數據分析能力。
3 結束語
應用型本科院校的教學應以市場驅動為導向。通過對數據挖掘市場需求分析,明確了市場對學生能力的要求,以此為導向,設計了該課程內容體系。通過對此次教學改革前后學生的考試成績、畢業設計、就業意向和就業去向等方面進行比較分析,我們發現學生的期末考試成績顯著提高,表明學生對數據挖掘理論掌握有所提高;數據挖掘方面的畢業設計數量和意向從事數據挖掘工作的人數明顯增多,表明學生的學習興趣得以激發;畢業后從事數據挖掘人數有所提高,表明達到企業需求技能的學生不斷增多。因此,該內容體系的設計符合目前的市場環境需求,實現了人才培養和就業需求接軌。
參考文獻:
[1] 張艷.大數據背景下的數據挖掘課程教學新思考[J].計算機時代,
2014.4:59-61
[2] 李海林.大數據環境下的數據挖掘課程教學探索[J].計算機時代,
2014.2:54-55
[3] 宋威,李晉宏.項目驅動的數據挖掘教學模式探討[J].中國電力教育,
2011.27:116-177
[4] 徐金寶.對應用型本科生開設數據挖掘課程的嘗試[J].計算機教育,
2007.7:27-30
[5] 范明.數據挖掘導論[M].人民郵電出版社,2011.
[6] UCI ICS. UCI machine learning repository[EB/OL],2014.