陳國彬

摘 要:數(shù)據(jù)挖掘與分析是近幾年本科專業(yè)中,成為新工科的強(qiáng)勢專業(yè)。能夠引導(dǎo)很多專業(yè)建設(shè)與之交叉應(yīng)用,具有很大的發(fā)展空間和應(yīng)用前景。在本科教學(xué)中,數(shù)據(jù)挖掘與分析知識體系結(jié)構(gòu)與人才培養(yǎng)的目標(biāo)要一致,特別是面向企業(yè)中應(yīng)用,能夠適應(yīng)企業(yè)的用人需求。這樣才能培養(yǎng)出適應(yīng)新工科的學(xué)生培養(yǎng)目標(biāo),實現(xiàn)對現(xiàn)代企業(yè)的人才需求高度吻合。
關(guān)鍵詞:數(shù)據(jù)挖掘與分析;新工科;交叉應(yīng)用;本科教學(xué)
1、引言
隨著國家人才政策調(diào)整和國家經(jīng)濟(jì)發(fā)展轉(zhuǎn)型,對生產(chǎn)技術(shù)提出更高的要求。人才培養(yǎng)是大學(xué)教育的重要環(huán)節(jié),能夠培養(yǎng)出適應(yīng)我國現(xiàn)階段的人才是實現(xiàn)我國家經(jīng)濟(jì)發(fā)展的重要保障。然而現(xiàn)階段本科高等學(xué)校對數(shù)據(jù)挖掘與分析課程體系建設(shè)不足,存在知識點過舊,傳統(tǒng)的體系結(jié)構(gòu)已經(jīng)不適應(yīng)現(xiàn)在科學(xué)等問題。要對數(shù)據(jù)挖掘與分析課程進(jìn)行相關(guān)改革和應(yīng)用,文獻(xiàn)[1]從培養(yǎng)數(shù)據(jù)意識、加強(qiáng)理論體系、創(chuàng)新教學(xué)方法和深入科學(xué)研究等4個方面來探索如何設(shè)計高校數(shù)據(jù)挖掘課程,以解決大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘課程因抽象而帶來的問題;文獻(xiàn)[2]針對大數(shù)據(jù)的特點,以構(gòu)建課程核心知識體系為主題,采用案例教學(xué)法,改革傳統(tǒng)的教學(xué)評價方式,理論結(jié)合實踐進(jìn)行研究生數(shù)據(jù)挖掘課程教學(xué)創(chuàng)新嘗試,教學(xué)達(dá)到了預(yù)期效果,受到學(xué)生好評;文獻(xiàn)[3]結(jié)合大數(shù)據(jù)的特點,對大數(shù)據(jù)時代數(shù)據(jù)存儲與挖掘算法的教學(xué)改革進(jìn)行分析,對后續(xù)研究提供了參考;文獻(xiàn)[4]對數(shù)據(jù)挖掘課程的特點和應(yīng)用領(lǐng)域、數(shù)據(jù)預(yù)處理方法和關(guān)鍵的四項技術(shù)、Web 挖掘與個性化推薦以及算法實現(xiàn)及應(yīng)用上做了分析,對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程做了嘗試;文獻(xiàn)[5]提出通過建設(shè)開放數(shù)據(jù)挖掘?qū)嵺`教學(xué)資源庫來提升教學(xué)效果。
2、課程體系存在的問題
2.1 知識點過舊
很多知識都是對傳統(tǒng)的一些基本算法和結(jié)構(gòu)進(jìn)行講解,知識點基本是采用10年左右知識點,從理論創(chuàng)新性來講已經(jīng)失去了價值。從課程體系上分析,課程采用的知識結(jié)構(gòu)大概如下:認(rèn)識數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫、挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性、分類與預(yù)測、聚類分析、離群點檢測等知識點。這些知識點采用很強(qiáng)的理論方法與形式化方法進(jìn)行理論推導(dǎo)與證明。
2.2 課程體系結(jié)構(gòu)存在的問題
傳統(tǒng)課程體系上采用不同知識的融于整課程教學(xué)體系,而后面幾個章節(jié)中,例如:分類與預(yù)測、聚類分析等兩個知識講解中,會使很多同學(xué)感覺到在大量的數(shù)據(jù)面前,不知道如何運用這些知識點進(jìn)行運用。課程體系上存在不足,對運用知識點不能夠正確的應(yīng)用。要能課程體系進(jìn)行統(tǒng)一規(guī)劃,能夠把知識一環(huán)扣一環(huán)地進(jìn)行講解。從同一個數(shù)據(jù)采用不同方法得到不同結(jié)果,來分析這些理論的真正意義。
2.3 實踐性不強(qiáng)
這些知識點都是注重理論上講解,從公式推導(dǎo)一步一步實現(xiàn)最終的結(jié)果。然而,如何采用計算機(jī)能夠操作語言來進(jìn)行運用,存在較大的差異,采用什么語言和算法對結(jié)果都存在差異。對于課程中基本無可操作性代碼,對實現(xiàn)過程不注重算法實現(xiàn)。
2.4 課程與其它課程交叉應(yīng)用不足
數(shù)據(jù)挖掘與分析一般是針對其它領(lǐng)域中的應(yīng)用研究,一般能夠服務(wù)其它行業(yè)。它實際是一個實踐工具,對其它課程或?qū)I(yè)進(jìn)行有效地結(jié)合,能夠起解決其它專業(yè)的很多實際應(yīng)用問題。然而,課程體系中并沒有用足夠的章節(jié)來對專業(yè)交叉應(yīng)用進(jìn)行講解,而是一直講知識點本身的理論來源與證明過程。
3 數(shù)據(jù)挖掘課程體系幾點建議
3.1 知識進(jìn)行實時更新
數(shù)據(jù)挖掘知識除了對分類與預(yù)測、聚類分析、關(guān)聯(lián)和相關(guān)性等知識講解外,能夠注重數(shù)據(jù)處理過程。在不同教學(xué)過程中,對教學(xué)內(nèi)容注重實踐性和現(xiàn)在主流技術(shù)講解。對其它知識點要進(jìn)行補充:回歸分析、數(shù)據(jù)挖掘工具、知識發(fā)現(xiàn)過程、中文文本挖掘、Web挖掘等知識點進(jìn)行學(xué)習(xí)。
3.2 運用語言進(jìn)行實踐
數(shù)據(jù)挖掘課程是理論和實踐性都比較強(qiáng)的課程,能夠運用計算機(jī)語言實現(xiàn)各類數(shù)據(jù)算法進(jìn)行實現(xiàn)。目前比較理想的語言Python,能夠提供各種算法的包,不斷更新和下載等服務(wù)。
3.3 教學(xué)實踐內(nèi)容增強(qiáng)
對于課程中存在大量的理論知識點,很多都沒有通過實踐形式來實現(xiàn)知識點的應(yīng)用價值,為了能夠?qū)崿F(xiàn)應(yīng)用于本科教學(xué)中實踐內(nèi)容,本論文提出對以下知識點內(nèi)容進(jìn)行實踐教學(xué),其內(nèi)容如下表所示:
知識點 實踐內(nèi)容
分類 ID3判斷性別、神經(jīng)網(wǎng)絡(luò)實現(xiàn)判斷葡萄酒偽劣品,基于分類技術(shù)對某零售商產(chǎn)品精準(zhǔn)廣告投放營銷,采用樸素貝葉斯分類模型和KNN分類模型、決策樹分類、神經(jīng)網(wǎng)絡(luò)分類幾種分類算法在同一組數(shù)據(jù)進(jìn)行實現(xiàn),分別體會差異性。
回歸分析 多元線性回歸實踐、邏輯回歸模型實踐、基于線性回歸技術(shù)預(yù)測某社區(qū)新客戶的熱燃油用量、基于邏輯回歸技術(shù)預(yù)測心臟病二次發(fā)作率。
聚類分析 k-means實踐,基于聚類分析方法的患冠心病率狀況實踐。
文本挖掘 中文文本挖掘?qū)嵺`、基于文本挖掘技術(shù)對垃圾短信、郵件精準(zhǔn)檢測、基于協(xié)同過濾算法的電影推薦。
上述知識點的實踐,都是對算法設(shè)計和程序設(shè)計要求比較高,通過這種實踐教學(xué),能夠大大提高學(xué)生實踐應(yīng)用能力和技術(shù)水平。
4 結(jié)論
本科教學(xué)中,在數(shù)據(jù)挖掘與分析課程建設(shè)中存在很多問題,通過相關(guān)問題的深入解讀和調(diào)整,能夠把學(xué)生的實踐應(yīng)用能力提高,再是解決學(xué)生與企業(yè)之間的障礙。讓整個課程體系得到一個正常地發(fā)展,也能面向現(xiàn)代技術(shù)進(jìn)步帶來的挑戰(zhàn)。
參考文獻(xiàn)
[1] 李海林. 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J]. 計算機(jī)時代, 2014(2): 54-55.
[2] 張艷. 大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J]. 計算機(jī)時代, 2014(4): 59-61.
[3] 黃艷梅. 大數(shù)據(jù)存儲與挖掘算法的教學(xué)改革分析[J]. 電腦迷, 2016(11): 69-69.
[4] 徐金寶. 對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J]. 計算機(jī)教育; 2007(14): 27-29.
[5] 黃嵐. 數(shù)據(jù)挖掘課程實踐教學(xué)資源庫建設(shè)[J]. 計算機(jī)教育, 2014(12): 89-92.