李秀秀?沈洪銳



摘要:針對(duì)大數(shù)據(jù)導(dǎo)論課程教學(xué)中存在的學(xué)生專(zhuān)業(yè)基礎(chǔ)薄弱、課程內(nèi)容多且結(jié)構(gòu)復(fù)雜、傳統(tǒng)教學(xué)手段教學(xué)效果不佳等問(wèn)題,提出了利用大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)和工程案例進(jìn)行實(shí)踐教學(xué)的優(yōu)勢(shì),闡述了課程重點(diǎn)內(nèi)容的具體教學(xué)設(shè)計(jì)思路。
關(guān)鍵詞:大數(shù)據(jù)導(dǎo)論;大數(shù)據(jù)實(shí)訓(xùn)平臺(tái);實(shí)踐教學(xué)
隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)技術(shù)應(yīng)用越來(lái)越受到各行各業(yè)的重視。大數(shù)據(jù)導(dǎo)論課程的目標(biāo)和任務(wù)是通過(guò)課程的學(xué)習(xí),使學(xué)生了解大數(shù)據(jù)相關(guān)基礎(chǔ)知識(shí),熟悉大數(shù)據(jù)處理的主要環(huán)節(jié)(數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)分析和數(shù)據(jù)展現(xiàn)),了解大數(shù)據(jù)處理各環(huán)節(jié)涉及的理論知識(shí)、技能和相關(guān)通用工具。該課程是大數(shù)據(jù)人才培養(yǎng)方向的學(xué)科基礎(chǔ)課程,對(duì)學(xué)生今后專(zhuān)業(yè)的深入學(xué)習(xí)具有基石作用,因而提高這門(mén)課程的教學(xué)質(zhì)量、培養(yǎng)學(xué)生濃厚的專(zhuān)業(yè)興趣具有重要意義[1]。
1大數(shù)據(jù)導(dǎo)論課程現(xiàn)階段存在的問(wèn)題
1.1學(xué)生專(zhuān)業(yè)基礎(chǔ)薄弱
由于大數(shù)據(jù)導(dǎo)論課程為專(zhuān)業(yè)基礎(chǔ)課程,在課程開(kāi)設(shè)時(shí),學(xué)生還未學(xué)習(xí)相關(guān)的↓專(zhuān)業(yè)課程(如:hadoop技術(shù)、大數(shù)據(jù)采集和可視化、數(shù)據(jù)庫(kù)應(yīng)用、數(shù)據(jù)挖掘等)。在實(shí)際教學(xué)中發(fā)現(xiàn),大部分學(xué)生對(duì)大數(shù)據(jù)專(zhuān)業(yè)認(rèn)識(shí)尚淺,對(duì)深入的大數(shù)據(jù)技術(shù)理論知識(shí)難以理解。因而如何能在學(xué)生專(zhuān)業(yè)基礎(chǔ)薄弱的學(xué)情下,深入淺出地讓學(xué)生直觀感知大數(shù)據(jù)平臺(tái)(了解hadoop分布式存儲(chǔ)架構(gòu)及其組件,并能執(zhí)行相關(guān)操作指令),通過(guò)案例實(shí)踐學(xué)習(xí)大數(shù)據(jù)分析各環(huán)節(jié)內(nèi)容顯得十分必要[2]。
1.2課程內(nèi)容多且結(jié)構(gòu)復(fù)雜,傳統(tǒng)教學(xué)手段教學(xué)效果不佳
大數(shù)據(jù)導(dǎo)論課程內(nèi)容涉及范圍廣,體系龐雜。涵蓋大數(shù)據(jù)基礎(chǔ)知識(shí)、大數(shù)據(jù)技術(shù)處理流程和大數(shù)據(jù)應(yīng)用等方面[3]。而大數(shù)據(jù)技術(shù)處理流程這一主要模塊又包括數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化及數(shù)據(jù)安全與隱私保護(hù)等方面知識(shí),如圖1所示。其中每一個(gè)處理流程包含各種傳統(tǒng)技術(shù)和前沿技術(shù)等不同模塊知識(shí)點(diǎn)介紹。以數(shù)據(jù)采集為例,在渠道來(lái)源方面有網(wǎng)頁(yè)、傳感器、數(shù)據(jù)庫(kù)等;在數(shù)據(jù)類(lèi)型方面有文本、圖像、視頻等。如果使用python工具包從各源頭進(jìn)行數(shù)據(jù)獲取,方法可多達(dá)十幾種。
面對(duì)課程繁雜的知識(shí)內(nèi)容和知識(shí)結(jié)構(gòu),若采用傳統(tǒng)知識(shí)傳授型的授課方式,由于理論體系復(fù)雜,技術(shù)內(nèi)容深?yuàn)W,學(xué)生對(duì)課程內(nèi)容難以消化吸收,授課效果較差,影響學(xué)習(xí)興趣。因此,如何能將課程的主要知識(shí)架構(gòu)和重難點(diǎn)知識(shí)在有限的課堂時(shí)間內(nèi)盡可能直觀、生動(dòng)地讓學(xué)生理解,引起學(xué)生對(duì)專(zhuān)業(yè)學(xué)習(xí)的濃厚興趣,是大數(shù)據(jù)導(dǎo)論課程亟待解決的一個(gè)難題。
2.大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)和工程案例在大數(shù)據(jù)導(dǎo)論實(shí)踐教學(xué)中的應(yīng)用
2.1大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)的應(yīng)用
大數(shù)據(jù)處理平臺(tái)架構(gòu)是大數(shù)據(jù)導(dǎo)論的重點(diǎn)模塊內(nèi)容,是大規(guī)模數(shù)據(jù)處理的基礎(chǔ)架構(gòu)。以開(kāi)源大數(shù)據(jù)分布式存儲(chǔ)和處理框架hadoop為例[3],hadoop生態(tài)系統(tǒng)(如圖2所示)核心是分布式文件系統(tǒng)HDFS、分布式計(jì)算框架MapReduce,其他組件有數(shù)據(jù)采集系統(tǒng)Sqoop和Flume、分布式數(shù)據(jù)庫(kù)Hbase、數(shù)據(jù)倉(cāng)庫(kù)工具h(yuǎn)ive等。
對(duì)此模塊進(jìn)行實(shí)踐教學(xué)時(shí)存在兩大難題:一是學(xué)生缺乏搭建大數(shù)據(jù)分布式架構(gòu)所需的軟件基礎(chǔ)知識(shí)(如Linux基礎(chǔ)、java基礎(chǔ)和數(shù)據(jù)庫(kù)語(yǔ)言sql基礎(chǔ));二是學(xué)生使用單機(jī)進(jìn)行大數(shù)據(jù)虛擬平臺(tái)搭建存在對(duì)硬件要求高、軟件安裝繁瑣的問(wèn)題。大數(shù)據(jù)虛擬實(shí)訓(xùn)平臺(tái)以大數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)HDFS為基礎(chǔ),根據(jù)不同的實(shí)踐內(nèi)容安裝相應(yīng)的組件,既能讓學(xué)生免去繁瑣的基礎(chǔ)架構(gòu)搭建和組件安裝,又能通過(guò)終端指令界面直觀地進(jìn)行Hdfs的文件操作、MapReduce分詞計(jì)算、Hive數(shù)據(jù)庫(kù)表格處理等實(shí)踐內(nèi)容,能較好地解決大數(shù)據(jù)架構(gòu)模塊實(shí)踐教學(xué)難的問(wèn)題[4]。大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)具體設(shè)計(jì)模塊如表1所示。
2.2工程案例的應(yīng)用
大數(shù)據(jù)導(dǎo)論課程另一重點(diǎn)內(nèi)容是大數(shù)據(jù)處理的一般過(guò)程(數(shù)據(jù)采集、數(shù)據(jù)清洗和預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析和挖掘、數(shù)據(jù)可視化)相關(guān)的基本理論和技術(shù)。
根據(jù)理論課程教學(xué)進(jìn)度(每個(gè)處理過(guò)程分章節(jié)講解),選擇不同類(lèi)型的數(shù)據(jù)(如:結(jié)構(gòu)化表格、網(wǎng)頁(yè)文本、圖形等),設(shè)計(jì)實(shí)踐案例,要求學(xué)生在實(shí)際業(yè)務(wù)數(shù)據(jù)集上運(yùn)用所學(xué)知識(shí)解決實(shí)際問(wèn)題,提高學(xué)生的動(dòng)手能力和學(xué)習(xí)興趣。本模塊的學(xué)習(xí)可由淺入深,分別采用描述性分析案例和數(shù)據(jù)挖掘案例進(jìn)行實(shí)踐教學(xué)。描述性分析案例實(shí)踐重點(diǎn)培養(yǎng)學(xué)生數(shù)據(jù)清洗和預(yù)處理、數(shù)據(jù)統(tǒng)計(jì)結(jié)果獲取和結(jié)果展現(xiàn)的能力;數(shù)據(jù)挖掘案例實(shí)踐重點(diǎn)培養(yǎng)學(xué)生對(duì)數(shù)據(jù)寬表進(jìn)行特征提取、建模和分析預(yù)測(cè)的能力[5]。
描述性分析案例具體設(shè)計(jì)思路:為了讓學(xué)生初步認(rèn)識(shí)數(shù)據(jù)結(jié)構(gòu),能夠跟著老師的講解,通過(guò)數(shù)據(jù)理解、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析,一步一步解決實(shí)際業(yè)務(wù)問(wèn)題。筆者根據(jù)教學(xué)進(jìn)度,設(shè)計(jì)難易適中的業(yè)務(wù)數(shù)據(jù)集和描述性分析任務(wù),讓學(xué)生體驗(yàn)通過(guò)用python編程,處理繁雜數(shù)據(jù)獲取信息的樂(lè)趣。
數(shù)據(jù)挖掘案例具體設(shè)計(jì)思路:數(shù)據(jù)挖掘案例涉及數(shù)據(jù)特征提取、建模和模型評(píng)估等環(huán)節(jié),涉及算法知識(shí),流程較為復(fù)雜;針對(duì)學(xué)生基礎(chǔ)薄弱的實(shí)情,此部分內(nèi)容重在讓學(xué)生直觀了解數(shù)據(jù)挖掘流程,為后續(xù)數(shù)據(jù)建模、數(shù)據(jù)挖掘課程學(xué)習(xí)打下基礎(chǔ)。結(jié)合學(xué)校已有實(shí)訓(xùn)平臺(tái)資源。筆者主要采取用python工具進(jìn)行數(shù)據(jù)挖掘案例演示或?qū)W生登錄實(shí)訓(xùn)平臺(tái),用已有案例進(jìn)行數(shù)據(jù)挖掘流程操作。
3結(jié)束語(yǔ)
大數(shù)據(jù)導(dǎo)論課程既是一門(mén)基礎(chǔ)性課程也是一門(mén)綜合課程,相對(duì)于其他專(zhuān)業(yè)課程而言,本課程教學(xué)內(nèi)容的綜合性和復(fù)雜性特征更加突出。通過(guò)對(duì)大數(shù)據(jù)導(dǎo)論課程設(shè)計(jì)實(shí)踐教學(xué)模塊,我們發(fā)現(xiàn),學(xué)生積極性大幅提升,課前能夠積極預(yù)習(xí),課堂踴躍回答老師提問(wèn),課堂學(xué)習(xí)氛圍濃厚。課下,學(xué)生也能積極對(duì)課程相關(guān)專(zhuān)業(yè)知識(shí)進(jìn)行擴(kuò)展學(xué)習(xí),極大地提高了學(xué)生學(xué)習(xí)的自主性和創(chuàng)造性,為后續(xù)專(zhuān)業(yè)課程的學(xué)習(xí)打下了良好的基礎(chǔ)。
參考文獻(xiàn):
[1]張祖平.新工科背景下大數(shù)據(jù)專(zhuān)業(yè)導(dǎo)論課程的改革與探索[J].大數(shù)據(jù),2018,4(06):38-45.
[2]唐國(guó)明,雷軍,趙翔,唐九陽(yáng),郭得科.基于教育云平臺(tái)的數(shù)據(jù)科學(xué)導(dǎo)論翻轉(zhuǎn)課堂設(shè)計(jì)[J].計(jì)算機(jī)教育,2019(08):18-22.
[3]張堯?qū)W.大數(shù)據(jù)導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2018.8
[4]覃雄派,陳躍國(guó),李翠平,柴云鵬,徐君,文繼榮,杜小勇.“數(shù)據(jù)科學(xué)”課程群與“數(shù)據(jù)科學(xué)導(dǎo)論”課程建設(shè)初探[J].大數(shù)據(jù),2018,4(06):19-28.
[5]肖雄,韋茜妤,王萌.“新工科”背景下“數(shù)據(jù)科學(xué)導(dǎo)論”課程教學(xué)研究[J].工業(yè)和信息化教育,2020(03):54-59.
[6]周蘇,王文.大數(shù)據(jù)導(dǎo)論[M].北京:清華大學(xué)出版社,2016.
資助項(xiàng)目:
2019年省本科高校質(zhì)量工程建設(shè)項(xiàng)目——《電子信息工程》特色專(zhuān)業(yè)(項(xiàng)目序號(hào):69);
全國(guó)教育信息技術(shù)研究課題(編號(hào):176140036)。