


[摘 要]根據國家戰略及大數據產業的發展需求,具備較好的數據素養及大數據技能是至關重要的。高校作為人才培養的重要基地,大數據概論課顯得尤為重要。大數據概論是海量數據時代下設立的一門專業必修教育課程。全書從數據的采集和預處理、數據的存儲和管理技術、數據的處理和分析到數據的可視化進行具體講解且結合新的課程設計及考核方式培養學生的綜合能力。
[關鍵詞]大數據概論;課程設計;考核方式;數據挖掘;可視化
doi:10.3969/j.issn.1673-0194.2024.11.059
[中圖分類號]G642 [文獻標識碼]A [文章編號]1673-0194(2024)11-0198-04
0" " "引 言
在21世紀人類探索的新領域中,大規模生產、分享和應用數據隨之產生,正如冰山理論和黑大陸理論所說,大數據的真實價值都隱藏在表面之下[1-2]。云計算是挖掘數據本質、征服數據海洋的動力[3-4]。由于傳統的計算模式無法高效處理大量且不規則的非結構化及半結構數據,而云計算的成熟則體現在以云計算為根基的信息管理、共享及研究探索手段,方便快捷低成本地將海量、高速、多元的信息進行存儲。同時云計算能夠實時進行深度學習及挖掘分析,使決策在短時間內更加精準化,挖掘出更多潛在的數據價值[5]。因此,大數據概論面向計算機科學與技術專業的學生,用于開設與大數據相關專業的導論課,從非技術性及技術性全面地介紹大數據知識[6]。
大數據概論是門面向計算機科學與技術專業的專業必修教育課程[7-8]。該課程的難度適中,重點是為本科生搭建一個通向大數據專業空間的橋梁,培養學生思考、分析問題的才能[9]。課程一共分為7章,以大數據背景下的數據為起點,系統介紹了云計算、機器學習等基礎和技術,且分析了不同技術之間的聯系和區別[10]。重點介紹數據采集、清洗、存儲、管理及數據的可視化[10]。讓學生更好地學習和掌握大數據關鍵技能,完成一個具體案例,使學生對大數據深度挖掘形成一個全局性的認識,從而深入了解大數據理論和技術的綜合運用方法。
1" " "課程設計內容
大數據概論課程設計如表1所示。第1章是大數據概述,主要介紹數據及信息時代發展史、產業及高校大數據專業設置[10]。首先,從數據的概念、數據類型、數據組織形式、數據的使用、數據的價值和數據爆炸開始介紹;其次,介紹大數據時代的3次革命浪潮及大數據發展歷程中的3個重要階段,根據各國提出的大數據發展戰略分析異同點;最后,提出大數據的概念及4V說法,同時介紹大數據應用及影響[10]。這一章的教學重點是了解人類信息文明的發展歷程,熟悉大數據時代的具體發展表現,掌握大數據的主要特征。教學難點是熟悉大數據的4V特征。
大數據專業重在培養具有較高數據素養的綜合人才。第2章主要介紹較高數據素養應具備的技術基礎,包括大數據安全、思維等[10]。
大數據本身是一座金礦、一種資源,但沉睡的資源是很難創造價值的,它必須經過采集、清洗、處理、分析、可視化等加工處理之后,才能真正產生價值。而數據采集和預處理是具有關鍵意義的一道環節。第3章主要介紹數據采集的概念、要點、數據源、數據采集方法、網絡爬蟲及數據信息清洗、轉換及脫敏[10]。
在大數據分析中的關鍵是數據存儲和管理。對數據采集得到的數據進行有效的存儲和管理,能夠為高效地處理和分析提供有力支持。為了有效發揮數據的作用,采用計算機軟件進行高效存儲、管理十分有必要。大數據時代涌現出大量新的數據存儲技術,包括分布式的數據庫和文件系統。第4章主要介紹傳統及大數據時代的數據存儲管理技術等[10]。
在數據處理與分析環節,可以利用統計學、機器學習和數據挖掘方法,并結合數據處理與分析技術,對數據進行處理與分析,得到有價值的結果,服務于生產和生活。第5章主要介紹數據處理與分析的概念、機器學習和數據挖掘算法、大數據處理與分析技術、大數據處理與分析領域具有代表性的產品[10]。
在大數據時代,人們面對海量數據會無所適從。一方面,數據復雜、類型繁多,已大大超出人類的處理能力范圍,日益緊張的工作也不允許人們在閱讀和理解數據上花費大量時間。另一方面,人類大腦無法從堆積如山的數據中快速發現核心問題,必須有一種高效的方式來刻畫和呈現數據所反映的本質問題。數據可視化能夠將數據用更直觀、生動及易理解的方式展示[10]。第6章主要介紹數據可視化技術概念及典型的可視化案例等[10]。
隨著大數據技術的不斷完善,各行業已將其融會貫通[11]。第7章主要介紹大數據在各大領域的典型應用,包括互聯網、生物醫學、金融等[10]。從一個大數據分析具體案例,系統總體設計、數據庫設計、系統網站設計和算法設計等方面對大數據分析全流程的部分理論和技術進行了一個串聯,幫助學生對大數據分析形成了一個全局性的認識,從而可以了解大數據理論和技術的綜合運用方法。
2" " "課程教學創新設計
2.1" "理論和實踐相結合的教學模式
教學過程采用案例式、啟發引導式及問題驅動式教學法和實驗法,培養學生在學習理論知識的同時學會自主查閱資料、自主學習、發現問題、分析問題、解決問題的能力。在講授理論知識的前提下,學生通過小組的形式選擇感興趣的課題進行大數據可視化界面的設計與實現(如表2所示)。這樣不僅完成了課程中采集與預處理數據、存儲與管理數據、分析與處理數據、數據可視化界面的基礎任務,還培養了學生發現問題、分析問題、解決問題的能力及團隊協作、認真嚴謹的工匠精神和良性溝通技巧。利用任務驅動,分組探究,協作學習,從問題解決的需求出發,完成分組課題任務進而提高自身綜合實力。
在教學過程中,著重實施“一示范、二練習、三欣賞、四創作、五表達”的階梯式教學法。“示范”是指教師利用教學軟件演示過程,同時講解相關軟件的使用方法。“練習”是在教師指導下模仿完成。“欣賞”是指讓學生觀看并思考教師精心準備的素材。“創作”是要求學生利用所學的編程語言工具進行相關模塊的創意設計。“表達”是要求學生對自己的創意設計進行分享。通過這五步階梯式的教學實踐,使學生掌握一些技能、技巧,更能增強學生的學習興趣。學生掌握技能技巧重在靈活應用,在不斷練習、創新中才能舉一反三。
2.2" "豐富的教學資源平臺
C程序設計精品資源平臺、慕課等提供了大量的教學視頻、案例源碼等,極大豐富了課堂教學內容,為學有余力的同學創造了網絡學習空間。
3" " "教學成效
大數據概論在講授過程中,教師采用講授理論知識及任務驅動的方式,采用案例、情境、啟發式教學法。以例子講解、練習、引發學生思考為流程,采用循序漸進的教學策略,運用“提出問題、學生嘗試、演示與交流、解決問題”的課堂教學模式。就教師方面而言,應增加和學生互動的時間,平時多了解學生的思想、學習、生活動態,尋求和他們的共同話題,增強師生之間的感情。另外,教師要根據授課內容豐富肢體語言,提高學生的專注力,培養學生的上課興趣。以下展示部分優秀學生小組課題成果及說明。
項目一:計算機行業數據可視化。具體任務是獲取計算機行業數據,設計與實現可視化界面,展示計算機行業信息,使用Echarts圖對就業行業(旅游行業、教育培訓、游戲行業、醫療行業、電商行業、社交行業及金融行業)的人員變化情況進行詳細對比,對新增粉絲、新增游客在2021年、2022年的人員變化進行比較,對就業行業的年齡段進行比較,對各種計算機語言掌握技能人數等信息進行圖表可視化展示,可以得出VUE的比重最大(占78%)。
項目二:輿情分析可視化。通過輿情分析可視化界面表現出某市輿情的詳細分布情況。主要匯總某市輿情的分析概況,包括實時的交通情況、突發警情警例情況、實時人口情況(實有民族分析、實有人口年齡架構、實有人口性別分布、實有常住人口與活動人口占比等)及輿情分析結果。其中包含2018年6月某地區矛盾糾紛環比情況(已調解、未調解、處理中的數量和環比情況)。采用柱狀圖進行分析,最后得出相應的結果。
項目三:程序員數據可視化。系統運行后顯示程序員數據可視化界面,其中包含程序員需求人數和程序員供應人數,采用柱狀圖分析2021年和2020年各行業(旅游行業、游戲行業、電商行業、金融行業)程序員的數量;使用柱狀圖分析各種開發語言(Java、PHP、GO、HTML、VUE)的技能水平,使用熟練、精通、掌握等級別表示掌握程度;采用折線圖分析某公司在一個月內的人員流動(包括流入和流出)情況;采用餅圖分析計算機工程師年齡分布情況;使用餅圖分析各地區(北京、上海、西安、廣州、深圳等城市)程序員占比情況,可以看出廣州的程序員占比最大。
項目四:跑步數據可視化界面。界面分別采用柱狀圖、餅圖、環形圖及折線圖對一個人的跑步數據進行可視化分析,其中包含成績達標率、熱量總消耗、跑步總時長、跑步次數、跑步天數及跑步量6個模塊。采用柱狀圖分析(阿哲、智慧、小胖、李決絕、黛玉、阿巖)在一個月內的跑步次數,可以看出李決絕的跑步次數最多,黛玉的跑步次數最少;采用折線圖分析各用戶的跑步總時長、跑步總消耗,可以看出李決絕的跑步總時長和總消耗最多,黛玉的跑步總時長和總消耗最少。通過直觀的界面統計跑步數據方便用戶進行全面分析,如圖1所示。
4" " "結束語
綜上所述,教師在大數據概論課程教學過程中應逐步加入思政元素,著重運用“重基礎、抓技能”的教學方法,做到以德修身、以德凈魂、以德立學、以德促教,逐步創新課程設計和考核方式,從而培養學生的綜合能力。
主要參考文獻
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活,工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[2]朱建平,章貴軍,劉曉葳.大數據時代下數據分析理念的辨析[J].統計研究,2014(2):10-19.
[3]陳康,鄭緯民.云計算:系統實例與研究現狀[J].軟件學報, 2009(5):1337-1348.
[4]李冶.大數據背景下的高職計算機網絡技術專業人才培養改革研究[J].河北旅游職業學院學報,2017,22(4):110-112.
[5]張建勛,古志民,鄭超.云計算研究進展綜述[J].計算機應用研究,2010(2):429-433.
[6]陳明.大數據概論[M].北京:科學出版社,2014.
[7]曹小陽.基于云計算的大數據挖掘內涵及解決方案研究[J].數字技術與應用,2017(11):108,112.
[8]袁書萍,葉承瓊.基于計算機科學與技術專業的大數據課程群的建設[J].內蒙古民族大學學報(自然科學版),2019(1):33-37.
[9]湯兵勇,李瑞杰,陸建豪.云計算概論[M].北京:化學工業出版社,2014.
[10]林子雨.大數據導論[M].北京:人民郵電出版社,2020.
[11]Tang Shanjiang,He Bingsheng,Li Kun,et al.A survey on spark ecosystem:Big data processing infrastructure,machine learning,and applications[J].IEEE Transactions on Knowledge and Data Engineering,2022.
[收稿日期]2023-12-14