楊秀璋 武帥 夏換 周既松 于小民 范郁鋒
摘? 要: 從理論知識、編程實踐、工程實戰三個方面對數據挖掘與分析課程進行教學改革。課程采用Python編程語言,圍繞貴州省經濟文化特色及大數據發展戰略,充分運用大數據、數據挖掘、知識圖譜等新興技術來分析貴州省各領域現狀,挖掘其內在價值。近三年的教學實踐證明了該教學改革的創新性和有效性,培養了學生的大數據思維,為貴州省聚焦大數據戰略行動貢獻力量。
關鍵詞: 數據挖掘; 數據分析; 教學改革; 大數據; 知識圖譜
中圖分類號:G420? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)09-107-05
Abstract: The teaching reform for data mining and analysis course is carried out on the theoretical knowledge, programming practice and engineering practice. Adopting Python programming language, focusing on the economic and cultural characteristics and big data development strategy of Guizhou Province, the emerging technologies such as big data, data mining and knowledge graph are made full use of to analyze the current situation of various fields in Guizhou Province and tap their internal value. The teaching practice in recent three years has proved the innovation and effectiveness of the teaching reform, and cultivated students' big data thinking, which makes contributions to the strategic action of focusing on big data in Guizhou Province.
Key words: data mining; data analysis; teaching reform; big data; knowledge graph
0 引言
如今大數據和人工智能技術飛速發展,人們在利用互聯網快速自由地獲取信息的同時,也面臨著如何利用大數據技術解決實際問題,以及從海量數據中快速精準地獲取用戶所需信息的難題。因此,培養具有數據科學思維、實戰能力較強的人才變得尤為重要。數據挖掘與分析、大數據技術及應用相關課程需要進一步改革,改革應更加注重理論知識、編程實踐、工程實戰三方面的結合,圍繞地方經濟文化特色及大數據發展戰略展開。
當前,國內外高校對于大數據相關課程的改革有很多。張世杰[1]等針對園林專業研究改革的措施。高星[2]等運用行動導向教學方法對現有的高校計算機專業人才培養進行探討。陳虹[3]、朱路紅[4]、李永軍[5]、林德麗[6]、劉群群[7]、蔣衛祥[8]、吳瓊[9]、楊洋[10]分別從教學方法、教學理念、教學格局、創新思維等方面分析研究了相關課程改革。
現階段大數據分析課程及數據挖掘依舊以理論傳授方法為主,在校學生在完成數據挖掘理論課程之后,未能有效進行完整、系統的數據挖掘實戰。針對這些問題,本次課程的教學改革提出了一種融合理論知識、編程實踐、工程實戰三塊知識點的方法,結合貴州省大數據戰略行動,圍繞高校辦學定位、本科人才培養模式,充分利用Python大數據分析、數據挖掘、可視化分析等技術,研究全國特別是貴州省各行各業實際需求,挖掘其數據的內在價值,從而提升學生的編程實戰及大數據分析能力。
1 數據挖掘與分析教學改革框架
本次教學改革的課程為數據挖掘與分析、大數據技術及應用等相關課程,本課程的定位是大數據技術和數據挖掘入門課程,為學生搭建通向“大數據知識空間”的橋梁和紐帶。整個實驗教學框架如圖1所示,包括四大模塊。
⑴ 前期調研及分析。圍繞理論知識、編程實踐、工程實戰三方面展開,結合貴州省地方經濟、文化特色開展各領域、各行業的調研,結合數據挖掘算法知識和實際應用場景設計相關的分析方案。
⑵ 數據爬取和預處理。針對某領域或某行業的數據進行采集,調用Python爬蟲模塊采集相關數據信息。接著對存儲的數值數據和文本數據進行數據預處理,主要包括數據清洗、異常值處理、中分分詞、殘缺值填補以及數值統計等。
⑶ 數據挖掘與分析。作為該類課程的重點部分,運用合理的數據挖掘或機器學習算法對行業數據進行有效的大數據分析。
⑷ 可視化分析及總結。為了更直觀地體現數據挖掘和數據分析結果,通過調用Python語言的可視化模塊或利用可視化工具進行分析。通過對各領域、各行業的實際分析結果的可視化呈現,進行對比實驗和圖表展示,最終給出相關的改進建議。
2 課程教學改革思路及創新
本課程主要基于數據挖掘與分析、大數據技術及應用講解,其教學目的和任務是讓學生掌握基本的數據挖掘方法,培養學生數據科學思維,并能應用數據挖掘與數據分析技術獨立研究某個領域或行業的問題。整個課程圍繞理論知識、編程實踐和工程實戰三方面展開,緊跟貴州省大數據戰略行動,其教學改革思路及創新如圖2所示。
2.1 理論知識與編程實踐融合
通過理論知識與編程實踐相融合來促進學生的編程興趣,同時兼顧數據挖掘理論知識和編程實踐能力。教學中強調以書本知識及實踐案例操作為主,引導學生發散思維。一方面增強了學生的編碼能力和大數據分析能力,另一方面課程通過設計大量有趣的案例實驗。
本課程的教學內容如表1所示,共計16周的教學內容和大量的課后實驗。包括大數據及數據挖掘基礎普及、Python大數據分析簡介及案例、Python基礎語法及編程實踐、Python可視化分析及編程實踐、分類分析基礎及編程實踐等。綜上,理論知識與編程實踐的融合具有良好的創新性和實踐性。
2.2 理論知識與工程實戰促進
通過理論知識和工程實戰(實驗)相促進來培養學生的數據科學思維。整個實驗考核圍繞貴州省大數據戰略行動,以分析全國或貴州省某領域或某行業數據為主,課程包括五次課程實驗(學生獨立完成)和一次期末大數據分析實戰訓練(小組協作完成)。
2.2.1 實驗的基本目的
⑴ 緊扣大數據戰略行動。讓學生理解并掌握大數據分析方法的基本流程,涉及數據爬取、數據預處理、數據挖掘與分析、可視化分析等。
⑵ 搭建大數據橋梁紐帶。應用“Python+數據挖掘+大數據+可視化技術”實現貴州省某領域的大數據分析實驗,挖掘相關價值。
⑶ 創新大數據思維模式。結合“產、學、研”布置大數據分析實驗,提高學生“四高四強”能力,為學生在大數據領域發展奠定基礎及指明方向。
整個實驗內容緊跟數據挖掘與分析理論知識,一方面提升學生的編程能力,另一方面讓學生真正學會如何完成一個數據分析的產品,并應用到畢業設計、工作實踐中,同時培養團隊協作能力,獲得屬于計算機科學或數據挖掘領域的自豪。
2.2.2 核心知識
⑴ 數據挖掘知識。涉及聚類數據分析(K-Means、BIRCH)、分類數據分析(決策樹、SVM、KNN、隨機森林)、回歸數據分析(邏輯回歸、多線性回歸)、LDA主題挖掘等知識。
⑵ 可視化技術。涉及WordCloud詞云分析、PyEcharts可視化分析、Matplotlib繪圖分析、Seaborn繪圖分析、知識圖譜及Gephi工具分析等。
⑶ 網絡爬蟲知識。通過調用Python網絡爬蟲包(Urllib、 BeautifulSoup、Selenium)抓取指定數據,并進行后續大數據分析實驗,涉及數據采集、數據清洗、數據存儲等知識。
2.3 工程實戰與編程實踐提升
通過工程實戰與編程實踐相互融合來提升學生獨立運用大數據技術解決實際問題和深入領域知識挖掘的能力。整個實驗包括5次課程實驗和1次期末大數據分析實戰訓練。其中,大數據分析實戰要求各小組結合Python數據挖掘與分析課程知識,立足全國或貴州省某行業的問題進行大數據分析與預測,內容包括需求分析、數據爬取、數據挖掘、大數據分析、實驗對比和總結建議等,并且需要完成一次PPT分享和詳細的課程報告。
整個分析的主題需學生自擬,近三年優秀的主題和實驗包括:“貴州省大學生招聘就業信息分析與推薦”“貴州省農產品價格預測及特色產品推薦”“貴州省社交論壇數據實時抓取及輿情預警分析”“貴州省各市縣區知識圖譜構建及復雜網絡分析”“貴州省黃果樹瀑布景區數據分析”“貴州省少數民族文獻知識挖掘與探究”“我國網絡小說市場數據分析及可視化展示”“中國流行歌曲音樂數據分析及市場建議”等。
3 教學改革效果展示
該教學改革已執行于貴州財經大學信息學院計算機科學與技術、信息管理與信息系統、電子商務、軟件工程等專業,涉及數據挖掘與分析、大數據技術及應用、Python數據挖掘等課程,并參加學校的教學范式改革和精品實驗教學獲優秀。教學改革大大調動學生的學習興趣,同時與學生興趣愛好相結合,進一步調動學生積極性。整體的教學和實驗改革效果良好,一方面學生了解到貴州省大數據相關的技術及前沿動態,另一方面結合Python大數據分析編程實現了貴州省某領域或某行業的知識挖掘,有效推動了貴州財經大學本科教學聚焦大數據戰略行動。
近三年來,同學們圍繞數據挖掘和分析課程教學改革,采用Python和大數據分析技術對全國或貴州省某領域、某行進行了不同主題的挖掘,下面簡敘其中三組學生實驗成果。
3.1 貴州省校園招聘數據分析
該小組實驗概述了大數據對大學生就業形勢的作用,通過調用Urllib庫爬取了貴州省校園招聘信息,設計并實現了詞云技術、K-Means聚類、時間序列和回歸算法對所爬取的信息進行分析,預測貴州省目前的就業形勢,并通過可視化技術展現。圖3展示了貴州省校園招聘的熱門主題,可以直觀地反映出貴州省校園招聘的熱點主題詞為“銷售經理”“五險一金”“銷售主管”等。
接著針對貴州省各地區的校園招聘分布情況,發現貴陽市招聘信息最多,約占據69.2%,其次是遵義市,約占據7.03%。針對采集的薪資數據進行時間序列和線性回歸分析,并對最終結果進行了預測,繪制出圖4所示時間和薪資分析圖。
3.2 貴州省農產品主題挖掘與價格預測
該小組針對貴州省農產品價格和主題進行Python大數據分析,并實現農產品價格的可視化,簡要分析其內在特點。首先對爬取的數據調用WordCloud繪制圖5所示貴州農產品詞云圖。
詞云圖可以清晰看出貴州農產品中“南瓜”“大白菜”“香菇”為該段時間內的特色產品,并對采集的“白蘿卜”價格數據進行可視化分析繪制出圖6所示結果。大致看出,2018年近三個月最價格為1.6元,均價為1.22元。接著,針對三、四、五這三個月的“白蘿卜”價格預測“白蘿卜”價格平均增長率為58.73%。通過進一步分析預測貴州省最便宜的農貿市場及購買時間,并給出相關推薦。
3.3 全國民謠歌曲大數據分析實驗
在新媒體的涌現下,歌曲傳播方式發生變化,當下音樂曲種多種多樣,民謠歌曲雖作為小眾歌曲,卻同樣得到廣大聽眾的喜愛。該小組針對這一現象采用Python數據挖掘方法對網易云音樂的民謠歌單進行分析,挖掘現階段我國民謠發展現狀、主流民謠情感趨向以及主題特征。
首先對民謠創作歌手的創作歌曲進行統計分析,繪制出圖7所示民謠歌手Top20統計圖。其中,評論數最多的三位作者是趙雷、陳粒和李志,并且趙雷的評論數量最多,占13.59%,共計1435701條,可大致看作最熱門歌手,喜歡民謠的聽眾可優先選擇他的歌曲進行試聽。接著調用PyEcharts模塊繪制民謠歌曲地區GIS熱點地圖,可直觀看出民謠歌曲所描述的城市主要為北京、上海、麗江以及成都等??纱笾峦茰y民謠歌曲創作者熱衷于以經濟發展中心以及旅游城市進行相關歌曲創作。
再對采集的評論文本數據進行Jiebe分詞,并結合LDA主題模型對出現的詞語進行有關時光主題詞進行統計分析,繪制圖8所示漏斗圖??芍庇^看出,民謠在創作過程中熱衷于“明天”的描述,共計占據48.24%,可以大致看出民謠創作歌手對未來還是充滿希望的,寄托著創作者對未來的情感,同時也表達了對未來的期待,是一種積極的訊號。該小組通過可視化技術和文本挖掘算法詳細分析中國民謠歌曲,具有一定的應用價值和創新意義。
4 結論
本次面向理論知識、編程實踐、工程實戰的數據挖掘與分析課程教學改革探索,通過采用多種教學方式融合,讓學生能夠深入了解數據挖掘、大數據分析、Python編程知識,并完成相關實驗案例,讓同學們深入體會到使用機器學習算法進行數據分析的現實意義,從而提高學生實際動手操作能力,培養數據科學思維。通過展示三組學生作品,可以看出課程教學改革效果顯著,學生能夠應用課程知識對某領域或某行業進行系統的數據挖掘與分析實踐,從而挖掘出數據潛在的聯系和價值。
本次實驗教學改革,緊扣貴州大數據戰略行動,讓學生理解并掌握大數據分析方法的基本流程。同時應用“Python+數據挖掘+大數據+可視化”技術實現貴州省某領域或行業的大數據分析實驗,挖掘相關價值,進一步搭建大數據橋梁紐帶。通過結合“產、學、研”大數據分析實驗,提高學生的“四高四強”能力,為學生在大數據領域“深耕細作”奠定基礎和指明方向??偠灾@是一種創新大數據思維的培養模式。
然而,由于本次實驗教學改革主要以青年教師為主,可能會存在一定程度上的經驗不足。該課程教學改革成員在后期需要多跟教學經驗豐富的教師進行學習交流,從而提升教師自身的教學能力。
參考文獻(References):
[1] 張世杰,劉沛.基于3D打印、VR虛擬現實技術應用的《園林計算機輔助設計》教改探討[J].教育教學論壇,2019.49:92-94
[2] 高星,曹麗君,耿清甲.高校計算機教改中行動導向教學法的運用探析[J].創新創業理論研究與實踐,2020.3(3):67-68
[3] 陳虹.混合式教學法在計算機教改中的具體應用[J].計算機產品與流通,2020.9:249
[4] 朱路紅.信息化背景下的高校計算機教改初探[J].中阿科技論壇,2020.5:194-195
[5] 李永軍.大數據背景下計算機應用基礎教改思考[J].湖北開放職業學院學報,2019.32(13):141-142
[6] 林德麗,白二凈.計算機科學與技術專業教改的研究[J].智庫時代,2019.37:277,280
[7] 劉群群.基于應用能力的高職計算機網絡技術教改分析[J].南國博覽,2019.3:91
[8] 蔣衛祥.基于創新能力培養的計算機網絡課程教改研究[J].青年與社會,2018.36:111
[9] 吳瓊.基于編程能力提高的計算機教改實踐[J].電腦知識與技術,2018.14(29):137-138
[10] 楊洋.信息化背景下的高校計算機教改探究[J].科技資訊,2018.16(20):190-191