

關鍵詞:數據清洗實訓;教學改革;混合式教學
引言
數據清洗是高職院校大數據技術專業的一門必修課。該課程主要講授了數據清洗的相關理論知識,如何利用Kettle組件以及Python的Numpy.Pandas等庫完成數據抽取、清洗、集成、轉換工作。數據清洗實訓是數據清洗課程的延伸,通過教師開發的一系列專業實操訓練,把所學的數據清洗理論知識和方法應用到具體項目實訓中,是幫助學生掌握數據清洗技術、提高數據清洗項目的實踐能力的有效手段,是提高學生獨立操作能力、分析問題和解決問題能力的一個重要環節。
一、教學面臨問題
在之前的數據清洗實訓課程中,Kettle工具的五個實訓任務,主要集中在單純的拖動組件、配置參數,學生覺得課程內容略顯枯燥,興趣不高。
此外,Python工具的三個實訓任務,本質上都是先讀取數據,必要時合并數據,然后進行缺失值、異常值、重復值的處理,最后保存清洗后的數據,并對數據進行簡要的分析處理。由于整個過程都是使用Python語言進行編程實現,學生反饋代碼思路過于單一,缺少趣味性。
在數據清洗實訓課程中,關于Kettle的實訓項目,只涉及了如何創建和使用轉換(Transformation),并未涉及對多個轉換構建的整個工作流的抽象和控制(Job)。而在實際工作環境中,為了實現某些復雜場景下的數據清洗,需要先為子任務創建轉換,然后再創建Job,將子任務連接起來,完成一個完整的數據清洗過程。這使得學生在面對實際工作場景下的復雜任務時,沒有使用Job對多個轉換進行構建的意識,無法創建完整、清晰的數據清洗流程,缺少解決相應問題的能力。
數據清洗實訓課程對清洗后的數據,往往只涉及數據存儲的操作。由于我校大數據技術專業的學生目前未開設數據挖掘相關課程,學生不明確清洗之后的數據可以做什么,無法理解數據清洗對后續的數據處理究竟可以起到何種重要的作用,使得部分學生對課程的重要性缺少充分的認識。
二、教學改進創新
針對教學中存在的問題,結合我校大數據技術專業學生的特點,對教學方法、教學設計和教學內容進行了改進,具體如下。
課前:在智慧職教云平臺上傳教學課件、發布需要預習的知識點和任務書,并進行課前測驗。學生可根據教師發布的學習任務,先預習相應知識點,并通過課前測驗查漏補缺。教師可通過課前測驗了解學生對知識的掌握情況,及時調整備課,合理安排教學任務中的重難點。
課中:以學生為主體,讓學生帶著問題進課堂。在教師“教”的過程中,對學生課前在智慧職教云平臺上提出的問題進行解答。在學生“練”的過程中,教師做好輔導,及時解答學生的疑問;對于可以預見的易錯問題或一些難題,提前錄制一些視頻上傳到智慧職教云平臺,供學生反復觀看、學習,幫助學生更好地掌握知識和技能。
課后:及時在智慧職教云平臺上批閱學生上傳的實訓報告,對共性問題進行統一講解,對個別學生的問題進行單獨指導。此外,教師在智慧職教云平臺上布置并推送針對性、個性化的作業,進行課后測試,幫助學生鞏固學習效果;對于知識和技能完全掌握的學生,推送知識拓展內容。
編寫任務手冊式的實訓指導書,闡明各個任務要完成的內容、需要實現的目標和效果、需要進行的數據和環境準備,提供任務實施的思維導圖以幫助學生更好地理清思路、理解任務,并詳細描述任務步驟及涉及的知識技能等。
對實訓項目中的每一個實訓任務,在授課過程中,首先講解任務要實現的功能、演示最后實現的效果,然后講解和演示任務實現的步驟。在此過程中,分析每一個步驟使用到了哪些知識點,幫助學生更好地理解這個任務,提高學生的參與度與成就感,激發學生的學習興趣。
新增實訓項目,將教學內容重構為三大項目:Kettle數據清洗實踐、Python數據清洗實踐、圖像數據清洗實踐。
1.Kettle數據清洗實踐項目:
(l)多數據源合并。將多個文本文件和Excel文件中的數據合并到一個新的Excel工作表中。
(2)文件遍歷。遍歷文件夾下的文本文件和Excel文件,根據文件類型,使用不同的方式讀取文件,將數據導入到MySQL數據庫中。
(3)使用定時任務加載數據庫表。使用Kettle的定時任務,將數據庫1中的數據加載到數據庫2中。
(4)使用Job實現課程統計。創建一個Job來整合兩個轉換,用命令行和定時任務對課程數據進行統計,并輸出最終的統計文件。
2.Python數據清洗實踐項目:
(1)二手房數據清理。讀取某地區二手房數據文件,對缺失值、重復值、異常值進行檢測和處理。
(2)中國籃球運動員的基本信息分析。在刪除重復值、填充缺失值、確認刪除異常值之后,對數據進行分組與聚合、軸向旋轉、降采樣等。
(3)數據分析師崗位分析。讀取有關數據分析師崗位的招聘數據,在對清洗后的數據進行簡要分析的基礎上,引入Python的matplotlib庫,將分析結果通過折線圖、柱狀圖、環形圖等方式直觀地展示出來,與后續的數據可視化課程關聯起來,幫助學生更好地理解數據清洗在大數據處理過程中的角色和重要性。
3.圖像數據清洗實踐項目:
分別使用Python的scikit-image庫和openCV庫進行圖像數據的預處理,實現圖像的讀取、保存、調整大小、重塑、旋轉等功能。通過圖像交互性提高課程的趣味性,激發學生的學習興趣。
三、教學評價反饋
將本屆實施了改革方案的班級(2022級),與往屆未實施該方案的班級(2021級)的實訓成績進行了對比,如表1所示。
可見,2022級實施該方案的班級的平均成績和優秀率都高于2021級未實施該方案的班級,說明該方案有助于提高學生的知識掌握能力、實操能力和專業技能。
對2022級實施該方案的班級的學生進行了問卷調查,主要涉及對課程內容、教學方法、學習收獲等方面的滿意度和認同度。結果顯示,超過85%學生對該方案表示滿意或非常滿意,認為該方案能夠增加課程的趣味性、可理解性和實用性,幫助他們更好地理解數據清洗的方法和作用、掌握使用Kettle和Python進行數據清洗的能力。
結語
做好教學工作是教師一生的追求,只有不斷對所教授的課程進行反思、改革,才能有效提升教學效果。本文以四川郵電職業技術學院為例,針對數據清洗實訓課程教學過程中遇到的問題,對教學方法、教學設計和教學內容進行了改革。通過實施線上線下混合式教學,將教學延伸到課堂內外;通過改革教學設計,幫助學生更好地理解實訓項目,提高學生的參與度與成就感,激發學生的學習興趣;通過重構實訓項目,增強課程與實際工作場景和后續課程的關聯度,增加課程的互動和趣味性,提高學生主動學習的動力。根據教學評價反饋,本次改革方案能夠幫助學生更好地理解數據清洗、掌握使用Kettle和Python進行數據清洗的能力,為將來從事大數據相關領域的工作打下了堅實的基礎。