陳鷗輝



大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
設計背景
本教學案例參考粵教版教材“信息技術必修1:數據與計算”的第五章《數據處理與可視化分析》。具體設計課時分布如圖1所示。
第一次課:數據的采集(2課時)
第一節課,主要向學生解釋大數據的定義及特征,并通過視頻讓學生感知大數據時代對我們生活帶來的各種影響。例如,播放中國首部大數據產業題材紀錄片——《大數據時代》。
第二節課,通過對網頁數據的采集向學生介紹幾種不同的采集方式。以爬取百度網頁數據為例向學生介紹最簡單的采集網頁數據的方式,即沒有采集限制協議的網頁數據方式。如果有采集協議限制,如豆瓣,用上面的爬取方式則無法爬取到正常的網頁數據,需要根據協議方式進行采集,代碼如圖2所示。
在第二節課的爬蟲實操中,從簡單的爬蟲代碼過渡到爬蟲協議,再到實現豆瓣的數據爬取及存儲,讓學生一步步地了解爬蟲原理,并能夠應用爬蟲爬取各種數據,總的來說學生的應用實操效果良好,能夠通過修改代碼完成自己想爬取的網址源代碼并保存。通過這種體驗,學生表現出對大數據的強烈興趣。學有余力的學生,還可以加入拓展任務,代碼如圖3所示。
第二次課:數據的清洗與保存(2課時)
第一節課,讓學生完成代碼,體驗清洗網頁數據的方法與過程(如圖4)。
通過教學引導,學生基本上都可以完成補充,具體補充代碼如圖5所示。
完成教師的案例后,可以引導學生爬取自己感興趣的文章并將數據清洗出來保存到記事本中,以便下一次課進行數據可視化表達。作為技術課程,滿足學生對技術的實用性體驗非常重要,學生對這個案例表現了強烈的操作興趣。同時,教師提供給學生爬取圖片及視頻保存的代碼,供給學有余力的學生進行體驗。
第二節課讓學生體驗網頁的超鏈接數據的清洗并保存到表格中(如下頁圖6)。
通過教學引導,學生基本上都可以完成補充,具體補充代碼如下頁圖7所示。
通過這個案例讓學生明白數據是如何關聯下載的,有了這些爬取數據的方法,教師可以很便捷地快速收集整理出所需要的大量相關數據,為下一次課進行數據可視化表達做準備。
第三次課:數據的可視化表達(2課時)
第一節課主要向學生講解數據分析與可視化表達呈現的圖表類別??紤]到數據分析類別的實現比較難以理解,所以數據分析主要對特征探索、關聯分析、聚類分析等進行理論層面的講解,并給學生呈現出數據可視化表達的多樣性圖示(見教材)。
讓學生根據上一次課下載的小說進行文本可視化操作,代碼如圖8所示。
學生修改代碼后完成的效果如下頁圖9所示。
第二節課,讓學生從淘寶爬取大量的商品數據并進行可視化表達,代碼如圖10所示。
運行后輸入“手機”,交流每人的可視化效果圖。
其中補充代碼處為學生根據教師引導完成,通過這個案例的體驗讓學生對大數據的整個課程進行了回顧總結,既鞏固了學生對本章知識的掌握,又對之前的知識進行了拓展,讓學生完整地體驗了數據從采集、處理到分析及可視化表達的全過程,深刻地了解了本章知識學習的成就感及重要性。
另外,如果課時足夠,還可以引導學生從國家統計局獲取數據,實現對數據的動態演示。也可以播放動態可視化效果圖激發學生的學習興趣,作為拓展作業讓學生自己課后探索完成。
點 ?評
高中新課程標準制定專家熊璋教授在一次學術報告中講到“在課程中,我們要讓學生不僅能只見樹木,還要能見到森林,還要走進森林”。這個觀點,如果體現在數據科學中,就是要進行深度的體驗與實踐,不能往常教學那樣只是讓學生了解大數據概念、知道大數據應用或者只是體驗大數據的方便。而是,需要引導學生從編程的深度,去親身體驗如何通過程序來研究大數據,包括如何獲取、如何整理、如何分析與呈現等,陳歐輝老師的這個專題式整體設計正是給我們大數據的大單元設計的借鑒,直觀、深度且易操作,讓學生通過程序的試用、補充、提高,大計算思維的視角去學習數據科學,意義重大,值得提倡!
(點評人:王愛勝)