李維明
“數據處理與應用”是《普通高中信息技術課程標準(2017年版)》(簡稱《標準》)“必修模塊1:數據與計算”中的重要內容之一,主要包括數據的采集與整理、分析與應用等幾個方面。在實踐中應當以數據為基礎,應用為先導,展開數據處理的教學。
要處理數據,必須采集數據。數據的來源渠道眾多,數據的類型也多種多樣,我們可以根據需求進行采集。例如,開展類似“中學生移動學習現狀調查”活動了解“中學生移動學習的基本情況”,則需要采集學生的“移動設備的使用時間”“移動設備的使用頻率”“常用資源類型”等方面的數據。又如,欲了解“哪些因素影響中學生的移動學習”,則需要采集“學生對移動學習的態(tài)度”“家長是否支持”“移動設備擁有情況”等方面的數據。只有明確了需求,才能采集到需要的數據。教學中必須讓學生明確地了解自己的需求,從而有目的地設計數據采集方案。
數據的來源通常有紙媒數據(如問卷調查數據)、傳感器輸入數據、網絡、數據庫數據等。我們必須根據數據的特點及來源途徑,選用合適的方法及工具進行采集。對于紙媒數據,可以使用人工或掃描的方法將其錄入計算機,從而完成數據采集;對于數據庫的數據,由于已有規(guī)律存放,則可以用數據庫處理工具進行采集;而對于傳感器采集的數據,則要根據傳感器的類型和輸出的方式不同而采用不同的方法采集數據。通常情況下,傳感器輸出的是一個電信號,這個電信號值會隨被測量的變化而變化,采集到這些電信號的數值,就可以研究被測量變化的規(guī)律,從而加以利用。但在實際應用場合,傳感器往往自帶了一個簡單的轉換器,將電信號自動轉換為數字信號以方便人們采集應用。例如,機器人中的光敏傳感器在黑色表面時會輸出一個數值為100的數字信號,而在白色表面則輸出一個數值為0的數字信號,在其他表面則輸出0~100的不同數值,人們可以通過機器人軟件系統(tǒng)采集這些數據作為利用的基礎。
在互聯(lián)網高度發(fā)達的今天,網絡更是信息的海洋。通過網絡獲取數據的方法很多,“在線問卷”“搜索引擎”都是其中重要的方法。對于這兩類工具的使用方法,在初中甚至小學都有涉及,不必過多糾纏,更重要的是了解其中原理,如“網絡爬蟲”等。“網絡爬蟲”(又被稱為網頁蜘蛛、網絡機器人等),是一種按照一定的規(guī)則,自動地抓取互聯(lián)網信息的程序。由于它可以作為一種工具自動地獲取網頁數據,因而也就成了不少“搜索引擎”的重要組成部分。從目前使用的教材來看,有關“網絡爬蟲”的內容,多數教材有所涉及,但出現的位置有所不同,有的在“單元3:算法與程序實現”學習之前,有的在此之后,所以教學時采用的方法也就迥異。學習“單元3:算法與程序實現”之前講“網絡爬蟲”只能略講、定性地了解,而學習之后講則可以用“算法與程序實現”“網絡爬蟲”的功能,教學策略完全不一樣。教學時可根據學生情況及學習進度,靈活地掌握教學尺度,重在講清“網絡爬蟲”特點,而這種特點正是互聯(lián)網條件下解決問題的特有的思維方式和解決辦法,這正是計算思維培育的關鍵之處。
采集到的數據需要對其進行簡單的整理,主要是對原始數據進行校驗處理,使之系統(tǒng)化、標準化,也就是要對采集的數據進行“數據清洗”,過濾那些不符合要求的數據,如不完整數據、錯誤值或異常值、重復記錄等,為數據的分析處理打好基礎。教學中應當重視這一環(huán)節(jié),讓學生養(yǎng)成規(guī)范處理采集數據的習慣。
數據用途是指我們使用數據的目的。一般包括“了解事物現狀”“剖析事物發(fā)展”“預測事物的未來走向”等,與前述“數據需求”緊密相關,即用途決定需求,需求決定數據,數據決定用途,“中學生移動學習現狀調查”就是“了解事物現狀”的一個實例。該實例根據學校促進移動學習健康發(fā)展的用途,產生出“了解中學生移動學習基本情況”這一需求,采集了學生的“移動設備的使用時間”“移動設備的使用頻率”“常用資源類型”等方面的數據,運用分析工具即可得出分析結果,這些結果決定了“學校促進移動學習健康發(fā)展”的措施的形成。所以,“用途”“需求”“數據”既相輔相成又相互制約,在教學中必須明確它們的關系。
如何正確地進行分析,需要根據數據本身的特性,選用適合的工具,采用恰當的方法而為之。常用的分析方法有三類:對比分析法、平均分析法和結構分析法。
對比分析法通常是把兩個相互聯(lián)系的指標數據進行比較,從數量上展示和說明研究對象規(guī)模的大小、水平的高低、速度的快慢,以及各種關系是否協(xié)調等。例如,需要了解我國網民規(guī)模的發(fā)展,可以使用歷年網民人數進行對比分析,由此可以明顯地觀察到網民人數的逐年遞增(如圖1)。

在對比分析中,選擇合適的對比標準是十分關鍵的步驟,選擇合適,才能做出客觀的評價。圖1選取的是同一國家(中國)、同一量值(網民人數),所以能從數據中分析出其發(fā)展變化的程度。
平均分析法是利用平均數指標來反映某一特征數據總體的一般水平,圖2是平均分析法的一個實際案例。從圖2可以看出全國居民人均可支配收入逐年增加,人均消費支出也隨之增加,而同一年內居民人均消費的總量始終低于人均可支配收入,說明年年有余。
結構分析法是在統(tǒng)計分組的基礎上,計算各組成部分所占比重,就是將各部分與總體進行對比,以分析事物的內部結構,了解部分與整體的關系等。圖3就清晰地反映了某時段網民的學歷結構以及各學歷段網民占網民總數的比例。
需要注意的是,由于結構分析法所分析的是部分與總量的關系,所以各部分之和必須與總量相等。這一點在教學過程中必須注意,而且并不是所有的數據都可以使用結構分析法進行分析處理。
從以上案例可以看到,無論是對比分析法、平均分析法還是結構分析法,呈現方式都不是枯燥的數據,而是使用了圖表,這個過程就是數據的可視化表達。數據可視化就是借助于圖形化手段,清晰有效地傳達數據、溝通信息。
綜上所述,對于本單元的教學,其重點是抓住“數據”這條線,“采集”“清洗”“分析”“可視化”,科學采集、正確分析,即可付諸應用。當然,這里僅僅是從其教學內容入手進行了粗略的分析,提出了一些相關的建議,但愿對大家有所幫助。至于具體的教學方法及步驟,在本期欄目的相關文章中會有詳細敘述,請各位仔細閱讀。