吳軍 江蘇省揚州市氾水高級中學
教育現代化的推進使得數字化設備、數字化教學平臺、數字化管理系統等得到廣泛運用,導致學校各個系統的數據激增,面對這些價值密度低的大數據,如何發現它們的價值,找到數據彼此之間的相關性呢?在學校各系統的大數據中,成績大數據具有一定的代表性,下面,筆者試以學生歷次成績大數據為對象,通過數據透視技術來探討成績大數據處理的相關流程。
所謂數據透視分析,是指從數據列表、關系數據庫文件等數據集的字段中總結信息的分析工具,“透視”可以理解為對原始數據的挖掘分析,也就是從大數據背后找到聯系,從而將看似雜亂無章的數據轉化為有價值的信息。數據透視分析綜合了數據排序、篩選、分類匯總等功能,還可以計算平均數或標準差、建立列聯表、計算百分比、建立新的數據子集等。因其具有強大的交互性,教師可以通過改變呈現字段,以達到全方位、多角度、動態地統計和分析數據,從而從大量數據中快速提取有價值信息。
圖形是一種經典且強有力的展示數據及其內部關系的工具,它可以很好地幫助人們交流、理解現實世界和解決科學問題。通過數據透視技術可以將枯燥抽象的成績數字轉換為豐富直觀的圖形,便于學生及家長從圖形的呈現中發現問題、預測趨勢。
教師習慣于通過感官的經驗方式來與學生進行學業交流分析,導致往往只看到表象,而不能看到學生內在的真實狀態。而基于成績大數據的客觀分析,可以拆線圖的方式查看學科的歷次名次變化、以柱形圖的方式比較不同學生之間的差距、以雷達圖的形式比較不同學科的優劣勢等,客觀的數據、動態的圖形可更加真實全面地評估學生的學業發展。
通過數據透視不僅可查看單一學生的成績變化,還可以選擇多個學生同時進行比較分析,從差異化中查找問題;通過對年級、班級、小組在某科目上進行多層次數據分析,逐層細化分析,探尋問題的根源,而不是停留在統計結果的表象;從原始的小題分維度,擴展到難度范圍、知識點和考查能力,從多個維度上評估一個小組或班級的能力特征。總之,分析維度的變化,可以幫助教師多層次多維度地了解學生的學業發展,以及時改變教學策略。
使用數據透視表,將原本需基于函數(如求和、平均值、最大值等)的操作演變為對“字段名”的拖拽操作,操作簡單,結論明了,又可以根據需求快速切換與提取不同要素,以達到分析之目的。
成績數據產生于各種考試、練習、測評活動中。從數據產生時間上看,它可包含學生從高一至高三的歷次考試成績;從數據產生形式上看,既可以是平時班級組織的小測試,也可以是市縣統一期末聯考;從數據采集方式上看,既可以是教師手工批閱錄入,也可以是通過數字化閱卷平臺產生。但無論怎樣,隨著考試、練習次數的增多,歷次產生的數據源表必然會遇到數據結構不一、數據類型差異、數據格式不同等問題,因此必須制訂數據采集的規范格式。
正確規范的數據源表應該遵循一件事一張表(嚴禁隨意分表)、一行一條記錄(信息記錄要完整)、一列一個屬性(數據格式要規范)、同物名要統一(保證數據一致性)、不能有表格操作(禁止單元格的合并)等規定,教師在處理合并歷次考試成績時要遵循此規范,以達到數據記錄清晰、數據透視結果準確的效果,報表可以自動生成。

數據清洗(Data cleaning)就是對數據進行重新審查和校驗的過程,目的在于刪除重復信息,糾正存在的錯誤,并提供數據一致性。對多次采集匯總形成的大數據,教師如果沒有遵循規范格式錄入,就需要進行數據清洗。
常見表格的不規范行為主要包含表格結構不規范和表格數據不規范。表格結構不規范主要指有多行或多列標題行、使用合并單元格、有空行空列、有小計合計行、單元格中數據類型不正確等,而表格數據不規范主要包含錯誤的日期、文本型數字、數據格式不統一、文本中有空格、數據中含有不可見字符等。對成績大數據的清洗即是解決上述錯誤的過程。
如上圖所示成績分析看板(部分截圖),可以直觀反映某個班級或學生歷次成績情況、名次變化、差值分、學科貢獻、發展趨勢等,通過切片器的靈活運用可以多維度聯動呈現,直接高效,具體操作可以通過四個步驟來完成:
①將二維數據轉換為一維數據。
二維表就是縱向和橫向相層疊的數據,而一維表則是沒有層疊的數據,將二維數據轉換成一維數據,一般采用Power Query較為方便。選中二維數據區域,點擊“數據”菜單,從“獲取和轉換”功能中選擇“從表格”啟動Power Query編輯器,選擇所需轉換的數據列,點擊菜單“轉換”,選擇“逆透視列”,點擊菜單“文件”,選擇“關閉并上載”即可將完成轉換,同時,該表格將成為超級表。
②插入數據透視表。
選中整個數據區域(數據區域包含表頭字段),在“插入”菜單欄中選中“數據透視表”,在彈出的“創建數據透視表”對話框中單擊“確定”,對話框默認在新工作表中生成數據透視表,也可在本數據表中選定自定義區域生成。此時,在新的工作表中,會生成一塊空白的數據透視表區域,右側會自動彈出數據透視表字段。根據對數據分析的需求,將字段列表中的所需“字段名”拖拽到相應的位置即可。
“篩選器”“行”“列”“值”是任何一個數據透視表都必備的4個選項,通過改變這4個選項,就可以完成不同需求的統計分析?!靶小币话闶切枰诸惖囊兀鐚W生姓名;“列”一般就是原始數據的列標題,如學科;“值”就是根據行與列的要求,進行統計計算得到的數據,如均分、求和、排序等;“篩選器”是用來對整個透視表進行相應類目的篩選,如考試類別、班級等。
③制作學生成績單。
基于上述數據透視表,“行”選取考試時間和姓名,“列”選取學科,“值”選取成績,即可以展示任何一個學生的成績情況。為便于不同維度數據的呈現,可通過GETPIVOTDATA函數返回存儲在數據透視表報表中的特定數據,如:以拆線圖的形式可查看學科的縱向名次變化,發現學生進退步情況;以柱形圖的方式可橫向比較不同學生之間的差距,找到薄弱學科尋求解決方案;以雷達圖的形式可比較不同學科的優劣勢等,讓學生強化優勢學科,改進薄弱學科,以達到學科的均衡等。
④插入切片器多維度聯動查詢。
通過切片器與各個所需數據透視表的連接即為多維度聯動查詢各項數據的靈魂所在,插入切片器,可將表格中的列字段以按鈕的形式加以呈現,如插入“班級”“姓名”“學科”等,并設置各個切片器與歷次成績情況、學生成績縱向比較圖表的連接關系。當選擇“班級”與“姓名”后,下方的成績表、歷次名次變化、學科貢獻情況、學科成績縱向比較等均同步發生變化。如要結束本次查詢,可以通過各個切片器右上角的“清除篩選器”按鈕復原,繼而再根據查詢需要,選擇各個切片器上的選項進行查詢。
該設計使用簡單,靈活方便,圖表分析更加直觀、多維、聯動,便于師生及時從成績大數據中查找問題。如果提供給家長使用,家長則可以隨時增加統計數據,及時更新圖表呈現界面,了解學生學業狀況。當然,如何選擇恰當的分析維度,從繁雜巨量的數據中精準地呈現問題從而優化教學策略、改善教學行為,還值得教師深入探究。