摘" 要:該文分析高校學生基礎信息數據特點,針對本地數據管理不規范、不可追溯、關聯性不足等問題,分別對Tableau Prep Builder和Power BI 2種商業BI工具數據預處理功能進行研究分析,提出基于2種BI工具的數據預處理的實現路徑,并對2種數據處理方式進行比較。
關鍵詞:BI工具基礎信息;數據預處理;數據建模;編輯器;表格
中圖分類號:TP30" " " "文獻標志碼:A" " " " " 文章編號:2095-2945(2023)16-0089-05
Abstract: This paper analyzes the characteristics of college students' basic information data. Aiming at the problems of nonstandard, untraceable, and insufficient relevance of local data management, this paper studies and analyzes the data preprocessing functions of two commercial BI tools, Tableau Prep Builder and Power BI, proposes the implementation path of data preprocessing based on the two BI tools, and compares the two data processing methods.
Keywords: basic information of BI tools; data preprocessing; data modeling; editor; table
目前高校學生管理基礎信息數據眾多,傳統的Excel本地數據處理模式已經無法滿足統計需要。而在基于Excel的數據分析過程中,通常需要花費一半以上時間用于數據整理和合并。Tableau Prep Builder[1]是一款直觀、簡潔和智能的工具,可有效清理和組織數據以供分析。同樣,PowerBI具有強大的數據預處理功能。2種BI工具在對本地數據處理方面各有特色,下面將就高校學生基礎管理數據處理在2種工具中的應用做探討。
1" 高校學生基礎信息數據準備
1.1" 數據組成及特點
高校學生基礎信息數據包括學生基本信息、學生宿舍管理信息、學生成績管理、學生操行分統計和公益工時統計等[2]。目前高校學生基礎信息數據管理存在以下特點。
1)本地數據所占比例較大。大量地原始數據,特別是一些過程記錄被保存在本地硬盤,未完全實現數據庫管理。
2)數據關聯分析不足。學生宿舍、公益工時、操行分等表現未與學生成績等關聯,不能綜合全面評定學生表現。
3)數據不可追溯。通常學生畢業后,其在校期間的過程數據只會選擇性保留,缺少歷史記錄。
1.2" 數據準備
規范高校學生基礎信息管理,首先需要對這些數據進行規范管理、規范記錄。作為數據管理人員需要厘清明細表與匯總表的關系,合理選擇表格形式記錄數據,規范采集記錄數據。
1.2.1" 區分明細表與匯總表
通常我們采用二維表記錄數據時會出現多行表頭、大量合并單元格,見表1。這在進行數據分析時需要對單元格進行拆分才能進一步篩選或者數據透視處理。
而數據分析生成的是一張二維明細表,其應符合以下原則。
1)每一行應是一條單獨的記錄且完整、不可拆分的單元,一個完整的數據記錄。
2)盡量保證數據記錄完整,杜絕合并單元格,刪除多重表頭。標題不能為空、不能重復,盡量不要用數字作為標題。
3)數據字段應包含關鍵字段,即數據庫各表中的主鍵字段,比如記錄設備狀態信息,那么不同表數據的關聯可以選擇設備編號作為主鍵。
1.2.2" 合理選擇一維表與二維表記錄數據
通常一維表為源數據表,二維表為展示數據表。二維表在BI工具中可以通過列轉置等方式轉換為一維表,一維表更適合作為數據分析的原始材料。一維表轉二維表稱之為透視,二維表轉一維表稱之為逆透視。
一維表適合記錄單獨一條記錄,每一列的內容為獨立的參數,見表2。該一維表中每一行為單獨記錄,可作為源數據記錄,但未對數據進行聚合分析。
二維表更為明確直觀,每一列的內容不為獨立的參數,見表3。該二維表每一門學科成績需要姓名與科目名稱共同確定,數據展示相對更為直觀。
1.2.3" 規范數據記錄格式
1)規范本地數據文件命名。統一按照結構門類制定命名規則。如將基礎數據按照如下格式進行命名:wrh-gc-宿舍管理-學生入住信息表。其中wrh為學校字母縮寫,gc為學院字母縮寫,宿舍管理為性質分類,學生入住信息表為子分類表。
2)規范數據記錄格式。一是規范日期文本記錄方式。日期應統一采用“xxxx年xx月xx日、xxxx/xx/xx、xxxx-xx-xx”。二是規范數值記錄方式。數值不帶單位,表格不單獨小計。三是同一字段數據格式應嚴格一致。
2" 基于Tableau的數據預處理方法
利用Tableau Prep Builder進行數據預處理,包括數據字段整理、結構調整、合并建模等[3]。其中字段整理包括字段重命名、字段篩選、清除異常值及重復項,結構調整包括數據轉置、聚合計算;合并建模包括數據并集連接、數據混合等。
2.1" 數據整理
2.1.1" 數據拆分
如果字段中存在有特定分割字符的字段可在數據配置窗格中選擇自動拆分方式進行拆分。如果需要拆分的字段長度不固定且無分割字符則采用LOOKUP函數、正則匹配函數等方式解決。如圖1所示,使用“自定義拆分”功能對學生家庭住址信息按照省-地市-縣區-鄉鎮/街道方式進行拆分。
2.1.2" 數據分組
即將性質相似多個字段進行合并。如圖2所示,統計學生生源地按“中部”“西部”“東部”3個區域進行劃分,則可以利用Tableau Prep Builder分組功能。
2.1.3" 數據篩選
這里數據篩選包括空值篩選,也可以通過查詢匹配等方式篩選。
2.1.4" 數據字符串清理
包括對字段大小寫修改,移除特定字母、數字、標點符號和剪裁空格等操作。
2.2" 數據結構整理
2.2.1" 數據轉置
如圖3所示,通過添加數據轉置流程,可實現對數據列轉換為行消滅“大寬表”,對數據行轉換為列消滅“大長表”。
2.2.2" 排名排序
若僅對某一度量值進行排名,可在需要排名的字段上創建排名,排名方式可根據需要選擇“密集排名”“百分比”“排名”,可進行DESC或ASC排列。若需對多個維度進行排名,如對某個年級每個班同學成績進行排名,即排名在每個分類中進行,此時需要使用“fixedlod”表達式,首先創建字段{FIXED [年級],[班級]:avg([分數])},然后在此字段創建排名,分組依據中選擇[班級],排名方式選擇密集排名。
2.2.3" 數據聚合計算
一是單一層次聚合。在Tableau Prep Builder數據處理里程中增加聚合節點,將作為聚合依據的維度字段放在分組字段,作為聚合材料的度量字段放在聚合字段。
二是獨立層次聚合。主要是運用fixedlod表達式,通過創建字段方式引用FIXED LOD詳細級別表達式[4]。如圖4所示,直接在需要分組依據中選擇姓名作為聚合計算層次的字段,在計算依據中選擇分數需要聚合計算的字段。
2.3" 數據合并
一是數據結構相同的不同表合并。如圖5所示,將不同班級學生信息表進行合并,在Tableau Prep Builder數據流程中創建并集節點,然后通過添加并集方式最后形成數據總表。
二是數據結構不同的數據合并。2張表之間存在相同的主鍵,如學生家庭住址信息表與學生聯系方式表,其直接存在共同的主鍵即“學號”和“姓名”,可通過左聯接、右聯接或中間聯接方式將2個表數據實現關聯合并。
3" 基于Power BI的數據預處理方法
Power BI是微軟出品的一款數據分析軟件,可自動實現對數據的獲取、清洗、轉換、建模、可視化及共享[5]。利用Power BI及Power Query同樣可實現數據清理及建模。
3.1" 利用Power Query處理不規范數據
3.1.1nbsp; 更改數據類型
利用Power Query編輯器中轉換數據類型功能對數據類型進行轉換。如將數字類型轉換為文本類型,將不規范的日期數據轉換為標準日期類型。
3.1.2" 轉換字母大小寫
同樣在Power Query編輯器中,一是通過lt;Ctrlgt;鍵選中需要轉換字母大小寫格式的多列,在列標題上右擊,在彈出的快捷菜單中選擇轉換每個字詞首字母大寫選項。另外,單擊下拉列表中的【大寫】或【小寫】選項,可以將所有單詞或字母都轉換為大寫或小寫格式。
3.1.3" 刪除文本中的空格和不可見字符
我們獲得的數據經常夾雜著大量難以識別的非打印字符,即不可見字符,這些字符的存在,容易在引用、統計中出錯。可使用Power Query編輯器的轉換功能中的“修整”和“清除”功能。
3.2" 數據清理篩選
主要利用Power Query編輯器中管理列或減少行功能,對數據中的重復項進行刪減。利用文本篩選器對數據進行篩選。
3.3" 數據排名排序
針對數值型數據字段排序,可以在Power Query編輯器中直接右鍵單擊要排序的列頭,選擇按照升序或者降序進行排列。如果要對日期數據進行排列,一定要先保證當前列的數據類型是日期或者日期和時間,否則按照文本或者數字類型進行排序,得到的將是一個錯亂的日期。針對文本型數據字段可以在Power BI主界面中新建度量值方式,運用函數rankx進行排名。如創建成績排名=Rankx(all(“學生成績信息”),calculate(sum(‘學生成績信息’[分數]))。
3.4" 數據合并
多張結構相同表格匯總。可以通過Power BI導入文件夾的方式,將結構相似的Excel文件一次性導入Power BI中。在獲取數據中選擇從文件夾中獲取,組合時根據需要選擇“合并并轉換數據”或“合并和加載”,再在Power Query編輯器中選擇添加自定義列,如圖6所示,最后解析樣本即可將所有Excel文件中的數據全部匯總到Power BI中了。
3.5" 數據建模
高校學生管理通常為多個數據源,往往并不是只有一張表。通常不同表需要按照一定邏輯關系協同配合才能進行數據分析。如圖7所示,編輯各表間關系,各表數據源之間可以存在一對一、一對多和多對多關系。表格間關系建立后以在Power BI的“報表”模塊中生成各種透視分析報表。
4" 2種BI工具數據處理性能比較
Tableau和Power BI是市面上可視化2種主流工具,現在對2種BI工具在數據源連接性、軟件易用性、數據處理速度和價格比選等方面表現進行比較,見表4。
5" 結束語
數據預處理通常包括數據拆分、分組、大小寫轉換、數據轉置和不同層次聚合以及各表關系等內容。傳統的采用Excel管理分析本地數據方式已不能滿足高校學生基礎信息管理要求,使用Tableau Prep Builder 和Power BI 2款商業BI工具開展數據預處理將大幅提高工作效率和數據準確性。
參考文獻:
[1] 蘭坤,吳瓊.基于Tableau和Excel的學生多維大數據分析研究[J].信息與電腦,2019(8):126-127,136.
[2] 萬輝.大數據在高校學生管理工作中的應用[J].高校輔導員學刊,2014,6(4):48-51.
[3] 楊小軍,張雪超,李安琪.利用Excel和Tableau實現業務工作數據化管理[J].電腦編程技巧與維護,2017(12):66-68.
[4] 喜樂君.數據可視化分析:Tableau原理與實踐[M].電子工業出版社,2020.
[5] 何逸波.基于POWERBI的數據分析系統的構建與應用[J].區域治理,2018(33):218.