999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于兩種BI工具的高校學生基礎信息數據預處理性能比較研究

2023-12-31 00:00:00曾祥富
科技創新與應用 2023年16期

摘" 要:該文分析高校學生基礎信息數據特點,針對本地數據管理不規范、不可追溯、關聯性不足等問題,分別對Tableau Prep Builder和Power BI 2種商業BI工具數據預處理功能進行研究分析,提出基于2種BI工具的數據預處理的實現路徑,并對2種數據處理方式進行比較。

關鍵詞:BI工具基礎信息;數據預處理;數據建模;編輯器;表格

中圖分類號:TP30" " " "文獻標志碼:A" " " " " 文章編號:2095-2945(2023)16-0089-05

Abstract: This paper analyzes the characteristics of college students' basic information data. Aiming at the problems of nonstandard, untraceable, and insufficient relevance of local data management, this paper studies and analyzes the data preprocessing functions of two commercial BI tools, Tableau Prep Builder and Power BI, proposes the implementation path of data preprocessing based on the two BI tools, and compares the two data processing methods.

Keywords: basic information of BI tools; data preprocessing; data modeling; editor; table

目前高校學生管理基礎信息數據眾多,傳統的Excel本地數據處理模式已經無法滿足統計需要。而在基于Excel的數據分析過程中,通常需要花費一半以上時間用于數據整理和合并。Tableau Prep Builder[1]是一款直觀、簡潔和智能的工具,可有效清理和組織數據以供分析。同樣,PowerBI具有強大的數據預處理功能。2種BI工具在對本地數據處理方面各有特色,下面將就高校學生基礎管理數據處理在2種工具中的應用做探討。

1" 高校學生基礎信息數據準備

1.1" 數據組成及特點

高校學生基礎信息數據包括學生基本信息、學生宿舍管理信息、學生成績管理、學生操行分統計和公益工時統計等[2]。目前高校學生基礎信息數據管理存在以下特點。

1)本地數據所占比例較大。大量地原始數據,特別是一些過程記錄被保存在本地硬盤,未完全實現數據庫管理。

2)數據關聯分析不足。學生宿舍、公益工時、操行分等表現未與學生成績等關聯,不能綜合全面評定學生表現。

3)數據不可追溯。通常學生畢業后,其在校期間的過程數據只會選擇性保留,缺少歷史記錄。

1.2" 數據準備

規范高校學生基礎信息管理,首先需要對這些數據進行規范管理、規范記錄。作為數據管理人員需要厘清明細表與匯總表的關系,合理選擇表格形式記錄數據,規范采集記錄數據。

1.2.1" 區分明細表與匯總表

通常我們采用二維表記錄數據時會出現多行表頭、大量合并單元格,見表1。這在進行數據分析時需要對單元格進行拆分才能進一步篩選或者數據透視處理。

而數據分析生成的是一張二維明細表,其應符合以下原則。

1)每一行應是一條單獨的記錄且完整、不可拆分的單元,一個完整的數據記錄。

2)盡量保證數據記錄完整,杜絕合并單元格,刪除多重表頭。標題不能為空、不能重復,盡量不要用數字作為標題。

3)數據字段應包含關鍵字段,即數據庫各表中的主鍵字段,比如記錄設備狀態信息,那么不同表數據的關聯可以選擇設備編號作為主鍵。

1.2.2" 合理選擇一維表與二維表記錄數據

通常一維表為源數據表,二維表為展示數據表。二維表在BI工具中可以通過列轉置等方式轉換為一維表,一維表更適合作為數據分析的原始材料。一維表轉二維表稱之為透視,二維表轉一維表稱之為逆透視。

一維表適合記錄單獨一條記錄,每一列的內容為獨立的參數,見表2。該一維表中每一行為單獨記錄,可作為源數據記錄,但未對數據進行聚合分析。

二維表更為明確直觀,每一列的內容不為獨立的參數,見表3。該二維表每一門學科成績需要姓名與科目名稱共同確定,數據展示相對更為直觀。

1.2.3" 規范數據記錄格式

1)規范本地數據文件命名。統一按照結構門類制定命名規則。如將基礎數據按照如下格式進行命名:wrh-gc-宿舍管理-學生入住信息表。其中wrh為學校字母縮寫,gc為學院字母縮寫,宿舍管理為性質分類,學生入住信息表為子分類表。

2)規范數據記錄格式。一是規范日期文本記錄方式。日期應統一采用“xxxx年xx月xx日、xxxx/xx/xx、xxxx-xx-xx”。二是規范數值記錄方式。數值不帶單位,表格不單獨小計。三是同一字段數據格式應嚴格一致。

2" 基于Tableau的數據預處理方法

利用Tableau Prep Builder進行數據預處理,包括數據字段整理、結構調整、合并建模等[3]。其中字段整理包括字段重命名、字段篩選、清除異常值及重復項,結構調整包括數據轉置、聚合計算;合并建模包括數據并集連接、數據混合等。

2.1" 數據整理

2.1.1" 數據拆分

如果字段中存在有特定分割字符的字段可在數據配置窗格中選擇自動拆分方式進行拆分。如果需要拆分的字段長度不固定且無分割字符則采用LOOKUP函數、正則匹配函數等方式解決。如圖1所示,使用“自定義拆分”功能對學生家庭住址信息按照省-地市-縣區-鄉鎮/街道方式進行拆分。

2.1.2" 數據分組

即將性質相似多個字段進行合并。如圖2所示,統計學生生源地按“中部”“西部”“東部”3個區域進行劃分,則可以利用Tableau Prep Builder分組功能。

2.1.3" 數據篩選

這里數據篩選包括空值篩選,也可以通過查詢匹配等方式篩選。

2.1.4" 數據字符串清理

包括對字段大小寫修改,移除特定字母、數字、標點符號和剪裁空格等操作。

2.2" 數據結構整理

2.2.1" 數據轉置

如圖3所示,通過添加數據轉置流程,可實現對數據列轉換為行消滅“大寬表”,對數據行轉換為列消滅“大長表”。

2.2.2" 排名排序

若僅對某一度量值進行排名,可在需要排名的字段上創建排名,排名方式可根據需要選擇“密集排名”“百分比”“排名”,可進行DESC或ASC排列。若需對多個維度進行排名,如對某個年級每個班同學成績進行排名,即排名在每個分類中進行,此時需要使用“fixedlod”表達式,首先創建字段{FIXED [年級],[班級]:avg([分數])},然后在此字段創建排名,分組依據中選擇[班級],排名方式選擇密集排名。

2.2.3" 數據聚合計算

一是單一層次聚合。在Tableau Prep Builder數據處理里程中增加聚合節點,將作為聚合依據的維度字段放在分組字段,作為聚合材料的度量字段放在聚合字段。

二是獨立層次聚合。主要是運用fixedlod表達式,通過創建字段方式引用FIXED LOD詳細級別表達式[4]。如圖4所示,直接在需要分組依據中選擇姓名作為聚合計算層次的字段,在計算依據中選擇分數需要聚合計算的字段。

2.3" 數據合并

一是數據結構相同的不同表合并。如圖5所示,將不同班級學生信息表進行合并,在Tableau Prep Builder數據流程中創建并集節點,然后通過添加并集方式最后形成數據總表。

二是數據結構不同的數據合并。2張表之間存在相同的主鍵,如學生家庭住址信息表與學生聯系方式表,其直接存在共同的主鍵即“學號”和“姓名”,可通過左聯接、右聯接或中間聯接方式將2個表數據實現關聯合并。

3" 基于Power BI的數據預處理方法

Power BI是微軟出品的一款數據分析軟件,可自動實現對數據的獲取、清洗、轉換、建模、可視化及共享[5]。利用Power BI及Power Query同樣可實現數據清理及建模。

3.1" 利用Power Query處理不規范數據

3.1.1nbsp; 更改數據類型

利用Power Query編輯器中轉換數據類型功能對數據類型進行轉換。如將數字類型轉換為文本類型,將不規范的日期數據轉換為標準日期類型。

3.1.2" 轉換字母大小寫

同樣在Power Query編輯器中,一是通過lt;Ctrlgt;鍵選中需要轉換字母大小寫格式的多列,在列標題上右擊,在彈出的快捷菜單中選擇轉換每個字詞首字母大寫選項。另外,單擊下拉列表中的【大寫】或【小寫】選項,可以將所有單詞或字母都轉換為大寫或小寫格式。

3.1.3" 刪除文本中的空格和不可見字符

我們獲得的數據經常夾雜著大量難以識別的非打印字符,即不可見字符,這些字符的存在,容易在引用、統計中出錯。可使用Power Query編輯器的轉換功能中的“修整”和“清除”功能。

3.2" 數據清理篩選

主要利用Power Query編輯器中管理列或減少行功能,對數據中的重復項進行刪減。利用文本篩選器對數據進行篩選。

3.3" 數據排名排序

針對數值型數據字段排序,可以在Power Query編輯器中直接右鍵單擊要排序的列頭,選擇按照升序或者降序進行排列。如果要對日期數據進行排列,一定要先保證當前列的數據類型是日期或者日期和時間,否則按照文本或者數字類型進行排序,得到的將是一個錯亂的日期。針對文本型數據字段可以在Power BI主界面中新建度量值方式,運用函數rankx進行排名。如創建成績排名=Rankx(all(“學生成績信息”),calculate(sum(‘學生成績信息’[分數]))。

3.4" 數據合并

多張結構相同表格匯總。可以通過Power BI導入文件夾的方式,將結構相似的Excel文件一次性導入Power BI中。在獲取數據中選擇從文件夾中獲取,組合時根據需要選擇“合并并轉換數據”或“合并和加載”,再在Power Query編輯器中選擇添加自定義列,如圖6所示,最后解析樣本即可將所有Excel文件中的數據全部匯總到Power BI中了。

3.5" 數據建模

高校學生管理通常為多個數據源,往往并不是只有一張表。通常不同表需要按照一定邏輯關系協同配合才能進行數據分析。如圖7所示,編輯各表間關系,各表數據源之間可以存在一對一、一對多和多對多關系。表格間關系建立后以在Power BI的“報表”模塊中生成各種透視分析報表。

4" 2種BI工具數據處理性能比較

Tableau和Power BI是市面上可視化2種主流工具,現在對2種BI工具在數據源連接性、軟件易用性、數據處理速度和價格比選等方面表現進行比較,見表4。

5" 結束語

數據預處理通常包括數據拆分、分組、大小寫轉換、數據轉置和不同層次聚合以及各表關系等內容。傳統的采用Excel管理分析本地數據方式已不能滿足高校學生基礎信息管理要求,使用Tableau Prep Builder 和Power BI 2款商業BI工具開展數據預處理將大幅提高工作效率和數據準確性。

參考文獻:

[1] 蘭坤,吳瓊.基于Tableau和Excel的學生多維大數據分析研究[J].信息與電腦,2019(8):126-127,136.

[2] 萬輝.大數據在高校學生管理工作中的應用[J].高校輔導員學刊,2014,6(4):48-51.

[3] 楊小軍,張雪超,李安琪.利用Excel和Tableau實現業務工作數據化管理[J].電腦編程技巧與維護,2017(12):66-68.

[4] 喜樂君.數據可視化分析:Tableau原理與實踐[M].電子工業出版社,2020.

[5] 何逸波.基于POWERBI的數據分析系統的構建與應用[J].區域治理,2018(33):218.

主站蜘蛛池模板: 久久亚洲天堂| 亚洲天堂区| 日本尹人综合香蕉在线观看| 青青网在线国产| 亚洲天堂免费在线视频| 超清人妻系列无码专区| 尤物成AV人片在线观看| 美女内射视频WWW网站午夜| 免费A∨中文乱码专区| 国产成人a在线观看视频| 久久人妻xunleige无码| 高清不卡一区二区三区香蕉| 久久国产乱子伦视频无卡顿| 呦女亚洲一区精品| 色综合激情网| 999国内精品视频免费| 乱人伦中文视频在线观看免费| 国产成+人+综合+亚洲欧美| 国产欧美日韩一区二区视频在线| 精品久久香蕉国产线看观看gif| 亚洲黄色高清| 久青草国产高清在线视频| 久久久久青草大香线综合精品| 狠狠五月天中文字幕| 色偷偷男人的天堂亚洲av| 日本人真淫视频一区二区三区| 91精品啪在线观看国产91| 久久综合激情网| 国产一区二区在线视频观看| 国产亚洲精品yxsp| 97视频在线观看免费视频| 国产一级特黄aa级特黄裸毛片 | 99re在线免费视频| 伊人久热这里只有精品视频99| 真人高潮娇喘嗯啊在线观看| 国产精品亚洲综合久久小说| 欧美伦理一区| 国产白浆视频| 久久99国产视频| 久久精品娱乐亚洲领先| 一区二区日韩国产精久久| 日韩av手机在线| 19国产精品麻豆免费观看| 91免费国产高清观看| 黄色三级毛片网站| 色婷婷亚洲十月十月色天| 日本亚洲成高清一区二区三区| 亚洲毛片一级带毛片基地| 亚洲无线国产观看| 成人午夜精品一级毛片| 日韩东京热无码人妻| 久久国产香蕉| 99精品在线看| 亚洲精品久综合蜜| 四虎成人精品在永久免费| 狠狠亚洲五月天| 亚洲精品日产AⅤ| 青青网在线国产| 亚洲日韩精品综合在线一区二区| 好紧好深好大乳无码中文字幕| 亚洲日本中文字幕天堂网| 99久久无色码中文字幕| 九九视频免费看| 免费久久一级欧美特大黄| 国产精品视频第一专区| 伊人中文网| 女人18一级毛片免费观看 | 国产欧美在线| 久久91精品牛牛| 国产午夜福利亚洲第一| 亚洲性日韩精品一区二区| 色网在线视频| 五月婷婷精品| 日韩精品无码不卡无码| 99无码中文字幕视频| 久久精品这里只有国产中文精品| 亚洲欧美日韩久久精品| 亚洲成人网在线观看| 福利国产微拍广场一区视频在线| 欧美性精品| 国产成人精品一区二区不卡| 天天干伊人|