唐文笙 張亮 韋通明 廖甜匯 溫麗梅
【摘? 要】隨著智能網聯汽車的快速發展,各大汽車企業積累了龐大的業務數據,如何有效組織并使用這些數據,成為了各個企業所必須面對的問題。本文基于維度建模分層理論,結合實際車輛網聯數據,設計了車聯網數據倉庫,為各大汽車企業管理者提供一個組織并使用數據的解決方案,也為汽車數據行業工作者提供一些簡單的參考。
【關鍵詞】大數據;汽車行業;數據倉庫
中圖分類號:U463.6? ? 文獻標志碼:A? ? 文章編號:1003-8639( 2023 )08-0056-03
Application of Hierarchical Theory in Internet of Vehicles Data Warehouse
TANG Wen-sheng,ZHANG Liang,WEI Tong-ming,LIAO Tian-hui,WEN Li-mei
(SAIC GM Wuling Automobile Co.,Ltd.,Guangxi Laboratory of New Energy Automobile,
Guangxi Key Laboratory of Automobile Four New Features,Liuzhou 545007,China)
【Abstract】With the rapid development of intelligent connected vehicles,the major automobile enterprises have accumulated huge business data. How to effectively organize and use these data has become a problem that all enterprises must face.Based on the theory of dimension modeling and layering,combined with the actual vehicle network data,this paper designs the vehicle network data warehouse,which provides a solution for the managers of major automobile enterprises to organize and use the data,and also provides some simple references for the workers in the automobile data industry.
【Key words】big data;automobile industry;data warehouse
1? 引言
近年來,隨著汽車行業各種業務系統的不斷發展,產生了越來越多的歷史數據,這是汽車行業非常重要的戰略資源。將這些重要業務數據存儲在數據倉庫中進行統一管理、數據分析和挖掘潛在的重要業務信息,可以很好地幫助汽車企業領導層的管理和決策,最大限度地提高汽車企業的經濟效益,使汽車企業更好更快地發展。在大數據時代,基于數據倉庫的數據挖掘已經成為汽車企業競爭的重要工具。
2? 數據倉庫介紹
數據倉庫創始人W.H.Inmon定義了數據倉庫,“數據倉庫是面向主題的、集成的、不可更新的,并隨時間不斷變化的數據集合,用以支持管理部門的決策分析過程”。其中定義了數據倉庫的幾個特點:面向主題的、集成的、不可更新的。如圖1所示。
1)面向主題的:數據倉庫中的數據是面向主題的,對應于傳統數據庫面向應用的數據組織特點。主題是一個抽象的概念,也可以說主題是業務相關的數據的類別,每個主題對應一個宏觀的分析領域。
2)集成的:集成的概念與面向主題的概念密切相關。一個公司有多條產品線與產品渠道,每個產品線都有自己獨立的數據庫。此時需要從公司層面整體分析所有數據,就必須要集成每個產品線的數據,將多個分散的數據源統一成一致的、無歧義的數據格式,再放置到數據倉庫中進行分析,這就是所說的集成的概念。
3)不可更新的:數據倉庫中的數據主要用于企業決策分析。涉及的數據操作主要是數據查詢,一般不進行修改[1]。數據倉庫數據反映了很長一段時間內歷史數據的內容,是不同時間點數據庫快照的集合,并基于這些快照對導出數據進行統計、合成和重組,而不是對數據進行在線處理[2]。
3? 分層理論介紹
數據倉庫從數據源到采集與多層清洗加工,形成以數據資產為核心的數據倉庫,在這一過程中,形成了一套規范的數據邏輯分層。數據邏輯分層包括ods層、dwd層、dws層、dim層以及app層[3]。數據分層及其對應描述見表1,分層理論數據流向示意如圖2所示。
4? 分層理論在車聯網數據倉庫的應用
伴隨著智能網聯汽車的發展,車聯網數據日益龐大,傳統數據庫已經不再使用對海量車聯網數據的存儲、搜索和分析,效率低、業務需求實現周期長。此時采用數據倉庫對原始車聯網數據進行重構便可以很好地解決傳統數據庫所面臨的問題,將分層理論應用至車聯網數據倉庫,各個層級對應操作如下。
一是車聯網ods層,建立統一數據表,接入多個軟件的數據源,具體數據表見表2。
二是車聯網dwd層,在實際車聯網數據中,受到各種實際工況的影響,車聯網數據字段值會存在空值、異常值等錯亂數據的現象,在dwd層可對每個字段的錯亂數據進行清洗,字符串類型的空值數據清洗為unknown,數值類型的空值數據清洗為0,時間類型的空值數據清洗為‘2001-01-01 00:00:00,日期類型的空值數據清洗為‘2001-01-01。另外,針對于業務需求,對埋點名稱中的錯亂數據也定義了清洗規則,將埋點名稱中的前后空格均去除,例如:埋點名稱=‘ b_m_01 清洗為埋點名稱=‘b_m_01。經過上述清洗過程,可以有一個系統的、完整的、干凈的、具有一致性的dwd層數據。表2經過清洗后得到表3。
三是車聯網dws層,在本層對dwd層的數據進行輕度匯總加工,將發生時間拆分成發生日期、發生小時,同時保留其他全部的數據字段,增加計算指標:使用次數,用于統計某臺車在某個日期、某個小時、某個地點的某個功能的使用次數。表3經過匯總加工后得到表4。
四是車聯網dim層,dim層匯總一些常用維度,例如日期維度、地區維度、車型維度。其中,日期維度表包含了2001~2030年每個日期對應的年份、季度、月份、季節、每周幾等信息,地區維度表包含了中國境內各省市區縣對應的中文全稱、中文拼音、所屬大區、省份簡稱等信息,車型維度表則包含了車輛的車輛識別碼、生產日期、銷售日期、車輛型號、車輛配置等信息。另外還有一個埋點維度表,埋點維度表針對dwd中的每個埋點名稱進行標簽分類,包含了埋點名稱的1級、2級、3級、4級標簽以及相關的觸發方式。
五是車聯網app層,app層結合應用場景梳理了4個顆粒度的數據應用表,分別為小時、天、周、月。下面一一介紹各個顆粒度數據表內容。
1)小時顆粒度:按小時統計各個車型1級、2級、3級、4級標簽的使用次數。
2)天顆粒度:按天統計各個車型1級、2級、3級、4級標簽的使用次數。
3)周顆粒度:結合dim層中日期維度表,按周統計各個車型1級、2級、3級、4級標簽的使用次數。
4)月顆粒度:結合dim層中日期維度表,按月統計各個車型1級、2級、3級、4級標簽的使用次數。
表4針對應用場景可匯總形成表5。
可以看到,ods數據經過數據倉庫各個層級的處理之后,可以得到一個標簽化的統計指標,數據更加規整,提高了數據的可用性。
5? 總結
數據倉庫內部分層并非為了分層而分層,分層是為了解決ETL任務以及工作流的組織、數據的流向、讀寫權限的控制、不同需求的滿足等各類問題。一個良好的分層應當有清晰的數據結構體系,可以做到精準血緣追蹤,同時減少重復開發以及資源浪費。
本文基于維度建模分層理論實現了車聯網數據倉庫,可以很好地整合處理車聯網數據,并針對不同應用場景定制化數據服務。此數據倉庫層次清晰,各層的作用域明確,實現復雜度不高,可為多種車輛數據的收集、統計和分析提供參考。不足之處是對數據的分析和處理過于單一,在以后的工作中,可以嘗試使用一些人工智能的方法對數據進行處理和分析,挖掘出更多的數據價值。
參考文獻:
[1] 孟祥怡,梁士福,張天強,等. 新能源汽車充電用戶行為大數據分析及應用[J]. 汽車文摘,2021(3):34-39.
[2] 周飛,劉夢娜,張暉,等. 商業銀行數據倉庫系統中ETL的設計與實現[J]. 軟件工程,2018,21(11):42-45.
[3] 王雪檸,翟媛,陳顥. “十四五”時期我國汽車產業發展趨勢簡析[J]. 汽車工業研究,2021(4):2-7.
[4] 葛鵬,劉森. 大數據時代對汽車行業的影響分析[J]. 產業與科技論壇,2013,12(24):23-24.
[5] 奉國和,利偉業. 數據倉庫在航空客戶關系管理中的應用設計[J]. 情報雜志,2006(7):32-35.
(編輯? 凌? 波)
作者簡介
唐文笙(1997—),男,助理工程師,研究方向為數據倉庫建設。