關利海 董俊龍



摘 要:監控和提高車聯網數據質量,是實現車聯網大數據分析的基礎。本文首先解讀和總結目前國家對數據質量治理的相關標準,并結合車聯網數據實時性、多維度等特點,對數據質量評價指標、約束規則以及計算方法進行歸納。最后對車聯網數據評價系統進行了概要設計。
關鍵詞:數據質量;車聯網;系統設計
1 前言
目前車聯網領域隨著行業發展和運營,積累大量的車輛數據、駕駛數據,這些數據對于后續分析來說是至關重要的。然而, 數據庫中往往存在很多數據是臟的、不完整的、不一致的、不準確的,這些數據可能導致操作代價、存儲代價昂貴、數據分析失敗甚至錯誤。可以說保證數據質量是一切車聯網數據增值服務的前提。本文旨在面向車聯網領域,對數據質量評價方法、流程進行解釋說明,并對車聯網數據質量評價系統進行整體概要設計。
2 數據質量治理法規要求
GB/T 36073中定義了數據戰略、數據治理、數據架構、數據應用、數據安全、數據質量、數據標準和數據生存周期等8個能力域,其中,對數據質量提出如下四大過程能力要求[1]:1)明確數據質量目標、范圍,設計數據質量指標、規則。2)實時監控數據質量,發現數據問題。3)分析影響數據質量的原因。4)制定數據質量改進方案,糾正數據問題。
GB/T 36344定義的數據質量評價流程[2]包括構建質量管理組織、建立數據規范、確定評價指標、實時評價、數據質量提升、數據交付使用。法規中對如何確定評價指標和實施評價給出了對應參考準則。其核心目的是通過數據評價指標統計并發發現數據問題,從而針對性的提升數據質量,達到數據應用的標準。
3 車聯網數據質量評價方法
車聯網作為物聯網的重要分支,除了具備大數據一般特點以外,也具備自身的一些特征。車聯網數據源豐富,從采集設備上劃分,包括T-BOX、ADAS、行車記錄儀、車載信息娛樂系統以及其他車身傳感器等;從數據分類上劃分,包括操作數據、環境數據、道路交通數據等,從數據屬性上劃分,包括非結構數據、結構化數據以及半結構化數據;從分析方法上劃分,數據分析處理既要求離線批量處理,也要求實時流處理。
3.1 數據質量評價指標
本文在GB/T 36344 數據質量評價指標的基礎上,結合車聯網數據領域,總結如下評價指標:
3.2 數據質量評價約束規則
結合車聯網采集數據特點,舉例說明如下約束規則:
3.3 數據質量評價算法
根據業務需求,對數據集制定數據質量評價指標以及約束規則,根據表3計算方法分別計算評價指標得分,最終評價結果可以通過各個指標得分的加權平均來計算。
4 數據質量評價系統設計
4.1 功能模塊設計
數據質量評價系統功能設計如圖1所示:
4.2 數據流設計
如圖2所示,定義功能之間數據流圖:
5 小結
本文針對目前國家法規在數據質量治理領域提出的標準做了解讀和總結,并在此基礎上結合車聯網數據特點,總結了數據質量評價的通用指標和約束規則,并對車聯網數據質量評價系統進行概要設計,旨在對汽車生產及運營企業在實現企業數據治理以及車聯網大數據分析系統時起到一定借鑒作用。
參考文件:
[1]GBT 36073-2018,數據管理能力成熟度評估模型[S].北京:中國國家標準化管理委員會,2018.
[2]GB/T 36344-2018,信息技術 數據質量評價指標[S].北京:中國國家標準化管理委員會,2018.
[3]袁滿,張雪.一種基于規則的數據質量評價模型[J].計算機技術與發展,2013.
[4]楊青云,趙培英,楊冬青等.數據質量評估方法研究[J].計算機工程與應用,2004.
作者簡介:關利海(1985-),男,錫伯族,遼寧沈陽人,碩士,中級工程師,研究方向:ADAS及智能網聯。