陳龍生
摘 要 本文主要討論智慧城市中數據支撐平臺的實現技術,包括數據集成系統和數據處理系統兩部分。數據集成系統采集各類數據,采用最合適的處理機制,快速構建各類基礎主題庫和主題庫,數據處理系統對數據進行加工處理,實現數據資產的統一管理。文章最后討論數據質量管理的常用規則,并且給出部分規則算法的實例。
關鍵詞 智慧城市;數據集成;數據處理;數據質量
背景
智慧城市是運用信息通信技術,有效整合各類城市管理系統,實現城市各系統間信息資源共享和業務協同,推動城市管理和服務智慧化,提升城市運行管理和公共服務水平,提高城市居民幸福感和滿意度,實現可持續發展的一種創新型城市[1]。要實現信息共享和業務協同,需要打通各系統數據,并且將分散的異構數據源進行抽取、清洗、轉換、集成、處理,實現數據的統一管理,這就對數據支撐平臺有了很高的要求。數據支撐平臺作為智慧城市的基礎平臺,對上要支持各種應用開發,對下要無縫銜接,做到各系統協同優化。
1實現技術
數據支撐平臺包括數據集成系統和數據處理系統兩部分,以確保智慧城市業務的建設和實施。
1.1 數據集成系統
數據集成系統通過分布式數據處理和任務調度,高效完成數據集成,提高數據處理效率、規范開發流程,快速構建各類基礎主題庫和主題庫。系統把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,并保持各系統數據的標準化以及規范化,從而為智慧城市提供全面、可靠的數據應用和數據共享服務。
數據集成系統針對各式各樣的數據,包括結構化數據、半結構化、非結構化數據等類型,不同的數據類型應采用最合適的處理機制,要通過任務管理、調度管理進行各類任務的流程化處理。從數據歸集到數據融合,從數據檢核到數據入庫,最大限度地應用自動化的生產工具,提高處理效率與質量,同時在整個處理過程中,要通過監控管理實時掌握流程運行狀態,并提供充分的錯誤處理機制,以保證在合適的時間、合適的地點有最合適的數據可以使用。
為配合各系統數據采集,數據集成系統應提供多種結構化數據源配置管理,支持采集的多種類型的數據庫,包括國內外主流的關系型數據庫如Oracle、MySQL、SQLServer、達夢、金倉等,以及HBase、MongoDB和HIVE等,以及靈活的擴展新的數據源。
1.2 數據處理系統
數據處理系統通過對數據全生命周期管理,實現數據模型標準化、數據關系脈絡化、數據加工可視化、數據質量度量化,實現數據資產的統一管理及全業務流程的實時監控,可有效解決數據資源不可知、數據質量不可控、數據關系不可聯、數據脈絡不清晰的痛點問題。
(1)數據元管理
數據元管理主要包括新增、導入、發布、檢索、修改、刪除、停用等功能。一方面要支持數據元版本管理,包括不同版本之間的差異核對功能,另一方面要支持快速創建標準數據元,并建立和相關元數據的關聯關系。部分數據元的值需要滿足固定格式的標準,數據處理過程中需要通過固定的值組成規則來規范數據源值的格式,例如身份證、手機號碼、郵箱、日期等格式。
(2)標準代碼配置
標準代碼配置要支持代碼分類和標準代碼項的新增、導入、導出功能,提供標準代碼維護的能力。標準代碼配置可關聯到各類標準的代碼字典,為數據的規范性提供更加詳細的描述,為后續的數據質量、數據標準等工作提供支撐。
標準數據元具有唯一的編碼(標準代碼),按照實際的業務領域進行分類之后,可以形成帶有業務領域特征的相關編碼,比如“ZRR00001”代表自然人相關的數據元標準代碼。
(3)元數據管理
元數據是對數據中心所有維護數據的一個結構化的業務定義,主要是對中心所有的庫表的數據進行統一管理和監控,為數據的標準化運維以及數據的質量檢查等工作提供相關基礎。
元數據采集管理包括手動新增、配置采集、結構管理、結構物化、變更對比等功能。元數據主要包括庫表、字段、視圖、存儲過程等,通過新增或采集將需要納管的元數據結構自動化分析收錄,同時在管理功能中可針對修改更新后的元數據結構進行數據庫同步物化操作。
2數據質量管理
數據質量管理通過對各數據處理環節的監控,為智慧城市建設提供有效的數據質量監督和保障,同時為智慧城市數據的標準化輸出奠定基礎。
2.1 數據質量
數據質量主要包含準確性、真實性、完整性、全面性、及時性、即時性、精確性和關聯性[2],通過對數據分析管理,并對數據進行跟蹤處理,實現對數據質量的全程管控,提高數據的質量。
質量模型由一套實體表、一套規則以及多套質檢方案組成,用戶在定義質檢方案時,可以根據業務需要選擇實體表和規則,不同方案之間相互獨立。通過執行模型下的質檢方案,可以得到用戶關心的數據質量分析結果,如問題數據明細信息、數據質量分析報表等。
2.2 常用數據質量規則
數據質量規則是數據質量審核的邏輯校驗標準,是數據質量監控管理的基礎。以下列舉常用的數據質量規則:
空值檢查,用于檢查字段非空。
值域檢查,用于檢查字段的取值范圍,包括數值型、字符型、日期型等。
規范檢查,用于檢查指標值的格式是否規范,包括身份證、電話號碼、電子郵箱等多種數據類型的檢測[3]。
邏輯檢查,用于檢查指標之間是否滿足一定的邏輯關系。
重復數據檢查,用于檢查表內是否有重復數據,比如groupby重復依據字段,如果count()>1則算重復。
及時性檢查,用于檢查數據的及時性,衡量數據抽取或數據上報是否及時,比如算出上報時間字段的值,將上報時間與最佳上報時間作比較,看是否在允許誤差范圍內。
完整性檢查,包括記錄完整性和引用完整性。
記錄完整性檢查用于檢查實體表字段與比照字段的數據量、數值是否完全一致,比如對檢查表字段和比照字段進行groupby并求count,根據兩個字段groupby的結果來outerjoin,count不相等或檢查字段值和比照字段值有一個為空時,此行結果都算錯。
引用完整性檢查用于判斷實體表中的數據是否完全存在于比照表中。實體表檢查字段中的數據必須全部存在于比照表的比照字段中。比如,實體表的檢查字段關聯distinct后的比照表的字段,關聯后,如果比照字段為空,則檢查字段的值非來源于比照表,則該規則對應結果為false。
依據質量規則執行的實際需求,可通過圖形化界面配置多種質檢規則并組成可執行方案,依據執行規則管控平臺自動執行質量規則檢查。質量規則執行觸發方式可按固定時間周期(如月、周、日)、事件觸發等,并且可查看質檢方案執行記錄,實現對數據質檢全流程管控。
參考文獻
[1] 智慧城市術語:GB/T37043-2018[S]北京:中國標準出版社,2018.
[2] 趙興峰.企業經營數據分析——思路、方法、應用與工具[M].北京:電子工業出版社,2016:215.
[3] 牛麗雪.政府數據治理成熟度模型研究[D].保定:河北大學,2020.