胡建 黃海峰 曹揚 胥月 唐春生 姜鑫



摘? 要: 為了規范物聯網數據的管理,實現物聯網數據的聚、通、用,通過重點討論物聯網數據管理的數據流向、核心架構設計,提出了一種基于數據倉庫、感知數據庫、時序數據庫且具備流批一體數據處理框架的物聯網數據管理方法,并通過平臺化來實現物聯網數據的管理。該平臺先后在雄安、上海示范應用,不僅統一了數據采集、傳輸、存儲的標準,而且明顯減少了數據遺漏的情況,提高了物聯網數據管理的效率。
關鍵詞: 物聯網; 數據管理; 平臺化; 流批一體
中圖分類號:TP319? ? ? ? ? 文獻標識碼:A? ? ? 文章編號:1006-8228(2023)05-127-04
Design and research of IoT data management platform
Hu Jian1, Huang Haifeng1, Cao Yang1, Xu Yue1, Tang Chunsheng1, Jiang Xin2
(1. CETC Big Data Research Institute Co., Ltd, Guiyang, Guizhou 550081, China; 2. CETC Digital Intelligence Technology Co., Ltd)
Abstract: In order to standardize the management of IoT data and realize the aggregation, communication and use of IoT data, by focusing on the data flow and core architecture design of IoT data management, an IoT data management method based on data warehouse, perceptual database, temporal database and with a stream batch integrated data processing framework is proposed. The IoT data management is realized through platform, which has been demonstrated and applied in Xiong'an and Shanghai successively. It not only unifies the standard of data collection, transmission and storage, but also significantly reduces the data omission and improves the efficiency of IoT data management.
Key words: Internet of things (IoT); data management; platform; stream batch integration
0 引言
近年來,隨著相關產業政策和法律法規的發布,我國物聯網技術不斷的發展并趨于成熟[1],如國務院發布的《關于推進物聯網有序健康發展的指導意見》、工信部發布的《工業和信息化部辦公廳關于推動工業互聯網加快發展的通知》等,特別是2021年,我國的八個部委聯合印發的《物聯網新型基礎設施建設三年行動計劃(2021-2023年)》[2]提到,物聯網是以感知技術和網絡通信技術為主要手段[3],實現人、機、物的泛在連接,提供信息感知、信息傳輸、信息處理等服務的基礎設施[4]。
隨著經濟社會數字化轉型和智能升級步伐加快,物聯網已經成為新型基礎設施的重要組成部分,物聯網數據的管理成為了突出問題[5]。數據顯示,2018年我國數據治理市場規模為30.52億元,行業整體在未來近幾年中將保持高速發展趨勢,預計到2023年我國數據治理市場規模將增長至186.50億元,期間年復合增長率為43.62%如圖1所示。
因此,我們有必要開展物聯網數據管理平臺及方法論的研究,孵化物聯網領域數據管理的新模式。
1 平臺設計
1.1 平臺數據流向設計
物聯網數據管理平臺的輸入為外部數據庫、外部系統,經過平臺處理后,數據以API的方式對外提供服務。整個平臺有三種類型的數據庫,分別是數據倉庫、時序數據庫、感知數據庫。數據倉庫采用PostgreSQL、Hive,主要用于存儲離線數據,例如積累的歷史數據;時序數據庫采用InfluxDB、OpentsDB,主要用于存儲熱數據,例如設備采集的及時數據;感知數據庫采用MongoDB、Hbase,主要用于存儲冷數據,例如設備采集的歷史數據以及設備的元數據。
物聯網數據管理平臺整體的數據流向如圖2所示。
⑴ 外部數據庫通過數據源接入的方式接入到平臺的數據源中,平臺對數據源進行數據采集,將數據采集到數據倉庫和時序數據庫中;
⑵ 外部系統通過消息推送的方式將數據推送到平臺的Kafka中,平臺將kafka的數據導入到數據倉庫和時序數據庫中;
⑶ 時序數據庫的數據可以通過數據集成的方式導入到感知數據庫中;
⑷ 數據倉庫、時序數據庫、感知數據庫可以通過注冊數據資源的方式將數據注冊成數據資源,數據資源可以注冊成API對外提供數據服務;
⑸ 數據倉庫注冊的數據資源平臺提供數據質量管理的功能,對數據的質量進行監控。
1.2 平臺架構設計
物聯網數據管理平臺的架構主要包括四層、三體系,如圖3所示。
四層分別是數據接入層、數據采集層、數據資源層、數據服務層。①數據接入層主要目的是將外部數據作為數據源接入到平臺中,作為平臺的輸入數據。現階段支持MySQL、PostgreSQL、MongoDB、Kafka、文件數據源、API類型的數據接入。②數據采集層的目的是將數據接入層的接入數據采集到數據資源層中的數據資源池。數據采集層支持數據遷移配置、立即執行、任務調度、運行監控等功能。③數據資源層包括數據資源池、數據處理、元數據管理、運營調度四個部分。數據資源池模塊主要用于存儲數據,由時序數據庫、感知數據庫、數據倉庫構成。④數據服務層將經過數據資源層處理的數據以API的方式對外提供服務,數據服務層包括API創建、API權限校驗、API維護等功能。
對于數據資源池模塊,劃分為專題區、主題區、標準區、原始區。數據處理模塊將數據資源池中原始區、標準區的數據進行數據處理,并存儲到主題區、專題區。數據處理包括批量數據處理和實時數據處理,批量數據處理采用PostgreSQL、Hive作為處理引擎,實時數據處理采用KSQL、Flink作為處理引擎。數據質量模塊對數據資源池原始區數據進行數據質量提升并存儲到標準區,數據質量包含敏感詞檢查、日期校驗、數值檢驗、字符串校驗、空值校驗、重復統計等功能。元數據管理模塊對數據資源池中的數據庫進行管理,包括元數據定義、元數據創建、元數據維護、元數據檢索等功能。運營調度對整個數據資源層的整體管控,包含任務調度、數據質量監控、作業監控、審計通知等功能。
三體系分別是安全體系、運行保障體系、標準體系。
安全體系包括應用安全、數據安全、租戶安全等;運行保障體系包括組織保障、制度保障等;標準體系包括數據標準、技術標準、安全標準等。
1.3 平臺功能設計
物聯網數據管理系統以“整合資源,共享數據,提供服務”為指導思想,構建滿足于數據資源信息化建設的需要。系統分為五個部分:數據源管理、數據處理、數據治理、數據資源池、數據服務。其功能概述如下。
⑴ 數據源管理
將需進行數據采集的外部數據源進行統一接入和管理,通過樹狀目錄將外部數據源進行分門別類,方便進行查詢和檢索。數據源類型支持關系型數據庫(MySQL、PostgreSQL)、非關系型數據庫MongoDB、消息中間件Kafka、文件數據、API等數據源的接入。所有外部數據源的密碼需進行加密存儲,保證數據安全。數據源管理功能如表1所示。
⑵ 數據資源池
數據資源池是指外部數據源采集匯聚后存儲到本系統而形成的由多種數據存儲介質組成的數據湖(時序數據庫、感知數據庫、數據倉庫)。數據資源池管理是對匯聚后的數據實例、不同數據存儲介質間的數據調度進行管理和監控,功能包括數據資源管理,數據存儲管理,元數據管理,批數據調度管理,實時數據調度管理,熱數據區管理,如表2所示。
⑶ 數據處理
數據處理是數據管理系統的核心功能。物聯感知數據具有規模大、時效性強、結構復雜、實時產生等特點,為滿足物聯感知數據的處理要求,數據管理系統需要具備實時計算和批計算兩種功能,具體功能如表3所示。
⑷ 數據治理
數據質量管理是感知數據資源開發工作的基礎,建立綜合的、全面的、基于全局視角的數據質量管理體系,可以確保數據的共享開放、研究分析和應用服務數據的高品質,實現數據資產價值最大化。常見的數據質量問題包括:數據無法匹配、數據不可識別、數據不一致、數據沉余重復、實效性不強、精度不夠等,針對這些問題,需要從完整性、規范性、一致性、準確性、唯一性、關聯性等方面對數據質量展開評估。數據質量管理功能如表4所示。
⑸ 數據服務
數據管理和治理的目的是數據被其他應用更好的使用,但是業務應用直接使用數據資源池中的數據存在很大的安全隱患,也不利于系統間的快速集成。因此需要將數據進行服務化,以服務的形式為業務應用提供數據,數據服務功能如表5所示。
2 平臺應用
平臺部分截圖如圖4所示。
平臺現已應用于雄安新區物聯網統一開放平臺、上海市域物聯網運營開放平臺中。
⑴ 雄安新區物聯網統一開放平臺
雄安新區物聯網統一開放平臺(XAIoT平臺),定位全國首個城市級IoT平臺,是雄安新區數字孿生城市的基礎,是城市超腦運行的底座,通過實現多維感知數據的融合匯聚,形成全域、全時、互聯互通的感知體系,有效支撐城市生命線、城市部件、公共安全、生態環境、民生服務等重點領域,實現數字孿生智能新區的基礎支撐平臺。
該物聯網數據管理平臺為IoT平臺上的感知數據、設備信息等數據的統一管理提供基礎設施,提供輕量級的數據治理能力。同時也提供輕量級的數據分析工具,多種數據采集及數據轉發接口,能便捷的支撐物聯網應用。
⑵ 上海市域物聯網運營開放平臺
中國電科聯合東方明珠建設的上海市域物聯網運營開放平臺,該物聯網數據管理平臺推動物聯數據與公共數據、社會數據的融合,豐富城市運行管理的神經元體系,更好地支撐“一網統管”、賦能城市運行管理。
3 結束語
本文針對物聯網數據具有海量、多源異構、時序性高等特性,設計了一種物聯網數據管理的方法,并通過平臺化實現物聯網數據的管理。該平臺先后在雄安、上海示范應用,應用表明平臺不僅統一了數據采集、傳輸、存儲的標準,而且明顯減少了數據遺漏的情況,提高了物聯網數據管理的效率。下一步工作將突破批數據和流數據的統一表達和查詢關鍵技術,研制流批一體數據處理核心模塊,性能與成熟度達到國內先進水平。
參考文獻(References):
[1] 李杺恬.物聯網政策形勢和安全保障實踐[J].網絡安全和信息化,2021(2):24-28
[2] 物聯網新型基礎設施建設三年行動計劃(2021-2023年)[J].市政技術,2021,39(11):1-3
[3] 馬文瑤.物聯網信息感知與交互技術[J].信息記錄材料,2021,22(11):150-151
[4] 鄭春梅.城市管網空間信息共享與服務平臺關鍵技術研究[D].博士,中國地質大學(北京),2014
[5] 向嵐,師會欽,廖慧婷.基于大數據的物聯網技術應用探討[J].計算機產品與流通,2020(8):66