孫 麗 (合肥市測繪設計研究院,安徽 合肥 230061)
智慧城市時空大數據建設已經在智慧城市建設和城市運行管理中得到了廣泛深入應用,極大地提高了城市管理能力和水平。智慧園區時空大數據庫作為智慧園區建設的重要組成部分,實現園區各業務部門業務數據庫中多源異構數據的匯聚和融合是智慧園區建設的首要任務,然而現有各業務系統的數據庫分布廣泛、結構不同,需要建設數據融合治理平臺來接入、融合各業務系統數據源(包括結構化數據與非結構化數據),完成各種數據的接入、融合、治理并裝載到時空大數據庫,進而推動各行業委辦局聯動和智慧示范應用落地,為園區新型智慧城市建設奠定基礎。
本文結合智慧園區時空大數據庫的科學管理、業務應用建設需求出發,開展時空大數據庫存儲設計、數據融合治理模式探索,構建了智慧園區時空大數據融合治理平臺。時空大數據庫基于關系型數據與非關系型數據庫方式進行大數據管理與數據存儲,結合Spark分布式架構設計,實現對基礎地理數據、專題數據以及實時動態數據統一編目管理,完成對數據的抽取、融合、治理。
平臺建立了多技術類型、多業務類型的數據倉儲,滿足多源數據的持久化需求。時空大數據融合治理平臺中數據倉儲主要是由關系型數據庫和非關系型數據庫構成。不同類型的數據,采用不同的數據存儲技術。其中,按照數據存儲方式分為結構化非空間數據存儲、結構化空間數據存儲和非結構化空間數據存儲。按照數據庫類型分為時空數據倉庫和元數據庫。在數據存儲內容方面,各類數據根據數據內容的不同采取不同的存儲方案。
①靜態時空數據:既有結構化數據也有非結構化數據。結構化數據包括矢量數據、影像數據、格網數據、建(構)筑物數據、地名地址類數據(地理編碼)以及業務表格等,主要以“ArcSDE+關系型數據庫(Oracle)”存儲;非結構化數據包括切片數據、影像數據、三維模型等,主要以FTP進行儲存。
②動態時空數據:既有結構化數據,如轉換解析后的動態運行數據、傳感數據、媒體數據,該類數據與傳統地理空間數據完全不同,為實時變化的傳感器數據、文本數據、圖片、視頻等數據,這些數據可采用HDFS、MongoDB進行存儲。
各子庫的數據錄入時都要錄入元數據信息,以提高查詢檢索效率,元數據統一存儲在關系型數據庫中。存儲設計如圖1所示。

圖1 數據存儲設計
時空信息融合匯聚是所有數據進入時空大數據庫的入口,也是各類數據更新的入口,提供在線接入和離線拷貝兩種方式。其中,在線接入主要針對的是實時動態信息和各類行業專題數據,對于靜態地理信息數據、歷史地理信息數據、遠景規劃數據等數據采用定期離線拷貝的方式進行匯入,經整理后轉換為可提供的時空信息成果數據或服務。數據融合治理區提供靈活可配的數據清洗轉換能力,實現跨業務系統,跨異構數據源的數據匯集及轉換,對離線拷貝、在線接入的各類數據經過抽取、清洗后形成中間成果數據,根據時空大數據模型進行分層處理、空間化處理,然后經過數據處理治理、數據質檢、數據入庫,進入最后的時空大數據庫中。
以解決實際的業務問題為平臺建設的出發點和歸宿,旨在從園區各業務部門提取分布廣泛、結構不同的業務數據并裝載到時空大數據庫。本文基于ETL數據抽取融合技術和Quartz分布式自動化任務調度框架構建了時空大數據融合治理平臺,基于流程的可視化任務定制并行計算框架技術實現圖形化數據匯聚流程定制功能,通過作業設計器,規劃作業步驟,定制步驟間的依賴關系,保證了時空大數據的自動、高效、可持續的融合匯聚。平臺主要由數據融合治理工具、數據融合任務調度工具、數據融合執行工具、數據融合監控管理中心等功能模塊組成。其功能架構如圖2所示。

圖2 系統總體功能架構圖
數據融合治理工具作為平臺的功能主體,具有轉換流程設計器、作業設計器,用于定義數據清洗及轉換,作業的執行流程配置,針對多源異構數據自定義數據融合流程,以拖拽的方式進行數據融合治理設計,并將設計好的方案保存在計算模型集中,提供數據處理插件,供數據融合服務使用。其主要負責將分散的、異構數據源中的數據按照統一的規則集,完成數據從數據源向目標數據倉庫轉化的過程,為數據分析處理、挖掘提供基礎。

圖3 自定義數據融合治理流程

圖4 數據融合管理中心
數據融合管理中心作為數據處理任務的調度監控管理中心,主要負責執行設計工具形成的轉換作業進行服務化調度和執行,并監控任務執行時的硬件資源、任務運行狀態,以及異常情況的跟蹤、記錄與警告處理。
任務調度執行模塊可以執行持續的分布式作業任務,并為任務調度及任務執行狀態展示提供支撐。任務調度工具以任務調度為主體,對數據融合治理工具完成的轉換作業進行服務化調度和執行。任務執行工具主要在節點上運行方案,完成數據匯聚融合工作。
智慧園區時空大數據融合治理平臺在輔助智慧園區示范應用建設中,初步構建了“以數據為基礎、以融合為核心、以應用為導向”的應用管理模式,對于匯入的錯誤、冗余的多源異構數據進行冗余清除,按照空間位置屬性或時間屬性對數據進行聚類抽取計算,對不同類型的時空數據根據靈活配置規則,進行合法性判定,利用平臺提供的多類數據融合治理工具,實現了多源異構時空數據的處理和融合,規范了時空數據管理和處理流程,并在智慧規劃、智慧環保等示范應用中取得實際應用,如融合治理規劃用地數據、水質實時動態監測數據等,推動了各業務部門數據的共享協同和智慧示范應用落地,有效地提升了園區智慧城市建設應用管理的水平。
為了持續、實時、高效地進行園區各業務專題數據的抽取和匯聚融合,本文基于ETL數據抽取融合技術及分布式自動化任務調度框架構建了融合計算平臺,接入了園區環保、城市管理、建設發展、測繪、自然資源和規劃等多個業務部門的專題數據,其業務數據具有多源性、異構性和實時性等特點。通過可視化業務建模,構建了集融合治理任務設計、任務調度、計算執行于一體的作業組件與實時計算,提高了數據融合效率、錯誤處理效率和數據融合準確度,實現了眾源數據的自動融合,并在園區示范應用建設中取得了一定的應用效果,為后續融合更廣范圍的專題數據、實時動態數據提供技術依據和基礎。

圖5 規劃用地數據融合治理展示

圖6 水質實時動態監測數據融合治理