程宇翔,梁均軍,劉洪波,趙翔宇
(1.重慶市地理信息和遙感應用中心,重慶 401121)
隨著信息技術的快速發展以及互聯網、物聯網等新興數據的高度發達,新型智慧城市建設已離不開大數據這個核心引擎[1]。時空大數據是大數據的重要組成部分,是時間、空間、專題屬性相結合的三維信息,與地理位置有著直接或間接的關系。通過集成基礎地理信息數據、實時數據、公共專題數據和空間規劃數據,并將其時空化,形成時空大數據[2]。應用多源時空大數據開展城市的感知、分析、模擬、預測已成為重要的研究方向,時空大數據所具有的高時空粒度與跨度、多源樣本覆蓋、人本特征顯著等屬性為城市發展研究帶來了新的契機[3]。同時,結合時空大數據開展城市的編制、審批、管理、優化、動態監測、評估預警也成為規劃實踐的核心內容,改變了傳統規劃的思維模式[4]。從對象尺度來看,時空大數據的應用分析包括建筑、社區、城市、城鎮群(區域)、全國乃至全球等不同尺度。在針對大尺度空間、長時間跨度區域的國土空間分析中,時空大數據的應用具有極大的優勢。然而,現階段在生產時空數據的工作中還面臨著兩個方面的挑戰:①目前仍采用傳統的人工處理方式將海量、異構的各類數據轉換為統一基準的時空數據,轉換模式單一,時間成本高昂,數據轉換效率低下[5-6];②面對不同來源、不同類型的千萬級甚至億級時空數據的存儲和計算,傳統基礎設施難以有效 支撐[7-8]。
鑒于此,本文重點研究了數據轉換方法、流程轉換自動化技術、時空大數據存儲等關鍵技術,建成了智慧重慶時空數據轉換服務系統,實現了海量、異構數據從接入、轉換、管理、分析、服務到應用的全流程服務。
時空數據轉換服務系統基于大數據平臺建設,利用面向服務的架構(SOA)理念,采用層次化結構建設,包括基礎設施層、平臺層、數據層和應用層,如圖1所示。

圖1 時空數據轉換服務系統總體架構圖
1)基礎設施層負責構建系統所需的數據處理、存儲和服務等硬件基礎設施和網絡基礎設施。
2)平臺層負責支撐時空轉換流程的構建。該層包括時空轉換模型和時空轉換組件,其中時空轉換模型包含地址匹配模型、數據關聯模型、實時匹配模型和實體匹配模型;時空轉換組件包含地址匹配、建筑物轉換糾偏、道路轉換糾偏、實時數據轉換等。
3)數據層利用HDFS、PostgreSQL、ElasticSearch等存儲環境實現時空大數據的存儲與訪問,支撐平臺的運行。針對不同的時空數據類型,采用不同的方式存儲時空數據轉換成果。
4)應用層面向不同業務應用方向,提供企業、人口等時空主題分析應用以及個性化主題分析應用功能,以快速實現主題分析應用搭建。
通過不同類型的數據采集系統獲得的非空間數據,根據數據產生方式和描述的業務不同,在空間位置也有不同的描述,如統計數據常以行政區劃名稱描述其空間內容、企業常以注冊地址描述其空間關系等,因此對非空間數據的空間化轉換,也存在不同的轉換模式,主要包括地址匹配、關聯匹配、實時匹配和實體匹配4種方式。
1)地址匹配主要借助于地名地址數據庫成果,通過地址匹配服務引擎建立地名地址與空間坐標的對應關系,能對帶有地名地址描述的數據進行空間轉換,賦予非空間數據坐標信息。
2)關聯匹配主要針對數據本身沒有空間描述信息,但與其有關的其他數據存在空間描述信息或已賦予坐標的情況,可通過關聯數據進行時空轉換,賦予其相關數據的坐標信息。例如,社保數據屬性信息中沒有空間描述信息,但社保與人口數據有關聯關系,可通過將人口坐標賦予社保數據的方式,實現社保數據的空間化轉換。
3)實時匹配主要用于實時位置數據的接入與數據提取轉換。實時位置數據的處理存在特殊性,其本身已具備坐標信息,但還附屬了設備信息以及與設備相關的業務信息,在位置數據轉換時,需要同步獲取設備信息或相關業務狀態信息,并對設備數據的空間位置和狀態進行更新處理。例如,在出租車實時位置數據轉換中,需要同步獲取出租車信息以及是否空載信息,更新出租車專題數據。
4)實體匹配主要用于描述地理實體數據相關業務的非空間數據的空間化轉換,需要將非空間數據與實體數據進行融合,賦予非空間數據地理實體坐標。例如,道路施工進度信息包含道路實體描述信息,可通過道路實體融合施工進度信息,形成道路施工數據的空間化轉換。
在進行非時空數據向時空數據的轉換過程中,不僅面對的數據種類多、類型復雜,而且各類數據均有不同的更新頻率和更新方式,采用傳統匹配或人工處理等空間化處理方式,工作效率低,實施成本高,無法持續投入建設,因此實現數據時空化轉換處理的自動化運行是時空數據轉換服務系統建設的核心。
數據時空化處理包括數據接入、清洗、轉換、存儲等多個階段,為了滿足處理流程自動化運行要求,需完成數據接入標準化、數據處理流程化、流程運行任務化、任務執行可監控等內容的設計與建設,如圖2所示。

圖2 時空數據轉換服務流程圖
1)數據接入標準化主要是指進行時空化轉換的數據需要建立數據描述標準,包括元數據標準和數據內容標準。元數據標準主要用于建立數據訪問方式、數據更新頻率、數據關聯關系等信息標準;數據內容標準主要用于建立數據唯一標識、數據空間描述字段等信息標準,為數據時空化處理提供可自動讀取的信息基礎。
2)數據處理流程化主要是指非時空數據時空化處理過程需要建立一個可執行且固化的數據處理流程,但不同的數據時空化處理流程也有各種差別,因此該數據處理流程支持自定義,即支持對不同數據采用不同的時空化處理流程進行定義。本文將在Geo-ETL建設成果的基礎上,擴充各類數據轉換組件,實現數據時空化處理流程的可視化定義與管理,達到不同數據時空化處理流程化的目的。
3)流程運行任務化主要是指已建立的數據時空化處理流程需根據不同的更新頻率進行任務化執行,能夠任務化執行的流程通過任務調度技術,可實現流程的自動化運行。本文將借助在線任務調度技術,融合時空數據處理組件,實現數據時空化處理流程的自動化運行與可視化調度管理。
4)任務執行可監控。由于自動化執行的數據時空化處理任務的穩定性是任務能夠常態化運行的關鍵,因此需要實現流程執行任務的可視化監控與異常排查能力。本文將通過分布式日志收集技術實現所有任務日志的采集、存儲、分析和可視化建設,進而實現自動化執行任務的可視化監控、自動化異常告警、處理異常日志分析等功能,保障任務的常態化可持續運行。
通過時空數據轉換服務系統得到的海量成果數據,日積月累已形成時空大數據規模,傳統的集中式關系型數據庫已無法對TB甚至PB量級數據進行高效存儲管理,特別是無法對單表億級數據進行高效處理。傳統的計算能力一般為單機單進程或單機多進程處理方式,無法應用多集群并行計算的能力。此外,傳統模式中的多終端訪問很多仍以專題地圖、符號化來表達正常的數據規模,沒有對大數據量、多類別、實時數據有更直觀、更友好的大數據展示方式。因此,需要一個強有力的數據處理和承載平臺為大數據級別的時空數據提供支撐。基于時空大數據的數據類別、數據特征、數據時效性以及數據采集的多種接入方式,本文通過融合多種時空大數據存儲技術,實現了對多源異構數據的統一存儲和管理。
針對時空大數據體量大、更新頻率快等問題,本文通過大數據技術對時空大數據進行分布式存儲,通過地理信息技術實現了對ElasticSearch、PostgreSQL、MongoDB以及HDFS等數據存儲引擎的擴展,使其支持時空數據的存儲與計算。系統可根據不同的數據類型選擇不同的數據存儲方式,以滿足更多數據接入場景與應用場景的需求。時空大數據存儲引擎通過統一的分布式集群管理方式對多源異構數據類別進行高效管理;同時通過標準的服務接口和數據API為時空大數據交換、分析、應用提供高效的存儲技術支撐。
在實際應用中,結構化數據可采用分布式關系型數據庫PostgreSQL等進行存儲,半結構化數據可采用ElasticSearch、HBase進行存儲,非結構化數據可采取文件型數據庫HDFS進行存儲,以此保障不同類型數據能根據其數據特性和應用場景,采用合適的存儲介質,實現數據的便捷管理與高效應用。其中,PostgreSQL數據庫主要用于存儲千萬級以下的時空專題數據,這樣既能滿足其對外提供SQL查詢等正常需求,又能滿足海量數據分布式存儲和快速查詢的需求;ElasticSearch主要用于存儲實時動態數據,以滿足其數據量較大、更新頻率快、聚合統計查詢要求高等需求。
時空數據轉換服務系統形成了一套自動化的數據轉換流程,實現了對多個行業部門業務的有效空間落地,累計完成1 030余萬條數據的時空轉換,已廣泛應用于應急管理、城鄉規劃、市場信用監管、教育、醫療、市政管理、地理國情普查、水利、交通、航運、生態環境保護等領域的經濟建設與科學研究中,為全市地理信息應用建設工作提供了高水平的數據轉換服務,解決了傳統空間化過程對人工操作依賴程度較高、轉換工作費時費力的問題,極大地提高了工作效率。
本文從構建智慧重慶時空數據轉換服務系統的工作實際出發,研究了非空間數據的自動時空化模式,設計了時空數據轉換服務系統的總體架構和轉換流程;并利用流程轉換自動化、時空大數據存儲、時空大數據計算、個性化主題分析等關鍵技術實現了數據從接入、轉換、管理、分析、服務到應用的全流程服務,有效解決了目前非空間數據時空轉換人工依賴程度高、傳統大數據環境無法有效支撐時空大數據的高效存儲與計算以及時空數據的快速可視化應用等問題。目前已開展了人口、企業、交通等數據的時空化轉換,取得了顯著效果,為下一步開展時空數據分析決策奠定了技術基礎。