黃蓋
(新疆國源測繪規劃設計院有限公司,新疆 庫爾勒市 841000)
業務信息化的推進以數據為基礎,與傳統靜態的、已知的數據相比,大數據是動態和未知的,時空數據是一種特殊類型的大數據[1]。時空大數據云平臺把各種分散的時空數據匯聚在平臺上,通過數據的多維融合、關聯分析和數據挖掘等過程,找出數據隱含的規律,幫助決策者做出快捷、全面、精準和有效的預判,正如中國工程院院士王家耀所說“數據隱含價值,計算發現價值,應用實現價值”,時空大數據正日益成為治理體系和治理能力現代化的核心驅動力。近年來,可視化分析、并行數據處理、Hadoop 計算框架等技術不斷應用到時空大數據業務中[2]。現階段迫切需要利用云端運算,對結構復雜、數量龐大的數據進行融合分析,轉化為有價值的信息。市級自然資源時空大數據云平臺立足于一網一庫一平臺N 應用的信息化總體規劃,在政務網(一網)環境下構建一體化數據庫(一庫),支撐自然資源政務管理與服務平臺(一平臺)、調查監測及政務服務等應用(N 應用)。
時空大數據來源廣泛,數據的豐富性和飛速發展的云計算技術為GIS 提供了新的應用模式,在這種形勢下,云平臺建設之路,經歷了基礎設施的梳理到整合,從數據聚合到按業務梳理,不斷地探索時空大數據云平臺技術實現之路。為適應當前信息化要求,仍有以下任務:
一是做好總體框架設計,滿足未來發展需求。二是構建高效基礎支撐層,滿足計算、存儲、I/O 吞吐量、系統穩定性等綜合要求。三是提升時空大數據挖掘分析能力,支撐更大范圍數據的快速分析和數據深入挖掘能力。四是以應用為導向盤活時空大數據,探索更深入的應用。
時空大數據應用云平臺四層結構,從下至上分別為基礎層、大數據資源中心、政務管理與服務、應用層,云安全體系全方位保障,總體框架體系如圖1 所示。

圖1 總體框架
(1)基礎層。基于虛擬化技術,對下層硬件資源進行封裝、隔離,抽象為邏輯資源池,向上層操作系統提供多樣化的執行環境。利用對象存儲、分布式存儲技術將時空數據和非時空數據進行存儲管理,用大數據計算方法進行抽取、清洗,提供給上層大數據資源中心使用。
(2)大數據資源中心層。通過數據總線向上層政務管理與服務層提供豐富的數據服務,同時接收來自應用系統層產生的應用數據,不斷地豐富時空大數據資源。
(3)政務管理與服務層。基于面向服務的GIS 架構和服務總線,提供專題服務、業務規則庫和對數字政府通用服務的支撐。
(4)應用層。通過服務調用和應用開發提供各種自然資源業務應用,按業務層面主要分為業務監管與服務應用、調查監測評價應用和政務服務綜合應用三大類。
(5)云安全體系。應用安全方面,通過統一身份認證系統實行嚴格身份認證,應用防火墻針對不同應用設置精細策略。數據安全包括容災備份和傳輸加密。主機安全方面部署亞信虛擬化防護系統進行深度安全防護。網絡安全包括設置安全域、應用防火墻技術對DDoS 等攻擊進行有效防護。云平臺安全通過多租戶隔離實現不同應用的安全隔離。運維安全方面使用堡壘機登錄云平臺、云服務器和物理設備,實施操作的可追溯審計。
市級時空大數據云平臺在原來虛擬化技術的基礎之上,按照統一標準構建時空大數據云技術架構,實現裸金屬服務器、虛擬機、容器環境、華為基礎設施等多套技術體系的融合,最終達到統一化管理。通過隔離驅動層一方面直接支撐時空大數據業務,另一方面通過接口為與“數字政府”之間對接打下基礎。超融合基礎支撐環境如圖2 所示。

圖2 超融合基礎支撐環境
市級時空大數據中心為前中后三層結構,前端負責數據應用,中間負責數據處理,后端負責數據收集及存儲。時空大數據中心體系框架如圖3 所示。

圖3 時空大數據中心體系框架
5.1.1 后端數據存儲
包含空間數據和其他數據,空間數據描述現實世界的目標,用點、線、面以及實體等基本空間數據結構來表示空間實體的位置、形狀、大小及其分布特征;其它數據包括屬性、文本、圖像等多種空間實體的輔助表示信息數據。數據分涉密版、政務版和公眾版,涉密版數據留在涉密存儲區,作為其他項目的原始數據集,政務版和公眾版數據通過安全隔離網閘擺渡到電子政務外網區或互聯網區成為業務應用數據。
5.1.2 中間數據處理
首先按業務需求對數據源中的表或視圖進行抽取,轉換成ETL 工具可以識別的格式;然后按規則對抽取的數據進行清洗處理,以糾正數據文件中可識別的錯誤,使數據具有一致性;最后對數據進行挖掘分析、可視化展現。
5.1.3 前端數據應用
基礎數據服務提供要素、地圖、目錄、地名地址、資源共享、資源訂閱等服務;數據處理服務提供在線編輯、應用定制、矢量切片、專題制圖等服務;數據分析服務提供通用化空間分析引擎、空間數據變化監測分析等。
機構改革之后,市級自然資源管理部門在原有一體化時空大數據組織結構,即公共基礎類、專業基礎類、業務管理類、公共政務類四大類進行數據組織的基礎上,重點收集補充整合海洋、空間規劃、地質環境類數據,不斷豐富時空大數據資源。
采用Hadoop 主/從集群架構體系,把GIS 應用程序(稱為“作業”即“job”)分割成許多個小工作單元(稱為“任務”即“task”),放到集群的任意節點上執行;分布式文件系統(HDFS)主要負責集群節點的數據存儲,并實現高吞吐率的數據讀寫;分布式并行計算模型MapReduce[4]用于搜索領域,解決海量時空大數據的計算問題。Hadoop 分布式計算框架如圖4 所示。

圖4 Hadoop分布式計算框架
由管理節點和多個計算節點組成,較于分布式此方式的數據集中存放。管理節點將任務按數據拆分成多個子任務,并將子任務及數據推送給計算節點,計算節點運算完成后通知管理節點執行完成或失敗,以便開始接受下一個任務。
一是實時計算場景使用高性能計算。主要針對用地審批、礦業權登記等業務的支撐,將單個項目地塊與全市的現狀地類圖斑、規劃地類圖斑等百萬級要素圖層同時疊加分析,可以有效支撐全市各縣區的并發訪問。二是批處理的計算場景使用分布式計算。主要用于全域范圍的分析評價與監督評估,如國土空間規劃實施監督的指標計算,用百萬級要素的全市范圍的現狀圖斑和規劃圖層同時疊加分析。
在面向服務GIS 架構基礎上探索云化實現,從云化模板出發,結合容器技術實現業務微服務,達到云化業務程序的目的,業務云化框架如圖5 所示。

圖5 業務云化框架
在微服務架構下應用docker 容器技術,通過模板制作、應用類型注冊、投遞方案配置、投遞參數配置、投遞訂單解析、投遞流程實現等環節,初步構建了一套從開發、測試、部署、發布到持續交付的業務云化機制。
一是已實現包括三大陽光工程(陽光用地、陽光用礦、陽光用水)、國土空間規劃、城市地質和決策參閱等重點應用支撐。二是政務信息共享方面,擬通過數據交換、服務對接等方式和政務大數據中心等實現聯通對接,依照部門職能按需共享,為其他政府部門共享自然資源專題數據,延伸數據服務范圍。三是豐富自然資源時空大數據資源。計劃利用政務大數據中心的人口、法人、社會信用等各類數據和服務,豐富數據內容。
市級時空大數據云平臺通過應用超融合架構節省了硬件投資,通過云化業務技術簡化了應用部署,通過分布式高性能計算框架提升了業務的對外服務能力,依托云平臺建成的自然資源時空大數據中心,實現了數據資源的統一管理,隨著數字中國的發展,時空大數據云平臺將發揮更多作用。