張 晨,武宇娟,段 琛,張鋅蕾
(1.自然資源陜西省衛星應用技術中心,陜西 西安 710002;2.陜西省地質大數據中心)
隨著大數據時代的到來,科學研究進入了以大數據為基礎、以數據密集型計算為手段的第四范式。大數據技術可助力地質調查工作進入數字化、智能化的地質調查時代,促使地質數據共享與開放,突破各種主客觀因素的限制推動數字經濟發展。
本文在分析、總結陜西省公益性地質數據資源特征的基礎上,探討了大數據架構思想指導下地質數據分級共享服務的設計思路和實現情況,形成了可行的平臺建設方案,為數字中國提供了陜西省公益性地質調查領域的典型案例及經驗。
地質學屬于數據密集型科學,地質大數據具有大量性、特殊性、涉密性、多樣性和價值性[1],也具有潛在價值大的標志性特征[2]。陜西省公益性地質調查工作在礦產地質、農業地質、城市地質、地質災害綜合防治、國土空間規劃、地質遺跡、自然資源衛星遙感技術應用等領域,積累了多維、多元、多源的靜態數據和動態數據,具有數據格式豐富、數據維護碎片化、靜態數據價值高、動態數據體量大的典型特征。
綜合分析現有公益性地質數據管理和利用現狀,以“多級文件夾+文件”的數據存儲模式以及地質資料匯交流程下的數據管理方式已經無法支撐地質數據在匯存管用各個環節的高效流轉和數字資產管理,與數字地質工作新格局的要求尚存在較大距離,不利于地質數據的深度挖掘和價值再造。充分考慮地質數據的混合性、抽樣性、稀缺性、多源性、多元性、多態性、時空性、變化性、因果性、關聯性、方向性、分帶性、代表性、惟一性等等[4],兼顧數據更新方式、頻率,陜西省公益性地質大數據服務平臺自下而上劃分為基礎設施層、數據層、服務層、應用層(圖1)。引入分級共享審核流程,來保障數據資產管理、智能分析以及服務調用等方面的需求。

圖1 系統總體架構
采用私有云方式建立一個集中式基礎環境,通過使用服務器端虛擬化技術對資源進行集中管理,實現資源粒度的劃分和封裝,提供虛擬BIOS、虛擬處理器、虛擬內存、虛擬設備與I/O 能力,保護關鍵業務系統和數據。
準確、全面是大數據的基礎[3]。在實現數據隨用隨調、細粒度服務、全面可見的同時兼顧管理的可操作性是數據層設計的難點,也是本平臺設計的核心。利用Hbase 和HDFS 將多源異構原始數據進行分布式存儲,采用關系型+文件系統的存儲管理方式實現多源、異構數據的管理,通過索引關系進行統一的查詢、瀏覽、管理和維護。結構化數據、元數據等采用關系型模型進行存儲和管理;矢量數據,例如基礎地理數據、地質圖件數據等,采用擴展關系型模型(Geodatabase)來進行存儲和管理;非結構化的圖片、電子文檔、音視頻等數據,則以元數據+編目+文件方式統一存儲在文件服務器上;多源、多分辨率,多時相的遙感影像數據區分為冷數據和熱數據,采用元數據+編目+影像文件方式,冷數據存儲在磁盤陣列上,熱數據存儲在緩存中。
使用專業的數據處理工具和人工交互方式,對原始數據進行提取、轉換、重構、空間投影轉換和質檢后入庫。以符合地質調查行業習慣的數據分類為主,利用標簽系統擴展數據特征維度,建立數據庫分類目錄。在不改變空間數據原始格式的情況下,使用商用Web 空間數據服務平臺將其發布成符合OGC 標準的服務,以便提供即時服務能力。
基于基礎設施層和數據層提供的工具和接口,以商用GIS 平臺為基礎,搭建面向應用層的體系化服務能力。提供數據、功能、接口和管理四類服務(圖2)。

圖2 平臺層服務能力圖
應用層圍繞公益性地質業務,集成已有系統或搭建新系統。以統一入口、標準化API接口、數據即時同步和界面風格統一的基本原則,實現了陜西省地源熱泵監控平臺、陜西省地質災害監測預警信息系統、秦嶺北麓國土資源衛星遙感監測服務平臺、陜西省農村生活垃圾治理遙感監測核查與整治等業務系統集成。使用平臺層提供的微服務組件,快速構建業務流。由通用數據服務、矢量數據服務、柵格數據服務提供業務數據,開發了霞客游陜西、項目管理中心、地質調查隨身行等業務或管理應用。
在私有云環境下,安裝Windows 10 操作系統,配置Hadoop、Hbase、Zookeeper、Kafka、Redis、Tomcat、ArcGIS等環境。以關系型數據庫(PostgreSQL)、NoSQL數據庫(MongoDB、MinIO)和空間數據庫(PostGIS、FileGDB)進行數據庫存儲和管理。間數據庫整合多尺度、多源數據類型(包括矢量數據、柵格數據、遙感影像數據等)的空間數據。屬性數據庫主要用于存儲與管理具有比較精確的空間特性的地理位置屬性數據(區市地理、空間位置、相對動態等),通過空間屬性與基礎地理數據建立鏈接。時間是每個專業維度屬性的一個復合數據項[5],采取時間標簽+非結構化數據庫存儲技術解決地質數據的生命周期版本管理、細粒度拆分引起的數據體量幾何式增長帶來的分析和定位問題。在此基礎上,構建統一的標簽體系,嘗試建立了數據血緣關系分析和熱詞云功能(圖3)。

圖3 熱詞云
地質大數據的高維度、時空性和涉密性對平臺的構建具有很高要求。需根據數據特征進行分類存儲和管理,需以地質調查業務流程和實際應用需求設計數據調用。陜西省公益性地質大數據平臺為地質調查數據的匯、存、管、用提供了一套可行的實踐方案。未來對于地質數據的時空耦合、多源異構數據融合與挖掘、多維數據的可視化表達等前沿技術問題仍需進一步研究。