吳紅梅,王志強,吳友章,畢亭亭
(1.正元地理信息有限責任公司山東分公司,山東 濟南 250101;2.青州市國土資源局,山東 青州262500;3.山東中基地理信息科技有限公司,山東 濟南 250101)

山東省地質資料集成與應用研究
吳紅梅1,王志強2,吳友章3,畢亭亭1
(1.正元地理信息有限責任公司山東分公司,山東 濟南 250101;2.青州市國土資源局,山東 青州262500;3.山東中基地理信息科技有限公司,山東 濟南 250101)
地質資料是極其寶貴的信息資源,也是開展地質工作的重要基礎,利用大數據、云計算等技術,對地質成果資料進行集成與應用,有助于發揮地質成果資料的最大效能。通過全面系統收集山東省所有地質資料成果數據、成果圖件、相關科研報告和地質論文,進行紙質資料掃描建庫,利用ETL工具完成多源異構地質資料數據整合,完成山東省地質資料成果集成工作;研發“地質資料數據服務系統”,實現地質資料共享應用,系統結合云平臺的設計思路,采用SOA架構,基于Hadoop和Spark進行搭建,支持數據庫、文件等多源數據導入,提供地質資料空間數據查詢檢索、資料數據統計、空間分析、數據發布等功能,為不同專題的地質系統產品提供基礎服務。地質資料數據服務系統為建立山東省“地質云”奠定基礎。
地質資料;集成;應用;ETL;山東
地質資料具有廣泛性、永久性和不可再生性[1-3]。地質成果資料是各類地質工作完成時形成的重要基礎信息資源,可作為多次利用和再生產的重要基礎,是地質勘探開發最寶貴的資源和財富[4-7]。國土資源部下發的國土資源信息化“十三五”規劃(國土資廳函〔2017〕229號)中第24項工作是:“構建全國地質信息協同服務體系”,要求:“開展地質信息服務聚合、數據資源描述與發現、大數據知識服務等理論技術研究;基本構建多層次、網格化地質信息協同服務體系;初步實現在地質大數據支撐平臺框架下資源的統一匯集、互聯互通[8]。”山東省絕大部分地質資料成果存儲于山東省國土資源資料檔案館,但仍有部分地質資料成果存儲于地勘單位中,并且各單位地質數據標準不統一,成果格式多樣。山東省重視地質資料成果應用,山東省國土資源廳已完成多項地質資料成果應用系統,各局、院也開發了許多地質勘查、地質災害、三維地質填圖等應用系統,但這些系統多為試點項目或專項應用系統,沒有大范圍展開,也未相互建立聯系并集成提供綜合性的地學應用服務。山東省TB級的地質成果資料因為專業化的表達形式,使得地質成果資料只能服務于專業技術領域。有限的地質成果資料的信息服務對象和服務領域,不能很好的發揮地質成果資料的潛在價值。
隨著社會經濟的飛速發展,對地質資料的利用需求也隨之大大增加[9-10],利用大數據、云計算等技術,對地質成果資料進行分析挖掘,生成特色地質成果產品,更好地為國家、政府、民眾提供服務,發揮地質成果資料的最大效能。
山東省地質資料集成應用工作方法見表1。
地質資料數據服務系統是地質資料大數據存儲、計算平臺,結合云平臺的設計思路,采用SOA架構,實現基于數據服務的系統功能設計[14]。系統基于Hadoop和Spark進行搭建,支持數據庫、文件等多源數據導入,可以進行分析代碼和算法的導入,監控計算分析作業的執行,完成分析結果展現,實現完全平臺化監控。地質資料數據服務系統共分為五個層次(圖1)。

表1 地質資料集成應用工作方法

圖1 總體框架設計
從底層到頂層依次可分為資源層、存儲層、計算層、服務層和應用層。資源層包含礦產地質、基礎地質、農業地質、海洋地質、水文地質、工程地質、環境地質、地面沉降等地質成果數據和圖件、相關科研報告和論文等;經ETL(Extract-Transform-Load)工具進行數據抽取、轉換和裝載,形成標準化的地質資料成果數據,按照數據類型不同,分別存入HDFS、Hbase和Redis,地質成果資料分別存儲在不同結點,利用Hadoop本地計算的特性,減少數據的網絡傳輸,充分發揮并行計算能力;數據計算分析和挖掘,采用MapReduce、Spark、Hive和Pig ,采用關鍵字生成算法,提供高效的地質資料成果檢索查詢;為方便數據共享和應用服務,提供REST API服務,方便應用系統調用。
3.1 運用ETL工具完成多源異構地質資料數據集成整合
通過數據集成服務中的數據抽取引擎和數據計算引擎等對獲得的源數據進行轉換和清洗,并對數據進行規范化,完成向地質資料數據中心的數據輸送[15]。實現多源、異構數據源集成,并支持系統接口的動態擴展以及熱部署,從而保證系統的靈活配置及擴展性需求。
數據集成服務的邏輯結構如圖2所示:

圖2 數據集成服務的邏輯結構
3.1.1 數據源管理
配置、管理和監測分布的數據源。描述每一個數據源的位置(IP)、接口適配器類型(文件方式、Web服務方式、中間數據庫方式等)、通信協議(FTP、HTTP等)。
對于造成數據無法進行采集、數據采集不完整或不正確的數據采集方式的原因有:在數據源配置完成后,接口服務存在異常、通信異常、采集通道阻塞,數據源配置的方式不正確等情況。為解決上述問題,應實時監測數據源(圖3)。

圖3 數據源監測
3.1.2 ETL描述
ETL是指數據抽取、數據轉換以及數據加載[16],提取、轉換源系統中的數據成為一個標準的格式,并把數據加載到目標數據存儲區的過程。對于ETL的過程描述采用可視化ETL配置工具,利用可視化的配置界面,通過拖拽操作及簡單配置操作,完成各種數據源的配置操作及數據關系映射,可以以國際化標準的XML文件格式對ETL過程描述進行保存。
(1)資料檔案ETL抽取描述
資料檔案數據的特點是更新頻率慢,抽取過程中需要進行代碼轉換、編碼影射等過程。主要處理步驟為:
①去除重復記錄,保證對象在系統中唯一性;
②編碼映射:抽取過程中需要將數據源中的本地編碼通過編碼映射到地質資料數據中心中,保證各項數據的統一;
③字段選擇:過濾符合要求的屬性,去除數據源中非標準數據屬性。
(2)負載均衡
數據源可能處于不同的網絡區域,負載均衡能夠有效的平衡各個接口服務器之間的負載壓力,有效的提升數據采集效率。負載均衡使用基于輪轉周期的動態反饋負載均衡算法,該算法結合了靜態加權輪轉算法的簡單性、高效性和動態反饋機制的實時性等優點[17]。
3.2 采用關鍵字生成算法實現數據的動態分析
有效收集和管理地質資料結構化和非結構化數據,以此為基礎進行統一的集成深度分析,通過結構化和非結構化數據之間的邏輯關聯來獲得更多的有效知識[18]。
在研究結構化和非結構化數據動態分析技術研究中,結構化和非結構化數據一體化管理和分析的關鍵技術之一便是采用關聯查詢與檢索的技術,這種有機的統一查詢分析處理,能夠帶給用戶良好的數據分析體驗。
在傳統工作中,查詢返回的結果是嚴格的精確的,查詢對象限于結構化數據(使用SQL)或半結構化XML數據(使用XQuery);與此相對,信息檢索常用于對無結構化的文本或半結構化的Web網頁數據的檢索,檢索結果是非精確的。為實現數據的動態分析,要擴展信息檢索能力,能夠對結構化和非結構化數據進行統一的基于關鍵詞的檢索,將檢索結果融合展現,在元數據支持下,能夠支持基于概念的檢索。
(1)基本框架
擴展信息檢索能力,利用SQL檢索出結構化信息,并從中自動提取出相應的關鍵詞,然后利用這些關鍵詞檢索出非結構化信息,擴展了結構化查詢能力,通過查詢的方式,實現數據的動態分析(圖4)。

圖4 基本框架
(2)關鍵字生成算法
關鍵字生成算法是系統的核心部分,它有2個主要任務:一個是數據的范圍,即從哪些表中選取關鍵詞;二是逐步構造整個關鍵詞表,即制定策略將新的數據加入進來。對于數據的范圍,盡可能多地利用數據庫中數據,因此不能僅限于SQL查詢語句中指定的表的范圍。可以利用數據庫中表之間的主外鍵聯系,將新的表添加進來,這樣就大大擴展了可以選擇的數據的范疇,所得到的關鍵詞也會更加豐富,且和查詢請求具有相關性。另一個是逐步構造關鍵詞表。表之間的主外鍵聯系比較復雜,一個表存在多個外鍵,和多個表相連。算法實現中利用了貪心算法的思想,在每一步添加新的表的時候,只選擇一個與查詢最相關的外鍵,并將該外鍵指向表包含進來。如此這樣遞歸執行下去,直到沒有新的表添加進來或者已經達到預先設定的最大遞歸深度。
地質資料數據服務系統提供地質資料空間數據查詢檢索、按時間軸瀏覽資料數據,資料數據統計、空間分析、數據發布等功能,為不同專題的地質系統產品提供基礎服務。系統還提供云平臺狀態、文件管理、數據管理、平臺服務等功能。
服務聚合——提供目錄服務、地圖服務、文檔瀏覽、數據下載等在線數字資源服務聚合。
數據挖掘——建立地質成果圖譜,關注地質成果資料的位置和時序變化,以三個空間維度和一個時間維度概念進行數據挖掘分析,描述不同時期地質空間的差異化形態,動態展現地質資料的空間形態結構和時空變化規律,賦予地質資料圖形和譜系雙重特性, “圖”是指地質圖、地質礦產勘查規劃、地質項目范圍等專題地圖;“譜”是指按項目特性、時間序列所建立的資料成果體系。以地學知識、海量地質成果數據為驅動,堅持技術服務于業務的原則,通過數據計算、分析、挖掘,為地質找礦,城市地質、土地利用等提供科學數據支撐,從而滿足政府、專業人員和社會公眾的需求。
數據建模——建立地質項目卡片,縱向覆蓋地質項目實施過程的各主要環節,橫向覆蓋到進度安排、人員投入、資金監管、照片記錄、資料上報、預警提醒等內容,構建項目信息卡片。以卡片形式提供可視化、圖形化、扁平化方式的地質資料快捷檢索,根據用戶檢索熱度和下載關注度模型進行卡片權重調整,能夠主動推送信息到前端,方便用戶使用。
建立玻璃地球應用,應用三維技術,搭建可視、多維、精確的山東地質三維模型;實現山東地質成果多維一體化存儲、管理。
(1)通過山東省地質資料集成應用,全面收集山東省分散存儲的地質資料成果,梳理山東省地質資料成果和現存系統的關聯關系,建立開放可擴展的山東省地質資料數據體系。
(2)運用大數據、云計算技術,搭建集約管理、資源共享、低耗拓展、應用創新于一體的“地質資料數據服務系統”,完成海量地質資料的快速瀏覽和便捷查詢。
(3)“地質資料數據服務系統”為建立山東省“地質云”奠定基礎。
(4)為山東省各市、區地質災害調查、城市地質、土壤污染防治、群測群防、搬遷避讓、治理工程等提供地質信息支撐。
[1] 梁其華.對原始地質資料立卷歸檔與匯交問題的研究[J].中國國土資源經濟,2016,(3):6-13.
[2] 王成鋒,王丹輝,李喬喬,等.基于GIS的地質成果資料匯交管理系統研究及應用[J].山東國土資源,2017,33(7):82-85.
[3] 高延梅.現階段原始地質資料立卷歸檔問題之我見[J].黑龍江國土資源,2005,(5):38-39.
[4] 袁宏,賴德軍.可視化地質資料管理與共享平臺研究[J].計算機與數字工程,2013,41(3):420-422.
[5] 黨杰.廣東省地質資料自動化管理系統建設探討[J].山東國土資源,2012,28(7):66-68.
[6] 孫麗華,李樹輝.淺議地質檔案資料的專業化管理[J].吉林地質,2013,31(3):134-136.
[7] 張書波,張引,張斌,等.成果地質資料檢索系統研究與實現[J].國土資源信息化,2016,(2):38-44.
[8] 葉愷,楊昊.淺析地質資料管理系統的建立與應用[J].中國化工貿易,2012,4(4):27-28.
[9] 李東風.淺析遼寧省地質資料管理信息服務系統建設[J].中國科技成果,2012,(18):34-37.
[10] 楊麗君.上海地質資料數據中心的構建與運行體系[J].上海國土資源,2012,33(3):79-84.
[11] 李軍.信息資源規劃在國土信息化中的重要作用[J].信息技術與信息化,2015,(3):142-143.
[12] 馮永玉.省級國土資源“一張圖”數據中心建設探討[J].山東國土資源,2014,30(11):67-70.
[13] 冀正強.基于Web數據分析的就業信息服務平臺的設計實現[D].濟南:山東大學,2013:18-44.
[14] 王芳,劉偉,吳紅梅.建設項目壓覆礦業權及礦產地應用研究與系統實現[J].山東國土資源,2016,32(1):66-70.
[15] 尤玉林,張憲民.一種可靠的數據倉庫中ETL策略與架構設計[J].計算機工程與應用,2005,41(10):172-174.
[16] 許少華,夏智偉.基于輪轉周期的動態反饋負載均衡算法[J].計算機技術與發展,2013,23(6):63-66.
[17] 邢勝南.基于MDA的數據分析過程研究[D].濟南:山東大學,2010:31-44.
StudyonIntegrationandApplicationofGeologicalDatainShandongProvince
WU Hongmei1, WANG Zhiqiang2, WU Youzhang3, BI Tingting1
(1.Shandong Branch Corporation of Zhengyuan Geographical Information Limited Corporation, Shandong Jinan 250101, China; 2.Qingzhou Bureau of Land and Resources, Shandong Qingzhou 262500, China; 3.Shandong Zhongji Geographic Information Science and Technology Limited Corporation, Shandong Jinan 250101, China)
Geological data is not only rare information resource, but also the basis for carrying out geological work. Based on big data and cloud computing technology, integration and application of geological data have been carried out. It can elaborate the best efficiency of geological information. Through systematic and comprehensive collection of all kinds of geological data, achievements, maps, related scientific research reports and geological papers of Shandong province, paper data scanning database construction has been carried out. Based on ETL tools, integration of multi-source heterogeneous geological data can be realized, and geological data and geological achievements can be collected. Study and development on the "service system of geological data" can realize the sharing of geological information. This systm is set up combining with the design idea of cloud platform, using SOA, and based on Hadoop and Spark. It can support multi-source data import of database and files, provide spatial data query, data statistics, spatial analysis, data release and other functions, and provide basic services for products of different special geological system. Geological data service system lays the foundation for the establishment of "geological cloud" in Shandong province.
Geological data; integration; application; ETL; Shandong province
2017-07-17;
2017-09-12;
王敏
吳紅梅(1978—),女,黑龍江牡丹江人,高級工程師,從事于研發設計、項目管理等工作;E-mail:18653112787@163.com
P208
B
吳紅梅,王志強,吳友章,等.山東省地質資料集成與應用研究[J].山東國土資源, 2017,33(12):70-74.WU Hongmei, WANG Zhiqiang, WU Youzhang,etc.Study on Integration and Application of Geological Data in Shandong Province[J].Shandong Land and Resources, 2017,33(12):70-74.