宋 越,左群超,牛海波,梁國玲,戴愛德,李建國,周 萌
(1.中國地質大學(武漢)國家地理信息系統工程技術研究中心,湖北 武漢430074;2.中國地質調查局發展研究中心,北京 100037;3.國土資源部地質信息技術重點實驗室,北京 100037;4.中國國土資源航空物探遙感中心,北京 100083;5.中國地質科學院水文地質環境地質研究所,河北 石家莊 050061;6.中國地質科學院,北京 100037;7.中國地質環境監測院,北京 100081)
國家基礎地質數據庫整合與集成基本技術框架
宋越1,2,3,左群超2,牛海波4,梁國玲5,戴愛德6,李建國4,周萌7
(1.中國地質大學(武漢)國家地理信息系統工程技術研究中心,湖北 武漢430074;2.中國地質調查局發展研究中心,北京 100037;3.國土資源部地質信息技術重點實驗室,北京 100037;4.中國國土資源航空物探遙感中心,北京 100083;5.中國地質科學院水文地質環境地質研究所,河北 石家莊 050061;6.中國地質科學院,北京 100037;7.中國地質環境監測院,北京 100081)
摘要:國家基礎地質數據包括區域地質、地球物理、地球化學、遙感影像、地質鉆孔、區域海洋、水工環、礦產資源等數據,這些數據由于物理分散、建庫標準不同、過于依賴業務系統等原因,難以滿足社會大眾、專業機構、管理人員等各類用戶需求。為了提高國家基礎地質數據的共享與服務,經過深入分析、實驗、綜合研究,提出了基于元數據、數據庫、數據倉庫、GIS、網絡、Web等技術的、物理分布邏輯集中的國家基礎地質數據庫整合與集成技術框架。
關鍵詞:地質數據庫;整合集成;技術框架
國家基礎地質數據是反映國家地質礦產資源、水文環境資源、航空物探遙感資源等的現狀、利用、規劃的主要載體,是地質調查信息化建設的基礎,是地質調查業務的核心體現,包括區域地質、地球物理、地球化學、遙感影像、地質鉆孔、區域海洋、水工環、礦產資源等數據,具有重要作用[1-2]。
通過多年的基礎地質數據庫建設工作,中國地質調查局系統及相關單位已積累了大量的全國規模的基礎地質數據庫資源,國家基礎地質數據庫體系已基本形成。如何讓國家基礎地質數據資源“看得見、可獲取、用得起、可持續”、服務于擁有不同需求、多層次的用戶群,是一個非常重要、異常困難、又必須亟待解決的問題。
為了提高國家基礎地質數據的共享與服務,滿足各類用戶需求,筆者依托《國家基礎地質數據庫整合與集成》項目,組織中國地質調查局發展研究中心、中國地質環境監測院、中國地質科學院、中國地質科學院水文地質環境地質研究所、中國國土資源航空物探遙感中心等單位,分別對各自所建的部分基礎地質數據庫資源現狀進行了系統地調研,在現狀調研結果并總結存在問題的基礎上,結合現實情況和應用需求,經過深入分析、實驗、綜合研究,提出了基于元數據、數據庫、數據倉庫、GIS、網絡、Web等技術的、物理分布邏輯集中的國家基礎地質數據庫整合與集成技術框架。
1現狀及問題
1.1數據異質異構情況為綜合利用帶來困難
數據異質異構情況主要表現為每個數據庫都使用自己特定的數據庫服務系統、數據結構或數據格式、數據語義、應用系統(含管理功能),造成綜合使用多類數據庫的數據時相當困難。
根據調研,這些數據庫的形式采用“數據庫”或“數據庫+一般文件”的方式,空間數據的生產基本采用MapGIS或ArcGIS數據格式,屬性數據管理包括如下一些軟件:Oracle、SQLSevrer、Access MDB、Excel、Word、PDF等。另外,即使是相同的數據生產管理軟件,由于數據生產時的人員不同,同一類數據在數據分層、屬性表結構等方面也會有所不同。
1.2數據依賴于業務系統,不利于數據管理與利用
諸多基礎數據庫或數據資源處于一個數據庫綁定一個數據應用系統(含管理功能)、自成體系封閉,不利于數據綜合管理與應用、不利于提供數據共享服務。
數據庫或數據資源管理與應用捆在一起,違反了數據庫本身應相對獨立于具體業務應用的基本原則,造成了數據庫管理系統或應用系統功能定位、層次不清。如,一個特定的數據管理系統,從數據的錄入建庫到數據的專業和綜合應用集于一身,追求軟件系統大而全,不利于軟件系統的維護、升級。
數據本身與數據展現之間的關系,沒有處理好,導致數據本身及其相關數據產品,被某一軟件廠商的軟件系統“套牢”,直接影響數據庫可持續維護、升級管理、數據交換。
1.3建庫技術標準不統一,不同種類數據難以集成與共享
因若干已建設的數據庫或數據資源,是各個歷史時期的成果,執行各自的規范。為了共享需要重新整理,其工作量不僅巨大,也不是決問題之道。
沒有統一的數據模型及編碼體系,嚴重影響地質調查數據一體化組織管理、互操作、數據交換、數據共享。
各單位所建的數據庫或數據資源,雖然能較好地服務于本單位、局部群體、或本行業,但從更廣、更高的層面而言,基本上屬于“信息孤島”或“體內循環”,沒有充分發揮已積累的數據資源或數據產品應有的共享價值。
1.4缺乏數據庫應用與維護專業人員
不少基礎數據庫或數據資源屬于項目數據庫,項目工作一旦結束或項目組一旦解散,數據庫維護工作即刻終止。若不再額外安排數據庫維護項目,則項目數據庫即成為“死”庫。數據庫建庫必備的技術文檔資料不完備,不利于持續維護更新。
諸多數據庫或數據資源所建單位或部門,提供數據服務較單一,較多的服務是提供原始數據、專題數據,綜合的、深加工的數據產品很少。
2技術框架
2.1目標定位
立足于需求并結合數據庫資源現狀與存在問題分析,在框架設計之初,確定了以下四方面基本目標要求。
基于滿足不同用戶群或不同層次用戶的需求,進行功能設計。根據數據資源或數據產品使用權限及保密規定,面向社會大眾:提供科普類的地質成果宣傳資料;面向地質專業科研機構:提供各類地質專業數據的綜合查詢、統計分析等;面向地質專業管理人員:除提供數據查看、統計分析外,還提供數據采集、修改、維護等功能。
基于伸縮良好的元數據規范,對分散系統中的異構數據集進行整合,對集中的元數據信息進行統一管理,并為用戶提供單一入口查詢的整合方案。在保持數據一致性同時,提供良好的可擴展性[3-4]。
基于統一的平臺框架,構建物理分布、邏輯集中的國家基礎地質數據整合與集成數據庫及系統。維持原基礎數據庫或數據資源的自治、分散、歸屬現狀,遵循“誰建庫誰維護誰服務”的原則,保持數據庫或數據資源的采集、管理、維護、更新的專業性、權威性和真實性。
基于已存在的數據庫或數據資源實際情況,研究制定整合與集成相關技術要求。明確甄別已存在數據庫或數據資源是否需要整改的程度或狀況,即:哪些數據資源必須通過完全改造、哪些數據資源必須通過部分的整理,哪些數據資源不需要作任何整理,哪些數據資源只是依據整合與集成相關技術要求完善現有數據庫管理系統,方能邏輯集成到國家基礎地質數據庫內。有計劃、分階段開展國家基礎地質數據庫整合與集成工作。
2.2框架設計
依據基礎數據資源集成整合總體目標和基本原則,通過深入綜合研究提出了國家基礎地質數據整合集成基本技術框架。該整合集成基本框架,總體上分四個層次:①地質數據資源層;②普通元數據層;③地質數據倉庫及倉庫元數據層;④地質數據及數據產品應用層。四個層次之間,除了依賴相關硬件、軟件、網絡、協議、接口建立聯系之外,最重要的聯系就是元數據標準和元數據本身[5-7]。見圖1。

圖1 國家基礎地質數據庫整合集成基本技術框架
2.2.1地質數據資源層
地質數據資源層,是由已存在的若干地質數據庫資源集合組成,分別按所建地質數據庫資源的單位或機構進行物理分布組織,即數據資源原來歸屬在哪個單位或機構,現在還應在哪個單位或機構,保持歸屬不變。在國家基礎地質數據庫整合集成基本框架中,地質數據資源層主要提供元數據(原始數據集元數據、專題數據產品元數據)和地質數據倉庫所需的相關主題的、綜合的、不同時段的數據。
2.2.2普通元數據層
物理分布的各單位或機構所建的數據庫集及相關管理系統,應按國家基礎地質數據庫整合集成系統元數據規范和技術要求,提供所建的數據庫集內所有原始數據集和數據產品的元數據目錄及元數據本身,作為國家基礎地質數據庫整合集成基本框架的“地質數據倉庫及倉庫元數據層”中“倉庫元數據”的數據元數據的引用部分,用以指示如何查詢、瀏覽、獲取、提取、或使用數據集或專題數據產品。普通元數據層由各單位或機構數據庫資源元數據及元數據服務器構成。
2.2.3地質數據倉庫及倉庫元數據層
數據倉庫不同于已經建好的操作型數據庫,數據倉庫是支持管理決策過程的、面向主題的、集成的、穩定的、隨時間不斷變化的數據集合。數據倉庫從多個分布的、自治的、異質的數據源獲取原始數據,經過加工處理,存放在數據倉庫中,再通過數據倉庫的訪問工具,向數據倉庫的用戶提供統一、協調和集成的信息環境,支持決策過程和深入綜合分析。
在國家基礎地質數據整合集成基本技術框架中,地質數據資源層涵蓋的各單位或機構所建的數據庫集及相關管理系統屬于操作型數據庫系統,是國家基礎地質數據整合集成基本框架中地質數據倉庫的數據源。地質數據倉庫的數據內容主要包括兩部分,即:①按主題綜合數據或綜合程度較高的數據產品;②地質數據倉庫元數據。
按主題綜合數據或綜合程度較高的數據產品之綜合程度,是單個單位或機構所建的數據庫集及相關管理系統無法做到的。它是面向主題的,是在較高層次上的數據歸類、抽象與綜合。它是集成的,是從原有的分散的數據庫數據中抽取出來的,在進入數據倉庫之前,經過加工與集成過的。它是穩定的,操作型數據庫中數據保留較短的一段時間,主要用于日常的事務處理,在數據倉庫中的數據反映的是一段相當長的時間內的歷史數據內容,是穩定的、不可更新的,主要供決策人員分析之用。它是隨時間變化的,數據倉庫隨時間變化不斷增加新的數據,刪去舊的數據,同時它包含大量的跟時間有關的綜合數據,隨時間的變化不斷地進行重新綜合。它是支持管理決策的,數據倉庫中的數據用于高層領導或權威專家做決策之用。
地質數據倉庫元數據,依據用途分為普通元數據和綜合元數據兩類。普通元數據是關于各單位或機構所建的數據庫集及相關管理系統內原始數據集、單一專題數據產品的描述;綜合元數據是關于地質數據倉庫系統從各單位或機構所建的數據庫集中抽取、歸類與抽象、綜合的數據產品的描述。
在國家基礎地質數據整合集成基本技術框架中,地質數據倉庫元數據具有要作用:第一,它指示地質數據倉庫如何從多個單位或機構所建的數據庫集(物理分布的)中提取出數據種類、數據標準、數學基礎、數據格式等方面不同的地質空間數據;第二,它指示終端用戶、客戶端、或應用系統如何從地質數據倉庫中提取出標準的集成的地質空間數據,為用戶提供地質空間數字產品服務。
地質數據倉庫及倉庫元數據層,主要由地質數據倉庫、地質數據倉庫元數據庫、地質數據及數據產品元數據管理系統、地質數據倉庫應用服務系統、以及多源數據抽取、多源數據轉換、數據產品服務、數據格式交換等相關服務模塊構成。
2.2.4地質數據及數據產品應用層
在地質數據及數據產品應用層中,地質數據及數據產品有兩個來源:①源于各單位或機構所建的、物理分布的數據庫集及相關管理系統。主要是原始數據、單一專題數據產品;②源于地質數據倉庫中從物理分布數據庫集抽取的、按主題綜合的數據產品。
地質數據及數據產品應用層,由終端用戶(普通用戶;一般專業用戶;高級專業用戶及管理者)、客戶端(應用系統1、應用系統2、…、應用系統n)、WEB瀏覽器;分C/S、B/S兩種技術架構;依據數據保密要求和相關規定,分內網或專網、外網服務模式。
終端用戶,可以利用客戶端或WEB瀏覽器,查詢、瀏覽地質數據倉庫中倉庫元數據目錄及元數據本身,利用元數據描述的地質數據集及數據產品(單一專題的、綜合主題的)的內容、質量、狀態等其他特性信息(地質空間元數據包括:①空間數據標識信息;②空間數據區域范圍信息;③空間數據鄰接信息;④空間數據表示信息;⑤空間數據數學基礎信息;⑥空間數據集內容信息;⑦空間數據質量信息;⑧空間數據分發信息;⑨空間數據安全信息;⑩空間數據聯系信息;10)空間數據時間信息),用戶可以弄明白諸如:“需要的數據在哪里?”、“這些數據集質量如何?”以及數據覆蓋范圍、源空間數據地圖的投影方式、數據生產日期、數據的變動、數據的精度等一系列問題,由此可確定該數據是否符合自己的需求。
客戶端(應用系統)、WEB瀏覽器等軟件,利用地質數據集及數據產品元數據信息,可以檢索、獲取、提出、轉換、處理所需的地質數據集或數據產品,依據元數據類別(普通元數據或綜合元數據),通過地質數據倉庫系統,可以從指定某單位或機構所建的數據庫集中訪問原始數據集或單一專題數據產品或從地質數據倉庫中訪問高度綜合的數據產品。
2.3關鍵技術
建立基礎地質數據庫整合集成基本框架,賴以實現的數據庫、數據倉庫、GIS、網絡、WEB等相關技術已是成熟技術,真正需要突破的關鍵技術有如下幾個方面。
2.3.1地質數據集及數據產品分類分級體系
為了便于對地質數據倉庫元數據進行明確描述,須尋求粒度適應范圍廣、更形式化、領域共享強的分類分級體系,較合適的分類分級體系是采用地質領域本體成果,基于地質領域本體分類分級、語義以及編碼體系,再結合元數據描述技術,對國家基礎地質數據庫整合集成系統內邏輯集成的各類地質數據集及數據產品進行描述,實現共享。
2.3.2地質數據倉庫元數據框架
地質數據倉庫元數據由十一類基本信息組成,見圖2。

圖2 地質數據倉庫元數據框架
地質數據倉庫元數據按層狀結構進行組織,由元素和復合元素子集組成。元素是元數據最基本的信息單元,復合元素由多個不同的元素組合而成,一個信息單元內容包括元素編號、名稱、定義、數據類型和域值,見圖3。

圖3 地質數據倉庫元數據組織結構
2.3.3地質空間數據倉庫數據模型及數據抽取技術
地質空間數據倉庫主要內容包括按一定主題從多種數據源種抽取的綜合數據、數據產品(綜合的、單一的)元數據、數據元數據等,因此,地質空間數據倉庫數據模型的相關內容,主要描述綜合主題數據、數據產品(綜合的、單一的)元數據、數據元數據等信息,物理分布的數據源按一定權限、程序、法規等許可向地質空間數據倉庫提供相應數據等信息。
3實驗結果
根據中國地質調查局總體安排,筆者依托《國家基礎地質數據庫整合與集成》項目,組織中國地質調查局發展研究中心、中國地質環境監測院、中國地質科學院、中國地質科學院水文地質環境地質研究所、中國國土資源航空物探遙感中心等單位,開展了11種地質調查數據庫資源、11種環境地質數據庫資源、12種地質科學數據庫資源、9種水文地質數據庫資源、10種航空物探遙感地質數據庫資源,匯總了53種數據庫資源現狀調研成果。在此基礎上,按照基礎地質數據整合集成總體框架,各相關單位編制了地質調查、環境地質、地質科學、水文地質、航空物探遙感等各類數據資源整合集成研究報告。在此基礎上,初步建立了基礎地質數據庫整合與集成子系統,各子系統互連形成物理分布邏輯集中的國家基礎地質數據庫整合與集成系統技術原型。
各單位所建的這些數據庫集成及相關管理系統,除了服務于本單位或本部門外,需要向國家基礎地質數據庫整合集成基本框架提供元數據(包括原始數據集元數據、專題數據產品元數據)和地質數據倉庫所需的相關專題的、綜合的、不同時段的數據。另外,地質數據資源所屬各單位或機構,仍按相關數據庫集的采集、收集、整理、維護、加工等既定的技術要求和管理規定,繼續更新、維護、管理本單位或機構擁有的地質數據庫資源。
以環境地質數據整合與集成服務平臺為例,見圖4。地質環境信息服務平臺是一個分布式跨專業、跨地域的集成平臺,是以各個專業、各個地質環境工作機構為依托的規模各異的信息平臺節點構成。平臺框架是由中心平臺和一系列專業平臺及各地的平臺節點構成。根據現有開展地質環境工作的機構設置(主要包括中國地質環境監測院、局屬地質環境專業中心、各省級地質環境監測院或總站等),信息服務平臺按照其職能、地域分布來部署,形成一個覆蓋全國、跨專業的互相連接的信息網站服務節點群。平臺以基于服務的管理、目錄服務和框架系統等為核心,圍繞基于地圖和動態數據可視化等內容進行服務開發、封裝和部署。形成一套緊密結合的節點系統。各個子結點通過服務管理功能進行任務分配、調度和協同工作,最終構成具有松散耦合特征的分布式部署的節點集合和服務群體。

圖4 環境地質數據整合與集成服務平臺體系結構
4結語
本文在調研相關單位地質基礎數據建設現狀的基礎上,提出了基于元數據、數據庫、數據倉庫、GIS、網絡、Web等技術的、物理分布邏輯集中的國家基礎地質數據庫整合與集成技術框架,研究并提出了關鍵方法技術。本文所提出的技術框架及關鍵方法技術只是一個初步,還有待于深化研究、有計劃、分階段開展相關工作。
筆者建議進一步調研國家地質數據資源積累與動態更新工作方法與機制,更新完善國家地質數據庫標準規范,特別是在當前信息技術高速發展的情況下,研究大數據及云計算等相關技術在基礎地質數據整合與集成中的應用,為整合集成工作提供新的思路和方法。
參考文獻
[1]李勝強.國土資源基礎數據庫整合與集成建庫模式與實現[J].國土資源信息化,2005(3):9-14.
[2]張翠光,馮艷芳,侯榮玖.關于制定國家基礎地質數據采集、更新與發布管理辦法的初步研究[J].國土資源情報,2009(2):14-17.
[3]顧巧祥,祁國寧,紀楊建,等.基于元數據的產品數據本體建模技術[J].浙江大學學報:工學版,2007,41(5):736-741.
[4]張宇,蔣東興,劉啟新.基于元數據的異構數據集整合方案[J].清華大學學報:自然科學版,2009,49(7):1037-1040.
[5]陳偉清,劉彥花.城市規劃多源數據整合與數據庫建設[J].廣西大學學報:自然科學版,2009,34(1):106-110.
[6]張鳴之,王勇.國家級地質環境數據倉庫的設計與實現[J].地球科學:中國地質大學學報,2013,38(6):1347-1355.
[7]刁明光,薛濤,李建存,等.基于地質信息元數據標準的多源空間數據管理系統[J].國土資源遙感,2013,25(1):165-170.
Basic technical framework of national basic geological database integration
SONG Yue1,2,3,ZUO Qun-chao2,NIU Hai-bo4,LIANG Guo-ling5,DAI Ai-de6,LI Jian-guo4,ZHOU Meng7
(1.National Engineering Research Center for Geographic Information System,China University of Geosciences(Wuhan),Wuhan 430074,China;2.Development & Research Center,China Geological Survey,Beijing 100037,China;3.Key Laboratory of Geological Information Technology,Ministry of Land and Resources,Beijing 100037,China;4.China Aero Geophysical Survey & Remote Sensing Center for Land and Resources,Beijing 100083,China;5.Institute of Hydrogeology and Environmental Geology,Chinese Academy of Geological Sciences,Shijiazhuang 050061,China;6.Chinese Academy of Geological Sciences,Beijing 100037,China;7.China Institute of Geological Environment Monitoring,Beijing 100081,China)
Abstract:National basic geological data,including all kinds of basic geological data,such as areal geology,geophysics,geochemistry,remote sensing image,geological drilling,regional ocean,hydrogeology,mineral resources.Due to the physical dispersion,different database standards,too dependent on the business system and other reasons,these data are difficult to meet the demand for public,professional organizations,and managers.In order to improve the national basic geological data sharing and service,during in-depth analysis,experiment,and synthesis,based on the technology of metadata,database,data warehouse,GIS,Internet and web technology,the paper proposed basic technical framework of national basic geological database integration with physical distribution and logical collection.
Key words:geological database;integration;technology framework
收稿日期:2016-01-07
基金項目:中國地質調查局“國家基礎地質數據庫整合與集成”項目資助(1212010815001)
作者簡介:宋越(1984-),女,碩士,工程師,主要從事計算機軟件、GIS應用等方面的研究。E-mail:syue@mail.cgs.gov.cn。 通訊作者:左群超(1964-),男,碩士,教授級高級工程師,研究方向為礦產資源潛力評價、地質空間數據整合與集成、計算機應用軟件研發或平臺設計。E-mail:zuoqc163@163.com。
中圖分類號:TP311.52;P628.4
文獻標識碼:A
文章編號:1004-4051(2016)06-0154-06