高學正,孔昭煜,李曉蕾,賈麗瓊
(1.中國地質調查局發展研究中心,北京 100037; 2.全國地質資料館,北京 100037)
地質資料是地質工作的真實記錄與成果結晶,兼具專業性與檔案性,對于現勢性地質工作具有指導和參考意義[1-2]。地質資料的管理與服務是開展地質工作的重要基礎環節,為我國能源保障與資源安全做出了重要貢獻[3]。隨著信息時代的到來,服務需求日益多元化[4],科學管理、快速提供、精準服務已成為我國地質資料館藏機構面臨的重要命題。元數據作為數據管理與服務的基礎,在地質數字化服務方面發揮著核心作用[5],也成為了地質資料館藏機構持續提供權威、高效服務的助推器。
數字地質資料館是以數字資源為核心的資料館,面向數字資源管理、面向新技術環境下社會化服務需求,以現代信息技術改造傳統工作流程,匯聚全國地質數字資源,集合了各地質學科和各專業的地質數據[6],能夠向社會提供公益權威、開放穩定、持續發展的地質信息服務的國家級地質信息資源基礎設施[7]。簡而言之,數字地質資料館是用數字技術處理、存儲、發布數字形式的地質工作記錄與地質工作成果的分布式信息系統。
數字資料館是一個不斷建設持續運行的系統,從建設與運行的角度,其技術系統包括一站式門戶與關聯網站系統、應用服務系統與支撐系統、元數據、框架數據和地質專題數據構成的數據庫體系、標準規范與政策、技術平臺等六大部分[8]。
地質資料元數據與數據目錄是數字地質資料館的核心內容,包括館藏資料數據目錄、案卷級和文件級元數據信息、各類地質數據的衍生產品元數據(數據產品元數據、地質專題與應用元數據、地質文獻元數據、在線服務元數據、地質圖庫元數據等)。標準規范與政策是系統各部分建設的準則和指導,系統各構件建設和運行,要根據建設內容,按照相應的標準和規范進行,是保證系統各部分能夠有效互聯互通的基礎;技術平臺包括計算機網絡系統、安全保障系統。前者為數字資料館各個構件的信息交換提供互連互通的基礎,使之形成一個整體。后者用于在各個層面保障計算機網絡系統、數字信息庫系統、各類應用與支撐系統的運行安全;信息體系由實體資料、電子文檔與數據庫構成,是數據服務提供基礎,同時信息體系也是其余構件的主要工作對象;應用服務系統與支撐系統是各類終端用戶和應用系統類用戶獲得系統服務能力的平臺,同時也是數字地質資料館內部運轉,開展數據組織管理和整合處理的平臺。資料數據成果包括館藏資料成果、研發的地質數據產品以及其他渠道獲取的數據信息。
地質資料的內容與組織結構較為復雜,具有工作周期長、涉及專業多、數據量大、格式多樣、難以重復獲取等特點。成果地質資料以檔為基本單元,內容十分豐富,不僅有多格式的文檔資料,還包括有附圖、附表、附件等內容。地質資料具有現代信息數據的屬性,同時具有極強的現勢性服務價值,因此,能夠對其所承載的信息內容進行準確地描述至關重要。
為加快地質資料元數據的編目速度,尤其是文件級地質資料元數據的建設,實現地質資料的精細化管理和高質量服務,全國地質資料館開發建設了地質資料元數據編目系統,并利用這套系統開展了館藏地質資料元數據的采集生產。系統以自動化采集的方式完成主要是元數據項的快速建立,并在人工數據采集過程中使用了流程化模型實現數據質量控制,數據需要經過自檢、互檢和抽檢三級質量檢查方可入庫。元數據與每件存檔數據都進行了數據關聯,并全部存儲于數據庫中,使百萬件數據的檢索與獲取變得高效便捷,安全可靠。

圖1 地質資料元數據編目系統功能結構
Fig.1 Functional structure of geological data metadata cataloging system
系統的功能包括用戶管理、數據導入、信息提取、任務分配、案卷級和文件級編目、質量檢查、元數據查詢、數據統計以及成果導出,數據生產過程由系統自動完成和人機交互來共同完成,主要的流程包括提取案卷級元數據內容及文件級題名清單、自動生成默認項、人工編目、質量檢查、數據入庫和數據庫備份等6個步驟。
地質服務,目錄先行。近年來,隨著數字地質資料館的不斷建設與發展,元數據編目工作也取得了顯著的成就。經過多年的積累與實踐,以館藏數據目錄為基礎,以地質資料元數據編目系統為工作手段,全國地質資料館取得了大量有價值的元數據成果,從而進一步明確了成果地質資料中“檔”和“件”的關系,同時也建立了“檔”和“庫”的關聯,促進館藏機構全面掌握館內數據內容,實現了數據的精細化、科學化管理。另一方面,元數據已經成為提高社會化服務水平的重要抓手。不同于實體數據,目錄的處理相對簡單,及時向用戶公開進館資料的基本信息,可以極大地滿足地質資料的服務利用要求,為用戶了解、跟蹤和使用地質資料提供了便利。截至目前,全國地質資料館地質資料元數據庫包含文件級元數據5 203 080條,其中矢量數據共計2 454 669條,圖文數字化數據共計27 848 411條,見表1。

表1 館藏地質資料元數據分類別統計
數據目錄和元數據是用戶開展資源檢索的基礎,同時也是地質資料館藏機構滿足地質資料多元化需求的必要條件。隨著網絡服務的日益發達和地質資料數字化的完成,全國地質資料館基于館藏目錄和元數據成果研發了多種地質資料數據產品,并通過數字地質資料館進行了發布,公眾可以方便的進行查詢,取得了很好的實踐效果。
1) 地質資料網絡服務產品建設。作為由“紙”向“電”轉換的代表性內容,地質資料網絡服務產品受到了廣大用戶的歡迎,已經成為數字地質資料館開展網絡服務的重要組成內容,連同元數據成果一同發布,使用戶實現了對地質資料的一站式查詢,體現了網絡服務的跨時空、交互式、不間斷、范圍廣的特點。通過對用戶點擊行為和關注度的監督與統計,館藏機構可以更好的追蹤用戶的使用習慣,更好地了解用戶需求,并根據需求持續改進產品內容,更好的滿足用戶,形成了地質資料服務的良性循環。
2) 地質資料元數據互聯互查平臺實踐。地質資料元數據互聯互查平臺是在開展元數據互聯互查技術、國際標準、數據接口與數據語義[9]技術的研究基礎上逐步建設完成的。基于此,全國地質資料館實現了與我國測繪部門、地理信息部門,以及相關國際地質調查機構的元數據互聯查詢。平臺很好地體現了跨越空間的語義檢索,實現了不同網絡環境、不同職責部門開展多層次、多類別用戶的在線元數據服務,極大地促進了地質資料信息資源的共享,擴大了地質資料的影響范圍,起到良好的宣傳和傳播效果。通過元數據互聯互查技術的實踐,對外實現了規范化化元數據服務的接入,向互查方提供了地質資料元數據的查詢檢索接口。對內依據互查要求完善了元數據編目系統功能,補充了數據采集內容,建立了數據的簡單統計與導出機制。在內、外網絡環境下提供的元數據互聯互查服務,有效地支撐了地質資料數據管理與服務工作的開展。
1) 元數據資源優勢沒有得到很好的發揮。我國地質資料館藏機構建設程度不一,尤其是信息化水平和能力有較大差別,部分機構的信息系統和網絡支撐受資金和人力因素限制建設效果不佳。大量地質信息數據內容沒有整理或沒有條件進行網絡發布,用戶獲取資料還只能依賴到館申請,沒有體現出數字資源優勢。
2) 元數據采編的標準不一。當前,地質資料館藏機構的目錄和元數據編目標準沒有進行統一,元數據編目尤其是文件級元數據編目細粒度程度也存在不一致的情況,元數據字段內容和編目細則沒有進行統一規范。各級館藏機構所使用的編目系統以及系統的接口沒有進行統一,甚至部分館藏機構并沒有開展文件級元數據的編目工作,對后期開展元數據開放與共享工作造成困難。
3) 館藏機構間缺乏數據合作與共享。地質資料數字資源作為一種信息資源,利用信息技術實現其所蘊含的巨大價值至關重要。但截至目前,地質資料館藏機構間信息資源集成匯聚程度不夠、資源開放共享程度不高、合作創新能力不足。這些問題的存在,造成了資金資源浪費,重復工作現象的存在,拖慢元數據的編目速度與水平,不利于地質資料的管理和服務工作的開展。
4) 元數據采集與發布內容不全面。大多數地質資料館藏機構發布內容僅僅為館藏資料目錄,缺乏元數據內部生產和管理機制,對于所研發的地質資料產品、災害應急服務、公開版地質圖產品沒有開展元數據的采集與發布,用戶若需要相關資料只能到館獲取,影響網絡數據服務利用的開展。
在信息技術高速發展的當今,地質資料信息資源的管理、組織、發布與服務面臨巨大的機遇與挑戰。利用信息化技術,建立地質信息數字化管理與服務平臺,將地質元數據成果最大范圍的進行社會服務,讓“數據多跑腿,群眾少跑路”成為地質資料館藏機構發展的方向和目標。
1) 統一元數據采編標準。無規矩不成方圓,元數據的規范化編目是開展元數據管理和進行元數據服務的基礎,也可以為地質資料數字信息的管理提供基礎。通過參考圖書館界與檔案界的目錄和元數據標準,結合地質資料的實際工作特點,確立符合地質資料工作規律與特點的各級館藏機構可以統一執行的元數據編目標準。通過利用數字資源唯一標識符,為全國每一檔、每一件地質資料進行唯一身份標識,解決館藏機構間檔號不一致的問題,同時提供網絡環境下可解析的、持久的、可語義互操作的標識機制,為開展分布式環境下地質資料數字資源的集成、管理和服務提供有力支持。
2) 建立多元的元數據編目機制。在在線服務、數據產品大量涌現的情況下,地質資料的目錄和元數據并不僅局限于館藏資料一種,支持館藏機構的各類數據庫和相關數據產品的元數據和傳統館藏元數據也不完全一致,做好館藏資料元數據的編目的同時,需建立更為多元的元數據采編機制,開展更大范圍的地質元數據編目工作,從而豐富元數據內容提供用戶進行快速索取。
3) 開展元數據合作創新。通過館藏目錄的對接,推進館藏機構間元數據的共享與交換,建立數據共享交換系統,形成數據和目錄的共享工作機制。加強各機構彼此聯系與創新合作,分享的元數建設目成果,減少重復投資與建設。以點帶面,促進信息資源編目的同時,提高館藏機構的信息化能力和技術水平。通過聯合編目工作的開展提高我國地質資料元數據的編目速度,使元數據管理與服務達到快速聚集、組織有序、分工明確、精準服務的目標,最大化的發揮地質資料的巨大價值。
4) 開展多維多層次的元數據服務。對國內外信息系統建設進行調研,借鑒其先進經驗與做法,探索開展多維度、多樣化、多展現形式的目錄服務模式。提高實體數據與目錄服務信息的集成整合程度,開展關聯數據、數據挖掘、語義檢索、知識發現、人工智能等數據發現應用的技術研究工作[9-10],為用戶提供更為豐富和準確的信息。針對特定用戶,在了解其需求的基礎上,開展元數據定制化服務并定期更新,多措并舉提高館藏機構目錄和元數據資源的利用效率。