摘 要:隨著計算機技術、網絡技術以及存儲技術的飛速發展,數字圖書館的電子資源也在日益增加。眾多種類的數據庫在存儲、發布尤其是檢索方式上的多樣性讓用戶在使用過程中感到越來越多的不便。構建數字圖書館統一檢索成為數字圖書館目前最主要的發展方向。
關鍵詞:數字圖書館 元數據倉儲 統一檢索
中圖分類號:G250.73文獻標識碼:A 文章編號:1674-098X(2014)05(b)-0194-01
統一檢索作為一種伴隨著數字圖書館的發展而產生的新興技術,已經成為了數字圖書館主要的研究方向。但從應用到實踐中,分布在異構環境下的數字信息資源異常復雜,涵蓋軟硬件系統、操作系統、數據庫系統、通信網絡模型、數據自身結構以及應用程序等多方面的異構,使得建立一個統一的檢索平臺變得沒那么簡單。目前解決異構數據源的集成技術通常有以下三種模型:聯邦數據庫模型、中間件模型和元數據倉庫模型。以上所述的創建集成架構技術各有利弊,而元數據倉儲技術是以元數據為檢索單位的方式改變了用戶對整個平臺的認識,通過調用元數據預先查重索引,為讀者提供了新的網絡搜索引擎方式的檢索體驗。
1 關于數字圖書館元數據
1.1 元數據概述
元數據在眾多領域都有其具體的定義和應用,其中得到最廣泛認可的概述是:關于數據的數據,即描述任意一資源結構化的數據。數字圖書館的主要組成部分之一就是數字信息資源,而這些資源必須是可以被標識并且這種標識類型是唯一的。元數據通過對信息資源屬性的描述來完成對信息資源的標識,是數字圖書館應用部分的重要基礎工具。元數據標準框架主要由三部分組成:以數字圖書館系統為核心的元數據標準、元數據語義規則與元數據擴展機制。
1.2 定義及整合圖書館信息資源元數據
在圖書館原有的元數據基礎上,采用基于核心元數據標準,利用擴展機制,對元數據進行整合。制定元數據相關應用方案:包括名稱、標識(元素的唯一標識)、定義(對元素概念的說明)、可選性(說明元素是必須使用的還是可選擇的)、數據類型、最大出現次數、值域(元素的取值范圍)、注釋(對元素的補充說明、錄入格式的建議等)。
2 元數據存儲管理系統的實現原理
2.1 元數據應用流程(圖1)
2.2 元數據建設對象是多種多樣的
元數據建設主要包括各類自建資源、商業引進資源;建設語種有中文、外文;資源類型涵蓋電子書、電子期刊、會議論文、報紙等;收錄元數據描述字段詳見前文關于“定義及整合圖書館信息資源元數據”中對于元數據標準的描述。
2.3 數據收割工具
通過收割、轉換、集成把各文獻數據庫中的數據存儲到元數據倉庫中。該技術分成3個部分:
(1)第一部分是已經完成了的電子圖書元數據、電子中文期刊元數據和外文期刊元數據等元數據的收割,這些可以直接進入到元數據倉庫中;(2)第二部分為還未收集的部分,利用基于OAI-PMH協議為工具進行收割,但是采用這種方法收集元數據的案例,基本都是應用在開放存取(OA)的資源或以聯盟模式建設的資源,一般的商業性學術資源通常都不太支持OAI的數據收集。因為采用OAI技術收集元數據的前提必須是資源提供者愿意開放Data-Provider接口;如自主采集或自建的信息數據可以通過此標準接口進行元數據收集;(3)第三部分,對于不支持OAI-PMH協議的文獻數據庫可利用基于網頁分析的元數據抓取工具spider,將不支持OAI-PMH的元數據抓取保存到元數據庫中,創建到可參與整合檢索的本地庫。
3 本地元數據處理流程
3.1 數據收割
前文已經介紹了通過三種收割技術來完成本地資源以及特色數據庫等的元數據收割,然后將收割到的元數據存儲到元數據倉庫中,等待下一步的數據整理工作。整個數據收割中將使用到了OAIS(開發的資源倉儲系統參考規范)、OAI-PMH(元數據收割協議)、Z39.50等協議。
3.2 數據整理
數據整理的主要工作是對收割好的元數據進行查重并形成規范化,方便元數據的索引和檢索。
3.3 數據更新
整理后的數據,按照標準字段,建成索引,更新到各個服務器。由于海量的檢索,并且數據量異常大,因此每次只需更新當前批次處理的非重復數據,即補充式更新。
4 元數據搜索引擎系統
通過集成資源調度系統,對各類異構的數字文獻資源進行再次整合。例如元數據搜索引擎利用分析型檢索實現了文章名、主題、關鍵詞、文摘、責任者等檢索項的檢索,系統為用戶提供統一的檢索界面和檢索語言,使用戶能夠同時檢索本地及異地的各種信息資源系統;檢索內容包括原文、文摘、相關文獻;檢索形式包括簡單檢索、高級檢索、二次檢索等。
5 資源調度系統
統一檢索系統的平臺是一種多級調度系統平臺,是基于OpenURL標準,能夠自動獲取更新資源包并調度已有的知識庫。資源調度系統制定的以動態腳本技術為調度機制,便于增加新的資源和服務,從而更有效地實現資源服務的調度。
5.1 資源調度規則
(1)最快就近原則:對不同資源設定規定的權重地位,根據客戶端實際的來源情況判斷,優先調度反應最快的資源。
(2)通過查重合并底層的元數據,使得檢索結果不顯示檢索出來的重復記錄,但如果讀者需要看到該篇文獻所有的全文資源鏈接,點擊進入,那么用戶可自行選擇使用其中任意一個鏈接。
(3)自動傳遞優先于人工傳遞:對于使用率較高的資源系統進行自動傳遞,自動傳遞無法判斷讀者需求的資源則轉入人工傳遞隊列。
5.2 資源調度配置
在經過統一認證后的資源,系統將會自動判斷該用戶的最高資源使用權限,若用戶需要獲取的資源權限高于自身權限的時候,系統會提示超出授權范圍,并自動彈出資源調度申請表,用戶可自行下載。同時,圖書館工作人員可根據圖書館資源實際情況調用含有內置的中、外文數據庫資源配置規則的資源調度系統。資源獲取分發規則是對權限內的用戶直接提供全文訪問的鏈接,無法直接訪問的用戶則提供共享和文獻傳遞功能,將用戶的傳遞需求發送至收錄該資源的成員館進行申請傳遞調度。
基于元數據倉儲整合技術構建的數字圖書館統一檢索平臺方案是現代檢索系統中的一條新思路。這種把最底層的元數據預先建立索引概念,進而將不同的異構數據庫導入一個全新的數據庫的方式,提高了檢索的速度和效率,也不會因為眾多數據庫中某一數據庫的訪問失敗而影響整體檢索效率。在年代、二次檢索、學科聚類、高級檢索、多種文獻同時檢索等眾多的數據處理技術上,同樣具有無可比擬的優勢,必將成為未來統一檢索平臺技術的巨星。
參考文獻
[1]陳雨祺.高校數字圖書館跨平臺信息檢索初探[J].科技信息,2010(9).
[2]李鵬云.基于元數據倉儲的圖書館數據整合實踐[J].圖書館學刊,2013(8).