張宏偉 許 慧
(黑龍江中醫藥大學圖書館,黑龍江 哈爾濱 150040)
基于DC元數據倉儲的數字資源整合研究*
張宏偉 許 慧
(黑龍江中醫藥大學圖書館,黑龍江 哈爾濱 150040)
數字資源整合在圖書館建設過程中具有廣闊的市場前景和長期穩定的發展空間。介紹了國內外資源整合的研究現狀,設計了基于DC元數據倉儲的一站式檢索系統架構模型,并對模型中元數據采集、存儲架構以及數據檢索等技術難點進行闡述。
DC元數據 資源整合 一站式服務
近年來,數字資源在高校圖書館資源中所占比例越來越高,涵蓋范圍越來越廣,國內各高校圖書館基本上都有十幾個甚至幾十個各類數據庫資源。這些資源具有各自通信協議、類型、格式,為讀者提供不同的查詢方式和服務,具有各自不同的權限保護和收費策略。
圖書館學之父阮岡納贊(S.R.Ranganathan)指出,圖書館不僅要為讀者提供資源,更要節省讀者獲取資源的時間。因此,如何整合各類數字資源,實現數字資源的無縫鏈接,通過一次讀者認證,為讀者提供快速的一站式服務(One Stop Services),同時以統一的界面將檢索結果傳遞給讀者,使讀者能夠簡便快速地查找所需的文獻資源已經成為當前圖書館面臨的最重要的課題。
數字資源整合方式分為以下3種:基于館藏書目數據庫(OPAC)系統的資源整合、基于網絡數據庫的資源整合和基于知識管理的數字資源整合。國外圖書館數字資源整合起步較早,歐美發達國家在20世紀90年代開始對數字資源進行整合。主要集中在OPAC(Online Public Access Catalogue,即聯機公共查詢目錄)、網絡數據庫、自建數據庫、電子圖書等資源的導航及整合檢索等方面[1]。一些知名的系統隨之出現,如Ex Libris的MetaLib/SFX、Serials Solutions的360 Search/ 360 Link。可以實現跨庫檢索和引文鏈接,適用于分布式環境下數字資源集成管理的ENCompass等。隨著Web Service研究的深入,許多學者開始研究Web Service技術在數字圖書館中的應用,各種利于異構資源整合的標準及協議也不斷出現[2]。例如基于元數據收割的OAI.PMH、用于書目信息的共享和互操作的Z39.50、用于情景相關的服務整合的OpenURL、分布式異構資源的檢索系列協議(STARTS、SDLIP和SDARTS)等。
近年來國內圖書館領域開始對資源整合進行研究,由于起步晚、技術落后,整合的對象主要是關系型數據庫,以建立數字資源整合平臺為主[3]。如清華同方CNKI整合系統、TRS的數字圖書館資源整合門戶、CALIS(中國高等教育文獻保障系統)統一檢索平臺等;國內著名高校和科研院所設計和開發統一檢索系統。如清華大學信息門戶系統,該系統是采用以色列MetaLib/SFX為基礎構建的信息門戶服務;北大CALIS跨庫檢索系統和中科院跨庫檢索系統在對資源的集成和檢索服務方面也處于積極的研究、探索和應用之中。

圖1 一站式檢索系統的總體架構
一站式檢索系統需要對每一資源進行簡要描述,這種描述既要清晰準確又不能太復雜[4]。DC元數據即“都柏林核心(DublinCore)元數據”,是為簡單描述數字資源而創建的元數據集,它簡單、易于理解、可擴展,已被國際上眾多項目采用,且已被因特網工程專題組(IETFOC)正式接受。
基于DC元數據倉儲的一站式檢索系統能夠整合圖書館現有數據庫資源、外購的各種數據資源以及互聯網檢索引擎資源,提供資源的一站式檢索與服務。可以實現不同規模、多種資源庫的資源整合與檢索,實現檢索結果統一展現。系統能向用戶提供統一的檢索接口,將用戶的檢索要求轉化為不同數據源的檢索表達式,并發地檢索本地的和廣域網上的多個分布式異構數據源,并提供接口對應圖書館門戶應用。提供與元數據倉儲服務的集成功能,以實現對檢索結果的整合。系統主要功能需求如表1所述。
基于DC元數據倉儲的一站式檢索系統的總體架構如圖1所示,系統技術難點包括元數據采集、數據存儲、數據檢索與發布等。
3.1 元數據采集
基于DC元數據倉儲的一站式檢索系統支持的目標數據源廣泛,只要是能提供訪問的各種數據都可以成為檢索的目標數據源,主要可以分為專業電子資源數據庫、通用關系型數據庫、業務系統文檔、遠程或本地共享目錄文件、館藏資源OPAC數據、互聯網免費數據源以及其他應用系統數據源等。針對不同的數據源,提供了相應的數據網關和采集適配器來實現對元數據的采集和處理,元數據倉儲的元數據采集設計如圖2所示。
數據網關是從數據源提取元數據并組織成結構化數據的橋梁紐帶,數據源有數據庫服務器、文件服務器、FTP服務器、Web服務器以及用戶錄入數據等。數據網關是元數據倉儲平臺的前端子系統,因此數據網關提供一個通用的數據網關接口,并且能夠與各個采集適配器以及后端的數據庫之間進行良好的交互通信。

表1 基于DC元數據倉儲的一站式檢索系統功能需求
采集適配器主要是從源數據庫查詢其數據結構,并通過設定采集任務和元數據字段映射關系,建立該目標對象的元數據輸出表,并轉換新的數據結構進行存儲。適配器任務包括選擇適配器任務類型(如Z server、數據庫、FTP、文件目錄等)、任務名稱、是否調度運行等。
當元數據倉儲平臺配置字段映射參數時,向網關系統發送請求,網關系統調用需要執行的適配器任務,任務調用生成的數據表結構以XML的形式發送回去,和元數據倉儲平臺映射,完成后執行調度任務,把不同數據源的數據以XML的形式返回給元數據倉儲平臺。當任務調度完成后,將元數據能夠提供的數據整理并存儲。

圖2 元數據采集設計示例
3.2 元數據存儲架構
數據存儲部分技術難點是元數據存儲采用何種架構方式。數字圖書館需要整合大量的館藏資源、外部電子資源與網絡資源。因此,從數據存取效率和存儲安全性考慮,建議元數據倉儲采取架構在多個物理服務器之上的分布式進行服務,支持數據分布以及負載均衡兩種基本分布方式,并支持兩種方式的組合運用。

圖3 數據庫集群服務模式
方式一是根據數據分類、功能不同,把內容分開存儲。將整個元數據倉儲的數據根據內容不同分為兩類,分別存放于數據庫(a)和數據庫(b)中,(a)(b)內容不同;方式二是內容相同,數據不分開,只是每套數據分別存儲在不同的數據庫中,數據庫(a)數據庫(b)內都存放全部元數據倉儲內容,(a)(b)內容相同。
資源調度服務器分發任務的方式可以根據網絡流量、檢索并發或者來訪IP地址來進行任務分發。元數據倉儲數據庫集群系統服務模式如圖3所示。當用戶向元數據倉儲平臺Web服務器發送檢索請求時,其請求可能會被資源調度服務器分配到檢索集群中的任意一個檢索服務器,如分配給(a),(a)檢索后并從原數據庫中取回檢索結果,資源調度服務器在發布集群中選擇一個發布服務器,如(b),則(b)選擇接受數據,并返回結果,將結果頁面以一定方式顯示給讀者用戶。
3.3 數據檢索和發布
數據檢索和發布支持多庫結果的統一展現,同時提供不同資源庫的檢索結果集分類和分面展現。這些展現方式都可以在一個頁面上集中體現,方便讀者根據自己的需要選擇性查看。檢索結果通過處理引擎進行合并、排重、排序等操作后,以統一的格式將結果呈現給讀者[5],讀者可以在一個頁面中瀏覽不同的資源庫中檢索出的結果信息,甚至直接下載全文,如圖4所示。
一站式檢索使讀者在查找所需文獻資源時不必在多個數據庫之間頻繁地登錄和退出,以減輕讀者學習檢索不同數據源的負擔;采用多元數據庫分布式全文檢索,能夠有效提升檢索效率,為讀者節省大量的時間和精力;檢索結果合并,為用戶呈現格式統一、分類聚合、多種排序的檢索結果,大大方便用戶的瀏覽和選擇,使得圖書館電子資源得到更充分、有效的利用。

圖4 檢索結果界面展現
基于DC元數據倉儲的數字資源整合,是提高館藏資源使用效率的一種有效手段,方便、快捷的“一站式”服務,大大提升讀者服務的深度與廣度,是Web3.0時代圖書館讀者服務的必然要求。數字資源整合在圖書館數字化建設過程中具有廣闊的市場前景和長期穩定的發展空間,在今后工作中,要加強資源整合的研究,探索新的整合方法,應用新的整合技術,開發新的整合平臺,以應對大數據時代的到來。
[1]張雅君.基于Web Service的OAI數據資源整合[J].圖書館學刊,2011(2):53-55.
[2]徐榮華.基于元數據倉儲的資源整合應用[J].圖書館雜志,2012(4):67-73.
[3]徐嵐.圖書館數字資源整合方式探析——以安徽警官職業學院圖書館為例[J].安徽警官職業學院學報,2010(6):90-92.
[4]蔣繼平,姚倩.文獻資源整合中的統一檢索系統應用研究[J].大學圖書館學報,2011(1):72-76.
[5]杜亮,劉濤.基于元數據倉儲的數字資源整合研究與實踐——以沈陽航空航天大學圖書館為例[J].現代情報,2012(10):46-52.
張宏偉男,1981年生。碩士,館員。
許 慧女,1983年生。博士,館員。
G250.73
2014-02-14;責編:徐向東。)
*本文系黑龍江省藝術科學規劃課題青年項目“基于一站式圖書館數字資源整合與檢索系統的研究與實現”(項目編號:12C036)成果之一。