張琳娜
(陜西師范大學圖書館,陜西 西安 710062)
業界根據數字圖書館建設的基點、體系形式和所解決的關鍵任務等,將數字圖書館的發展確定為從“基于數字化資源”向“基于集成信息服務”以及“基于用戶信息服務”三個階段[1]。數字圖書館信息集成服務是基于用戶需求,無縫集成數字圖書館資源、技術、組織、服務等要素,使用戶得到在時間和空間上一致的、動態的、面向主題的信息服務[2]。
近十年來,對信息集成服務技術的研究以某一集成目標下,特定數據資源的整合技術研究為主。如利用OPAC系統提供的其他電子資源鏈接的接口表,存儲相應的數字資源信息的URL鏈接,實現已購電子圖書資源如超星、書生等與Malines系統的整合[3];利用開源軟件PKPHarvester2對數字資源進行基于OAI-PMH協議的元數據收割,實現對提供OAI接口的數據資源的整合研究[4];通過自建資源系統接口二次定制開發實現自建資源與OPAC系統數據整合的研究[5]等等。這些研究成果對“基于集成信息服務”數字圖書館的發展有一定推動和示范作用,但其立足于“基于數字化資源”建設成果本身,屬于自底向上的研究方式,有一定的局限性。本文采用自頂向下的研究思路,從“基于用戶信息服務”數字圖書館的體系結構出發,針對信息集成過程中存在的普遍問題,提出了一種信息集成模型,旨在為數字圖書館建設提供通用的集成模型依據。
在數字圖書館建設中,系統與資源是基礎,集成是手段,“一站式”門戶是平臺,提供全面、標準、個性化的信息服務則是數字圖書館建設的最終目標。因此,數字圖書館的體系結構應該由N個系統與資源,一個信息集成平臺加一個“一站式”門戶組成,即概括為N+1+1的結構(如圖1所示)。

圖1 數字圖書館體系結構
系統與資源包括館內外的各類管理系統和數字圖書館前期建設過程中形成的數字化資源。這些系統和資源都是依據各自業務邏輯和數字化標準而建的,之間往往沒有統一的接口和數據標準。
“一站式”門戶是用戶訪問數字圖書館的統一入口。通過門戶,用戶就可以獲得如統一檢索、資源鏈接與全文獲取、館際互借、咨詢與幫助,以及針對用戶的個性化服務,如信息推送服務、定題服務等。
信息集成平臺為各個管理系統的集成和數字資源的融合提供一系列的整合服務,使得各系統及資源之間能夠有效地實現數據交換與共享、應用的相訪以及接口的標準化開放,確保應用的即插即用。
“基于用戶信息服務”的數字圖書館是一個十分復雜的信息系統,其信息集成過程需要面對以下問題:①分布性。數字圖書館的信息資源往往是異地分布的,存在網絡傳輸的性能和安全等問題。②異構性。這些信息資源通常是獨立開發的,軟硬件平臺環境和數據格式、模式的異構問題是集成過程需要面對的最大的問題。③自治性。信息資源和服務往往由各自組織獨立維護和管理,在被集成的同時,其內部運行不能受集成所干擾,需具備高度自治能力。④透明性。如軟硬件平臺的透明,對數據存儲位置、數據模型和數據語言的透明等。其與系統解決異構性的程度和能力相關,決定了系統的功能和使用的方便程度。
目前常用的信息集成方案大體可分為模式集成和數據復制兩種[6]。模式集成是將信息資源的數據視圖集成為虛擬的全局模式,通過將用戶在全局模式基礎上提出的查詢請求映射成各信息源在本地可以執行的請求操作,從而達到集成目標。該方法的映射算法具有一定的復雜性,對網絡依賴性強,但透明度高、實時一致性好。數據復制是將各信息源數據復制到數據倉庫中,并維護整體一致性,提高信息共享利用效率的集成方法。該方法的查詢訪問方式簡單、集成性能高,但需負擔數據倉庫的創建及數據傳輸帶來的額外代價。
網絡的迅速發展使數據信息由原來的結構數據擴展到半結構數據或者無結構數據。XML作為半結構數據模型,能夠用來描述互聯網上的任何數據和實體[7]。XML將數據、結構和格式獨立開來,XML表示數據,DTD或XML Schema規定文檔結構,CCS或XSL定義文件顯示格式,XSLT、XQuery作為XML的轉換語言、查詢語言。其在數據模式描述,屏蔽數據異構性,實現無縫集成上都有已有技術無法實現的優勢。Web服務技術構建在XML之上,通過使用統一的標準(服務通信SOAP、服務描述WSDL和服務發現UDDI),封裝數據、消息和行為,讓其他的應用程序在無需考慮具體應用環境的情況下調用并得到響應。其是一種松散耦合的集成方式,真正實現異構信息源的無縫集成。XML和Web服務技術框架可以較好地適應分布式系統的服務分散性和資源異構性等特點,非常適合用于資源整合[8]。
針對“基于用戶信息服務”數字圖書館中信息集成存在的普遍問題,結合已有方案和技術,本文提出一種基于XML和Web服務技術、復制集成和模式集成相結合的信息集成模型 (Information Integration Model,簡稱IIM)。IIM將XML作為公共數據模型,Schema作為數據模式的描述語言,XSLT作為數據轉換處理語言,XQuery作為查詢語言,通過各信息源與XML的轉換,消除信息源間的異構問題。IIM利用Web服務對邊界進行封裝,向上為“一站式”門戶提供基于全局模式的統一查詢接口,向下為各局部應用系統或資源提供統一的集成接口,從而有效的解決系統相互操作的問題。此外,IIM采用復制集成和模式集成相結合的方案,提供一種按需集成策略。一方面對數字圖書館的骨架數據和有固定共享需求的數據信息,通過內部的同步機制實現自動共享;另一方面通過對集成需求的分解和數據結果的整合,實現對其他數據的共享,從而使IIM具備實時、高效的特性,提高系統運行效率。
從功能上來說IIM由數據源管理器、數據轉換處理器、復制處理器、查詢處理器、局部Web服務、全局Web服務六部分組成,IIM的模型結構如圖2所示。

圖2 IIM的模型結構圖
IIM的工作流程分管理和運行兩部分。管理是元數據以及集成規則生成的過程。在這個過程中,IIM管理員根據共享協議注冊局部信息源,定義共享內容、設置集成方式及相關參數,建立局部與全局的模式映射關系,維護全局模式信息以及局部與全局的模式轉換規則,為IIM的有效運行奠定基礎。運行過程包括內部自動同步和外部主動集成兩個過程。自動同步主要針對復制處理器中的數據同步過程。IIM將遵循管理階段定義的運行設置自動啟動處理過程,并在其他模塊的協助下完成共享數據的同步。外部主動集成體現在對由全局Web服務接受的查詢請求的處理。此類集成需求往往是隨機、零散的,由外部應用系統提出且集成內容不固定。對這樣的集成請求,IIM會按照全局模式與局部模式的映射/集成信息對請求進行解析,判斷具體的處理方式,交由不同的處理器完成。
以陜西師范大學圖書館為例,我館資源數字化已經全面建成,館內除了館藏資源、隨書光盤系統外、還有中文古籍、網絡課程、西北地方志、教師教育圖書等七個特色數據庫。購買的中外文數據庫、電子圖書更是達到了百余種。這些資源由不同的組織獨立開發,除了軟硬件平臺、數據模式不同外,其數據類型更是涉及文字、圖片、視頻、多媒體等。如何采用一種通用的集成技術、統一的數據標準,為讀者提供“一站式”訪問服務是我館數字化建設的新方向。

圖3 數字圖書館的架構
基于IIM而設計的數字圖書館架構 (如圖3所示)能有效地解決了以上問題。IIM服務器包含IIM核心結構、控制管理平臺以及全局復制數據庫。其從全局角度出發,對已有數字化資源進行整理,構造出我館標準的全局數據模式。IIM將基于全局數據模式的Web服務發布到UDDI服務注冊中心,供“一站式”門戶及館內外各應用系統或資源查閱。各類系統或資源作為IIM中的局部數據信息,一方面保留、存儲和維護各自的數據,另一方面通過在IIM中注冊,以全局模式或全局數據為門戶提供數據信息,當需要時,也可以通過館內UDDI服務注冊中心查閱其他系統或資源的全局服務說明,與IIM建立連接并獲取數據。
數字圖書館的建設水平是圖書館現代化的重要標志。本文依據自頂向下的理念,從“基于用戶信息服務”數字圖書館體系結構中所需的信息集成技術出發,針對集成過程存在的問題,提出一種基于XML和Web服務技術、復制集成和模式集成相結合的信息集成模型,給出了模型的體系結構,并闡述了模型的運行機理和運作方式。不同系統或資源之間的集成是一個復雜的問題,解決信息集成問題是一項艱巨的任務。本文提出的信息集成模型對數字圖書館建設具有一定的理論參考價值和實踐應用價值,但在這個過程中仍有許多細致的問題有待于我們進一步地探索和完善。
[1]張曉林.數字圖書館機制的范式演變及其挑戰[J].中國圖書館學報,2001(6):3-8,17.
[2]卓文飛,潘淑娟.國內外信息集成服務的發展與實踐[J].農業圖書館情報學刊,2009(12):192-196.
[3]應紅燕.Melinets書目系統與電子資源整合的實現技術[J].現代圖書情報技術,2008(12):99-102.
[4]陳和,王爽.基于開源軟件實現館藏數字資源整合與統一檢索[J].現代圖書情報技術,2009(6):70-75.
[5]黃婧,吳英梅,賈西蘭.自建資源與異構系統集成實踐研究_以北京師范大學圖書館為例[J].現代圖書情報技術,2010(11):75-78.
[6]張琳娜,王映輝.基于節點自治的分布式數據共享模型研究與應用[J].計算機工程,2009,(3):32-35.
[7]張付志,巢進波.信息集成技術在數字圖書館中的應用研究[J].計算機工程,2005(7):90-92.
[8]焦允.一種聯盟型圖書館域內資源庫集成模型及其 XML Web Serices實現[J].圖書館雜志,2007(11):48-53.
