李衛峰
(江蘇技術師范學院圖書館,江蘇 常州 213001)
圖書館數字資源建設從建立書目數據庫開始,到自建數據庫、集團采購、自主購買數據庫資源等,已經建立起龐大的數字資源。如何把眾多分散的數字資源整合起來,向用戶提供統一、全面、功能強大的資源環境和服務環境,使用戶能快速、準確地獲取所需的數字資源,對于數字圖書館的發展來說意義重大,數字圖書館異構數據的集成研究主要也是解決這個問題。
數字圖書館是一個數字化的資源數據庫系統,它將分散于不同地理位置的信息資源以數字化的形式存儲,以網絡化的方式相互連接,提供及時利用,實現資源共享。在計算機網絡和數據庫技術的支持下,雖然理論上數字圖書館的資源可以被無障礙地共享,但各資源數據庫由于開發廠商不同,數字圖書館數據異構現象非常嚴重。主要體現在:
①各數據庫使用不同的操作系統;
②使用不同的數據庫管理系統;
③存在于不同的物理位置,且硬件配置各不相同;
④采用的庫模型、數據檢索語義不同等。
不同的應用系統可能使用不同的元數據標準,如圖書館管理系統大多采用MARC元數據標準,而自建數據庫可能各個數字圖書館根據各自情況采用的元數據標準都不同。
數字圖書館中的元數據存在著多種格式,不同的電子資源數據庫采用不同的元數據標準,數據集成系統就要對這些元數據進行統一轉換,轉換成一種元數據,從而解決元數據的異構性。
通過分析轉換表元數據映射方案思想,建立了一個“多對一”的元數據映射方案,方案建立了一個統一的元數據標準,考慮DC元數據標準的優點,建立的元數據參照DC元數據標準,其他元數據標準都將轉換成這一標準,其關系如圖1所示。

圖1 元數據映射方案
從實現的體系結構的角度出發,信息集成技術經歷了以下幾個發展階段:
在盾構完成穿越橋梁樁基后,對穿越高鐵影響范圍內的管片,利用管片上的注漿孔自下而上進行二次注漿,漿液采取快速凝結的雙液漿,注漿壓力不大于0.4MPa,以確保管片壁后空隙填充飽滿。
聯邦數據庫的體系結構如圖2,數據源是獨立的,通過數據源之間的數據交換格式進行一一映射,一個數據源可以訪問任何其他數據源提供的信息。
這種系統開發時間太長,工作量大,擴展性差,實現代價較高。

圖2 聯邦數據庫體系結構
Mediator中間器法體系結構如圖3所示。Mediator中間件系統是通過提供所有異構數據源的虛擬視圖來集成它們,這里的數據源可以是數據庫、遺留系統、WEB數據源等。該系統向下協調各數據源,向上為集成數據的應用提供統一的數據模式和數據訪問的通用接口,為用戶提供一個統一的數據邏輯視圖。在這種體系結構中,中間層根本不實際存儲數據,而是存儲數據的映射模式。
這種系統不需要重復存儲大量數據,并能保證查詢到最新的數據,比較適合于高度自治、集成數據多且更新變化快的異構數據源集成。

圖3 M ediator中間器法體系結構
數據倉庫體系結構如圖4,把來自多個數據源的數據副本,按照集中、統一的視圖要求進行預處理和轉換,形成統一的模式,存儲到數據倉庫中,用戶的查詢就是對數據倉庫中的數據進行查詢。

圖4 數據庫體系結構
這種系統的優點是建立系統的過程比較簡單。缺點是數據重復存儲、及時更新困難的問題,數據更新的效率將影響系統的可用性,同時單個數據源的擴展和維護會涉及到整個系統。
首先,聯邦數據庫和Mediator/Wrapper相比較:
①在Mediator/Wrapper系統中數據源添加和刪除都比較容易,聯邦數據庫所有數據源都要添加彼此訪問的接口,所以需要編寫大量接口程序,開發難度高,而且不易擴展。
②Mediator/Wrapper的數據源不必是數據庫,也可以是各種結構化、半結構化、無結構的XML數據等。而聯邦數據庫方式只支持數據庫數據源的集成。
其次,Mediator/Wrapper和數據倉庫相比較:
①Mediator/Wrapper實時性強,能保證查詢的數據是最新的,它將用戶基于全局模式提交的查詢在系統運行時動態分解為針對每個數據源的查詢,中間件通過包裝器獲得數據,經過整合后返回給用戶,因此查詢的結果都是最新的。同時查詢結果都是由包裝器對數據源進行,中間件只和包裝器打交道,因此適合數據源的動態添加和刪除。但是Mediator/Wrapper方式不能對歷史性的全局數據進行有效的利用和分析。
②數據倉庫要建立一個存儲數據的倉庫,定期對數據源中的所有數據進行預處理,形成符合倉庫模式的數據,然后物化數據到數據倉庫。數據倉庫中的數據主要是歷史和匯總的數據,供分析和執行人員進行決策分析使用。其特點是:查詢的效率很高,但查詢到的數據不能保證是最新的,并且如果倉庫模式設計成靜態的,當有新數據源加入或已有數據源發生變化時,對倉庫的修改代價比較高。
針對數字圖書館數據的異構性和異構數據集成模型分析比較后,結合Mediator/Wrapper模型,提出了基于XML Web Service的數字圖書館異構數據集成方案。
基于XMLWeb Service的數字圖書館異構數據集成方案,利用Web Service對各個數據源進行封裝,解決了數字圖書館中數據庫異構性的問題;利用XML元數據映射,解決了元數據的異構性問題,其體系結構如圖5所示。

圖5 基于XM LW eb Service的異構數據集成方案體系結構
基于XMLWeb Service的數字圖書館異構數據集成體系結構由3層組成:應用層、中間層、資源層。應用層由應用界面組成。中間層由請求處理器和結果處理器組成。資源層主要包括各分布式圖書館數據庫資源、包裝器和Web Services組成。
應用層為用戶提供應用界面,底層集成的數據源對用戶是透明的,從用戶的角度來看,并不認為底層有多個數據庫,查詢就像在一個數據庫中進行的一樣。各數據源返回的信息經系統處理后以統一方式顯示在應用界面中。
當接收到應用層的命令請求時,由請求處理器將命令分析后分解成功能子命令并包裝為SOAP消息,通過調用相應的Web Services,傳送到相應的數據源包裝器執行具體任務。結果處理器接受由各子數據源返回的XML形式的結果片段,整理合并后返回給用戶。其中通過元數據映射解決元數據的互操作。
①請求處理器
請求處理器根據應用提交的命令,根據映射關系里的相關規則,將應用分解為對應各局部數據源的子命令,并將子命令傳送到對應的數據源包裝器執行實際數據的操作。
②結果處理器
各數據源的執行結果由資源層返回給中間層后,由結果處理器對結果重新組合,返回給應用程序。
③映射關系
主要規定XML全局元數據的標準以及XML全局元數據和局部元數據的映射規則。
集成系統中一個重要的組件就是關于各個異構數據源的包裝器(Wrapper),使各數據源對外提供統一的接口。數據源包裝器是對應各數據源的一個包裝層,它的主要任務是包裝數據源的模式與數據,將中間語言功能命令映射為特定數據源模式可識別的實際物理命令,并把從底層數據源中抽取的數據轉化成統一的XML數據格式。本系統為不同種類的數據源開發對應的包裝器。將各個包裝器發布成為多個Web Services,對外提供統一的接口接收命令請求,對數據源的調用實際上是對包裝器Web Services的調用。
基于Web Service技術異構數據集成具有簡單、開放、靈活、動態等特點,它易于其他系統的集成,從而提供了一種數字圖書館異構數據源數據集成的有效方法,該方法能夠有效解決數字圖書館數據共享和交換的問題,實現數字圖書館異構數據的互聯互通,但是基于Web Services的異構數據庫數據集成的具體實現技術還有待進一步研究。
[1] 馮少榮.基于XML的web數據集成技術的研究.計算機應用與軟件,2005(7).
[2〕 孟小峰.Web信息集成技術研究.計算機應用與軟件,2003(11).
[3] S.Abiteboul,P.Buneman,D.Suciu.Data on theWeb-From Relations to semi structured Data and XML.Morgan Kauffmann publishers,2000.
[4]A.Doan,P.Domingos,A.Levy.Learning Source Description for Data Integration.In Proceedings of the InternationalWorkshop on theWeb and Databases,2000.
[5]王志波,裘國永.基于XML的異構數據庫中間件研究.鄭州輕工業學院學報:自然科學版,2008(3).