王世波,熊小慧
(齊齊哈爾大學 經濟與管理學院,黑龍江 齊齊哈爾 161006)
基于XML的數字圖書館異構數據庫集成及檢索研究
王世波,熊小慧
(齊齊哈爾大學 經濟與管理學院,黑龍江 齊齊哈爾 161006)
通過分析數字圖書館中存在的異構數據問題,結合實際情況,對數字圖書館異構數據庫的集成和檢索進行研究,提出相應的異構數據集成和檢索模型.
異構數據庫;XML;集成
數字圖書館通過運用電子信息技術來存取和管理信息資源,方便信息的使用者按照各自的需求智能存取信息,這些信息以數字化的形式存儲在數字圖書館內并且能夠隨著時間的推移而不斷增長[1].由于數字圖書館數據庫的發展過程中存在異構數據的現象,這給讀者查詢帶來極大的不便.因而需要對異構數據進行整合和集成,使之能夠實現跨庫檢索,便于讀者的查詢和訪問,實現圖書館信息資源的真正共享.
XML語言屬于標記語言的一種,可以利用它來描述數據,如存儲、轉換及程序處理等.通過運用XML語言的描述性標記特點,人們可以很方便地進行數據定義,對描述的術語及術語間的結構化關系進行擴展.XML語言與所使用的操作系統以及程序開發使用的語言無關,只使用文本編輯軟件就能夠設計開發出符合規則的XML文檔.XML的優點使得越來越多的信息通過其進行存儲、表示和交換.Xquery標準可以讓查詢變得簡潔,同時容易被理解,最主要的是能夠對大量的基于XML的信息源(可以是數據庫中的表,也可以是XML文檔)進行靈活查詢.因此,Xquery可以將這些不同數據源的數據翻譯成XML文檔來查詢異構的數據源.
異構數據庫系統是多個相關的數據庫系統交織在一起形成的集合,通過這個系統將原有的各個獨立系統有機結合,實現系統互通、數據互訪,每個DBS都有各自的后臺數據庫管理系統并能夠維持自治和應用.集成后的數據除了具有集成性以外,不能破壞相應的安全性及完整性和一致性.
XML為異構數據庫系統的信息轉換設計了相應格式,能夠實現異構數據互操作.可以使用XML作為數據集成的相互操作語言,再使用某一編程技術(如JAVA、DELPHI等)作為編程的方法來實現異構數據庫的集成.XML可以實現異構數據信息變換,它使用文檔類型定義描述標準格式,XML文檔中的數據可以使用Xquery查詢獲取,非XML文檔數據也可以通過映射功能獲得,可見XML技術可以作為異構數據相互集成的可行方案.
國內數字圖書館的建設是從上世紀90年代以后開始的,在理論與實踐兩方面取得了很大成績.隨著互聯網及網頁技術的出現和發展,圖書館的數字化資源為廣大用戶獲取網絡化知識信息提供了有效途徑[2].
然而,隨著數字圖書館的建設,不同階段建設的軟件系統,其信息內容可能就會分散在不同的物理網絡之上.這些物理網絡上的節點計算機千差萬別,其硬件配置、網絡服務器、操作系統及DBMS可能是不相同的,也就形成了“異構”——即“異構數據庫系統”.圖書館在建設過程中不可避免地形成了各種各樣的應用系統.這些應用系統的數據資源多種多樣,除了保留有各種書目、學術期刊、學位及會議論文庫等眾多數字資源以外,還包括報紙以及歷來的期刊、書目的借閱和歸還記錄.另外這些資源的存儲結構、讀取方式不盡相同,有的是以數據庫形式存放(如ORACLE,SQL SERVER,DB2等),而有的則是直接采用文件的形式保存在硬盤上,甚至有的僅以文件形式存放在光盤上.讀者想要獲取這些資源要么是到各個資源所在的軟件系統中獲取,要么是通過一個集成的平臺進行數據的查找獲取.大多數的讀者由于對數字圖書館各階段的系統了解程度不同,準確獲得所需數據的并不多.因此,需要搭建一個統一的檢索查詢界面,方便廣大圖書館用戶獲取數字資源,增強其操作性,也是未來數字圖書館的發展趨勢.
隨著數字圖書館的發展,需要將各個數字化軟件系統進行有機結合,為廣大用戶提供一個集成信息檢索平臺.因為XML本身具有擴展性和自我描述的特點[3],XML技術為實現這種新型的信息管理系統提供了一個機會.XML不僅可以實現數據交換,還可以方便地實現不同應用系統之間的數據交換[4-6].通過建立數字圖書館的數據中心來解決數字圖書館中的異構數據庫帶來的數據孤立和異構問題,最終建立以數據為中心的數字圖書館應用系統[7-8].數字圖書館中的異構數據是指結構不同,或者是平臺不同而造成的數據格式平臺不統一,在圖書館發展的不同階段形成的不同存儲格式的數據.基于XML的數據集成模型見圖1.

圖1 基于XML的異構集成檢索模式
在此模型中,各個分布的、異構的數據庫可以分別對應一個XML接口,經由XML信息引擎聯入INTERNET,借由用戶視圖及集成模式形成XML文檔供用戶訪問,從而解決數字圖書館各分立系統單獨訪問給使用者帶來不便的問題.有的學者也曾經提出過類似的模型[9-10],本文中的模型不需要集成層的源映射,只是借由XSL得到的查詢數及DTD轉換XML文檔就能夠為使用者提供查詢服務,同時針對新加入的數據源頭進行更新,以保證用戶能夠獲取到的數據為數字圖書館的完整數據.
模型本身借助XML語言的自身特點,它既可以描述結構化數據,即非常規范的二維表結構數據,也可以描述半結構化的甚至是非結構化的數據,這就為我們提供了一種異構數據集成的方法.因此,可以將圖書館發展過程中使用的不同數據庫后臺實現格式統一,用一致的文檔對外提供查詢服務,實現集成,方便數字圖書館各個系統的使用者實現一次登錄就能夠全網瀏覽使用的目的.
本文的方法首先在教務管理各子系統中使用,通過對齊齊哈爾大學教務管理各子系統的集成發現,XML確實能夠描述多種多樣的數據,能夠將多個異構數據源數據整合在一個文檔中.因教務管理相關子系統在發展的過程中也存在異構數據,和數字圖書館系統非常相近,加之本方法具有較好的通用性,因此可以將此方法運用到數字圖書館各系統的集成,便于用戶檢索利用.XML不僅可以將互聯網提供的信息傳遞功能供人使用,同時也為人類多種多樣的活動服務,它能容易地將關系數據庫中的數據表屬性和XML的文檔描述一一對應,從而實現精準查詢和數據獲取.因此,通過運用XML技術能夠有效兼容原有Web應用系統,實現各Web系統中的信息轉換及共享,從而有效地解決異構數據庫的集成,為異構數據交互和共享提供幫助,成為解決異構數據庫互操作的有效途徑.
[1]申傳斌.基于XML的數字圖書館異構數據庫互連[J].現代情報,2005(7):99-102
[2]劉科,鄭巧英,徐汝興.基于JAVA技術解決數字圖書館異構平臺數據庫訪問[J].現代圖書情報技術,2002(3):10-13
[3]張曉林.基于XML的信息組織與處理:1.XML技術體系[J].情報科學,2001,19(8):832-839
[4]吳揚揚,陳鍛生.一個基于XML的Web信息源集成方案[J].計算機工程與應用,2001(10):34-37
[5]李軍懷,張景,周明全,等.基于XML的企業異構數據集成方法研究[J].計算機工程,2002,28(9):63-65
[6]王福.基于XML與Web Service的數字資源統一檢索平臺研究[J].貴圖學刊,2009(4):47-48
[7]莊青青.XML技術在數字圖書館跨庫檢索中的應用[J].情報探索,2011(7):89-90
[8]李衛峰,胡孔法.基于XML WEB SERVICE的數字圖書館統一檢索技術研究[J].情報雜志,2008(9):27-28
[9]羅艷.基于XML的異構數據交換技術研究[D].南昌:南昌大學,2011
[10]王芳.基于XML的異構數據交換技術研究[D].南昌:華東交通大學,2009
The research of digital library heterogeneous database integration and retrieval based on XML
WANG Shi-bo,XIONG Xiao-hui
(School of Economics and Management,Qiqihar University,Qiqihar 161006,China)
Analyses the problem of the heterogeneous database in the digital library,it gives a model for heterogeneous database integration and retrieval,which researches the heterogeneous database integration and retrieval according to what is actually happening the digital library.
heterogeneous database;XML;integration
TP311.13
A
10.3969/j.issn.1007-9831.2016.12.006
2016-10-16
王世波(1979-),男,黑龍江尚志人,副教授,在讀博士,從事信息系統開發與集成研究.E-mail:wangshibo05@163.com
1007-9831(2016)12-0025-03