賈鳳旭
(鞍山師范學院圖書館,遼寧 鞍山 114005)
網絡技術的發展推動了文獻資源的數字化建設,由此,作為數字圖書館服務門戶的數字資源共享平臺系統的建設也成為必然。XML作為描述數據語言及其所具備的數據互操作等眾多優點,以其作為基礎技術構建的數字圖書館資源共享平臺,成為數字資源和用戶密切聯系的紐帶,既方便讀者利用數字資源,又提高了數字圖書館的知識服務能力。
XML(eXtensibleMarkupLanguage)是 W3C工作組制定的可擴展置標語言。XML是定義語義標記的規則,通過標記將文檔分成多個部件并加以標識。XML和HTML雖然同是SGML應用子集,但XML可依據不同應用而自定義標簽,以開放的自我描述方法來定義數據結構,進而描述數據內容和數據之間的關系。具體講,XML有以下幾方面特點。
XML采用嵌套文本標簽的方式來表示數據,標簽的文本和結構均可以自由擴展,使用者可以按需創建并使用新的標記,其區別于一些二進制文件對字段結構長度的諸多限制,極容易擴展,因此,其技術在廣泛的開發平臺都有支持,幾乎所有的常用編程語言都支持XML,從而讓其成為理想的信息交換工具。
HTML雖是Web顯示數據的專用語言,但其顯示的網頁樣式信息與內容信息混雜在一起。而XML采用文檔數據和顯示指令分離的機制,有利于對大量XML文檔的維護,有利于應用程序處理XML文檔,直接分析、處理數據內容。而且多個XML文檔可共用一個樣式文件,便于管理。
XML文檔中的標簽在不違反其語法的前提下可以根據需要自由設定,但要注意考慮所用詞匯的合理性,以及標簽相互的嵌套層次邏輯性。
為了有利于XML傳播和共享信息,需協定共同遵守行業標準,使用規范的語匯。
XML的跨平臺特征,決定了它可以實現不同數據源之間的數據交換,提供一個公共交換平臺。XML格式數據不需任何轉換和其本身的簡明性,為數據交換的發展提供廣闊的前景。
XML文件結構可以分為實體結構和邏輯結構。實體結構是構成XML文件的實際資料;邏輯結構是XML元素排列圖,即元素的排列順序。XML文件的邏輯結構包括3部分:文件首,用來指定該文件的指令;主體部分,由一個或多個元素組成,形式為可以包含字符數據的層次結構樹;文件尾,包括注釋、處理命令及主體后面的空白。
XML文件的實體結構用下面實例作進一步說明:
XML文檔
----- ①
----- ②
< 圖書 A=”1”B=”2”C=”3”/> ----- ④
<選擇 =”A”/>
----- ⑤
其構成部分及解釋如下:
①XML聲明:XML版本號和文本編碼方式。
②處理指令:給XML應用程序閱讀的特殊標記。
③元素:;分別是兩對元素。
④屬性:與元素相關聯的部分,如“圖書”元素有3個“A”、“B”、“C”屬性,其屬性值分別為“1”、“2”、“3”。
⑤文本:兩個標簽之間的字符,如“這個選擇是正確的!”是“結論”這個元素的文本。
⑥空白:文本中出現的換行,半角空格或制表符。
XML是記述Web相關數據的最基本語言;XML既采用供閱讀的文件形式,又采用供程序使用的數據形態,具有記述文件和數據的兩面性,使非表格形式的數據結構非常清晰地顯示出來,在關聯數據方面發揮出它獨特的優勢。
第一,分布在不同地域的數據,XML的遠程功能,借助HTTP協議,解決了這類數據的共享問題。
第二,結構和語言不同的數據,XML的DOM和XQL工具,XML對半結構化數據的通用表示以及XML查詢語言,實現了對該類數據的互操作。
第三,不同系統間屬性表示和語義差異的數據,XML通過源和目標大綱屬性來匹配描述性的元數據,把這類數據轉換成同一性而實現互操作。
第四,不同規范的數據,XML通過把這些數據根據需要重新組織成不同結構的數據表來實現操作。
第五,簽定數據,XML清晰明確地描述屬性表示和語義方面的優勢,可以避免數據使用端程序的識別錯誤。
基于XML在數據方面的優勢,采用其建立接口數據標準,有利于數字資源平臺的開發,實現不同平臺間的數據交換和協同工作,通過XML模式發布,可以自動實現對數據的驗證和約束,使數字資源數據由抽象的標準變成具體的操作。
數字圖書館的資源目標是構建一個邏輯上統一、物理上分散的資源共享體系,以資源元數據為核心基礎,統一管理分散的資源數據,具體構想如圖1。

圖1
數字資源共享平臺主要從用戶需求出發來考慮構建,包括“數據信息檢索、發現和數據訪問”,用戶通過資源共享服務平臺網站檢索數據信息、發現并訪問使用,主要是通過各節點系統的元數據搜索引擎來實現檢索功能。具體實現步驟是:資源共享平臺傳遞的檢索請求信息通過數據描述層節點,
經數據控制層的調用處理,通過XML查詢命令從各資源庫中生成檢索結果并回復給服務器,最后回應到客戶端瀏覽器。用戶確認后可根據共享資源元數據定位信息(URL)下載資源,實現對數據的訪問。管理員通過元數據管理系統,實現對數字資源元數據的更新、添加、編輯、修改,并對資源數據庫進行維護。

表1
數字資源共享平臺系統是異構數字資源數據庫整合推介平臺,能便捷、系統地為用戶提供知識服務。主要設計了兩大功能模塊:①服務模塊:資源信息推介、信息檢索、信息下載。②管理維護模塊:數據資源整理和加工、數據存儲、數據資源安全、用戶管理及事務管理。數字資源共享平臺按層次理論分析如表1所示。
目前XML應用于互聯網上數據交互操作主要形式為“Web服務”,是指客戶端和服務器通過網絡利用XML信息進行溝通,是數據信息的“請求→處理→應答”過程。

圖2
Web服務的客戶端以XML形式并基于HTTP協議,用GET或POST方法在HTTP報文中發送請求到Web服務器,Web服務器解析XML請求報文并執行相關操作,從數據庫查詢處理并返回XML應答報文給Web服務器,Web服務器將應答報文解析為相應的信息,并把結果顯示到客戶端電腦頁面,以便客戶端等待做下一步指令處理工作。
這樣基于XML技術的數據處理流程,后臺加載XML文檔避免了類似HTML網頁向服務器提交表單,用戶需等待表單處理完畢才能進行下一步操作的情況,提高了數據服務的效率。
隨著XML的普及應用和相關工具軟件的層出不窮,XML在各行各業的應用也愈加廣泛。在數字圖書館資源建設方面,用XML記述數字資源的內容和元數據,已成為現今的主流。數字圖書館的資源主要包括做為元數據的目錄和信息資源的全文數據,用XML記述的全文數據,可以通過程序對它們進行各種操作。XML對內容記述與顯示分離的特性,方便將XML源數據進行不同形式的轉換,實現多角度的檢索,從而滿足不同讀者需求,因此,XML技術成為數字圖書館建設和服務的基礎。
集成XML眾多優越性構建的數字圖書館資源共享平臺,以其方便、快捷、人性化的服務,把數字圖書館資源展現在用戶面前,以知識服務為基礎指針的資源管理、組織和服務體系,不斷推動數字圖書館作為信息、知識的社會核心地位的發展。
[1]石塚英弘,李穎.未來網絡的基磐技術——XML的理論與應用[M].北京:華藝出版社,2002.
[2] 李廣健.數字時代的圖書館網絡信息系統[M].北京:北京圖書館出版社,2006.
[3] 左偉明.即用即查XML數據標記語言參考手冊[M].北京:人民郵電出版社,2007.
[4] 雷燕.高校圖書館Web站點信息服務比較研究[J].大學圖書館學報,1999(2):28-30.