朱敏
摘 要:研究實現基于XML的數據集成技術,探討XML的主要技術以及XML 應用。XML是eXtensible Markup Language(可擴展的標記語言)的縮寫,標記是指計算機所能理解的信息符號,通過此種標記,計算機之間可以處理包含各種信息的文章等。并從XML主要技術、XML應用來闡述。同時XML應用從支持數據交換、在異構數據庫集成中的關鍵技術作用、存儲數據、支持以文檔為中心和以數據為中心的應用、定義新的標記語言。
關鍵詞:XML;數據集成;數據交換
中圖分類號:F270 文獻標志碼:A 文章編號:1673-291X(2014)03-0015-02
一、XML 概述
XML是eXtensible Markup Language(可擴展的標記語言)的縮寫,標記是指計算機所能理解的信息符號,通過此種標記,計算機之間可以處理包含各種信息的文章等。如何定義這些標記,既可以選擇國際通用的標記語言,比如HTML,也可以使用像XML這樣由相關人士自由決定的標記語言,這就是語言的可擴展性。用XML作為中介格式,就不再需要知道對方內部的資料存儲格式,某個系統內部的變更,也不再會涉及和它往來的其他系統。因此,XML成為定義一種互聯網上交換數據的標準。XML為大家提供了理想的緩沖,并逐步成為Internet上數據表示和交換的標準。
1.XML 與HTML 。HTML 作為標記的集合并不能揭示標記中內容的含義,在XML文檔中能夠清楚地反映數據內容和數據結構之間的關系(如圖1所示)。XML實際上是一種定義語言,即使用者可以定義無窮無盡的標記來描述文件中的任何數據元素,從而突破了HTML固定標記集合的約束,使文件的內容更豐富更復雜并組成一個完整的信息體系,在WEB上有著很旺盛的生命力。
XML 在使用上,很多地方還離不開HTML 的幫助。只是在HTML 標準中可能不會再增加新的功能,對新功能的支持可能都會放在XML 標準中。
設計XML 的目的不是取代HTML,而是與HTML 合作以擴展網站網頁的功能。如傳輸任意形式的文件、以盡可能合理的方式來排序、篩選、重組、搜尋以及管理信息、使信息呈現出高度的結構化。
目前XML 的最大的不足在于所有的執行細節還是沒有完全制訂出來,語法格式還有可能再變動。
2.XML主要技術。W3C最近發布處理的一個就是關于Web Services的研究和XML的更新機制。其中關于XML有三個關鍵要素:Schema(模式)、XSL,可擴展樣式語言)和XLL(eXtensible Link Language,可擴展鏈接語言)。
Schema規定了XML文件的邏輯結構,定義了XML文件中的元素,元素的屬性以及元素和元素的屬性之間的關系,它可以幫助XML的分析程序校驗XML文件標記的合法性。
文檔類型定義(DTD)和XML Schema都是用來定義XML文檔結構的語言。當XML文檔與特定的DTD或是XML Schema結合在一起,能夠驗證XML文檔中的數據結構是否符合DTD或是XML Schema中對數據結構定義的要求。
XSL提供了一種疊式頁面CSS的功能,使開發者構造出具有表達層次結構的Web頁面來,以有別于XML的數據結構。XSL也能和HTML一起構造疊式頁面。
XLL是XML的鏈接語言,它與HTML的鏈接相似,但功能更強大。XLL支持可擴展的鏈接和多方向的鏈接。它打破了HTML只支持超級文本概念下最簡單的鏈接限制,能支持獨立于地址的域名、雙向鏈路、環路、多個源的集合鏈接等。XLL鏈接可不受文檔制約,完全按用戶要求來指定和管理。
二、XML 應用
Internet 上的服務器與服務器之間、服務器與瀏覽器之間有大量的數據需要交換。所有被交換的數據,都要求對數據的內容和表現方式有所說明,用標準語言擔當的該重任是再合適不過的了。因此XML是實現數據集成的核心技術。
1.支持數據交換。作為一個建立在現有Internet協議基礎上的標準,XML是第一個能在現有Internet基礎架構上傳輸純數據的國際標準。因此XML一出現,就立即被很多應用領域采用作為數據交換的標準,XML已經成為眾多在Intranet和Internet上運行的應用程序的數據交換標準。
2.在異構數據庫集成中的關鍵技術作用。由于開發的管理系統時間不同、開發工具不同、數據庫不同,各個網絡節點所依賴的硬件平臺、操作系統平臺、網絡服務器平臺、數據庫平臺都可能是互不相同的。正是由于這些差異,目前Internet上的數據庫系統往往是分布的、異構的,構成了我們常說的異構平臺、異構數據庫系統,形成一個個“信息孤島”。
針對各個異構信息系統的特點,采用現代最新技術,對管理系統異構數據庫實現集成,以支持對各異構數據庫之間靈活的信息交換和共享,如何實現這個目標,已成為當前亟待解決的問題。而 XML技術正是實現網絡環境下異構數據庫間集成的關鍵技術。
通過為各商務網站現有的不同數據庫系統提供一個XML接口,外界就可以借助XML實現對任何平臺上的現有數據庫的訪問,并將訪問結果以XML的形式輸出到其他平臺,從而實現了異構數據庫間的信息交換和共享。
傳遞數據的理想方式就是利用XML進行。對于傳統的數據庫系統,存在著異質或異構的數據庫,可以用XML來實現這些數據源有效地集成。
3.存儲數據。為了使基于XML的業務數據交換成為可能,就必須實現數據庫的XML數據存取,并且將XML數據同應用程序集成,XML能把數據存儲在文檔或是數據庫中。
4.支持以文檔為中心和以數據為中心的應用。XML能被用于對所交換信息的數據格式和數據結構要求不嚴格的應用程序之間進行數據交換。這就是以文檔為中心(Document-centric)的應用,例如報刊雜志的發行就是如此,其中內容的組成沒有固定的結構。這種文檔的結構是半結構化的數據結構。與以文檔為中心相對應的是以數據為中心(Data-centric)。以數據為中心的應用是指處理的XML文檔是完整、結構良好并且符合Schemas精確結構定義的文檔。
5.定義新的標記語言。XML作為一種原語言,是一種可以定義其他語言的語言。這個特點有利于各個應用領域根據自己的需要定義一整套領域內使用的標準數據表達標簽。這對推動各個行業的標準化進程起到了巨大作用。
三、小結
隨著企業信息化的逐步深入,企業內部及企業之間存在著大量的異構數據,數據集成問題是企業信息化建設所面臨的問題之一。它提供了一個理想的緩沖層,使得異構數據源之間可以保持互相透明,不再需要知道對方的內部存儲格式,某個數據源內部的變更,也不會影響其他數據源。基于XML的數據集成問題,已經成為數據庫研究領域中一個重要的研究方向。
參考文獻:
[1] 李軍懷,周明全,耿國華,張景.在異構數據集成中的應用研究[J].計算機應用,2002,(22):18-24.
[2] Brett McLaughlin.Java與XML(第2版)[M].北京:中國電力出版社,2004:2.
[責任編輯 劉嬌嬌]endprint
摘 要:研究實現基于XML的數據集成技術,探討XML的主要技術以及XML 應用。XML是eXtensible Markup Language(可擴展的標記語言)的縮寫,標記是指計算機所能理解的信息符號,通過此種標記,計算機之間可以處理包含各種信息的文章等。并從XML主要技術、XML應用來闡述。同時XML應用從支持數據交換、在異構數據庫集成中的關鍵技術作用、存儲數據、支持以文檔為中心和以數據為中心的應用、定義新的標記語言。
關鍵詞:XML;數據集成;數據交換
中圖分類號:F270 文獻標志碼:A 文章編號:1673-291X(2014)03-0015-02
一、XML 概述
XML是eXtensible Markup Language(可擴展的標記語言)的縮寫,標記是指計算機所能理解的信息符號,通過此種標記,計算機之間可以處理包含各種信息的文章等。如何定義這些標記,既可以選擇國際通用的標記語言,比如HTML,也可以使用像XML這樣由相關人士自由決定的標記語言,這就是語言的可擴展性。用XML作為中介格式,就不再需要知道對方內部的資料存儲格式,某個系統內部的變更,也不再會涉及和它往來的其他系統。因此,XML成為定義一種互聯網上交換數據的標準。XML為大家提供了理想的緩沖,并逐步成為Internet上數據表示和交換的標準。
1.XML 與HTML 。HTML 作為標記的集合并不能揭示標記中內容的含義,在XML文檔中能夠清楚地反映數據內容和數據結構之間的關系(如圖1所示)。XML實際上是一種定義語言,即使用者可以定義無窮無盡的標記來描述文件中的任何數據元素,從而突破了HTML固定標記集合的約束,使文件的內容更豐富更復雜并組成一個完整的信息體系,在WEB上有著很旺盛的生命力。
XML 在使用上,很多地方還離不開HTML 的幫助。只是在HTML 標準中可能不會再增加新的功能,對新功能的支持可能都會放在XML 標準中。
設計XML 的目的不是取代HTML,而是與HTML 合作以擴展網站網頁的功能。如傳輸任意形式的文件、以盡可能合理的方式來排序、篩選、重組、搜尋以及管理信息、使信息呈現出高度的結構化。
目前XML 的最大的不足在于所有的執行細節還是沒有完全制訂出來,語法格式還有可能再變動。
2.XML主要技術。W3C最近發布處理的一個就是關于Web Services的研究和XML的更新機制。其中關于XML有三個關鍵要素:Schema(模式)、XSL,可擴展樣式語言)和XLL(eXtensible Link Language,可擴展鏈接語言)。
Schema規定了XML文件的邏輯結構,定義了XML文件中的元素,元素的屬性以及元素和元素的屬性之間的關系,它可以幫助XML的分析程序校驗XML文件標記的合法性。
文檔類型定義(DTD)和XML Schema都是用來定義XML文檔結構的語言。當XML文檔與特定的DTD或是XML Schema結合在一起,能夠驗證XML文檔中的數據結構是否符合DTD或是XML Schema中對數據結構定義的要求。
XSL提供了一種疊式頁面CSS的功能,使開發者構造出具有表達層次結構的Web頁面來,以有別于XML的數據結構。XSL也能和HTML一起構造疊式頁面。
XLL是XML的鏈接語言,它與HTML的鏈接相似,但功能更強大。XLL支持可擴展的鏈接和多方向的鏈接。它打破了HTML只支持超級文本概念下最簡單的鏈接限制,能支持獨立于地址的域名、雙向鏈路、環路、多個源的集合鏈接等。XLL鏈接可不受文檔制約,完全按用戶要求來指定和管理。
二、XML 應用
Internet 上的服務器與服務器之間、服務器與瀏覽器之間有大量的數據需要交換。所有被交換的數據,都要求對數據的內容和表現方式有所說明,用標準語言擔當的該重任是再合適不過的了。因此XML是實現數據集成的核心技術。
1.支持數據交換。作為一個建立在現有Internet協議基礎上的標準,XML是第一個能在現有Internet基礎架構上傳輸純數據的國際標準。因此XML一出現,就立即被很多應用領域采用作為數據交換的標準,XML已經成為眾多在Intranet和Internet上運行的應用程序的數據交換標準。
2.在異構數據庫集成中的關鍵技術作用。由于開發的管理系統時間不同、開發工具不同、數據庫不同,各個網絡節點所依賴的硬件平臺、操作系統平臺、網絡服務器平臺、數據庫平臺都可能是互不相同的。正是由于這些差異,目前Internet上的數據庫系統往往是分布的、異構的,構成了我們常說的異構平臺、異構數據庫系統,形成一個個“信息孤島”。
針對各個異構信息系統的特點,采用現代最新技術,對管理系統異構數據庫實現集成,以支持對各異構數據庫之間靈活的信息交換和共享,如何實現這個目標,已成為當前亟待解決的問題。而 XML技術正是實現網絡環境下異構數據庫間集成的關鍵技術。
通過為各商務網站現有的不同數據庫系統提供一個XML接口,外界就可以借助XML實現對任何平臺上的現有數據庫的訪問,并將訪問結果以XML的形式輸出到其他平臺,從而實現了異構數據庫間的信息交換和共享。
傳遞數據的理想方式就是利用XML進行。對于傳統的數據庫系統,存在著異質或異構的數據庫,可以用XML來實現這些數據源有效地集成。
3.存儲數據。為了使基于XML的業務數據交換成為可能,就必須實現數據庫的XML數據存取,并且將XML數據同應用程序集成,XML能把數據存儲在文檔或是數據庫中。
4.支持以文檔為中心和以數據為中心的應用。XML能被用于對所交換信息的數據格式和數據結構要求不嚴格的應用程序之間進行數據交換。這就是以文檔為中心(Document-centric)的應用,例如報刊雜志的發行就是如此,其中內容的組成沒有固定的結構。這種文檔的結構是半結構化的數據結構。與以文檔為中心相對應的是以數據為中心(Data-centric)。以數據為中心的應用是指處理的XML文檔是完整、結構良好并且符合Schemas精確結構定義的文檔。
5.定義新的標記語言。XML作為一種原語言,是一種可以定義其他語言的語言。這個特點有利于各個應用領域根據自己的需要定義一整套領域內使用的標準數據表達標簽。這對推動各個行業的標準化進程起到了巨大作用。
三、小結
隨著企業信息化的逐步深入,企業內部及企業之間存在著大量的異構數據,數據集成問題是企業信息化建設所面臨的問題之一。它提供了一個理想的緩沖層,使得異構數據源之間可以保持互相透明,不再需要知道對方的內部存儲格式,某個數據源內部的變更,也不會影響其他數據源。基于XML的數據集成問題,已經成為數據庫研究領域中一個重要的研究方向。
參考文獻:
[1] 李軍懷,周明全,耿國華,張景.在異構數據集成中的應用研究[J].計算機應用,2002,(22):18-24.
[2] Brett McLaughlin.Java與XML(第2版)[M].北京:中國電力出版社,2004:2.
[責任編輯 劉嬌嬌]endprint
摘 要:研究實現基于XML的數據集成技術,探討XML的主要技術以及XML 應用。XML是eXtensible Markup Language(可擴展的標記語言)的縮寫,標記是指計算機所能理解的信息符號,通過此種標記,計算機之間可以處理包含各種信息的文章等。并從XML主要技術、XML應用來闡述。同時XML應用從支持數據交換、在異構數據庫集成中的關鍵技術作用、存儲數據、支持以文檔為中心和以數據為中心的應用、定義新的標記語言。
關鍵詞:XML;數據集成;數據交換
中圖分類號:F270 文獻標志碼:A 文章編號:1673-291X(2014)03-0015-02
一、XML 概述
XML是eXtensible Markup Language(可擴展的標記語言)的縮寫,標記是指計算機所能理解的信息符號,通過此種標記,計算機之間可以處理包含各種信息的文章等。如何定義這些標記,既可以選擇國際通用的標記語言,比如HTML,也可以使用像XML這樣由相關人士自由決定的標記語言,這就是語言的可擴展性。用XML作為中介格式,就不再需要知道對方內部的資料存儲格式,某個系統內部的變更,也不再會涉及和它往來的其他系統。因此,XML成為定義一種互聯網上交換數據的標準。XML為大家提供了理想的緩沖,并逐步成為Internet上數據表示和交換的標準。
1.XML 與HTML 。HTML 作為標記的集合并不能揭示標記中內容的含義,在XML文檔中能夠清楚地反映數據內容和數據結構之間的關系(如圖1所示)。XML實際上是一種定義語言,即使用者可以定義無窮無盡的標記來描述文件中的任何數據元素,從而突破了HTML固定標記集合的約束,使文件的內容更豐富更復雜并組成一個完整的信息體系,在WEB上有著很旺盛的生命力。
XML 在使用上,很多地方還離不開HTML 的幫助。只是在HTML 標準中可能不會再增加新的功能,對新功能的支持可能都會放在XML 標準中。
設計XML 的目的不是取代HTML,而是與HTML 合作以擴展網站網頁的功能。如傳輸任意形式的文件、以盡可能合理的方式來排序、篩選、重組、搜尋以及管理信息、使信息呈現出高度的結構化。
目前XML 的最大的不足在于所有的執行細節還是沒有完全制訂出來,語法格式還有可能再變動。
2.XML主要技術。W3C最近發布處理的一個就是關于Web Services的研究和XML的更新機制。其中關于XML有三個關鍵要素:Schema(模式)、XSL,可擴展樣式語言)和XLL(eXtensible Link Language,可擴展鏈接語言)。
Schema規定了XML文件的邏輯結構,定義了XML文件中的元素,元素的屬性以及元素和元素的屬性之間的關系,它可以幫助XML的分析程序校驗XML文件標記的合法性。
文檔類型定義(DTD)和XML Schema都是用來定義XML文檔結構的語言。當XML文檔與特定的DTD或是XML Schema結合在一起,能夠驗證XML文檔中的數據結構是否符合DTD或是XML Schema中對數據結構定義的要求。
XSL提供了一種疊式頁面CSS的功能,使開發者構造出具有表達層次結構的Web頁面來,以有別于XML的數據結構。XSL也能和HTML一起構造疊式頁面。
XLL是XML的鏈接語言,它與HTML的鏈接相似,但功能更強大。XLL支持可擴展的鏈接和多方向的鏈接。它打破了HTML只支持超級文本概念下最簡單的鏈接限制,能支持獨立于地址的域名、雙向鏈路、環路、多個源的集合鏈接等。XLL鏈接可不受文檔制約,完全按用戶要求來指定和管理。
二、XML 應用
Internet 上的服務器與服務器之間、服務器與瀏覽器之間有大量的數據需要交換。所有被交換的數據,都要求對數據的內容和表現方式有所說明,用標準語言擔當的該重任是再合適不過的了。因此XML是實現數據集成的核心技術。
1.支持數據交換。作為一個建立在現有Internet協議基礎上的標準,XML是第一個能在現有Internet基礎架構上傳輸純數據的國際標準。因此XML一出現,就立即被很多應用領域采用作為數據交換的標準,XML已經成為眾多在Intranet和Internet上運行的應用程序的數據交換標準。
2.在異構數據庫集成中的關鍵技術作用。由于開發的管理系統時間不同、開發工具不同、數據庫不同,各個網絡節點所依賴的硬件平臺、操作系統平臺、網絡服務器平臺、數據庫平臺都可能是互不相同的。正是由于這些差異,目前Internet上的數據庫系統往往是分布的、異構的,構成了我們常說的異構平臺、異構數據庫系統,形成一個個“信息孤島”。
針對各個異構信息系統的特點,采用現代最新技術,對管理系統異構數據庫實現集成,以支持對各異構數據庫之間靈活的信息交換和共享,如何實現這個目標,已成為當前亟待解決的問題。而 XML技術正是實現網絡環境下異構數據庫間集成的關鍵技術。
通過為各商務網站現有的不同數據庫系統提供一個XML接口,外界就可以借助XML實現對任何平臺上的現有數據庫的訪問,并將訪問結果以XML的形式輸出到其他平臺,從而實現了異構數據庫間的信息交換和共享。
傳遞數據的理想方式就是利用XML進行。對于傳統的數據庫系統,存在著異質或異構的數據庫,可以用XML來實現這些數據源有效地集成。
3.存儲數據。為了使基于XML的業務數據交換成為可能,就必須實現數據庫的XML數據存取,并且將XML數據同應用程序集成,XML能把數據存儲在文檔或是數據庫中。
4.支持以文檔為中心和以數據為中心的應用。XML能被用于對所交換信息的數據格式和數據結構要求不嚴格的應用程序之間進行數據交換。這就是以文檔為中心(Document-centric)的應用,例如報刊雜志的發行就是如此,其中內容的組成沒有固定的結構。這種文檔的結構是半結構化的數據結構。與以文檔為中心相對應的是以數據為中心(Data-centric)。以數據為中心的應用是指處理的XML文檔是完整、結構良好并且符合Schemas精確結構定義的文檔。
5.定義新的標記語言。XML作為一種原語言,是一種可以定義其他語言的語言。這個特點有利于各個應用領域根據自己的需要定義一整套領域內使用的標準數據表達標簽。這對推動各個行業的標準化進程起到了巨大作用。
三、小結
隨著企業信息化的逐步深入,企業內部及企業之間存在著大量的異構數據,數據集成問題是企業信息化建設所面臨的問題之一。它提供了一個理想的緩沖層,使得異構數據源之間可以保持互相透明,不再需要知道對方的內部存儲格式,某個數據源內部的變更,也不會影響其他數據源。基于XML的數據集成問題,已經成為數據庫研究領域中一個重要的研究方向。
參考文獻:
[1] 李軍懷,周明全,耿國華,張景.在異構數據集成中的應用研究[J].計算機應用,2002,(22):18-24.
[2] Brett McLaughlin.Java與XML(第2版)[M].北京:中國電力出版社,2004:2.
[責任編輯 劉嬌嬌]endprint