
XML(eXtensible Markup Language可擴展標識語言)是國際上定義電子文件結構和內容描述的標準。XML的簡單使其易于在任何應用程序中讀寫數據,這使XML很快成為數據交換的唯一公共語言。雖然不同的應用軟件也支持其他的數據交換格式,但不久之后他們都將支持XML,那就意味著程序可以更容易地與Windows、MacOS、Linux以及其他平臺下產生的信息結合,然后可以很容易加載XML數據到程序中并加以分析,以XML格式輸出結果。
XML推出后被廣泛用來作為跨平臺之間交互數據的形式,主要針對數據的內容,通過不同的格式化描述手段(XSLT,CSS等)可以完成最終的形式表達(生成對應的HTML,PDF,Epub或者其他的文件格式)。
XML所涉及的
談到XML,就不得不提到描述XML結構的規范DTD及Schema。我們知道,描述書這個對象時,所用到的元素有書名、價格等,同時書名要用文本來表示、價格要用數字來表示。DTD及Schema就是規定XML中所包含的描述對象的元素及屬性的。
DTD及Schema都是用于描述和規范XML文檔的邏輯結構的一種語言,他們最大的作用就是驗證XML文件邏輯結構的正確性。DTD(Document Type Definition)通過一系列合法的元素來定義文檔的結構,是一種保證XML文檔格式正確的有效方法,可通過比較XML文檔和DTD文件來看文檔是否符合規范,元素和標簽使用是否正確。Schema 與DTD(文檔類型定義)功能相同,同時它本身就是一個XML,因而使用者可以更直觀地了解它的結構。除此之外,Schema支持命名空間,內置多種簡單和復雜的數據類型,并支持自定義數據類型。所以未來傳統出版機構規范元數據的Schema(或者DTD)以及面向一個領域專業的Schema(或者DTD)會成為其核心的價值。可以通過成為行業標準并申請專利的方式成為機構在數字化、互聯網時代的核心競爭力。
XML的價值
XML適用于數據的交換
可以兼容不同的平臺。在數字化、互聯網時代,不同平臺之間尤其在數據、內容方面都有大量的交互的需求。這樣能提高資源的利用率,減少重復建設的成本。
XML適用于共享數據
通過XML純文本文件可以用來共享數據。既然XML數據是以純文本格式存儲的,那么,XML提供了一種與軟件和硬件無關的共享數據方法。這樣創建一個能夠被不同的應用程序讀取的數據文件就變得簡單了。
XML適合充分利用數據
尤其在多類型移動終端發展的數字化、移動互聯時代,底層以XML描述的數據可以實現基于這種格式,應用不同的工具集實現數據在不同平臺、不同終端、以不同展現形式呈現出來,滿足不同用戶的需求。
為什么傳統出版機構要應用XML
傳統出版機構的數字出版項目的核心就是實現數字化、互聯網技術與專業內容的融合,與各種平臺無縫地整合起來,并通過各種終端將數據、內容第一時間發布出去。對于這樣的一種跨媒體的傳播形式,XML就是實現此種應用的基礎與前提。XML的內容與顯示分離的特點,可以實現一次性制作內容,配以不同的樣式單,完成多次、多渠道應用。
傳統出版機構的內容資源主要是圖書、期刊、電子音像產品,抽象出來的資源類型有:圖書、期刊、文章、作者、客戶元數據信息、各種格式的文檔、圖片、視頻、音頻、課件等。這些大量的資源都需要通過標準的數字化方式(轉為XML格式)進行制作、存儲,作為實現跨媒體應用的基礎。
更為重要的是,XML能實現對文檔和其他內容的智能化管理,MarkLogic公司負責客戶解決方案的副總裁Max Schireson曾指出:“如果XML內容只是由XML包裝的簡單數據,那么,用戶就沒有理由不用Oracle或Microsoft的產品。”但是,如果是在復雜的文檔和流程中,關系數據庫就很難對文檔和其他內容實施有效的智能管理了。
傳統出版機構如何應用XML
圖書、期刊、文章、作者、客戶等元數據信息以數字化的形式傳播出去,前提就是需要通過XML來進行描述。而涉及正文內容的文檔根據應用的需要也以XML來進行描述。圖片、視頻、音頻、課件等對象類的內容資源需要通過XML來描述這些內容對象的相關屬性,同時在應用時根據應用端的不同,生成不同應用格式的內容。
構建基礎數據
數字化核心的底層數據結構是非常重要的,所以首先需要分析內容對象,比如學術期刊中一篇文章,包含中文題名、英文題名、摘要、關鍵詞等,同時要分析這些數據的屬性及數據之間的關聯,XML構建一個底層的數據結構表。
下一步就是設計出核心的數據結構描述文件Schema或者DTD(Schema替代DTD已經成為趨勢, Schema本身就是一個XML)。Schema樣例如下:
最后就是由專業的數據制作公司應用數據加工工具(嵌入DTD、Schema)完成對傳統出版機構內容資源的數字化加工。
對基礎數據進行應用
為了滿足不同領域和顯示設備的需要,人們利用XML定義了多個面向顯示的語言,包括XHTML(Extensible Hypertext Marku Planguage,用XML重新定義的HTML)、面向Web圖形的VML(Vector Markup Language)、PGML(Precision Graphics Markup Language)和SVG(Scalable Vector Graphi)、面向多媒體的SMIL(Synchronized Multimedia Integrational Language)、面向手持設備的WML(Wireless Markup Language)。
基于XML還有一系列的應用,能夠實現在線的個性化內容應用及服務:比如Atom,它是一種訂閱內容的格式。它與RSS相比,有更大的彈性。Atom基于XML的文檔格式以及基于HTTP的協議,它被站點和客戶工具等用來聚合網絡內容,包括Weblog和新聞標題等,它借鑒了各種版本RSS的使用經驗。Atom 還希望定義一個標準的檔案文件格式和一個標準的網志編輯接口。
RSS,是基于文本的格式。它是XML的一種形式。通常RSS文件都是標為XML,RSSfiles(通常也被稱為RSSfeeds或者channels)通常只包含簡單的項目列表。一般而言,每一個項目都含有一個標題,一段簡單的介紹,還有一個URL鏈接(比如是一個網頁的地址)。其他的信息,例如日期,創建者的名字等,都是可以選擇的。
XML為傳統出版機構帶來什么
以XML為基礎數據的平臺還為傳統出版商提供了新的創新服務。比如廣告系統,不僅使出版商擴大了品牌,也改善了現金流,而且系統充分考慮了終端用戶的潛在需求功能;如社區網絡、論壇、RSS閱讀等,還有一個完全基于XML的知識創造和傳播環境,建立在一個廣泛的通用技術標準之上,完全可以與其他系統融合,并擴展到新的網絡服務和技術。XML可以讓傳統出版商最大范圍地擴展其內容類型從而超出傳統期刊、書籍數量。基于標準的內容,完全能夠供應各種設備及閱讀終端,包括蘋果iPhone、iPod,亞馬遜的Kindle電子閱讀器等。
基于XML為基礎數據的平臺還提供了完善的在線產品發行功能、按需訂制(POD)、互動交流模式。系統帶來的商業利益主要體現在快速、簡易的內容創建、針對現有內容延伸的贏利模式(比如內容嵌入廣告)而非面向一小部分忠實用戶的訂閱、針對核心內容訂制個性化分析、研究頁面。最終為用戶帶來了全面的個性化內容服務體驗。
XML是由萬維網協會(W3C)推出的新一代數據交換的標準,其在Inernet中的地位已經確立,世界主流平臺迅速在其最新的版本中加入XML的編輯器、解析器。業界對XML的研究與應用正在興起,并在Inernet上迅速發展。國外的各種類型的出版機構在向數字化轉型的時候也清一色地選擇了XML。無論如何,XML的出現使出版業跨入了一個新的階段,并伴隨著互聯網的革命,引領傳統出版業轉型的數字化浪潮。