白杰 楊愛臣

XML結構化標引是傳統出版的數字化轉型核心,出版社的圖書或期刊資源只有通過XML結構化轉換,才是真正意義上的數字化出版,才能為實現數字產業化、知識集成化發展打下堅實基礎。
一、傳統出版機構XML數字轉型的必要性
我國2014年6月發布的數字出版統計數據顯示,我國的數字出版產業正處于高速增長階段。另據數據統計,全國584家出版社中有256家有數字出版相關產品,但其中只有102家設有數字出版機構,這些出版社的數字化進程,以大學出版社、科學技術出版社、教育出版社為代表走在前列。雖然發展勢頭良好,但由于類型單一、投資規模不大,沒有出現像愛思唯爾、施普林格那樣的數字出版企業。大多數傳統出版企業的數字出版仍然基于傳統出版模式,即單純的紙質內容數字化或電子化,只是載體形式的變化,而不是產品內容結構的變化,出版社沒有對內容資源進行多媒體呈現與集成化、結構化處理[1]。
結構化是數字轉型的核心,結構化的首要環節是建立數字化標準,知識分類的基本單元不再基于某一篇文章,而是以文章結構以及詞語為基本單元,通過語義標簽對文章進行結構化處理。所以,結構化標準是數字化過程中的重要標準之一,結構化質量的好壞直接影響數字化的水平。
在學術出版領域,各大數字出版廠商和數字圖書館也開始規劃構建用于文獻存檔的XML規范,如NLM DTD、AIP(美國物理學會)、BMC、PlosOne等。
另外,文檔結構化也是出版社實現數字化編輯系統的核心,數字編輯平臺無論是在工作效率上,還是在工作質量上,都遠遠超過傳統編輯出版模式[2]。
二、 XML結構化數字轉型的特點與優劣性
1.XML結構化的幾個重要環節
首先,采用新技術。即對傳統出版資源進行結構化整理,按照語義標準進行分類、存儲。傳統出版的電子版內容資源僅僅是服務、排版與印制,只包含標題、正文等格式控制命令,沒有按照語義標準進行結構化整理,也就無法實現語義檢索與分類,所以要采用新技術,通過XML結構化語言對原始資源進行加工與整理。
其次,改造出版流程。傳統出版機構要大力開展網絡出版業務,或設立完全市場化的數字出版公司。數字化出版可以依托傳統的編、印、發環節基礎,通過新技術改造,加之與互聯網整合形成新的產業模式。隨著產業融合的逐漸深入,在數字化浪潮的推動下,原本嚴格區分的行業邊界會愈發模糊,內容提供商、技術提供商和渠道運營商之間的相互融合會越來越緊密。
最后,出版資源數字版權授權解決方案。由于數字出版具有海量存儲、搜索便捷、傳輸快速、互動性強、成本低廉等特點,已經成為戰略性新興產業和出版業發展的主要方向。數字出版的特點也是數字版權面臨的問題,政府與企業應加快技術創新和標準制定,為版權保護提供有效的技術手段;同時加大對數字版權侵權盜版行為的打擊力度,切實保障著作權人合法權益。
2.XML標記語言的特點
結構化的本質就是為文檔建立一個描述框架,通過標識符使文檔任一部分(任一個元素)都和其他部分保持關聯,關聯的級數就形成了結構。標識本身的含義與它描述的文檔信息相分離。結構化文檔(Structured Document)是由標題、章節、段落、圖表、公式等框架結構組成。
XML正是具備這一特性的擴展性標識語言。XML文檔是由 XML元素組成的,每個XML元素包括一個開始標記(
3.XML結構化優勢與劣勢
XML最初就是為信息標準化所設計,選擇XML作為稿件存儲格式有下述優點:
(1)樹狀層次信息結構存儲稿件的內容,可以方便地提取索引。即按照父子關系節點存儲文檔的內容,可以通過統一的XSL模板對文檔稿件進行批處理,經過結構化的稿件可以方便信息的提取與索引。
(2)完全以內容為中心,從而分離了不必要的格式信息。對于每一篇稿件,XML可以以樹狀信息結構存儲稿件的內容,忽略排版格式信息,從而實現語義層面上對文檔的定義。
(3)只要設計統一的模板即可格式化為單獨期刊具體頁面格式。可以依據各期刊和圖書體例的統一性設計轉換模板,實現XML統一轉換。
(4)有利于資料的共享和標準化。經過轉換的所有文檔,可以方便地建立全文數據庫,實現內容資源的統一管理,實現知識提取、知識比較、知識關聯。并針對選題策劃等各種任務需求實現資源共享,實現個性化、片段化、碎片化出版。
(5)可以方便地轉換為任意的格式,如HTML、PDF 、RTF等格式,實現多渠道出版。
選擇XML作為稿件存儲格式有下述缺點:
(1)出版商要把原有的文獻電子版本轉換為帶語義標記的結構化文檔,要再投入人力物力,增加新的工作量。
(2)中文元素定義不完整。NLM DTD中元素、屬性以及參數實體的定義只滿足于描述英文文獻,如果對中文文獻進行格式轉換還需要擴充元素庫,并且保證元素定義符合兼容性以及顆粒度的要求。
(3)中文符號問題。NLM DTD定義的內容中所有符號均采用UTF—8編碼,因此,所有的中文符號必須經過處理,例如雙字節的逗號、分號、引號、括號、羅馬數字等,都必須轉換成單字節的相應符號。另外,在XSLT進行轉換時,再把單字節符號重新轉換成雙字節符號。
(4)市場上缺少支持中文的、成熟的XML編輯器。
三、XML結構化數字出版技術流程分析
1.查爾斯沃思·中國(The Charlesworth Group )案例
查爾斯沃思的XML排版,是使用集團自主研發的自動轉換軟件(包括AutoProof)及Arbortext Advanced Print
Publisher (3B2),該軟件能為客戶提供包括全文SGML、XML、HTML、網絡版PDF文件及圖片在內的各種電子文件。
其工作流程為先從客戶端接收文檔文件,然后通過轉換軟件轉換為XML格式文件,再通過模板控制的平臺進行結構化排版,經過一次性加工完成,內容可重復利用,適應多種傳播媒介,覆蓋讀者面廣,節約成本。其 XML工作流程如圖1所示。另外還有短期解決方案,是在原有流程上增加轉換步驟,優點是不需要改變現有的生產流程,缺點是費時費力,要根據不同平臺的要求重新制作文件,容易造成新的錯誤。優點是專業性強,缺點是價格偏高,大約$15—30 /頁。
2.北大方正、瑪格泰克數字出版流程分析
北大方正的書暢系統是以多媒體資源庫為中心,面向作者和編輯使用,實現結構化內容的編纂、審校、管理和動態出版的全流程數字化出版生產系統解決方案,支持出版社、期刊社數字內容加工的出版流程。整個系統平臺在文稿的創建、協同創作、系統配置、控制和發布5個環節全面支持XML結構化數據標準,支持從內容源頭開始的基于內容對象的數字內容創作,可生成多形態數字終端產品(如PDF、EPUB等),實現內容一次制作多元產品發布功能。
該系統通過生產管理平臺、模板設計、動態發布引擎、智能化客戶端、交互式編排軟件等模塊,實現從出版任務管理→交互式版式設計→基于XML技術的隱式結構化標引→多格式的內容發布等操作環節。該系統優點是可以處理期刊和圖書等多種出版物,在出版過程中構建編輯部、作者以及排版公司之間的協同與合作,有效完成收稿、編輯加工以及排版等核心業務;缺點是價格偏高,大約10萬元/套,多刊購買可以優惠。
瑪格泰克稿件處理(論文采編)系統是期刊行業的主要平臺之一,為出版社、期刊社推出了整體的解決方案。目前已經在遍布全國的1600多家雜志社、十幾家出版社得到應用,研發了元數據提取服務,用于網刊發布系統。完成了從方正書版排版結果(FBD文件)、word文件和Latex排版文件中,自動獲取每篇文章的基本元數據和擴展元數據,并可以自動發布到網刊系統,并實現參考文獻的自動連接,同時自動生成Pubmed、Linkout、 XML數據。對非Magtech 的網站系統,其元數據自動提取系統可以形成Excel文件和XML文件,用于一鍵式發布。優點是專業性強、價格適中,約1500元/期,缺點是處于起步階段,有待上升到產業規模。
瑪格泰克制作流程首先是原文轉換,目前支持 word(doc/docx)、方正書版小樣文件(fbd),其次是CHTML結構化,用于檢查生成的XML文件的準確性,主要是參考文獻的準確識別、文中引用的識別和標記,圖表的處理等。其結構化流程如圖2所示。
四、XML文檔結構化規范
1.NLM DTD與中文擴展
NLM DTD包含3個規范:Archiving Tag Set(文獻存檔標簽集),Journal Publishing Tag Set(期刊出版標簽集),NCBI Book Tag Set(圖書標簽集)。目前,最廣為接受的是Journal Publishing Tag Set[3]。
其他的數字出版廠商也發布了各自的文獻XML描述規范,例如AIP(美國物理學會)、BMC、PlosOne等,經過比較,大家普遍認為NLM DTD在標簽定義的規范性、整個體系的完整性以及普適性等方面具有非常大的優勢。因此,雖然最初是為生物醫學文獻而設計的NLM DTD,也逐漸被其他領域的學術文獻出版機構和存檔機構所接受,例如BMJ、PNAS等。
NLM DTD中定義了235個元素,127個屬性,557個參數實體,這些內容足于描述英文文獻的全部內容。但對中文來說,還不夠,還需要進行擴充,擴充原則是首先盡可能兼容NLM DTD,其次是顆粒度盡可能小。
中文元素標簽,統一在對應的標簽前加Vernacular。例如
2.元數據自動提取
是指利用計算機軟件,采用模式識別智能算法,從排版后的最終文件中自動、準確提取期刊所有文章的元數據,并形成各種可重復利用的結構化數據文件,如Excel、XML文件,并可以一鍵發布到網刊系統,在網刊的基礎上,形成各種個性化的應用文件,如Linkout、 XML文件等。
文字處理文檔包含輸入的文本、圖形和表格。文檔轉換為結構后,其中的每個組件和用于驅動發布過程或控制格式的特定信息,都可以被識別。文檔各部分成為 XML 元素,并當作數據庫中的字段處理(可以被定位、被排序、用于檢索以及進行其他操作),還可以根據上下文嵌套它們的父元素或文檔樹中在它們層次之上的元素(祖先)。
3.文檔的處理方法
分析現有文檔內容,并確定文檔暗含的結構。例如,某一篇論文文檔可能包含文本章節、插圖、表格、程序、參考文獻屬性等。文本可能分為標題、作者、單位、內容摘要、主體段落、列表和重點短語。
(l)版面分析、規范處理。先對刊物進行版式特征識別。如:位置、字體、字號、顏色、輔助信息、版式風格等,輔以語義分析,提取版式數據的邏輯結構,將無序、無結構的數據,組織成有序、有結構的數據。例如,從期刊版面中提取必要的文字和排版信息,自動判定排版方向、合并正文塊,自動還原正文閱讀順序,自動關聯附圖與圖注、附表與表注。
(2)文檔結構分析、字段提取。首先對刊物進行文檔特征提煉。在此基礎上,分析文章或章節結構,生成各期目錄列表,以及文章標題層次信息。期刊字段包括標題、作者、作者單位、內容摘要、關鍵字、文章編號、參考文獻、基金項目以及作者簡介等,自動完成字段的標引。
(3)分類集成、詞語索引。建立刊物的詞典,對文章以及知識點進行分類匯總,實現基于內容的數據挖掘。包括自動歸類、語義標引、專業術語校對等。
標記一個論文(部分)的例子:
< SubmitDate >投稿日期< /SubmitDate >
< DocTitle >
< DocTitleCn >面向創新人才培養的教學改革探索