趙 芳
摘要:文章從分析目前文檔格式現狀入手,在綜合國內外研究成果的基礎上提出長期保存文檔格式選擇的標準,并對PDF格式與基于XML的格式進行了比較,認為基于XML的格式更適合作為長期保存文檔的格式,
關鍵詞:長期保存;文檔格式:標準
1文檔格式現狀
長期以來,文檔格式因微軟公司最早占領辦公軟件領域而被“.doc”、“.xls”和“.plat”等事實標準所壟斷,目前全球大概90%以上的文檔都是采用微軟Office的格式存儲,微軟的Word成為最為常見的電子文檔格式。但由于該格式屬微軟公司私有,其隱患是該格式文檔擁有者有可能因版本升級或其他原因,喪失對自己文檔的處理能力,這對文檔擁有者甚至政府部門都存在著喪失讀取和修改的安全隱患。為此,國際上改變前辦公軟件相互封閉、文檔格式互不兼容的努力如火如荼開展起來,由Sun、IBM等36個成員創建的ODF fOpen Document Format)聯盟在全球推廣ODF文檔格式。2006年5月初,ODFJE式被國際標準化組織(簡稱ISO)認可為文檔格式的國際標準。Word因其應用的廣泛性,ODF因其的開放性,這兩種文檔格式目前成為電子文檔的主要格式。然而,這兩種格式并不適于長期保存。
Word格式不適于長期保存主要原因有二:其一,Word是二進制的,即人不可讀的形式。沒有匹配的讀取軟件不能把文件內容從Word文檔中提取出來。其二,Word是私有格式,前邊已經談過私有格式的危害。盡管后來的ODF格式克服了Word格式的上述兩個缺點,但作為文檔處理軟件生成格式的固有弱點,它仍不適于長期保存。究其原因,也主要有二:其一。該格式主要是描述文件外觀而不是結構。對于長期保存來說,文件的紙張大小、頁面、字體等外觀問題不甚重要,而對于文件被劃分為幾個部分、各部分之間的關系等結構問題對理解文件內容來說很重要:其二,該格式是扁平式的,即文件由標題和段落按順序構成。而長期保存需要保存每個章節段落的深層次結構以及內部嵌入的內容。因為這種深層次的結構有助于結構檢索和查詢及文檔格式轉換。
鑒于此,為了長期保存這些電子文檔,我們需要把它們轉換成適于長期保存的格式。
2選擇文檔長期保存格式的標準
長期保存文件不管是因其情報價值還是因其憑證價值,總而言之是為了利用。所以,要從利用的角度來分析保存文件的要求。另外,我們要利用的是真實可讀的文件。這里的利用不僅是單純的使用文件,它還應該包括文件的真實性、可讀性的維護。所以我們在討論保存格式問題要以保護文件的真實性和可讀性人手。
Jacqueline Slats在“辦公格式數字保存實踐”中提到了保存文檔的五個基本需求:其一,在背景方面,要求記錄組織背景,如名稱、活動過程、日期、與其他文檔的關系、保存日志、原始文檔與現存文檔的關系、版本及名稱、保護過程:其二,在內容方面,所有文檔內容都要保存下來,純文本內容要保持永久可讀:其三,在結構方面,為重現文件內容間的邏輯聯系必須保存文檔的結構,如章、節、段落的次序,包括評論和腳注及插圖的正確位置:其四。在外觀方面,在不影響表達原始文檔意思的前提下,保存的外觀可以不必與原始外觀完全相同:其五,在效用方面,對有效連接的著錄必須要保存下來,現行效用和內容的更新部分不必保存但致使內容變化的效用的證明必須要保存下來。
Frank Moehle對數字保存提出下列五項要求:一是整體性(無損壞、安全存儲);二是可理解性(能理解文件背景和內容);三是原始性(數據結構和外觀);四是真實性(作者、來源和證據的真實);五是可利用性(可讀、可利用)。
除了上述保護文件本身特點的需求外,還需要考慮為了應對技術挑戰帶來的軟硬件升級更新文檔格式需要進行不斷地轉換問題。所以,長期保存格式必須選擇能夠而且易于轉換的文檔格式。
面對紛繁復雜的文檔格式,到底應該如何選擇長期保存的文檔格式呢?Frank Moehle在“文檔格式在數字保存的角色”中對文檔格式提出的八項要求是:(1)格式所用的語言及語法規范是公用的:(2)得到類似ISO這樣標準化組織認可:(3)已被廣泛地認可及使用;(4)免費的使用權;(5)無加密技術;(6)無壓縮技術;(7)自帶說明書;(8)不依賴任何存儲介質。
Micheal Lesk在“數字化保存——新的需求及挑戰”一文中也闡述了選擇保存格式的一些標準:(1)內容層而非顯示層的描述,這會簡化轉換工作:(2)足夠的解釋空間,提供檢索和分類所需的信息;(3)開放的,任何人都可以免費使用;(4)可解釋性,任何時候人都可讀。
劉家真教授也曾論述過文件保存格式的選擇問題,她提出了9條原則:(1)該格式能在不同的環境下使用;(2)該格式應是通用的、非專用的格式;(3)支持數據從專用格式的環境中移出;(4)最好選用標準格式;(5)挑選被業界或用戶廣泛支持的格式;(6)可擴展性:(7)可真實完整地被用戶讀出并理解;(8)具有自身的可證明性;(9)具有可評價性。
以上學者都從不同角度、側重點提到了或簡單或詳細的文檔保存格式選擇的原則。為了正確或是輔助選擇長期保存的文檔格式,荷蘭國家圖書館進行了文檔保存格式選擇的標準研究。該研究中提到了7條評價文檔長期保存格式的標準,按其權重排列:(1)開放性(24%);(2)依賴性(24%);(3)采用性(21%);(4)復雜性(10%);(5)技術保護機制(10%);(6)耐久性(7%);(7)自我記錄性(4%)。
綜合以上觀點,我認為長期保存文檔格式選擇標準可從以下幾個方面考慮:
(1)開放性。包括公開源碼、免費使用。只有開放的文檔標準才能實現不同版本間文檔格式的互通,確保文檔在不同系統之間有效、自由地實現互操作,更適合長期保存文檔的轉換格式需要。
(2)廣采性。即保存格式應是被廣泛采用且得到標準組織認可的。這樣的格式有利于推廣,并且為多種軟件開發商所采用,使文檔很容易制作和保存。從長期保存的觀點來看,也易于為其編寫轉換格式,集體轉換文檔,這樣一方面減輕長期保存的經濟壓力,另一方面還能減少文檔格式轉換造成丟失數據的風險。
(3)無依賴性。即保存格式不依賴任何軟硬件。這樣可大大減少管理程序與管理費用,便于資源共享,更重要的是有利于減少文件長期保存中數據丟失的風險,不依賴任何加密、壓縮等技術。換句話說,格式中不允許有加密和壓縮這樣的設置,因為加密
的文檔在長期保存過程中不利于轉換;壓縮的文檔容易損壞,且一旦損壞無法彌補,因而也不利于長期保存。
(4)可解釋性。即保存格式不應該是二進制的,而是人可讀的純文本形式。這樣即使格式軟件不存在了,原始文件內容和標記也仍然可被人識讀。且有足夠的解釋空間,能允許提供大量的元數據來滿足說明文檔的需求,也方便以后的格式轉換。
(5)結構化描述性。也可以稱作立體式描述。也就是說,格式要盡量揭示文件內容,而不僅是顯示文件的外觀。這樣既可以反映文件內容間的邏輯聯系,又便于格式的轉換。
3長期保存文檔格式的選擇
目前各檔案館及圖書部門選擇的長期保存文檔格式主要有兩種:即PDF格式與基于XML的格式。
PDF(Portable Document For,mat、文檔是Adobe公司開發的一種文檔格式。該格式的最大優點在于能如實地保留原有文件的內容與外觀。而且容易生成,既可用Adobe Acrobat軟件,也可用MicrosoK Word和OpenOffice.orgWriter,它們都具有PDF的輸出功能。此外,PDF還具有支持聯機、安全、交互式使用等優點。這些優點足以促使那些文檔保管單位積極采用PDF作為主要的文檔保存格式。
XML(Xtensible Markup Language)“可擴展標識語言”,是一套定義語義標記的規則,這些標記將文檔分成許多部件并對這些部件加以標識。它也是元標記語言,即定義了用于定義其他與特定領域有關的、語義的、結構化的標記語言的句法語言。XML最大的優勢在于對各種數據的管理。任何系統都可以通過XML的解析器來讀取XML數據,因此它的數據可以通行各處,而不用擔心系統不支持的問題。基于XML的格式也是一種理想的文檔保存格式。首先它是開放的標準;其次,它使用標準的文字編碼,能描述任何語言、任何事物;再次。它基于純文本。這使它能長期被識讀。XML的這些優點均有利于真實可靠地長期保存文檔。
到底哪種格式更適合文檔的長期保存,Jacqueline Slats對這兩種格式的優缺點進行了如下比較:
兩者相比較而言,在長期保存文檔方面,PDF不如XML適合保存文檔,因為它的三項缺點對文檔的長期保存來說都是致命的。此外,PDF的缺點還包括版本間的不兼容問題。
雖然PDF/A是基于PDF1.4開發的,它試圖通過一系列規定限制來克服PDF的上述缺陷,并已成功地躋身國際標準成為電子文檔長期保存格式標準。一方面,這是Adobe公司在開放性方面取得的進步:但另一方面,從根本上來說,PDF的公司所有的私有屬性并不能改變。而且,如果把PDF中的一些特性如禁止加密、批注、禁止植入其他類型文件等通過限制的政策而剔除的話,PDF本身所特有的優勢也就大打折扣了。此外,其版本兼容問題仍然成為它繼續發展的桎梏。
可以與PDF/A競爭的另一格式是基于XML的XHTML和DocBook。
熟悉XHTML的人很多,這里只簡單介紹一下DocBook。它是一個由SGML或者XML文檔類型定義(DTD)的標記語言。簡單地說,DocBook是一套描述文檔結構的標簽,它能將文件內容與文件樣式信息分開處理(如字體,顏色)。DocBook從1991年開始創建,目前經歷了四個主要的版本,已成為OASIS采納的標準。除了擁有XML所有的優點外,DoeBook的可移植性非常值得稱道,而且是一次輸入、多種輸出。一個用DocBook標記語言寫的文檔能夠快速簡單地轉換為HTML、PostScript、PDF、RTF、DVI以及ASCII純文本。DocBook以及所有配套DocBook使用的工具都是在開源授權下供自由使用的。DocBook的另外一個優勢是能把作者從對文檔的排版和格式的擔心中解脫出來。所以,DocBook不僅適于長期存儲文檔,也適合編輯文檔。
綜上,在電子文檔長期保存格式的選擇時,我們要從保存需求分析人手,根據保存格式的選擇標準,綜合分析各種格式的利弊,最終選擇最適于長期保存的文檔格式,以保證電子文檔的真實性和長期可利用性。
參考文獻:
[1]BARNES,L.Preservation of wordprocessing documents.
Australianartnership for Sustainable Reposi-tories,2006.URL:http://www.apsr.e-du.au/publications/preservation ofword_processing_documents.html.
[2] Jacqueline Slats,Practical expe-riences of the digital preservationtestbed:Office formats in Proceed-ings of the conference "File formatsfor
preservation" ,Vienna (2004).URL:http://www.erpanet.org/event s/2004/vierma/presentations/erpaTr-ainingVienna_Slats.pdf.
[3]Frank Moehle, The Role of FileFormats in Digital
Preservation:Opportunities and Threats,http://www.erpanet.org/events/2004/vien-na/index.php.
[4]Michael Lesk,Preserving digitalobjects:Recurrent needs and chal-lenges in Proceedings of the 2ndNPO Conference on MultimediaPreservation,Brisbane (1995).URL:http://www.lesk, comJmlesk/auspres/aus.html.
[5]劉家真,文件保存格式與PDF文檔[J],檔案學研究,2002(2)。
[6]Caroline van Wijk Judith Rog,Evaluating file formats for long-term preservation.URL:http://rdd.sub.uni -goettingen.de/conferences/ipres07/.
[7]ERPANet,ERPA Advisory(2004).URL:http://www.erpanet.org/adviso-ry/list.php.
[8]宛玲,電子文檔長期存取的跨媒體開放文件格式[J],中國圖書館學報,2007(3)。