檔案信息資源是信息資源的基礎性資源,構成檔案信息資源的是一個一個的文件,其類型可分為文本文件、數據庫文件、圖形、圖像文件和視頻文件等。這些種類的文件又有多種不同的格式,僅文本型文件就有諸如.doc、.txt、.pdf等格式。多種格式的存在對各個立檔單位電子文件的歸檔工作造成了很多的困擾,也使檔案館對所接收電子文件的長期可讀性心存疑慮。本文僅就文本型文件的歸檔格式進行探討。
一、國內主要使用文本型電子文件的格式
目前,我國市場上存在多種辦公軟件,國外的如微軟Office、Sun的StarSuite、Corel的WordPerfect Office等,國內的如金山WPS、紅旗中文2000的RedOffice等,它們生成的文檔格式各不相同。微軟Office的格式是.doc、.xsl、.ppt,StarSuite的格式是.odf,金山WPS的格式是.wps 、RedOffice的格式是.sxw。由于微軟在操作系統上的壟斷地位,微軟Office在市場上也處于的優勢地位,據天極網對2005年國內辦公軟件市場主要產品的調查結果,微軟Office市場占有率達到71.22%,金山WPS為14.08%;WordPerfect Office為4.58%;StarSuite為3.15%。另據北京市檔案局2006年9月對市屬單位電子文件歸檔格式進行的調查來看,采用 DOC格式歸檔的為41.67%,WPS格式為5%,XML格式為20%,TXT格式為20%。從調查的情況來看,目前文本型文件歸檔時多種格式并存,且DOC格式占有較大比例,WPS等格式所占比例較小。然而,國標《電子文件歸檔與管理規范》(GB/T18894-2002)推薦的歸檔文件格式為XML、RTF和TXT三種格式,占有率較高DOC格式并不是國標推薦的格式。
二、國內外文本型電子文件格式發展的最新狀況
隨著可擴展標記語言XML在世界范圍內被廣泛關注,特別是自1998年2月XML被W3C推薦標準后,許多辦公軟件的廠商都推出了基于XML的辦公軟件,并采用了一些新的文檔的格式。以下就基于XML的ODF、OpenXML、UOF三種格式和基于二進制方式存儲的PDF格式作簡要的介紹。
(一)ODF(Open Document Format)格式
ODF格式于2006年5月正式被國際標準化組織審核通過成為國際標準格式,標準號為ISO/IEC 26300。ODF格式由OASIS負責制定,它是一種開放格式,可以讓不同程序、平臺之間都自由的交換文件而不需要理會是何種應用程序所產生的文件。目前,ODF文檔格式受到了很多政府機構的青睞,例如美國馬薩諸塞州州政府、德國慕尼黑市政府、新加坡國防部、法國財政部等就率先宣布支持這種格式。
ODF文檔是基于XML語言的純文本文檔。ODF格式的文本文檔的擴展名為?鄢.odt。一個ODF文檔實質上是一個打包的文件,并且通常都經過了zip格式的壓縮。我們完全可以用現有的任意一款壓縮軟件將ODF文件解壓。
以下軟件支持ODF格式:Sun 的StarSuite, Corel的 WordPerfect, IBM 的Workplace,以及國內紅旗中文2000的RedOffice3.0等。微軟雖然不直接支持ODF格式,但近來微軟推出了Office Open XML轉譯器(Open XML Translator),使用者可將Office文件轉換成ODF格式的文件。為了在全球推廣ODF文檔格式, Sun、IBM等公司創建的ODF聯盟。 2006年7月,世界軟件巨頭Google宣布支持ODF格式并加入該聯盟,增強了ODF聯盟的力量。目前Google的在線文書處理程序Writely已經支持ODF格式。
(二)Open XML Format格式
作為全球辦公軟件提供商,2007 Office的正式版本已于2007年1月30日向全球同步發售。除了功能上的提升以外,2007 Office 最引入矚目的是采用Open XML這一新的文檔格式,新格式文件擴展名分別是.docx、.xlsx和.pptx。當前支持Open XML Format的軟件只有微軟2007 Office。長期以來,以往由于微軟在市場上極高的占有率,使它的文件格式成為事實上的工業標準,我國國內軟件廠商雖然有自己的格式,但其格式往往須和微軟的格式兼容。對以往的.doc、.xls以及.ppt格式,微軟一直沒有公開其技術,并希望借助這種方式持續保持其競爭優勢。但是,現在這種形勢發生了微妙的變化。由于ODF成為國際標準,是一種公開的文檔格式,得到了一些政府的公開支持,微軟封閉的格式受到了很大的壓力。為了改變這種狀況,微軟已將其新的格式Open XML Format提交給國際標準組織,希望成為國際標準,但目前尚未被國際標準組織批準。
(三)UOF格式
UOF格式,中文名稱為“標文通”,英文全稱為“Unified Office document Format”,意思是統一的文檔格式。不要以為這是一個舶來品,該格式由國家電子政務總體組所屬的中文辦公軟件基礎標準工作組組織制訂,具有完全的自主知識產權。
UOF規定了包括文字處理、電子表格和演示文檔應用的辦公軟件文檔的結構描述形式,支持不同辦公軟件之間文檔的兼容和互換。
由于UOF格式尚未成為國家標準,目前只有紅旗中文2000的RedOffice3.0支持該格式。由于ODF格式為國際標準,在對待ODF格式的問題上,UOF持有條件支持的態度。其條件包括:ODF應盡量與中國的UOF國家標準報批稿和Microsoft Open XML Format融合,應提供更完善的主流格式的轉換式樣表單;ODF應提供符合W3C Schema的Schema,ODF應盡量采用元素層次結構以利于擴展等。
(四)PDF格式
與以上三種基于XML的格式不同,PDF格式是一種以二進制方式儲存的格式。PDF格式,英文全稱“Portable Document Format”,意思是便攜式文件格式。它是美國的Adobe公司于1993年開發的一種電子文件格式。PDF格式有很多特點,如它不依賴計算機的硬件配置、操作系統和創建文件時的應用程序,能忠實地再現原文,還具有文字檢索和文件審閱等功能,所以PDF格式在國際上被迅速推廣應用。據Adobe稱,目前PDF文檔已經占據了互聯網上所有內容的10%。PDF格式已于2005年被國際標準化組織審核通過成為國際標準格式,標準號為ISO 19005-1:2005。
PDF格式和XML等結構化的文件格式一樣,包含有關鍵字,分隔符,數據等等。不同的是PDF文件是按照二進制流的方式保存的, XML文件則是文本方式保存的,當你打開一個XML文件就能知道所有顯示的文字,而PDF文件不能用文本方式打開。
目前在國際的學術界與高科技業界,PDF格式的應用非常廣泛。此外,在各國政府機構的電子政務領域中,PDF格式也被廣泛應用,包括美國政府、英國政府、德國政府、新加坡政府、臺灣政府、香港 政府、印度、澳大利亞等等。另外一些政府機構也在大量使用PDF,僅在美國的就有:美國聯邦法院、美國太空總署、美國藥物食品管理局(FDA)、美國35個州政府財稅局、美國郵政服務、疾病控制與預防中心、小型企業管理局、人口普查局等等。在我國臺灣的“公文電子交換推廣計劃”中也要求各級機關、學校、事業機構等全面實施公文電子交換,并使用ACROBAT軟件。
制作PDF文件的“官方”軟件為Adobe公司的Adobe Acrobat。微軟的2007 Office和Google的Writely都可以將文檔直接保存為PDF格式。其他軟件如Go2PDF、PDFFactory Pro、WIN2PDF等也可將文檔轉換為PDF格式。PDF文件也可由國產軟件方正Apabi Reader打開。我國金山公司WPS Office 2005辦公軟件宣稱可直接將文件保存為PDF格式。
三、 面對紛繁復雜的文檔格式,
檔案行政管理部門應采取的對策
隨著信息化建設的發展,已有的文件格式很多,新的文件格式也不斷產生出來。檔案部門作為永久保存電子文件的基地,應采取各種措施積極應對這種挑戰。
(一)檔案部門應積極參與我國文檔格式標準的制定
制定一個統一的文本型電子文件歸檔格式標準,對我國的檔案信息化建設極為重要。我國已經開始著手制定《基于XML的電子公文格式規范》,并于2005年發布了國家標準(GB/T19667-2005),該規范包括七個部分,即總則、公文體、顯現、辦理、交換、歸檔、安全等,目前正式出臺了總則和公文體兩個部分,其余包括歸檔在內的五個部分尚未出臺。令人欣慰的是,歸檔的部分是檔案部門承擔的。
在我國制定UOF文檔格式的過程中,檔案部門也應盡可能參加進去。因為電子文件從生成、辦理完畢到歸檔的生命周期中,歸檔是最后的環節。在這個環節要想把整個生命周期中的元數據和背景信息都收集起來是比較困難的。檔案部門應利用我國制定統一的文檔格式的機會,積極向文檔格式的研制單位提出建議,把相關的元數據和背景信息作為文檔的屬性集中統一管理。這樣,在將文件歸檔的同時,也將其元數據、背景信息一起歸檔,便于以后利用時對文件的理解。
(二)文本型電子文件歸檔時采用基于XML的格式和PDF格式同時歸檔的方式
要作為文本型電子文件的歸檔格式,應該符合下列條件:①應該是公開的格式,不依賴特定的系統和軟件存在,能夠在可以預見的時間內被正常讀??;②應該保持文件生成時的排版格式,即使經過辦公軟件的不斷升級,也能輸出同紙質文件一樣的格式;③應該便于數據交換、便于查找和檢索;④應能保證電子文件在處理過程中不被篡改和竊取。
我國國家標準《電子文件歸檔與管理規范》規定文字型電子文件以XML、RTF、TXT為通用格式。如果按照電子文件歸檔格式應符合的條件來看,RTF和TXT格式是不符合要求的。原因是RTF格式不能保證今后可以被長期讀取,而TXT則不能保存文件的格式。如果采用基于XML的格式和PDF格式同時歸檔的方式,則可以符合電子文件的歸檔條件。首先,基于XML的電子文件格式,如UOF和ODF可以滿足條件的一、三、四條,惟一不滿足的是第二條,因為它目前不能保持文件原來的版式。同時采用PDF格式歸檔后,這一條可以滿足了。
電子文件的歸檔又是極為復雜的?;赬ML格式的文件在數據交換方面優勢很大,但目前不能保持原來的版式,而PDF格式的文件則正好相反。所以,兩種格式的文件都應保存。將來如果有符合條件的格式存在,也可只保存一種格式。也許有人擔心PDF是美國Adobe公司的產品,而有些檔案記錄的是國家秘密,我們能夠把記錄國家秘密的技術寄托在一家外國公司身上?其實這種擔心完全不必要,因為PDF成為國際標準的同時,已經公開了其標準的內容。國內任何一家公司都可以使用PDF技術開發各種PDF上的應用,完全可以不依賴于Adobe公司。
由于業務部門不一定配備PDF格式的轉換軟件,PDF的轉換可由檔案部門來辦理。業務部門只要提交基于XML格式的文檔,而且保證該文檔與紙質文檔是同一版本即可,檔案部門將提交的格式批量轉換為PDF。
(三)檔案行政管理部門應重視對XML知識的培訓
XML的出現使原來復雜的任務變得簡單,是解決許多棘手問題的有力工具。如,XML不但可以作為文檔格式,而且可以作為不同數據庫之間交換的媒介,使數據可以在不同數據庫之間進行傳遞;結構化的XML文檔容易附加數字簽名,滿足檔案網絡傳遞對安全性的要求;XML數據與格式的分離,使數據可以不同的方式展現等。XML能夠解決檔案部門關心的數據長期保存的問題。檔案部門在組織計算機培訓時,應該加強這方面的培訓。
作者單位:北京市檔案局