圖書館文本資源數字化加工標準研究及其應用

2014-02-12 15:41:35國家圖書館北京100081

圖書館建設 2014年3期

龍偉（國家圖書館北京 100081）

文本資源是數字圖書館資源建設中最主要、最基礎的資源類型。讀者在圖書館使用圖書、報紙、雜志、報告等文獻，主要是為了獲取文本內容。就目前來說，現代信息技術對文本資源的處理是最為先進和完善的，比圖像、音頻、視頻信息領域的技術發展更加成熟和穩定。文本資源在信息檢索、內容挖掘、資源共享等各方面都具有顯著的優勢。

1 圖書館文本資源數字化加工現狀

圖書館針對文本資源數字化加工形成更為有序的信息內容，使文獻信息價值更加顯著和突出。伴隨著信息技術的發展，文本資源數字化加工方法有很多，采用不同標準，各有所長。同時，標準多樣性和復雜性又制約了文本資源數字化的發展。

1.1 國內外信息機構文本資源的數字化加工

國外圖書館在文本資源加工方面開展較早，通過多年的交流和合作，圖書館、各機構之間相互借鑒和協調。美國國會圖書館的美國記憶項目[1]、澳大利亞國家圖書館藏品數字化項目[2]、哈佛大學圖書館數字化工程項目[3]針對文本資源數字化加工制定了適用的標準和技術體系。美國國會圖書館的文本編碼指南為圖書館不同目的的文本數字化項目提供了最佳實踐建議[4]。該指南制定了5個不同的編碼級別，使建議盡可能全面，以適用于不同的實際操作，包括全文自動的文本創建和編碼，以及需要專門內容知識、分析、編輯的編碼內容。此外，不少圖書館及信息保存機構還進行了跨機構合作，美國的FADI（Federal Agencies Digitization Guidelines Initiative，聯邦政府機構數字化指南計劃）制定了用途更廣的一系列資源加工的標準，這使得不同機構的文本資源數字化加工可以更緊密地合作[5]。

我國圖書館文本資源數字化加工已有10多年的歷史，其加工和保存的技術方法有很多。早期文本資源數字化加工以圖像轉化為主，在此基礎上我國探索了數字圖書館資源建設標準，如中國數字圖書館標準建設項目（Chinese Digital Library Standards，簡稱CDLS）[6]、大學數字圖書館國際合作計劃（China Academic Digital Associative Library，簡稱CADAL）[7]。我國在實施這些項目的過程中，積累了大量的文本資源數字化加工的經驗和成果。在商業機構中，以北大方正和清華同方為代表，他們在這方面進行了卓有成效的實踐。方正電子書目前已在全球3 000多家學校、政府機構應用。清華同方《中國知識資源總庫》已擁有國內8 500種期刊、700多種報紙和來自1 600家機構的學位論文和會議論文[8]54-60。在電子文件格式和元數據方面，各公司自行研制數據加工規范。

1.2 文本資源數字化加工的局限性

隨著文本資源數字化應用需求的不斷增長，文本資源類型和數量發展迅速。同時，文本資源數字化加工存在的問題也就凸現出來。

1.2.1 缺乏文本資源數字化加工項目可持續發展規劃

文本資源數字化加工項目通常是依據本單位的加工規范或幾個合作機構之間臨時制定的加工方案，故其加工規范表現出較強的專用性，而這樣的規范常常立意高度不夠，故在內容編碼、數據格式、元數據方案、質量控制等方面缺乏全面考慮，造成同一個機構的不同文本資源加工項目遵循的標準不一致，給文本資源的長期保存、利用帶來一定的挑戰。

1.2.2 缺乏系統性、可操作性的標準

由于歷史、地區的原因，文本資源加工轉化時采用的標準不同。不同的編碼標準互不兼容，不同標準下處理過的信息不能通用。雖然數字圖書館前期對文本資源的圖像化做了很多研究和實踐，但針對文本資源的不同來源、不同形式、不同載體資源建設工作的指導需求，缺乏系統的、可操作程度高的標準。

1.2.3 缺乏體系化的標準

數字圖書館建設需要資源加工和管理標準體系化。文本資源與數字圖書館其他類型資源（如圖像、音頻、視頻等）的加工標準沒有形成體系化，標準間不能相互協調、配合，導致依據不同標準加工的數字資源可以獨立使用，但在數字資源整合時不能調用全部資源對象，造成應用障礙。

2 圖書館文本資源數字化加工標準研究的重要性

數字圖書館是一個不斷發展的概念，隨著數字圖書館的范式演變，文本資源數字化加工過程中的標準問題顯得越來越重要。

2.1 制定文本資源數字化加工標準的意義

文本資源的內容編碼和數據格式在國內外都有人研究，并相繼成為正式頒布的標準或事實應用標準。從標準層面來說，它們支持不同的應用，各有千秋，但往往不能相互兼容。隨著我國數字圖書館的發展，標準化已經成為我國數字圖書館建設中的薄弱環節和最突出的問題。當前，為滿足文本資源建設和服務的需要，指定一個通用的文本資源數字化加工標準十分必要。文本資源數字化加工標準的研制，有利于控制圖書館信息資源數字化質量，避免重復加工，節省投入，提高信息資源的共享能力，同時有利于與國際接軌，其現實意義巨大。

2.2 文本資源數字化加工標準的研制

2012年，全國圖書館標準化委員會委托國家圖書館牽頭并召集上海圖書館、北京大學圖書館、中國科學院文獻情報中心、首都圖書館、浙江大學圖書館、漢王科技股份有限公司、北京方正阿帕比技術有限公司研制國家標準《圖書館文本資源數字化加工規范》。該標準是針對一般印刷型文獻或其經過數字化轉換后的圖像文件進行的文本資源的數字化加工制定的，涵蓋了文本資源數字化加工的級別及內容編碼、加工準備、資源采集與處理、元數據加工、文件規則、質量管理等方面的內容。在聯合、開放、合作、共享的機制下，研究成果更具備開放性、可靠性和廣泛的應用性。

2.3 文本資源數字化加工標準解決的問題

研究文本資源數字化加工標準的目的是解決文本資源數字化加工過程中的通用性、操作性、開放性問題。

2.3.1 通用性問題

文本資源數字化加工標準或方法只有符合國際上的通行標準、事實標準或通行做法，才不會在國際交流中產生問題，從而保證一定的互操作性。在信息資源全球互通的大環境下，如果過于強調中國特色、閉門造車、拒絕國際通用標準，就無法在國際標準環境下生存。

通用性有利于對文本資源數字化加工標準進行質量控制，一方面，能夠借此建立起統一的質量體系和衡量標準；另一方面，具有通用性的標準會有更多的軟硬件支持，我們可以很容易地利用一些實用工具來幫助控制質量或改善品質。

2.3.2 操作性問題

首先，數字資源建設是一個勞動密集型的行業，雖然其對工作人員具有相當的知識要求，但大量的基礎工作不能要求一般工作人員都具備應付復雜工作的能力，過于復雜的標準和處理過程也不利于品質的控制。標準操作的難易程度要符合工作人員的實際能力和技術水平，使一般工作人員經過短時間的培訓就能夠操作。

其次，從發展趨勢看，文本資源應用的范圍更廣泛，互聯網、移動終端、數字電視都支持文本資源的應用。文本資源數字化加工標準實現了統一操作，使異構平臺加工的數字資源可以滿足多種媒介的服務。

2.3.3 開放性問題

數字圖書館的資源是各國乃至全球的知識信息寶庫，在資源建設時應采用盡可能開放的數據格式。文本資源數字化加工標準給出的內容編碼和格式編碼，從中文信息處理和數字資源交換共享的兼容性考慮，應避免數字圖書館資源建設受制于個別公司、組織的技術壟斷或是因為公司、組織的倒閉或變更導致缺乏必要的技術支持。

3 圖書館文本資源數字化加工標準的應用分析

3.1 文本資源的特征

文本是以字符、符號、詞、短語、段落、句子、表格或其他字符排列形成的數據，用于表達意義，其解釋基本上取決于讀者對于某種自然語言或者人工語言的知識[9]。文本是計算機表示文字及符號等信息的最基本的數據類型，一直以來，文本都是人和計算機交互的重要方式。文本資源是文本的表現形式。文本資源的提供方和獲得方都應具備一定的文字或符號的識別和表達能力，在相同的文字或符號體系下通過對字符的識別和表達進行信息交流[10]。文本資源由文本表示屬性及格式信息組成。其中，表示屬性包括字體大小、字體類型、字體格式（加黑、斜體等）、字體定位排版等，格式信息包括標題、段落和間距等信息。文本資源可以有邏輯結構，如一本電子圖書，信息可以邏輯地組織成內容摘要、章、節、術語表、索引等。其結構由文本包含的信息類型決定。

3.2 文本資源采集方式

大多數文本資源制作依靠計算機鍵盤錄入。通常，創建數字文本效率不高，但這是一種較為普及的字符輸入方法，適合處理字體過小、圖文模糊、版面復雜的文獻。但圖書館所擁有的浩如煙海的文獻大都是存在紙質媒介上的，因此我們必須先把印刷文獻轉換成電子格式，通過圖像技術記錄和保存原始文檔的外觀、結構和內容，再轉換為文本資源。圖像光學字符識別是這一轉換過程運用的主要技術。

3.2.1 文本錄入

計算機錄入是廣泛使用的文字轉換方法，用于文獻原稿重新錄入，并手工增加標記。這種方法通常比自動識別加人工校對的費用低。文本資源轉換最大的項目之一是美國國家數字圖書館項目（The National Digital Library Program，簡稱 NDLP）[11]。

文本分為結構化和非結構化數據，因此對文本錄入應有一些要求：制作結構化數據，應忠實于原稿信息，保留原始文獻中的字符、文字變體等版式信息；而非結構化的文本數據制作，則應按照內容的邏輯順序進行錄入，強調字符、數字、標點、各種可打印的符號的準確性和完整性，可以忽略版式信息，如一個表格或者分欄的文本應以單元格或欄目順序進行錄入，而不是逐行錄入。

3.2.2 掃描或照相采集

圖像感光技術（Charge-Coupled Device，簡稱CCD）、圖像傳感技術（Complementary Metal Oxide Semiconductor，簡稱CMOS）等成像技術是掃描儀或照相機獲取信息運用的采集技術。圖像采集技術將文字、符號等各種信息都看成圖像，因此可以準確地再現文獻實物的外貌。在實際應用中，圖像采集必須與光學字符識別技術結合使用，將圖像轉換成計算機可識別的ASCII碼（American Standard Code for Information Interchange，美國標準信息交換碼），通過標記文本和字符尋找到指定的文字信息。

3.2.3 光學字符識別

光學字符識別（Optical Character Recognition，簡稱OCR）是一種自動識別掃描儀、照相機等采集的圖像中字符的技術。其基本技術是先由計算機程序將單個字符個體分離，然后將它們與精確的模版進行比較，從而識別并轉換圖像信息中的字符[10]。OCR技術識別字符的準確率與圖像采集質量有直接關系，出錯率隨原稿的可辨認程度而不同。圖像質量受圖像清晰度、噪點、色彩等因素影響。在一般印刷型中文圖書、報刊的采集分辨率達到300dpi、英文等其他語種采集分辨率300dpi的情況下，文字字符識別的正確率可達到95%以上[8]27。

3.3 文本資源格式加工系統

3.3.1 標記語言格式加工系統

HTML（Hypertext Markup Language，超文本標記語言）和XML（Extensible Markup Language，擴展標記語言）是標記語言主要的數據文檔格式。

HTML文檔可利用網頁編輯器創建和查看內容信息，使用Internet Explorer瀏覽器顯示文本、圖形和其他的任何內容，并可用專門的Notepad 或 Text Edit 等制作工具進行編輯。

專業的 XML 編輯器會幫助編寫無錯的 XML 文檔，根據某種 DTD（Document Type Definition，文檔類型定義）或者 schema（一般指XML架構）來驗證 XML，以及強制創建合法的 XML 結構。可用的編輯器有基于Windows平臺的專業XML writer以及Easy XML和專門用來修改、編輯XML文件的工具——XML Blueprint XML Editor。當然，也可以通過一些軟件把其他文件格式轉換成XML格式，如把PDF（Portable Document Format，便攜式文檔格式）文件內容存成XML的Adobe Acrobat外掛插件或利用Adobe Acrobat編輯器的批處理命令，通過JAVA Script代碼將PDF轉換為XML。

3.3.2 純文本格式加工系統

純文本格式由可打印的字符組成，可以直接閱讀和理解其形式，沒有任何文本修飾。文本格式的加工和編輯系統在Windows操作系統環境下，除了系統自帶的Notepad記事本以外，有字處理器（如微軟的Word）可進行帶有版式的文字編輯；文本處理器（如Simple Text）則是一款簡單的、用于ASCII碼的字符編輯器。在DOS環境下，使用最廣泛的是EDIT文本編輯器，通常是用命令行方式編輯一些程序和批處理文件。

3.3.3 便攜式文檔格式加工系統

PDF由Adobe公司開發，是一種用于文檔交換的電子文件格式。這種文件格式的應用與操作系統平臺無關，也就是說，PDF文件不管是在Windows、Unix還是在蘋果公司的Mac OS等各種操作系統中都是通用的。這一特點使PDF文件成為在互聯網上進行電子文檔發行和數字化信息傳播的理想文檔格式，越來越多的電子圖書、產品說明、網絡資料、電子郵件開始使用PDF文件。PDF能保留文件原有格式（Layout），是一個開放的國際標準。

PDF文檔需要通過Adobe Acrobat Reader來閱讀。PDF的電子圖書可以使用Adobe Acrobat軟件來制作和編輯，也可以通過Adobe Acrobat軟件把PDF文件內容存成XML格式、HTML格式或TXT純文本格式。

3.4 文本資源內容編碼及應用

內容編碼涉及具體數據內容的計算機編碼形式和標記形式，是制約數字信息可實用性乃至可持續性的最基本條件[12]。

3.4.1 ISO/IEC 10646及GB13000

ISO/IEC10646也稱大字符集。該標準規定了全球現代書面語言文字所使用的全部字符的標準編碼，用于世界上各種語言文字、字母符號的數字化表示、傳輸、交換、處理、儲存、輸入及顯現。在ISO/IEC10646中，中日韓編碼漢字簡稱CJK。CJK由三部分構成，基本級收錄20 902個漢字，擴充A有6 582個漢字，擴充B有42 771個漢字，漢字編碼超過7萬個漢字。

GB13000《信息技術通用多八位編碼字符集（UCS）第一部分：體系結構與基本多文種平面》是我國的國家標準，與ISO/IEC10646相對應。該標準的漢字編碼空間巨大，可以容納多種文字編碼體系，是我國編碼體系未來的發展方向。它編入了20 902個漢字，收集了大陸一二級字庫中的簡體字、臺灣《通用漢字標準交換碼》中的繁體字，基本涵蓋了日文與韓文中的通用漢字，滿足了方方面面的需要。

長期以來，各種漢字內容編碼互不兼容，使得中文文字編碼呈現多樣性的特點。由于內容編碼是數字資源建設最基礎的問題，因此它的多樣性和混亂會給數字資源建設和應用過程帶來一系列嚴重且無法逆轉的問題。但是，隨著ISO/IEC10646及GB13000的推進，中、日、韓多語種及少數民族文字使用等問題得到重視，兩個標準在漢字系統的應用中發揮了重要作用。

3.4.2 Unicode

Unicode（統一編碼）是公司聯盟制定的工業標準。Unicode3.0與 ISO 10646-1:2000的內容、編碼與命名完全相同。1991年10月，兩個標準的制定者達成協議，采用統一編碼字符集。當然，兩個標準在細節上有一些差別，如Unicode提供漢字部首/筆畫索引，ISO10646不提供。在現實應用中Unicode被稱為ISO10646的實踐版。因此，支持統一編碼的產品亦支持 ISO10646 國際編碼標準。Unicode有多種傳輸格式，常見的有UTF8、UTF16、UCS-2、UCS-4等。2013年9月，Unicode 6.3版本推出。

Unicode對我國的貢獻是解決了簡繁漢字的統一處理與跨操作系統的自由信息交換問題，同時也解決了漢字與少數民族文字統一處理的問題[13]。在圖書館、信息機構中，有很多數字化項目、商業數據庫采用Unicode編碼，如國家圖書館數字方志，其涉及大量繁體字、異體字轉換，為保證異構平臺的加工和應用，規定統一使用Unicode編碼。

3.4.3 ASCII碼

ASCII碼是信息處理領域最基本的字符編碼，主要用于顯示現代英語和其他西歐語言。ASCII碼共定義了256個代碼，其有兩種形式：標準形式和擴展形式。標準ASCII碼也稱基礎ASCII碼，共有128個字符，包含所有的大小寫字母、數字、標點符號及在美式英語中使用的特殊控制字符。后128個字符稱為擴展ASCII碼，用于特殊符號字符、外來語字母和圖形符號的編碼。

無格式控制的純文字文件是最簡單的文檔。其實說純文本也不盡然，其文字編碼方式、空格、換行都是格式問題。不同系統對換行標志的不同規定給純文本文檔的轉換帶來了麻煩。MacOS系統采用的是回車符（ASCII碼13），Unix系統采用的是換行符（ASCII碼10），而DOS和Windows系統則在每行的結尾加上換行和回車兩個字符。但對于純西文字符、符號、數字處理，采用ASCII碼進行編碼是最佳選擇。

4 圖書館文本資源數字化加工標準的發展

文本資源數字化加工標準的研制將有益于數字圖書館建設。在對其的實際應用中應該注意以下幾點。

4.1 文本資源數字化加工標準的適應性

國際標準化組織將“標準”定義為“由一個公認的機構制定和批準的文件。它對活動或活動的結果規定了規則、導則或特殊值，供共同和反復使用，以實現在預定領域內最佳秩序的效果”[14]。筆者認為，標準是宏觀層面的規則。在具體應用中，標準內容與實際要求特別是細節處理的需求存在一定差異。當“標準”給出的選擇比較寬泛的情況下，如有多種內容編碼和格式編碼，應根據建設目的，做適應性、理性的選擇。

4.2 文本資源數字化加工標準的實用性

標準既來自于實踐的需要，同時也是長期實踐經驗的總結。文本資源在數字化加工中涉及技術、內容等多個方面。隨著信息技術的發展，數字化加工技術也會不斷提高，在經過實踐驗證之后，一旦產生新的具有普遍需要的加工方法，應及時對文本資源數字化加工技術和方法進行標準化、規范化的統一處理，以保持標準的實用性。另外，隨著生產加工服務需求的演變，我們既要對現有標準進行靈活應用，也要看到標準的不足，針對標準中的不適應內容進行及時修訂，加強標準的維護和管理。

4.3 數字圖書館標準之間的協調性

數字圖書館資源類型的多樣化需要一套完整的數字資源建設標準體系來支撐，只依靠一個“文本資源加工標準”顯然是不行的。文本資源數字化加工標準應與數字對象加工標準、元數據應用、數字資源唯一標識符等相關標準之間有著密切的關系，既相互聯系又相互影響。處理好各種標準應用之間的關系，是數字資源建設有效性的保障。

[1]Requests Proposals for Digital Images from Original Documents Text Conversion and SGML-Encoding National Digital Library Program[EB/OL].[2012-09-10]. http://memory.loc.gov/ammem/prpsal/rfp18.pdf.

[2]Digitisation Guidelines [EB/OL].[2012-09-10]. http://www.nla.gov.au/standards/digitisation-guidelines.

[3]Guidance for Digitizing Text [EB/OL]. [2012-09-10]. http://preserve.harvard.edu/guidelines/textdig.html.

[4]TEI Text Encoding in Libraries Guidelines for Best Encoding Practices [EB/OL].[2012-09-20].http://old.diglib.org/standards/tei.htm.

[5]Federal Agencies Digitization Guidelines Initiative [EB/OL].[2012-09-20].http://www.digitizationguidelines.gov/.

[6]我國數字圖書館標準規范建設項目[EB/OL]. [2012-09-10]. http://cdls.nstl.gov.cn.

[7]CADAL項目[EB/OL].[2012-09-10].http://www.cadal.cn/.

[8]龍偉,羅云川.國家圖書館文本數據加工標準和操作指南[M].北京:國家圖書館出版社,2012.

[9]顧 .國家標準《信息與文獻術語》 [M].北京:中國標準出版社,2010.

[10]孫一鋼, 聶華, 常林,等.通用數字資源(文本數據)格式標準分析報告[EB/OL].[2012-09-10]. http://cdls.nstl.gov.cn/2003/Process/.

[11]About the Collections[EB/OL].[2012-10-10].http://memory.loc.gov/ammem/about/about.html.

[12]彭緒庶,蔣穎.資源數字化標準問題研究[M].北京:北京圖書館出版社,2005.

[13]代紅,陳壯.中文信息技術的基礎標準與中文編碼字符集的國際標準化[J].信息技術與標準化,2008(7):36-40.

[14]孫衛，趙悅. 圖書館信息化標準工作評析[J].現代圖書情報技術,2009(7/8):33.