張文亮 彭媛媛



摘 要 論文對英國古籍數字化處理方式進行歸納,大體描述其數字化標準化工作流程,并從中總結出英國古籍數字化過程中的相關技術方法和特點。英國古籍數字化過程,實行數字化文件格式規范化、字符編碼標準化等手段和方法,用以實現數字化文件的通用性和共享性。論文通過對英國古籍數字化標準化工作的梳理和總結,為我國今后古籍數字化標準的制定提供了指導思想。
關鍵詞 英國古籍 古籍數字化 標準體系
分類號 G249.561
DOI 10.16810/j.cnki.1672-514X.2016.05.020
Abstract This paper summarizes the methods of ancient books digitalization in Britain, generally describes its digital standardization workflow, and sums up the related technical methods and characteristics of British ancient books digitization process. In the procession of British ancient books digitization, the digital file format normalization, the standardization of character encoding and other means and methods are implemented, so as to achieve versatility and sharing of digital files. Based on the collating and summarizing of British digitization standardization, it provides guidelines for our future ancient books digitization standards.
Keywords British ancient books. Digitization of ancient books. Standard system.
20世紀80年代中后期,國外圖書館開始推行古舊、易損文獻資料數碼及縮微化工作,其中古籍數字化工程成為重中之重。國外古籍文獻數字化工程不僅包括本國古老文獻的數字化工作,同時開展國際聯合活動,采取相應標準規范,實施其他地區文獻的數字化保存工作。代表性項目有:美國—古藤堡計劃[1]、日本—善本書目索引、加拿大—Amicus 數字圖書館項目等國家的獨立項目;中美—百萬冊書數字圖書館計劃、中英法俄—IDP敦煌學項目等國家的合作項目。
英國古籍文獻數字化過程中,在數字化加工、資源描述等方面借鑒相關行業標準,如:英國公共圖書館領域的NOF/People's Network項目標準與指南[2]、英國分布國家電子資源項目(DNER)標準體系[3]、英國電子政府互操作框架(e-GIF)標準體系指南[4]等。經過不斷探尋,英國逐步形成本國古籍標準化處理流程和相應管理體系。本文通過描述英國古籍數字化方式及標準化工作,總結出其古籍數字化標準的應用特點,以期為我國古籍數字化標準體系建設提供可行性參考。
1 英國本國古籍數字化標準現狀
大英圖書館于1993年發布“2000年規劃目標”[5],計劃到2000年實現館藏文獻數字化并運行于網絡。1995年,大英圖書館開始實施“數字化圖書館計劃”。其中,The Electronic Beowulf (電子化開放源碼集成系統)計劃是對盎格魯—撒克遜史詩手稿和丹麥皇家圖書館所藏稿本數字化。從此,英國古籍數字化工程逐漸拉開帷幕。由于英國古籍的版本、紙張性質不盡相同,數字化時根據具體情況制定了適宜的處理流程,確立了相應的標準化規范。
1.1 處理流程
英國大量古籍屬于脆性紙質。為了更加妥善地保管,國家管理部門與相關機構合作,投入大量的人力、財力與技術,如表1所示[6],采用掃描、縮微或二者相結合的混合式處理方法,將文獻進行數碼影像處理或轉化為縮微制品。
由表1可知,不同的古籍保存方式,處理程序也有所不同。對于只能進行一次加工處理的古籍資料,先縮微處理,再掃描縮微膠片,以備檢索;對于裝訂較為完好的資料,采用掃描方式,數碼影像使用時更為方便,再行處理數碼影像,以保留版本;對于紙質較好的古籍文獻,掃描或縮微處理都可,以節約成本為先。
1.2 技術控制
在促進存取和使用新形式文獻的現實情況下,英國對原始手稿、古籍善本,少量檔案資料進行數字化處理時,盡可能將被損壞的資料恢復原貌或完成原始數據的恢復。但有時,使用某些計算機工具(如光學字符識別工具、文本編碼轉換工具)并不是最優的解決方案。此時,需要通過數據管理和文檔編碼技術進行控制。英國古籍數字化中還應用了元數據技術,在館藏目錄或Web中需要通過元數據標準的輔助,以瀏覽訪問館藏文獻。因而,在技術控制方面,英國圖書館采用了數據管理技術、文檔編碼技術、元數據管理技術對本國古籍進行管理規范。
1.2.1 數據管理技術
數字化項目中,要對數字圖像搜索的深度和廣度進行控制,需要通過數據管理技術進行圖像文件的檢索。
數字轉換時,優先考慮文件的生成格式。如今,TIFF(標簽圖像文件格式)是用于存儲數字圖像版本最常見的文件格式。除了TIFF,還可以使用其他(如GIF)的圖形格式。使用的掃描儀軟件可以自動創建許多技術型、管理型信息標簽,并將它們記錄到文件頭部。換句話說,可以直接記錄到文件本身。TIFF頭文件中的信息使用ASCII格式存儲,從這個意義上說它們的處理平臺是相互獨立的。將元數據記錄到TIFF頭文件中的做法較為普遍,其作用也較為明顯:它可以確保原文檔、轉換過程和轉換后的圖像文件之間的緊密聯系[7]。
1.2.2 文檔編碼技術
現有的多數數字化項目、方案多采用SGML(標準通用標記語言)或采用XML(可擴展標記語言)的文檔編碼技術。其目的是將圖像與單一主件或整體館藏中允許訪問的結構性元素相結合。文件編碼的數據也可用在儲存基礎數據庫系統中,并轉化成標準化表示形式用以交換使用。但是,SGLM存在對許多應用程序軟件都不支持的問題,而XML已經開始逐漸接替作為最常用的標記語言[8]。
英國現階段的古籍數字化工作是基于SGML著名編碼規則的TEI(文本編碼倡議),其中DTD(文檔類型定義)在人文領域對各個文本進行編碼。編碼檔案說明倡議(EAD)開發了關于DTD編碼檢索工具,用來編碼整個館藏文獻或其他對象。
1.2.3 元數據管理技術
英國圖書館計劃創建以數字對象為主的數字圖像文件。首先,定義基礎元數據元素、對元數據進行分類,進而實現管理。元數據大致分為兩類,即管理型與結構型。前者是指位于數位以內或是數字對象以外的,以確保實時管理的描述性元素;后者是指在數字對象之內用以導航的元素。為完善元數據元素的存儲管理,實施了元數據管理過程,具體流程如圖1所示。
元數據元素管理主要涉及數字圖像掃描、數字化存儲、轉化機讀目錄格式、改變編碼標識等幾個過程。掃描數字圖像之前,對數字圖像的分辨率、數位深度、文件格式和版本類型進行限定規范,明確所有權機構,并記錄相應的技術方法。對完成掃描的圖像進行數字化存儲,記錄項目名稱和項目機構名稱,定義其對象的唯一標識符,以便于數字化保存與檢索。而后,將數字化存儲的數據轉化為以計算機格式輸出的書目記錄,當對標記對象的存儲記錄進行修改的同時,標識代碼也隨之改變。
2 英國對其他國家古籍數字化標準現狀
英國存有許多中國、西夏國、印度、突厥等國家的古代文獻。各國古籍在語言上存在較大差異,但數字化中又存在交叉現象。其中,英國收藏的中文古籍所占比重較大。本部分按照中文古籍和其他語種古籍分別闡述英國對其他國家古籍的數字化概況及其標準化現狀。
2.1 英國對中文古籍的數字化標準應用
2.1.1 英國對中文古籍數字化概況
英國參與了許多中文古籍字化項目,其中,最主要的項目即英國圖書館主持的IDP項目,該項目由中國、法國、俄羅斯、柏林等國家圖書館和研究機構共同參與。IDP 旨在通過國際合作,開發各國所藏中文文獻,實現全面數字化,通過網絡資源共享,促進世界范圍內的研究討論[6]。其中,國際敦煌工程數據庫收錄5萬余件中亞刻本和印本以及3萬余件中國國家圖書館館藏敦煌文獻資源數據。讀者可通過中國國家圖書館的IDP主頁和英國圖書館IDP 主頁進行題名、關鍵詞、遺址、語言文字的檢索閱讀[9]。
大英圖書館、博物館原有大量古籍圖像資料。在獲得資助之后,大英圖書館開始采用系統化圖像數字化技術,將圖像顏色、圖形形狀等多項信息通過數據代碼形式處理和存儲,利用計算機實現加工處理,以方便瀏覽者的檢索、傳輸。大英圖書館和中國國家圖書館都藏有敦煌醫學手稿,但這些醫學手稿多存在破損情況[10]。大英圖書館通常經過專家仔細查閱與判斷,確定幾個片段的拼湊以得到一份完整的手稿,最初將破損的手稿碎片分類、編號,對手稿碎片統一記錄,摘錄主要內容,形成簡明提要,整合處理后形成手稿摘要列表和目錄列表。專家對醫學手稿的存在形式、紙張狀況進行分析,大體分為兩類(如表2)。
對敦煌中文古籍數字化之前,首先對古籍版本進行選擇,分析前人整理、校勘的成果,形成對比研究,以此保證數字化古籍的權威性和準確性。其次,協調處理古籍數字化存儲格式,IDP數據庫中存儲的數字化資源多數以doc、html、pdf三種形式存在,設定存儲格式更便于讀者瀏覽閱讀,有利于提升古籍數字化資源的利用效率,促進古籍數字化的發展。敦煌文獻同時存在著寫本文字難以辨認;文書詞語難以理解;大量佛教書卷文獻不易領會;寫本行文大多異于后世刻本,不易把握等障礙。因而,解決古籍數字化中漢字字符集缺失成為首要問題[11]。敦煌文獻中還存在大量生僻字、罕見字,以及不易和不能辨別的文字,現有字符庫無法與之相匹配,計算機無法釋讀,數字化處理后會出現方框、黑塊符號等問題。如此,即人為地破壞了古籍版本的真實性和價值性,也為學術研究帶來了極大障礙,導致學者不敢輕易引用電子版古籍作為注釋,影響了數字化古籍的使用效率。
除了大量敦煌中文文獻,英國國家圖書館還典藏有一定數量的古籍珍本。為此,從1980年開始大英圖書館建立“古版書簡明標題目錄”(簡稱 ISTC)[12],主要收錄15世紀活版印刷版文獻題錄,是全球該類文獻最大的聯機數據庫。大英圖書館還收錄了包括部分中文古籍書目,且與牛津大學、劍橋大學等六所大學、研究所圖書館聯合,建立“中文圖書聯合檢索”平臺,對英國大量中文古籍進行整合,實現了互聯網平臺的書目檢索,為讀者了解英國的中文文獻古籍收藏情況提供方便。在檢索系統中,古籍文獻多被賦予目錄編碼,運用高級檢索進行查檢,以防全文檢索時中文簡體和繁體文字切換檢索、漢字自動切分、自然語言檢索或主題詞檢索等標準沒有統一的弊端[13]。
2.1.2 相關標準應用
英國對中文古籍文獻數字化過程中涉及字符處理、技術規范等標準。其中,字符處理標準方面。對于敦煌古籍文獻,數字化之前,先要對文獻中包含的字符和相關文字術語進行標準化和規范化處理,根據現有的字符集標準,進一步規范處理,形成適用于敦煌文獻數字化使用的字符集。在技術標準方面,針對古籍版本形式不同,紙張性質差異較大的現象,應用相關技術標準加以限定和約束,將其轉化為數字化格式的文件,以達到國際通用、資源共享的目的。應用現行文件格式編碼標準,對數字化文獻格式進行控制,盡可能轉換為PDF、HTML文件格式。大英圖書館構建多個數字化文獻數據庫與檢索系統,方便人們檢索使用相關文件。在數據庫與檢索系統維護方面也形成了統一、規范化的標準,以提供完備的工具和穩定的平臺。
2.2 英國對其他語種古籍數字化標準應用
2.2.1 英國對其他語種古籍數字化概況
大英圖書館藏有的多種珍貴文獻中,還包括西藏,梵文,西夏文,于闐,龜茲,粟特文,維吾爾文,突厥和蒙古等超過45 000份手稿或印刷在紙張、木材和其他材料上的文檔,其中一部分手稿包含多種語言。大英圖書館同時存有印度收集的中亞地區手稿,通常被稱為Hoernle集合。對Hoernle集合中的手稿破譯、解讀,1902年出版相關報告,并最終存放于大英博物館。據不完全統計,Hoernle集合包含超過2000份梵文文獻,吐火羅語1200份,另外約250份于闐語文獻(具體情況參見表3)。
大英圖書館對不同語種的文獻進行完整著錄,形成檢索目錄。多數目錄和大部分手稿同時制成縮微膠卷。此外,為妥善保存古印度金剛經,以數字化形式提供瀏覽,并將其數字化內容刻錄于光盤中,方便學者隨時利用移動設備進行研究。為防止破壞古籍原件,即制成縮微膠片或數字圖像形式。部分手稿被分為幾部分,依次定期展出,既可以避免手稿過度使用,又可以供讀者免費瀏覽。如果研究人員有閱讀需求,可以提出參觀手稿原件的要求,但務必事先與負責人員做好聯絡工作。較為脆弱的手稿,管理人員必須事先檢查清楚所有細節。
2.2.2 相關標準應用
英國在對多語種古籍文獻數字化過程中主要采用技術標準與規范。為避免文獻手稿著錄過程中出現諸多問題,大英圖書館在著錄手稿之前,對手稿進行了翻譯和轉錄,并對手稿的著錄格式應用現有標準進行限定,以便日后存儲和使用。部分不適宜進行數字化處理的文獻,根據數據加工標準的規定,進行掃描處理或形成數字影像資料,以圖片形式儲存和使用。對于這些資料,同樣加入到聯機檢索系統中,并且通過相關的文獻檢索目錄標準對其進行規范化處理。
3 英國古籍數字化標準體系的特點
3.1 相互兼容的文件格式
英國數字化古籍文獻的文件格式大多通用、兼容。根據統一的文檔存儲標準,英國對完成數字化處理的文本文件進行標準化,以規范文檔的存儲格式。PDF存儲格式的文件居多;少量文件可以通過Word文檔形式讀取。基于Web網頁瀏覽版的文件,以相互兼容的HTML、XML、SGML核心語言編碼,讀者可以進行全面的瀏覽、檢索與獲取。
3.2 篩選數字化古籍底本
由于古籍年代久遠,紙質情況、印刷方式和書寫格式都有較大差異,而且大部分的古籍存在不同程度上的損毀,因此,英國在對相關數據庫的建設過程中,制定了相應的古籍典藏管理標準,根據不同底本的紙質、外貌、破損情況將不同紙質的古籍進行分類,在不損毀其原貌的基礎上,進行古籍數字化處理。
3.3 遵循國際標準
英國現今古籍數字化標準,大多是應用或結合相關行業現行標準或國際通用標準,并結合本國具體情況,完成文獻數字化工程標準化和規范化工作。英國認為根據適當的國際標準建立數字化程序,進而管理數字化信息,有利于對其今后的訪問、使用和長期保存。從交流共享的角度考慮,各國數字化工程都應該適當遵循既定的、國際公認的標準,尤其是此類標準尚為在本國建立規范前,采用國際標準為最佳選擇。
4 啟示
多年來,英國古籍數字化標準化工作雖然目前沒有對外出臺古籍數字化的具體標準條例,但其數字化工程中應用的數字管理技術、文檔編碼技術等技術規范,以及對古籍文獻資源的分類和管理工作,帶給我們諸多啟示。
4.1 加強存儲規范標準建設
英國數字化古籍的存儲格式以PDF文件為主,輔以Word、XML等存儲格式。反觀我國數字化古籍存儲格式,目前仍處于各自為政的狀態。因而,制定文檔存儲標準、開發或統一文件格式是亟待解決的問題。統一數字化古籍的存儲格式,實現文獻存儲格式的標準化,應首要促進、聯合小范圍內的出版機構,進而實現古籍數字化出版的主要機構協同合作,完成古籍文件存儲格式標準化的最終目標。
4.2 字符處理標準的統一
完善字符集代碼進而實現標準化,有助于統一數字化古籍的文件格式、建立資源數據庫,實現資源共建共享。我國目前在古籍數字化工程中沒有統一的制作單位,大多相關企業以自身利益為前提,執行不同的行業標準,形成的數據庫也基本處于封閉狀態。根據當今學術研究的趨勢,數字化古籍未來將向公眾開放使用,亟需構建層次性、結構化的資源數據庫。各級研發部門與企業機構應當提前簽訂共享協議,搭建統一的數字化管理平臺,使用同一平臺并互相調用,實現資源的共建共享,充分發揮文獻資源的價值。
4.3 制定專門的數據加工標準
古籍數字化中,制定專門的數據加工標準,對數字化發展尤為重要。掃描時分辨率大小、圖像的內存大小等都需必要標明。其中,在制定影像處理標準時,應力求一種符合古籍特征及需求,具有較高壓縮比,能保證低失真率,清晰顯示原始圖書原貌的統一圖像儲存格式。文化行業部門和企業機構中要制定與數據加工相關的標準規范為最終實現我國古籍數字化奠定堅實的基礎。
4.4 制定專門的數據庫檢索標準
制訂標準化的數字化全文檢索系統,有助于讀者的檢索和使用。創建標準化檢索系統時,有必要邀請專業的資深學者共同參與,在關鍵詞檢索、條件檢索、邏輯檢索、模糊檢索、組配檢索等方面制定標準規范;古籍文獻中涉及的人名、地名、官職、特定詞匯等專業術語,需有符合學科特點的敘詞及詞組。我國現有的數字化檢索數據庫,多由企業根據其各自現有條件、人員及設備進行著錄。數據庫的檢全率、檢準率較低,不便于用戶檢索使用,可見制定專門的數字化檢索標準同樣是當務之急。
4.5 古籍文獻資源分類與管理標準
英國的古籍善本數字化加工之前,會根據古籍的版本、類型、紙張情況、底本完整情況等對文獻資源進行分類處理,根據文獻資料的不同情況制定數字化處理方案,同時不同紙張性質的古籍文獻存在不同的加工管理流程。我國目前缺乏文獻資源分類組織的流程,同樣缺少數字化古籍的管理、維護流程。古籍版本的差異決定其選用數字化方式的不同,;數字化管理流程更決定著數字化工程的未來發展。國家相關部分應當對此給予高度重視,以確保我國珍稀古籍資源的數字化存儲與利用能夠順利、有序的完成。
參考文獻:
[ 1 ] 毛建軍.歐美地區中文古籍數字化概述[J].數字與縮微影像,2008(1):36-38.
[ 2 ] NOF-digitise Technical Standards and Guidelines.Re-vised Nov.2000[EB/OL].[2014-12-15].http://www.people-network.gov.uk/nof/technicalstandards/index.html.
[ 3 ] Working with the distributed national electronic reso-urces.Feb.2001[EB/OL].[2014-12-15].http://www.jisc.ac.uk/dner/programmes/guidance/DNERStandards.html
[ 4 ] UK Cabinet Office.E-government interoperability fra-mework,v.3,Oct.2001[EB/OL].[2014-12-15].http://www.govtalk.gov.uk/documents/e-GIF version 3 approved.pdf.
[ 5 ] PRUDERY J. The British Librarys initiatives for access projects[J].Communications of the ACM,1995(4):65-69.
[ 6 ] Digital imaging and preservation microfilm:The future of the hybrid approach for the preservation of brittle books[EB/OL].[2014-12-15.]http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/index.html.
[ 7 ] 英國國家圖書館元數據標準[EB/OL].[2012-05-12].http://www.bl.uk/bibliographic/service.html(Metadata Standards).
[ 8 ] 英國古籍數字化項目指南[EB/OL].[2012-05-11].http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/index.html.
[ 9 ] Guidelines for digitization projects for collections and holdings in the public domain, particularly those held by libraries and archives英國圖書館數字化戰略規劃[EB/OL].[2014-12-15].http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/digistrategy/index.html#top.
[10] 英國國際敦煌項目[EB/OL].[2014-12-15].http://idp.bl.uk/pages/collections_en.a4d#pagetop.
[11] 英國敦煌古籍數字化項目研究[EB/OL].[2014-12-15].http://idp.bl.uk/pages/education_research.a4d.
[12] 中國國家圖書館:國際敦煌項目(IDP)[EB/OL].[2014-
12-15].http://idp.nlc.gov.cn/.
[13] 雪鳴宏.英國古籍書目數據庫:ISTC[J].姜振儒,編譯.河北科技圖苑,1993(3):56-57.
[14] WHITFIELD S. The international Dunhuang project:A challenge for digitization[J].Microform and Imaging
Review,1997(26):15-21.