999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

英國古籍數字化標準建設現狀及其啟示

2016-05-14 15:35:02張文亮彭媛媛
新世紀圖書館 2016年5期

張文亮 彭媛媛

摘 要 論文對英國古籍數字化處理方式進行歸納,大體描述其數字化標準化工作流程,并從中總結出英國古籍數字化過程中的相關技術方法和特點。英國古籍數字化過程,實行數字化文件格式規范化、字符編碼標準化等手段和方法,用以實現數字化文件的通用性和共享性。論文通過對英國古籍數字化標準化工作的梳理和總結,為我國今后古籍數字化標準的制定提供了指導思想。

關鍵詞 英國古籍 古籍數字化 標準體系

分類號 G249.561

DOI 10.16810/j.cnki.1672-514X.2016.05.020

Abstract This paper summarizes the methods of ancient books digitalization in Britain, generally describes its digital standardization workflow, and sums up the related technical methods and characteristics of British ancient books digitization process. In the procession of British ancient books digitization, the digital file format normalization, the standardization of character encoding and other means and methods are implemented, so as to achieve versatility and sharing of digital files. Based on the collating and summarizing of British digitization standardization, it provides guidelines for our future ancient books digitization standards.

Keywords British ancient books. Digitization of ancient books. Standard system.

20世紀80年代中后期,國外圖書館開始推行古舊、易損文獻資料數碼及縮微化工作,其中古籍數字化工程成為重中之重。國外古籍文獻數字化工程不僅包括本國古老文獻的數字化工作,同時開展國際聯合活動,采取相應標準規范,實施其他地區文獻的數字化保存工作。代表性項目有:美國—古藤堡計劃[1]、日本—善本書目索引、加拿大—Amicus 數字圖書館項目等國家的獨立項目;中美—百萬冊書數字圖書館計劃、中英法俄—IDP敦煌學項目等國家的合作項目。

英國古籍文獻數字化過程中,在數字化加工、資源描述等方面借鑒相關行業標準,如:英國公共圖書館領域的NOF/People's Network項目標準與指南[2]、英國分布國家電子資源項目(DNER)標準體系[3]、英國電子政府互操作框架(e-GIF)標準體系指南[4]等。經過不斷探尋,英國逐步形成本國古籍標準化處理流程和相應管理體系。本文通過描述英國古籍數字化方式及標準化工作,總結出其古籍數字化標準的應用特點,以期為我國古籍數字化標準體系建設提供可行性參考。

1 英國本國古籍數字化標準現狀

大英圖書館于1993年發布“2000年規劃目標”[5],計劃到2000年實現館藏文獻數字化并運行于網絡。1995年,大英圖書館開始實施“數字化圖書館計劃”。其中,The Electronic Beowulf (電子化開放源碼集成系統)計劃是對盎格魯—撒克遜史詩手稿和丹麥皇家圖書館所藏稿本數字化。從此,英國古籍數字化工程逐漸拉開帷幕。由于英國古籍的版本、紙張性質不盡相同,數字化時根據具體情況制定了適宜的處理流程,確立了相應的標準化規范。

1.1 處理流程

英國大量古籍屬于脆性紙質。為了更加妥善地保管,國家管理部門與相關機構合作,投入大量的人力、財力與技術,如表1所示[6],采用掃描、縮微或二者相結合的混合式處理方法,將文獻進行數碼影像處理或轉化為縮微制品。

由表1可知,不同的古籍保存方式,處理程序也有所不同。對于只能進行一次加工處理的古籍資料,先縮微處理,再掃描縮微膠片,以備檢索;對于裝訂較為完好的資料,采用掃描方式,數碼影像使用時更為方便,再行處理數碼影像,以保留版本;對于紙質較好的古籍文獻,掃描或縮微處理都可,以節約成本為先。

1.2 技術控制

在促進存取和使用新形式文獻的現實情況下,英國對原始手稿、古籍善本,少量檔案資料進行數字化處理時,盡可能將被損壞的資料恢復原貌或完成原始數據的恢復。但有時,使用某些計算機工具(如光學字符識別工具、文本編碼轉換工具)并不是最優的解決方案。此時,需要通過數據管理和文檔編碼技術進行控制。英國古籍數字化中還應用了元數據技術,在館藏目錄或Web中需要通過元數據標準的輔助,以瀏覽訪問館藏文獻。因而,在技術控制方面,英國圖書館采用了數據管理技術、文檔編碼技術、元數據管理技術對本國古籍進行管理規范。

1.2.1 數據管理技術

數字化項目中,要對數字圖像搜索的深度和廣度進行控制,需要通過數據管理技術進行圖像文件的檢索。

數字轉換時,優先考慮文件的生成格式。如今,TIFF(標簽圖像文件格式)是用于存儲數字圖像版本最常見的文件格式。除了TIFF,還可以使用其他(如GIF)的圖形格式。使用的掃描儀軟件可以自動創建許多技術型、管理型信息標簽,并將它們記錄到文件頭部。換句話說,可以直接記錄到文件本身。TIFF頭文件中的信息使用ASCII格式存儲,從這個意義上說它們的處理平臺是相互獨立的。將元數據記錄到TIFF頭文件中的做法較為普遍,其作用也較為明顯:它可以確保原文檔、轉換過程和轉換后的圖像文件之間的緊密聯系[7]。

1.2.2 文檔編碼技術

現有的多數數字化項目、方案多采用SGML(標準通用標記語言)或采用XML(可擴展標記語言)的文檔編碼技術。其目的是將圖像與單一主件或整體館藏中允許訪問的結構性元素相結合。文件編碼的數據也可用在儲存基礎數據庫系統中,并轉化成標準化表示形式用以交換使用。但是,SGLM存在對許多應用程序軟件都不支持的問題,而XML已經開始逐漸接替作為最常用的標記語言[8]。

英國現階段的古籍數字化工作是基于SGML著名編碼規則的TEI(文本編碼倡議),其中DTD(文檔類型定義)在人文領域對各個文本進行編碼。編碼檔案說明倡議(EAD)開發了關于DTD編碼檢索工具,用來編碼整個館藏文獻或其他對象。

1.2.3 元數據管理技術

英國圖書館計劃創建以數字對象為主的數字圖像文件。首先,定義基礎元數據元素、對元數據進行分類,進而實現管理。元數據大致分為兩類,即管理型與結構型。前者是指位于數位以內或是數字對象以外的,以確保實時管理的描述性元素;后者是指在數字對象之內用以導航的元素。為完善元數據元素的存儲管理,實施了元數據管理過程,具體流程如圖1所示。

元數據元素管理主要涉及數字圖像掃描、數字化存儲、轉化機讀目錄格式、改變編碼標識等幾個過程。掃描數字圖像之前,對數字圖像的分辨率、數位深度、文件格式和版本類型進行限定規范,明確所有權機構,并記錄相應的技術方法。對完成掃描的圖像進行數字化存儲,記錄項目名稱和項目機構名稱,定義其對象的唯一標識符,以便于數字化保存與檢索。而后,將數字化存儲的數據轉化為以計算機格式輸出的書目記錄,當對標記對象的存儲記錄進行修改的同時,標識代碼也隨之改變。

2 英國對其他國家古籍數字化標準現狀

英國存有許多中國、西夏國、印度、突厥等國家的古代文獻。各國古籍在語言上存在較大差異,但數字化中又存在交叉現象。其中,英國收藏的中文古籍所占比重較大。本部分按照中文古籍和其他語種古籍分別闡述英國對其他國家古籍的數字化概況及其標準化現狀。

2.1 英國對中文古籍的數字化標準應用

2.1.1 英國對中文古籍數字化概況

英國參與了許多中文古籍字化項目,其中,最主要的項目即英國圖書館主持的IDP項目,該項目由中國、法國、俄羅斯、柏林等國家圖書館和研究機構共同參與。IDP 旨在通過國際合作,開發各國所藏中文文獻,實現全面數字化,通過網絡資源共享,促進世界范圍內的研究討論[6]。其中,國際敦煌工程數據庫收錄5萬余件中亞刻本和印本以及3萬余件中國國家圖書館館藏敦煌文獻資源數據。讀者可通過中國國家圖書館的IDP主頁和英國圖書館IDP 主頁進行題名、關鍵詞、遺址、語言文字的檢索閱讀[9]。

大英圖書館、博物館原有大量古籍圖像資料。在獲得資助之后,大英圖書館開始采用系統化圖像數字化技術,將圖像顏色、圖形形狀等多項信息通過數據代碼形式處理和存儲,利用計算機實現加工處理,以方便瀏覽者的檢索、傳輸。大英圖書館和中國國家圖書館都藏有敦煌醫學手稿,但這些醫學手稿多存在破損情況[10]。大英圖書館通常經過專家仔細查閱與判斷,確定幾個片段的拼湊以得到一份完整的手稿,最初將破損的手稿碎片分類、編號,對手稿碎片統一記錄,摘錄主要內容,形成簡明提要,整合處理后形成手稿摘要列表和目錄列表。專家對醫學手稿的存在形式、紙張狀況進行分析,大體分為兩類(如表2)。

對敦煌中文古籍數字化之前,首先對古籍版本進行選擇,分析前人整理、校勘的成果,形成對比研究,以此保證數字化古籍的權威性和準確性。其次,協調處理古籍數字化存儲格式,IDP數據庫中存儲的數字化資源多數以doc、html、pdf三種形式存在,設定存儲格式更便于讀者瀏覽閱讀,有利于提升古籍數字化資源的利用效率,促進古籍數字化的發展。敦煌文獻同時存在著寫本文字難以辨認;文書詞語難以理解;大量佛教書卷文獻不易領會;寫本行文大多異于后世刻本,不易把握等障礙。因而,解決古籍數字化中漢字字符集缺失成為首要問題[11]。敦煌文獻中還存在大量生僻字、罕見字,以及不易和不能辨別的文字,現有字符庫無法與之相匹配,計算機無法釋讀,數字化處理后會出現方框、黑塊符號等問題。如此,即人為地破壞了古籍版本的真實性和價值性,也為學術研究帶來了極大障礙,導致學者不敢輕易引用電子版古籍作為注釋,影響了數字化古籍的使用效率。

除了大量敦煌中文文獻,英國國家圖書館還典藏有一定數量的古籍珍本。為此,從1980年開始大英圖書館建立“古版書簡明標題目錄”(簡稱 ISTC)[12],主要收錄15世紀活版印刷版文獻題錄,是全球該類文獻最大的聯機數據庫。大英圖書館還收錄了包括部分中文古籍書目,且與牛津大學、劍橋大學等六所大學、研究所圖書館聯合,建立“中文圖書聯合檢索”平臺,對英國大量中文古籍進行整合,實現了互聯網平臺的書目檢索,為讀者了解英國的中文文獻古籍收藏情況提供方便。在檢索系統中,古籍文獻多被賦予目錄編碼,運用高級檢索進行查檢,以防全文檢索時中文簡體和繁體文字切換檢索、漢字自動切分、自然語言檢索或主題詞檢索等標準沒有統一的弊端[13]。

2.1.2 相關標準應用

英國對中文古籍文獻數字化過程中涉及字符處理、技術規范等標準。其中,字符處理標準方面。對于敦煌古籍文獻,數字化之前,先要對文獻中包含的字符和相關文字術語進行標準化和規范化處理,根據現有的字符集標準,進一步規范處理,形成適用于敦煌文獻數字化使用的字符集。在技術標準方面,針對古籍版本形式不同,紙張性質差異較大的現象,應用相關技術標準加以限定和約束,將其轉化為數字化格式的文件,以達到國際通用、資源共享的目的。應用現行文件格式編碼標準,對數字化文獻格式進行控制,盡可能轉換為PDF、HTML文件格式。大英圖書館構建多個數字化文獻數據庫與檢索系統,方便人們檢索使用相關文件。在數據庫與檢索系統維護方面也形成了統一、規范化的標準,以提供完備的工具和穩定的平臺。

2.2 英國對其他語種古籍數字化標準應用

2.2.1 英國對其他語種古籍數字化概況

大英圖書館藏有的多種珍貴文獻中,還包括西藏,梵文,西夏文,于闐,龜茲,粟特文,維吾爾文,突厥和蒙古等超過45 000份手稿或印刷在紙張、木材和其他材料上的文檔,其中一部分手稿包含多種語言。大英圖書館同時存有印度收集的中亞地區手稿,通常被稱為Hoernle集合。對Hoernle集合中的手稿破譯、解讀,1902年出版相關報告,并最終存放于大英博物館。據不完全統計,Hoernle集合包含超過2000份梵文文獻,吐火羅語1200份,另外約250份于闐語文獻(具體情況參見表3)。

大英圖書館對不同語種的文獻進行完整著錄,形成檢索目錄。多數目錄和大部分手稿同時制成縮微膠卷。此外,為妥善保存古印度金剛經,以數字化形式提供瀏覽,并將其數字化內容刻錄于光盤中,方便學者隨時利用移動設備進行研究。為防止破壞古籍原件,即制成縮微膠片或數字圖像形式。部分手稿被分為幾部分,依次定期展出,既可以避免手稿過度使用,又可以供讀者免費瀏覽。如果研究人員有閱讀需求,可以提出參觀手稿原件的要求,但務必事先與負責人員做好聯絡工作。較為脆弱的手稿,管理人員必須事先檢查清楚所有細節。

2.2.2 相關標準應用

英國在對多語種古籍文獻數字化過程中主要采用技術標準與規范。為避免文獻手稿著錄過程中出現諸多問題,大英圖書館在著錄手稿之前,對手稿進行了翻譯和轉錄,并對手稿的著錄格式應用現有標準進行限定,以便日后存儲和使用。部分不適宜進行數字化處理的文獻,根據數據加工標準的規定,進行掃描處理或形成數字影像資料,以圖片形式儲存和使用。對于這些資料,同樣加入到聯機檢索系統中,并且通過相關的文獻檢索目錄標準對其進行規范化處理。

3 英國古籍數字化標準體系的特點

3.1 相互兼容的文件格式

英國數字化古籍文獻的文件格式大多通用、兼容。根據統一的文檔存儲標準,英國對完成數字化處理的文本文件進行標準化,以規范文檔的存儲格式。PDF存儲格式的文件居多;少量文件可以通過Word文檔形式讀取。基于Web網頁瀏覽版的文件,以相互兼容的HTML、XML、SGML核心語言編碼,讀者可以進行全面的瀏覽、檢索與獲取。

3.2 篩選數字化古籍底本

由于古籍年代久遠,紙質情況、印刷方式和書寫格式都有較大差異,而且大部分的古籍存在不同程度上的損毀,因此,英國在對相關數據庫的建設過程中,制定了相應的古籍典藏管理標準,根據不同底本的紙質、外貌、破損情況將不同紙質的古籍進行分類,在不損毀其原貌的基礎上,進行古籍數字化處理。

3.3 遵循國際標準

英國現今古籍數字化標準,大多是應用或結合相關行業現行標準或國際通用標準,并結合本國具體情況,完成文獻數字化工程標準化和規范化工作。英國認為根據適當的國際標準建立數字化程序,進而管理數字化信息,有利于對其今后的訪問、使用和長期保存。從交流共享的角度考慮,各國數字化工程都應該適當遵循既定的、國際公認的標準,尤其是此類標準尚為在本國建立規范前,采用國際標準為最佳選擇。

4 啟示

多年來,英國古籍數字化標準化工作雖然目前沒有對外出臺古籍數字化的具體標準條例,但其數字化工程中應用的數字管理技術、文檔編碼技術等技術規范,以及對古籍文獻資源的分類和管理工作,帶給我們諸多啟示。

4.1 加強存儲規范標準建設

英國數字化古籍的存儲格式以PDF文件為主,輔以Word、XML等存儲格式。反觀我國數字化古籍存儲格式,目前仍處于各自為政的狀態。因而,制定文檔存儲標準、開發或統一文件格式是亟待解決的問題。統一數字化古籍的存儲格式,實現文獻存儲格式的標準化,應首要促進、聯合小范圍內的出版機構,進而實現古籍數字化出版的主要機構協同合作,完成古籍文件存儲格式標準化的最終目標。

4.2 字符處理標準的統一

完善字符集代碼進而實現標準化,有助于統一數字化古籍的文件格式、建立資源數據庫,實現資源共建共享。我國目前在古籍數字化工程中沒有統一的制作單位,大多相關企業以自身利益為前提,執行不同的行業標準,形成的數據庫也基本處于封閉狀態。根據當今學術研究的趨勢,數字化古籍未來將向公眾開放使用,亟需構建層次性、結構化的資源數據庫。各級研發部門與企業機構應當提前簽訂共享協議,搭建統一的數字化管理平臺,使用同一平臺并互相調用,實現資源的共建共享,充分發揮文獻資源的價值。

4.3 制定專門的數據加工標準

古籍數字化中,制定專門的數據加工標準,對數字化發展尤為重要。掃描時分辨率大小、圖像的內存大小等都需必要標明。其中,在制定影像處理標準時,應力求一種符合古籍特征及需求,具有較高壓縮比,能保證低失真率,清晰顯示原始圖書原貌的統一圖像儲存格式。文化行業部門和企業機構中要制定與數據加工相關的標準規范為最終實現我國古籍數字化奠定堅實的基礎。

4.4 制定專門的數據庫檢索標準

制訂標準化的數字化全文檢索系統,有助于讀者的檢索和使用。創建標準化檢索系統時,有必要邀請專業的資深學者共同參與,在關鍵詞檢索、條件檢索、邏輯檢索、模糊檢索、組配檢索等方面制定標準規范;古籍文獻中涉及的人名、地名、官職、特定詞匯等專業術語,需有符合學科特點的敘詞及詞組。我國現有的數字化檢索數據庫,多由企業根據其各自現有條件、人員及設備進行著錄。數據庫的檢全率、檢準率較低,不便于用戶檢索使用,可見制定專門的數字化檢索標準同樣是當務之急。

4.5 古籍文獻資源分類與管理標準

英國的古籍善本數字化加工之前,會根據古籍的版本、類型、紙張情況、底本完整情況等對文獻資源進行分類處理,根據文獻資料的不同情況制定數字化處理方案,同時不同紙張性質的古籍文獻存在不同的加工管理流程。我國目前缺乏文獻資源分類組織的流程,同樣缺少數字化古籍的管理、維護流程。古籍版本的差異決定其選用數字化方式的不同,;數字化管理流程更決定著數字化工程的未來發展。國家相關部分應當對此給予高度重視,以確保我國珍稀古籍資源的數字化存儲與利用能夠順利、有序的完成。

參考文獻:

[ 1 ] 毛建軍.歐美地區中文古籍數字化概述[J].數字與縮微影像,2008(1):36-38.

[ 2 ] NOF-digitise Technical Standards and Guidelines.Re-vised Nov.2000[EB/OL].[2014-12-15].http://www.people-network.gov.uk/nof/technicalstandards/index.html.

[ 3 ] Working with the distributed national electronic reso-urces.Feb.2001[EB/OL].[2014-12-15].http://www.jisc.ac.uk/dner/programmes/guidance/DNERStandards.html

[ 4 ] UK Cabinet Office.E-government interoperability fra-mework,v.3,Oct.2001[EB/OL].[2014-12-15].http://www.govtalk.gov.uk/documents/e-GIF version 3 approved.pdf.

[ 5 ] PRUDERY J. The British Librarys initiatives for access projects[J].Communications of the ACM,1995(4):65-69.

[ 6 ] Digital imaging and preservation microfilm:The future of the hybrid approach for the preservation of brittle books[EB/OL].[2014-12-15.]http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/index.html.

[ 7 ] 英國國家圖書館元數據標準[EB/OL].[2012-05-12].http://www.bl.uk/bibliographic/service.html(Metadata Standards).

[ 8 ] 英國古籍數字化項目指南[EB/OL].[2012-05-11].http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/index.html.

[ 9 ] Guidelines for digitization projects for collections and holdings in the public domain, particularly those held by libraries and archives英國圖書館數字化戰略規劃[EB/OL].[2014-12-15].http://www.bl.uk/aboutus/stratpolprog/digi/digitisation/digistrategy/index.html#top.

[10] 英國國際敦煌項目[EB/OL].[2014-12-15].http://idp.bl.uk/pages/collections_en.a4d#pagetop.

[11] 英國敦煌古籍數字化項目研究[EB/OL].[2014-12-15].http://idp.bl.uk/pages/education_research.a4d.

[12] 中國國家圖書館:國際敦煌項目(IDP)[EB/OL].[2014-

12-15].http://idp.nlc.gov.cn/.

[13] 雪鳴宏.英國古籍書目數據庫:ISTC[J].姜振儒,編譯.河北科技圖苑,1993(3):56-57.

[14] WHITFIELD S. The international Dunhuang project:A challenge for digitization[J].Microform and Imaging

Review,1997(26):15-21.

主站蜘蛛池模板: 真实国产乱子伦视频| 97综合久久| 日本成人在线不卡视频| 亚洲视频二| 欧美人与动牲交a欧美精品| 狠狠色丁香婷婷综合| 无码中文字幕精品推荐| 欧美全免费aaaaaa特黄在线| 久久国产成人精品国产成人亚洲 | 国产精女同一区二区三区久| a在线亚洲男人的天堂试看| 国产导航在线| 小说 亚洲 无码 精品| 精品一区二区三区视频免费观看| 3344在线观看无码| 99爱视频精品免视看| 在线观看无码av五月花| 久久香蕉国产线看观| 午夜欧美理论2019理论| 一级黄色网站在线免费看| 天天干天天色综合网| 国产91全国探花系列在线播放| 红杏AV在线无码| 女人18毛片一级毛片在线 | 97视频免费看| 亚洲香蕉在线| 亚洲视频在线观看免费视频| 全午夜免费一级毛片| 国产极品美女在线观看| 91成人免费观看| 97色婷婷成人综合在线观看| 少妇极品熟妇人妻专区视频| 国产av无码日韩av无码网站| 亚洲AⅤ无码日韩AV无码网站| 国产国产人在线成免费视频狼人色| 99这里精品| 欧美日韩免费| 欧美激情第一区| 久久久久青草大香线综合精品| 全部无卡免费的毛片在线看| 天天色天天综合| 国产亚洲欧美在线中文bt天堂 | 3344在线观看无码| 国产精品美人久久久久久AV| 久久香蕉国产线看观看式| 中文字幕不卡免费高清视频| 2020极品精品国产| 性色在线视频精品| 欧美在线中文字幕| 精品午夜国产福利观看| 国产新AV天堂| 国产中文在线亚洲精品官网| 香蕉伊思人视频| 精品视频91| 亚洲国产综合精品一区| 欧亚日韩Av| YW尤物AV无码国产在线观看| 国产草草影院18成年视频| 欧美亚洲国产精品久久蜜芽| 日韩精品亚洲人旧成在线| 久久semm亚洲国产| 国产精品一区在线观看你懂的| 亚洲成在线观看 | 五月婷婷精品| 亚洲欧美在线综合一区二区三区| 一级毛片高清| 日韩精品成人网页视频在线| 999国产精品| 欧美一区福利| 午夜啪啪网| 一级毛片免费不卡在线| 日本欧美视频在线观看| 中文成人无码国产亚洲| 日本午夜影院| 久久综合亚洲鲁鲁九月天| 国产成人亚洲精品蜜芽影院| 中文国产成人久久精品小说| 极品国产在线| 久久精品国产精品青草app| 国产高清免费午夜在线视频| 国产无码性爱一区二区三区| 国产中文一区a级毛片视频|