費愉慶
摘 要 論文闡述圖書館館藏古籍的特征及其數字化的必要性,列舉了圖書館古籍數字化及其組織與檢索的方法,論述了數字環境下圖書館古籍保護的舉措,如:建立數字加工處理標準化,研發古籍檢索與管理系統,大力推進古籍的合作編目,制訂適合古籍的元數據標準,等等。
關鍵詞 數字圖書館 古籍整理 古籍保護 古籍數字化 元數據標準
分類號 G255.1
1 圖書館館藏古籍的特征及其數字化的必要性
廣義的古籍應該是包括甲骨文拓本、青銅器銘文、簡牘帛書、敦煌吐魯番文書、唐宋以來雕版印刷品,即1911年以前產生的內容為反映和研究中國傳統文化的文獻資料和典籍;狹義的古籍是專指唐代自有雕版印刷以來的,1911年以前產生的印本和寫本。
隨著信息數字化及網絡技術的發展,數字圖書館的興起,以及人們對歷史文化的重視,圖書館珍藏的歷史文獻成為數字化的重要對象,古籍的整理、組織與利用逐漸成為圖書館的重要職責。古籍的數字版本可以無限復制,是取之不盡、用之不竭的資源,并可以進行網絡實時傳播,突破了時空的限制;數字化古籍因為其傳播便利和易用性,讀者使用數字化古籍更方便,也較容易匯集知識從而產生新的價值;數字古籍容易儲存,體積小,便于檢索、應用及處理,所以數字化的古籍是使古籍保持生命力發揮價值唯一的選擇。
2 圖書館古籍數字化及其組織與檢索
保護古籍的目的是為了能讓更多的人利用它。因此,圖書館在采取一切必要措施保護古籍外,更要關注對古籍內容進行發掘性的保護,并據此傳播古籍中的知識,以達到弘揚傳統文化,促進知識的傳播和利用的目的。對古籍中知識進行獲取,首先需要先整理出其“線索”,所以古籍的“內容”及 “線索”是整理工作的兩個重要對象,而數字圖書館中的古籍整理也以此兩者為目的。古籍數字化是采用計算機技術對古籍文獻進行加工、處理,制成古籍文獻書目數據庫和古籍全文數據庫,用以揭示古籍文獻中所蘊涵的極其豐富的信息資源,為古籍的開發利用奠定良好的基礎。
數字圖書館提供古籍的“內容”所用的方式包括數字化及建設全文數據庫,前者重現古籍原貌,以便即時閱覽、傳遞及打印,后者將古籍全文轉為電子文本,以便檢索、儲存及編輯。此外,圖書館描述、揭示古籍的“線索”所用的方式包括機讀編目、編制索引及編制古籍的詮釋資料,三者皆為組織及檢索網絡古籍資源的必要方式。
2.1 古籍的數字化加工和處理
數字處理系利用掃描技術將古籍或文獻數字化,可將圖書館所典藏的珍貴原件以最接近真實的數字形式復制保存,有效地發揮數字圖書館的保存功能。美國國會圖書館的國家數字化圖書館計劃,其數字化的對象不局限于古籍,還包括圖書、文獻、圖片、錄音資料、電影片等。這個計劃推動了全世界數字圖書館對文化及文化歷史遺產的重視,其后出現許多保護文化資產的計劃,圖書館也紛紛以珍藏文獻作為數字化的主題。例如:聯合國世界文化遺產數字化計劃,大英圖書館的11世紀盎格魯—撒克遜史詩手稿數字化計劃,IBM公司的梵蒂岡圖書館計劃,北京圖書館、上海圖書館的古籍數字計劃等。
2.2 古籍全文數據庫建設
古籍在數字化的過程中會遇到諸如古籍的文字過小或蟲蛀嚴重等問題。也會遇到掃描后的古籍,雖然可以在網上供讀者進行即時閱覽,但是由于未經過光學字符識別無法進行全文檢索,無法提供讀者進行編輯以及其他格式的文本存儲。
如果要達到古籍最好的使用效果,讓其發揮最大效益,我們需要將古籍的全文掃描后并轉成電子文本。既往建立古籍全文數據庫一般有以下兩種方式:(1)將古籍的文字以鍵盤輸入,進而達到數字化的目的;(2)利用文字識別系統,由系統自動作數字處理、文件分析、文字識別、建立索引等,建立古籍全文數據庫提供查詢與閱讀。
北京大學善本書數據庫計劃就是采用了上述第一種方式,該計劃除了將北京大學圖書館所藏善本書掃描為圖像外,并將內容輸入文檔,再加上標點,制成全文檢索系統。一般來說,古籍系統提供文件原貌重現、全文檢索、查詢與閱讀等功能,特色包括可以處理多種顏色的文件,不需打字或校對來進行文件的數字化。
2.3 機讀目錄
自上世紀以來,國內外已陸續編制古籍機讀目錄。1980年美國研究圖書館協會提出中國古籍善本國際聯合目錄計劃,將中國清嘉慶(1796年)以前的印本及抄稿本編制成機讀形式的中國古籍善本國際聯合目錄,1991年正式啟動,現已有18所學術機構的圖書館參與提供書目資料,包括美加地區13所,中國5所,該目錄提供多項檢索點,具有網上檢索功能。目前,該工作是屬于美國普林斯頓大學東亞研究所的一個獨立計劃,稱為中文善本書計劃。OCLC使用中日韓文自動化系統建立數據庫。國內進行古籍機讀編目的圖書館除了上述參與中國古籍善本國際聯合目錄的五所(中國科學院、復旦大學、北京大學、湖北省圖書館、遼寧省圖書館)外,另北京圖書館已根據機讀格式著錄宋元版古籍,南京圖書館也已建立了中國古籍總目、南京館藏書目、南京館藏方志目錄等三個古籍書目數據庫。
2.4 編制索引
編制書目、索引是圖書館整理資源、為讀者服務的重要方式,利用電腦編制機讀書目長期以來一直受到圖書館的重視,并且發展成為館際、甚至國際間的合作系統,而索引在這方面的開發較慢。事實上目前的全文檢索系統已取代了過去的逐字索引,以前人工編制索引時代所有的標引項目(如:書名、人名、地名、文章篇名、事物名等)都可以輸入電腦并快速檢索。過去對于查閱方志、類書中的資料以及檢索古籍中的篇名頗為困難,但目前借助電腦都可以有效解決。
2.5 網絡古籍資源的組織與檢索
古籍資源在網絡上使用元數據來進行組織與檢索,元數據是對館藏資料屬性的一組描述,目的在于促進資料系統中對資料的檢索、管理與分析。元數據在傳統圖書館中就是以目錄卡片或網上公用目錄中的機讀編目格式的形式,扮演了資料找尋工具的重要角色。元數據具有傳統目錄中著錄的功能,目的在于使資料的管理維護者及使用者,可通過元數據了解并辨識資料,進而去利用和管理資料。簡單來說,元數據對網絡數字資源提供定位、探索、文件記錄、評估及選擇等功能。在目前的元數據中,都柏林核心集(Dubline Core)及電子文獻編碼記錄(TEI header)受到廣泛的重視,Dubline Core包括15個欄位,現有的機讀書目格式可以經過轉換成為Dubline Core,TEI header的功能是以標準交換格式來記錄電子文件,以供檢索。
3 數字環境下圖書館古籍保護的舉措
圖書館館藏古籍一般來說都是屬于圖書館的珍藏品,具有很高的收藏價值和學術價值;再者,圖書館所藏古籍距今年代久遠,歷經歲月滄桑,且由于當時的紙質問題,不易保存;此外圖書館館藏古籍具有很強的稀缺性,隨著時間的推移,因為保存的條件等其他的人為因素,古籍的數量只會越來越少。囿于以上因素,古籍一般很難被廣大讀者所利用。這嚴重違背了圖書館的辦館理念,也不利于知識的傳播和文化的傳承。為了更好地履行圖書館職能,促進古籍的保護與傳承,我們可以采取建立數字化加工處理的標準,研發古籍檢索與管理系統,大力推進古籍的合作編目、制訂適合古籍的元數據標準等措施來保護和傳播、利用古籍這一人類文化的珍貴資源。
3.1 建立數字加工處理標準化
“標準化”是指制定技術標準并就其達成一致意見的過程。古籍數字化的標準化建設主要是在古籍數字資源庫開發過程中,對于多樣、相關的重復流程或加工環節制定需要共同遵守的準則和依據,以獲得古籍整理領域較大的認可度。作為文獻的一種類型,古籍的數字化與其他文獻的數字化相比,有共性,但也有個性。古籍數字化應該根據古籍的特點來進行,并通過數字化的加工使古籍中所包含信息進行再現與重組。因而,構建古籍數字化標準體系應遵循以下原則:開放性、系統性、實用性及拓展性。
我們在加工處理古籍的時候不可避免地牽涉到若干標準化的問題,例如:圖像在制作及呈現時分別有不同的解析度,以滿足不同的需求;另外黑白及彩色圖像的儲存格式也不同。例如上海圖書館掃描古籍目前采用TIFF格式存儲黑白圖像,采用JPEG格式存儲彩色圖像,黑白掃描設定為200-300dpi,彩色掃描設定為100-150dpi。建立古籍影像數據庫的技術瓶頸包括:中文文字辨識系統、儲存媒體、文件影像分析處理技術,其中中文文字辨識技術為最大技術瓶頸所在,也是系統自動化處理的最大障礙,今后應該尋求能夠辨讀各種語文、字形、字體的技術,并且開發失真率低、壓縮比高的影像壓縮技術;在文件影像分析處理方面,也要針對古籍的特性及需求加以考慮;此外,預計將來制作古籍影像的資料相當大,所以為了將來的管理及資源共享,有必要對其儲存的格式、媒體及相關環境的控制等問題建立標準化。
3.2 研發古籍檢索與管理系統
古籍全文數據庫解決方案,應當具備數字處理、文件解析、文字識別、容錯性檢索等,經過上述加工后的全文,可以以完全不失真的方式重現古籍原文,并且可以實現全文檢索。由于漢字的別體存在,也就是古今字、通假字、異體字以及新舊字形等問題,會導致多檢和漏檢。目前的技術尚不能對手寫或木刻的古籍進行有效辨識。同樣,語義的切分及別稱等問題,也都會導致漏檢或多檢。對于古籍數據庫的檢索與管理,希望將來能開發出一套最適合制作古籍影像及全文數據庫的理想方案。在全國范圍內實現古籍全文檢索與管理,應打破館藏壁壘,整合各個圖書館乃至研究所、高校以及商業機構的資源,積極鼓勵各方協同參與數據庫建設,實現古籍資源的檢索便捷性與兼容性,全面掃清古籍數字化發展的障礙,實現古籍信息資源共享。
3.3 大力推進古籍的合作編目
合作編目應該是現有建立書目數據庫的可行方式,合作建立中文古籍書目數據庫涉及以下兩項因素:設法整合建檔的書目資料;共同探討各種相關的規范。尤其后者是建立中國古籍書目數據庫的基本工作。具體而言,古籍的合作編目所牽涉到的問題包括:收錄范圍及類型、著錄規則、分類及標題方式、建檔格式、中文內碼等,這些問題的解決有賴共同制訂合適的標準并付諸實施。
當前主要古籍書目數據庫著錄標準基本依據《CALIS古籍聯機合作編目規則》《古籍著錄規則》(GB/T3792.7-2009)等。CALIS聯機合作編目中心是中國高等教育文獻保障體系的兩大服務中心之一,2000年3月CALIS聯機合作編目系統正式啟動,以高校為主要服務對象,開展了聯機合作編目、編目數據批量提供等業務,一些高校圖書館采用了CALIS著錄古籍,但僅限于成員館,而且僅針對高等學校。CALIS古籍聯機編目使用統一的編目客戶端、統一的著錄標準、統一的數據格式、統一的分類法,對國內古籍聯合目錄的建設具有示范作用,但應進一步增加成員館,尤其是吸收公共圖書館等古籍單位加入進來。
3.4 制訂適合古籍的元數據標準
目前,古籍文獻逐漸成為建設數字化圖書館的重要內容,和館藏古籍數字化相比,后期的檢索功能和實現顯得更為重要,需要不斷完善數據庫的信息檢索。元數據是對館藏古籍屬性的一種描述,其目的在促進數據庫中對館藏古籍數據的檢索、管理與分析。所以館藏古籍的數字化和網絡化,除了對古籍本身進行數字化外,還需要建立書目信息并作適當的信息組織,以便提供有效的檢索方法。古籍既然是圖書館館藏文獻中比較珍貴和難得的資源,所以我們在數字圖書館的環境中來探討古籍整理與利用,首先需要重視元數據的發展及其和古籍的關系。
北京大學數字圖書館古籍元數據就是在此領域的良好嘗試,它基于先進的網絡技術和最通用的XML網絡傳輸語言,用戶不必安裝任何軟件,即可實現WEB界面的聯機編目;具有強大的圖文管理功能,從而方便地實現目錄、圖像、全文之間的連接和管理;簡化了MARC格式中的定長字段,使編目界面變得直觀而簡潔,無論是專業編目員還是非專業編目員,都可以參與古籍編目工作。除了主題和分類之外,它一般不再另行設置為檢索而用的字段,最大限度地將著錄與檢索結合在一起。
3.5 古籍數據庫的標準
古籍數據庫建設的標準化主要表現為兩個方面:一是數據庫管理系統的標準化;二是數據庫數據著錄的標準化。
3.5.1 數據庫管理系統的標準化
在執行標準化和規范化的過程中, 特別是在描述語言和標引語言方面,必須盡可能采用國際、國內通用的數據著錄標準、數據格式標準、數據標引標準、規范控制標準及協議進行系統化、邏輯化組織。主要標準包括:通信標準(TCP/IP)、字符編碼標準、標準通信置標語言/可擴展置標語言(SGML/XML)、元數據(METADA2TA)標準、檢索語言標準、安全標準等等。這樣既有利于實現本校數字圖書館系統與其他系統數據庫之間的轉換和互聯、互訪,同時又為用戶節約了檢索時間和費用,提高了檢索效率,實現共建共享的目標。
3.5.2 數據庫數據著錄的標準化
(1)在對古籍進行數字化時,根據版本的優劣來進行選擇,這勢必會嚴重影響古籍數字化的質量,盡可能選用善本來數字化。然而在對不同版本進行比較、校勘外,也要盡可能提供其他未被選用的版本信息,以供研究者參考。
(2)對文獻的文本內容進行校勘整理,保留前人留下的校勘記、批注等內容,為讀者提供其他版本異同的內容,了解版本整理的經過。就形式方面,應將各版本的版本信息,諸如版本類型、版刻年代、刻工姓名、牌記、卷端、行款、字體、墨色等通過技術手段加以保留。
(3)對古籍的內容進行深度標引就非常有必要, 在實際標引過程中不應放過任何含有學術信息的關鍵詞,比如文獻中的人名、官階、地名、年號、典故、制度、族屬、語詞、范疇和其他專名等都應制成索引,力求做到從任何角度都能檢索到讀者所需要的信息。對于存在的同書異名、同名異書、同一作者的不同稱謂等問題,可借鑒傳統文獻整序時采用的“名稱及主題規范檔”“權威檔”等方法對關鍵詞進行規范控制。例如添加年號與公元紀年對照表、歷代官階序列表、家族世系表、姻親關系表、地名沿革表、人名字號表等。
(4)古籍數字化一定要注意文件格式標準化問題。當前數字化古籍的文件格式可謂五花八門,種類繁多。除了常見的txt、doc、html格式外,還有exe、pdf等為核心的全方位電子文獻全文檢索格式。這些不同格式的文件,往往需要各自專門的閱讀器才能進行瀏覽,相互之間難以兼容,給讀者造成了不少麻煩。而且,由于許多圖書采用了圖片格式,也給使用者提取資料帶來了許多困難。我們需要正確處理好版權保護盒便利使用之間的關系。
4 結語
綜上所述,隨著信息技術的不斷發展,隨著網絡的迅猛普及和發展,數字圖書館中的古籍整理不只是技術的變革,更意味觀念的更新。新的信息技術和網絡技術將會使古籍以更為便捷的方式服務讀者,是圖書館為讀者提供更深層的服務,并通過網絡來傳承文化弘揚國粹。面對經濟全球化的到來,面對數字時代的降臨,圖書館應抓住機遇迎接挑戰,通過館藏古籍的數字化來保存祖國文化瑰寶,傳承和弘揚傳統文化,是圖書館人義不容辭的責任和義務,圖書館應當重視古籍保護和整理開發的意義,積極開展多種多樣的數字化工作來真正實現對古籍的保護。