[摘 要]本文通過分析歷史文獻數字化選題重復問題的原因,提出遵循合作、主題、特色原則進行歷史文獻數字化,可以有效避免重復建設。通過對比,詳細分析了數字化實踐中幾種數字化模式的優缺點,舉例探討了相應的數字化流程。結合清華大學圖書館館藏歷史文獻數字化實踐,總結出適合歷史文獻特點的數字化流程,并分析了該流程存在的不足以及應該完善的環節。
[關鍵詞]歷史文獻;數字化;實踐
[中圖分類號]G253 [文獻標識碼]A [文章編號]1008-0821(2010)05-0049-04
Preliminary Exploration on Digital Practice
of Collection of Historical DocumentsLiu Congming
(Library,Tsinghua University,Beijing 100084,China)
[Abstract]In this paper,the causes of the issue of duplication on digitization of historical documents were analyzed,and following the principles such as cooperation,themes and characteristics to avoid redundant construction were proposed.By comparison,a detailed analysis between two digital modes was given,and the corresponding digital processes by some examples was discussed.A digital process which is appropriate to historical documents combining with the digital practice of Tsinghua university library collection of historical documents were summarized.At last to improve and perfect the digital process was pointed out.
[Keywords]historical documents;digitization;practice
歷史文獻是文獻的重要組成部分,也是圖書館的重要館藏。不僅具有重要的學術價值,還具有較高的文物價值。長期以來存在著“藏”與“用”的矛盾,網絡環境下這一矛盾日益突出。圖像處理技術、存儲技術以及信息檢索技術的發展與完善為有效解決這一矛盾創造了良好的技術條件,為館藏歷史文獻的數字化提供了堅實的基礎。
1 歷史文獻數字化選題策略分析
歷史文獻的數字化并不是將所有的歷史文獻都數字化,更不可能同時將其數字化,必須對歷史文獻進行篩選,所以資源的選擇問題是歷史文獻數字化首要解決的問題。從近年來歷史文獻數字化實踐來看,多數圖書館主要是將具有館藏特色、較高保存價值以及使用頻率高的歷史文獻進行了數字化。例如美國國會圖書館,在上世紀90年代啟動的“美國記憶”項目,就是將其館藏的反映美國200年來歷史和文化的歷史文獻進行數字化[1]。又如,1997年,國家圖書館將其具有館藏特色的地方志、拓片、甲骨文等歷史文獻進行數字化,之后逐步形成以自建資源為主的特色歷史文獻資源庫。
自上個世紀末歷史文獻大規模數字化以來,在規模和數量上取得了相當顯著成績,但同時也出現了一些影響歷史文獻數字化發展的問題。例如,在古籍數字化進程中的一個比較突出的問題是缺乏統一規劃,項目集中在一些大型叢書或現成的匯編之上,而一些雖有價值但需要花費較大力氣開發的古籍項目則鮮有人顧及[2]。如此的重復建設不但造成了資源的浪費,更不利于歷史文獻的開發、研究與利用。選題重復問題是學者們早就提出的需要注意的問題,但由于多種原因,確實出現了一些重復數字化的問題,例如多家齊上圖像版《四庫全書》[3],而且多數沒有進一步的深層次開發,只是簡單的重復建設。筆者認為,資源選題重復問題主要集中在《四庫全書》、《四部叢刊》等大部頭的歷史文獻。之所以重復,首先由于這部分歷史文獻屬于熱門文獻,利用者研究者較多,無論是商業機構還是收藏機構都希望將其數字化;其次這部分歷史文獻數量大規格比較統一,數字化難度較小比較容易統一模板。針對這種情況有學者建議與其大家都爭著搞《四庫全書》,不如規避重復,另辟蹊徑,打造特色精品,填補空白[4]。通過筆者多年的實踐分析認為,在歷史文獻數字化選題時應采取以下策略:
11 主題原則
歷史文獻不同于一般的傳統資源,各個圖書館收藏的種類范圍有所不同。根據館藏特點積極開展主題建設,不僅避免了歷史文獻數字化選題重復問題,同時也在一定程度上兼顧了數量較少但用戶需求的歷史文獻。清華大學圖書館根據館藏歷史文獻的特點,積極開展主題建設,收集了中國古代機械史典籍以及清華大學中國工程發明史編輯委員會抄錄的卡片等歷史文獻,建成“機械史數字圖書館”[5]。將館藏的中國古代重要水利典籍、民國時期水利著作以及有關中國水利史的研究論著等歷史文獻數字化,建成“水利史數字圖書館”[6]等主題鮮明的歷史文獻數字資源庫。
12 特色原則
圍繞特色進行歷史文獻數字化,在避免重復建設的同時還可建設特色數字化資源。北京大學圖書館具有豐富的善本古籍、普通古籍、金石拓片等珍貴的歷史文獻,充分考慮館藏歷史文獻的特點,逐步將這些歷史文獻進行數字化,并建設成為包括古文獻目錄、圖像、全文數據庫在內的“秘籍琳瑯——北京大學數字圖書館古文獻資源庫”,以便用戶通過網絡檢索、瀏覽[7]。
13 合作原則
廣泛開展合作是解決歷史文獻數字化選題重復問題的有效途徑。在歷史文獻數字化過程中,如果能夠廣泛開展國內外合作,統籌規劃,可以有效避免選題重復問題。2002年,由浙江大學和中國科學院研究生院共同牽頭的CADAL項目[8],為國內眾多高校圖書館館藏歷史文獻的數字化提供了建設平臺。各個參建圖書館,首先按照標準格式填寫擬數字化清單,然后由指定圖書館進行資源查重,并返回正式數字化清單。按照剔除重復的正式清單進行數字化,有效地避免了資源的重復建設。
遵循主題原則、特色原則進行歷史文獻數字化建設,在一定程度上可以避免資源的重復建設,但也需要注意整個過程的標準規范問題,以及數字資源的發布利用平臺的選擇等相關問題,否則由于標準的不統一,將會給資源的整合造成不必要的困難,甚至需要重新進行數字化。在一定程度上,廣泛開展合作更加有利于歷史文獻的數字化。
2010年5月第30卷第5期館藏歷史文獻數字化實踐初探May,2010Vol30 No52 歷史文獻數字化深度開發問題
解決了歷史文獻數字化的選擇問題之后,擺在我們面前的便是歷史文獻的深度開發問題。加強歷史文獻數字化的深度開發,意味著對資源開發者在技術和思路上提高了要求,這將有效地限制諸多數字產品開發商的一擁而上、匆忙上陣,從而減少因低水平重復建設造成的浪費[9]。對目前正在進行的歷史文獻數字化工作具有現實指導意義[3]。
歷史文獻數字化的深度開發就是充分利用現有的數字化技術,從形式到內容多方面對歷史文獻進行數字化,不僅從利用形式上下功夫,更應該從歷史文獻的內容上進行深層次挖掘。有學者認為,今后至少可從三方面進行深度開發:提供基于超文本的立體閱讀環境,建立強大的智能化檢索系統,提供科學、準確的統計數據和信息分析[9]。因為歷史文獻數字化目的和作用,不僅是通過數字化減少研究人員查找歷史文獻的時間,更是利用先進的數字化技術,提供深層次的知識與內容服務。近年來南京農業大學,以重要的農業典籍《齊民要術》為主要信息源,搜集與其相關的綜合性信息,如多個版本典籍、作者信息、相關著作、期刊論文、會議論文、學位論文、報紙資料等,以建設專題特色數據庫的方式呈現給用戶。其目的是嘗試建設一個農業古籍數字化模型[10],從而進行古籍數字化基于知識層次的深度開發與利用。清華大學圖書館在歷史文獻數字化深度開發方面做了一些嘗試,在“清華大學水利史數字圖書館”[6]歷史文獻資源庫建設時,不僅將有關水利史的歷史文獻進行數字化,同時將這些歷史文獻中有關黃河、運河的全圖提煉出來形成圖像資源庫,并對其進行標題、名稱、來源等項目著錄,研究者無需在原始文獻中查找,可以直接使用,目前已經完成清代黃河全圖79幅和運河全圖107幅。
3 歷史文獻數字化操作主體問題
在館藏歷史文獻的數字化操作時,操作主體將直接決定并影響歷史文獻數字化的整個過程,目前主要存在以數字化加工機構為主體的外包模式,以圖書館為主體的自建模式以及二者共同為主體的混合模式。
31 外包模式
在館藏歷史文獻的數字化操作時,將全部數字化工作外包給數字化加工機構,以數字化加工機構為主體的外包模式,是早期圖書館數字化操作時的一種選擇。外包模式具有一定的優越性,譬如,無需購買數字化設備以及引進專業人員,僅需支付數字化的費用;只需少許人員與外包單位人員配合即可,由于長期從事數字化工作,數字化效率較高;承擔較少的風險,無需承擔技術升級更新的費用。但也存在諸多不足之處,作為歷史文獻的擁有者,無法在資源數字化過程中積累經驗;無法介入數字化過程,在質量和數字化流程中控制較少;相關標準規范必須事先制定,臨時調整困難;數字化服務提供方對資源與用戶需求了解少;文獻資源必須進行傳遞與交接,需要完善的交接流程。
32 自建模式
近年來隨著圖書館人才技術力量的發展,有些圖書館根據自身特點,開始以圖書館自身為主體,并承擔全部的數字化工作,形成獨具特色的自建模式。自建模式具有一定的優勢,譬如,能夠在建設過程中積累豐富的技術與管理經驗,為資源數字化的研究提供第一手依據;能夠完全控制整個數字化流程,及時調整數字化過程的標準、規范,為數字化建設打下良好的基礎;能夠確保原始資源與數字資源的安全,確保數字化流程的正常進行;能夠直接參與到資源制作的全過程,能夠對資源數字化的各個環節進行質量控制。然而自建模式也有一些不足,在數字化之前就需要對設備與軟件進行大量調研;數字化技術與經驗需要不斷積累,數字化開始階段數字化效率較低;需要大量資金的投入以及人員的管理。清華大學圖書館,2003年依托CADAL項目組建了資源數字化中心,幾年來,參與并完成“水利史”、“機械史”、“清華文庫”等多項歷史文獻數字化項目。在積累了比較豐富的歷史文獻數字化經驗的同時,形成了一條完善的數字化生產線,目前擁有4臺FB6080E零邊距掃描儀、1臺AV3800高速掃描儀、1臺PS7000頁面向上掃描儀。近期將再次啟動CADAL項目的二期歷史文獻數字化項目的建設。
當然,在歷史文獻的數字化操作時,還有一些圖書館將部分特殊文獻的數字化工作外包,其余文獻的數字化工作自己承擔,形成數字化操作的混合模式。
在討論歷史文獻數字化操作主體時,有學者認為主要有三類機構,即大學教學和研究機構;各類圖書館,尤其是大學圖書館;各種商業性機構[11],并分析認為主體多元化是數字化工作中的混亂現象之一。通過清華大學圖書館館藏歷史文獻數字化實踐,筆者認為,由于歷史文獻的特殊性,多數歷史文獻比較珍貴,而且由于歷時較久,不太適合打包裝運,比較適合采取以圖書館為主體的自建模式。外包模式比較適合數字化規模巨大,資源交接相對簡單的項目。至于混合模式,在操作時需要考慮標準規范的統一,否則容易造成標準的不統一,給資源的整合帶來不必要的困難。其實隨著歷史文獻數字化的深度開發,究竟誰是歷史文獻數字化工作的主體,自然不需要爭論,因為歷史文獻數字化深度開發需要多方專家學者的力量才能逐步得以實現[9],圖書館作為專業的歷史文獻研究機構,不僅擁有豐富的歷史文獻,同時又有眾多歷史文獻的研究者,理應在歷史文獻數字化工作中扮演重要角色,成為歷史文獻數字化工作的主體,至于科研機構主要是利用這些數字化資源進行研究,而一些商業機構也只能是歷史文獻數字化工作中數字化加工服務的提供者和參與者。
4 歷史文獻數字化操作流程問題
在某種程度上數字化的流程設計取決于操作模式的選擇。下面討論幾種典型的數字化流程。
41 適用于外包模式的數字化流程
美國國會圖書館在實施數字圖書館項目時,將數字化流程劃分為以下6個步驟[12]:(1)資料準備;(2)簽訂數字化合同;(3)數字化加工;(4)質量檢查;(5)存檔;(6)組織成用于Web輸出的材料。
該流程是典型的外包模式下的數字化流程,正如“美國記憶”項目負責人里基#8226;歐韋在項目介紹時所言,將數字化外包給數字化服務機構,選擇這些承包人的標準是成本和成品質量,而不是轉換方法[13]。由此可見該流程主要關注數字化成本與數字資源的質量問題,至于如何數字化以及數字化過程的技術與經驗問題就不去過問,對于采取外包模式的單位是一個不錯的參考。
42 適用于自建模式的數字化流程
國內一些機構將數字化流程總結如下,主要包括文獻整理;掃描;OCR識別(如果需要實現全文檢索,可采用OCR技術);圖文編輯;圖文質量;重新裝訂以及備份等環節,并要求支持工序反饋,形成一個質量控制系統[14]。該流程比較全面地考慮了數字化過程涉及到的每一個環節,比較適合自建模式的數字化。在掃描環節采用高速掃描儀,也就是要將文獻拆分與重新裝訂,但由于歷史文獻不僅珍貴,而且紙質比較脆,在數字化時不宜進行拆裝,可見歷史文獻的數字化不太適合該流程。當然對一些適宜拆裝的現代文獻,如此操作可以提高數字化效率。
我們在歷史文獻數字化實踐中,總結形成下面的數字化流程,主要包括以下5個環節(見圖1):
(1)資源選擇:主要進行歷史文獻的選擇與查重工作;
(2)資源掃描:采用適當的掃描儀將歷史文獻進行掃描;
(3)圖像處理:主要包括前期圖像處理(包括圖像糾偏、去污等),圖像格式的轉換(由于不同用途需要的圖像格式等不同);
(4)資源制作:主要進行目錄制作、元數據著錄、電子書制作,為資源的發布利用準備;
(5)后期處理:主要是針對合格的數字資源進行存儲與備份,對于適合發布的資源進行發布利用。
從該數字化流程圖可以看出,我們在數字化流程設計時比較注重數字化過程中具體的環節以及數字資源的質量控制問題。操作人員能夠完全控制整個數字化過程,可以對每一個環節進行跟蹤,并對數字化環節及時調整。當然,我們還有需要改進的地方,比如在流程設計中沒有將數字化成本考慮進去,以及還需要將用戶反饋環節列入其中,構成一個比較完善的數字化流程。
圖1 數字化流程圖
5 結 語
歷史文獻數字化是一個實踐問題,從數字化選題到數字化操作都需要我們在實踐中摸索與總結。歷史文獻通過數字化,一方面,可以減少對原始文獻的接觸使用,有利于歷史文獻的長久保存,實現了它的文物價值;另一方面,有利于歷史文獻的開發利用,實現了它的學術價值。歷史文獻數字化不僅解決了歷史文獻面臨著“藏”與“用”的矛盾,同時也為歷史文獻的開發、研究打開了新的思路。
參考文獻
[1]About the Collections(American Memory from the Library of Congress)[EB/OL].http:∥memory.loc.gov/ammem/about/about.html,2009-12-10.
[2]吳家駒.中文古籍數字化的進展與主要成果述評[J].南京師范大學文學院學報,2004,(9):178-183.
[3]李國新.中國古籍資源數字化的進展與任務[J].大學圖書館學報,2002,(1):21-26.
[4]潘德利.中國古籍數字化進程和展望[J].圖書情報工作,2002,(7):117-120.
[5]清華大學機械史數字圖書館[EB/OL].http:∥elib.lib.tsinghua.edu.cn:9080/machined/htm/index.jsp,2009-12-17.
[6]清華大學水利史數字圖書館[EB/OL].http:∥hstc.lib.tsinghua.edu.cn/waterdb/index.jsp,2009-12-10.
[7]北京大學數字圖書館古文獻資源庫讀者檢索系統[EB/OL].http:∥rbdl.calis.edu.cn/pages/Introduction.htm,2009-12-10.
[8]高等學校中英文圖書數字化國際合作計劃[EB/OL].http:∥www.cadal.zju.edu.cn/index.action,2009-12-10.
[9]徐清,等.古籍數字化資源的深度開發[J].圖書情報工作,2007,(3):95-97.
[10]曹玲.農業古籍數字化整理研究[D].南京農業大學,2006.
[11]陳得媛.古籍數字化工作統籌協調機制的構建[J].中國圖書館學報,2009,(5):47-51.
[12]彭緒庶,蔣穎.資源數字化標準問題研究[M].北京:北京圖書館出版社,2005:182.
[13]肖燕.圖書館職業英語系列#8226;圖書館職業英語閱讀[M].北京:國家圖書館出版社,2009:184.
[14]黃萃.館藏文獻數字化調研報告[J].武漢大學學報:哲學社會科學版,2005,(6):880-884.