摘要:古籍檔案的保存與使用是目前我國乃至世界的一個至關重要的研究課題,古籍數(shù)字化已取得了很大成果,但依然存在底本繁復、選擇眾多、協(xié)調機構和著錄規(guī)則不統(tǒng)一等問題。因此,要加強古籍檔案標準的研究和制定工作;慎重選擇底本,搞好古籍資源庫建設;同時要做好人員的培訓工作。
關鍵字:中文 古籍檔案 數(shù)字化
古籍屬于非再生性的文化遺產,古籍隨著時間的推移,在數(shù)量上將會不斷減少。如何保存好現(xiàn)有古籍,已成為檔案和圖書界最為嚴峻的任務。國外收藏的中文古籍數(shù)量目前還沒有一個確切的統(tǒng)計,但大部分古籍正遭受殘損亟待搶救的情況是不爭的事實。由于圖像掃描技術具有簡單快捷、成本低廉且保存長久等優(yōu)勢,古籍數(shù)字化應該是解決這一問題的有效途徑。
一、我國古籍數(shù)字化的研究現(xiàn)狀
為了傳承中國傳統(tǒng)文化,香港、臺灣和大陸地區(qū)的古籍數(shù)字化形成了互為補充、共同發(fā)展的局面。
1.港臺地區(qū)的古籍數(shù)字化情況
20世紀80年代,臺灣和香港就開始了古籍的數(shù)字化工作。上世紀80年代,臺灣中央研究院開始了“史籍自動化計劃”,建立了廿五史全文資料庫。1988年,香港中文大學中國文化所研究成立“漢達古文獻數(shù)據(jù)庫中心”,是研究所“古文獻數(shù)據(jù)庫研究計劃”的專門出版單位,也是香港從事古籍數(shù)字化工程的中堅力量。
2.中國大陸古籍數(shù)字化研究現(xiàn)狀
與港臺相比,大陸的古籍數(shù)字化工作起步稍晚,但發(fā)展迅速,大有后來居上之勢。北京書同文數(shù)字化技術有限公司制作了文淵閣《四庫全書》(與迪志文化出版有限公司合作,2000年完成)、《四部叢刊》(2001年完成)、《歷代石刻史料匯編》(2004年完成)、《十通》(2004年完成)、《大清五部會典》(分別編撰于康熙、雍正、乾隆、嘉慶、光緒五朝)、《大清歷朝實錄》等電子文獻。北京愛如生數(shù)字化技術研究中心是大陸很有實力的古籍數(shù)字化專業(yè)公司,它制作完成的數(shù)字化古籍總數(shù)在3萬種以上,是目前大陸制作數(shù)字化古籍最多的公司。同時,一些大型的網站也在開發(fā)古籍數(shù)字化的工作。比如,國學網依托首都師范大學組織國內一批文史專家,經過長達多年的資料搜集,電子化校勘, 建成了一個總字數(shù)達8億的大型中華古籍全文數(shù)據(jù)庫——《國學寶典》。
二、中文古籍數(shù)字化存在的問題
1.版本眾多,底本的選擇優(yōu)劣不一
中華民族文化源遠流長,各種典籍版本眾多,僅《紅樓夢》的版本就可分為兩個系統(tǒng):一是八十回抄本系統(tǒng),題名《石頭記》,大都附有脂硯齋評語,又名“脂本”系統(tǒng)。另一種是一百二十回本系統(tǒng),即程高本,有所增刪。 這兩個系統(tǒng)中又有甲戌本、乙卯本、庚辰本、戚序本等等。古人強調,“書非校不能讀也”。因此在進行古籍數(shù)字化時如何選擇善本作底本,同時也要和其他的一些版本精心校對拾遺補闕等。并且由于保存條件以及紙張本身的原因,各種善本藏書很多已經受到了損毀,字跡不清、殘缺等等現(xiàn)象嚴重。
2.缺乏統(tǒng)一的協(xié)調機構及著錄規(guī)則
從2002年開始,中國科學院文獻情報中心、中國科學技術信息研究所等21家單位制定了一些與中文古籍數(shù)字化相關的標準和規(guī)范,如:《古籍描述元數(shù)據(jù)著錄規(guī)則》、《古籍描述元數(shù)據(jù)規(guī)范》、《輿圖描述元數(shù)據(jù)著錄規(guī)則》、《輿圖描述元數(shù)據(jù)規(guī)范》、《拓片描述元數(shù)據(jù)著錄規(guī)則》、《拓片描述元數(shù)據(jù)規(guī)范》、《家譜描述元數(shù)據(jù)著錄規(guī)則》、《家譜描述元數(shù)據(jù)規(guī)范》等等。但各館及數(shù)字資源生產商都是各自為戰(zhàn),給將來的統(tǒng)一檢索留下隱患。因此,古籍數(shù)字化工作亟須一套完整的標準規(guī)范。
3.古籍數(shù)字化過程中的相關技術問題
漢字的處理是古籍數(shù)字化工作的重點和難點問題。這與電子文本需要字庫支撐的特點有直接的關系,而字庫中漢字容量是有限的。古籍中眾多繁體字、異體字、通假字、避諱字的存在,前人編撰古籍技術的不規(guī)范,都使計算機的文字編碼不敷應用。目前業(yè)界大多采用Unicode作為文字處理的標準,但Unicode定義的漢字也只有7萬多,并不能囊括現(xiàn)有古籍中的全部漢字,可以說缺字是古籍數(shù)字化的瓶頸。
OCR雖然是一種較為先進的自動化信息資源輸入技術,但對圖像質量、文字規(guī)范化程度要求較高,在對近現(xiàn)代文獻的數(shù)字化工作中應用較廣。由于古籍普遍存在字跡模糊,墨點、污漬和霉斑較多的特點,如果在OCR處理過程中,不能有效識別這些信息,在電子文本上就會留下大量亂碼和不規(guī)則暗痕。部分手抄本古籍則無法通過OCR識別原文內容。
三、關于古籍數(shù)字化的相關建議
1.加強古籍數(shù)字化標準的研究和制定工作
要想建立一個完整的中國古籍數(shù)據(jù)庫,使用戶一上機就能縱覽古籍全貌,按圖索驥,用其所需,就要實行統(tǒng)一的、行之有效的機讀目錄格式,重視統(tǒng)一標準的研究和制定工作,是古籍數(shù)字化資源共享首先要解決的問題。古籍數(shù)字化只有在題名、編著人、卷冊頁碼、刻工、文獻形態(tài)等條目上實現(xiàn)系統(tǒng)完善的著錄,執(zhí)行統(tǒng)一的分類標準和分類原則,才有可能使制作出來的產品易于讀者操作和便于讀者訪問,實現(xiàn)古籍數(shù)字化成果和價值真正意義上的資源共享。這些標準的制定不僅要由圖書情報界、信息產業(yè)界和與標準相關的軟件開發(fā)商參與而且也要有從事古籍整理的專業(yè)人員參與,只有這樣才能為讀者提供一個共享古籍文獻的統(tǒng)一平臺。
2.慎重選擇底本,搞好古籍資源庫建設,實現(xiàn)古籍檔案檢索網絡化
在底本的選擇上,慎之又慎,優(yōu)中選優(yōu),善本的損毀程度直接決定了所制作的電子產品的優(yōu)劣,所以如何選擇底本,應以善本為要。善本,通俗的說,就是古書中保存較好的書。善本是我國珍貴的文化遺產的一部分,合理利用,認真選擇,利用電子版本保存更加有利于我國文化遺產的保存。
3.提高人員素質
從事古籍數(shù)字化工作的人員既要掌握古籍整理的專業(yè)知識,又要精通現(xiàn)代信息技術。因此古籍資料數(shù)字化是傳統(tǒng)學術方法與現(xiàn)代科學技術的結合。要確保古籍數(shù)字化工作的順利開展,急需培養(yǎng)一批既具備古籍整理知識又能熟練應用現(xiàn)代信息技術的高層次復合型人才,不僅要意志堅定,不為金錢名利所動,而且要具有一定的文化修養(yǎng)和崇尚科學的精神。
參考文獻:
1.毛建軍.古籍數(shù)字化的概念與內涵[J].圖書館理論與實踐,2007(04).
2.郝淑東,張亮,馮睿.古籍數(shù)字化的發(fā)展概述[J].情報探索,2007(07).
3.毛建軍.歐美地區(qū)中文古籍數(shù)字化概述[J].數(shù)字與縮微影像,2008(01).
4.孟忻.古籍數(shù)字化的現(xiàn)狀與發(fā)展方向[J].中國索引, 2008(01).
5.黃顯功.上海圖書館的家譜數(shù)字化資源服務——古籍保護效果的一個實例[J].圖書館學刊, 2008(01).
作者單位:河北省交通職業(yè)技術學院
河北師范大學圖書館