■阮曉東
古籍數據庫利用探索
■阮曉東
我國的中文古籍數字化工作自20世紀80年代以來逐步推進,并取得了較為顯著的成果。先后建成了一系列大、中型古籍數據庫,具有代表性的如《古今圖書集成》數據庫、《文淵閣四庫全書》電子版、《中國基本古籍庫》、書同文全文檢索系統。這些數據庫,為文史工作者進行學術研究提供了極大的便利。
而作為圖書館工作者,則可以利用這些古籍數據庫,進行本館特色資源的開發和建設,或編制專業工具書等,收到事半功倍的效果,對此我們做了一些探索。
古籍數據數字化形式主要有古籍書目型、全文型、全圖像型和圖文型。
古籍書目型數據庫是最早建立起來的有關古籍資料的數據庫,只能說是古籍數字化的雛形。它將館藏古籍的書目、著者、分類、索引等信息錄入計算機而形成,其代表是南京圖書館建立的中文古籍書目數據庫,共收錄了40萬條數據。再有是我國清華、北大兩所高校各自編撰的館藏古籍書目數據庫,其資源庫投入使用后,極大的方便了讀者。
全文型古籍數據庫是通過手工或者掃描錄入古籍資源,形成電子文本,供用戶查詢。優點便于閱讀,便于檢索,儲備量大且存儲空間小,缺點文字錄入艱難,無古籍原貌。其代表可見臺灣的漢籍全文資料庫。
全圖像型古籍數據庫是直接通過掃描,以圖片格式,配以標引,再進行分類存儲,目前是各大圖書館采用最多的手段。優點是保存古籍原貌,缺點是檢索困難。其代表為武漢大學出版社以文淵閣本《四庫全書》為底本的“四庫全書光盤版”。南京圖書館2010年推出的《中國近代文獻圖像數據庫》,目前已匯集中華民國時期文獻中的圖片十余萬幅。
圖文型古籍數據庫是在存儲古籍圖像基礎上,將書中具有檢索內容數字化,借助軟件工具,讀者可以快捷的查詢。
全文圖像型,是通過光學掃描,獲得古籍的原始影像,再經過修正、標引、編輯等工序,將此影像直接存入數據庫中。這種數據庫,其制作優勢是方便快捷,不必對古籍文字進行錄入、識別和校對,且其內容完整,原汁原味。缺點也很明顯,它其實就是紙本圖書的圖像版。雖然有一些輔助檢索功能,但檢索點少,實用性不高。
全文檢索型,其制作方式,一是通過人工文字錄入,獲得可以任意編輯的文本文字,這是目前采用的主要方式。二是通過光學掃描后,采用文字識別軟件,對掃描出的原書圖像進行分析和識別,產生可編輯的文本文字。由于古籍印刷方式多樣,且字體差異大,并含有異體字,缺筆避諱字等,采用通用文字識別軟件進行識別極為困難,除非花高價專門設計針對特定圖書的文字識別軟件,因此無法普及。
總之,全文檢索型古籍數據庫制作困難,要進行大量的文字錄入、校對等人工勞動,費工費力,造價昂貴。但其優勢也極為明顯,即可以進行任意字詞的全文檢索,實現查全查準,這是古籍電子資源最重要的優點之一。
當前,大大小小的古籍數據庫層出不窮,為我們利用古籍數據庫制作圖書館特色數字資源和編制專業工具書提供了極好的條件。而要合理地利用古籍數據庫,首先需要對其進行科學的選擇。我們的選取原則,是優先選擇大、中型全文檢索型數據庫。
以南京圖書館的中文電子文獻為例,目前我們可以獲得的古籍全文檢索型數據庫如下:
《瀚堂典藏》古籍數據庫:此數據庫采用大字符集和通用瀏覽器模式。以小學工具類、古代類書類數據、出土文獻類數據為基礎,大量納入包括經、史、子、集四部、中醫藥典籍、古典戲曲、敦煌文獻、儒、釋、道等歷代傳世文獻,文字總量超過15億字,篇幅驚人。
《瀚堂近代報刊》數據庫:這是瀚堂公司推出的另一大型數據庫。到2011年,全庫數據總量約300萬筆,圖文對應的報刊圖片近80萬幀。并匯集了300多種清末至民初的報紙和刊物。
《瀚堂典藏》新增分庫:這是瀚堂公司2010年推出的《古本小說》分庫,收錄唐以前至民國初年的志人類、志怪類、傳奇類、話本類、章回類、短篇類等,文言、白話小說書目約400種。
《文淵閣四庫全書》電子版:清代乾隆年間編纂的《四庫全書》,是中國古代最大的一部叢書。其電子版共收書3461種,總字數約七億字,全書分為經、史、子、集四部,內容涵蓋廣博,包括哲學、歷史、文藝、政治、社會、經濟、軍事、法律、醫學、天文、地理、算學、生物學、農業、占卜等。
中國基本古籍庫:分為4個子庫、20個大類和100個細目,共收錄上自先秦,下迄民國的歷代名著和各學科基本文獻一萬種,每種均提供一個通行版本的數碼全文,和1-2個珍貴版本的原版影像。總計收書約17萬卷,版本12500多個,全文17億字,影像1200萬頁。
書同文全文檢索系統:南京圖書館試用其全文檢索產品有:《大清五部會典》《大清歷朝實錄》《四部叢刊》及增補、《歷代石刻史料匯編》和《十通》等。
此外,還有南京圖書館自建的館藏古籍全文數據庫等。
上述這些大、中型全文檢索型數據庫,我們可以在館內直接獲取,而無需付出任何費用,尤其是其中的大型全文檢索型數據庫,是我們編輯專業工具書,制作特色數據庫的主要工具。
這里以《文淵閣四庫全書》電子版的利用為例,探討編輯《中華大典·軍事典》和制作“金陵掌故”特色數據庫的方法和技巧。
1、編撰《中華大典》的實踐和體會:《中華大典》是國家“十一五”時期文化發展規劃綱要的重要項目。這部類書巨著,共設24個分類典。其中《中華大典·軍事典》的編纂工作,于2009年4月正式啟動。
《軍事典》共設6個分典,其中《軍事人物分典》,由南京政治學院擔負編纂任務,南京圖書館是其合作單位。這也是南京圖書館為科研單位提供高端服務的一次有益嘗試。《軍事人物分典》內容涉及上迄先秦,下至辛亥革命的數千年的軍事人物,以及浩如煙海的歷史典籍。
編輯《軍事人物分典》這一類專業工具書,首先必須從成千上萬種古籍中篩選出最核心的善本典籍,制定為專用書目,從而為古籍的使用劃定一個科學合理的范圍。以后還可以根據專用書目,查找原始的善本資料。而單純用人工方式,通過對紙質文獻進行逐類逐種篩選,其工作量驚人,且難以全面準確地查出所有核心文獻。我們采用《文淵閣四庫全書》電子版,輔以其它古籍數據庫,再通過對原始古籍的檢索查詢,較好地完成了編制專用書目的任務。
《文淵閣四庫全書》電子版界面友好,易學易用,除了支持全文檢索,可以進行整段、片段甚至單個字詞查詢,還具有一些實用而重要的功能,例如原始文獻對照功能。用戶在閱讀文本文檔時,可以隨時調閱原始的掃描影像,進行對比校對,有利于保證文字的正確性。還有單種文獻查詢功能,即可以針對某一類型甚至某一種書進行全文查詢,即提高了檢索結果的單純性,也提高了檢索速度。此外,《文淵閣四庫全書》電子版不僅有網絡版,也有單機版,便于用戶在圖書館以外的地方獨立工作。這些優點,使我們可以在較短時間內組織專人,利用此數據庫進行所需的加工制作。
以我們負責的魏晉南北朝時期為例。按計劃,選有軍事人物約150人。我們選擇了其中的重要人物30余名,將其姓名逐個輸入“四庫全書”數據庫中,進行查檢。例如曹操,以其本名及魏武、魏公、阿瞞等作為檢索詞,搜得相關結果一萬余條。逐條閱讀,以篩選出包含重要內容的古籍,再經參照其他古籍數據庫,得出用于魏晉南北朝時期的專用書目。其中經類書25種,史類書140種,子類書90種,集類書100種。最后,再從館藏中查找出列入書目中的較好版本的古籍,完成通用書目的編制。
通用書目完成后,即可進行軍事人物詞條的檢索和選取。同樣,以曹操的相關稱謂為檢索詞,分別從經、史、子、集四部得到相關記錄。其中僅曹操一詞即檢出四千余條記錄。逐條篩選,獲得時間早、內容豐富、罕見的條目,而剔除大量簡單重復的記錄。
這些極大檢索量的工作,采用手工勞動方式是無法完成的。
2、制作《金陵掌故》全文數據庫的實踐和體會:《金陵掌故》數據庫是我們初步開發的一個地方文獻數據庫。其收錄范圍,涉及上古到清代與南京有關的盡可能多的文獻,包括圖書(含單篇文章)庫和詞條庫兩部分。其內容以地理、歷史、風俗及與之相關的人物、故實為主。數據庫按分類組織,支持全文檢索,其文字可以任意復制和編輯。
初期制作中,我們從《四庫全書》電子版等古籍數據庫中,提取相關古籍電子資源,如《景定建康志》《江南野史》《至大金陵新志》《金陵百詠》《六朝事跡編類》等數十種,另制定了掃描計劃,擬將一些沒有電子文本的南京地區的地方文獻進行文字錄入,與現有電子文獻共同形成文本型的圖書庫。
詞條庫部分,設置歷史、地理、風俗、人物,文學等大類,其下再逐級設置二級和三級等類目,進行深度的細分。例如地理類的,則按傳統方式,設置城邑、山陵、湖沼、河流、樓臺等二級類目,以及各自的三級乃至四級類目。
詞條的選取方法,首先是利用《四庫全書》電子版等古籍數據庫,對相關詞條進行搜索、比對,選擇出最原始,或內容最豐富的詞條。最后根據預先制定的標引規則進行標引。在此搜檢過程中,還可能不斷發現和充實新詞條,使特色數據庫更加完善。限于篇幅,這里就不詳述了。
需要注意的是,現行古籍數據庫的古籍,絕大多數未斷句和加標點。而我們據此制作的特色數據庫,考慮到普及性和可讀性等因素,需要斷句和加上句號、逗號等基本標點。這是一項嚴肅且較為艱難的工作。應直接套用中華書局及各省正規古籍出版單位出版的標點本同一圖書,進行斷句和標點。確實沒有合格的同一紙質文獻,再考慮聘請專家,進行標點工作。
近幾年來,我國古籍電子資源建設的步伐不斷加速,2011年,文化部發布了《關于進一步加強古籍保護工作的通知》,要求加快古籍的數字化建設。2012年5月,文化部主辦了“全國古籍數字化建設與服務工作研討會”,對全國古籍數字化合作服務機制、國內外古籍數字化保護利用、古籍數字化成果共享方式和古籍數字化標準規范等問題進行了研究,并提出了要求。國家古籍保護中心和各省級古籍保護中心進行了規模宏大的中華古籍數字資源庫的建設。
長期以來,圖書館大量投資,致力于古籍數據庫的購置和自建,供用戶科研學習之用,而對圖書館自身如何利用這類數據庫,制作二三次文獻或特色數據庫,乃至進行其它電子資源的開發,似并未加以關注。特撰寫此文,拋磚引玉,希望引起同仁們的廣泛重視,從而使大量涌現的古籍數據庫不僅是用戶學術研究的工具,也是圖書館工作者拓展服務的利器。