●胡以濤a,宋葉b
(南京農業大學a.圖書館;b.人文社會科學學院,南京210095)
抄寫本方志古籍數字化整理與實踐
●胡以濤a,宋葉b
(南京農業大學a.圖書館;b.人文社會科學學院,南京210095)
古籍;數字化;地方志;抄寫本
簡要介紹了南京農業大學抄寫本地方志古籍數字化整理過程,并通過實踐摸索提出了“圖文對照+文檔附件”的整理模式,以期為類似古籍整理工作提供經驗借鑒。
隨著中文信息處理技術的日趨成熟,其應用也從普通文本處理向古籍文本領域拓展,古籍數字化整理成為古籍保存利用的重要手段之一。由于古籍本身版本、形制、詞匯等差異性較大,普通的數字化加工整理方法并不完全適用于古籍整理。對古籍文獻如明清地方志進行數字化加工時,應根據古籍的特點,選擇適宜的整理方法。
上世紀五六十年代,著名農史學家、中國農業遺產研究室(現中華農業文明研究院)創始人萬國鼎教授組織專業研究人員60多名,分赴全國40多個城市、100多個文史單位,從8000多部方志中摘抄了3600多萬字的農史資料。該抄寫本方志資料內容涉及農業生產的各個方面,以動植物品種資源和相關的種植飼養技術為主,具有極高的科技、經濟和史料價值,成為世界上唯一一套明清方志古籍農業資料,受到國內外相關學者的高度重視。然而由于這套保存于線裝書文庫的孤本農業資料全由手工抄寫而成,隨著時間的推移,紙質日漸脆破,字跡逐漸模糊,亟待加強保護和搶救。開展抄寫本地方志數字化整理工作,能擴大農業科技古籍的共享范圍,提高公共服務水平,對于弘揚我國傳統文化,為現代農業的可持續發展服務具有重要意義,是一項十分迫切的工作。
近年來,研究院在各級項目的支持下,從事過一部分地方志的數字化整理工作,已有一定的研究與實踐基礎,如博士生衡中青關于地方志的研究,完成了《方志物產·廣東》信息系統的設計和構建。[1]本文在借鑒前人研究的基礎上,參考古籍數字化整理的一般方法,如古籍數字化工作過程及相關元數據、建庫技術等介紹,[2]結合南京農業大學明清方志農業物產數據庫建設項目的具體實施實踐,進一步梳理了地方志數字化整理的過程及要注意的關鍵問題。
抄寫本地方志,主要指人工摘抄的明清時期地方志資料,按歷史資料分期,其應屬于古籍整理范疇。毛建軍認為古籍數字化就是從利用和保護古籍的目的出發,采用計算機技術,將常見的語言文字或圖形符號轉化為能被計算機識別的數字符號,從而制成古籍文獻書目數據庫和古籍全文數據庫,用以揭示古籍文獻信息資源的一項系統工作。[3]
目前國內主要采取三種整理模式,分別為圖像版、文字(全文)版、圖文版。這三種模式各有優劣。(1)圖像版全文數字化古籍是指將古籍書頁進行原文圖像掃描,存儲在光盤或計算機硬盤等介質上,從而為讀者提供文字圖像信息服務。圖像版數字化古籍的優勢是:技術實現容易,運行成本低廉,可以保存古籍原貌;其缺陷是:占據空間大,不能檢索。(2)文字版數字化古籍是指將古籍書頁轉換成文本字符的形式,存儲在光盤或計算機硬盤等介質上,并附加全文檢索和鏈接系統等功能,從而為讀者提供全文閱讀或全文檢索服務。文字版數字化古籍的優勢:儲存空間小,可以利用計算機進行多角度、多范圍的檢索、排序、分析數據,并可進行編輯、打印,使用起來非常方便;其缺陷是:文字輸入難度較大,開發成本高,不能保持古籍原貌。(3)圖文版數字化古籍就是圖像版與文字版的結合。圖文版數字化古籍將數據庫中加入了原文圖像,將全文檢索數據和底本圖像頁面版式相互對照,研究者可根據需要隨時參考原文圖像。顯然,圖文版數字化古籍是最理想的數字化古籍開發模式,其投入也相對較多。
然而,由于古籍文本一般是繁體中文,且非常用字較多,盡管目前已開發了中文超大字符集,如統一碼(Unicode)的CJK、CJK-ExtA、CJK-ExtB包括7萬余漢字通用Unicode字體支持,但古籍文字的錄入與顯示依然是個難題。基于此,在抄寫本地方志整理中,提出了改進版的圖文版整理模式——“圖文對照+文檔附件”,即采用原始掃描圖像+簡體中文文本+繁體中文文檔相結合的模式,既能實現圖文對照,又可以適應簡體中文檢索,最終還能充分利用繁體中文文檔。該模式生成的主要材料及獲取方法如下表所示。

表數字化整理后形成素材類型及目的
在抄寫本地方志數字化過程中,通過分析地方志紙本材料,結合整理利用的需要,選擇合適的整理模式,在此基礎上制定加工整理具體流程(如圖1所示),其數字化整理過程包括以下四個階段。

圖1 地方志數字化流程
3.1 準備階段
準備階段需詳細了解地方志古籍的數量、紙質情況、內容體例、類型分布等,并根據共享使用的需要選擇合適的數字化整理模式。為了實現一次加工,多次使用,避免重復建設,選擇了改進型的圖文對照模式,即采用“圖文對照+文檔附件”的模式進行整理,該模式能保證整個整理過程的高效率、最優化,滿足不同用途對資源格式的需要。
3.2 加工階段
加工階段是數字化整理的基礎工作,只有獲得高質量的原始圖像和精準原文文字,才能確保后期建庫共享的質量。
(1)圖像掃描處理。為了便于歸檔整理,本次整理按照抄寫本地方志的省份建立一級文件夾,按照書籍的原始數字編號建立二級文件夾,然后掃描文件依次采用掃描軟件自動流水生成,名稱為file0001. jpg~file9999.jpg。掃描分辨率設置為300dpi,真彩模式,保存為jpg文件,每頁原始圖像文件大約在4M左右。這樣一本書掃描完成后,掃描圖像數據可以直接用來原始存檔,可適用于圖像打印、印刷出版等。后期為了網上發布的需要,采用photoshop的批處理功能,把每本書的掃描圖像文件夾批量生成小圖片,依次命名為sfile0001.jpg~sfile9999.jpg。
(2)文字錄入校對。手抄本方志由人工抄寫完成,考慮到其字體差異以及繁體中文的字體構造復雜等特點,采用OCR文字識別效果不理想,因此,文字錄入校對工作主要采用人工手動完成。為防止錄入時文件名與頁面不對應,提高錄入質量,保證錄入后文件中的復雜繁體中文的正常查看顯示,設計了計算機自動生成書頁圖像對應文檔的批處理應用程序(如圖2所示)。首先建一個空word文檔templete.doc,通過批處理程序CreatDco.bat,根據掃描完成的原始數據圖像文件名,批量生成與原圖像文件同名的Word文檔,然后將生成的文檔發給錄入人員,由錄入人員在空白word文里錄入相應的繁體中文,從而確保了文檔與圖像的正確對照。
特別需要注意的是:在進行上述工作之前,需要在常用Windows xp系統下安裝支持Unicode的字體文件和安裝合適的輸入法,以確保系統能正常顯示、輸入手稿中的冷僻繁簡字。[4]
文字錄入工作完成后,由熟悉古籍及古漢語知識的本專業研究生或專業教師擔任文字校對員,可通過圖文對照模式進行一次全面校稿,并由審核老師對完成任務進行二校及抽樣校對,確保正確率在98%以上,以保證最終完成的古籍數字化資源的質量。

圖2 生成圖像對應文件名的空白Word文檔批處理程序
3.3 建庫階段
建庫階段主要進行整個數字化加工支撐平臺的開發或選擇。
(1)系統選擇。古籍數字化工作已有20多年的歷史,已有一些成熟的商業化加工平臺。本次加工選擇了由北京新星快威數碼技術有限公司開發的“DⅠPS數字文獻處理系統3.0”,其集成了信息資源的采集挖掘、加工整理、數據庫建設管理、內容發布與檢索利用等功能,適應大量資源管理。
(2)分類建庫。通過選擇的平臺,可以按照系統已有模版,建立地方志圖文數據庫。首先根據資源特點,參考系統提供的數據庫例子和自己的經驗,設計數據庫的庫結構(包括地方志圖文庫字段,每個字段的類型、作用,庫的顯示、檢索風格等等);其次制定方志文獻的分類表,如一級分類采用方志綜合、方志物產、方志分類,二級分類按照省份設立,分別為全國、北京、上海、天津、江蘇....;然后創建數據庫;最后在“數據加工系統”中獲取數據庫庫結構。
(3)標引入庫。標引入庫前,為了實現任務的批量處理,往往需要對加工階段形成的圖像和文字數據做進一步處理。圖像的處理,可按照書頁掃描圖像對應的文件夾,采用photoshop進行批處理;文字的處理,主要是借助已完成審校錄入的繁體中文文檔,通過批處理工具,如文檔批處理工具(BacthDoc5.9)批量進行繁簡轉化、類型轉化,把doc文檔轉換為txt文檔。接下來通過批量上傳工具,開展入庫工作,在“數據加工系統”中新建作業、導出經處理審校的資源,并進行一定的分類、標引后進行資源上載,上傳到系統平臺對應目錄即可。
3.4 共享階段
根據共享的需要,一般以網上數據庫形式和單機光盤形式進行發布。網上數據庫形式,是直接利用該平臺實現共享發布;單機光盤形式,是采用本平臺配套的光盤加工生成工具直接生成。
以上簡要介紹了南京農業大學抄寫本地方志古籍數字化整理的過程,并通過實踐摸索提出了優化升級的改進版圖文對照模式,為類似古籍的數字化整理提供了一套行之有效地解決方案。古籍數字化整理的過程繁多,在具體加工整理實踐過程中,要求很高的專業基礎知識,需要投入大量的人力物力,盲目行事或浮淺理解容易造成加工質量粗糙、重復投資。建議在古籍數字化整理工作中,應該注重分工與協作建設,注重質量把控,制定統一標準,減少低水平重復。在古籍選擇上應選擇急需保護、利用價值高的文獻,開展相關工作,以取得更大的效益。
[1]衡中青.地方志知識組織及內容挖掘研究——以《方志物產廣東》為例[D].南京:南京農業大學,2007.
[2]曹玲.農業古籍數字化整理研究[D].南京:南京農業大學,2006.
[3]毛建軍.古籍數字化的概念與內涵[J].圖書館理論與實踐,2007(4):82-84.
[4]徐健,肖卓.古籍數字化中的漢字錄入與顯示[J].圖書與情報,2006(6):79-82.
G250.74
A
1005-8214(2014)08-0101-03
胡以濤(1980-),男,南京農業大學圖書館館員;宋葉(1983-),女,南京農業大學人文社會科學學院講師。
2013-07-15[責任編輯]李金甌
本文系中央高校基本科研業務費專項資金、南京農業大學人文社會科學重大招標項目“明清方志數字化整理”(項目編號:SKZD201202)研究成果之一。