999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

抄寫本方志古籍數字化整理與實踐

2014-01-13 06:54:53胡以濤a宋葉b
圖書館理論與實踐 2014年8期
關鍵詞:數據庫

●胡以濤a,宋葉b

(南京農業大學a.圖書館;b.人文社會科學學院,南京210095)

抄寫本方志古籍數字化整理與實踐

●胡以濤a,宋葉b

(南京農業大學a.圖書館;b.人文社會科學學院,南京210095)

古籍;數字化;地方志;抄寫本

簡要介紹了南京農業大學抄寫本地方志古籍數字化整理過程,并通過實踐摸索提出了“圖文對照+文檔附件”的整理模式,以期為類似古籍整理工作提供經驗借鑒。

1 引言

隨著中文信息處理技術的日趨成熟,其應用也從普通文本處理向古籍文本領域拓展,古籍數字化整理成為古籍保存利用的重要手段之一。由于古籍本身版本、形制、詞匯等差異性較大,普通的數字化加工整理方法并不完全適用于古籍整理。對古籍文獻如明清地方志進行數字化加工時,應根據古籍的特點,選擇適宜的整理方法。

上世紀五六十年代,著名農史學家、中國農業遺產研究室(現中華農業文明研究院)創始人萬國鼎教授組織專業研究人員60多名,分赴全國40多個城市、100多個文史單位,從8000多部方志中摘抄了3600多萬字的農史資料。該抄寫本方志資料內容涉及農業生產的各個方面,以動植物品種資源和相關的種植飼養技術為主,具有極高的科技、經濟和史料價值,成為世界上唯一一套明清方志古籍農業資料,受到國內外相關學者的高度重視。然而由于這套保存于線裝書文庫的孤本農業資料全由手工抄寫而成,隨著時間的推移,紙質日漸脆破,字跡逐漸模糊,亟待加強保護和搶救。開展抄寫本地方志數字化整理工作,能擴大農業科技古籍的共享范圍,提高公共服務水平,對于弘揚我國傳統文化,為現代農業的可持續發展服務具有重要意義,是一項十分迫切的工作。

近年來,研究院在各級項目的支持下,從事過一部分地方志的數字化整理工作,已有一定的研究與實踐基礎,如博士生衡中青關于地方志的研究,完成了《方志物產·廣東》信息系統的設計和構建。[1]本文在借鑒前人研究的基礎上,參考古籍數字化整理的一般方法,如古籍數字化工作過程及相關元數據、建庫技術等介紹,[2]結合南京農業大學明清方志農業物產數據庫建設項目的具體實施實踐,進一步梳理了地方志數字化整理的過程及要注意的關鍵問題。

2 整理模式

抄寫本地方志,主要指人工摘抄的明清時期地方志資料,按歷史資料分期,其應屬于古籍整理范疇。毛建軍認為古籍數字化就是從利用和保護古籍的目的出發,采用計算機技術,將常見的語言文字或圖形符號轉化為能被計算機識別的數字符號,從而制成古籍文獻書目數據庫和古籍全文數據庫,用以揭示古籍文獻信息資源的一項系統工作。[3]

目前國內主要采取三種整理模式,分別為圖像版、文字(全文)版、圖文版。這三種模式各有優劣。(1)圖像版全文數字化古籍是指將古籍書頁進行原文圖像掃描,存儲在光盤或計算機硬盤等介質上,從而為讀者提供文字圖像信息服務。圖像版數字化古籍的優勢是:技術實現容易,運行成本低廉,可以保存古籍原貌;其缺陷是:占據空間大,不能檢索。(2)文字版數字化古籍是指將古籍書頁轉換成文本字符的形式,存儲在光盤或計算機硬盤等介質上,并附加全文檢索和鏈接系統等功能,從而為讀者提供全文閱讀或全文檢索服務。文字版數字化古籍的優勢:儲存空間小,可以利用計算機進行多角度、多范圍的檢索、排序、分析數據,并可進行編輯、打印,使用起來非常方便;其缺陷是:文字輸入難度較大,開發成本高,不能保持古籍原貌。(3)圖文版數字化古籍就是圖像版與文字版的結合。圖文版數字化古籍將數據庫中加入了原文圖像,將全文檢索數據和底本圖像頁面版式相互對照,研究者可根據需要隨時參考原文圖像。顯然,圖文版數字化古籍是最理想的數字化古籍開發模式,其投入也相對較多。

然而,由于古籍文本一般是繁體中文,且非常用字較多,盡管目前已開發了中文超大字符集,如統一碼(Unicode)的CJK、CJK-ExtA、CJK-ExtB包括7萬余漢字通用Unicode字體支持,但古籍文字的錄入與顯示依然是個難題。基于此,在抄寫本地方志整理中,提出了改進版的圖文版整理模式——“圖文對照+文檔附件”,即采用原始掃描圖像+簡體中文文本+繁體中文文檔相結合的模式,既能實現圖文對照,又可以適應簡體中文檢索,最終還能充分利用繁體中文文檔。該模式生成的主要材料及獲取方法如下表所示。

表數字化整理后形成素材類型及目的

3 整理過程

在抄寫本地方志數字化過程中,通過分析地方志紙本材料,結合整理利用的需要,選擇合適的整理模式,在此基礎上制定加工整理具體流程(如圖1所示),其數字化整理過程包括以下四個階段。

圖1 地方志數字化流程

3.1 準備階段

準備階段需詳細了解地方志古籍的數量、紙質情況、內容體例、類型分布等,并根據共享使用的需要選擇合適的數字化整理模式。為了實現一次加工,多次使用,避免重復建設,選擇了改進型的圖文對照模式,即采用“圖文對照+文檔附件”的模式進行整理,該模式能保證整個整理過程的高效率、最優化,滿足不同用途對資源格式的需要。

3.2 加工階段

加工階段是數字化整理的基礎工作,只有獲得高質量的原始圖像和精準原文文字,才能確保后期建庫共享的質量。

(1)圖像掃描處理。為了便于歸檔整理,本次整理按照抄寫本地方志的省份建立一級文件夾,按照書籍的原始數字編號建立二級文件夾,然后掃描文件依次采用掃描軟件自動流水生成,名稱為file0001. jpg~file9999.jpg。掃描分辨率設置為300dpi,真彩模式,保存為jpg文件,每頁原始圖像文件大約在4M左右。這樣一本書掃描完成后,掃描圖像數據可以直接用來原始存檔,可適用于圖像打印、印刷出版等。后期為了網上發布的需要,采用photoshop的批處理功能,把每本書的掃描圖像文件夾批量生成小圖片,依次命名為sfile0001.jpg~sfile9999.jpg。

(2)文字錄入校對。手抄本方志由人工抄寫完成,考慮到其字體差異以及繁體中文的字體構造復雜等特點,采用OCR文字識別效果不理想,因此,文字錄入校對工作主要采用人工手動完成。為防止錄入時文件名與頁面不對應,提高錄入質量,保證錄入后文件中的復雜繁體中文的正常查看顯示,設計了計算機自動生成書頁圖像對應文檔的批處理應用程序(如圖2所示)。首先建一個空word文檔templete.doc,通過批處理程序CreatDco.bat,根據掃描完成的原始數據圖像文件名,批量生成與原圖像文件同名的Word文檔,然后將生成的文檔發給錄入人員,由錄入人員在空白word文里錄入相應的繁體中文,從而確保了文檔與圖像的正確對照。

特別需要注意的是:在進行上述工作之前,需要在常用Windows xp系統下安裝支持Unicode的字體文件和安裝合適的輸入法,以確保系統能正常顯示、輸入手稿中的冷僻繁簡字。[4]

文字錄入工作完成后,由熟悉古籍及古漢語知識的本專業研究生或專業教師擔任文字校對員,可通過圖文對照模式進行一次全面校稿,并由審核老師對完成任務進行二校及抽樣校對,確保正確率在98%以上,以保證最終完成的古籍數字化資源的質量。

圖2 生成圖像對應文件名的空白Word文檔批處理程序

3.3 建庫階段

建庫階段主要進行整個數字化加工支撐平臺的開發或選擇。

(1)系統選擇。古籍數字化工作已有20多年的歷史,已有一些成熟的商業化加工平臺。本次加工選擇了由北京新星快威數碼技術有限公司開發的“DⅠPS數字文獻處理系統3.0”,其集成了信息資源的采集挖掘、加工整理、數據庫建設管理、內容發布與檢索利用等功能,適應大量資源管理。

(2)分類建庫。通過選擇的平臺,可以按照系統已有模版,建立地方志圖文數據庫。首先根據資源特點,參考系統提供的數據庫例子和自己的經驗,設計數據庫的庫結構(包括地方志圖文庫字段,每個字段的類型、作用,庫的顯示、檢索風格等等);其次制定方志文獻的分類表,如一級分類采用方志綜合、方志物產、方志分類,二級分類按照省份設立,分別為全國、北京、上海、天津、江蘇....;然后創建數據庫;最后在“數據加工系統”中獲取數據庫庫結構。

(3)標引入庫。標引入庫前,為了實現任務的批量處理,往往需要對加工階段形成的圖像和文字數據做進一步處理。圖像的處理,可按照書頁掃描圖像對應的文件夾,采用photoshop進行批處理;文字的處理,主要是借助已完成審校錄入的繁體中文文檔,通過批處理工具,如文檔批處理工具(BacthDoc5.9)批量進行繁簡轉化、類型轉化,把doc文檔轉換為txt文檔。接下來通過批量上傳工具,開展入庫工作,在“數據加工系統”中新建作業、導出經處理審校的資源,并進行一定的分類、標引后進行資源上載,上傳到系統平臺對應目錄即可。

3.4 共享階段

根據共享的需要,一般以網上數據庫形式和單機光盤形式進行發布。網上數據庫形式,是直接利用該平臺實現共享發布;單機光盤形式,是采用本平臺配套的光盤加工生成工具直接生成。

4 結語

以上簡要介紹了南京農業大學抄寫本地方志古籍數字化整理的過程,并通過實踐摸索提出了優化升級的改進版圖文對照模式,為類似古籍的數字化整理提供了一套行之有效地解決方案。古籍數字化整理的過程繁多,在具體加工整理實踐過程中,要求很高的專業基礎知識,需要投入大量的人力物力,盲目行事或浮淺理解容易造成加工質量粗糙、重復投資。建議在古籍數字化整理工作中,應該注重分工與協作建設,注重質量把控,制定統一標準,減少低水平重復。在古籍選擇上應選擇急需保護、利用價值高的文獻,開展相關工作,以取得更大的效益。

[1]衡中青.地方志知識組織及內容挖掘研究——以《方志物產廣東》為例[D].南京:南京農業大學,2007.

[2]曹玲.農業古籍數字化整理研究[D].南京:南京農業大學,2006.

[3]毛建軍.古籍數字化的概念與內涵[J].圖書館理論與實踐,2007(4):82-84.

[4]徐健,肖卓.古籍數字化中的漢字錄入與顯示[J].圖書與情報,2006(6):79-82.

G250.74

A

1005-8214(2014)08-0101-03

胡以濤(1980-),男,南京農業大學圖書館館員;宋葉(1983-),女,南京農業大學人文社會科學學院講師。

2013-07-15[責任編輯]李金甌

本文系中央高校基本科研業務費專項資金、南京農業大學人文社會科學重大招標項目“明清方志數字化整理”(項目編號:SKZD201202)研究成果之一。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 四虎国产在线观看| 3344在线观看无码| 无码av免费不卡在线观看| 国产在线八区| 丰满人妻中出白浆| 欧美精品xx| 就去色综合| 久久精品只有这里有| 国产一区二区三区精品久久呦| 国产无码精品在线播放| 日韩AV手机在线观看蜜芽| 天天综合天天综合| 欧美日韩在线观看一区二区三区| 少妇精品久久久一区二区三区| 广东一级毛片| 欧美三级日韩三级| 欧美日韩在线亚洲国产人| 国产三级a| 亚洲国产欧美目韩成人综合| a级毛片网| 国产成人乱码一区二区三区在线| 精品国产亚洲人成在线| 成人免费一级片| 欧美天堂在线| 精品综合久久久久久97超人该| 国产成人AV大片大片在线播放 | 深夜福利视频一区二区| 久热中文字幕在线| 免费可以看的无遮挡av无码| 在线高清亚洲精品二区| 久久国产成人精品国产成人亚洲 | 国产精品七七在线播放| 在线五月婷婷| 国产主播在线一区| 国产在线八区| 久久人人97超碰人人澡爱香蕉 | 色屁屁一区二区三区视频国产| 亚洲αv毛片| 亚洲国产高清精品线久久| 亚洲AV一二三区无码AV蜜桃| 制服丝袜无码每日更新| 亚洲成人高清无码| 91在线播放国产| 国产成人一区免费观看| 亚洲色图综合在线| 一级在线毛片| 欧洲高清无码在线| 一级毛片无毒不卡直接观看| 不卡视频国产| 欧美一级视频免费| 97亚洲色综久久精品| 青青操国产| 国产日韩欧美在线播放| 四虎永久免费地址| 青青青国产视频手机| 色综合天天综合| 国产高清自拍视频| 亚洲中字无码AV电影在线观看| 亚洲欧美在线精品一区二区| 精品三级网站| 国产精品3p视频| 精品国产Ⅴ无码大片在线观看81| 国产超薄肉色丝袜网站| 国产黄色免费看| 综合网天天| 免费国产黄线在线观看| 无码日韩视频| 国内精品伊人久久久久7777人 | 老司机午夜精品视频你懂的| 午夜爽爽视频| 青草91视频免费观看| 另类欧美日韩| 一本大道无码高清| 91精品国产无线乱码在线| 国产精品手机在线播放| 国产白浆在线| 日韩欧美一区在线观看| 国产丝袜啪啪| 亚洲成人播放| 国产原创第一页在线观看| 无遮挡国产高潮视频免费观看| 人妖无码第一页|