999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古籍善本數字化處理與數據庫構建技術初探

2018-12-24 03:26:26肖志芳通訊作者
信息記錄材料 2018年12期
關鍵詞:數據庫

郭 晨,肖志芳(通訊作者)

(井岡山大學電子與信息工程學院 江西 吉安 343009)

1 引言

古籍善本是古代文明的載體,是人類進步的歷史記錄,也是世界文明的珍貴遺產,這些遺產至今仍然發出璀璨的光芒[1]。其中引人矚目的一個實例就是諾貝爾獎獲得者屠呦呦在她的獲獎感言中講到“當年,每每遇到研究困境時,我就一遍又一遍溫習中醫古籍,正是葛洪《肘后備急方》有關‘青蒿一握,以水二升漬,絞取汁,盡服之’的記載,給了我靈感和啟發,并最終突破了科研瓶頸”。而當下,這些珍貴的古籍善本正遭受著失去一本將可能永不復見的極大危險。類似的悲劇已發生過多次,如:我國最早的科學巨著《墨子》、兵書始祖《陰符》、醫學巨著《黃帝外經》以及《連山》、《歸藏》等。而當前存世的古籍善本隨著歲月的流逝也存在著巨大的保存挑戰。如何才能妥善的保存好這些歷史文明的無上瑰寶,并且讓它在新世紀里仍然能發揮出卓越的光芒,這是當下的重要研究課題,也是人類迫切需要解決的重要問題。

2 古籍善本的現狀

根據國家圖書館的有關統計,目前全國各地的國有館藏單位擁有的古籍善本總數超過五千萬冊。但是保存狀態參差不齊,相當一部分狀態堪憂。古籍善本從材質上分為寫本、刻本、稿本、抄本和石印本,按照裝訂又有線裝、卷軸裝、經折裝、包背裝之分[2]。當前,古籍善本保存的主要問題還在保管設備上,許多單位的古籍善本和普通書籍共用書庫,并且書庫環境較差,保存設備老化落后,管理人員不專業,并且存在著非專業的修補,具體呈現出來的問題包括:蟲蛀、鼠嚙、水濕、霉爛、老化、絮化、粘連、酸化、脆化以及各種污染損害等[3],有些損毀嚴重的已無法進行正常的翻頁和移動。其中呈現出的具體問題都與紙質密切關聯,古籍善本由于材質成分使得紙質的穩定性存在著較大的風險,需要特別關注。

3 古籍善本數字化處理技術

古籍善本數字化處理就是借助現代信息技術對原書進行光學掃描,在此基礎上進一步進行數字化加工處理以形成基礎數據單元,形成數據庫。古籍善本的數字化技術主要包括古籍善本掃描技術、數字式照相技術和光學文字識別技術。

3.1 古籍善本掃描技術

圖形圖像是現代信息的主要信息形式,其具有的直觀性是其他信息形式無法比擬的,所以才有了“有圖有真相”的論點。事實上幾乎所有人都更容易接收來自于視角的感受,人們對于它的記憶更加深刻而持久。由于現代信息社會是一個數字的時代,所以各種圖像都需要進

行所謂的數字化處理。數字處理簡單來說就是把一副物理存在的圖像編輯成計算機可以打開和還原的圖像。通過掃描儀,以像素為最小單位記錄下圖像的每一個坐標位置、亮度以及相關顏色信息。具體流程是通過對物理圖像進行光學掃描得到光學圖像,然后利用光電轉換器把光學圖像轉換成模擬電信號,進而進行數/模轉換,把模擬電信號轉換成數字電信號,最后通過計算機接口把數字電信號轉變成數字圖像,如下圖1所示。

圖1 掃描流程圖

3.2 光學文字識別技術

光學文字識別技術(Optical Character Recognition,簡稱 OCR)是從圖片中獲取文字的主要技術手段,它受到OCR軟件識別精度的影響。由于古籍善本的字體多樣,印刷效果也差距很大,所以需要綜合多方面的因素進行考慮,將光學字元識別、人工輸入校正等相關技術結合起來。同時在OCR識別之后,需要進一步引入全文比對和人工校對進行修正。完整的光學文字識別是從古籍善本圖像中的文字以及書寫符號的切割開始,把數字圖像中的每一個文字每一個符號截斷下來,進而通過模式匹配轉換成可識別的文字和符號保存在文字庫中。這個過程同樣可能存在著誤識別,因此需要保持切割的文字,以便后續進一步進行人工校對。

4 古籍善本的數據庫構建

古籍善本的價值在于傳承、研究和教學,進一步拓展之后可具有共享、交換和流通功能[4]。因此為了讓古籍善本能更好的發揮其文化價值的同時兼顧保護,有必要利用現代信息技術進行處理之后再進行發布。古籍善本的數字化儲存可以利用開放源代碼的DSpace數字存儲系統[5]。DSpace數字存儲系統是2003年麻省理工學院與惠普公司共同研發的一種開源系統,是當前使用最為廣泛的資源管理與再利用系統。DSpace數字存儲系統適用于數字化數據庫的構建并且提供了較為彈性的定制化模塊。DSpace數字存儲系統主要分為社區(Community)、集合(Collection)兩種框架。其中社區又可以包含社區或者多個集合,而每一個集合又由一系列的項目(Item)組成,項目進一步包含文件和元數據兩種。DSpace數字存儲系統的組織樹[6]如下圖2所示。

圖2 DSpace數字存儲系統的組織樹

以內容管理發布為設計目標,對數字資源進行收集、存儲、索引、保存和重新發布。根據《紙質檔案數字化技術規范》和《信息與文獻—文件檔案數字化實施指南》等相關標準,遵循分步實施、標準統一、數據共享的原則,以基于元數據抽取的多條件整合為方式,建立古籍善本數據庫。具體的建設將首先對需求進行分析,然后經過專業的軟件對需求進行建模之后,形成古籍善本數據庫的需求規格說明書,進而根據需求規格說明書進行古籍善本數據庫的構建,在進行必要的測試之后上線運行。

5 總結

本文以古籍善本的保存現狀為基礎,繼而探討了古籍善本的數字化處理技術和古籍善本的數據庫構建方法等關聯技術。本文的研究為古籍善本的數字化保存和開發利用提供了一些新的思路,具有一定的指導價值。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 都市激情亚洲综合久久| 久久成人18免费| 国产成人精品高清不卡在线| 99无码中文字幕视频| a欧美在线| 永久免费无码成人网站| 亚洲v日韩v欧美在线观看| 2020国产精品视频| 狠狠色噜噜狠狠狠狠色综合久 | 啪啪啪亚洲无码| 在线看片免费人成视久网下载| 久久精品人妻中文视频| 国产精品浪潮Av| 国产一区二区三区在线观看视频| A级毛片无码久久精品免费| 亚洲一区二区精品无码久久久| 久久香蕉国产线看观看精品蕉| 特黄日韩免费一区二区三区| 亚洲一级色| 67194在线午夜亚洲| 欧美三级不卡在线观看视频| 国产精品黄色片| 伊人久综合| 欧美激情视频一区| 亚洲综合九九| 色国产视频| 日本国产精品| 国产免费好大好硬视频| 美女免费精品高清毛片在线视| 国产一级精品毛片基地| 成人毛片免费在线观看| 九九精品在线观看| 91成人免费观看| 婷婷成人综合| 国产激情无码一区二区免费| 亚洲无码日韩一区| 日韩精品成人网页视频在线| 婷婷中文在线| 最近最新中文字幕免费的一页| 成人a免费α片在线视频网站| 国产乱子伦手机在线| a色毛片免费视频| 国产99在线观看| 日韩欧美在线观看| 成人看片欧美一区二区| 四虎精品国产永久在线观看| 视频二区中文无码| 91日本在线观看亚洲精品| 网久久综合| 亚洲欧美不卡| 久久精品人妻中文视频| 国产精品自拍合集| 国产极品美女在线播放| 国产av剧情无码精品色午夜| 2020极品精品国产 | 国产高颜值露脸在线观看| 99热这里只有精品5| 日本久久网站| 亚洲视频免费在线| 国产在线精品美女观看| 国产91高清视频| 日韩小视频在线观看| 日韩天堂网| 中国一级特黄视频| 亚洲第一极品精品无码| 国产在线第二页| 全免费a级毛片免费看不卡| 国产精品毛片一区视频播| 伊人久久婷婷| 4虎影视国产在线观看精品| 韩日无码在线不卡| 亚洲天堂啪啪| 99久久国产综合精品女同| 精品免费在线视频| 国产真实乱子伦视频播放| 亚洲中文在线视频| 国产另类视频| 国产精品污视频| 久久久久亚洲AV成人人电影软件 | 国产成人精品一区二区三区| 欧美国产在线一区| 久精品色妇丰满人妻|