999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢字識別技術在檔案管理工作中應用之我見

2010-07-09 02:22:52段如菲段玉春
活力 2010年7期

崔 萍 段如菲 段玉春

[關鍵詞]漢字識別技術;檔案管理工作;信息資源的應用

漢字識別技術(簡稱OCR)可以理解為是讓計算機認字的技術。它通過光電信號轉換,即文本數據。

一、漢字識別技術的應用價值

漢字識別技術的應用價值主要體現在兩個方面:一方面,把紙質檔案上的固定信息變成可以被檢索利用的活信息,為文本數據管理技術提供豐富的數據源。

首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的重要歷史,對我國現代化事業的發展,對精神文明和物質文明的建設都有著非常重要的利用價值。但這部分檔案的內容都沒有文本數據,或者說都只是固定在紙質載體上的死信息。既使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現代社會對檔案信息的多種利用需求。其次,從辦公自動化的發展情況來看,每年接收的檔案中仍然會有相當數量的檔案沒有文本文件。漢字識別技術的應用價值 就是使這兩大部分紙質檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數據,使深層次的開發利用成為可能,更好地為現代化建設事業服務。

另一方面,提供了一種新的檔案目錄數據的錄入方式。 應用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許多種,而且日趨簡便快捷,已是年輕人必備的職業技能,但是它畢竟屬于一種技能,不僅需要反應靈敏,手指靈活,而且要熟記錄入的原則、方法和要領。這對于在檔案部門占有相當 比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門 建立檔案目錄信息數據庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉 ”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數據庫的相應字段中去,簡單易學,一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或 調用圖像數據,所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數據庫提供了一條前所未有的途徑。

二、漢字識別后生成文本數據的屬性問題

原始性是檔案的基本屬性。漢字識別后生成的文本數據是根據檔案的本源信息,即固定在紙質載體上的漢字信息進行加工處理:掃描、識別、校對、修改等工序后形成的復制加工品, 因此不具有檔案的原始性。

知識性是檔案的又一個屬性。漢字識別后生成的文本數據如果不計算人工校對后仍然可能存在的微小誤差,應該說具有與檔案原件同等的內容,因此具有檔案的知識性。

漢字識別后生成的文本數據是將檔案的內容以特殊的物理方式重新記錄在特殊的載體之上,比以文字的方式記錄在紙質載體之上更具有便于傳遞、接收、存儲、利用以及不磨損、不丟 失等屬性。因此具有更強的信息性。

漢字識別后生成的文本數據應該說,它是一種新型的檔案一次信息的復制品或編研開發成果 。但作為一種新型的復制品或編研開發成果,因其生成的目的不同,又具有兩種不同的屬性 :當以提供利用為目的通過漢字識別建立文本數據庫時,其文本數據具有類似于匯編類檔案 編研成果的屬性;當以編輯出版紙質的檔案編研材料如大事記、組織機構沿革、文件匯編等為目的進行漢字識別時,其文本數據不僅具有類似于檔案編研成果的屬性,而且具有檔案原始性的基本屬性,因為它們是印刷品或出版物的本源信息。由此可見,漢字識別后生成的文本數據是一種不同于傳統檔案屬性的新型檔案信息。

三、漢字識別技術的應用方式

漢字識別技術在檔案管理工作中的應用,根據其目前的技術水平主要適用于近幾十年來印刷漢字檔案內容的識別,圖像、文本數據的形成、存儲和目錄數據的錄入等項工作。

主要的應用方式有:(一)利用者閱讀紙質檔案的內容之后,對其所需要的內容進行掃描和漢字識別,或打印出統 一格式的利用摘錄,或直接提供文本拷貝。這種利用方式的優點主要有:方便用戶,可減少信息利用過程中的重復勞動;不給檔案人員增加建庫的工作負擔;節省建庫所需的經費開支。其缺點主要有:不能為全文檢索提供數據,實現深層次開發檔案信息資源的目的;存在對同一檔案內容重復進行掃描和漢字識別的可能性。(二)輸入檔案目錄。這是加快檔案目錄信息數據庫建設的一條新路,能夠使更多的人員從事輸入工作,但輸入速度不甚理想,而且成本費用相對較高。(三)掃描、保存圖像并提供利用,只針對利用者需要的圖像內容進行漢字識別等利用服務。這種方式必須在已有文件目錄的前提下使用。其優點主要有:具有提供原件和提高信息利用效率的雙重優勢;檔案人員不承擔漢字識別后生成的文本數據的維護工作。其缺點主要有:同第一種利用方式的缺點;漢字識別技術要求圖像的光學分辨率較高,這種高代價的圖像存儲僅用來滿足用戶利用識別的需要似乎有點得不償失。因此低分辨率的圖像也能進行漢字識別,只是識別率相對較低而已。(四)建立文本數據庫。這種方式也應在已有文件目錄的條件下使用。其優點主要有:節省存儲空間和存儲成本;為全文檢索提供數據,能夠實現深層次開發利用檔案信息資源的目的。其缺點主要有:建立文本數據庫的工作量較大;不能滿足用戶閱讀檔案原件的需求;由于沒有圖像隨時提供依據,不便于對文本數據的準確性進行核實。(五)輸入目錄并保存圖像。(六)輸入目錄、建立文本數據庫。(七)保存圖像、建立文本件數據。(八)輸入目錄、保存圖像并建立文本數據庫。

這是充分發揮OCR軟件功能,深層次開發利用檔案信息資源的應用方式。但工程量較大,人力、資金需求較多,建庫周期較長。 隨著漢字識別技術水平的提高和應用的普及,可能還會產生新的應用方式,但無論使用哪一種方式,都必須符合本單位檔案管理工作的實際,統籌考慮檔案狀況、人員配備、經費能力、辦公自動化水平、檔案現代化建設發展規劃等方面的因素,以切實提高檔案信息資源開發利用能力為目的,這樣才能收到事半功倍的效果。□

(編輯/永安)

主站蜘蛛池模板: 亚洲精品国产日韩无码AV永久免费网 | 国产啪在线| 三上悠亚精品二区在线观看| 青青热久免费精品视频6| 国产网友愉拍精品| 精品無碼一區在線觀看 | 夜夜高潮夜夜爽国产伦精品| 久久黄色免费电影| 波多野结衣久久精品| 91久久国产综合精品女同我| 老司机aⅴ在线精品导航| 精品一区二区久久久久网站| 久久黄色免费电影| 国产精品吹潮在线观看中文| 国外欧美一区另类中文字幕| 亚洲精品动漫在线观看| 亚洲欧美日本国产综合在线| 久久这里只有精品免费| 国内精品自在自线视频香蕉| 久久久久亚洲AV成人网站软件| 国产成人精品亚洲77美色| 丁香综合在线| 98精品全国免费观看视频| 久久久久无码精品| 一级爆乳无码av| 国产第一页第二页| 日本高清有码人妻| 久久成人免费| 国产97色在线| 久久a毛片| 国产一区二区三区免费| 亚洲综合片| 国产精品永久不卡免费视频| 成人在线不卡视频| 亚洲日韩精品欧美中文字幕| 九九九久久国产精品| 久久精品中文字幕少妇| 亚洲欧洲免费视频| 国产玖玖玖精品视频| 国产在线一区二区视频| 日本一区二区三区精品AⅤ| 国产迷奸在线看| 她的性爱视频| 本亚洲精品网站| 色视频国产| 亚洲天堂网在线播放| 99热这里只有精品免费国产| 成人午夜久久| 香蕉伊思人视频| 亚洲日本在线免费观看| 亚洲成a人片77777在线播放| 欧美成人影院亚洲综合图| 欧美精品不卡| 欧美性猛交xxxx乱大交极品| 亚洲第一区在线| 99久久性生片| 国产精品v欧美| 国产精品香蕉在线| 丝袜美女被出水视频一区| 成人福利一区二区视频在线| 亚洲天堂网2014| 四虎永久在线视频| 青青草国产在线视频| 久操中文在线| 欧美亚洲第一页| 69av免费视频| 中文字幕有乳无码| 国产精品无码作爱| 亚洲欧洲美色一区二区三区| 日韩免费无码人妻系列| 亚洲人成网18禁| 国产女人18水真多毛片18精品 | 国产精品久久精品| 首页亚洲国产丝袜长腿综合| 亚洲午夜福利精品无码不卡| 免费人成视网站在线不卡| 亚洲欧美一区在线| 丰满少妇αⅴ无码区| 免费人成视网站在线不卡| 日韩毛片视频| 亚洲国产高清精品线久久| 国产成人禁片在线观看|