面向海量文獻(xiàn)的數(shù)字化系統(tǒng)研究

2010-01-01 00:00:00蘇云張慶來

圖書與情報 2010年2期

摘要：文章針對海量的文獻(xiàn)資料如何快速錄入計算機(jī)的方式方法提出了解決方案，首先通過對鍵盤錄入、手寫錄入、聽寫錄入和掃描錄入四種文獻(xiàn)數(shù)據(jù)采集方法的比較，提出了掃描錄入是海量信息處理的唯一選擇；其次，對掃描錄入技術(shù)進(jìn)行了歷史回顧和現(xiàn)狀分析；最后，提出了OCR數(shù)字化處理工廠的一攬子解決方案，即通過文字自動錄入、流水線管理、質(zhì)量控制和員工管理、系統(tǒng)管理四大功能實現(xiàn)海量文獻(xiàn)的數(shù)字化。

關(guān)鍵詞：OCR技術(shù) 掃描錄入文獻(xiàn)識別文獻(xiàn)數(shù)字化

中圖分類號：G203 文獻(xiàn)標(biāo)識碼：A文章編碼：1008-6938（2010）02-085-05

Solutions for Mass Literature Digitization

Su YunZhang QingLai （School OfManagement ， Lanzhou University，Lanzhou，Gansu，730000）

Abstract：In this paper， a solution is proposed to input mass literature quickly into computer. First of all， through the comparison among the four kinds of data collection methods----keyboard entry， by-hand input， voice dictation， and scan input---scan input is found to be the only choice of mass information processing.Second， it is a review of the OCR technology and analysis of current situation. Finally a solution of OCR digital processing plant is put forward， that is to say， mass literature digitization can be perfected by text automatic input， pipeline management， quality control， personnel management， and system management.

Keywords：OCR technology；scan input； literature identification； literature digitization

CLC number：G203 Document code：AArticle ID：1008-6938（2010）02-085-05

1 引言

五千年的中國文化遺留下極其豐富且數(shù)量龐大的歷史文獻(xiàn)，這些文獻(xiàn)主要保存形式以甲骨、簡犢和紙張作為載體，通過編纂引得、通檢、索引和匯編等工具書達(dá)成文獻(xiàn)整理和查詢的目標(biāo)，由于文獻(xiàn)數(shù)量巨大和人力有限的矛盾，經(jīng)過系統(tǒng)整理和方便的檢索工具非常稀缺，加之受存儲空間的限制，許多年代久遠(yuǎn)的孤本書、善本書已出現(xiàn)了紙張脆弱、字跡變色、書頁脫落和破損發(fā)霉等現(xiàn)象，很多出土的甲骨、簡犢和紙張也出現(xiàn)了腐蝕和霉?fàn)€的狀況，嚴(yán)重影響了文獻(xiàn)的使用和保存壽命，文獻(xiàn)的數(shù)字化迫切性已成為信息工作者的當(dāng)務(wù)之急，圖書館和檔案館應(yīng)該積極順應(yīng)網(wǎng)絡(luò)時代的潮流，運用計算機(jī)相關(guān)的數(shù)字化技術(shù)，對文獻(xiàn)進(jìn)行加工和處理，建立書目數(shù)據(jù)庫、全文數(shù)據(jù)庫和綜合檢索系統(tǒng)，并通過光盤和網(wǎng)絡(luò)等途徑進(jìn)行信息的傳播。本文針對該問題提出了面向海量文獻(xiàn)信息數(shù)字化的處理解決方案，尤其對文字的批量識別提出了系統(tǒng)化的解決途徑。

2 海量文獻(xiàn)數(shù)字化處理的現(xiàn)狀

2.1 傳統(tǒng)的海量文獻(xiàn)數(shù)字化技術(shù)及比較

如何將海量的文獻(xiàn)資料快速錄入計算機(jī)是文獻(xiàn)數(shù)字化研究工作的重要內(nèi)容，而文獻(xiàn)數(shù)字化的瓶頸就在于如何將海量的文獻(xiàn)錄入計算機(jī)的方式方法，就傳統(tǒng)處理技術(shù)而言，數(shù)據(jù)的錄入方法有鍵盤錄入、手寫錄入、聽寫錄入和掃描錄入。

（1）鍵盤錄入法。鍵盤錄入法有陰陽碼輸入法、鄭碼輸入法、形象碼輸入法、漢碼系列輸入法、智能二筆輸入法、雙筆碼輸入法、漢正碼輸入法等，總共不下幾十種，最常用的是各式各樣的五筆字型和拼音輸入，其中五筆輸入法常用的是王碼五筆、陳橋五筆、念青五筆和極點五筆等，任何一種五筆輸入法只要掌握文字的拆分規(guī)則就能使用；拼音輸入法常用的有智能ABC、拼音加加、紫光拼音、搜狗拼音、中文之星智能狂拼、三好拼音、極點拼音、五萬拼音、遞推聯(lián)想拼音等，只要會拼音就會輸入，這兩者錄入速度不分伯仲，關(guān)鍵在操作人員的熟練程度。國際專業(yè)錄入師的打字速度是在240字/分鐘左右，一般打字員的速度是50~70字/分鐘，這種錄入速度相對海量的文獻(xiàn)資料是一種效率極低的信息數(shù)字化處理方式，不但費時費力，而且資金耗費巨大，會造成大量文獻(xiàn)資料的積壓。

（2）手寫錄入法。手寫錄入法亦稱為手寫筆輸入法，主要有臺灣的蒙恬系列手寫筆、大恒筆才子手寫筆、漢王大將軍手寫筆和紫光繪寫大師等，手寫筆是由硬件和軟件兩部分構(gòu)成，硬件部分包括電子手寫筆和寫字板，軟件部分是漢字識別系統(tǒng)。手寫輸入法的使用比較簡單，錄入員只需用手寫筆在寫字板上書寫筆劃清晰的漢字，寫字板中內(nèi)置的高精密的電子信號采集系統(tǒng)，就會將漢字筆跡的信息轉(zhuǎn)換為數(shù)字信息，然后傳送給軟件系統(tǒng)進(jìn)行漢字識別。漢字識別系統(tǒng)的作用是將硬件部分傳送來的信息與事先儲存好的大量漢字特征信息相比較，從而判斷寫的是什么漢字，并通過漢字系統(tǒng)在計算機(jī)屏幕上顯示出來，手寫輸入系統(tǒng)的難點在于漢字筆跡的識別，因為每個人的手寫字體不一樣，所以漢字筆跡比較系統(tǒng)就必須能允許一定的模糊偏差，才能做到較高的識別率，但是手寫筆的最快錄入速度僅有20~40字/分鐘，顯然不適合海量文獻(xiàn)信息的錄入，但對錄入手繪圖形圖像十分有效。

（3）語音錄入法。語音錄入就是聽寫輸入法，較之鍵盤和手寫輸入，既快速又方便，速度是鍵盤輸入的2~3倍，是手寫輸入的6~8倍。硬件設(shè)備只需帶聲卡的多媒體計算機(jī)和無噪音的麥克風(fēng)。從技術(shù)層面而言，實現(xiàn)語音識別就是讓計算機(jī)識別和理解人類語言的過程，是把自然語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本。在語音識別過程中，首先要將人類說話的聲音由模擬的語音信號轉(zhuǎn)換為數(shù)字信號，然后從信號中提取語音特征，同時進(jìn)行數(shù)據(jù)壓縮，輸入的模擬語音信號要進(jìn)行預(yù)處理，建立識別基本單元的聲學(xué)模型和進(jìn)行文法分析的語言模型，計算機(jī)根據(jù)識別系統(tǒng)的類型選擇能夠滿足要求的識別方法，采用語音分析方法分析出這種識別方法所要求的語音特征參數(shù)，按照一定的準(zhǔn)則和測度與參考模式庫中的模型進(jìn)行比較從而得出識別結(jié)果。語音輸入法已經(jīng)出現(xiàn)十余年，但由于計算機(jī)處理速度的限制，并沒有形成氣候，后來隨著計算機(jī)CPU主頻的不斷提高，出現(xiàn)了許多以IBM語音錄入為內(nèi)核的軟件，例如Windows Vista就內(nèi)置了語音錄入軟件，但要快速高效能滿足海量文字錄入的要求，就必須使用專業(yè)的語音輸入軟件，例如IBM公司的ViaVoice語音識別專業(yè)軟件、Scansoft公司的Dragon Naturally Speaking Preferred語音識別軟件等。這里需要強調(diào)的是語音錄入法對錄入員的標(biāo)準(zhǔn)普通話水平的要求很高，由于中國是方言非常豐富的國家，這種錄入法很難推廣；而且語音錄入時周邊環(huán)境不能有噪音，即對環(huán)境要求過于苛刻。

（4）掃描錄入法。鍵盤和手寫錄入面對的是漫長和繁重的工作，聽寫錄入受到方言和周邊環(huán)境噪音的影響，就現(xiàn)有技術(shù)而言，海量文獻(xiàn)錄入的唯一的選擇就是掃描錄入法，速度可以達(dá)到每分鐘6000字，具有其它錄入方法不可比擬的優(yōu)勢。掃描錄入的英文縮寫是OCR（Optical Character Recognition），就是讓計算機(jī)認(rèn)字和實現(xiàn)文字自動輸入。它的工作原理是通過掃描儀或數(shù)碼相機(jī)等光學(xué)輸入設(shè)備獲取文獻(xiàn)紙張上的文字圖片信息，利用各種模式識別算法分析文字形態(tài)特征，判斷出漢字的標(biāo)準(zhǔn)編碼，并按通用格式存儲在文本文件中，是一種快捷、省力和高效的文字輸入方法。具有以下三大優(yōu)勢：時間上，掃描錄入法速度快和效率高，是人工錄入的數(shù)百倍，甚至數(shù)千倍；經(jīng)濟(jì)上，掃描錄入法節(jié)省了大量人力資源開銷和降低了錄入成本；準(zhǔn)確性上，掃描錄入法的錄入準(zhǔn)確率遠(yuǎn)高于其它人工錄入法。

文獻(xiàn)掃描錄入的必備的硬件設(shè)備是掃描儀，主要有平板掃描儀、多功能一體機(jī)、高速掃描儀和網(wǎng)絡(luò)掃描儀等，常用品牌有全友（Microtek）、愛克發(fā)（AGFA）、清華紫光（Uniscan）和惠普（HP），常用幅面是A4、A4加長、A3等三種，如果掃描報紙、地圖等，就需要A1、A2幅面的平板掃描儀，數(shù)據(jù)海量處理最常用的是高速滾筒式掃描儀，而高速掃描技術(shù)是依賴計算機(jī)CPU的性能來提高識別率和識別速度。最為常用的中文識別軟件有清華紫光文通信息技術(shù)有限公司開發(fā)的TH-OCR（TH是TsingHua的縮寫）、北京漢王科技股份有限公司研制的漢王文本王；其它優(yōu)秀的識別軟件還有：以我國戰(zhàn)國時期“掌章奏文”官職命名的尚書OCR軟件、以我國古代繪畫顏色命名的丹青OCR軟件、發(fā)明毛筆的古代大將命名的蒙恬OCR軟件等等；［1 ］外文識別軟件的普遍功能要比中文識別軟件要強大，尤其對書籍、報刊的版面還原技術(shù)要強大得多。常用的有俄羅斯軟件公司開發(fā)的ABBYY FineReader Professional、美國IGS公司研制的ReadIRIS Pro，此外還有能夠識別114種語言文字的Recognita軟件、能夠?qū)⒆R別文字發(fā)音朗讀校對（Text-to-Speech）的OmniPage軟件、發(fā)明復(fù)印機(jī)的施樂公司推出的復(fù)印和識別一體化的XEROX TextBridge軟件。

2.2 基于OCR掃描和識別的海量文獻(xiàn)數(shù)字化處理現(xiàn)狀與分析

讓機(jī)器代替人認(rèn)字并記錄，是人類很久以來的夢想。早在20世紀(jì)20年代，西方就開始了字符自動識別的研究。有文獻(xiàn)可考的最早機(jī)器字符識別系統(tǒng)是德國的科學(xué)家陶杰克（Tausheck）的“閱讀機(jī)”，1929年這項發(fā)明獲得了德國專利；幾年后，美國科學(xué)家漢德爾（P·W·Handel），也提出了利用技術(shù)對文字進(jìn)行識別的想法，研制了“統(tǒng)計機(jī)”的類似機(jī)器，也獲得了美國專利。自此之后，人類經(jīng)過幾十年的不斷努力，使得OCR技術(shù)漸漸成熟，從最初的機(jī)械識別模式一直發(fā)展到今天利用抽取圖像的數(shù)字化特征進(jìn)行識別的電子模式。

相比英文OCR識別，漢字的識別要困難許多，這是由于英文是由幾十個字母符號組成的文字，而“方塊符號”的漢字字庫要比英文字母表龐大近千倍，難度可想而知。我國在上個世紀(jì)70年代末就開始了這項技術(shù)的研究，至80年代中期，可識別上萬漢字，識別率在90%左右，尤其是1987年《漢字識別的特征點方法》的問世是一個里程碑，這種方法是以漢字字形結(jié)構(gòu)的統(tǒng)計特征劃分為漢字筆劃上的特征點和背景處的關(guān)鍵背景點，并基于這個理論，推出了“印刷體漢字文本識別系統(tǒng)”，這個系統(tǒng)的研制成功標(biāo)志著我國在印刷體漢字的識別技術(shù)研究方面已取得了實用化的突破；進(jìn)入90年代之后，隨著863項目在內(nèi)的漢字識別系統(tǒng)逐漸成熟，不少研究單位相繼推出了中文OCR產(chǎn)品，主要有清華文通（TH-OCR）、北信（BI-OCR）、中自（ICR）、沈陽自動化所（SY-OCR）、北京曙光公司（NI-OCR）等，這些系統(tǒng)均可以實現(xiàn)中英文混排，宋體、楷體、黑體、仿宋體、繁體等多字體、多字號的混排識別，文字識別率可達(dá)到95%以上。特別是21世紀(jì)的近十年，OCR識別技術(shù)隨著掃描儀的普及得到了飛速的發(fā)展，掃描和識別軟件的性能不斷強大并向智能化升級發(fā)展。［2 ］

一般說來，傳統(tǒng)的OCR掃描和識別軟件主要功能是通過以下六大過程來實現(xiàn)，即影像獲取、影像前處理、文字特征抽取、比對識別、人工校正和結(jié)果輸出。其中，①影像輸入就是將需要OCR處理的文獻(xiàn)資料通過光學(xué)儀器（掃描儀、數(shù)碼相機(jī)等）錄入計算機(jī)；②影像前處理是OCR系統(tǒng)中，須解決問題最多的階段，從得到一個不是黑就是白的二值化影像，或灰階、彩色的影像，到獨立出一個個的文字影像單元的過程，都屬于影像前處理，這其中包含了影像正規(guī)化、去除噪聲、影像矯正等的影像處理，及圖文分析、文字行與字分離的文件前處理；③文字特征抽取可以說是OCR系統(tǒng)的核心，用什么特征、怎么抽取，直接影響識別質(zhì)量的好壞；④比對識別是指當(dāng)文字特征抽取結(jié)束后，不管是用統(tǒng)計或結(jié)構(gòu)的特征，都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進(jìn)行比對，數(shù)據(jù)庫的內(nèi)容包含預(yù)先對所有欲識別的文字的集合中元素采用文字影像單元一樣的特征抽取方法抽取特征所得的特征。通過比對，從而確定文字影像單元所對應(yīng)的文字。由于OCR的識別率不可能達(dá)到百分之百，為了提高識別的準(zhǔn)確度，字詞后處理過程就必不可少了，它利用比對后產(chǎn)生的識別文字與其可能的相似候選字群，根據(jù)上下文的識別文字找出最合乎詞義的詞，對識別結(jié)果進(jìn)行更正，例如識別出“找們”，在詞庫中找不到這個詞，而“我”是“找”的相似候選字，因此很自然的將“我”取代“找”，而成“我們”；⑤人工校正是保證OCR質(zhì)量的最后階段，也是最有效、最直接的階段，在這個階段要求錄入人員花費精力和時間，去直接更正甚至尋找可能是OCR出錯的地方。一個好的OCR軟件，除了有一個穩(wěn)定的影像處理及識別核心，以降低錯誤率外，合理、有效和便捷的人工校正的操作流程及其功能，也很大程度影響著OCR的處理效率和準(zhǔn)確性；⑥結(jié)果輸出就是將OCR產(chǎn)生的結(jié)果將按照要求提交給用戶。［3 ］［4 ］

基于以上的過程，這種傳統(tǒng)的處理方式一般采用一臺告訴掃描儀和多臺計算機(jī)相連接，把掃描的文獻(xiàn)資料分派到不同空閑的計算機(jī)上進(jìn)行識別處理，再將識別結(jié)果返回整理。這是一種串行的工作方式，雖然在一定程度上提高了掃描和識別效率，但掃描和識別協(xié)調(diào)同步很難實現(xiàn)，而且輔助工作量極大。

3 面向海量文獻(xiàn)的數(shù)字化處理系統(tǒng)設(shè)計與分析

為了滿足書籍、報紙期刊、報表票據(jù)、歷史檔案等文字錄入的需求，也為了滿足資源性網(wǎng)站和數(shù)據(jù)庫開發(fā)對數(shù)據(jù)的需求，針對銀行、稅務(wù)、工商、醫(yī)院等行業(yè)尤其是圖書館、檔案館對文字識別的需求，本文提出了OCR數(shù)字化處理工廠的一攬子解決方案。

3.1 系統(tǒng)的總體設(shè)計

本文提出的數(shù)字化處理工廠系統(tǒng)是應(yīng)用OCR技術(shù)、實現(xiàn)工業(yè)化流水線管理方式的大型Internet系統(tǒng)設(shè)計。該系統(tǒng)設(shè)計通過強大的網(wǎng)絡(luò)功能實現(xiàn)流水線方式的數(shù)據(jù)加工，并通過網(wǎng)絡(luò)供千千萬萬個用戶享用。實現(xiàn)數(shù)字化處理工廠系統(tǒng)硬件需要：一臺小型服務(wù)器作為數(shù)據(jù)服務(wù)器和主域控制器，管理多臺終端；高速掃描儀和微軟的操作系統(tǒng)的服務(wù)器；大容量硬盤或磁盤陣列的存儲設(shè)備（視加工規(guī)模選用）；磁帶庫或光盤庫的備份設(shè)備（選用）。實現(xiàn)四大功能，即文字自動錄入、流水線管理、質(zhì)量控制和員工管理、系統(tǒng)管理（見圖1）。

3.2 系統(tǒng)功能與模塊介紹

整個系統(tǒng)圍繞兩個互相聯(lián)系的員工管理和OCR掃描文件數(shù)據(jù)庫展開工作。員工管理數(shù)據(jù)庫由員工信息表、工種信息表、員工考勤表、員工工作量表、班次表、工資管理表等構(gòu)成一個完整的員工資料庫。員工依流程指定的步驟登錄、考勤、申請工作、執(zhí)行操作并接受管理監(jiān)督。管理人員通過簡明友好的系統(tǒng)管理界面可以方便地查詢數(shù)據(jù)、備份數(shù)據(jù)和系統(tǒng)維護(hù)。該系統(tǒng)還提供安全日志供管理人員查詢。OCR錄入資料數(shù)據(jù)庫經(jīng)由掃描錄入、圖像處理、版面分析、識別、縱校、橫校、版面還原等工序處理最終形成。其中在信息傳輸上采取申請任務(wù)方式與分配任務(wù)方式相結(jié)合使用。其中申請任務(wù)方式是用戶完成一件工作包的同時查看是否有已經(jīng)分配的工作包，如沒有，則申請另一個工作包；分配任務(wù)方式是由管理員分配工作包給每一個員工；為對此流程進(jìn)行有效管理，建立了原始工作包表、工序跟蹤表、返工單表、員工工作分配表、工作包表等。

（1）文字自動錄入功能模塊。采用在OCR領(lǐng)域領(lǐng)先的成熟文字自動錄入技術(shù)，實現(xiàn)包括橫版、豎版、簡體、繁體各種版式的古籍、報刊雜志、公文檔案、報表或票據(jù)和現(xiàn)代書籍的自動圖像預(yù)處理、版面分析，能識別中文簡體、繁體、英文及混排和多字體多字號文檔。

（2）流水線管理功能模塊。采用生產(chǎn)流水線管理方式，根據(jù)OCR技術(shù)和操作的特點，將生產(chǎn)過程劃分成以下幾道工序：①文獻(xiàn)資料整理：為了便于掃描和以后的查詢、檢索而進(jìn)行的文獻(xiàn)分類、拆裝、命名、編號等。②掃描：掃描是將紙質(zhì)文獻(xiàn)圖像輸入計算機(jī)的過程。一般把相關(guān)按文獻(xiàn)頁碼順序掃描，在掃描質(zhì)量控制程序自動檢測并修正后，自動保存到數(shù)據(jù)庫中。③圖像處理：為了提高識別率，對圖像進(jìn)行“消藍(lán)去污”的處理，即去掉圖像上影響識別率的噪音如麻點、下劃線等，圖像質(zhì)量控制程序自動監(jiān)測圖像處理質(zhì)量。④版面分析：能自動進(jìn)行版面理解并定位，判別劃框區(qū)域是橫排文本區(qū)、豎排文本區(qū)、表格區(qū)還是圖像區(qū)，并對不同屬性的區(qū)域以不同顏色的線框標(biāo)識出來。自動版面分析在后臺運行，操作人員可在前臺進(jìn)行確認(rèn)，并對自動版面分析結(jié)果加入手工干預(yù)。 ⑤識別：把文字圖像轉(zhuǎn)化為計算機(jī)文字內(nèi)碼，可以識別印刷體和手寫體中文（包括簡體字和繁體字）、表格、中英文混排，識別出來的文字內(nèi)碼可以是GB碼、BIG5碼、GBK碼或者Unicode碼。識別過程在后臺運行。⑥縱向校對：具有很強的查錯、糾錯能力。縱向校對是將一個圖像或若干個圖像中識別成同一個字的文字圖像列在一起顯示，并以突出顏色標(biāo)出可疑字，便于操作人員發(fā)現(xiàn)錯誤和修改。⑦橫向校對：這是傳統(tǒng)的人工校對方法，操作人員直接對比識別結(jié)果文本和圖像，以發(fā)現(xiàn)識別錯誤文字。系統(tǒng)自動調(diào)出文字對應(yīng)的圖像，進(jìn)行比對。同時，以醒目的顏色標(biāo)出識別可信度不高的文字。⑧版面還原：將識別并修改好的文本還原成跟掃描文稿版面的布局一樣、可以供計算機(jī)閱讀和查詢檢索的RTF、PDF、HTML、SGML/XML格式的數(shù)字文檔。⑨數(shù)據(jù)入庫：版面還原數(shù)字文檔的保存。

（3）質(zhì)量控制和員工管理功能模塊。質(zhì)量控制是為了保證和控制系統(tǒng)的錄入質(zhì)量而采取的一整套方法與措施。主要是在各工序中加入對員工工作完成情況及差錯量的監(jiān)控和工作量的計算，以求將整體差錯量控制在萬分之二以內(nèi)。員工的工作態(tài)度將會直接影響到數(shù)據(jù)錄入的質(zhì)量和工作效率，要使員工保持一種積極的工作態(tài)度，必須有好的管理制度和客觀的評價標(biāo)準(zhǔn)和依據(jù)。該系統(tǒng)可以詳盡地提供員工考勤情況和工作質(zhì)量數(shù)據(jù)，并對員工的工作情況給予公正的評估。員工管理系統(tǒng)在整個系統(tǒng)中處于支配地位。該部分由考勤管理、工資管理、質(zhì)量控制、工作分配、返工單管理和建立用戶等幾個模塊組成。其中考勤管理是記錄各員工的出勤、缺勤狀況；崗位管理是記錄各崗位的工作分配和員工的工作量、差錯量（質(zhì)、數(shù)量的差錯要求控制在萬分之五以內(nèi)）的狀況；工資管理是根據(jù)員工的考勤、工作量和差錯量的情況，發(fā)放員工的工資并列出明細(xì)帳目表。

3.3 系統(tǒng)功能優(yōu)勢與創(chuàng)新分析

本文提出了一個基于大型的Intranet網(wǎng)絡(luò)系統(tǒng)實現(xiàn)系統(tǒng)框架，可將汗牛充棟文獻(xiàn)進(jìn)行數(shù)字化錄入識別處理，是一個包含成千上萬的加工數(shù)據(jù)資料和員工詳盡的工作信息數(shù)據(jù)庫系統(tǒng)。這樣的創(chuàng)新，將單獨的掃描識別通過整合方式組成了完善的數(shù)據(jù)加工生產(chǎn)工廠。

（1）采用生產(chǎn)流水線管理方式，改進(jìn)了傳統(tǒng)的串行的工作方的效率低下，將冗長、復(fù)雜的數(shù)據(jù)生產(chǎn)過程合理地劃分成若干道工序，每道工序操作簡便，合理安排工作崗位，并行操作，生產(chǎn)效率和質(zhì)量得到了3~4倍的提高。并且可以任意確定工藝流程操作順序和組合，適于不同種類和不同要求的數(shù)據(jù)資源加工，實現(xiàn)了單機(jī)資源數(shù)字化過程和機(jī)群間高效率的相互協(xié)同作業(yè)。

（2）采用分布式操作，管理員可通過計算機(jī)網(wǎng)絡(luò)實現(xiàn)對系統(tǒng)的遠(yuǎn)程管理，大大增加了管理員對數(shù)字化加工系統(tǒng)進(jìn)行管理的靈活性。加之服務(wù)器對客戶端的消息響應(yīng)采用隊列式管理，服務(wù)器運行會更加穩(wěn)定和可靠。

（3）文字自動錄入可實現(xiàn)批量掃描和識別，在不點擊鼠標(biāo)的前提下，實現(xiàn)數(shù)據(jù)自動命名、自動存盤、自動識別和自動校對，并將處理文件自動糾偏、去噪、OCR和壓縮存儲，極大的節(jié)省了人力資源。

（4）人工操作與后臺自動運行相結(jié)合，把一些可由計算機(jī)自行處理的工序設(shè)置為后臺自動運行，從而減少了人為造成的錯誤。

（5）數(shù)據(jù)質(zhì)量得到了大幅度的提高，實現(xiàn)了數(shù)據(jù)檢查、監(jiān)督和協(xié)調(diào)的自動化，完善了系統(tǒng)權(quán)限管理和數(shù)據(jù)安全管理，員工工作效率得到了公正的統(tǒng)計和評估。

4 結(jié)語

概而言之，本系統(tǒng)的設(shè)計為數(shù)字圖書館、檔案館、政府機(jī)關(guān)等不同機(jī)構(gòu)的大量文字、圖表的自動錄入提供了一種切實可行的處理方案，更適應(yīng)網(wǎng)絡(luò)時代建設(shè)網(wǎng)站過程中對文字和圖像的需求，具有巨大的社會效益和經(jīng)濟(jì)效益。

參考文獻(xiàn):

［1］張烯中．漢字識別技術(shù)［M］．北京：清華大學(xué)出版社，1992.

［2］任永芳．中文ＯＣＲ與圖書資料的再制作［J］．高校圖書館工作，2001，(3).

［3］遲春佳．OCR技術(shù)及其在高校圖書館信息資源數(shù)字化建設(shè)中的應(yīng)用［J］．中國科技信息，2007，(7).

［4］王桂敏，齊鳳河．0CR軟件使用經(jīng)驗淺談［J］．科技信息，2006，(5).

作者簡介：蘇云，男，蘭州大學(xué)管理學(xué)院副教授；張慶來，男，蘭州大學(xué)管理學(xué)院講師。

圖書與情報2010年2期

圖書與情報的其它文章: 讓每一個館員都有尊嚴(yán)地工作; 基于滿意度視角的欠發(fā)達(dá)地區(qū)農(nóng)村新型合作醫(yī)療績效分析; 道德判斷及其在競爭情報行為中的應(yīng)用; 論明代日用類書與詞的傳播; 圖書館學(xué)與閱讀研究; 中文甲型H1N1流感圖書的文獻(xiàn)計量學(xué)分析