摘要:紙質(zhì)檔案的利用存在諸多不便,大數(shù)據(jù)時代對檔案數(shù)據(jù)信息綜合利用提出了更高的要求,通過檔案數(shù)字化信息采集才能實現(xiàn)檔案數(shù)據(jù)信息的綜合利用,檔案數(shù)字化信息的采集是一項非常重要的基本工作。存量檔案作為常年積累下來的檔案,存量檔案數(shù)據(jù)信息的采集是檔案工作的基礎(chǔ),工作流程包括掃描、著錄、數(shù)據(jù)存儲、校對、OCR文字識別等,每個環(huán)節(jié)嚴謹?shù)墓ぷ髦贫群鸵?guī)范的工作紀律是保證準確率的基本條件,新技術(shù)的應用亦必不可少。
關(guān)鍵詞:存量檔案;數(shù)字化;掃描;OCR文字識別
一、引言
隨著計算機信息化技術(shù)的應用和普及,大數(shù)據(jù)時代的到來,國家提出了“互聯(lián)網(wǎng)+”的發(fā)展戰(zhàn)略,適應了現(xiàn)實的迫切需求,現(xiàn)如今,不管是生活上(如網(wǎng)上購物、手機APP叫外賣、網(wǎng)上約出租車、共享單車),還是工作上(如財務信息系統(tǒng)、人事管理系統(tǒng)、質(zhì)量管理系統(tǒng)、檔案信息系統(tǒng)、科技信息系統(tǒng)),信息化為我們提供高效服務的同時,也在深刻的改變和影響著我們每一個人。進入大數(shù)據(jù)時代,大規(guī)模數(shù)字存儲系統(tǒng)實現(xiàn)應用降低了數(shù)據(jù)存儲的成本,許多以前無法存儲的數(shù)字信息也可以保存下來[1],檔案的數(shù)字化同樣產(chǎn)生了大量的數(shù)字信息,在大數(shù)字時代的檔案利用會越來越便捷。
檔案信息化系統(tǒng)正是基于信息化大發(fā)展的背景下大力建設(shè)的,檔案信息化系統(tǒng)可有效避免紙質(zhì)檔案在利用的過程中遭到損壞,以確保檔案完整性,改善存量檔案的存儲環(huán)境,檔案信息化系統(tǒng)的實現(xiàn),使檔案的利用效率更高,跨越了時間和空間的限制,節(jié)省了大量人力資源,有效降低了檔案保管單位的利用成本[2],方便統(tǒng)計和進行遠程查詢。存量檔案數(shù)據(jù)信息的采集是主要包括掃描、著錄、數(shù)據(jù)存儲、校對、OCR文字識別等工作流程,本文將進行詳細分析。
二、存量檔案掃描
(一)掃描準備
增量檔案的信息化掃描工作是業(yè)主方的常態(tài)工作內(nèi)容,掃描工作量比較固定,可以由業(yè)主方安排專門的人員完成,但在承擔掃描工作前,一定要進行前期的培訓,使其符合檔案掃描崗位的要求。相對而言,存量檔案的掃描工作量特別大,耗費時間長,業(yè)主方的工作通常是定人定崗,一般難以抽調(diào)大量人力完成存量檔案的掃描工作。存量檔案掃描應建立在預先制定的規(guī)則之上,最好外包至專業(yè)的掃描公司。掃描公司自身有一套具體的人員和工作質(zhì)量管控的辦法,執(zhí)行力強,業(yè)主方需安排專人配合,操作檔案信息管理系統(tǒng),確保檔案信息管理系統(tǒng)正確操作、保證信息安全,業(yè)主方內(nèi)部人員進行掃描圖片、著錄條目的檢查、修改、打印工作,第一輪檢查工作完成后,將糾錯結(jié)果返還至掃描公司,由掃描公司進行確認修改,修改后的內(nèi)容再由業(yè)主方進行確認,執(zhí)行嚴格到位的情況下,即可保證存量檔案掃描工作的準確無誤。
掃描場地要根據(jù)業(yè)主單位及掃描公司投入的設(shè)備及人力確定適宜的面積,準備掃描場地。掃描場地要具有良好的采光、通風條件以及消防、防盜設(shè)施,場地位置應距離庫房較近,便于檔案的調(diào)卷及還卷,防止運輸過程中損壞檔案,確保檔案的安全[3]。
(二)掃描過程注意事項
檔案信息化一定要保證質(zhì)量的情況下,提高數(shù)量,即使檔案糾錯及質(zhì)檢非常嚴格,也難以完全應對錯誤百出的情況,不僅降低了檔案信息化工作的準確度,也占用了大量從事糾錯和質(zhì)檢的人力資源,降低了工作效率,再者,檔案掃描工作完成后,即錄入檔案信息管理系統(tǒng),如果在檔案信息系統(tǒng)利用的過程中,發(fā)現(xiàn)電子檔案的錯誤之處,返工的成本則會成倍增加。
掃描工作進行的過程中,要確保掃描儀、掃描軟件的正確操作,選購掃描儀要注重儀器的掃描速度、圖片效果及公司的售后服務,選購品質(zhì)、技術(shù)和服務有保障的品牌,保證掃描圖片的質(zhì)量及正常運行,使圖片曝光和色調(diào)合適,圖片不容許歪斜。
存量檔案通常年代久遠,紙質(zhì)檔案存放時間長,可能會導致檔案的質(zhì)量較差,檔案由于其不可再生的屬性,且諸多檔案原件具有法律效力和歷史意義,在進行掃描時要特別小心謹慎,稍有不慎就可能造成損壞。根據(jù)存量檔案的原文類型,掃描人員可選用黑白、灰度、彩色三種掃描方式。大多數(shù)檔案圖文是黑白文稿,可選用黑白掃描方式。對于存在灰度變化的檔案圖文,如黑白照片,則選用灰度掃描方式,許多檔案存在手寫方式不同、字跡不清的情況,亦須采用灰度掃描方式,增強其逼真性。彩色的檔案圖文,掃描時采用彩色掃描方式[4]。
(三)掃描文件存儲
由于TIFF格式的圖像具有較高的位信息,還能以無損壓縮的方式存儲,較適合作為保真要求高的檔案圖文,應用廣泛。由于檔案掃描后需占用大量的存儲空間,需根據(jù)業(yè)主方要求及顯示效果,設(shè)定合適的分辨率,一般大于200dpi,過大的分辨率不僅造成了存儲空間的浪費,還會占用檔案信息系統(tǒng),使服務器負擔過重,造成系統(tǒng)響應遲緩。
在應用的實踐中,可以將TIFF格式的圖像轉(zhuǎn)換成PDF文件,這樣可以將擁有一定數(shù)量頁碼的檔案文件合成為一個PDF文件,既能降低檔案電子文件所占用的空間,又能方便使用。由于檔案文件種類繁多、數(shù)量非常多,服務器存儲空間有限,不能大量長期存儲,無法滿足存量檔案的存儲要求。實際操作中,需采用多個移動硬盤進行存儲,還需要備份,以免移動硬盤受到意外或不可抗力造成數(shù)據(jù)的損壞。采用光盤刻錄存儲,存儲空間大,不易損壞,也不失為一種較好的存儲方式。在實際應用中,采用異地備用存儲的方式,能進一步保障檔案數(shù)據(jù)存儲的安全性。
(四)掃描過程監(jiān)督
外包至掃描公司首先要保證檔案信息的安全性,與掃描公司及具體在業(yè)主方實地工作的人員簽訂保密協(xié)議,掃描的數(shù)據(jù)不能帶出業(yè)主方指定的地點,掃描公司所使用的電腦USB數(shù)據(jù)傳輸口應封掉,不應接入互聯(lián)網(wǎng),業(yè)主方應進行巡查及抽查,掃描公司應承擔主體責任和義務。
許多存量檔案是經(jīng)過鑒定、整理后形成的長期的、系統(tǒng)的材料,自身具有完整性和系統(tǒng)性,切不可打亂了檔案自身的內(nèi)部聯(lián)系,保證存量檔案掃描后的電子文件齊全完整,是存量檔案利用的前提[5]。對于存量檔案中可能夾雜的一些涉密檔案,在檔案調(diào)出庫房的同時,應由業(yè)主方所派人員即時檢查撿出,由業(yè)主方內(nèi)部進行處理。
三、電子數(shù)據(jù)處理
掃描所產(chǎn)生的大量檔案電子數(shù)據(jù)的處理,直接關(guān)系到數(shù)據(jù)掛接的正確率。首先要檢查掃描數(shù)據(jù)的正確性。所獲得的掃描數(shù)據(jù)一般為圖片格式,單張圖片為一頁,每卷案卷包含一個或多個文件,然后將圖片按照案卷目錄中文件個數(shù)轉(zhuǎn)換成PDF格式,處理完成的PDF文件,為了便于保存、核對,通常將封頁與第一個文件合并在一起,封頁包括封面、目錄和封底(包含備考表),置于第一個文件前部,這樣所合成PDF的數(shù)據(jù)等于文件的數(shù)量,數(shù)據(jù)掛接前,可以檢查文件數(shù)與PDF數(shù)是否匹配,能夠方便快捷的發(fā)現(xiàn)問題。每卷案卷的封面一般采用牛皮紙打印,目錄和內(nèi)容一般采用普通的白色紙張打印,封面與目錄和內(nèi)容表觀上存在明顯差異,通過預覽PDF文件,即可輕易找到不符合要求的每卷案卷的第一個文件,便于核查。
由于掃描數(shù)據(jù)量非常大,通常無法進行逐頁檢查,一般采用抽查的方式進行檢查,政策規(guī)定抽查率最低為5%,一般操作過程中,抽查率為10%左右,掃描過程中可能出現(xiàn)漏頁、重復、內(nèi)容顯示不完整等情況,通過檢查以后,要及時整改。如果發(fā)現(xiàn)某個區(qū)塊的數(shù)據(jù)集中爆發(fā)錯誤或某掃描操作人員重復發(fā)生類似的錯誤,則需提高抽查率、及時與相關(guān)掃描操作人員進行溝通,將錯誤全部改正,嚴防類似錯誤再次發(fā)生。
四、OCR文字識別
采用OCR文字識別軟件,將所掃描的圖片,轉(zhuǎn)換成文字信息,通過關(guān)鍵詞的搜索,即可將平時通過搜索題名和文件名無法檢索到的內(nèi)容,呈現(xiàn)在管理人員眼前,方便利用者使用,尤其適用于題名、文件名錄入不準確、不能正確反應文件內(nèi)容、利用率高的重要檔案。
現(xiàn)在仍需解決,檔案數(shù)據(jù)量大、文字識別軟件對于檔案中手寫字識別難道大、識別后所生成的文件格式不正確等問題,需要進行人工選取和校對。鑒于OCR文字識別軟件存在的技術(shù)瓶頸和現(xiàn)實問題,建議先通過OCR文字識別軟件將所掃描的檔案全部轉(zhuǎn)換為文字保存,要標記檔號、件號等出處,方便查找原始圖片及檔案。將由檔案圖片所轉(zhuǎn)換成的文字保存建立一個數(shù)據(jù)庫,需要通過人工檢查、改正一些明顯的錯誤,人工校對僅作為OCR文字識別的補充,過多的人工介入則會很大程度上降低檔案數(shù)字化處理工作的效率[6]。
在檔案利用的過程中,如果確有檔案中,無法通過題名和文件名檢索,則可以通過檢索OCR文字識別數(shù)據(jù)庫進行查找,可以作為現(xiàn)今檔案利用檢索手段的補充。由于OCR文字識別技術(shù)僅僅是作為現(xiàn)今檔案利用檢索手段的補充,僅需保證一定的準確率,就可以發(fā)揮OCR文字識別技術(shù)不可替代的優(yōu)勢,能夠提高檔案利用程度,待技術(shù)發(fā)展更加成熟,將會在大數(shù)據(jù)時代發(fā)揮更大的作用。
大數(shù)據(jù)時代對于檔案的信息化提出了更高的要求,識別利用率高的重要檔案中的文字非常重要,將能夠挖掘現(xiàn)今檔案利用時無法檢索的數(shù)據(jù),實現(xiàn)檔案信息資源社會化、共享化、數(shù)字化[7]。大數(shù)據(jù)時代檔案利用的趨勢是,將檔案的數(shù)字化實現(xiàn)檢索、計算、分析、便捷利用的檔案數(shù)字化數(shù)據(jù),而不僅限于圖像文件、題名、文件名和目錄的文字、關(guān)鍵詞檢索。政府部門、企事業(yè)單位的檔案往往包羅萬象,包含種類眾多的類別。如高校保存的檔案中,通常包含黨群、行政、教學、科學研究、基本建設(shè)、儀器設(shè)備、出版、外事、財會、人物、聲像、實物等類別,每個類別下面又分為數(shù)個小的類別,高校往往人員眾多,學生數(shù)萬人,教職工數(shù)千人,實施的業(yè)務種類豐富。在這種情況下,高校亟待推進檔案大數(shù)據(jù)的綜合利用,以便為高校管理人員、教師、學生提供優(yōu)質(zhì)的檔案利用服務,尤其是通過大數(shù)據(jù)的分析為管理人員提供學校發(fā)展規(guī)劃的決策建議、為教師提供個人發(fā)展規(guī)劃的建議、為學生制定課程選擇、個人升學、就業(yè)規(guī)劃的建議。要實現(xiàn)這些檔案大數(shù)據(jù)的深度利用,就需要得到盡可能齊全的檔案數(shù)據(jù),若將本校保存的所有檔案數(shù)據(jù)數(shù)字化,將可實現(xiàn)檔案數(shù)據(jù)的檢索、計算、分析、便捷利用創(chuàng)新多樣化服務方式,開展多層次、多方位的網(wǎng)絡檔案信息服務[8]。
參考文獻:
[1]陳明潔. 大數(shù)據(jù)時代對檔案現(xiàn)代化影響和要求[J].檔案管理, 2013(6):48-49.
[2]張靈. 高校檔案數(shù)字化管理之我見[J].檔案管理, 2014(1):91-92.
[3]蘇金華. 檔案掃描項目的有效組織與實施[J].新東方, 2008(1):20-23.
[4]王曉燕. 檔案全文掃描錄入工作流程(上)[J].湖南檔案, 2002(12):27-28.
[5]王燕, 李夢軍. 檔案全文掃描的實踐與思考[J].數(shù)字與縮微影像, 2006(3):60-61.
[6]許呈辰. 檔案數(shù)字化過程中OCR技術(shù)的應用[J].檔案管理, 2011(1):38-40.
[7]宮毅敏. 大檔案視角下的高校檔案信息化建設(shè)[J].山西檔案, 2017(5):77-79.
[8]陳曉媛. 信息化背景下高校檔案利用模式的發(fā)展與創(chuàng)新[J].山西檔案, 2016(5):47-49.
作者簡介:王鋼領(lǐng),男,碩士,上海大學檔案館教師,主要從事檔案信息化的工作。