劉明英

摘要:在實現檔案數字化的過程中,OCR技術應該最大限度地發揮自身的優勢,使檔案信息能夠更好地服務于廣大用戶。然而,由于技術能力所限,OCR技術在使用的過程中并不是完美的,尤其是在識別率方面,很有可能受到圖像質量、軟件質量、掃描參數等因素的影響而導致其識別率下降。文章對檔案數字化過程中OCR技術的應用進行了分析。
關鍵詞:OCR技術;檔案數字化;檔案管理;檔案信息;識別率 文獻標識碼:A
中圖分類號:G271 文章編號:1009-2374(2017)05-0055-02 DOI:10.13535/j.cnki.11-4406/n.2017.05.026
1 OCR技術的解析
OCR技術的中文全稱為光學字符識別技術,是通過光學輸入方式將文字信息轉化為圖像信息,然后再利用文字識別技術將相關圖像信息轉化為可供計算機輸入的形式,便于檔案信息的錄入與使用。從目前的情況來看,OCR技術已經成為了檔案技術領域不可或缺的重要技術水平之一,實現了全文字識別模式下的檔案掃描工作,有效地促進了我國檔案數字化的發展,并為其未來的發展與突破開啟了全新的篇章。不僅如此,OCR技術在檔案工作中的使用,既實現了檔案的數字化建設,也為檔案信息數據的查詢工作提供了必要的技術支撐,是檔案數字化進程中的核心技術之一,也是不可或缺的一環。
2 OCR技術在檔案數字化工作中的實際應用
2.1 OCR技術的工作流程
OCR技術在實際的工作中,主要是按照以下流程進行操作的,如圖1所示:
從流程圖上來看,OCR技術在使用的過程中,涉及到的工作流程較多。然而,從實際工作的情況來看,使用OCR技術進行圖像識別的時間通常只有零點幾秒,但是卻要重視其前期與后期的加工處理。尤其是影像輸入與前期處理工作的效果,直接決定了OCR軟件的最終識別率,前兩環節的處理質量越好,OCR工作的效率就越高。而后期的人工校正環節,主要是對前面各個流程工作的校驗與檢查,確保OCR工作的質量不受影響。
2.2 OCR技術在錄入方式上的優勢
2.2.1 OCR工作中的文字識別技術輸入檔案信息數據的過程中,在速度方面要優于傳統的手工錄入方式。雖然使用OCR技術需要在識別前對信息數據進行一定的處理,但就總體所耗時間來看,依舊遠好于傳統的手工錄入,使檔案信息錄入方式獲得了質的突破。
2.2.2 OCR文字識別的質量要好于傳統的手工錄入。從OCR文字識別的準確率上來看,雖然無法達到100%的準確度,但與手工錄入相比,準確率還是很高的。
2.2.3 OCR文字識別技術在使用的過程中,通常只需單人操作即可,并且工作效率、質量極高,極大程度上節省了人力資源的消耗,從而將這些剩余的人力資源分配到其他部門,實現資源的優化配置。
2.3 在檔案數字化過程中使用OCR技術的特點與作用
檔案數字化過程便是實現數字化的檔案信息管理工作,OCR技術在檔案數字化過程中,除了具備上述優勢以外,還具備一些其他的優點,在實際的使用過程中,其優勢便會逐漸體現出來。
2.3.1 OCR技術的使用,在著錄標引方法上取得了一定的突破。在傳統的檔案目錄創建中,其中的許多內容都是通過手工錄入的方式,費時費力易出錯。OCR技術為檔案目錄的創建與錄入提供了一種全新的方式。在實際的工作中,工作人員可以直接從OCR中尋找著錄相關項目,使用基本的復制、粘貼操作將其放入到目錄數據庫中的相應段落當中即可。然而,由于OCR技術自身方面還存在著一些問題,導致了該方法在實際使用的過程中缺乏可行性。在OCR技術未來發展的過程中,必須要從可行性的方面入手,逐漸完善OCR技術,確保OCR在技術方面的應用能夠獲得突破。
2.3.2 OCR技術真正實現了全文檢索。在檔案數字化工作中,所謂的全文檢索主要可以分為兩種:一種是針對全文目錄的檢索,必須在目錄數據庫中找到相關的條目才能將所需的文檔打開;另一種則是真正意義上的全文檢索,該檢索方式可以對檔案全文進行逐字逐句的檢索,二者之間的工作效率與作用是十分明顯的,逐漸深入開發并利用檔案信息資源。
2.3.3 使雙層PDF技術的使用獲得支持。所謂雙層PDF,就是指PDF文件中包含了兩層文件。在實際的應用中,PDF的上層文件主要是通過掃描圖像來獲得,而下層則是OCR進行文字識別產生的結果。隨著該技術在數據庫檢索中的廣泛運用,逐漸增加了檔案信息文件的原始性。滿足用戶對檔案信息數據的操作需求,使檔案數字化工作越來越受到廣大客戶的歡迎。然而若要實現雙層PDF技術的使用,必先以OCR技術為支撐。
2.3.4 拓寬用戶的檔案利用面。在過去,用戶在選擇與利用檔案信息文件的過程中,主要以其憑證價值作為其是否使用的判定標準。然而,部分檔案在使用過程中,對檔案的原真性具有較高的要求,例如結婚證、戶口薄、學生證、房產證等,只有使用紙質檔案才能真正地發揮出起作用。檔案絕不僅僅擁有憑證價值,也具有一定的情報價值與參考價值。若要將其用于學術研究或決策參考,按照現行的工作方式,只能去檔案館使用印刷或手工摘錄的方式來獲取,不僅不便于實際工作中的使用,也會影響檔案信息的傳播速度,對其使用效果產生影響。使用OCR文字識別技術,使用數字化檔案代替傳統的紙質檔案,使我國的檔案信息技術取得了全面性的突破,使其可以為用戶提供更加優質的服務。
3 提高檔案數字化過程中OCR識別率的方法
識別率的高低直接影響到OCR技術存在的意義,高識別率代表OCR技術可以準確地對相關信息進行掃描,不僅提高了檔案信息的錄入速度,還減輕了后期處理的工作量。然而,如果OCR識別率低于相關規定標準,為了確保檔案信息的準確性,就必須在后期處理過程中,加大人工校對的力度,如此一來,OCR在識別過程中制造出的優勢便會就此抵消。在實現檔案數字化的過程中,OCR識別率的提高可以減少OCR工作所需消耗的人力與物力,降低了檔案數字化建設過程中消耗的成本。由此看來,提高檔案數字化過程中OCR識別率勢在必行。具體可以從以下方面入手,來制定提高檔案數字化OCR識別率的方法。
3.1 設置合適的掃描參數
3.1.1 分辨率。分辨率是影響OCR識別率的重要因素之一,OCR在識別圖像的過程中主要依靠掃描來進行,只有獲得足夠的圖像信息才能確保識別率的有效提高。然而,這并不意味著圖像的分辨率與OCR識別率是成正比的。圖像的分辨率過高也會導致掃描過程中出現失真的狀況,不僅無法提高OCR的識別率,還會導致圖像文件所占空間變大,不利于文件的儲存與傳輸。
3.1.2 色彩模式。在色彩模式的選擇方面,使用黑白兩種顏色掃描的圖像無論是速度還是正確率方面都遠遠高于其他顏色模式的掃描圖像。因此,在沒有特殊要求的情況下,通常使用這兩種顏色來完成圖像掃描。除此之外,灰度模式在OCR識別掃描的過程中有著較為廣泛的運用,例如紙張顏色發黃或者是對文字字跡要求較淡的檔案。
3.1.3 亮度與對比度。在現代化檔案管理系統出現以前,我國檔案儲存都是使用紙質儲存的方式,由于一些檔案的儲存年份較差,紙張的底色會逐漸泛黃,字跡也會變得較為暗淡,采用灰度模式進行掃描已經無法滿足實際的要求。因此,為了有效的提高OCR識別率,需對掃描的參數進行適當的改變,也就是對亮度以及圖像對比度的調節。如果在掃描結束以后,圖像中漢字的字跡較淺,可以適當地調低其亮度進行二次掃描;如果在掃描結束后,字體較小,筆劃也比較粗,則可以適當地增加其亮度;如果在進行亮度調節的過程中,圖像的文字出現了變淡的情況,則需對圖像的對比度進行適當的調節,加重原圖像文字的顏色,從而提高OCR識別率。
3.2 圖像的處理工作
原圖像中許多文字可能會以美工體或者是藝術體的形式出現,這種非常規字體的出現,大大降低了OCR識別率。除此之外,如果圖像中文字存在污點或者是污垢,也很有可能導致OCR軟件在識別過程中出現錯誤或失誤。因此為了避免這種情況的發生,在OCR識別以前,必須要對圖像中的字體進行糾正,并清除圖像上的污點與污漬,以此方式來有效地提高OCR識別率。但是,需要注意的是,圖像的糾偏與去污并不是因為OCR技術的使用才施行的,而是檔案掃描流程中必不可少的工作環節之一,即使不使用OCR技術也不能漏過這一環節。
3.3 強調人工校對的重要性
在實際的工作中,電腦會因為固定化的錯誤,在同一個地方始終出現問題,工作完全按照程序設定的內容進行,缺乏靈活性。這也是人腦相較于電腦來說,最大的優勢之一。從我國目前的情況來看,OCR識別率還無法達到100%,這也正是人工校對技術存在的原因。由此看來,人工校對是提高OCR識別率的最后一環。
從理論上來說,OCR軟件識別后,會將識別結果以不同的兩行呈現出來,其中一行是圖像,而另一行便是識別后的結果。OCR軟件對自身識別存在疑問的部分,通常會使用不同的顏色進行表明,便于用戶發現錯誤。然而,在實際的使用當中,有些存在錯誤的部分,軟件卻并沒有對其進行變色處理,而進行變色處理的文字或語句也不一定是錯的。因此,工作人員在進行人工校驗的過程中,務必要針對此問題進行仔細檢查,不能按照提示改完便結束校驗工作,以免存在“漏網之魚”。
4 結語
綜合上文所述,在檔案數字化的過程中,使用OCR技術可以有效地提高檔案錄入與輸出的速度與質量,減少檔案管理工作所需的工作人員及其工作量,最大限度地降低了檔案管理工作中的人力消耗。然而,只有解決了OCR識別率方面存在的問題,該技術才能真正地促進檔案數字化的發展。
參考文獻
[1] 吳軍.掃描文檔圖像的處理方法的研究和應用[D].山東師范大學,2015.
[2] 馮雪.紙質檔案數字化中需要注意的幾點問題[J].辦公室業務,2016,(8).
[3] 鄭鳳英.大數據環境下國土資源檔案數字化質量管理初探[J].黑龍江史志,2015,(5).
[4] 任惠敏.國土資源檔案管理中信息化與數字化技術的運用淺析[J].辦公室業務,2016,(23).
(責任編輯:蔣建華)