文本數據質量的發展離不開海量的原生數據和網絡原生數字資源的支持。原生數據包括業務數據、文獻數據和用戶數據三大類型。其中,文本數據是支撐文獻數據搜索引擎和知識化資源系統建設的主要對象。目前對于文本數據質量控制存在流程復雜、數量巨大和技術效率要求較高的問題,OCR識別技術因此備受關注,其采用人工智能的輔助算法,OCR可以提高其兼容性。本文通過綜述OCR 技術的識別工作過程、關鍵技術、研究思路及在不同種類文獻中的廣泛應用,表明通過改善OCR技術可以提高對于文本數據的識別效率和準確度,實現文本數據的智能管理化。
(一)OCR技術原理及其發展
OCR技術即光學字符識別,是一種將圖像文字轉換為可編輯文本的技術,方法包括兩個主要環節:首先是圖像處理過程,利用掃描儀、數碼相機等電子設備,通過光學和電子信息技術將印在或寫在紙上的文字轉化為點陣圖像,以檢測亮暗的方式來確定字符間的輪廓形狀。通過字符識別研究文字形狀特征,最終轉化為計算機語言文字。OCR的實現過程融合了人工智能、數字圖像處理以及計算機圖形處理等多種先進信息技術。隨著互聯網和人工智能技術的不斷發展,OCR識別技術己經可以從識別特定文字發展到對文字進行高精度的識別,識別速度大幅提高,對于清晰工整的文字圖像識別準確率甚至可以達到99.5%以上。
(二) OCR技術應用現狀
目前OCR 技術根據識別類型主要劃分為中文簡繁體識別、中英文混合識別、大字符識別、表格識別、圖文混排文檔識別;根據識別對象的字體上可以劃分為印刷體識別、手寫體識別等,甚至還可以識別視頻圖像文字。OCR技術的發展滿足了用戶對于文字自動識別的需求,廣泛應用于我國各行各業,包括金融機構、政府醫療、圖書館、檔案館等單位。網頁識圖,AI 智能輸入法,快遞單號識別系統,高速公路ETC 通道車牌自動識別,圖書館書刊報全文數字化等,實際上都是利用OCR 技術原理來解決實際問題。
本段主要以筆者在實際工作中質檢不同類型的文獻數據為例,通過闡述文獻數據驗收中發現的主要問題來分析OCR在全文本數據加工中的質量控制問題。
(一)學位論文文獻
由于傳統的資源建設和服務方式已經不能滿足讀者日益增長的需求,導致學位論文資源建設的規模和國際影響力顯著下降。因此,重視學位論文的數字化,進一步加大學位論文全文本數據質量控制的建設勢在必行。
在實際驗收學位論文的工作中,主要問題存在于論文的英文摘要、英文目錄及其論文文獻標引這三部分。由于與漢字相比,外文字母數量和結構相對簡單,但依然存在相似字母與數字識別困難的問題。例如:V與U、I與J、a與d、c與o、i與L、6與G、L與I,I與1、O與0等。這些字母和數字由于結構相似,造成較高的識別錯誤率。在經過OCR軟件識別后需要重點進行人工校對。
在英文詞組切分的方面,O C R軟件在進行詞組切分時,如果不能正確切分,就會導致固定詞組錯誤。實際中常見:“Domestic Subscription”識別為“DomesticSubscription”、“Council of the People′s”識別為“Councilofthe People′s”等情況。此外,根據英文的行文習慣,經常存在同一個單詞分成上下兩行書寫的情況,中間或用連字符(—)或不使用連字符,OCR識別時主要依據“原樣識別”的原則, 這樣同一個單詞可能被切分成兩個單詞,針對這種情況,應采取統一的識別規則,如果需要恢復單詞原意,則需要進行針對性的處理。
在論文文獻的書寫和引用中,存在大量外形相似的標點和符號,例如:“, 。 、 .”、 “— _”、“[{ 〈”等。這些標點符號的結構形態也常與紙張上的污漬雜點相近,OCR識別過程中經常混淆,造成文本信息錯誤。對于不太常見的符號,例如上角標、下腳標、波浪線、下劃線、注解中的圈注符號、漢語拼音的音節等,大部分OCR識別軟件在識別過程中仍然存在一些問題。例如:
(1)“M2”識別為“M2”,二次方符號沒有識別正確。
(2)“Xīmén ànshā”識別為“Xīmén Anshā”,漢語拼音的注音符號沒有完全識別。”
(3)“或者標明或標記”識別后為 “或者標明注或?標記“,帶圈文字識別錯誤。
(二)政府公報文獻
政府公報是指政府機關出版發行的以登載法令、方針、政策、宣言、聲明、人事任免等各類政府文件為主要內容的連續出版物。政府公報具有較強的權威性,因此對OCR識別準確性和內容還原度都提出了較高要求。

(三)民國時期文獻
民國時期文獻涵蓋圖書、期刊、報紙、手稿、書札,還包括海報,老照片、電影、唱片,以及非正式出版的日記、傳單、商業契約和票據等。據初步估算,國內民國時期文獻數量超過了存世的古籍總量,它們散落在全國各地的藏書機構。隨著時間的推移和社會的進步,民國文獻質量的保護與利用越來越受到重視。其中文獻數字化的質檢工作,是保障數據質量的最后一個環節,OCR軟件對于全文本數據質量的控制問題尤為關鍵。
在質檢工作中,民國文獻數據質檢內容分為目次數據和圖像數據兩部分。目次數據的問題主要集中在元數據中的book表和catalog表中,例如:book表中,book_ name為“人格修養法”,原書上實際顯示為“獨立自尊人格修養法合冊,catalog表中chapter_name識別為“復活后第五主日即升天前主日”,原書上實際應為“耶穌升天前主日”、 catalog表中chapter _name識別為“器物妝飾”,原書上實際應為“器物裝飾”。這種漏識、多識、錯識的情況常見于經過OCR軟件識別后的書目目次數據中。
對于圖像數據,其主要問題多存在于書中表格識別和科學公式還原的問題上:
1.不同種類易錯表格問題及控制辦法
對于簡單樣式的表格,其有若干條標志性的表格線且內容屬于一對一的關系,在實踐中可以不轉換表格格式,按照整體合并內容;對于復雜樣式的表格,表格里的內容存在一對多的關系,且缺少表格線作為標記,在實踐中可將表格整體作為圖片進行處理。當然,也可以采用文本編輯的方式重新按照原樣繪制表格。對表格采取何種處理方式,主要是根據數據文件的格式、用途而定,根本原則是避免識別后表格中文字內容漏識、錯識以及對應關系識別錯亂等問題。
2.科學公式還原問題及控制辦法
政府公報發布的一些文件中包含科學公式,由于科學公式通常采用特殊符號或采用特殊結構,僅通過自動識別難以達到完整正確還原公式的目的。一些公式經過自動識別,其格式不能完全還原,導致公式含義發生變化。針對這種情況,在實踐中可以采取格式轉換的方式,將固定格式的公式按照其科學含義轉換成文本文件能夠顯示的樣式。
OCR 文字識別系統性能的好壞主要由拒識率、誤識率、識別速度、用戶界面友好性、產品穩定性、易用性以及可行性等因素構成。本段主要討論如何通過OCR軟件的工作流程及主要關鍵技術來解決文字“拒識率”和“誤識率”這兩個問題,從而提升全文本數據的質量。
(1)圖像輸入和預處理。在前期圖像輸入這個過程中設置準確適合的參數是后期圖像掃描質量高低的關鍵所在,是決定 OCR文字識別率高低的重要因素,清晰完整的掃描圖像有助提高后期OCR軟件對于文字識別的準確率。掃描圖像完成后是預處理過程:OCR系統對圖像邊緣進行檢測,將傾斜圖像進行歸正處理。這個過程提高圖像文字的準確度,利于0CR軟件的識別,避免文字的“誤識率”和“拒識率”。為獲取更清晰的圖像,OCR操作系統會對圖像進行增強處理,加大圖像顏色對比度,以便人、機可以更好地研究分析圖像。
(2)圖像分割。圖像質量達到合格后是對圖像進行分割處理,過程的目的是為了分離和定位需要識別的物體,將原本輸入的完整圖像,變成像元圖像進行輸出。
(3)圖像特征提取和圖像分類。即將分割后的物體提取系統所需特征,根據特征進行分類。目的是將輸入的信息圖像變化為特征信息進行輸出。
OCR系統完成上述操作后,文字可達到較高的準確率。未識別合格的文字是由OCR軟件的“拒識率”和“誤識率”等因素造成的,需要后期人工干涉進行文字校對。因此加大后期人工校對力度是保障文字識別率提高的關鍵所在。
結合文獻中全文本數據加工存在的主要問題和OCR系統軟件的部分工作流程分析,提高OCR識別率的方法可從以下四個方面入手:一是完善OCR軟件系統的預處理過程:設置準確合適的圖像掃描參數、利用Photoshop軟件編輯完善圖像,避免圖像文字受到外在因素的干擾,從而提高圖像文字的清晰度,利于0CR軟件的識別;二是建立完整的字庫進行支持,及時更新文字字庫,擴充字庫中的生僻漢字也可降低OCR文字識別軟件的“拒識率”,從而提高全文本數據質量;三是建立專門的錯題庫,將典型特殊的問題匯總,當OCR系統再次遇到同樣錯誤時可有針對性的避免重復問題發生;四是加大人工通查校對力度。目前OCR技術仍不能做到對于文本數據內容百分百正確識別,后期人工校對環節對于提高OCR識別率十分重要。
OCR技術目前趨于成熟發展,但仍存在一定的問題和局限性,為解決其對于文本質量控制的主要問題,本文從OCR技術原理及其發展應用現狀為出發點,介紹 OCR技術在實際中的應用,同時依次以OCR軟件在學位論文、民國文獻、政府公報數據中對于文本數據加工中出現的問題為例,分析文本數據質量的控制問題。通過OCR軟件識別過程、關鍵技術、研究思路及在多種文獻中的應用四個方面說明OCR技術在文本質量控制和管理中的重要作用。通過匯總分析實際工作數據驗收中存在的問題,分別從如何解決圖像掃描質量問題和文字識別問題兩個角度出發,提出提高文本數據質量控制操作準確率的相關建議。
作者單位: 國家圖書館