石會鵬,丁鮮花,劉國英
(國家無線電監測中心,北京 100037)
電波衛士
空間業務檔案數字化與全文檢索系統的研究
石會鵬,丁鮮花,劉國英
(國家無線電監測中心,北京 100037)
本文基于OCR技術和全文檢索服務器SOLR搭建了一個空間無線電業務檔案數字化和全文檢索系統,分別介紹了文檔掃描識別、智能分析、狀態管理和檢索查詢等功能模塊,并分析了系統實現的關鍵技術。
空間業務檔案;OCR;全文檢索
在空間無線電業務管理過程中,有很多紙質公文,這些紙質文件存儲與檢索起來非常困難。目前,國內外在檔案數字化管理方面已經做了很多相關研究,在檔案數字化過程中使用光學字符識別(OCR)技術,從而實現真正的全文檢索[1]。在專利文獻數字化中,文獻[2]以OCR校對詞典和技術領域特征為基礎,利用中文分詞、隱馬爾科夫模型設計OCR校對框架,設計一種OCR中文文本的拼寫校對方法;文獻[3]基于全文搜索服務器Solr構建一個專利在線檢索與分析系統;文獻[4]將Solr應用于中文農業期刊文摘檢索系統,研究了Solr的本地化部署、索引文件創建等。
本文基于OCR技術和全文檢索技術,設計開發一套空間業務紙質檔案數字化和全文檢索系統,能夠批量掃描各類文件,自動識別中英文字符,實現關鍵詞檢索和全文檢索,并可對各類往來函件進行分析。該系統可以提高空間無線電業務管理工作中檔案檢索的效率。
空間業務檔案數字化和全文檢索系統不僅可以完成函件的掃描、OCR識別與全文檢索功能,還能發揮計算機處理文件的優勢,提高檢索效率,對標準格式函件進行屬性提取,跟蹤文件處理過程,對檔案進行統計分析。系統主要功能如圖1所示。

圖1 系統功能
系統分為掃描模塊、圖片處理模塊、OCR識別模塊、人工校對模塊、文件狀態管理模塊、文件智能分析模塊、檢索查詢模塊和用戶管理模塊,各模塊分布在局域網上,組成一個分布式系統,兼有C/S模式和B/S模式。系統結構設計如圖2所示。

圖2 系統結構設計
上述模塊的具體功能分別為:
(1)掃描模塊。在掃描工作站運行,它將紙質文件數字化。掃描的質量直接關系到數字化文件的質量,根據紙質文件的狀況選擇合適的掃描方式和掃描參數,從而產生清晰的掃描圖片。
(2)圖片處理模塊。在識別工作站運行,它對掃描圖片進行處理,著重對圖像偏斜度、清晰度、失真度進行檢查。處理完成后,選擇合適的圖像格式進行存儲,存儲時在保證其圖像質量的前提下采取合適的圖像壓縮編碼技術減少圖片的存儲容量。
(3)OCR識別模塊。在識別工作站運行,它將圖像格式轉換成可編輯的文本格式,為了能閱讀原文,本系統將文件轉換成雙層PDF格式。識別模塊將含有文字的圖像按字切割成可獨立識別的單元,然后運用各種算法分析每個圖像單元中文字的形態特征,通過比對標準特征庫中的數據,判斷出該文字在計算機中的標準編碼,并按通用格式保存在文本文件中。
(4)人工校對模塊。在校驗工作站運行,它是OCR工作中最關鍵和最重要的環節,因為再好的OCR識別系統,也會有識別誤差,為了確保識別出的文件的完整性和正確性,必須將識別出的文字和原始圖像進行仔細對照校驗,只有這樣,才能確保識別出的文件正確無誤。
(5)文件狀態管理模塊。在管理服務器運行,它定期提醒管理員待處理的文件,并要求對文件的狀態進行標注。
(6)文件智能分析模塊。在管理服務器運行,它根據預設的算法自動提取文件主題、發文日期、發文單位等文件基本信息,并結合預設的多種分析指標,對查詢結果進行多角度的分析與展示。
(7)檢索查詢模塊。在管理服務器運行,它通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶。可建立索引、增加索引、優化索引結構。
(8)用戶管理模塊。在管理服務器運行,它的功能是管理用戶權限和驗證用戶權限。
4.1 硬件設備
硬件設備中,掃描工作站、識別工作站、校驗工作站可以使用普通微機,管理服務器需要使用中高檔服務器設備。
掃描工作站除需要一臺微機外,還需要連接一臺高速掃描儀。掃描儀的掃描幅面最大為A4,其進紙槽容量不應低于100頁,日掃描量應不低于5,000頁,圖像輸出為黑白圖像,掃描后同時輸出一個黑白和一個灰度圖象,黑白圖象用于識別,灰度圖象用于存檔。
4.2 關鍵技術
本系統有兩個關鍵技術:OCR掃描識別技術和全文檢索技術。
(1)OCR掃描識別技術。OCR即光學字符識別,其原理是通過專業軟件將含有文字的圖像按字切割成可獨立識別的單元,然后運用各種算法分析每個圖像單元中文字的形態特征,通過比對標準特征庫中的數據,判斷出該文字在計算機中的標準編碼,并按通用格式輸出保存在文本文件中。目前,國內外已經對印刷體和手寫體字符的識別展開了廣泛的研究。從技術提供角度看,真正掌握OCR核心技術,具有自主知識產權的企業并不多,文通科技和漢王科技是在國內具影響力且有獨立知識產權的兩家企業,一些常見的OCR軟件便是以這兩家技術為內核開發的OCR應用。國外較有影響力且有獨立知識產權的OCR企業有ABBYY和IRIS。選擇產品時一方面要考慮識別的準確率和速度,另一方面要考慮操作的便利性,如是否可以批量識別。
(2)全文檢索技術。全文檢索是將全部文件的任意文本信息查找出來的檢索,可以通過三種方法實現全文檢索過程:一是使用SQL語句中的Like條件查詢,這是最簡單的全文檢索方法;二是利用數據庫系統提供的全文檢索功能,SQL Server,Oracle,MySQL等數據庫系統都提供全文檢索功能,通過一定的配置,可以對文本字段進行全文檢索;三是使用全文搜索引擎,它通常使用倒排索引技術,經過復雜的運算為海量的原始資料建立索引,提供強大的全文檢索功能。Solr是一個基于Apache Lucene的應用廣泛的開源搜索平臺。它具備眾多企業級功能特性,如高性能的全文搜索、基于XML的靈活配置和管理、支持多客戶端語言、索引復制、查詢緩存、對富文本的解析與索引、日志記錄以及可擴展的插件體系等,它以Lucene的良好索引性能為基礎,提供了強大的全文檢索、高亮顯示、分面搜索、動態聚類以及分布式檢索和索引復制等功能。
本文從系統功能、系統結構設計以及系統實現等方面闡述了空間業務檔案數字化和全文檢索系統的分析與設計,并對系統軟硬件采購選型關鍵要點進行了歸納,確保了項目設計的準確性和建設目標的實現。后續工作中,在OCR校對方面,需要進一步研究如何通過校對訓練,根據分類和錯誤詞統計形成OCR校對詞典,提高文件數字化的效率和質量。在全文檢索方面,需要進一步研究索引字段的設置,以提高檢索的查全率和查準率。
[1] 許呈辰.檔案數字化過程中OCR技術的應用[J].檔案管理,2011.188:38-40
[2] 任智軍,扈林芳.專利文獻OCR校對方法研究[J].情報雜志,2011.30:182-184
[3] 劉春江,劉丹軍,文奕.基于Solr的專利在線分析系統的設計與實現[J].現代圖書情報技術,2013(2):88-92
[4] 鮮國建,趙瑞雪.基于Solr的中文農業期刊文摘檢索系統的構建研究[J].現代圖書情報技術,2011(6):51-58
Research of Space Service File Digitization and Full-text Search System
Shi Huipeng, Ding Xianhua, Liu Guoying
(State Radio Monitoring Center, Beijing, 100037, China)
This paper builds a space service file digitization and full-text search system based on the OCR and full-text search server SOLR. The paper respectively introduces the functional modules such as scanned document recognition, intelligent analysis, state management and retrieval query, and analyses the key technical problems in realizing the system.
Space Service File; OCR; Full-text Search
10.3969/J.ISSN.1672-7274.2015.08.014
TP391.3
A
1672-7274(2015)08-0050-03
石會鵬,男,1986年生,碩士,國家無線電監測中心助理工程師,主要從事衛星頻率軌道資源管理以及相關研究工作。
丁鮮花,女,1980年生,碩士,國家無線電監測中心陜西監測站工程師。
劉國英,女,1988年生,碩士,國家無線電監測中心陜西監測站助理工程師。