999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

空間業務檔案數字化與全文檢索系統的研究

2015-01-03 08:03:48石會鵬丁鮮花劉國英
數字通信世界 2015年8期
關鍵詞:系統

石會鵬,丁鮮花,劉國英

(國家無線電監測中心,北京 100037)

電波衛士

空間業務檔案數字化與全文檢索系統的研究

石會鵬,丁鮮花,劉國英

(國家無線電監測中心,北京 100037)

本文基于OCR技術和全文檢索服務器SOLR搭建了一個空間無線電業務檔案數字化和全文檢索系統,分別介紹了文檔掃描識別、智能分析、狀態管理和檢索查詢等功能模塊,并分析了系統實現的關鍵技術。

空間業務檔案;OCR;全文檢索

1 引言

在空間無線電業務管理過程中,有很多紙質公文,這些紙質文件存儲與檢索起來非常困難。目前,國內外在檔案數字化管理方面已經做了很多相關研究,在檔案數字化過程中使用光學字符識別(OCR)技術,從而實現真正的全文檢索[1]。在專利文獻數字化中,文獻[2]以OCR校對詞典和技術領域特征為基礎,利用中文分詞、隱馬爾科夫模型設計OCR校對框架,設計一種OCR中文文本的拼寫校對方法;文獻[3]基于全文搜索服務器Solr構建一個專利在線檢索與分析系統;文獻[4]將Solr應用于中文農業期刊文摘檢索系統,研究了Solr的本地化部署、索引文件創建等。

本文基于OCR技術和全文檢索技術,設計開發一套空間業務紙質檔案數字化和全文檢索系統,能夠批量掃描各類文件,自動識別中英文字符,實現關鍵詞檢索和全文檢索,并可對各類往來函件進行分析。該系統可以提高空間無線電業務管理工作中檔案檢索的效率。

2 系統功能

空間業務檔案數字化和全文檢索系統不僅可以完成函件的掃描、OCR識別與全文檢索功能,還能發揮計算機處理文件的優勢,提高檢索效率,對標準格式函件進行屬性提取,跟蹤文件處理過程,對檔案進行統計分析。系統主要功能如圖1所示。

圖1 系統功能

3 系統結構設計

系統分為掃描模塊、圖片處理模塊、OCR識別模塊、人工校對模塊、文件狀態管理模塊、文件智能分析模塊、檢索查詢模塊和用戶管理模塊,各模塊分布在局域網上,組成一個分布式系統,兼有C/S模式和B/S模式。系統結構設計如圖2所示。

圖2 系統結構設計

上述模塊的具體功能分別為:

(1)掃描模塊。在掃描工作站運行,它將紙質文件數字化。掃描的質量直接關系到數字化文件的質量,根據紙質文件的狀況選擇合適的掃描方式和掃描參數,從而產生清晰的掃描圖片。

(2)圖片處理模塊。在識別工作站運行,它對掃描圖片進行處理,著重對圖像偏斜度、清晰度、失真度進行檢查。處理完成后,選擇合適的圖像格式進行存儲,存儲時在保證其圖像質量的前提下采取合適的圖像壓縮編碼技術減少圖片的存儲容量。

(3)OCR識別模塊。在識別工作站運行,它將圖像格式轉換成可編輯的文本格式,為了能閱讀原文,本系統將文件轉換成雙層PDF格式。識別模塊將含有文字的圖像按字切割成可獨立識別的單元,然后運用各種算法分析每個圖像單元中文字的形態特征,通過比對標準特征庫中的數據,判斷出該文字在計算機中的標準編碼,并按通用格式保存在文本文件中。

(4)人工校對模塊。在校驗工作站運行,它是OCR工作中最關鍵和最重要的環節,因為再好的OCR識別系統,也會有識別誤差,為了確保識別出的文件的完整性和正確性,必須將識別出的文字和原始圖像進行仔細對照校驗,只有這樣,才能確保識別出的文件正確無誤。

(5)文件狀態管理模塊。在管理服務器運行,它定期提醒管理員待處理的文件,并要求對文件的狀態進行標注。

(6)文件智能分析模塊。在管理服務器運行,它根據預設的算法自動提取文件主題、發文日期、發文單位等文件基本信息,并結合預設的多種分析指標,對查詢結果進行多角度的分析與展示。

(7)檢索查詢模塊。在管理服務器運行,它通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶。可建立索引、增加索引、優化索引結構。

(8)用戶管理模塊。在管理服務器運行,它的功能是管理用戶權限和驗證用戶權限。

4 系統實現

4.1 硬件設備

硬件設備中,掃描工作站、識別工作站、校驗工作站可以使用普通微機,管理服務器需要使用中高檔服務器設備。

掃描工作站除需要一臺微機外,還需要連接一臺高速掃描儀。掃描儀的掃描幅面最大為A4,其進紙槽容量不應低于100頁,日掃描量應不低于5,000頁,圖像輸出為黑白圖像,掃描后同時輸出一個黑白和一個灰度圖象,黑白圖象用于識別,灰度圖象用于存檔。

4.2 關鍵技術

本系統有兩個關鍵技術:OCR掃描識別技術和全文檢索技術。

(1)OCR掃描識別技術。OCR即光學字符識別,其原理是通過專業軟件將含有文字的圖像按字切割成可獨立識別的單元,然后運用各種算法分析每個圖像單元中文字的形態特征,通過比對標準特征庫中的數據,判斷出該文字在計算機中的標準編碼,并按通用格式輸出保存在文本文件中。目前,國內外已經對印刷體和手寫體字符的識別展開了廣泛的研究。從技術提供角度看,真正掌握OCR核心技術,具有自主知識產權的企業并不多,文通科技和漢王科技是在國內具影響力且有獨立知識產權的兩家企業,一些常見的OCR軟件便是以這兩家技術為內核開發的OCR應用。國外較有影響力且有獨立知識產權的OCR企業有ABBYY和IRIS。選擇產品時一方面要考慮識別的準確率和速度,另一方面要考慮操作的便利性,如是否可以批量識別。

(2)全文檢索技術。全文檢索是將全部文件的任意文本信息查找出來的檢索,可以通過三種方法實現全文檢索過程:一是使用SQL語句中的Like條件查詢,這是最簡單的全文檢索方法;二是利用數據庫系統提供的全文檢索功能,SQL Server,Oracle,MySQL等數據庫系統都提供全文檢索功能,通過一定的配置,可以對文本字段進行全文檢索;三是使用全文搜索引擎,它通常使用倒排索引技術,經過復雜的運算為海量的原始資料建立索引,提供強大的全文檢索功能。Solr是一個基于Apache Lucene的應用廣泛的開源搜索平臺。它具備眾多企業級功能特性,如高性能的全文搜索、基于XML的靈活配置和管理、支持多客戶端語言、索引復制、查詢緩存、對富文本的解析與索引、日志記錄以及可擴展的插件體系等,它以Lucene的良好索引性能為基礎,提供了強大的全文檢索、高亮顯示、分面搜索、動態聚類以及分布式檢索和索引復制等功能。

5 結束語

本文從系統功能、系統結構設計以及系統實現等方面闡述了空間業務檔案數字化和全文檢索系統的分析與設計,并對系統軟硬件采購選型關鍵要點進行了歸納,確保了項目設計的準確性和建設目標的實現。后續工作中,在OCR校對方面,需要進一步研究如何通過校對訓練,根據分類和錯誤詞統計形成OCR校對詞典,提高文件數字化的效率和質量。在全文檢索方面,需要進一步研究索引字段的設置,以提高檢索的查全率和查準率。

[1] 許呈辰.檔案數字化過程中OCR技術的應用[J].檔案管理,2011.188:38-40

[2] 任智軍,扈林芳.專利文獻OCR校對方法研究[J].情報雜志,2011.30:182-184

[3] 劉春江,劉丹軍,文奕.基于Solr的專利在線分析系統的設計與實現[J].現代圖書情報技術,2013(2):88-92

[4] 鮮國建,趙瑞雪.基于Solr的中文農業期刊文摘檢索系統的構建研究[J].現代圖書情報技術,2011(6):51-58

Research of Space Service File Digitization and Full-text Search System

Shi Huipeng, Ding Xianhua, Liu Guoying
(State Radio Monitoring Center, Beijing, 100037, China)

This paper builds a space service file digitization and full-text search system based on the OCR and full-text search server SOLR. The paper respectively introduces the functional modules such as scanned document recognition, intelligent analysis, state management and retrieval query, and analyses the key technical problems in realizing the system.

Space Service File; OCR; Full-text Search

10.3969/J.ISSN.1672-7274.2015.08.014

TP391.3

A

1672-7274(2015)08-0050-03

石會鵬,男,1986年生,碩士,國家無線電監測中心助理工程師,主要從事衛星頻率軌道資源管理以及相關研究工作。

丁鮮花,女,1980年生,碩士,國家無線電監測中心陜西監測站工程師。

劉國英,女,1988年生,碩士,國家無線電監測中心陜西監測站助理工程師。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 亚洲三级a| 91人妻日韩人妻无码专区精品| 亚洲一级毛片| 狠狠色噜噜狠狠狠狠奇米777| 欧美成人精品一级在线观看| 亚洲国产高清精品线久久| 国产裸舞福利在线视频合集| 亚洲swag精品自拍一区| 88国产经典欧美一区二区三区| 亚洲国产高清精品线久久| 女人18一级毛片免费观看| 伊人中文网| igao国产精品| 国外欧美一区另类中文字幕| 日韩无码黄色| 午夜国产小视频| 日本精品αv中文字幕| 91亚洲精品国产自在现线| 国产一级毛片高清完整视频版| 亚洲91精品视频| 国产区人妖精品人妖精品视频| 久久综合色88| 色哟哟国产精品一区二区| 色欲不卡无码一区二区| 国产农村1级毛片| 久久亚洲综合伊人| 国产精品成人不卡在线观看| 亚洲人成网址| 亚洲最新网址| 99视频在线观看免费| 久久精品国产在热久久2019| 精品无码专区亚洲| 久久无码免费束人妻| 久久五月天综合| 夜夜操天天摸| 激情六月丁香婷婷| 国产精女同一区二区三区久| 好紧好深好大乳无码中文字幕| 美女被操91视频| 午夜欧美在线| 午夜精品国产自在| 成人免费视频一区| 99久久亚洲综合精品TS| 五月天福利视频| 永久成人无码激情视频免费| 国产永久免费视频m3u8| 久草青青在线视频| 国产成人精品视频一区二区电影 | 无码一区二区波多野结衣播放搜索| 国产精品亚洲一区二区在线观看| 国产精品人莉莉成在线播放| 97久久免费视频| 久久国产精品无码hdav| 91免费国产在线观看尤物| 亚洲国产欧美目韩成人综合| 看国产毛片| 国产女人爽到高潮的免费视频| 日本午夜在线视频| 国产三级a| 亚洲天堂网在线观看视频| AV不卡在线永久免费观看| 亚洲成aⅴ人片在线影院八| 国产69囗曝护士吞精在线视频| 久草视频精品| 色综合天天操| 国产成人一区在线播放| 亚洲国产亚洲综合在线尤物| 欧美午夜理伦三级在线观看| 久久精品视频亚洲| 亚洲青涩在线| 色妞永久免费视频| 性欧美精品xxxx| 欧美日一级片| 日韩精品中文字幕一区三区| 91精品免费久久久| 欧美国产日韩在线| 无码有码中文字幕| 99久久精品视香蕉蕉| 国产一区在线视频观看| 亚洲日本中文综合在线| 久久精品aⅴ无码中文字幕 | 亚洲精品国偷自产在线91正片|