999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于OCR技術的政府機關制度文件文字內容識別研究

2021-04-25 14:45:05歐杰
電腦知識與技術 2021年9期

歐杰

摘要:制度及規范性文件是內部審計人員開展現場審計工作以及審計發現問題定性時的重要依據,經常需要反復檢索查閱,但由于政府機關的電子制度文件主要以紙質掃描圖片或電子公文系統生成的pdf文件等形式保存,無法進行全文檢索。為此,筆者運用Tesseract-OCR開源OCR引擎,將圖片和pdf文件中的文字內容識別并提取出來,為實現制度內容的全文檢索奠定了基礎。

關鍵詞: OCR技術;python;制度文件

中圖分類號:TP311? ? 文獻標識碼:A

文章編號:1009-3044(2021)09-0201-02

開放科學(資源服務)標識碼(OSID):

1 背景

制度及規范性文件是內部審計人員開展現場審計工作以及審計發現問題定性時的重要依據,常需要反復檢索查閱,但由于大量相關文件均為紙質掃描圖片或由電子公文系統生成的pdf文件,難以全文檢索快速定位,為提高審計發現的效率和精準度帶來極大不便。

為解決上述問題,筆者基于python和開源的OCR引擎Tesseract-OCR實現了將圖片、PDF格式的制度文件批量轉換為可編輯的doc文件的工具。

2文件可編輯轉換研究

制度文件可編輯轉換是在廣西人民銀行內審監督制度庫項目背景下的一項研究,由于廣西人民銀行系統內歷史及現行制度的電子保存格式主要以tif、jpg、png、pdf等難以讀取文字內容的文件格式為主,不利于對制度內容的全文檢索,給審計人員快速查閱制度帶來障礙。因此需要將相關制度內容進行全文錄入,但如果僅依靠人力錄入,則耗時費力。

Tesseract-OCR是由惠普公司開發的一個開源OCR引擎(Optical Character Recognition,光學字符識別),可識別多種格式的圖像文件并將其轉換成文本[1]。利用此項技術,為快速提取相關制度文件文字內容提供了可能。

2.1 圖像糾偏

對于通過掃描形成的制度及規范性文件,由于人工操作原因,圖像傾斜的情況在所難免。而傾斜的圖片使得文字識別正確效率大大降低,因此,在文字識別前需要對傾斜的圖像先進行校正。對于圖像糾偏,本文主要運用霍夫(Hough)變換算法來檢測圖像中的直線,再根據直線的斜率判斷圖片傾斜的角度來進行糾偏。糾偏前后效果對比如圖1、2所示:

2.2 文件可編輯轉換研究

(1)jpg、png等一般圖片文件轉換

對于jpg、png等一般圖片格式的文件,可以利用Tesseract-OCR直接進行圖片中文字識別,關鍵代碼如下:

[from PIL import Image

import pytesseract

img = Image.open(path)# path是圖片文件地址

text = pytesseract.image_to_string(img,lang='chi_sim')

#chi_sim為中文簡體字庫 ]

(2)tif格式文件轉換

tif文件多包含多張掃描圖片,需要分別對各張圖片進行識別后再進行合并,關鍵代碼如下:

[img = Image.open(path)

text = ''

for i in range(img.n_frames)#遍歷獲得tif文件內包含的每張圖像

img.seek(i)

text=text+pytesseract.image_to_string(img,lang='chi_sim') ]

(3)pdf格式文件轉換

pdf文件是一種格式化、面向頁面的文檔,包含文本、圖像及其他多媒體內容[2]。雖然可以通過pdfminer等第三方庫解析pdf文件來獲得其中的文本內容,但在實際使用中發現,對pdf文件中圖像所包含的文本內容無法通過解析獲得。因此,考慮使用PyMuPDF第三方庫,將pdf文件逐頁轉換成圖片,再對各個圖片進行文字識別。關鍵代碼如下:

[import fitz #fitz是PyMuPDF中的一個模塊

doc = fitz.open(path)

for pg in range(doc.pageCount):#逐頁遍歷pdf文件

page = doc[pg]

pp = page.getPixmap(alpha=False)

pp.writePNG('%s%s.png' %path+'/',pg))#按頁碼命名保存pdf文件中的各頁 ]

3批量制度文件轉換程序設計

3.1 流程設計

利用PyQt5進行人機操作界面設計,并采用PyInstaller進行封裝后,形成可移植程序(見圖3)。

用戶在選擇需要進行轉換的文件類型、路徑及結果保存路徑后,即可執行轉換程序,根據不同的文件類型分別進行處理,具體流程詳見圖4。

(1)對于jpg、png等一般類型的圖片,系統在進行圖像糾偏后,再進行圖片識別,最后將結果輸出為word文檔。

(2)對于pdf文件,系統會首先將pdf文件逐頁轉換為圖像,再對圖像進行糾偏,然后再對各個圖片進行圖像文字識別,最后將識別結果輸出為word文檔。

(3)對于tif文件,系統會首先讀取文件內的各個圖像分頁,再對各個圖像分頁進行糾偏,然后再對各個圖像分頁內的文字進行識別,最后將識別結果輸出為word文檔。

3.2 效果分析

以圖1為例進行識別,識別效果如圖5所示。

從識別結果可以看出,由于制度文件采用的均為印刷體文字,在對制度文件進行識別時,文字識別率較高。經過測試,文字識別率能達到95%以上,但是對于標點符號識別正確率較低,這和文件的掃描質量相關,而通過對Tesseract-OCR所使用的中文字庫進行訓練后,可進一步提高識別準確率。

4結論

通過運用OCR技術,對以jpg、tif、pdf等格式保存的制度文件進行文字內容識別提取,可以有效提高工作效率,減少不必要的工作量,為實現制度文件內容的全文檢索奠定了基礎。

參考文獻:

[1] 龍之冠.征地檔案數字識別研究與應用[J].國土資源導刊,2019,16(4):81-86.

【通聯編輯:聞翔軍】

主站蜘蛛池模板: 国产97视频在线观看| 久久无码免费束人妻| 国产91色| 免费国产黄线在线观看| 国产三级毛片| 久久精品国产精品国产一区| 国产成人精品一区二区| 日本人又色又爽的视频| 欧美日韩中文字幕二区三区| 国产一区二区三区夜色| 中文字幕人妻无码系列第三区| 亚洲区视频在线观看| 国产精品三级专区| 亚洲区视频在线观看| 日本久久久久久免费网络| 丁香亚洲综合五月天婷婷| 欧美成人免费一区在线播放| 91色综合综合热五月激情| 国产成人久视频免费| 国产又粗又猛又爽| 亚洲高清免费在线观看| 欧美成一级| 青青草国产在线视频| 久久精品无码国产一区二区三区| 国产精品综合色区在线观看| 亚洲欧洲国产成人综合不卡| 国产91透明丝袜美腿在线| 18禁影院亚洲专区| 国产91视频观看| 亚洲欧美另类中文字幕| 亚洲一级毛片在线观播放| 熟女成人国产精品视频| 天天爽免费视频| 久久国产精品国产自线拍| 欧美日韩国产成人高清视频| 在线观看网站国产| 伊人久久综在合线亚洲2019| 内射人妻无码色AV天堂| 中字无码av在线电影| 热久久这里是精品6免费观看| 欧美性久久久久| 久久黄色影院| 国产精品自在在线午夜区app| 人妻无码AⅤ中文字| 日本一区二区不卡视频| 国产欧美精品一区aⅴ影院| 无码福利日韩神码福利片| 亚洲系列中文字幕一区二区| 免费无码AV片在线观看国产| 99精品影院| 亚洲精品无码av中文字幕| 欧美天天干| 国产免费网址| 久久久国产精品无码专区| 91久草视频| 国产成人a毛片在线| 2024av在线无码中文最新| 国产精品区视频中文字幕| 人妻91无码色偷偷色噜噜噜| 精品自窥自偷在线看| 国产欧美日韩精品综合在线| 亚洲欧洲日本在线| 成人免费午夜视频| 国产主播在线一区| 国产一级毛片网站| 全色黄大色大片免费久久老太| 色偷偷一区| 黄色网页在线观看| 99久久亚洲综合精品TS| 亚洲精品视频免费看| 伊人久久大香线蕉成人综合网| 一区二区三区四区在线| 亚洲国产精品无码AV| 在线观看91精品国产剧情免费| 亚洲综合色婷婷| 日韩欧美成人高清在线观看| 亚洲AV免费一区二区三区| 国模粉嫩小泬视频在线观看| 91福利在线观看视频| 日韩欧美综合在线制服| 国产亚洲精品资源在线26u| 日韩高清无码免费|