999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Tesseract-OCR的復雜發票自適應識別

2021-06-28 06:59:14孫瑞彬錢夔徐偉敏路紅
南京信息工程大學學報 2021年3期
關鍵詞:引擎內容

孫瑞彬 錢夔 徐偉敏 路紅

1 南京工程學院 自動化學院,南京,211167 2 南京學府睿捷信息科技有限公司,南京,210009

0 引言

隨著信息的快速發展,數字時代已然來臨.OCR (Optical Character Recognition) 技術即光學字符識別作為計算機視覺領域的一個重要分支,通過具有拍照功能的設備獲取文檔圖片,再利用諸多算法對文檔內容進行分析識別.發票識別作為OCR領域的重要研究方向,可有效解決票據信息人工錄入時效率低、準確率低的問題,提升企業的辦事效率.

票據類OCR技術的研究吸引了眾多學者,產生了許多研究成果,比如:王陽等[1]基于深度學習的OCR文字識別方法,解決了銀行業對于海量圖像處理效率低下的問題;郭劍雄等[2]的英文字符算法研究,有效解決了英文字符識別不準確的問題;劉淼等[3]對Android圖文同步識別系統的研究,改善了Tesseract-OCR引擎對模糊圖像識別效果不佳的問題.但現有的技術對復雜票據的版面分析并無較好的處理方法,對內容涵蓋多種字符的文檔圖像也做不到高效的精準識別[4].

本文基于Tesseract-OCR引擎給出了一套自適應識別方法.利用OpenCV函數庫對圖像進行濾波[5],閾值化處理得到二值圖像,然后進行開運算提取發票表格以改善票據版面復雜時難以識別的問題;結合表格交點坐標與自定義模板,完成表頭匹配后,再通過jTessBoxEditor有針對性地訓練字庫,優化圖文中涵蓋中英文、數字及各種符號的識別準確率.最終實現對該類含復雜版面、多語言文本的發票圖像感興趣區域的自適應識別.

1 識別架構

復雜發票的OCR識別主要包括圖像預處理、表格提取、內容匹配、字符識別4個模塊,其識別架構如圖1所示.

圖1 OCR總體架構Fig.1 General architecture of OCR for invoice recognition

1.1 表格提取

預處理即對發票原圖進行簡單的形態學操作.采用自適應閾值化得到二值圖像時,為了獲取最佳的二值圖像,要求出最佳閾值[6].假設兩個高斯分布[7]為

(1)

(2)

其中σ1,σ2和μ1,μ2分別是兩個高斯分布的平均值和方差,且假設μ1<μ2,最佳閾值x需滿足:

F1(x)=F2(x).

(3)

結合式(1)—(3),得到最佳閾值關于x的方程組:

ax2+bx+c=0,

(4)

其中a,b,c為常數.求解該二次方程,取決于μ1和μ2之間的解即圖像的最佳全局閾值T.由于程序開始閾值和高斯分布的參數均未知,所以運行過程中要給定一個初始閾值去估計高斯分布的參數,再利用高斯分布更新閾值,以此反復直到收斂便可求得全局最佳閾值T.

接下來,對二值圖像進行線段識別,以實現表格提取.表格由水平線和垂直線組成,因此需分別在兩個方向上對發票進行線段提取,提取線段的形態學操作就是通過自定義的結構元素,構造對指定形狀敏感的形態學運算,再通過膨脹和腐蝕操作處理敏感像素.以提取水平線為例:創建自定義內核形態為豎向矩形,此時的敏感對象是垂直線段,通過開運算腐蝕垂直方向像素,水平線即被保留.提取垂直線段時,只需把內核形態定義為橫向矩形.圖像所有線段均提取后,對輸出結果進行“與”操作以求得交點坐標,發票內容需通過坐標對進行匹配.再對提取出的水平線圖、垂直線圖做加法合并,即可得到完整的表格框線圖.

1.2 內容匹配

發票內容為多行多列文本,整體識別效果較差,因此對發票先分割再識別[8],把含有用信息的表格單獨切割,每個表格都是一張圖像,對于含多行文本的表格,通過算法對其進行再分割,使得到的每張圖像都只含一列文本.提取感興趣區域的公式如下:

r1=s1[y1:y2,x1:x2] ,

(5)

其中,r1是待識別區域,s1為目標圖像,x,y分別為圖像的橫縱坐標.在交點坐標已知的條件下,將內容與表頭進行匹配,再根據字符寬度進行修正,使文本內容與邊框分離.坐標x,y并非固定數值,而是相對位置[9].

圖2是兩行兩列的表格,已標明橫、縱坐標.其中(x1,y1)并非具體數值如(1,2)、(2,3),x1代表第1個橫坐標,x2代表第2個橫坐標,縱坐標也是同理.取得坐標后將其有序排列,無論圖像的位置或大小如何改變,(x1,y1)、(x2,y2)兩點代表的總是圖中左上角的表格,(x2,y2)、(x3,y3)代表的總是右下角的表格.由于絕對位置會隨圖像大小、位置改變而改變,因此本文采用相對位置,實現表頭與內容自適應匹配[10].

圖2 發票表格式樣Fig.2 Sample invoice form

1.3 字符識別

發票文檔由中英文、數字和特殊符號共同組成,Tesseract-OCR引擎自帶的字庫識別準確率并不高,因此引入jTessBoxEditor來訓練專門針對發票識別的字庫[11].首先,通過jTessBoxEditor將所有要訓練的發票圖片合并成一個tif文件,命名為name.tif,文件名任意命名即可.系統路徑導入到該name.tif文件所在目錄后,訓練步驟如表1所示.

表1 訓練步驟

2 實驗結果分析

作為本文實驗對象的復雜發票含大小不一的表格110余項,部分表格內含多列文本,本方法將每一列信息都切割為一張圖像,因此有用信息共146項,發票原圖如圖3所示.識別前首先完成發票表格提取,提取出的表格圖像如圖4所示.

圖3 發票原圖Fig.3 Original invoice

圖4 表格提取圖Fig.4 Table extracted from invoice of Fig.3

其次進行內容匹配,通過修正坐標,將內容與表格邊框分隔開,使表頭與內容精準匹配.通過jTessBoxEditor軟件訓練字庫,對生成的100多張box文件逐一修改,其中背景模糊的數字圖像,box文件會出現無法檢測、識別錯誤的問題,如圖5a,使用原生的jTessBoxEditor軟件只出現了5個識別邊框,正確識別的數據僅2個;優化后,8個數據均被邊框檢測到且準確識別.圖5b展示了訓練漢字優化前后的對比效果[11].

圖5 字庫訓練對比效果Fig.5 Comparison of character training effect on number (a) and Chinese character (b) recognition

本方法與騰訊云OCR、百度云OCR以及原生的Tesseract-OCR引擎展開對比,對多張發票的實驗數據進行分析,將所得結果列于表2.

表2 實驗結果對比

分析表2可知,改進后的Tesseract-OCR引擎對該類復雜發票的識別性能已有了很大提升,具體表現在以下方面:

1)識別時間上,本方法識別一張1 020×770像素的發票圖像,用時約1 s,而百度云OCR用時2 s,騰訊云OCR用時4 s.

2)識別準確率方面:本方法對發票的關鍵信息即各類數字數據的識別準確率可達100%,其余兩款OCR引擎尚未做到;對于漢字和符號的識別準確率,由表2可看出,相比較原生的Tesseract-OCR引擎,經本方法優化后的準確率已有大幅提升,但由于可訓練的漢字對象較少,因此仍存在少量的識別錯誤.

3)自適應性方面,本方法對圖像采用先分割后識別,使表頭與內容自適應適配,從而實現任意區域下對特定表格進行內容提取,并高效精準識別.而百度云OCR與騰訊云OCR都是對發票做整體識別,并不具備自適應性.

因此,本方法能夠對發票的特定區域實現高效精準的自適應識別,具有良好的工程可用性.

3 結語

本文以復雜發票為對象,針對其任意區域下的特定表格內容提取與實時識別問題,提出了一種基于Tesseract-OCR開源引擎的識別方法.利用Python的第三方庫OpenCV對發票原圖進行形態學處理以得到二值圖像.在此基礎上完成表格位置提取,并結合交點坐標與自定義模板完成了表頭與內容適配.再通過jTessBoxEditor對所有發票模板的表格內容進行字庫訓練,使識別更具針對性.實驗結果表明,本方法能夠對發票的感興趣區域實現精準高效的自適應識別.下一個研究方向為污跡發票實時識別,以期實現模糊不規則表格內容識別.

猜你喜歡
引擎內容
以學促干 挺膺擔當 激活砥礪前行的紅色引擎
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
三生 三大引擎齊發力
藍谷: “涉藍”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發
One Engine Left只剩下一個引擎
主站蜘蛛池模板: 国产精品福利尤物youwu| 99精品国产自在现线观看| 美女视频黄频a免费高清不卡| 亚洲天堂网在线视频| 一区二区三区高清视频国产女人| 五月婷婷精品| 高清欧美性猛交XXXX黑人猛交 | 97久久精品人人做人人爽| 久久综合色视频| 91青草视频| 亚洲人免费视频| 国产一区亚洲一区| 美女黄网十八禁免费看| 亚洲国产精品日韩av专区| 2021精品国产自在现线看| 欧美视频二区| 国产成人精品一区二区不卡 | 国产综合精品一区二区| 国内老司机精品视频在线播出| 成人一区在线| 91九色国产在线| 91青青视频| 亚洲精品在线观看91| 手机在线看片不卡中文字幕| 色婷婷综合在线| 精品91在线| 欧美国产日韩在线| 永久成人无码激情视频免费| 香蕉伊思人视频| 色婷婷色丁香| 黄色国产在线| 伊人狠狠丁香婷婷综合色| 在线精品视频成人网| 91久久国产成人免费观看| 亚洲国产精品日韩欧美一区| 午夜天堂视频| 欧美激情福利| 日韩欧美网址| 亚洲精品少妇熟女| 国产丝袜丝视频在线观看| 超碰免费91| 一区二区偷拍美女撒尿视频| 亚洲水蜜桃久久综合网站| 日韩毛片基地| 麻豆精品国产自产在线| 好吊日免费视频| 国产在线自揄拍揄视频网站| 中文字幕色在线| 国产成人免费观看在线视频| 国产白丝av| 亚洲日韩日本中文在线| 亚洲天堂免费观看| 91年精品国产福利线观看久久| 97在线免费| 久996视频精品免费观看| 真实国产乱子伦高清| 热re99久久精品国99热| 992tv国产人成在线观看| 亚洲国产中文综合专区在| 欧美午夜小视频| 亚洲系列无码专区偷窥无码| 国产乱人伦AV在线A| 无码av免费不卡在线观看| 亚洲色成人www在线观看| 中文字幕无码制服中字| 黑人巨大精品欧美一区二区区| 99国产精品国产| 美女毛片在线| 国产玖玖视频| 亚洲欧美成人综合| 国产成人1024精品下载| 成人一区专区在线观看| 不卡视频国产| 精品国产自在在线在线观看| 国产在线精品美女观看| 国产手机在线ΑⅤ片无码观看| 国产精品jizz在线观看软件| 国产在线麻豆波多野结衣| 日本精品一在线观看视频| 精品国产乱码久久久久久一区二区| 欧美一区二区啪啪| 热思思久久免费视频|