999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

OCR發(fā)票識(shí)別應(yīng)用淺述

2017-04-15 12:09:12
福建質(zhì)量管理 2017年1期

曾 東

(重慶工程職業(yè)技術(shù)學(xué)院 重慶 402260)

OCR發(fā)票識(shí)別應(yīng)用淺述

曾 東

(重慶工程職業(yè)技術(shù)學(xué)院 重慶 402260)

在經(jīng)濟(jì)活動(dòng)中,個(gè)人或者企事業(yè)單位會(huì)用到大量的發(fā)票,傳統(tǒng)方法是將票據(jù)信息手工錄入計(jì)算機(jī)系統(tǒng),工作效率低下、出錯(cuò)率較高、業(yè)務(wù)處理時(shí)效低。OCR(Optical Character Recognition)票據(jù)信息識(shí)別技術(shù)的研發(fā)改變了票據(jù)業(yè)務(wù)處理模式,依托于計(jì)算機(jī)軟硬件,將紛繁復(fù)雜的工作交給計(jì)算機(jī)完成,從而節(jié)省了大量人力物力,優(yōu)化了資源配置,提升了工作效率,具有強(qiáng)大的優(yōu)勢(shì)。

OCR;發(fā)票識(shí)別;票據(jù)識(shí)別

一、引言

OCR是光學(xué)字符識(shí)別技術(shù)的簡稱,字符識(shí)別是模式識(shí)別的一個(gè)重要分支,其工作原理是通過掃描儀、數(shù)碼相機(jī)等光學(xué)輸入設(shè)備獲取紙張上的文字圖片信息,采用光學(xué)方式將文檔資料轉(zhuǎn)換成黑白點(diǎn)陣的圖像文件,再利用模式識(shí)別算法分析文字體態(tài)特征,判斷識(shí)別出字符文字,進(jìn)而通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,并按通用格式存儲(chǔ)在文本文件或者數(shù)據(jù)庫中,還可通過文字處理或編輯軟件等再進(jìn)一步加工。

經(jīng)過了數(shù)十年的發(fā)展,OCR技術(shù)在文檔識(shí)別方面的有了很大的進(jìn)步。在市場(chǎng)上已經(jīng)推出了很多成功的商業(yè)軟件,如漢王公司的文本王、清華文通TH-OCR、尚書OCR、蒙恬OCR以及丹青OCR等,其應(yīng)用范圍也越來越廣泛,不僅僅局限于個(gè)人或中小企業(yè)的辦公自動(dòng)化,在金融、稅務(wù)、數(shù)字圖書館等領(lǐng)域也已經(jīng)開始了大規(guī)模地應(yīng)用。它的發(fā)展推進(jìn)了將文檔資料和各類紙質(zhì)存儲(chǔ)信息的數(shù)字化進(jìn)程,加速了信息資源開發(fā)利用共享,輕松實(shí)現(xiàn)了紙質(zhì)文檔的電子化,快速提高了工作效率,有效提升了人們的學(xué)習(xí)工作質(zhì)量。

二、OCR發(fā)票識(shí)別需求背景

在經(jīng)濟(jì)活動(dòng)中應(yīng)用到大量的單證,為了將這些數(shù)量巨大、種類繁多的單證輸入計(jì)算機(jī)系統(tǒng),需要進(jìn)行相應(yīng)的數(shù)據(jù)錄入工作。在現(xiàn)階段,傳統(tǒng)的手工錄入仍然是主要的工作方式,需要投入大量的成本和時(shí)間,不僅抬高了運(yùn)營成本,而且錄入速度也難以提升,錯(cuò)誤率也很難降低,對(duì)提高業(yè)務(wù)處理時(shí)效、提升服務(wù)品質(zhì)帶來了負(fù)面影響。

相對(duì)于傳統(tǒng)的手工錄入方式來說,OCR識(shí)別的速度遠(yuǎn)快于手工錄入,可以節(jié)省大量人力資源,優(yōu)化資源配置,使人員分配于更加有意義的工作,具有強(qiáng)大的優(yōu)勢(shì)。盡管目前的OCR技術(shù)的識(shí)別率雖然很難達(dá)到100%,但其質(zhì)量仍然高于大批量手工錄入。

針對(duì)上述情況,建立一套通用的OCR服務(wù)及管理平臺(tái),可以為企業(yè)提供高速度、低成本的數(shù)據(jù)采集工具,為多個(gè)應(yīng)用系統(tǒng)提供通用服務(wù),提高業(yè)務(wù)處理時(shí)效,降低錯(cuò)誤率,為業(yè)務(wù)快速發(fā)展提供有力的支撐。

三、OCR發(fā)票識(shí)別現(xiàn)狀

在票據(jù)識(shí)別方面,該項(xiàng)技術(shù)的研究應(yīng)用已逐漸廣泛,市場(chǎng)上較為著名的有清華文通的TH-OCR系統(tǒng)和漢王的尚書OCR系統(tǒng)等。票據(jù)識(shí)別技術(shù)可用于各類表單識(shí)別,譬如銀行客戶申請(qǐng)表、保險(xiǎn)客戶申請(qǐng)表、金融票據(jù)(如支票、匯票)、醫(yī)療費(fèi)用單證、收費(fèi)發(fā)票等;各類個(gè)人證件識(shí)別,譬如可識(shí)別身份證、駕駛證、行駛證等;各類企業(yè)證件識(shí)別,譬如可識(shí)別企業(yè)營業(yè)執(zhí)照、組織機(jī)構(gòu)代碼證等;各類車牌照識(shí)別,譬如道路上各種車牌照,如藍(lán)牌、黃牌、警牌、農(nóng)用車牌等。

發(fā)票識(shí)別是票據(jù)識(shí)別的一個(gè)小分支。有關(guān)數(shù)據(jù)顯示,中國每年會(huì)開具2000億張紙幣發(fā)票,約合紙張12萬噸,大約是86萬棵成年樹木。如果一單發(fā)票的成本需要1.6元,唯品會(huì)每年打印發(fā)票約合人民幣兩千多萬,京東則每年花費(fèi)將近兩個(gè)億。發(fā)票內(nèi)容是很重要的公司數(shù)據(jù),在供應(yīng)商管理、合同管理、報(bào)銷管理、稅務(wù)認(rèn)證、客戶管理等各業(yè)務(wù)方面都需要使用。

眾所周知,財(cái)務(wù)數(shù)據(jù)多以表格和漢字出現(xiàn),而這就是自動(dòng)識(shí)別系統(tǒng)中最困難的地方。這些問題主要包括票據(jù)紙張不一、表格線分布不均勻、長短不一,以及漢字結(jié)構(gòu)復(fù)雜、相似字多等等。這也就造成了票據(jù)識(shí)別的難度要高于一般紙質(zhì)文檔的識(shí)別。對(duì)于傳統(tǒng)的紙質(zhì)文檔和單一的字符識(shí)別已經(jīng)取得了相當(dāng)大的進(jìn)展,但是對(duì)包括復(fù)雜表格和字符的圖像仍存在一些問題。

四、OCR發(fā)票識(shí)別軟件工作流程

發(fā)票單據(jù)識(shí)別OCR是一款通用的數(shù)據(jù)批量采集軟件,適用于各種具有表格特征的發(fā)票單據(jù),通過掃描、圖像處理、自動(dòng)分類、OCR識(shí)別技術(shù),將表格圖像中的數(shù)據(jù)信息準(zhǔn)確、快速、真實(shí)地提取并保存,數(shù)據(jù)結(jié)果可導(dǎo)出為標(biāo)準(zhǔn)的數(shù)據(jù)格式,如Excel表,與企事業(yè)單位的ERP、CRM等系統(tǒng)實(shí)現(xiàn)無縫結(jié)合。軟件系統(tǒng)支持中英文、數(shù)字、符號(hào)等多類型字符的手寫體、印刷體識(shí)別。OCR軟件識(shí)別基本流程描述如下:

掃描:通過掃描儀等設(shè)備將目標(biāo)文檔(各類發(fā)票)以文檔圖像的形式讀入系統(tǒng)。

預(yù)處理:圖像在生成過程中,由于成像系統(tǒng)本身具有非線性或者攝像時(shí)視角不對(duì),會(huì)使生成的圖像產(chǎn)生幾何失真,此外在拍照的過程中,由于各種原因文檔圖像經(jīng)常會(huì)出現(xiàn)一定程度的傾斜。而圖像傾斜將會(huì)影響文字識(shí)別的效果。因此,在進(jìn)行版面分析之前,進(jìn)行傾斜檢測(cè)和校正十分重要。通過對(duì)文檔圖像預(yù)處理提高了圖像的質(zhì)量,減小各種噪聲對(duì)后續(xù)過程的影響。

版面分析:將圖像文件中所包含的直線、文本表格、圖像等不同性質(zhì)的劃分開來,并將文本部分按照段落,標(biāo)題等進(jìn)行切分,以便于下一步的處理。

版面識(shí)別:對(duì)版面分析中的各個(gè)分欄的性質(zhì)及順序做出判斷與識(shí)別,同時(shí),對(duì)于文本性質(zhì)的分欄,指出它是橫排還是豎排,是正文還是標(biāo)題,以及各個(gè)段落基于復(fù)雜度的自適應(yīng)中文版面分析方法研究的先后順序,從而保證識(shí)別后的文件的語義關(guān)系。通常把版面分析與版面識(shí)別統(tǒng)稱為版面理解。

字符切分:將文字區(qū)域的字符進(jìn)行切分,為字符識(shí)別做準(zhǔn)備。

字符識(shí)別:識(shí)別單個(gè)字符,將其轉(zhuǎn)化為字符編碼。

后處理與版面重構(gòu):將前幾步的處理結(jié)果進(jìn)行進(jìn)一步處理,輸出目標(biāo)文件格式。

當(dāng)然,生成目標(biāo)格式文件的同時(shí)可以將票據(jù)要素詳細(xì)信息定向入庫存儲(chǔ),方便后續(xù)查詢共享等操作。

使用OCR識(shí)別技術(shù)實(shí)現(xiàn)自動(dòng)錄單,通過批量掃描識(shí)別的方式采集發(fā)票數(shù)據(jù),大大提高數(shù)據(jù)采集的效率,降低了人力物力開銷。

OCR識(shí)別錄單方式是對(duì)傳統(tǒng)錄入方式的一個(gè)顛覆,基于先進(jìn)的圖像處理、OCR&ICR(智能字符識(shí)別)技術(shù),把繁重重復(fù)的工作交給計(jì)算機(jī)去處理,充分發(fā)揮了計(jì)算機(jī)信息處理技術(shù)的優(yōu)勢(shì),錄單主體的變更帶來的是錄單效率本質(zhì)的提高,這也是OCR識(shí)別技術(shù)研究的初衷。

評(píng)價(jià)OCR識(shí)別軟件系統(tǒng)的主要性能指標(biāo)有識(shí)別對(duì)象、識(shí)別率、誤識(shí)率、拒識(shí)率、可靠性、識(shí)別速度等。

五、結(jié)束語

隨著科技的發(fā)展,OCR識(shí)別技術(shù)將會(huì)衍生到人工智能的很多產(chǎn)品當(dāng)中,將有廣闊的市場(chǎng),但前路漫漫,針對(duì)不同的復(fù)雜場(chǎng)景依然保持較好的識(shí)別性能,還需要更加深入研究,進(jìn)一步提升識(shí)別可靠性。

[1]黃宇.OCR技術(shù)在金融領(lǐng)域的應(yīng)用[J].金融電子化,2001(1):86-88.

[2]彭健.基于OCR技術(shù)的金融和財(cái)務(wù)票據(jù)自動(dòng)錄入與管理系統(tǒng)[J].渝州大學(xué)學(xué)報(bào),1999(14-3):50-54.

[3]張艷.票據(jù)自動(dòng)處理系統(tǒng)中若干關(guān)鍵技術(shù)研究[D].南京理工大學(xué),2008.

[4]田大增.視覺文檔圖像識(shí)別預(yù)處理[D].河北大學(xué),2007.

曾東(1987.12-),男,漢族,重慶云陽人,教師,碩士研究生,重慶工程職業(yè)技術(shù)學(xué)院,物聯(lián)網(wǎng)技術(shù)與應(yīng)用。

主站蜘蛛池模板: 亚洲欧美精品一中文字幕| 91精品福利自产拍在线观看| 亚洲娇小与黑人巨大交| 国产网友愉拍精品| 国产制服丝袜91在线| 岛国精品一区免费视频在线观看| 内射人妻无套中出无码| 四虎影视8848永久精品| 天天色综网| 久草青青在线视频| 日本高清成本人视频一区| 免费在线观看av| 欧美va亚洲va香蕉在线| 国产国产人成免费视频77777 | 亚洲欧美人成人让影院| 久久青草热| 91免费国产在线观看尤物| 欧美色伊人| 色偷偷av男人的天堂不卡| 一级爆乳无码av| 亚洲区第一页| 在线99视频| 六月婷婷激情综合| 国产毛片网站| 丝袜国产一区| 无码精油按摩潮喷在线播放 | 波多野结衣一区二区三区四区视频| 久久夜色精品| 国产精品一区二区在线播放| 青青草欧美| 亚洲色无码专线精品观看| 欧美日韩国产系列在线观看| 国产在线观看91精品| 国产亚洲欧美日韩在线一区二区三区| 久久网欧美| 日本人妻丰满熟妇区| 中文字幕无码制服中字| 亚洲欧美日本国产综合在线| 亚洲最新地址| 精品久久综合1区2区3区激情| 中文天堂在线视频| 国产黄网站在线观看| 在线观看精品国产入口| 亚洲成在线观看 | 国产激情影院| 国产视频自拍一区| 国产黄网永久免费| AV无码国产在线看岛国岛| 久久国产免费观看| 欧美成a人片在线观看| 国产激情第一页| 亚洲av无码久久无遮挡| 亚洲热线99精品视频| 亚洲人成网站18禁动漫无码 | 成人一级黄色毛片| 尤物亚洲最大AV无码网站| 高清精品美女在线播放| 91在线中文| 成人韩免费网站| 无码aaa视频| 凹凸国产熟女精品视频| 欧美亚洲日韩中文| 国产精品护士| 亚洲精品不卡午夜精品| 久久人妻xunleige无码| 国产激情国语对白普通话| 一本无码在线观看| 一本大道香蕉中文日本不卡高清二区| 久久国产精品嫖妓| 波多野结衣一区二区三视频 | 国产十八禁在线观看免费| 亚洲中文无码av永久伊人| 亚洲综合狠狠| 欧美午夜视频在线| 中文字幕丝袜一区二区| 最新亚洲人成网站在线观看| 成人免费一级片| 国产大片黄在线观看| 国产精品永久免费嫩草研究院 | 亚洲性影院| 欧美三级自拍| 亚洲av片在线免费观看|