999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

OCR發(fā)票識(shí)別應(yīng)用淺述

2017-04-15 12:09:12
福建質(zhì)量管理 2017年1期

曾 東

(重慶工程職業(yè)技術(shù)學(xué)院 重慶 402260)

OCR發(fā)票識(shí)別應(yīng)用淺述

曾 東

(重慶工程職業(yè)技術(shù)學(xué)院 重慶 402260)

在經(jīng)濟(jì)活動(dòng)中,個(gè)人或者企事業(yè)單位會(huì)用到大量的發(fā)票,傳統(tǒng)方法是將票據(jù)信息手工錄入計(jì)算機(jī)系統(tǒng),工作效率低下、出錯(cuò)率較高、業(yè)務(wù)處理時(shí)效低。OCR(Optical Character Recognition)票據(jù)信息識(shí)別技術(shù)的研發(fā)改變了票據(jù)業(yè)務(wù)處理模式,依托于計(jì)算機(jī)軟硬件,將紛繁復(fù)雜的工作交給計(jì)算機(jī)完成,從而節(jié)省了大量人力物力,優(yōu)化了資源配置,提升了工作效率,具有強(qiáng)大的優(yōu)勢(shì)。

OCR;發(fā)票識(shí)別;票據(jù)識(shí)別

一、引言

OCR是光學(xué)字符識(shí)別技術(shù)的簡稱,字符識(shí)別是模式識(shí)別的一個(gè)重要分支,其工作原理是通過掃描儀、數(shù)碼相機(jī)等光學(xué)輸入設(shè)備獲取紙張上的文字圖片信息,采用光學(xué)方式將文檔資料轉(zhuǎn)換成黑白點(diǎn)陣的圖像文件,再利用模式識(shí)別算法分析文字體態(tài)特征,判斷識(shí)別出字符文字,進(jìn)而通過識(shí)別軟件將圖像中的文字轉(zhuǎn)換成文本格式,并按通用格式存儲(chǔ)在文本文件或者數(shù)據(jù)庫中,還可通過文字處理或編輯軟件等再進(jìn)一步加工。

經(jīng)過了數(shù)十年的發(fā)展,OCR技術(shù)在文檔識(shí)別方面的有了很大的進(jìn)步。在市場(chǎng)上已經(jīng)推出了很多成功的商業(yè)軟件,如漢王公司的文本王、清華文通TH-OCR、尚書OCR、蒙恬OCR以及丹青OCR等,其應(yīng)用范圍也越來越廣泛,不僅僅局限于個(gè)人或中小企業(yè)的辦公自動(dòng)化,在金融、稅務(wù)、數(shù)字圖書館等領(lǐng)域也已經(jīng)開始了大規(guī)模地應(yīng)用。它的發(fā)展推進(jìn)了將文檔資料和各類紙質(zhì)存儲(chǔ)信息的數(shù)字化進(jìn)程,加速了信息資源開發(fā)利用共享,輕松實(shí)現(xiàn)了紙質(zhì)文檔的電子化,快速提高了工作效率,有效提升了人們的學(xué)習(xí)工作質(zhì)量。

二、OCR發(fā)票識(shí)別需求背景

在經(jīng)濟(jì)活動(dòng)中應(yīng)用到大量的單證,為了將這些數(shù)量巨大、種類繁多的單證輸入計(jì)算機(jī)系統(tǒng),需要進(jìn)行相應(yīng)的數(shù)據(jù)錄入工作。在現(xiàn)階段,傳統(tǒng)的手工錄入仍然是主要的工作方式,需要投入大量的成本和時(shí)間,不僅抬高了運(yùn)營成本,而且錄入速度也難以提升,錯(cuò)誤率也很難降低,對(duì)提高業(yè)務(wù)處理時(shí)效、提升服務(wù)品質(zhì)帶來了負(fù)面影響。

相對(duì)于傳統(tǒng)的手工錄入方式來說,OCR識(shí)別的速度遠(yuǎn)快于手工錄入,可以節(jié)省大量人力資源,優(yōu)化資源配置,使人員分配于更加有意義的工作,具有強(qiáng)大的優(yōu)勢(shì)。盡管目前的OCR技術(shù)的識(shí)別率雖然很難達(dá)到100%,但其質(zhì)量仍然高于大批量手工錄入。

針對(duì)上述情況,建立一套通用的OCR服務(wù)及管理平臺(tái),可以為企業(yè)提供高速度、低成本的數(shù)據(jù)采集工具,為多個(gè)應(yīng)用系統(tǒng)提供通用服務(wù),提高業(yè)務(wù)處理時(shí)效,降低錯(cuò)誤率,為業(yè)務(wù)快速發(fā)展提供有力的支撐。

三、OCR發(fā)票識(shí)別現(xiàn)狀

在票據(jù)識(shí)別方面,該項(xiàng)技術(shù)的研究應(yīng)用已逐漸廣泛,市場(chǎng)上較為著名的有清華文通的TH-OCR系統(tǒng)和漢王的尚書OCR系統(tǒng)等。票據(jù)識(shí)別技術(shù)可用于各類表單識(shí)別,譬如銀行客戶申請(qǐng)表、保險(xiǎn)客戶申請(qǐng)表、金融票據(jù)(如支票、匯票)、醫(yī)療費(fèi)用單證、收費(fèi)發(fā)票等;各類個(gè)人證件識(shí)別,譬如可識(shí)別身份證、駕駛證、行駛證等;各類企業(yè)證件識(shí)別,譬如可識(shí)別企業(yè)營業(yè)執(zhí)照、組織機(jī)構(gòu)代碼證等;各類車牌照識(shí)別,譬如道路上各種車牌照,如藍(lán)牌、黃牌、警牌、農(nóng)用車牌等。

發(fā)票識(shí)別是票據(jù)識(shí)別的一個(gè)小分支。有關(guān)數(shù)據(jù)顯示,中國每年會(huì)開具2000億張紙幣發(fā)票,約合紙張12萬噸,大約是86萬棵成年樹木。如果一單發(fā)票的成本需要1.6元,唯品會(huì)每年打印發(fā)票約合人民幣兩千多萬,京東則每年花費(fèi)將近兩個(gè)億。發(fā)票內(nèi)容是很重要的公司數(shù)據(jù),在供應(yīng)商管理、合同管理、報(bào)銷管理、稅務(wù)認(rèn)證、客戶管理等各業(yè)務(wù)方面都需要使用。

眾所周知,財(cái)務(wù)數(shù)據(jù)多以表格和漢字出現(xiàn),而這就是自動(dòng)識(shí)別系統(tǒng)中最困難的地方。這些問題主要包括票據(jù)紙張不一、表格線分布不均勻、長短不一,以及漢字結(jié)構(gòu)復(fù)雜、相似字多等等。這也就造成了票據(jù)識(shí)別的難度要高于一般紙質(zhì)文檔的識(shí)別。對(duì)于傳統(tǒng)的紙質(zhì)文檔和單一的字符識(shí)別已經(jīng)取得了相當(dāng)大的進(jìn)展,但是對(duì)包括復(fù)雜表格和字符的圖像仍存在一些問題。

四、OCR發(fā)票識(shí)別軟件工作流程

發(fā)票單據(jù)識(shí)別OCR是一款通用的數(shù)據(jù)批量采集軟件,適用于各種具有表格特征的發(fā)票單據(jù),通過掃描、圖像處理、自動(dòng)分類、OCR識(shí)別技術(shù),將表格圖像中的數(shù)據(jù)信息準(zhǔn)確、快速、真實(shí)地提取并保存,數(shù)據(jù)結(jié)果可導(dǎo)出為標(biāo)準(zhǔn)的數(shù)據(jù)格式,如Excel表,與企事業(yè)單位的ERP、CRM等系統(tǒng)實(shí)現(xiàn)無縫結(jié)合。軟件系統(tǒng)支持中英文、數(shù)字、符號(hào)等多類型字符的手寫體、印刷體識(shí)別。OCR軟件識(shí)別基本流程描述如下:

掃描:通過掃描儀等設(shè)備將目標(biāo)文檔(各類發(fā)票)以文檔圖像的形式讀入系統(tǒng)。

預(yù)處理:圖像在生成過程中,由于成像系統(tǒng)本身具有非線性或者攝像時(shí)視角不對(duì),會(huì)使生成的圖像產(chǎn)生幾何失真,此外在拍照的過程中,由于各種原因文檔圖像經(jīng)常會(huì)出現(xiàn)一定程度的傾斜。而圖像傾斜將會(huì)影響文字識(shí)別的效果。因此,在進(jìn)行版面分析之前,進(jìn)行傾斜檢測(cè)和校正十分重要。通過對(duì)文檔圖像預(yù)處理提高了圖像的質(zhì)量,減小各種噪聲對(duì)后續(xù)過程的影響。

版面分析:將圖像文件中所包含的直線、文本表格、圖像等不同性質(zhì)的劃分開來,并將文本部分按照段落,標(biāo)題等進(jìn)行切分,以便于下一步的處理。

版面識(shí)別:對(duì)版面分析中的各個(gè)分欄的性質(zhì)及順序做出判斷與識(shí)別,同時(shí),對(duì)于文本性質(zhì)的分欄,指出它是橫排還是豎排,是正文還是標(biāo)題,以及各個(gè)段落基于復(fù)雜度的自適應(yīng)中文版面分析方法研究的先后順序,從而保證識(shí)別后的文件的語義關(guān)系。通常把版面分析與版面識(shí)別統(tǒng)稱為版面理解。

字符切分:將文字區(qū)域的字符進(jìn)行切分,為字符識(shí)別做準(zhǔn)備。

字符識(shí)別:識(shí)別單個(gè)字符,將其轉(zhuǎn)化為字符編碼。

后處理與版面重構(gòu):將前幾步的處理結(jié)果進(jìn)行進(jìn)一步處理,輸出目標(biāo)文件格式。

當(dāng)然,生成目標(biāo)格式文件的同時(shí)可以將票據(jù)要素詳細(xì)信息定向入庫存儲(chǔ),方便后續(xù)查詢共享等操作。

使用OCR識(shí)別技術(shù)實(shí)現(xiàn)自動(dòng)錄單,通過批量掃描識(shí)別的方式采集發(fā)票數(shù)據(jù),大大提高數(shù)據(jù)采集的效率,降低了人力物力開銷。

OCR識(shí)別錄單方式是對(duì)傳統(tǒng)錄入方式的一個(gè)顛覆,基于先進(jìn)的圖像處理、OCR&ICR(智能字符識(shí)別)技術(shù),把繁重重復(fù)的工作交給計(jì)算機(jī)去處理,充分發(fā)揮了計(jì)算機(jī)信息處理技術(shù)的優(yōu)勢(shì),錄單主體的變更帶來的是錄單效率本質(zhì)的提高,這也是OCR識(shí)別技術(shù)研究的初衷。

評(píng)價(jià)OCR識(shí)別軟件系統(tǒng)的主要性能指標(biāo)有識(shí)別對(duì)象、識(shí)別率、誤識(shí)率、拒識(shí)率、可靠性、識(shí)別速度等。

五、結(jié)束語

隨著科技的發(fā)展,OCR識(shí)別技術(shù)將會(huì)衍生到人工智能的很多產(chǎn)品當(dāng)中,將有廣闊的市場(chǎng),但前路漫漫,針對(duì)不同的復(fù)雜場(chǎng)景依然保持較好的識(shí)別性能,還需要更加深入研究,進(jìn)一步提升識(shí)別可靠性。

[1]黃宇.OCR技術(shù)在金融領(lǐng)域的應(yīng)用[J].金融電子化,2001(1):86-88.

[2]彭健.基于OCR技術(shù)的金融和財(cái)務(wù)票據(jù)自動(dòng)錄入與管理系統(tǒng)[J].渝州大學(xué)學(xué)報(bào),1999(14-3):50-54.

[3]張艷.票據(jù)自動(dòng)處理系統(tǒng)中若干關(guān)鍵技術(shù)研究[D].南京理工大學(xué),2008.

[4]田大增.視覺文檔圖像識(shí)別預(yù)處理[D].河北大學(xué),2007.

曾東(1987.12-),男,漢族,重慶云陽人,教師,碩士研究生,重慶工程職業(yè)技術(shù)學(xué)院,物聯(lián)網(wǎng)技術(shù)與應(yīng)用。

主站蜘蛛池模板: 美女国产在线| 亚洲AⅤ波多系列中文字幕| 日韩毛片免费| 全免费a级毛片免费看不卡| 国产成人夜色91| 在线欧美一区| 欧美第二区| 一级片一区| 日韩免费中文字幕| 国产免费人成视频网| 亚洲精品无码AV电影在线播放| 女人爽到高潮免费视频大全| 国产一区免费在线观看| 久久这里只精品热免费99| 亚洲三级视频在线观看| 亚洲成人手机在线| 大香网伊人久久综合网2020| 国产美女一级毛片| 亚洲乱亚洲乱妇24p| 国产爽歪歪免费视频在线观看 | a毛片免费在线观看| 色老二精品视频在线观看| 露脸一二三区国语对白| 欧美h在线观看| 熟妇丰满人妻| 一级毛片基地| 久久伊人操| 91热爆在线| 亚洲欧洲日韩综合| 亚洲水蜜桃久久综合网站| 99999久久久久久亚洲| 蜜臀AV在线播放| 欧美高清视频一区二区三区| 97视频免费在线观看| 香蕉精品在线| 国产特级毛片aaaaaa| 亚洲欧美精品一中文字幕| 九九九九热精品视频| 国产在线观看成人91| 亚洲AⅤ综合在线欧美一区| 国产成人亚洲毛片| 波多野结衣的av一区二区三区| 国产精品99久久久久久董美香| 天天色天天操综合网| 青草精品视频| 亚洲精品国产自在现线最新| 日韩乱码免费一区二区三区| 久久久久国产精品嫩草影院| 欧美在线黄| 2022精品国偷自产免费观看| 国产成人久视频免费| 亚洲三级成人| 日韩精品欧美国产在线| 国产成人8x视频一区二区| 亚洲精品成人7777在线观看| 国产精品欧美日本韩免费一区二区三区不卡 | 成年A级毛片| 国内精品伊人久久久久7777人| 在线看片免费人成视久网下载| 国产不卡国语在线| 免费高清a毛片| 男人天堂亚洲天堂| 日韩欧美中文字幕在线精品| 丝袜无码一区二区三区| 亚洲第一成人在线| 亚洲高清国产拍精品26u| 蜜桃视频一区二区三区| 免费毛片全部不收费的| 99精品这里只有精品高清视频| 国产成人喷潮在线观看| 亚洲日本一本dvd高清| 97成人在线视频| 日韩av无码DVD| 日韩精品无码免费一区二区三区 | 久久久久国色AV免费观看性色| www.91在线播放| 夜夜爽免费视频| 中文字幕天无码久久精品视频免费| 国产色爱av资源综合区| 女同久久精品国产99国| 天天操天天噜| 欧美五月婷婷|