999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

發票印刷體數字識別方法的研究

2016-02-27 06:48:50虹,王
計算機技術與發展 2016年7期

邵 虹,王 佳

(沈陽工業大學 信息科學與工程學院,遼寧 沈陽 110870)

發票印刷體數字識別方法的研究

邵 虹,王 佳

(沈陽工業大學 信息科學與工程學院,遼寧 沈陽 110870)

在發票圖片的采集過程中,由于拍攝不當獲取到的圖片存在傾斜;受采集環境的影響,采集到的發票圖片表面有光照不均勻,部分區域過亮或過暗,不利于數字的定位與識別。針對此類問題,在預處理階段,首先應用霍夫變換法檢測發票圖片中的橫線并計算其傾斜角,通過旋轉對傾斜發票圖片進行矯正;其次,對發票圖像進行預處理操作,減弱光照以及噪聲的影響;接著研究了普通發票版面特征以及數字分布位置,提出了一種基于投影法的定位方法,準確定位出數字區域;最終選用基于數字結構特征的方法判別數字。實驗結果表明,該算法識別速度快、精度高。

預處理;霍夫變換;發票號碼;數字定位;號碼識別

0 引 言

隨著信息的快速發展,數字世界變得越來越明顯。光學字符識別是模式識別領域中的一個重要研究領域。通過前期的努力,這一領域已經取得了豐碩的研究成果。

數字識別是光學字符識別的一個重要研究方向和組成部分,它僅利用計算機就能自動識別阿拉伯數字0到9。是一種有效、可靠、快速的數字識別系統,不僅可以作為單獨使用的軟件,也可用于識別車牌號碼系統以及智能安防系統,具有非常重要的商業價值。因此,數字識別的研究吸引了眾多研究者,產生了許多識別算法和研究成果。

文獻[1]介紹了銀行支票識別系統的基礎,針對同時出現的大小寫數字,提出多分類器融合算法和人工神經網絡算法,分別實現大寫和小寫數字的魯棒識別;文獻[2]闡述的支票識別系統針對對象中線條特點,給出一種快速線段檢測算法和基于特征線檢測的單據識別算法。

很長一段時間,單據管理工作由人工完成。在許多企業和政府機構、醫院、保險行業,賬單處理是沉重和繁瑣的手工勞動。如果能夠利用計算機自動處理這些發票,從發票印制的數字信息中自動提取,實現數字的精確識別,那么就能減少由于輸入數據投入的人力和物力。

1 發票的版面結構

普通商業機打發票作為發票類別中最常見也最重要的一類,發票抬頭、日期等信息位于發票的上部,不同類別的數據分別列示于下部矩形框內。文中課題有效的信息是發票的數字區域,在發票圖片的右上角,其分布形式為上下兩行打印。上部是發票代碼,12位印刷體數字,下部是發票號碼,8位印刷體數字。

2 發票圖片的預處理

圖像的預處理主要是指在圖像二值化前對圖像所進行的處理工作。由于采像環境的變化和采像設備的影響,會出現不同程度的分布有噪聲和亮度不均勻以及圖像傾斜的情況,這會嚴重影響后面的處理效果。圖像的預處理可以有效消除噪聲、光照反射等情況的不良影響,增強圖像中的有效信息。因此,選擇適合的預處理方法將對后續二值化、識別工作帶來很大的便利[3]。

2.1 圖片的傾斜矯正

獲取到的發票圖片可能存在傾斜,這樣的圖片會影響后續的數字定位和識別,因此需要對獲取到的所有圖片進行傾斜檢測。霍夫變換是圖像處理中的特征提取技術,它是檢測一種特定形狀的對象投票算法。具體來說,霍夫變換檢測圖像中的直線,利用雙坐標空間的變化,將空間中的相似形狀的直線線性映射到另一個坐標空間的點,并將檢測直線的問題轉化為統計峰值問題[4]。

利用霍夫變換方法檢測發票圖片中的水平最長直線,然后計算出這條最長直線的斜率,最后實現圖片的水平矯正,達到預期的目標。具體的算法步驟包括以下幾點:

(1)讀入彩色圖片并進行灰度化。

(2)截取整個發票圖片的右上角部分,將檢測區域縮小。對發票的研究發現,號碼所在位置在整幅圖片的上1/3到上邊界,右3/4到右邊界部分。縮小直線檢測區域將減少處理數據量,提高程序運行速度。

(3)對該區域進行Roberts邊緣檢測,獲取邊界,濾除豎線,檢測所有橫線,計算長度并標出最長直線。

(4)計算斜率,矯正圖片。設A、B兩點分別是直線的起點和終點,坐標分別為(x1,y1)、(x2,y2)。通過式(1)計算出直線的斜率,然后求出傾斜角θ,將原始圖片逆時針旋轉θ角度,實現矯正。

(1)

圖1就是對其中一幅圖片進行傾斜矯正的過程圖。其中,第一張圖片為讀入的原始圖片,為彩色圖片;第二張是局部灰度圖,截取的是發票的固定右上角部分,縮小檢測范圍,提高了檢測速度和準確性;第三張是Roberts邊緣檢測的結果,并標注出最長直線;第四張是矯正圖,通過最長直線計算出傾斜角度,再旋轉原圖,得到矯正后的圖像。

圖1 圖片的傾斜矯正

實驗程序總共對100張圖片進行測試,其中正確的有100張。傾斜矯正正確率達到了100%。

2.2 圖片的噪聲處理

圖像的噪聲主要來源于圖像采集和傳輸兩階段。噪聲應極大程度地消除,消除噪音可以獲得圖像的真實數據。消除噪聲的方式有很多種,大抵可分為兩大類:一類是空間域方法,應用不同的模板算子對原始圖像做卷積運算處理,抑制或消除噪聲;另一類是頻率域方法,把原始圖像從空間域轉變到頻率域,再采用適當的各類濾波器對其進行濾波,經反變換后得到去噪后的圖像[5]。

實驗中選取空間域處理方法,選用非線性濾波器中的中值濾波器,由于在實際運算過程中它并不需要圖像的統計特征,所以具有簡單與便利的優點,能夠消除線性濾波器引起的圖像細節模糊難題。實驗中對發票圖片進行中值濾波,采用3×3大小的模板。

2.3 發票數字的定位

在濾除噪聲之后,發票號碼數字需要被精確定位并截取為數字串存儲下來,以便于后續的分割和識別操作。仔細觀察發票版面后發現,感興趣的發票號碼數字位于發票圖像中最大矩形框的上方,以這個矩形框右上角的頂點為基準點,分別向左、向上截取合適的寬度和高度,構成一個特定的矩形把兩行數字包含起來,實現對數字的初次定位,最后將兩行數字進行水平切割,將發票代碼和號碼分別儲存起來。實驗過程如下:首先對整幅發票圖片作預處理操作,對二值圖像作水平投影,選取水平投影圖中左側波峰中最大的位置,記錄其行位置x0;其次對二值圖像作垂直投影,選取垂直投影圖中右側波峰中最大的位置,記錄其列號位置y0;最后得到基準點的坐標(x0,y0)。由于發票上的號碼數字是規范化印刷體,其每個數字的寬度和高度大小都是固定值,故可以統計出12個數字的寬度和高度,統計所有發票圖片,最后寬度采用Width/5,高度采用Height/5。Width、Height分別是原始圖像的寬度和高度。

3 數字分割

數字圖像分割是把每個圖數字串的數字分開,使它成為一幅單一的數字圖像。這里,如果數字分割的準確率很高,那么對后續的單個數字提取特征將非常有利。數字分割算法有很多,實驗使用投影法的數字分割法,其過程有以下幾點:先豎直投影,找出每個數字的左右邊界,分割出單個數字;其次再對每一個數字進行水平投影,找出其上下邊界,至此,每一個數字都被一個最小外接矩形包圍,也就是數字分割工作完成;最后,將每一個數字做歸一化,使其所有單個數字大小一致。這里進行歸一化所采用的方法為雙線性插值法,將數字歸一化到40×80大小[6]。圖2為采用投影法分割數字的效果圖。

圖2 數字分割結果

4 數字識別

在過去的數十年中,研究者們提出了各種各樣的識別方法,如神經網絡法[7]、模板匹配法[8]、基于數字結構特征的識別算法[9-10]、基于組合特征的識別算法[11]等。

4.1 基于穿越號碼次數的結構識別算法

該算法[12]使用的特征是:航程(包括上、下、左、右航程)、穿越號碼體次數(水平和垂直)、第一次穿越號碼體空體航程、長橫和長豎。識別方法根據結構特征采用逐級判斷的方法:

(1)字符寬度小于最大字符寬度1/3的為“1”;上航程面積大于右航程面積設定值的為“4”;下航程面積大于上航程面積設定值的為“7”。

(2)左、右、上、下航程面積幾乎多為零的可能是“0,6,8,9”,水平穿越上半部分一次的為“6”;水平穿越下半部分一次的為“9”;垂直穿越中部兩次的為“0”;垂直穿越中部大于等于三次的為“8”。

(3)左航程面積大于右航程面積設定值的為“3”;左航程面積等于1/2下半部分左航程面積且右航程面積等于1/2上半部分右航程面積的為“5”;另一個為“2”。

4.2 基于結構特征的號碼識別算法

該算法[13]使用的特征是:水平、垂直方向穿線數。把數字從上到下平均分成8部分,在每部分中分別以水平方向掃描線從左到右穿過數字,計算每條掃描線穿越黑像素區域互不相鄰的交點數,統計每部分的最大交點數。在上i/8(i=1,2,3,4)部分的最多交點數定義為該數字上i/8高度處的過線數;在下i/8(i=1,2,3,4)部分的最多交點數定義為該數字的下i/8高度處的過線數。同理可得該數字的左i/8(i=1,2,3,4)寬度處的過線數和右i/8(i=1,2,3,4)寬度處的過線數。從10個數字中尋找穩定而有效的特征來構造編碼器,如表1所示,根據編碼器識別印刷體數字。

表1 編碼器

注:上1/8代表上1/8穿線數,以此類推。

4.3 基于數字結構特征的數字識別算法

特征提取的關鍵是選取穩定且有效的結構特征,提取不同的特征,識別率不同。實驗中提取的結構特征有:上橫線、下橫線、水平交線個數以及垂直交線個數。

橫線,指水平掃描號碼體,如果存在某行連續為號碼體像素的數目超過號碼體寬度的三分之二,則定義為橫線。根據橫線所處的不同位置可分為:上橫線,即橫線位于數字的頂部;下橫線,即橫線位于數字的底部。

交線個數,指水平或垂直掃描號碼體,以像素為單位不同位置的穿線個數可能不同,一個像素位置有一個穿線次數的結果,但一般為一次、二次或三次,選取指定位置出現最多的次數,定義為交線個數[14]。

識別過程如下:首先,數字5和7在頂部有上橫線特征,通過上橫線特征分類出數字5和7;數字1和2在底部有下橫線特征,在剩余的所有數字中分類出數字1和2;對其余的6個數字0、3、4、6、8、9,通過水平交線個數和垂直交線個數兩種特征進行分類。對于數字0和8,在水平1/3處和2/3處的交線個數都是2,但是數字0的垂直交線個數為2,數字8的垂直交線個數是3,通過垂直交線個數分類出數字0和8;對于數字4和9,在水平1/3處和2/3處的交線個數分別均是2和1,但數字4的垂直交線個數為2,數字9的垂直交線個數為3,通過垂直交線個數分類出數字4和9;對于數字3和6,數字3在水平1/3處和2/3處的交線個數分別是1和1,數字6在水平1/3處和2/3處的交線個數分別是1和2,2/3處水平交線個數為2的是數字6,否則是數字3。

數字識別流程圖如圖3所示。

圖3 數字識別流程圖

對于數字0,3,4,6,8,9應采用兩種交線特征來進行識別。表2為特征編碼表。其中,a為1/3處水平交線個數;b為2/3處水平交線個數;c為垂直交線個數。

表2 特征編碼表

5 實 驗

5.1 實驗結果

實驗使用的PC機基本信息如下:

操作系統:Windows 7旗艦版;

處理器:AMD速龍X2 ql-64 2.10 GHz;

內存:2 GB;

系統類型:32位操作系統。

通過測試20張12位數字的發票代碼圖片和20張8位數字的發票號碼圖片,總計400個數字,其中正確識別的數字有394個,識別率達到98.5%。

5.2 實驗分析

實驗對比分析見表3。

表3 實驗對比分析

由表3可以看出,實驗所用的識別算法識別率高于另外兩種數字識別算法,并且運行時間短,識別速度快,具有明顯的優勢。由于提取的特征減少,計算量相應減少,識別效率有所提高,識別率也較高。

6 結束語

實驗對圖像的獲取、圖像的預處理、數字分割以及數字識別四個步驟進行了研究和分析。在圖像的獲取階段,是用普通300 W像素攝像頭拍攝,圖片中會存在不同程度的噪聲及傾斜。在預處理階段,應用霍夫變換檢測水平直線,計算直線斜率,計算圖像的傾斜角度,再逆時針旋轉圖片,實現圖像的傾斜校正。使用中值濾波法對圖像進行噪聲濾除,極大減弱了噪聲影響,圖片更加清晰,有利于后續操作。對感興趣數字區域進行定位,定位出識別所需的數字,為后續數字的分割和識別做技術準備。基于投影法的數字分割結果非常理想,將數字串分割為單一的數字;基于數字結構特征的識別算法識別速度快,識別率高。

實驗中還存在一些問題:第一,通過拍攝或掃描的圖片清晰度各異,經過圖像預處理后仍有不清晰現象;第二,由于特征提取算法本身的問題,提取的特征可能出現誤差。

[1] 林 強.基于OCR的支票識別系統的研究與實現[D].北京:北京郵電大學,2010.

[2] 李 琥,卜佳俊,陳 純.一種新的基于特征線檢取的票據識別算法[J].浙江大學學報:工學版,2003,37(2):173-177.

[3] 嚴國莉,黃 山,李岱璋,等.印刷體數字快速識別算法在身份證編號數字識別中的應用[J].計算機工程,2003,29(1):178-179.

[4]ZhangZongjian,ChenGuanghua,LiJianwei.Theresearchondigitrecognitionalgorithmforautomaticmeterreadingsystem[C]//Proceedingsofthe8thworldcongressonintelligentcontrolandautomation.Jinan,China:[s.n.],2010:5399-5403.

[5]LiYueqin,LiJinping,HanLei,etal.Abanknotenumberautomaticidentificationmethod[C]//Procofinternationalconferenceonenvironmentscience.Melbourne:IEEE,2012:185-192.

[6] 徐 哲,樓文高.基于模版對比的手寫體數字識別神經網絡模型[J].計算機工程與應用,2008,44(9):226-228.

[7] 戴 靜,胡釗政,白建川.一種基于交點特征的印刷體數字識別方法[J].電視技術,2014,38(13):28-30.

[8] 高 菊,葉 樺.一種有效的水表數字圖像二次識別算法[J].東南大學學報:自然科學版,2013,43(S):153-157.

[9] 滕書華,孫即祥,邵曉芳.一種魯棒性的印刷體數字識別算法[J].光學與光電技術,2005,3(6):12-15.

[10] 倪桂博,梁曉尊.基于結構形狀的印刷體數字識別方法[J].軟件導刊,2010,9(5):67-68.

[11] 張翼成,陳 欣,楊紅軍,等.基于組合特征的BP神經網絡數字識別方法[J].計算機系統應用,2013,22(3):113-116.

[12] 李春宇.金融發票印刷體數字及面值識別方法的研究[D].沈陽:沈陽工業大學,2006.

[13] 鄔建瓴.數字識別及其應用[D].武漢:華中科技大學,2006.

[14] 徐 敬,劉 煒.基于特征矩陣的高效數字識別算法[J].軟件導論,2014,13(1):59-61.

Research on Recognition Method on Invoice Printing Number

SHAO Hong,WANG Jia

(School of Information Science and Engineering,Shenyang University of Technology,Shenyang 110870,China)

In the process of invoice collection,some pictures may have the tilt problem due to inappropriate photograph method.In addition,non-uniform illumination may happen as a result of the photograph environment,which adds to the difficulty of location and identification of invoice numbers.In view of these problems,Hough transform has been applied firstly in the preprocessing section to detect and calculate the tilt angle of the picture,then rotating to correct invoices.Secondly,preprocessing has been arranged for the invoices to eliminate the effect of noise.Thirdly,a method of location based on projection is proposed by the research on the layout of common invoices,which can identify the number area accurately.Finally,the algorithm based on digital structure feature is adopted to identify.The experiment shows that this algorithm has high identification velocity and precision rate.

preprocessing;Hough transform;invoice number;digital positioning;digital recognition

2015-11-10

2016-03-09

時間:2016-06-22

遼寧省自然科學基金(201202162)

邵 虹(1974-),女,教授,CCF會員,研究方向為圖像處理與模式識別;王 佳(1990-),男,碩士,研究方向為計算機圖形學與虛擬現實。

http://www.cnki.net/kcms/detail/61.1450.TP.20160622.0845.056.html

TP301

A

1673-629X(2016)07-0173-04

10.3969/j.issn.1673-629X.2016.07.037

主站蜘蛛池模板: 日韩精品成人在线| 国产9191精品免费观看| 亚洲国产清纯| 精品夜恋影院亚洲欧洲| 成人亚洲国产| 老司机精品一区在线视频| 少妇高潮惨叫久久久久久| 久久久久国产一级毛片高清板| 久久国产精品影院| 国产在线精品99一区不卡| 色爽网免费视频| 思思99热精品在线| 毛片一级在线| 国产亚洲精品97在线观看| 91视频99| 114级毛片免费观看| 久草中文网| 亚欧乱色视频网站大全| 成人在线天堂| 女人18毛片水真多国产| 久久国产乱子| 国产精品偷伦视频免费观看国产 | 国产永久免费视频m3u8| 国产成人综合网| 国产99精品视频| 国产香蕉97碰碰视频VA碰碰看| 情侣午夜国产在线一区无码| 日韩 欧美 国产 精品 综合| 欧美日韩北条麻妃一区二区| 99视频全部免费| 亚洲伊人天堂| 啪啪国产视频| 国产成人精品2021欧美日韩 | 激情综合婷婷丁香五月尤物 | 天天躁夜夜躁狠狠躁躁88| 欧美成人看片一区二区三区| 久久一色本道亚洲| 国产资源免费观看| 国产丰满大乳无码免费播放| 国产正在播放| 亚洲啪啪网| 色综合热无码热国产| 最新国产在线| 国产另类视频| 青草视频网站在线观看| 国产主播在线一区| 国产91无码福利在线 | 青草91视频免费观看| 91免费在线看| 精品小视频在线观看| 国产激情无码一区二区APP | 伊人91视频| 特级毛片免费视频| 一级毛片在线播放免费| 国产亚洲高清视频| 国产一级妓女av网站| www中文字幕在线观看| 特级做a爰片毛片免费69| 99爱在线| 老司机午夜精品网站在线观看 | 91精品国产自产在线老师啪l| 国产H片无码不卡在线视频| 日本在线视频免费| 中文精品久久久久国产网址| 久久亚洲国产最新网站| 全午夜免费一级毛片| 欧美日韩国产在线人成app| 日本免费一区视频| 国产精品微拍| 在线亚洲天堂| 97综合久久| 国产三区二区| 国产视频自拍一区| 国产国产人在线成免费视频狼人色| 青青国产视频| 国产一区二区影院| 亚洲不卡影院| 伊人国产无码高清视频| 亚洲精品无码久久毛片波多野吉| 亚洲欧美另类专区| 在线精品亚洲一区二区古装| 国产va在线观看|