999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征字符識別的文本圖像方向判定

2015-12-20 06:58:40吳建勝祖旭良薛涵今
計算機工程與設計 2015年8期
關鍵詞:方向特征文本

吳建勝,祖旭良+,薛涵今

(1.遼寧科技大學 軟件學院,遼寧 鞍山114051;2.國網鞍山供電公司,遼寧 鞍山114000)

0 引 言

由于掃描儀饋紙幅面或光學字符識別 (optical character recognition,OCR)軟件自身對文本圖像處理的缺陷等原因,經常會要求掃描的紙質文件或票據按照一定方向進行放置掃描,否則將無法得到識別結果。實際上在OCR 軟件進行處理之前,需要將文本圖像按照約定的方向進行旋轉,或者按照文本圖像的長寬比,進行簡單的判斷旋轉,保證文本圖像處于人們正常視覺方向之后才能進行文字識別工作。本文提出了一種基于文本圖像中特征字符識別的圖像正常視覺方向判定的方法,增強了文本圖像方向的魯棒性,實現了無方向約束掃描,有利于提高使用友好度。

1 OCR 技術簡介

OCR,光學字符識別技術是指通過光學輸入設備如掃描儀、寫字板、攝影機等外部設備,將各種紙質材料如報表、發票、文件、報紙、雜志等印刷品的文字轉換為二維點陣信息,然后再利用文字識別技術將圖像中的文字信息轉換為計算機可編輯的字符形式。研究內容涉及:圖像處理、模式識別和人工智能等多學科。

1.1 OCR 處理流程

字符識別的過程一般由以下模塊組成,如圖1所示。

圖1 字符識別流程

本文論述的重點是特征字符的提取,在版面分析階段,根據要解決的實際問題情況,加入部分規則約束以及約束指標,分析得到文本圖像中最有可能是文字字符的圖像區域。OCR 處理的圖像中一般包括表格和文字信息,掃描輸入過程中或多或少肯定會有某種程度的傾斜,傾斜矯正的核心算法在于如何檢測出圖像的傾斜角,Hough變換[1,2]是最常用的傾斜角檢測的方法。對于文本圖像的傾斜矯正[3,4],雖然涉及到具體的系統處理方法不一樣,但是整體的原理基本相同。這些文字圖像的特征就是有統一的方向性,還有各個文字的寬度和高度都差不多,在二值圖像中很容易通過連通域將文字圖像部分提取出來,然后提取特征點,進行直線擬合,確定其方向性,最后進行方向矯正。單純的傾斜矯正不能得到正常視覺方向的文本圖像,因為倒置180°情況下,不存在傾斜角。旋轉90°和270°情況下,得到的傾角是一樣的,仍然無法判斷如何旋轉才能得到正常視覺方向的圖像,所以提出了本文的方法。

1.2 OCR 技術原理

所謂的字符識別,是先讓計算機對字符樣本的特征進行分析、記憶和學習,使其成為系統自身的知識,然后運用這些先驗知識去分析和比較新輸入的字符圖像,評估相似度,獲得識別結果[5,6]。特征體系的選取各不相同,根據圖像質量以及時間效率等因素而定。根據不同特征體系的選取,識別方法主要分為以下兩類:基于統計特征的字符識別技術和基于字符結構的識別技術。

基于字符統計特征的識別技術是目前比較普遍使用的方法,程序實現起來比較簡單。這種方法選取同一類字符中有代表性的、分類性能好的字符特征作為特征向量,常用的統計特征有字符經過頻域變換形成的特征、二維平面的位置特征、垂直和水平投影的直方圖特征和矩特征[7]等等。從大量已知結果的樣本中提取特征進行學習和分類器訓練,對未知結果的圖片采取同樣的分析處理方法,得到相同的統計特征,采用向量間的距離指標如歐氏距離、馬氏距離等評估相似度,獲得識別結果。

基于結構特征的字符識別技術通過識別字符圖像內部的輪廓特征、拐點特征和突變點特征等基元,運用模板匹配的方法來實現字符識別[8]。

2 特征字符提取及方向判定

本文方法的特征字符提取過程包含在版面分析模塊中,圖像經過預處理后,進行連通域分析和文本行 (列)區域確定,然后通過一系列規則約束,最終確定特征字符。

2.1 連通域分析

目前已有的連通域分析算法分為兩類:一種是局部鄰域算法,確定一個起點,向周圍擴展,從局部到整體;另一種是從整體到局部的分析算法,先確定不同的連通成分,再對每個成分填充[9]。本文對預處理后的二值圖像,使用游程編碼算法,按照從上到下,從左至右的順序對圖像進行掃描[10-12],將結果保存到所示的結構體中。

2.2 連通域屬性判定

對連通域屬性進行判定之前,通過式 (1)對其中所有最小寬度或高度和所有的最大寬度或高度進行直方圖統計

式中:m1、m2——連通域寬和高中的最小長度和最大長度,H1、H2分別是其統計直方圖。

通過式 (2)~式 (4)計算直方圖的峰值,估算有效連通域的長度范圍,通過此范圍過濾部分噪音、分割線等無意義連通域

式中:C1和C2分別表示字符的長度和寬度中最小值和最大值。

使用式 (5)、式 (6)對剩余的連通域進行屬性估算,通過寬高比、像素點個數估算哪些連通域可能為字符[13,14]。根據字形和印刷特點,大多數字符連通域的寬度和高度比較接近,可以依據此特性,為連通域屬性賦值

式中:A 是對屬性估計的置信度計算,T 是判斷連通域是否為文本區的置信度閾值,經過大量實驗確定,該值取0.85時,完全可以滿足本算法的要求。

對連通域屬性進行估算之后,認為nAttribute的值為1的連通域才有可能是文本行 (列)的連通域。進行屬性估算可以為后續處理過濾沒有必要的連通域,提高時間效率,還可以為后續處理打基礎,提高正確率。

2.3 文本行 (列)合并

對nAttribute的值為1的連通域根據近鄰連接強度I進行橫向文本行合并與縱向文本列合并

式中:overlapv——兩個連通域豎直重合的高度,overlapH——水平重合的寬度,h1,h2——兩個連通域各自豎直高度,disH——他們間的水平距離,disv——他們間的垂直距離,w1,w2——各自的水平寬度。將結果保存到如下的文本行 (列)結構體中:

文本行 (列)合并的結果如圖2所示。

2.4 篩選特征文本行 (列)

圖2 文本行 (列)合并結果

特征文本行 (列)是指特征字符所在的行或者列,最能代表圖像正常視覺方向的文字定義為特征字符,例如復雜版面中的標題字符和文本段中具有上下文的字符。所以特征文本行 (列)可能具有以下特征中的一種或幾種:

(1)包含一定數量以上的連通域;

(2)文本行高度大于平均高度,文本列寬度大于平均寬度;

(3)上下存在其它文本行或者左右存在其它文本列;將具有以上特征的文本行 (列)按照式 (8)加權計算特征權重

式中:CN——文本行中具有的連通域數量,EH——文本行高出平均高度的長度,NL——文本行近鄰的文本行數量。

將權重從大到小排序篩選,取得到權重較大的前4個文本行 (列)作為算法的效果展示,如圖3、圖4所示。

圖3 書籍頁特征文本行篩選結果

從圖3和圖4篩選的結果來看,完全符合特征文本的屬性。正常情況下,書籍的題目和票據的類型名稱會比一般的字體大,屬于特征文本行;書籍段落中,具有上下文,而且比較緊湊的大段文字屬于特征文本行;票據中,稅控碼部分,具有上下文,而且大量稅控碼排列整齊緊湊,屬于特征文本行。

圖4 票據特征文本行篩選結果

2.5 方向判定

采用統計特征識別技術將特征字符的特征向量與模板庫中特征向量的識別距離進行計算統計,依次統計相同特征字符4個方向的特征向量識別距離,根據最小距離判定圖像方向

式中:i的值代表4個方向,D 為該方向的識別距離,T 為判定閾值,本文通過大量實驗,取值為150。

按照本文敘述方法,使用北京文通科技有限公司隨機采集的16975張包括書籍、報紙、文件、稅務票據等樣本對理論的可行性進行了驗證,在已知正確結果情況下,對圖像分別做出不旋轉、順時針旋轉90°、180°和270°操作,實驗結果見表1。

表1 實驗結果統計

實驗結果表明,平均用時和正確率完全達到預期目的。對整張圖像進行連通域分析,消耗了本文算法的主要時間,該方法在其它以OCR 技術為基礎的應用中,平均用時仍會有大幅度提升,因為該方法最初設計的目的是依據OCR 技術,所以所用數據與OCR 的圖像預處理部分有重疊,在以上顯示的時間基礎上還可以進行提升,對于實踐應用有重大意義。通過分析方向判斷錯誤的圖像,得到導致錯誤的主要原因是圖像有歪斜,預處理工作沒有做好,還有一點原因是圖像中只包括外文字符,沒有中文,或者中文字符過小,不具有代表性,沒有挑選出來,最后導致識別判斷失效。

3 結束語

文中提出一種具有特征字符的文本圖像方向判定算法,增強了基于OCR 技術的應用軟件對于掃描方向的魯棒性。通過分析版面中能夠代表圖像方向的字符具有的通用特征,在算法中添加約束條件,提取特征字符,根據最小特征識別距離,達到了判斷整張圖像方向的目的。最后實驗數據顯示,該方法的平均用時僅為260ms,正確率高達99%以上,完全可以應用于實踐。但算法仍有局限性,對于不支持識別的文字不能達到判斷方向的目的,這是今后需要改進的方向。

[1]DUAN Rujiao,ZHAO Wei,HUANG Songling,et al.Fast line detection algorithm based on improved Hough transformation [J].Chinese Journal of Science Instrument,2010,31(12):2774-2780 (in Chinese). [段汝嬌,趙偉,黃松嶺,等.一種基于改進Hough變換的直線快速檢測算法 [J].儀器儀表學報,2010,31 (12):2774-2780.]

[2]LIU Nian,SU Hang,GUO Chunhong,et al.Improvement of eye location method based on circle examination of Hough transformation [J].Computer Engineering and Design,2011,32(4):1359-1362 (in Chinese). [劉 念,蘇杭,郭 純 宏,等.基于Hough變換圓檢測的人眼定位方法改進 [J].計算機工程與設計,2011,32 (4):1359-1362.]

[3]PAN Meisen.Research on medical image tilt correction method and its application [D].Changsha:School of Geosciences and Info-Physics,2011:23-25 (in Chinese).[潘梅森.醫學圖像傾斜矯正方法與應用研究 [D].長沙:中南大學地球科學與信息物理學院,2011:23-25.]

[4]CHEN Ling,LI Xiying,LU Lin.Research and modification of license plate tilt correction algorithms [J].Computer and Modernization,2013,29 (12):91-97 (in Chinese). [陳玲,李熙英,盧林.車牌傾斜校正算法研究及改進 [J].計算機與現代化,2013,29 (12):91-97.]

[5]GUO Siyu,KONG Yaguang,ZHANG Xufang.Comer detection algorithm based on Hough transform [J].Chinese Journal of Science Instrument,2008,22 (11):2424-2429 (in Chinese).[郭斯羽,孔亞廣,張煦芳.基于Hough變換的角點檢測算法 [J].儀器儀表學報,2008,22 (11):2424-2429.]

[6]FU Weiping,QIN Chuan,LIU Jia,et al.Image object matching and positioning based on SIFT algorithm [J].Chinese Journal of Science Instrument,2011,32 (1):163-169 (in Chinese).[傅衛平,秦川,劉佳,等.基于SIFT 算法的圖像目標 匹 配 與 定 位 [J].儀 器 儀 表 學 報,2011,32 (1):163-169.]

[7]NIU Jie.Research of character recognition algorithm [D].Beijing:College of automation,Beijing:Beijing University of Posts and Telecommunications,2010:19-22 (in Chinese).[牛潔.字符識別算法研究 [D].北京:北京郵電大學自動化學院,2010:19-22.]

[8]CHEN Junsheng.Study on digital recognition algorithm for handwritten combination structure of freedom [J].Computer Engineering and Applications,2013,49 (5):179-184 (in Chinese).[陳軍勝.組合結構特征的自由手寫體數字識別算法研究 [J].計算機工程與應用,2013,49 (5):179-184.]

[9]GAN Ling,LIN Xiaojing.License plate character segmentation based on connected component extraction [J].Computer Simulation,2011,28 (4):336-339 (in Chinese). [甘玲,林小晶.基于連通域提取的車牌字符分割算法 [J].計算機仿真,2011,28 (4):336-339.]

[10]HU Min,LI Mei,WANG Ronggui.Application of improved Otsu algorithm in image segmentation [J].Journal of Electronic Measurement and Instrument,2010,24 (5):443-449(in Chinese).[胡敏,李梅,汪榮貴.改進的Otsu算法在圖像分割中的應用 [J].電子測量與儀器學報,2010,24 (5):443-449.]

[11]Xiang S M,Nie F P,Zhang C S.Semi-supervised classification via local spline regression [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32 (11):2039-2053.

[12]Zhong F,Qin X Y,Peng Q S.Robust image segmentation against complex color distribution [J].The Visual Computer,2011,27 (6-8):707-716.

[13]XIE Fangfang,XU Liancheng,NIU Bingru.An improved outlier detection algorithm based on reverse K-nearest neighbor[J].Computer Applications and Software,2014,31 (6):267-270 (in Chinese).[謝方方,徐連誠,牛冰茹.一種基于反向K 近鄰的孤立點檢測改進算法 [J].計算機應用與軟件,2014,31 (6):267-270.]

[14]LU Gang,HAO Ping,SHENG Jianrong.On applying an improved deep neural networks in tiny image classification[J].Computer Applications and Software,2014,31 (4):182-184 (in Chinese).[呂剛,郝平,盛建榮.一種改進的深度神經網絡在小圖像分類中的應用研究 [J].計算機應用與軟件,2014,31 (4):182-184.]

猜你喜歡
方向特征文本
2022年組稿方向
計算機應用(2022年2期)2022-03-01 12:33:42
2021年組稿方向
計算機應用(2021年4期)2021-04-20 14:06:36
2021年組稿方向
計算機應用(2021年1期)2021-01-21 03:22:38
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
位置與方向
主站蜘蛛池模板: 特级aaaaaaaaa毛片免费视频| 国产一区二区三区日韩精品| 一本大道香蕉久中文在线播放| 欧美日本在线一区二区三区| 国产精品免费入口视频| 国产美女在线免费观看| 国产一区亚洲一区| 国产久草视频| 99人妻碰碰碰久久久久禁片| 熟女成人国产精品视频| 亚洲人成网站观看在线观看| 国产精品不卡片视频免费观看| 热这里只有精品国产热门精品| 日韩天堂视频| 色综合狠狠操| 日韩成人午夜| 国产福利小视频高清在线观看| 国产午夜无码专区喷水| 色综合中文字幕| 欧美成人区| 国产欧美日韩视频一区二区三区| 在线五月婷婷| 内射人妻无套中出无码| 国产本道久久一区二区三区| 成人日韩视频| 日韩高清成人| 国产人成网线在线播放va| 欧洲日本亚洲中文字幕| 中文毛片无遮挡播放免费| 中文国产成人精品久久一| 永久免费AⅤ无码网站在线观看| 91青青在线视频| 精品少妇人妻无码久久| 国产欧美日韩18| 亚洲欧美在线综合图区| 日韩AV手机在线观看蜜芽| 亚洲男女在线| 久久精品丝袜高跟鞋| 91精品国产91久久久久久三级| 成人在线综合| 最近最新中文字幕在线第一页| 日本欧美成人免费| 一本综合久久| 午夜色综合| 国产农村妇女精品一二区| 亚洲精品在线影院| 亚洲天堂网在线观看视频| 一级一毛片a级毛片| 无码不卡的中文字幕视频| 久久精品人人做人人综合试看| 丰满的少妇人妻无码区| 无码中文字幕乱码免费2| 国产精品私拍99pans大尺度 | 亚洲av无码久久无遮挡| av免费在线观看美女叉开腿| 国产成人无码AV在线播放动漫| 免费 国产 无码久久久| 午夜精品福利影院| a级毛片在线免费观看| 亚洲性影院| 欧美色图第一页| 人人91人人澡人人妻人人爽| 国产成人区在线观看视频| 精品無碼一區在線觀看 | 色悠久久综合| 无码视频国产精品一区二区| 伊人91视频| 中文字幕日韩久久综合影院| 国产主播一区二区三区| 国产亚洲高清视频| 亚洲色成人www在线观看| 91在线一9|永久视频在线| 国产日本欧美亚洲精品视| 九九香蕉视频| 毛片最新网址| 国产无码在线调教| 国产99精品久久| 青青草国产一区二区三区| 大陆精大陆国产国语精品1024 | 婷婷激情亚洲| 亚洲中文久久精品无玛| 久久亚洲天堂|