999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖像文本識別中目標定位方法研究

2012-05-11 00:45:24楊新鋒
微型電腦應用 2012年5期
關鍵詞:文本檢測

楊新鋒

0 引言

圖像識別是人工智能領域的重要分支,它利用光學系統或者其它成像系統來獲取圖像信息,然后利用計算機來處理這些外界獲取的大量的圖像信息,以代替人類完成圖像分類或辨識的任務。它所處理的對象的內容十分廣泛,具體地說這些對象可以是各種物體的黑白或彩色圖像、手寫字符、遙感圖像、聲波信號、X射線透視膠片、指紋圖案、空間物體投影等等。圖像識別廣泛應用于制造業、交通、郵政、天文氣象、資源勘探、公安、以及軍事等各行各業。

圖像中的文字是圖像內容的一個重要來源,數字圖像和視頻中的文本通常能給人們提供簡短而重要的信息,因此圖像文本識別在圖像識別領域占有重要的地位。

1 圖像文本識別概述

1.1 圖像文本識別的類別

從文本的產生方式來分,圖像文本可以分為人工文本和場景文本[1],人工文本是指人工加在圖像上的文本(比如電影里的字幕),場景文本是圖像上本身存在的文本(比如拍攝的交通圖像里的車牌),場景文本圖像具有較為復雜的背景,同時受光線和文本的字體、顏色、位置等因素影響較大,往往很難被檢測,只有準確的定位文本區域才能保證進一步的文本識別正確性。

從文本的載體來源來分,又可以分為靜態文本和動態文本,靜態文本是指存于硬存儲媒體里的單幀圖像中的文本(比如OCR,一些存于計算機中的圖片),動態文本則是變化的圖像序列(或者說是視頻流)中的文本。本質上說,動態文本是由一系列的靜態文本組成的,動態文本的識別是在靜態文本識別的基礎上的進一步發展,更有實時性以及自動化的要求。

2 圖像文本基本識別步驟

圖像文本的識別主要分6部分:(1)從媒體上獲取原始圖像;(2)對原始圖像做預處理;(3)檢測圖像中是否有符合要求的文本區,若有則從中定位并提取文本區;(4)對文本區進行處理,分割單字符;(5)提取單字符特征,進行識別;(6)將識別結果存儲。其中2-5步是圖像文本識別的關鍵步驟。

1.2 圖像文本識別目標定位

圖像文本識別的6個關鍵技術分別是文本的定位,單字符的分割以及字符的識別。文本定位的精確與否,直接影響著后續過程的進行。如果定位不準,例如:誤定位、定位范圍過大或定位范圍過小,都可能誤分割并導致識別的失敗,它是字符分割和識別的基礎,對整個系統的性能起著至關重要的作用,定位的準確程度決定著系統的識別率的高低。

定位過程是文本目標的檢測過程,就是將目標的準確位置從一幅圖像中找出并有效地提取出來。通常情況下,計算機實現的軟件系統對目標的檢測可稱為有導師的檢測,即對目標的定位之前都已經知道目標的特征,從目標特征的數學描述(比如目標的形狀描述,顏色描述等等)上出發來進行定位。

1.常見的定位方法

常見的定位方法有基于灰度圖像的文本定位方法和基于彩色圖像的文本定位方法。

(1)基于灰度圖像的文本定位[2]

絕大多數的定位算法都是基于灰度圖像的,待定位的文本有固有特征,這些特征主要有形狀特征,灰度變化特征和矢量量化特征。對應這3類重要的灰度圖特征,灰度圖像下的文本定位主要有3種方法:基于形狀特征的定位算法、基于灰度變化特征的定位算法和基于矢量量化的定位算法。

(2)基于彩色圖像的文本定位[3]

大部分的定位算法都是針對灰度圖像的,對于彩色圖像,相比于灰度圖像有著更多的信息量,因此也有很多定位算法是基于彩色圖像的。

通過色彩進行定位的算法,一般是目標的色彩特征比較明顯,而這種特征又容易獲取與區別。很多目標檢測都利用了目標的色彩特征,在圖像文本檢測中,彩色圖像中的文本定位主要有車牌的識別,道路警示標語的識別以及一些視頻幀里的文本信息提取過程等等。常用的基于彩色圖像的文本定位的方法有:彩色邊緣檢測方法[4]、HSV顏色空間色彩特征及紋理特征分析結合的方法以及神經網絡方法。

2 改進的定位方法

對面臨的采集環境基本可控,屬于固定背景下的識別系統,同時需要滿足實時處理識別要求的系統,可以選擇常用的速度較快的邊緣檢測投影算法。而設計系統時,考慮到一定的適應性,使之可以實現在較復雜背景下的以及文本本身質量不高的情況下的文本定位,因此在定位算法的選擇方面,可以采取基于形態學運算與輪廓檢測相結合的算法,其定位流程,如圖1所示:

圖1 定位過程流程

2.1 邊緣的檢測

直觀上,邊緣是一組相連的像素的集合,這些像素位于兩個區域的邊界上。本質上說,邊緣是一個局部的概念,而邊緣檢測可以理解為在局部對灰度不連續點進行的測量,或者說是對灰度值突變(或某種程度的漸變)的區域的檢測。

邊緣的特性是,在邊緣走向上,灰度值變化較小;在邊緣垂直走向上,灰度值變化較大。可以用梯度來描述某處像素值的變化程度,圖像邊緣點的梯度值在垂直于邊緣的方向上是最大的。通常都是根據邊緣的這一特性來進行邊緣檢測以及邊緣的走向。

常用的邊緣檢測方法有:差分、梯度邊緣檢測,Canny邊緣檢測,一些檢測算子有Roberts、Sobel、Prewitt、Laplace等邊緣檢測算子。

以下給出Canny邊緣檢測算法的步驟:

①用高斯濾波器平滑圖像;

②在x和y方向分別求一階導數,然后在組合為4個方向上的導數,這些方向導數達到局部最大值的點就是組成邊緣的候選點;

③對這些梯度幅值進行非極大值抑制,排除一些非邊緣點,得到細化的邊緣;

④通過高低閡值檢測得到邊緣圖像。

Canny邊緣檢測法是基于數學特性的最優邊緣檢測器,通過對信噪比和邊緣定位算法的結合,得到了最優邊緣,該方法廣泛應用于圖像處理和模式識別問題中。

2.2 二值化

形態學運算之前。需要對圖像進行二值化,灰度圖像的二值化是一個圖像分割的過程,分割的優劣程度在于能否準確的把目標與背景分割出來,而分割的依據是產生的閡值。閡值的確定方法一般分為3種:全局閡值法、局部閡值法、動態閡值法[5]。

①全局閡值法:全局閡值法對整張圖像獲得一個整體的閡值,并使用該閡值對圖像進行分割。當目標與背景的灰度直方圖呈現比較明顯的雙峰特性時,采用全局閡值法能得到很好的效果。而當圖像中光照不均勻或者噪聲較多時,其分割效果不很理想。常用的較經典的全局閡值法有最大嫡值法和Ostu方法。

②局部閡值法:局部閡值法通過將當前點的灰度與其周圍像素的灰度值特征相結合來確定閡值,這種方法能很好地處理光照不均勻的圖像,但其處理速度慢,并且對噪聲的處理并不恰當,常產生相反的分割效果。常用的經典局部閡值法有Bernsen法和Niblack法。

③動態閡值法:動態閡值法考慮的因素更多,一方面考慮當前點以及周圍像素點的灰度特征,另一方面還慮當前像素的位置,從而確定其自適應的閡值。動態閡值法能較好的處理噪聲的問題,但其算法復雜,運算過程緩慢,難滿足實時性的要求。

針對不同的情況,可以采用不同的二值化方法。

2.3 形態學的運算[6][7]

數學形態學最初是建立在集合論基礎上的代數系統,它提出了一套獨特的概念以及變換來描述圖像的基本特征。運用數學形態學運算從圖像中提取那些對表達以及描繪區域形狀有用處的圖像分量是它在圖像處理中的主要任務。

數學形態學的核心運算是擊中(Hit)與擊不中(Miss)變換(HMT)。由此衍生出四個基本形態學操作:膨脹操作(Dilation)、腐蝕操作(Erosion)、開操作(Opening)、閉操作(Close)。膨脹操作通常會將目標區域變大,將一些背景元素轉為目標區域,這么做的目的通常是是將一些斷裂連接起來,或者將一些空洞填補起來;腐蝕操作通常會使目標區域縮小,將一些目標點轉為背景點,這么做的目的通常是把二值圖里一些不相干的細節削弱或者消除掉,或者可以將粘連的兩個目標分開;開運算使對象的輪廓更平滑,同時打斷細小的粘連,消除細小的突出;閉運算使對象的輪廓更平滑,同時連通細小的間斷、填補細小的鴻溝,消除小的空隙,還能填補輪廓線中的斷裂。

2.4 矩化的運算[8]

形態學運算之后,采用了矩化運算。矩化運算的目標是一幅二值圖,所謂矩化就指的是將圖中的不規則連通域矩化,變成矩形的連通域,其目的是為了找到某一個連通域的最大矩形。矩化以后采用輪廓跟蹤來尋找矩形,再根據先驗知識判斷矩形區域是否符合要求。連續的斜長邊緣可能引起多區域粘連,所以在矩化運算之前先統計一下每行的白點數,設置一個閡值,白點總數小于此閡值的行可以將該行像素全部賦值為0。矩化運算算法可以描述為:

①讀入一幅二值圖;

②掃描圖像每個像素(可以不掃描四個邊緣上的像素),如果當前像素灰度值為255,而該像素上下左右四點所有灰度值都為0,則令該像素灰度值為0;若當前像素灰度值為O,且該像素上下左右四鄰像素灰度值之和至少大于510(至少存在2點灰度值為255),則令該像素灰度值為255;

③循環執行步驟②,例如設為100次循環,正常情況下矩化可以完成,使得所有不規則連通域變為矩形連通域。

2.5 輪廓形狀表示與目標篩選

圖像分割為不同的區域以后,對已經分割好的像素集通常有更好的表示和描述方法。基本上,表示一個區域有兩種方法(或兩種選擇):可以用其外部特性來表達區域(比如其邊界);或用其內部特性來表達(如組成區域的像素)。當關注的焦點集中于其形狀特性上時,可以選擇外部表示法;當其主要的焦點集中于內部性質時,則選擇內部表示法,比如顏色,紋理等。有時也可以內部跟外部特征都做選擇。

本文對經過形態學處理后的二值圖,再進行矩化運算,然后得到許多的矩形連通域,再對這些連通域進行外部特性表示,也就是將這些矩形的外輪廓表示出來,接著從這些外輪廓中依據先驗知識篩選要定位的目標。

此方法的使用范圍,在背景較簡單、邊緣較少的情況下,定位效率較高,在背景復雜,邊緣豐富的時候,定位效率低。

3 小結

在大多數字符識別任務里,字符區域的定位是要求最為苛刻的,是識別步驟里最為關鍵的一個步驟,定位質量的好壞直接影響整個系統的識別率,在復雜的情況下,這個問題就更加明顯。因此,在進行定位之前,盡量多的去除干擾因素顯得尤其重要,本文首先簡介了各種文本定位的方法,然后依據系統面對的問題,采取了數學形態學運算和輪廓跟蹤與依據先驗知識進行篩選的文本定位方法。

從定位結果來看,在背景相對簡單的情況下,能達到較好的定位效果;當背景較為復雜、圖像中邊緣豐富的情況下,定位的效果不理想。其中,干擾最為強烈的就是在文本周圍出現的非相關邊緣,此類邊緣多能造成字符區域與干擾區域形成粘連,使得無法定位。

[1]王君.數字字符檢測與識別方法研究[D].華中科技大學,2007.5:1.

[2]沈全鵬.基于數字圖像處理的車牌定位研究[D].廣東工業大學,2007.5:18-19.

[3]岳鵬.車牌定位識別關鍵算法的研究[D].西北大學,2010.6:12-13.

[4]張引,潘云.彩色汽車圖像牌照定位新方法[J].中國圖像圖形學報(A),2001.6(4):374-377.

[5]朱虹.數字圖像處理基礎[M].北京:科學出版社,2005.

[6]岡薩雷斯.數字圖像處理(第二版)[M].北京:電子工業出版社,2006:59-112.

[7]阮秋琦.數字圖象處理學[M].北京:電子工業出版社,2001:130.

[8]馮國進,顧國華.車牌自動定位與模糊識別算法[J].光電子激光,2003:750-752.

猜你喜歡
文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产在线欧美| av午夜福利一片免费看| 免费不卡在线观看av| 国产精品美女免费视频大全| 真实国产乱子伦高清| 美女内射视频WWW网站午夜| 四虎成人精品| 国产亚洲视频播放9000| 99视频在线免费| 亚洲不卡网| 国产地址二永久伊甸园| a网站在线观看| 99ri精品视频在线观看播放| 福利国产在线| 亚洲人成人伊人成综合网无码| 99一级毛片| 极品私人尤物在线精品首页| 国产真实自在自线免费精品| 国产www网站| 国产精品九九视频| 国产在线精品香蕉麻豆| 欧美日本中文| 国产菊爆视频在线观看| 中文字幕在线一区二区在线| 日韩在线视频网站| 欧美国产日本高清不卡| 天天爽免费视频| 国产大全韩国亚洲一区二区三区| 91在线激情在线观看| 四虎精品国产AV二区| 日本尹人综合香蕉在线观看| 亚洲系列无码专区偷窥无码| 波多野结衣国产精品| 另类重口100页在线播放| 国产乱人视频免费观看| 在线观看视频99| 欧洲精品视频在线观看| 最新无码专区超级碰碰碰| 玖玖精品视频在线观看| 国产一级α片| 国产亚洲男人的天堂在线观看| 欧美高清国产| 美女视频黄又黄又免费高清| 国产乱视频网站| 91口爆吞精国产对白第三集| 免费观看欧美性一级| 亚洲欧美色中文字幕| 一区二区三区国产精品视频| 国产人碰人摸人爱免费视频| 有专无码视频| 中文字幕免费视频| 麻豆精品久久久久久久99蜜桃| 亚洲va在线观看| 欧美精品另类| 精品三级网站| 99精品视频在线观看免费播放| 国产亚洲欧美在线人成aaaa| 久久久久无码精品| 伊人国产无码高清视频| 国产丰满大乳无码免费播放| AV不卡在线永久免费观看| 四虎影院国产| 女人18毛片久久| 久一在线视频| 四虎国产精品永久一区| 色偷偷综合网| 九九久久精品免费观看| 就去吻亚洲精品国产欧美| 日韩资源站| 性欧美久久| 日本人又色又爽的视频| 国产chinese男男gay视频网| 亚洲美女一区二区三区| 狠狠色噜噜狠狠狠狠奇米777 | 第一页亚洲| 国产va在线观看免费| 亚洲无码91视频| 国产精品久久久久鬼色| 99伊人精品| 久久性妇女精品免费| 欧美日韩精品在线播放| 国产91小视频|