999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然場景中文字定位系統(tǒng)研究綜述

2018-07-07 03:18:20季昊龍
山東化工 2018年11期
關鍵詞:文本區(qū)域方法

季昊龍

(中國刑事警察學院 聲像資料檢驗技術系,遼寧 沈陽 110035)

1 研究背景和意義

圖像逐步成為不可或缺的信息載體,這是由于智能手機等數碼產品的普及,使得圖像的產生越發(fā)容易。并且互聯(lián)網的普及,網民數量日益攀升,網絡成為圖片傳播的重要途徑,使得圖片的數量爆炸式增長。起初數字圖像處理重點處理圖像數據本身,如圖像的小波變換、壓縮、降噪等目的是提高圖像品質,降低儲存成本。現在圖像處理結合人工神經網絡、模糊邏輯等新理論方法,使圖像處理往更高層面發(fā)展,實現圖像處理的人工智能。

圖像含有大量內容,如人、建筑物以及文字等等。其中文字作為重要內容之一包含大量潛在關鍵信息。如馬路標識、店鋪名稱上面均含有文字,對于自然場景定位識別提供了重要線索。如圖1所示左邊是馬路標識,右邊是店鋪名稱。若實現對文字信息自動定位識別,則接下來可以用于圖片檢索、計算機視覺、自動巡航、無人汽車等,為人們生活提供便利。

圖1 馬路標識與店鋪名稱

2 自然場景文字定位技術研究現狀

2.1 自然場景文字定位特點

認知自然場景文字是在對文字所處環(huán)境限制少的情況下,對文字進行的定位和識別。先采集圖像,得到圖像后再進行定位、分析,達到識別的目的。自然場景圖像文字與傳統(tǒng)掃描文檔的文字相比,具有表1所示的特點。

表1 自然場景圖像文字與傳統(tǒng)掃描文檔的文字特點對比

圖2 背景復雜條件

圖3 易受環(huán)境因素影響條件

圖4 文字樣式不統(tǒng)一

2.2 文字定位技術研究現狀

在文字定位中OCR應用較普及,對于字符完整、背景單一的規(guī)則文字識別率高,但對有大量噪聲、形狀雜亂無章的文字識別率低。通過OCR測試,在任意的PDF文檔里選100個文字塊,識別準確率為97%。而用OCR識別自然場景圖片的文字,該甚至無法區(qū)別非文字區(qū)域和文字區(qū)域,需要事先優(yōu)化,才能將自然場景的文字轉換成可被OCR識別的字符。因此,文字定位系統(tǒng)的性能十分重要,目前定位算法不具普適性,需迫切提高算法性能。正因為自然場景文字定位具有定位價值,大量研究機構致力開發(fā)有效的文字定位系統(tǒng),代表性的有國際文檔分析和識別大會(ICDAR)文字比賽[1]。2017年舉行的ICDAR的中文檢測和識別比賽項目(RCTW)比賽包含兩項任務,分為end-to-end文本識別和文本檢測。文本檢測以PR曲線、mAP、ROC曲線、F-score為評價標準。

PR曲線:該曲線是以查準率(P)為縱坐標,以查全率(R)為橫坐標。P關心的是正、反例子挑選出正例的問題。R關心的是正例挑選出正例的問題。

mAP:每種類別均可繪制PR曲線,X軸與曲線下方之間的面積稱為AP,對AP再求mean,就是mAP。

ROC曲線:曲線的坐標分為假正例率(FPR)與真正例率(TPR)。

F-score:PR曲線中R和P兩個指標。

競賽前五名如表2所示。

表 2 競賽前五名信息

3 自然場景文字定位方法

自然場景文字定位的方法分為基于紋理特征方法、基于連通域分析方法和基于邊緣特征方法。

3.1 基于紋理特征的文本定位方法

對圖像的像素灰度級分布模式的表現被稱為紋理,紋理能反映物品粗糙程度、顆粒程度、光滑程度等質地。背景不具備紋理特征,而文字可以看做是具有特殊性的紋理,所以背景區(qū)域和紋理區(qū)域的分離可以利用基于紋理特征的方法。下面是表示圖像紋理的方法。

3.1.1 頻譜分析法

頻譜分析法是以傅里葉變換為基礎,根據傅里葉變換的波谷、波峰的分布對圖像進行分類。常用的參量有峰值的幅度、數量、峰值與峰值間的相差角、距離等。

3.1.2 統(tǒng)計分析法

統(tǒng)計分析法有紋理邊緣、自回歸模型、自相關函數、灰度空間共生概率等。

3.1.3 結構分析法

結構方法主要研究基元。基元是一種單元集合,這種單元集合因具有某種屬性(連通域的灰度、形狀),彼此相鄰。基元的空間關系包括基元的最近間隔和相鄰性等[2]。

基于紋理特征的方法對圖像中文字區(qū)域進行文字信息提取,首先對圖像的紋理特征進行檢測,常用傅里葉變換、小波變換等,然后利用窗口掃描并分析該窗口是否含有文本,當窗口內含有文本時得到候選文本區(qū)塊,然后使用金字塔對字符大小不一的情況進行分解,最后把候選文本區(qū)還原到原圖像進行合并[3]。如使用窗口遍歷圖像,并在窗口圖像中提取紋理特征分別為窗口內邊緣點的數量、提取窗口內梯度的均值、提取窗口內圖像邊緣點的直方圖以及提取窗口內梯度的方差。再從得到的這幾類紋理特征中利用信息熵選取出更有效的特征分類子窗口。Mao等人針對圖像含有混合文本的檢測,提出多尺度紋理分析的方法。先對圖像進行小波變換,計算圖像局部能量差異,非文本區(qū)域局部能量差異小,文本區(qū)域局部能量差異大。對差異圖二值化處理并連通域分析,得到候選文本區(qū)域將非文本區(qū)域排除。

基于紋理的方法能得到較高的檢測率,對于字符大小的尺寸不敏感。但該方法要先計算圖像紋理特征,當遇到與文字紋理特征相似的圖像時,易受干擾。并且計算過程中需要卷積運算,計算復雜,耗時長。

3.2 基于連通域分析的文本定位方法

該方法利用場景圖片中同一區(qū)域文本色彩相似,寬高大小比相似,字符與背景有較高的對比度且邊緣明顯的特性。采用二值化分割或顏色聚類得到連通區(qū)域,把得到的連通區(qū)域當做文本候選區(qū)域,利用連通域大小、字符覆蓋率等先驗知識為限制條件對上述的連通區(qū)域進行篩選。最終將非文本區(qū)域去除從而得到文本區(qū)域。但是自然場景圖像中,顏色相對復雜,對分割的影響較大,可能會出現一個字符被分割到不同的連通區(qū)域中,與可能會出現字符和背景被分割到一個區(qū)域的情況。研究人員對此進行相應的改進,例如:在檢測自然場景中任意字符串的時候。Yi利用顏色均勻性和局部梯度特性首先對自然場景的圖像進行分割,然后在分割好的圖像中找到含有文本字符的區(qū)域作為字符的候選區(qū)域[4]。依據文本字符大小差異、字符對齊以及字符與字符間距等結構特征,在候選區(qū)中合并候選字符。并假設三個及三個以上的字符組成一個文本字符串,他們提出檢測字符串的兩種算法:一是文本行合并法,文本行合并法通過霍夫變換使文本行在候選區(qū)的中心處,表示出潛在的字符串方向。該算法提高了準確性和效率,二是相鄰字符合并法。該方法的字符串片段是依靠計算字符的相鄰候選區(qū)得到,得到字符串片段后再對其進行交叉合并從而得到文本字符串。

對于雜志、新聞圖像上的文本,Soo-chang Pei提出一種新方法來進行檢測。首先對需要處理的圖像進行彩色量化得到柱狀圖,挑出幾種候選顏色。然后設置閾值對選出的顏色進行二值化,得到二值化圖像。再對二值子圖像進行邊緣檢測、連通域分析得到文本區(qū)域,該算法誤報率低[5]。

以上兩種基于顏色特征進行連通域分析法,在需要處理的圖像有噪聲或圖像中文本尺寸、方向變化的情況下,表現出較好的性能,適合根據圖像內容進行檢索的圖像系統(tǒng)。

3.3 基于邊緣特征的文本定位方法

因為自然場景圖片中背景與字符對比度較高,字符的邊緣信息十分豐富,像素灰度值的變化很大,兩者之間邊緣明顯,適用于計算機辨別自然場景圖像中的文字。基于邊緣特征的文本定位方法依據圖像中豐富的字符邊緣信息進行檢測。常用的邊緣檢測算子如表3所示。

表3 常用的邊緣檢測算子

對于自然場景圖片進行基于邊緣特征文本定位時,灰度化處理待處理圖片,得到灰度圖像后通過邊緣檢測定位文字區(qū)域。例如:Hasan提出使用形態(tài)學技術的辦法,待處理圖片進行灰度化處理并獲得對應的邊緣圖,然后利用形態(tài)學運算對邊緣圖進行噪聲過濾、連接邊緣,最后根據顏色相似性進行文本檢驗。該方法受到傾斜、文字方向、噪聲的干擾小。但如果在自然場景圖像中背景與文本色彩差異很大,圖像灰度化處理后兩者的灰度值差異很小的情況,該方法無法有效處理。Smith提出先對圖像利用差分濾波器進行過濾,得到文字垂直邊緣特征,之后對文字的相鄰連接邊緣、小邊緣進行過濾,即可定位到文本區(qū)域 Agnihotri提出一種對視頻中的文本進行定位方法,該方法流程如下:

Min Cai提出了一種利用邊緣密度、強度、水平分布等特征不變進行檢測的辦法[6]。先提取圖像邊緣并設定閾值對圖像中非文本邊緣進行過濾,設定閾值對比度低的文本進行保持,而復雜且對比度高的文本進行簡化。利用增強算子強調邊緣密度高、強度高的區(qū)域。最后定位含有文本的區(qū)域。

上述利用邊緣檢測進行文本定位,速度快,時間復雜性低。適用于簡單背景且文本有豐富的邊緣信息的定位,但當背景復雜時,會檢測出大量非文本,虛警率比較高。

4 總結

自然場景圖片中文字區(qū)域繁雜多樣,字符特征隨之變化。自然場景文字的定位方法對于不同類型的文本文字需要選擇性。一種文字定位方法對于特定的文本具有良好的定位效果,但對于其他類型的文本無法進行有效定位。并且在自然場景中背景復雜,光照不均勻,文字的大小、樣式、排列方式的不統(tǒng)一使得文本問題具有隨機性、多樣性以及挑戰(zhàn)性。由此可見僅僅選用某一類處理方法和特征并不能取得良好的效果,現在都是基于多種方法和特征的組合利用進行有效定位。

5 展望

目前文字識別系統(tǒng)商業(yè)化的發(fā)展受到自然場景中文字定位系統(tǒng)的制約,國內外大量的研究機構和人員力求開發(fā)出高識別性、高魯棒性、高準確性、高召回率的文字識別定位系統(tǒng)。人工智能的利用配合多方法結合和全方位分析稱為自然場景文字定位系統(tǒng)的發(fā)展潮流。智能手機的迅速發(fā)展及廣泛應用也對文字定位系統(tǒng)的運行速度等方面提出了新要求。隨著人們對于技術探索的不斷深入和人工智能的快速發(fā)展,我們期待在

未來自然場景中文字定位技術一定會有巨大的飛躍。

[1]王 煒.基于角點和顏色的自然場景文字定位技術研究[D].西安:西安電子科技大學,2011.

[2]周 易.基于關聯(lián)規(guī)則挖掘的圖像檢索[J].軟件,2012,33(4):28-30.

[3]陳 森.自然場景圖像中的文本定位方法及應用研究[D].廣州:華南理工大學,2011.

[4]柏宏飛.場景圖像文字提取方法研究與應用[D].上海:復旦大學,2009.

[5]歐文武,朱軍民,劉昌平.自然場景文本定位[J].中文信息學報,2004,18(5):42-47.

[6]王 毅.基于內容的新聞視頻摘要技術研究[D].鄭州:解放軍信息工程大學,2010.

猜你喜歡
文本區(qū)域方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關于四色猜想
分區(qū)域
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于嚴重區(qū)域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国内精自线i品一区202| 国产一区二区影院| 亚洲丝袜中文字幕| 国产成人精彩在线视频50| 亚洲成人精品久久| 国产日本视频91| 久久美女精品| 99久久精品国产麻豆婷婷| 91成人免费观看在线观看| 中文国产成人精品久久一| 99精品视频九九精品| 国产h视频免费观看| 亚洲熟女中文字幕男人总站| 欧美日韩中文国产va另类| 欧美三级视频在线播放| 青草娱乐极品免费视频| 在线看片中文字幕| 456亚洲人成高清在线| 五月天丁香婷婷综合久久| 18禁影院亚洲专区| 婷婷伊人久久| 97视频精品全国免费观看| 亚洲欧美在线综合一区二区三区 | 亚洲天堂视频网| 亚洲成人免费看| 四虎永久免费在线| 国产激情无码一区二区三区免费| 亚亚洲乱码一二三四区| 亚洲精品视频免费看| 在线中文字幕日韩| 国产成人禁片在线观看| 久久亚洲日本不卡一区二区| 五月六月伊人狠狠丁香网| 成人一区专区在线观看| 国产成人1024精品| 刘亦菲一区二区在线观看| 日韩经典精品无码一区二区| 有专无码视频| 91麻豆精品视频| 精品国产亚洲人成在线| 日韩精品毛片| 国产一级片网址| 欧美亚洲一二三区| 久青草国产高清在线视频| 免费一级毛片在线播放傲雪网| 欧美精品影院| 中文字幕首页系列人妻| 国产综合在线观看视频| 国产亚洲现在一区二区中文| 亚洲av无码久久无遮挡| 日韩黄色在线| 91破解版在线亚洲| 18黑白丝水手服自慰喷水网站| 动漫精品啪啪一区二区三区| 2022精品国偷自产免费观看| 国产剧情一区二区| 丁香婷婷激情网| 欧美另类图片视频无弹跳第一页| 欧日韩在线不卡视频| 亚洲天堂2014| 国产爽爽视频| 国产九九精品视频| 91热爆在线| 992Tv视频国产精品| 国内精品伊人久久久久7777人| 女同国产精品一区二区| 一级爱做片免费观看久久| 欧美一级夜夜爽| 美女无遮挡免费视频网站| 九九九久久国产精品| 国产老女人精品免费视频| 亚洲国产成人无码AV在线影院L| 波多野结衣一区二区三区四区视频| 无码日韩人妻精品久久蜜桃| 天天躁狠狠躁| 超清人妻系列无码专区| 亚洲天堂精品视频| 99成人在线观看| 欧美日一级片| 欧美精品不卡| 久草热视频在线| 中文天堂在线视频|