999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于色彩空間的最大穩定極值區域的自然場景文本檢測

2018-03-20 00:43:05范一華鄧德祥
計算機應用 2018年1期
關鍵詞:文本區域檢測

范一華,鄧德祥,顏 佳

(武漢大學 電子信息學院,武漢 430072)(*通信作者電子郵箱ddx_dsp@163.com)

0 引言

近幾年來,文本檢測已經成為計算機視覺研究的熱點。作為人類想法和表達方式的承載體,自然場景中的文本例如廣告牌、路標等包含豐富的有價值的信息,這些信息極大地方便了大家的生活,并且為商業帶來巨大的利益。文本檢測被廣泛地應用在圖像檢索和人機交互等領域,因此,自然場景中的文本檢測的研究不可避免地成為研究的趨勢,如何設計一個健壯的文本檢測算法是一個亟待解決的問題。

文本檢測最常用的兩個方法是基于滑動窗口[1-2]的方法和基于連通域分析[3-6]的方法。基于滑動窗口的方法可以實現很高的召回率,但是需要多種尺寸的窗口在整幅圖像移動,窮舉的搜索增加了計算復雜度,并且會產生大量的錯誤候選區域,此方法的檢測率和實時性都不能滿足目前的需求。基于連通域分析的方法是通過連通域分析提取字符候選區域,然后采用分類器篩選非字符區域,最后將字符整合成文本行。筆畫寬度變換(Stroke Width Transform, SWT)[7]和最大穩定極值區域(Maximally Stable Extremal Region, MSER)[6]是最常用的連通域分析的方法。最近幾年,MSER由于尺度旋轉不變性、仿射不變性的優勢被廣泛地應用于文本檢測,成為文本檢測的主流方法;但是,目前基于MSER的自然場景文本區域檢測的方法仍然存在無法提取低對比度圖像文本區域的缺陷,主要原因有以下兩個方面。

首先,自然場景的圖像容易受到光照、外部環境和噪聲的影響,MSER抗污跡和抗噪聲的能力較弱,從而導致檢測出的文本區域出現粘連現象。為了解決這個問題,Chen等[3]移除邊界外的像素,結合MSER與Canny邊緣檢測提取小區域,此方法可以有效地提高圖像的邊緣對比度;但是噪聲的邊緣也被增強,加大了篩選正確的字符候選區域的難度。Yin等[8-9]提出修剪MSER造成的重復的區域,使其能夠檢測任意方向的文本,這增強了文本檢測的魯棒性,但是并沒有解決低對比度圖像不能被提取文本區域的問題。Forssen等[10]結合MSER與尺度不變特征變換(Scale Invariant Feature Transform, SIFT)來增強MSER對復雜圖像的魯棒性,但是算法復雜度較高,不利于系統的實時性。為了有效地增強文本區域與背景的對比度而同時不增大噪聲的對比度,本文充分利用方向梯度直方圖(Histogram of Oriented Gradients, HOG)增強圖像的邊緣信息,以此提高MSER的魯棒性。

其次,大多數的MSER方法都是在灰度通道進行處理,而忽略了顏色信息。彩色圖像轉換成灰度圖像時,丟失了顏色和紋理信息,極大地影響系統的性能。最近的一些研究也逐漸地把目光轉移到色彩空間,Neumann等[11]使用RGB和HSI(Hue-Saturation-Intensity)空間提取文本候選區域,這個系統對噪聲穩定并在一定的程度上解決了低分辨率的字符不能被提取的問題,但是此方法采取6個顏色通道提取文本區域,導致檢測出的文本區域重復,并且耗時較多,降低了算法的實時性。唐有寶等[12]在RGB、HSI色彩空間進行多閾值MSER區域檢測,此方法取得了較好的結果,但是在6個顏色通道利用兩個閾值提取MSER,時間復雜度過高,不利于系統的實時性。HSI空間是更符合人類視覺的顏色空間,色域較廣,并且顏色和亮度相互獨立,因此本文選擇在HSI空間利用改進的MSER方法提取文本候選區域。

隨著神經網絡在計算機視覺中的成功應用,大多數學者將MSER與神經網絡結合,并取得了較好的效果。唐有寶等[12]利用MSER提取文本候選區域,通過神經網絡進行分類,使F指標在ICDAR (International Conference on Document Analysis and Recognition) 2011等數據集上達到了79%。李鑒鴻[13]利用Canny算子增強邊緣信息提取MSER,并將預處理得到的MSER區域作為卷積神經網絡的輸入,最終在ICDAR 2011數據集實現了字符定位正確率為81%;但李鑒鴻[13]沒有將字符整合成文本行,無法驗證文本檢測的召回率。神經網絡的應用極大地提高了自然場景的文本檢測率;但是它的算法復雜度過高,不利于系統的實時性。而本文提出的貝葉斯模型算法復雜度低,三個特征具有平移旋轉不變性,訓練得到的模型對字符分類的穩定性較高。MSER與貝葉斯模型的結合在提高系統性能的同時也提高了系統的實時性,因此本文提出的算法對未來文本檢測的研究有一定的借鑒意義。

綜上所述,本文在顏色空間充分利用HOG算子改進MSER,并使用貝葉斯分類器進行字符的篩選,最終能夠很好地解決低對比度、背景復雜的圖像不能被檢測出文本的問題,從而提高系統的檢測率和實時性。整個系統在兩個公共數據集ICDAR 2003[14]和ICDAR 2013[15]進行測試,實驗結果表明,召回率和檢測率相對于傳統的MSER方法都有所提升,因此本文提出的基于色彩空間的邊緣增強的MSER文本檢測方法對于自然場景的文本檢測具有一定的有效性。

1 自然場景文本檢測流程

本文提出的基于色彩空間的MSER的文本檢測的方法主要分為以下三個步驟:提取字符候選區域,篩選非字符,整合成文本行。算法的整體流程如圖1所示。首先,利用HOG算子增強圖像邊緣信息,并在H、S、I三個顏色通道提取文本候選區域;其次,將筆畫寬度[7]、邊緣梯度方向[15]、拐角點[11]這三個特征送入貝葉斯系統中篩選出非字符區域;最后,將濾波后的字符區域整合成文本行。

圖1 算法整體流程

2 提取字符候選區域

2.1 基于邊緣增強的最大穩定極值區域

MSER首次被Matas等[6]提出,MSER的數學表達式如下:

qi=|Qi+Δ-Qi-Δ|/|Qi|

(1)

其中:Qi代表閾值為i時所求的極值區域;Δ是灰度閾值的變化量,通過對訓練集進行不同閾值變化量的MSER候選區域檢測,發現Δ太小會出現大量的極值區域,Δ太大會導致小區域無法被檢測出來,本文將Δ設置為10能夠獲得較好的文本候選區域;qi代表閾值為i時,極值區域的變化率,當qi達到最小值時,則Qi為最大極值區域。

MSER對于抗污跡和抗噪聲的能力較弱,這個弱勢使MSER無法成功地從低對比度圖像中檢測出文本,如圖2所示,原始的MSER方法檢測出的文本區域可能會出現粘連現象。考慮用增強邊緣信息的方法來增大圖像的對比度。最簡單的方法就是利用Canny算子提取圖像的邊緣信息,然后將這些邊緣點所對應的像素值相應地增大或者減小。雖然此方法在一定的程度上提高了邊緣對比度;但是處理時忽略了邊緣的梯度信息,不重要的邊緣(比如噪聲)也被增強,導致圖像有較小的失真(如圖3所示),影響MSER的性能。從視覺角度上分析,由于顏色和對比度信息,一般自然場景圖像的文本區域是最引人注目的,因此文本邊緣區域的梯度值較大,這一特性使本文方法可以有效地增強文本區域的對比度而減少噪聲的影響,從而提高文本檢測的準確率。為了更好地利用原圖像的信息,采用HOG算子提取圖像的梯度信息,利用梯度值重新構建圖像,計算式如下:

I原圖像=I原圖像±λ▽I原圖像

(2)

其中:I原圖像代表將要處理的圖像;▽I原圖像代表I原圖像的梯度;λ是調節像素大小的參數;±分別代表亮背景暗區域和暗背景亮區域。

圖2 原始的MSER與改進后的MSER比較

圖3 利用Canny算子和本文算法的邊緣增強效果對比

2.2 色彩空間的最大穩定極值區域

顏色和對比度在視覺感知中占據著舉足輕重的地位,自然場景中的文本往往都是通過顏色和對比度信息被人們捕捉到。目前大多數的圖像處理集中在灰度通道實現相關的算法,而忽略了包含大量有價值信息的顏色通道。對于背景復雜的圖像,灰度通道上的文本區域與背景之間的對比度不夠明顯,導致無法利用MSER正確地提取文本候選區域,而觀察顏色通道上的圖像,可能會有清晰的對比度,能夠幫助正確地提取文本區域,因此本文充分利用色彩空間加強文本候選區域的提取。

顏色空間的選擇對字符候選區域的提取也有著顯著的影響。一些常用的顏色空間包含RGB、HSI和Lab色彩空間。顏色和亮度在RGB顏色空間相互關聯;但在HSI和Lab顏色空間相互獨立,從理論上分析,RGB顏色空間的文本檢測結果不如HSI和Lab色彩空間。HSI色彩空間更符合人類的視覺效果,它在業界是更常用的一種色彩空間,并且色域足夠廣,因此選擇在H、S、I三個通道分別提取最大穩定極值區域來獲得文本候選區域。圖4展示了本文在HSI空間提取文本候選區域的結果。其中:MSER+代表深色背景淺色區域的圖像檢測結果;MSER-代表淺色背景深色區域的圖像檢測結果。通過MSER+和MSER-可以更多地提取圖像的最大穩定極值區域。

從圖4中可以看出,對于背景復雜的圖像,在H、S、I三個通道共同采用本文改進的MSER方法,能夠很好地提取文本候選區域,從而可以實現較高的召回率,提高系統的性能。

此外本文對原始的MSER方法、基于Canny算子增強MSER的方法和本文提出的基于HOG算子增強MSER的方法分別在灰度通道和色彩通道作文本檢測的實驗,所用的數據集是ICDAR 2013。實驗結果如表1所示,從表1得到,本文提出的方法優于原始的MSER方法和基于Canny增強的MSER方法,能夠有效地提高文本檢測的召回率和檢測率(f-measure),而對HSI顏色空間的利用可以獲得更好的文本檢測率。

3 篩選非字符區域

從視覺角度上看,在一幅圖像上,文本區域更具有顯著性,它們具有自己單獨的特征。本文結合筆畫寬度、邊緣梯度方向和拐角點這三個特征從候選區域中篩選出正確的字符。與其他分類器不同的是,本文采用貝葉斯模型進行分類。

3.1 筆畫寬度

筆畫寬度(Stroke Width, SW)是文字的一個標志性特征,被廣泛地應用于文本檢測。首次被Epshtein等[7]提出,筆畫邊緣上總有兩點的梯度方向相反,這兩點之間的距離就是這兩點的筆畫寬度值。如圖5所示,字符的筆畫寬度一般來說都是比較穩定均勻的,而非字符的筆畫寬度變化是不均勻的。將SW的貝葉斯模型定義為下邊的形式:

(3)

其中:E(r)和var(r)分別區域r的筆畫寬度的均值和方差。與非字符區域相比,字符區域的SW(r)值相對較小。

圖4 HSI色彩空間的MSER結果

Tab. 1 Detection results comparison of three methods on different channels (ICDAR 2013 dataset)

圖5 字符與非字符的筆畫寬度對比

3.2 邊緣梯度方向

方向梯度直方圖特征(HOG)[16]對圖像幾何和光學的形變都能保持不變性。圖6展示了字符的梯度方向分布圖,把邊緣點的梯度方向定義成四個區間[17]。

區間1 0<θ≤π/4或者7π/4<θ≤2π。

區間2 π/4<θ≤3π/4。

區間3 3π/4<θ≤5π/4。

區間4 5π/4<θ≤7π/4。

其中:1、2、3、4分別代表對應的四個區間,對于字符來說,位于區間1和區間3的邊緣點數基本相同,區間2和區間4也如此,因此定義HOG的貝葉斯模型如下:

HOG(r)=(|num1(r)-num3(r)|+

(4)

圖6 字符的邊緣梯度方向分布

3.3 字符的拐角點

一個字符通常只有有限個拐角點,而非字符可能有非常多的拐角點。拐角點特征具有旋轉、平移、尺度不變性。在本文,將這個特征的貝葉斯模型定義為以下形式:

(5)

其中:cornernum(r)代表在區域r內拐角點的個數;edgenum(r)表示在區域r內邊緣的點數。Corner(r)越小,這個區域是字符的可能性越大。

3.4 貝葉斯多個模型的融合

假設SW、HOG、字符邊界拐角點這三個特征之間是相互獨立的,根據貝葉斯理論,知道一個區域是字符的后驗概率[17]可以由以下計算式進行計算:

(6)

其中:Ω={SW,HOG,拐角點};p(c)和p(b)分別表示字符和非字符的先驗概率。通過正樣本和負樣本來定義似然函數p(cue/c)和p(cue/b),其中正樣本和負樣本來自ICDAR 2013自然場景文本分割的訓練集。這個訓練集擁有像素級的人為標注,包含229張可供訓練的自然場景的圖像,在本文的實驗中,選擇159張作為訓練,剩余的70張作為測試集用來評估模型。

3.5 貝葉斯分類與SVM分類

為了證明本文提出的貝葉斯模型的有效性和穩定性,分別做10組實驗比較貝葉斯分類與支持向量機(Support Vector Machine, SVM)分類的性能。其中第一組隨機選取129張作為訓練,剩下的100張作為測試;第二組隨機選取169張作為訓練,剩下的60張作為測試;剩下的8組分別隨機選取159張作為訓練,剩余的70張作為測試。10組訓練數據保證每組與每組的樣本不完全重合,貝葉斯模型利用上述的三個特征模型計算候選區域屬于字符的概率。SVM分類首先要對候選區域進行預處理,歸一化為32×32大小,然后提取HOG特征。最終的分類結果如圖7所示。在10組實驗中,本文提出的貝葉斯模型篩選字符的召回率基本保持穩定,并且相比SVM分類有較高的召回率,能夠更好地篩選出字符區域。這是因為自然場景中的字符是各式各樣的,貝葉斯模型采用的這三個特征具有平移旋轉不變形,對字符的形狀、拉伸、大小均無嚴格要求,無需對候選區域進行預處理,從而提高了系統分類的魯棒性,而SVM分類對訓練集要求較為嚴格,在樣本量較少的情況下,訓練集很難包含所有的字符形狀,從而出現誤判的問題。

圖7 貝葉斯與SVM對候選字符區域分類結果

4 整合字符成文本行

本章的目的是將濾波后的字符區域整合成文本行。利用字符的幾何特性寬、高、面積、字符之間的距離來判斷字符是否在同一行。定義區域R={R1,R2,…,Rp,…,RQ},Q=charnum;charnum為最終留下來的字符個數,其中Rp,Rq∈R;p,q∈charnum。

1)區域Rp和Rq的寬和高大小相似。

(7)

2)區域Rp和Rq的中心點水平距離小于Rp和Rq的寬度的平均值的3倍;中心點的垂直距離小于Rp和Rq的高度的平均值的1/2。

多個檢測結果的融合如下。

本文在HSI空間利用改進后的MSER來提取文本候選區域,最終的文本定位分別由H、S、I三個通道的MSER+和MSER-檢測結果共同組成,多個檢測結果會出現重復的文本框,簡單地將這些結果疊加會降低文本的檢測率。Rp={leftp,upp,rightp,downp},定義文本框與文本框之間的關系有3種:相交、包含、獨立。當兩個區域呈相交的關系時,本文合并這兩個區域,分別取兩個區域的左邊的最小值、右邊的最大值為新區域的左邊值和右邊值,即leftnew=min(leftp,leftq),rightnew=max(rightp,rightq);對上邊值和下邊值做相同的處理同樣的處理。當兩個區域呈包含關系時,如果兩個區域的寬(高)之差小于最大寬(高)的1/5,剔除掉小區域;當兩個區域呈完全獨立的關系時,認為這兩個區域是檢測的不同的文本區域。

5 實驗結果與分析

本文的實驗環境是Windows 7、64位系統、Intel i5處理器、Matlab R2016a平臺。為了評價算法的性能,系統在最常用的兩個公共數據集ICDAR 2003和ICDAR 2013進行測試。其中ICDAR 2003包含258張圖像用于訓練,251張圖像供測試;ICDAR 2013包含229張圖像用于訓練,233張圖像用于測試。ICDAR 2013有專門的網上評價性能系統,將每幅圖像的檢測結果按照左、上、右、下的順序以txt的格式存儲文本區域的坐標,最終將233張圖像的txt壓縮上傳至評估平臺,即可得到精確率和召回率。

ICDAR 2003沒有網上評估系統,通過匹配所檢測區域的文本框與標準框之間的最大相似度獲得召回率和精確率。首先定義:

m(t;T)=max{mp(t:t1)/t1∈T}

其中:m(t;T)代表矩形框t與標準框T的最大相似度。

召回率和精確率定義如下:

(8)

(9)

(10)

其中:G代表的是標準框的集合;E是本系統文本檢測的結果;f-measure用來綜合評價召回率和精確率;β代表召回率和精確率所占的權重。

5.1 實驗結果比較與分析

本文方法對ICDAR 2013和ICDAR 2003兩個數據集的測試結果如表2所示。針對最近幾年基于MSER的文本檢測方法進行效果比較。從表2中可以看到,唐有寶等[12]檢測率、精確率、召回率是最好的,采用在RGB、HSI色彩空間進行多閾值MSER區域檢測,在RGB、HSI、Lab九個色彩空間提取顏色特征并送入神經網絡進行分類,雖然實現了較高的檢測率;但是算法復雜度過高,耗費時間較長,在提升文本檢測率的同時降低了系統的實時性。Turki[4]采用索貝爾算子(Sobel operator, Sobel)進行邊緣增強,并在Y顏色通道提取MSER,此方法雖然也利用顏色空間和增強對比度提升MSER的性能,但是如前邊2.1節所述,單純地利用邊緣檢測增強邊緣信息會導致不感興趣的區域對比度也增加,從而影響文本檢測的精確率。Ren等[18]采用神經網絡的方法進行文本檢測,Neumann等[11]同樣在RGB、HSI空間利用MSER提取候選區域,但是效果都差于本文效果。對ICDAR 2013數據庫,本文方法在HSI空間的召回率達到71%,低于唐有寶等[12]算法結果4個百分點,但是本文算法不涉及復雜的卷積操作,系統實時性優于唐有寶等[12]算法。通過實驗結果可以獲得,本文提出的算法優于其他類似基于色彩空間和MSER提取文本區域的方法。

表2中,在ICDAR 2003數據集的結果對比中:張國和等[19]將MSER與SWT相結合提取文本區域;楊磊[20]采用在色彩空間基于均值漂移的圖像分割的方法,選取HOG和局部二值模式特征(Local Binary Pattern, LBP)送入AdaBoost分類器篩選字符區域;Neumann等[21]采用MSER獲取文本候選區域;Chen等[3]結合MSER與Canny邊緣檢測提取文本候選區域。可以很清晰地看到本文算法優于其他競爭算法,實現了最高的召回率,f-measure也達到了最高。

綜合上述的主觀分析和客觀實驗結果可知,本文的召回率的提升正是由于利用文本區域的梯度值高于其他區域這一特性來改進MSER,將改進后的MSER應用到色彩空間,可充分利用顏色和梯度信息來解決背景復雜、低對比度的圖像無法提取文本候選區域的問題。貝葉斯分類方法保證了字符分類的精確率,從而提升f-measure。與此同時,本文方法的精確率略低于其他競爭的算法,精確率較低的原因是本文將多個通道的文本檢測結果進行融合,這些檢測結果會產生多個重復的文本框,雖然字符分類的召回率較高,但是最終形成的重復的文本行降低了文本檢測的精確率。圖8展示了本文系統對數據集ICDAR 2013和ICDAR 2003進行文本檢測的一部分結果。

表2 本文算法與其他競爭算法在不同數據庫的檢測結果對比

圖8 本文方法對不同數據庫中的部分檢測結果

5.2 算法復雜度分析

本文的算法復雜度主要涉及提取最大穩定極值區域和篩選候選區域兩大部分。其中,篩選文本候選區域采用的是貝葉斯模型,無需進行卷積操作,主要是對候選區域提取3個特征,求取筆畫寬度、邊緣梯度方向、拐角點只需要對區域內每個像素進行操作,因此時間復雜度為O(n),其中n為候選區域所包含的像素總數。最大穩定極值區域的復雜度為O(Nlog logN),MSER是對按照閾值從小到大和從大到小檢測極值區域,因此每個通道提取最大穩定極值區域的算法復雜度為O(2Nlog logN),其中N為原圖像的像素總數。

為了直觀地證明系統既可以實現較高的檢測率,又可以實現較好的實時性,在RGB、HSI空間分別做實驗觀察運行一幅圖像消耗的時間。如表3所示,系統在RGB通道上的檢測結果差于HSI通道的檢測結果,這與本文所分析的一致,RGB通道的亮度和顏色相關,不能使系統達到較好的效果。系統在RGB和HSI六個通道上的文本檢測實現了最高的檢測率,處理一幅圖像的平均時間是25 ms,在HSI空間上召回率達到了71%,低于最好結果2個百分點,但是處理一幅圖像的時間減少了一半,因此在HSI空間提取文本候選區域可以同時兼顧系統的檢測率和實時性。

表3 本文算法在RGB、HSI空間的檢測結果(數據集ICDAR 2013)

6 結語

本文針對MSER不能檢測低對比度、背景復雜的圖像文本區域的問題,提出了一種基于色彩空間的邊緣增強的MSER自然場景文本檢測算法。大多數的邊緣增強的方法會同時增加文本區域與噪聲的對比度,本文從全新的角度思考利用方向梯度值來減小噪聲的影響,再利用色彩空間提取出更多感興趣的候選區域;本文提出的三個特征具有平移旋轉不變性,貝葉斯分類算法簡單并對字符分類有一定的精確性和魯棒性。實驗結果表明,本文所提出的方法既實現了較高的檢測率又有一定的實用性;但本文算法也存在一定的缺陷,如:對于一些在顏色空間對比度不明顯的圖像,即使利用HOG算子增強對比度,也不能獲得理想的結果;將字符組合成文本行的方法過于簡單,容易形成重復的文本行,導致在字符分類精確率很高的情況下得到很低的文本檢測精確率。隨著神經網絡的發展,將傳統方法與神經網絡結合是一個發展方向,后期,我們將集中研究如何將本文提出的邊緣增強的MSER和三個特征的貝葉斯模型與神經網絡相結合,在保證系統實時性的同時實現更好的文本檢測率。

References)

[1] CHEN X, YUILLE A L. Detecting and reading text in natural scenes [C]// CVPR 2004: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 366-373.

[2] NEUMANN L, MATAS J. Scene text localization and recognition with oriented stroke detection [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 97-104.

[3] CHEN H Z, TSAI S S, SCHROTH G, et al. Robust text detection in natural images with edge-enhanced maximally stable extremal regions [C]// ICIP 2011: Proceedings of the 2011 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2011: 2609-2612.

[4] TURKI R, HALIMA M B, ALIMI A M. Scene text detection images with pyramid image and MSER enhanced [C]// ISDA 2015: Proceedings of the 2015 International Conference on Intelligent Systems Design and Applications. Piscataway, NJ: IEEE, 2015: 301-306.

[5] AO C, BAI X, LIU W, et al. Detecting texts of arbitrary orientations in natural images [C]// CVPR 2012: Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1083-1090.

[6] MATAS J, CHUM O, URBAN M, et al. Robust wide baseline stereo from maximally stable extremal regions [J]. Image and Vision Computing, 2004, 22(10): 761-767.

[7] EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform [C]// CVPR 2010: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2963-2970.

[8] YIN X C, YIN X, HUANG K, et al. Robust text detection in natural scene images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(5): 970-983.

[9] YIN X, PEI W, ZHANG J, et al. Multi-orientation scene text detection with adaptive clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1930-1937.

[10] FORSSEN P E, LOWE D G. Shape descriptors for maximally stable extremal regions [C]// ICCV 2007: Proceedings of the 2007 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-8.

[11] NEUMANN L, MATAS J. Real-time scene text localization and recognition [C]// CVPR 2012: Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 3538-3545.

[12] 唐有寶,卜巍,鄔向前.多層次MSER自然場景文本檢測[J].浙江大學學報(工學版),2016,50(6):1134-1140.(TANG Y B, BU W, WU X Q. Natural scene text detection based on multi-level MSER [J]. Journal of Zhejiang University (Engineering Science), 2016, 50(6): 1134-1140.)

[13] 李鑒鴻.基于MSER的圖像文本定位的應用研究[D].廣州:華南理工大學,2015:30-41.(LI J H. Application research on text location in image based on maximally stable extremal regions [D]. Guangzhou: South China University of Technology, 2015: 30-41.)

[14] LUCAS S M, PANARETOS A, SOSA L, et al. ICDAR 2003 robust reading competitions [C]// ICDAR 2003: Proceedings of the 2003 International Conference on Document Analysis and Recognition. Berlin: Springer, 2003: 682-687.

[15] KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 robust reading competition [C]// ICDAR 2013: Proceedings of the 2013 International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE, 2013: 1484-1493.

[16] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// CVPR 2005: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2005: 886-893.

[17] LI Y, JIA W, SHEN C, et al. Characterness: an indicator of text in the wild [J]. IEEE Transactions on Image Processing, 2014, 23(4): 1666-1677.

[18] REN X H, ZHOU Y, HE J H, et al. A convolutional neural network-based Chinese text detection algorithm via text structure modeling [J]. IEEE Transactions on Multimedia, 2017, 19(3): 506-519.

[19] 張國和,黃凱,張斌,等.最大穩定極值區域與筆畫寬度變換的自然場景文本提取方法[J].西安交通大學學報,2017,51(1):135-140.(ZHANG G H, HUANG K, ZHANG B, et al. A natural scene text extraction method based on the maximum stable extremal region and stroke width transform [J]. Journal of Xi’an Jiaotong University, 2017, 51(1): 135-140.)

[20] 楊磊.復雜背景圖像中文本檢測與定位研究[D].廣州:華南理工大學,2013:57-61.(YANG L. Research on text detection and location in complex background images [D]. Guangzhou: South China University of Technology, 2013: 57-61.)

[21] NEUMANN L, MATAS J. A method for text localization and recognition in real-world images [C]// ACCV 2010: Proceedings of the 2010 IEEE Computer Asian Conference on Computer Vision. Piscataway, NJ: IEEE, 2010: 770-783.

FANYihua, born in 1993, M.S. candidate. Her research interests include natural language processing of image, character recognition.

DENGDexiang, born in 1961, M.S., professor. His research interests include computer vision, target tracking.

YANJia, born in 1983, Ph. D., lecturer. His research interests include target tracking, image quality assessment.

猜你喜歡
文本區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 香蕉伊思人视频| 国产区免费| 久久这里只有精品66| 亚洲欧美日韩中文字幕一区二区三区| 欧美精品亚洲精品日韩专区va| 波多野结衣一区二区三视频| 国产成人综合亚洲欧洲色就色| 国产成+人+综合+亚洲欧美| 国产精品蜜臀| 久久国产精品麻豆系列| 91丨九色丨首页在线播放| 亚洲妓女综合网995久久| 欧美成人A视频| 手机精品福利在线观看| 国产精品福利导航| 人妻丰满熟妇αv无码| 国产欧美日韩一区二区视频在线| 国产精品精品视频| 国产在线无码av完整版在线观看| 青青国产视频| 亚洲Av激情网五月天| 国产欧美在线观看视频| 波多野结衣一级毛片| 亚洲一区二区三区国产精华液| 中文字幕精品一区二区三区视频| 久久综合色视频| 亚洲视频一区| 五月婷婷中文字幕| 成人毛片免费观看| 久草视频精品| 免费jjzz在在线播放国产| 亚洲免费黄色网| 亚洲日韩在线满18点击进入| 久久久久久高潮白浆| 免费人欧美成又黄又爽的视频| 国产欧美日韩另类精彩视频| 日韩中文精品亚洲第三区| 日韩a级毛片| 成人在线视频一区| 欧美激情伊人| 国产美女一级毛片| 亚洲精品你懂的| 日韩国产无码一区| 丁香婷婷激情网| 幺女国产一级毛片| 日本免费新一区视频| 欧美日韩中文国产| 国产成人免费视频精品一区二区| 18禁影院亚洲专区| 99热这里只有精品在线播放| 亚洲综合日韩精品| 亚洲人成人伊人成综合网无码| 日本成人在线不卡视频| 99热这里只有精品国产99| 99精品视频在线观看免费播放| 婷婷色狠狠干| 这里只有精品在线播放| 欧美性猛交一区二区三区| 熟妇无码人妻| 亚洲v日韩v欧美在线观看| 国产精品漂亮美女在线观看| 在线观看国产精品第一区免费 | 亚洲视频一区| 亚洲人在线| 无码专区国产精品第一页| 中文字幕伦视频| 五月婷婷中文字幕| 一本大道东京热无码av| 亚洲成人www| 色成人亚洲| 成人福利在线视频| 成年人福利视频| 亚洲精品777| 久久鸭综合久久国产| 国产流白浆视频| 免费看a毛片| 天天激情综合| 亚洲无码视频图片| 久久久精品久久久久三级| 成人小视频网| AV无码无在线观看免费| 国产成人精品18|