999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本中心線的自然場景文本檢測方法

2020-04-29 10:55:22劉業鑫鄔向前
智能計算機與應用 2020年2期
關鍵詞:文本區域檢測

劉業鑫, 卜 巍, 鄔向前

(1 哈爾濱工業大學 計算機科學與技術學院, 哈爾濱150001; 2 哈爾濱工業大學 媒體技術與藝術學院, 哈爾濱 150001)

0 引 言

對自然場景中的文本進行檢測,是計算機視覺方向中一項頗具挑戰性的研究課題,并廣泛應用于各種識別系統、導航系統、圖像檢索系統等等,其目的是對于一張給定的自然場景圖像,檢測其文本區域所在的區域,一般采用矩形或多邊形邊界框進行表示。傳統的光學字符識別方法對于掃描文檔的字符檢測識別能夠取得很好的效果,但面對自然場景圖像,由于其背景區域過于復雜,且文本含有不同的顏色、尺寸、方向、字體,效果并不理想,分析原因后可做闡釋解析如下。

(1)大部分的OCR方法都是針對掃描文本來做出設計的,能夠很好地區分出文字像素和背景像素,由此得到文本區域,而對于自然場景,背景復雜,就會比掃描文本困難許多。

(2)自然場景中的圖像,其成像的條件非常多,對于文本區域來說,含有更多的噪聲,如顏色影響、模糊、遮擋等。

(3)傳統的OCR檢測的圖像布局簡單、且有結構,容易劃分,而自然場景圖像中的文本只占很少一部分,而且其位置和形狀都不存在容易進行劃分的結構。

近些年來,由于深度學習的快速發展,各種目標檢測方法陸續涌現,與此同時文本檢測的方法也基于通用目標檢測在探索中持續不斷地尋求改進與突破。本文中,對于自然場景中的各種文本區域,采用了基于文本中心線和文本寬度的表示法,并通過一個卷積神經網絡進行學習,最終能夠檢測自然場景中的水平、傾斜和彎曲的文本區域。文中擬對此展開研究論述如下。

1 相關工作

時下,文本檢測已然成為學界的熱門研究課題。但迄今為止推出的大部分研究都是基于通用目標檢測進行的,這些方法在基本的目標檢測的基礎上,可以分為3種類別。對此可得研究概述如下。

(1)基于字符的檢測方法。通過檢測單個字符,這類方法大多采用滑動窗口或其他的候選區域提取方法進行檢測,再將其分組、且合并成單詞,后處理的合并算法也會影響到檢測器的性能。

(2)基于單詞的檢測方法。直接檢測單詞區域,該方法通常直接采用一些深度神經網絡的結構進行檢測,并針對文字檢測進行相應的優化。

(3)基于文本行的檢測方法。考慮某些語系、如漢語等語言,由于不存在明顯的空格區分,因此采用直接檢測整行長文本來進行檢測,某些方法也采用了圖像分割的方式進行檢測。整體研究內容詳見如下。

1.1 目標檢測

目前的基于深度學習的目標檢測方法,可以分為2類,即:兩階段的檢測方法和一個階段的檢測方法。其中,兩階段的檢測方法,就是在第一階段產生一個候選目標框的集合,在第二階段對產生的大量目標框進行分類,并通過滑動窗口等方式來優化候選框的位置坐標值。此方法從 RCNN[1]開始即已進入廣泛應用、做出各類改進。Faster-RCNN[2]在第一階段通過一個輕量級的神經網絡預測滑動窗口的邊界和得分這兩個要素,繼而提出的特征金字塔結構[3]和多尺度檢測方法[4-5],同樣進一步地提升了兩階段檢測器的性能,并廣泛應用在各種檢測器中。而與兩階段的檢測器相比,單一階段的檢測器沒有預先生成候選框的階段,只通過一個單獨的深度卷積神經網絡,一次性得到預測的邊界框和類別分數。大部分的單一階段檢測方法[6-7]都依賴于預先設定的Anchor Box來枚舉出目標的可能位置,相比2個階段的檢測方法,單一階段的檢測方法網絡更加簡單,速度更快。

1.2 文本檢測

在深度學習出現之前,自然場景文本檢測的主要方法是基于手工特征的自底向上的方法,主要使用各種手工提取的特征、如 MSER[8]和 SWT[9]。目前基于深度學習方法的文本檢測方法是近年來日趨流行的一種新方法,并取得了很好的效果。其良好的檢測結果大多得益于通用目標檢測方法的發展,如基于RCNN[2]的方法、基于SSD[6]的方法、以及基于FCN[10-11]的方法等等。

雖然現如今通用的目標檢測方法在大部分環境下能取得較好的效果,但若將通用的目標檢測方法應用于文本檢測,還將面臨一定挑戰,對此可表述為:

(1)單詞或是文本行的長/寬比往往比一般的對象要大得多,一些基于 R-CNN或 YOLOv3、SSD等方法的文本檢測器,由于需要基于Anchor Box進行檢測,對于Anchor Box的手工設計存在一些困難。

(2)一些非拉丁語族文本的單詞之間沒有空格,因此邊界框的長/寬比會非常大,對通用的目標檢測來說更加困難。

(3)文本具有一個明確的方向性[12],對于后續很多處理,候選框是否能夠精確地擬合文本區域則至關重要,而大多數的目標檢測方法卻未曾考慮到方向角度的問題。

近年來,隨著深度學習的發展,全卷積神經網絡在語義分割、顯著性檢測、關鍵點檢測、目標計數等方面取得了不錯的結果。但對于目標檢測方面,大多方法都是非純卷積神經網絡的,這與 Anchor Box的使用有關。根據檢測回歸這兩個步驟,基于Anchor Box 的檢測方法可以分為2類,即兩個階段的檢測方法與單一階段的檢測方法。

兩階段的目標檢測方法、如 Faster R-CNN,會在生成大量建議的候選目標框后,再在這些候選中執行后期的分類和回歸操作。相比于兩階段的檢測方法,單一階段的方法、如 YOLOv3 和 SSD,去除了生成建議候選區域的步驟,使用一個卷積網絡同時進行分類和回歸。并達到了與兩階段檢測方法相近的精度,且在速度上更占有優勢。

前述的2類檢測方法目前已經躋身主流研究行列,并在各種方面的應用中有著出色表現。但這種基于 Anchor Box 的方法的不足也不容忽視,對此可闡釋為:關于Anchor Box 的尺寸、長/寬比、以及數量這些需要手工調節的超參數的設置對檢測結果的影響很大。同時,由于 Anchor Box 的尺度以及長/寬比是固定好的,因此如果遇到某些長/寬比變化較大的物體,如本課題中的自然場景文本,就不能很好地進行檢測,并且對于一些小物體的檢測效果也未臻理想。

基于此,不使用Anchor Box的檢測方法就應運而生,不使用預先定義的Anchor Box,而是直接進行整張圖上的目標檢測。YOLO[13]使用全連接層將網絡的最終特征圖轉換為類別的置信度以及邊界框的偏移,DeNet[14]采用預測物體四個角點的位置來生成邊界框,DenseBox[15]采用FPN網絡,在圖像的所有像素上進行類別分數的預測以及候選框位置的回歸,CornetNet[16]同樣采用了FPN的網絡結構,預測目標物體的左上角與右下角,并對兩類角點進行分組匹配。

綜上論述可知,本文將對文本區域進行檢測,通過預測文本中心線像素點的位置以及每個像素處的文本寬度對單詞或文本行進行預測。由于擺脫了預定義的 Anchor Box 的束縛,減少了需要設置的超參數,也不需要計算IOU,有利于訓練,同時基于中心線的預測方法,不僅可以預測水平文本和傾斜文本,也可以預測一些不規則的文本如彎曲、環狀的文本,如圖1所示。本方法在ICDAR2013、ICDAR2015、以及MSRA-TD500 數據集上均取得了非常好的結果。

圖1 各種類型的文本區域

2 基于中心線的文本檢測方法

2.1 方法設計流程

本研究通過檢測文本中心線的位置的方法來進行文本區域的定位,并通過學習中心線處像素所在文本區域的寬度來擴展中心線,以獲得最終結果。本檢測方法的設計流程如圖 2 所示。輸入圖像將經過特征提取模塊,受到 FPN 的啟發,將低層次的特征與高層次的特征進行融合,從而得到5張不同尺度的特征圖,而后再將特征圖進行連接,得到一張最終的特征圖,輸入到接下來的檢測模塊中。

圖2 文本檢測流程圖

2.2 特征提取模塊

本方法使用的網絡結構如圖3所示。圖3中,其左側的骨干網絡采用了一個在 ImageNet[17]上訓練的標準的卷積神經網絡,如 ResNet - 50、DenseNet、MobileNet等等。參考FPN的研究思路,實驗中將骨干網絡的卷積層劃分為5個部分,并將后續的高層次特征與前面的低層次特征融合,由此得到一系列的特征圖,再根據其特征圖的尺度進行劃分,分別是原圖向下采樣2倍、4倍、8倍、16倍、32倍。同時將這些特征圖上采樣到原圖的尺寸,也就是分別擴大2倍、4倍、8倍、16倍、32倍,緊接著經過一個串聯操作,得到最終輸入到檢測模塊的特征。

圖3 文本檢測網絡結構

2.3 檢測模塊

近年來,卷積神經網絡在文本檢測方面取得了很大的成功。目前基于邊界框回歸的方法,大多數采用基于通用目標檢測的方法,但由于文本的長/寬比的方向不全是水平的,也有一些彎曲的不規則形狀文本,其回歸的矩形框會包含大量背景區域,對于后續的識別任務影響很大。最近關于彎曲文本的流行處理策略是基于語義分割的方法。對于給定的圖像,進行逐像素的分類,確定像素級的文本區域。盡管這種基于像素的檢測方式可以檢測任意角度的文本區域,但對于相鄰的文本區域無法做到更細致的劃分。因此本方法采用了檢測文本中心線和文本區域相結合的方式,利用文本中心線確定文本區域的位置和數目,同時也可以利用大的文本區域過濾掉一些被誤檢測為中心線的區域。

經過2.2節的特征提取模塊,可以得到一張與原圖尺寸相同的融合后的特征映射圖。在檢測模塊中,首先采用一個3×3的卷積層將特征通道數降至256個,然后將該特征映射圖輸入到接下來的檢測模塊的3個1×1的卷積層(如圖3右側所示)中進行最終的文本檢測。總地說來,第一個卷積用來檢測所有文本區域,第二個卷積用來檢測文本中心線區域,第三個卷積用來得出文本中心線處的壁畫寬度。

網絡采用端到端的方式進行訓練,損失函數主要包含分類損失和文本寬度的回歸損失兩部分。其運算公式可寫作如下數學形式:

L=Lcls+λLreg,

(1)

Lcls=λ1Lcls1+λ2Lcls2.

(2)

其中,分類損失又包含2部分,對應2個分類的檢測,采用交叉熵損失函數。回歸的損失則采用平滑L1損失函數。

2.4 后處理模塊

通過前面兩個模塊,研究可以得到文本中心線的位置以及中心線上每個像素點對應的文本區域的寬度值,也得到了一個包含所有文本區域的圖。在此之后,就需要將這些數據整合成最終的文本區域。

首先,去除一些被誤認為是文本區域的中心線區域,也就是檢測為中心線的像素點,若不在文本區域中,可直接丟棄,剩余的則作為最終得到的文本中心線。由于檢測結果的寬度不止一個像素,因此將其收縮為單像素的一條曲線,使用 OpenCV 進行曲線擬合,對于曲線上的點,等距離地將其劃分為k段,每段的距離記為L,對于每個端點,將其附近的L個曲線上的寬度值取平均,作為該點的寬度,繼而得到將k+ 1個像素點上的寬度值對應的邊界點坐標值,將這些邊界點順時針相連,即為最終的文本區域。

3 實驗

3.1 數據集介紹

(1)ICDAR 2013。 該數據集與 ICDAR 2011 很接近,包含 229 張訓練圖像與 233 張測試圖像,圖像較清晰,且只包含水平方向的文本,因此其標注信息只含有左上角和右下角兩個點。

(2)ICDAR 2015。 該數據集來自 ICDAR 2015比賽的挑戰4,包含1 000張訓練圖像與500張測試圖像,這些圖像由谷歌眼鏡采集得到,其分辨率較低,且包含很多方向的文本,其標注信息采用了文本區域的4個邊界點表示。

(3)CTW 1500。 該數據集包含1 000張訓練圖像與500張測試圖像,這些圖像的文本區域大多是彎曲的,每張圖都含有至少一個彎曲文本區域,因此其標注方式與前面的數據集有所不同,由含有14個頂點的多邊形區域標注。

3.2 數據預處理

數據預處理的主要操作就是標定中心線位置的像素,以及每個中心線位置文本區域的寬度,而各數據集有著不同的標注方式,因此不同數據集的預處理方式有所不同。

由于只檢測一個像素寬度的中心線存在許多干擾因素,以及線的斷點等會對檢測結果造成影響,因此采用中心線附近的一個小區域的像素作為訓練目標。具體的寬度設定為文本寬度的四分之一。

對于ICDAR2013等水平數據集,數據集中文本都是水平的,其標注方式僅需要其左上角和右下角的坐標值,從而求出水平矩形框的長和寬,很容易地得到文本區域的中心線。而中心線像素值對應的文本寬度即為水平矩形框的寬度。

對于 ICDAR2015等多方向文本數據集,其標注信息為左上角、右上角、左下角、右下角四個端點的坐標值。根據其左側兩點的坐標,可以得到左邊的中點位置,同理,根據其右側兩點的坐標,可以得到右邊的中點位置,從而確定中心線的位置。在中心線位置的像素上做一條垂直于中心線的法線,會和上下邊界交于兩點,計算這兩點的距離,作為文本區域的寬度值。

對于更加復雜的數據集、如CTW 1500,由于其文本區域為弧狀或曲線,就在標注方式上采用了多個點構成的多邊形框來逼近文本區域。因此需要先確定文本的兩端,這里對此算法可概述為:從一個端點開始,按照順時針方向遍歷所有端點,得到一個由所有端點構成的循環列表,對于每個端點有2個角度方向。一個是從此端點指向下一個端點的“出”方向,另一個是從此端點上一個端點指向該端點的“入”角度,而位于文本兩端位置的2個端點,按上述列表序記為A B,A點的“入”角度與B點的“出”角度一般來說會接近180°。基于上述條件,可以確定2個邊界的線段。確定了左、右邊界的線段后,再將剩余的線段分為上邊界和下邊界兩組,依據其長度對上、下邊界進行等距離劃分,將劃分后的相對應的上、下兩點進行連接,作為區域的寬度,并將這些連接的中點串聯起來,作為文本區域的中心線。

3.3 實驗評價指標

評價指標采用經典的評價方法,包含著3個值,分別是:檢測精度(P)、檢測召回率(R)、以及綜合指標(F),數學計算公式可表示為:

(3)

(4)

(5)

其中 ,TP表示檢測正確的文本區域數量;FP表示標識錯誤的文本區域數量;FN表示未檢測到的文本區域數量。

對于文本檢測任務而言,如果檢測到的文本區域與標定的文本區域之間的IOU 大于給定的閾值,該閾值在實驗中設為0.5,將視為該文本區域被正確地檢測到。此外,還將采用一個綜合指標來得到一個綜合了檢測精度與檢測召回率的運算值。

3.4 結果與分析

實驗在上述的3個公開數據集上進行訓練和測試,采用精度、召回率以及綜合指標進行評價,其評價結果見表1~表3。

表1 在ICDAR2013數據集上的評價結果

表2 在ICDAR2015數據集上的評價結果

表3 在CTW1500數據集上的評價結果

由表1~表3的結果分析可知,在ICDAR 2013水平文本檢測數據集上,本方法的F值和精度都優于先前的方法。對于ICDAR 2015傾斜文本數據集,本方法與當前最好的方法數據上較接近,在召回率上高于主流方法,且對小文本區域得到了良好檢測效果。對于 CTW1500 彎曲文本數據集,其F值依然優于先前的方法,足以證明該方法針對不同類型的文本區域進行檢測的有效性。部分檢測結果如圖4所示。圖4中,第一列為水平文本區域,第二列為傾斜文本區域,第三列包含彎曲文本區域。

圖4 部分檢測結果

4 結束語

本文提出了一種全新的自然場景文本檢測方法,以及新的自然場景文本表示方法,通過采用文本中心線的檢測方法,相較于之前的矩形框回歸表示的方法,能夠更貼合文本區域,去除更多的背景干擾區域,因此能夠檢測各種形狀的文本區域,對彎曲文本也能夠做到很好的檢測。此外,對后續的識別等操作也有一定的好處。本方法在3個公開數據集上進行測試,證明了該方法的有效性和準確性。對于未來的工作,將會繼續優化文本表示以及后處理,以提高效率。

猜你喜歡
文本區域檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 亚洲人成网站日本片| 国产成人亚洲无吗淙合青草| 台湾AV国片精品女同性| 在线一级毛片| 一级在线毛片| 亚洲天堂网在线视频| 国产成本人片免费a∨短片| 在线看国产精品| 国产美女在线免费观看| 欧美精品一二三区| 国产精品毛片一区视频播 | 91激情视频| 久久婷婷五月综合97色| 性做久久久久久久免费看| 国产成人久久综合一区| 亚洲第一视频免费在线| 欧美乱妇高清无乱码免费| 波多野结衣第一页| 亚洲免费福利视频| 国产视频只有无码精品| 玖玖精品在线| 日本www在线视频| 99热这里只有精品在线观看| 免费三A级毛片视频| 国产电话自拍伊人| 欧美中文字幕第一页线路一| 毛片卡一卡二| 91无码人妻精品一区二区蜜桃| 2020亚洲精品无码| 久久精品最新免费国产成人| 亚洲欧洲日韩国产综合在线二区| 久久伊人操| 亚洲无码高清视频在线观看| 亚洲无码免费黄色网址| 久久久久久国产精品mv| 国产精品开放后亚洲| 91av国产在线| 国产精品丝袜在线| 日韩大片免费观看视频播放| 一级香蕉人体视频| 97人人做人人爽香蕉精品| 国产成人你懂的在线观看| 无码精油按摩潮喷在线播放 | 无码国产偷倩在线播放老年人| 午夜爽爽视频| 五月天香蕉视频国产亚| 国产本道久久一区二区三区| 国产特级毛片aaaaaa| 国产精品视屏| 国产视频久久久久| 五月天在线网站| 成年网址网站在线观看| 亚洲中文字幕久久精品无码一区| 色有码无码视频| 中文字幕 欧美日韩| 国产精品黄色片| 欧美一区二区精品久久久| 色婷婷狠狠干| 久久性视频| 永久免费AⅤ无码网站在线观看| 日韩精品无码免费一区二区三区 | 精品自拍视频在线观看| 亚洲天堂久久久| 毛片网站在线看| 亚洲国产欧美目韩成人综合| 自拍亚洲欧美精品| 91在线视频福利| 在线观看免费人成视频色快速| 欧美日本在线一区二区三区| 2024av在线无码中文最新| 亚洲国产第一区二区香蕉| 日本亚洲最大的色成网站www| 精品一区二区三区无码视频无码| 亚洲丝袜中文字幕| a亚洲视频| 国产美女免费网站| 国产va在线| 免费中文字幕一级毛片| 欧美精品v日韩精品v国产精品| 久久精品国产免费观看频道| 国产在线98福利播放视频免费| 老司国产精品视频91|