999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BLSTM網絡的改進EAST文本檢測算法

2020-07-15 05:03:40邱曉暉
計算機技術與發展 2020年7期
關鍵詞:特征文本檢測

郭 闖,邱曉暉

(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)

0 引 言

自然場景中包含豐富的文本信息,這些信息在工業自動化、智能圖像檢索、機器人導航、無人汽車等眾多領域有著重要的意義,因而高效準確的文本檢測方法成為計算機視覺領域備受關注的研究內容。但是自然場景中的文本在尺度、方向、光照、字體、顏色等方面嚴重影響了文本檢測的準確率。所以自然場景文本檢測被認為是在文本分析領域中最有價值的挑戰之一,受到了廣泛的關注[1-3]。盡管前人在文本檢測和文本識別的工作中取得了不錯的進展,但是由于文本模式的差異和背景的高度復雜性,文本識別仍然是一個巨大的挑戰。

現在一般將場景文本閱讀分為文本檢測和文本識別兩部分,分別作為兩個獨立的任務進行研究處理[4-5]。在文本檢測中,通常使用卷積神經網絡從場景圖像中[6-8]提取特征,然后使用不同的解碼器對區域進行解碼[9]。文本檢測作為文本識別的前提,在整個文本信息提取和理解過程中起著重要的作用。文本檢測的核心是設計文本與背景的特征區分,傳統基于深度學習的算法大致分為三類,第一類是直接從訓練數據中學習有效的特征[10-12],第二類是根據像素連通域分類學習[13-14],第三類是特征融合進行學習[15-16]。雖然這些方法很優秀,但是在某些特定的場景下,對于感受野不都長的文本檢測,效果不是很好。為解決感受野不足的問題,文中選取目前檢測效果較為優秀的EAST算法作為基礎算法,改進網絡結構,增大感受野,從而改進文本檢測算法的性能。

1 改進EAST算法

1.1 EAST算法介紹

EAST不同于傳統的文本檢測方法[10]和一些基于深度學習的文本檢測方法,它的貢獻在于提出了端到端的文本定位方法,消除了中間多個stage,直接預測文本行。EAST只有兩個階段。該算法使用全卷積網絡(FCN)模型[17]直接生成單詞或文本行級別預測,剔除冗余和慢速中間步驟。生成的文本預測(可以是旋轉的矩形或四邊形)被送到非最大抑制算法(NMS)[18]中以產生最終結果。根據標準基準的定性和定量實驗,與現有的方法相比,該算法顯著增強了性能,同時運行速度更快。

EAST網絡可以分解為三個部分(如圖1所示):特征提取、特征合并和輸出層。

圖1 算法流程

特征合并:

(1)

(2)

輸出層:包含若干個conv1×1操作,以將32個通道的特征圖投影到一個通道的分數特征圖Fs和一個多通道幾何特征圖Fg。

幾何形狀圖可以是RBOX或QUAD中的任意一種,如表1所示。

表1 輸出幾何設計

其中,RBOX的幾何形狀由4個通道的水平邊界框(AABB)R和一個通道的旋轉角度θ表示;AABB4個通道分別表示像素位置到矩形的頂部,右側,底部,左側邊界的4個距離;QUAD使用8個數字來表示從矩形的四個頂點到像素位置的坐標偏移,由于每個距離偏移量都包含兩個數字(Δxi;Δyi),因此幾何形狀輸出包含8個通道。損失函數公式為Loss:

L=Ls+Lgλg

(3)

其中,Ls和Lg分別表示該像素是否存在文字(score map)以及IoU和角度(genmetry map)的損失,λg表示兩個損失之間的重要性。原文的實驗中將λg設置為1。

目前的方法中,多數在訓練圖像通過均衡采樣和hard negative mining以解決目標的不均衡分布問題,這樣做可能會提高網絡性能。然而,使用這種技術不可避免地引入一個階段和更多參數來調整pipeline,這與EAST算法的設計初衷相矛盾。為了簡化訓練過程,文中使用類平衡交叉熵(用于解決類別不平衡,β=反例樣本數量/總樣本數量),公式如下:

(4)

(5)

Lg幾何圖損失又分為兩部分,一部分為IoU損失,一部分為旋轉角度損失:

(6)

(7)

Lg=LAABB+λθLθ

(8)

1.2 優化網絡結構

在卷積神經網絡中,感受野的定義是卷積神經網絡中的每一層輸出的特征圖上的像素點在輸出圖上映射的區域大小。EAST算法可以處理的文本實例的最大大小與網絡的感受野成正比。這限制了網絡預測長文本區域的能力,例如跨越圖像的文本行。文本具有很強的連續字符,其中連續的上下文信息對于做出可靠決策很重要。在CPTN算法中,把一個完整的文本框拆分成多個小文本框集合,通過BLSTM[19]對過去或未來的信息進行學習和預測。因為一個小文本框,對于它的預測,文中不僅與其左邊的小文本框有關系,而且還與其右邊的小文本框有關系。當參考這個框的左邊和右邊的小框的信息后,再做預測就會大大提高準確率。所以,可以根據CPTN[20]的思想,在EAST算法中加入BLSTM網絡,理論上可以擴大算法本身的感受野。

1.3 算法步驟

文中算法的主要步驟如下:

(1)在特征提取層抽出不同的特征。

(2)將抽出的特征層從后向前做上采樣,然后進行特征融合。

(3)在特征融合之后加入BLSTM網絡。

(4)將步驟(3)后的結果輸入到輸出層,最終輸出一個score map和8個坐標的信息。

2 實驗結果及分析

使用resnet-50網絡模型作為預訓練模型,使用ADAM優化器對網絡進行端到端訓練。為了加快學習速度,從圖像中均勻采樣512×512大小的特征圖,經過旋轉、平移等處理后,以每個batch size等于16開始訓練。ADAM的學習率從1e-3開始,每10 000批次衰減十分之一,訓練次數到模型較優為止。

使用的數據集是ICDAR2013和ICDAR2015數據集,以ICDAR2015為例,它是ICDAR 2015魯棒性比賽的挑戰4,該挑戰通常面向自然場景的文本定位。該數據集包括1 000幅訓練圖片和500張測試圖片。這些圖片是不考慮位置任意拍攝的,其中的場景文本可以是任意方向的。它的檢測難點在于它的文字旋轉性。

將文中算法與其他算法在ICDAR2015數據集上進行比較,結果如表2所示。

表2 文中算法與其他算法的比較

從表2中可以看出,在準確率和召回率方面,相較于原論文的結果都有一定的提高。

3 結束語

該算法在EAST的基礎上引入了BLSTM網絡,改善了網絡感受野。和經典EAST算法相比,準確率和召回率均有提高,和其他優秀算法相比,綜合性能均有提高。

猜你喜歡
特征文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 波多野结衣一区二区三区AV| 久久国产免费观看| 91人妻日韩人妻无码专区精品| 欧美午夜小视频| 黄色a一级视频| 最新痴汉在线无码AV| 九九热免费在线视频| 亚洲第一综合天堂另类专| 亚洲国产精品成人久久综合影院 | 爽爽影院十八禁在线观看| 欧美自拍另类欧美综合图区| 欧美一道本| 国产凹凸视频在线观看| 国产高清在线观看| 99re热精品视频国产免费| av大片在线无码免费| 欧美国产成人在线| 国产欧美日韩在线在线不卡视频| 精品国产自| 欧美特级AAAAAA视频免费观看| 9966国产精品视频| 亚洲Av综合日韩精品久久久| 成人福利在线免费观看| 曰AV在线无码| 免费在线播放毛片| 久青草网站| 日本国产在线| 国产三级成人| 亚洲精品无码久久毛片波多野吉| 性做久久久久久久免费看| 日韩高清中文字幕| 美女裸体18禁网站| 四虎影视国产精品| 亚洲精品日产AⅤ| 亚洲日韩高清在线亚洲专区| 色婷婷成人| 久久国产亚洲偷自| 成人午夜久久| 亚洲免费人成影院| 女人一级毛片| 中文字幕亚洲综久久2021| 国产xx在线观看| 欧美福利在线| 草草影院国产第一页| 欧美精品色视频| 日韩欧美国产三级| 国产精品刺激对白在线| 欧美成在线视频| 国产免费好大好硬视频| 国产99精品久久| 国产精欧美一区二区三区| 欧洲高清无码在线| 四虎永久在线视频| 亚洲第一国产综合| 91尤物国产尤物福利在线| 91午夜福利在线观看| 亚洲精品无码抽插日韩| 欧美色99| 三级国产在线观看| 国产91九色在线播放| 欧美在线天堂| 欧美中文字幕在线视频| 韩日免费小视频| 一区二区三区四区精品视频| 免费人成视网站在线不卡| AV老司机AV天堂| 九九九九热精品视频| 国产一级在线播放| 91无码视频在线观看| 日韩免费毛片| 在线观看视频99| 国产精品一老牛影视频| 婷婷六月激情综合一区| 精品久久久久成人码免费动漫 | 国产尹人香蕉综合在线电影 | 国产中文一区二区苍井空| 国产人妖视频一区在线观看| 日韩精品亚洲人旧成在线| 国产农村妇女精品一二区| 久久免费视频6| 国产手机在线小视频免费观看 | 国产一级裸网站|