999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于NLA-EAST的自然場景文本檢測方法?

2021-08-08 11:13:28姚焙繼朱玉全岑燕妮
計算機與數字工程 2021年7期
關鍵詞:特征文本區域

姚焙繼 朱玉全 岑燕妮

(江蘇大學計算機科學與通信工程學院 鎮江212013)

1 引言

隨著計算機技術的發展,文本檢測已經成為計算機視覺的熱點,自然場景中文本檢測在一些例如目標地理定位、人機交互、圖像搜索、汽車自動駕駛等領域存在重要的應用價值。因此利用自然場景文本檢測和識別提供圖像中的文本信息,成為計算機視覺領域中熱門課題之一。

但在自然場景中定位文本位置是非常困難的事情。與傳統書本或者文件中的文本字體規則、顏色單一和大小一致不同,自然場景圖像中的文本可能具有完全不同的字體、顏色和大小等。自然場景圖像中的背景也可能非常復雜,有些背景物體和文本實際上是很難區分的,比如一些帶棱角的符號,甚至一些排列整齊的磚頭都很容易與文本造成混淆。并且在自然場景中各種干擾因素層出不窮,噪聲、分辨率、光照和文本模糊等也會導致場景文本檢測的失敗。

針對上述問題,大量的方法被提出。ShaoQing Ren在2016年 提 出 了Faster R-CNN[1]通 過 引 入RPN網絡并且整合特征提取模塊來共享特征,提升了檢測速度和準確率。同年Zhi Tian等提出了連接文本區域建議網絡CTPN(Connectionist Text Pro?posal Network)[2],通過小的垂直的錨來檢測出所有的文字區域,再合并為一個文本框,在速度和準確率上得到了質的提升。XinYu Zhou等在2017年提出了一種高效、準確的文本檢測器EAST(EAST:An Efficient and Accurate Scene Text Detector)[3],通過簡單的網絡,可以快速的在自然場景圖像中檢測到文本位置,并且采用旋轉框來檢測任意方向的文本。Dan Deng等 于2018年 提出PixelLink(Pixel?Link:Detecting Scene Text via Instance Segmenta?tion)[4],對文本或者非文本區域的相鄰8個像素預測連接關系,確定是否為文本區域或者非文本區域并直接獲取邊框。

然而這些方法確實有較高的精度,但是一些文本的像素級特征過于稀疏,導致對文本檢測不全。此外現有的方法在檢測較大和較長的文本方面也存在不足。基于以上問題,本文提出NLA-EAST網絡模型,采用非局部注意力機制來改進EAST中使用每個像素來預測頂點坐標。通過ASPP空洞卷積[5]來提升獲取上下文信息的能力,并提出邊界重定函數來指導網絡學習更詳細的邊界定位信息。

2 相關工作

2.1 基于候選區域提案的文本檢測方法

基于候選區域的文本檢測方法依賴于候選框的選取,此類方法擁有兩個派系,一類是Fast?er-RCNN系列,另一個是SSD[6]系列。其中Fast?er-RCNN的代表方法是CTPN等方法,通過更改RPN的錨為水平序列,根據每個相鄰錨之間的關系提取特征,再利用后處理將每個錨連接形成文本框。SSD系 列 中 典 型 的 網 絡 是Textboxes[7]等 方法。SSD是多類目標檢測網絡,Textboxes改進了SSD。這些方法主要依靠錨的選取,但是文本的尺度并非一成不變,因此不得不產生較多的錨,降低了效率。同時由于錨的匹配機制會對推薦區域生成一系列的錨,篩選合適的作為正負樣本的標簽。但對于較長而密集的文本行而言,錨寬高比會變得很高,此時對網絡感受野的需求變大,網絡會變得更復雜。

2.2 基于圖像分割的文本檢測方法

基于圖像分割的方法通常利用語義分各種的全卷積網絡(FCN)[8]等方式來對文本或者非文本進行像素級分割后再加上回歸,或者單獨的分割接后處理的形式。這類方法基礎網絡一般為U-net[9]或者FPN[10],而U-net和FPN提升了對小物體的檢測效果,因此這類方法對小目標分割具有一定的優勢。例如EAST、Pixel-Link等。EAST在回歸時預測每個像素點的四條邊或者四個頂點的絕對距離[3],但是網絡的感受野不足,會導致在檢測長文本或者較大文本時容易出現誤檢或者漏檢。Pix?el-link含有兩個預測任務:一是對當前像素預測其屬于文本還是非文本,二是會對當前像素周圍的8個像素預測像素之間的連接關系,如果關系密切則直接獲取文本邊框。但是此類方法對分割的結果圖準確性的要求非常高。如果分割不夠精準,像素周圍的噪聲會對像素造成較大的影響,導致出現錯誤的預測結果。

3 基于NLA-EAST網絡的場景文本檢測

本文提出一種新穎的基于NLA-EAST網絡,通過非局部注意力機制更新特征,在新特征圖上根據權重系數來重新定位文本的位置,并且提出一種邊界保留損失,來指導網絡學習更詳細的邊界定位信息。模型如圖1所示。

圖1 NLA-EAST網絡結構

3.1 ASPP空洞卷積

上下文信息對文本檢測有著非常重要的作用。然而,自然場景下文本在尺度,形狀和位置上有很大變化。以前的方法一般都是通過連續的pooling或者其他的下采樣層來整合上下文信息,這種方式會損失分辨率。EAST在感受野不夠大的情況下,會使在檢測較長文本或者較大文本時,預測值不能達到文本的邊界而出現文本框斷裂的情況,因此本文使用空洞卷積,來獲得相同比例但不同感受野的特征。為了最終提取的高級特征包含尺度和形狀不變性的特征,許多方法[5,11]都采用了不同擴張率的空洞卷積,本文的空洞率分別設置為3,5和7(原ASPP為6、12、18)來獲取多感受野的上下文信息,然后通過跨通道連接組合來自不同空洞卷積的特征映射,并使用1*1的卷積來降低維度。ASPP空洞卷積模塊如圖2所示。

圖2 ASPP空洞卷積

3.2 非局部注意力模塊

非局部注意力模塊分為兩部分,空間注意力[12]和通道注意力[13],低層特征使用空間注意力,使用通道注意力來關注高層特征。

3.2.1 空間注意力

在自然場景文本的檢測中,同一個文本行區域內,相鄰文本之間具有寬度、高度、顏色、以及像素值相似的特點。因此,采用空間注意力機制(SA,如圖3所示),來捕獲文本像素位置之間的全局空間依賴關系,對于特征圖上的每個文本位置特征進行attention調整,通過加權求和所有位置的聚合特征來更新特征,并聚焦到文本區域上。其中權重由相應的兩個位置間的特征相似性決定,具有相似特征的兩個位置可以相互促進改進。以圖1為例,將降維后的特征輸入空間注意力模塊,通過三步來獲取空間的上下文信息的特征,第一是生成空間分數矩陣,該矩陣模擬特征的任意兩個像素之間的空間關系。第二在分數矩陣和原始特征之間執行矩陣乘法。第三對上面的乘法結果矩陣和原始特征執行逐元素和運算,以獲得反映上下文信息的最終表示。

圖3 空間注意力SA

如圖3所示,將提取的圖像特征X大小為H*W*C,通過三個1*1的卷積來生成新的三個特征映射為A、B、C,將通過reshape后的A、B轉置做矩陣乘法再通過soft-max得到空間特征圖Y,其中i,j是像素坐標,Yi表示像素j對像素i的位置的響應,ωa、ωb為要學習的權值矩陣,Y中每個元素Yi:

接著將Y轉置與C做乘積再乘以權值系數再reshape為原始形狀,最后與原始特征X相加得到輸出O,每個位置的結果特征O是所有位置和原始特征的加權和。它具有全局上下文視圖,并根據空間注意力圖選擇性地聚合上下文。其中ωc為要學習的權值矩陣,并逐漸地學習分配到更大的權重。其中每個元素Oi:

3.2.2 通道注意力

CNN對于高層特征只產生一個粗略的結果,一些關鍵區域往往會被忽略,因此引入通道注意力機制(CA,如圖4所示),這里的通道注意力機制采用非對稱卷積的方式,逐步壓縮通道改變卷積方向,為文本區域表現出高響應的通道分配更大的權重。

圖4 通道注意力CA

如圖4所示,高層特征X大小為H*W*C,首先對每個通道的特征進行平均池化操作來獲得通道的特征向量。接著使用兩個全連接層來獲取通道依賴信息,最后通過sigmoid歸一化處理,最終映射到通道特征向量。

3.3 邊界重定函數

輸出由兩個模塊組成,旋轉回歸框和注意力分數圖。對于旋轉回歸框,直接采用IoU和旋轉角度來指導回歸任務的學習,然而IoU在預測框和邊界框不重合時沒有辦法做出優化效果,而且在邊界框的不同重疊區域的情況下IoU會出現相同的情況。因此采用一種新的IoU計算方式,先計算任意兩個軸對齊的矩形框的最小閉包區域a和b的面積,再計算IoU,再計算閉包區域中不屬于兩個框的區域面積占兩個區域并集面積的比重,最后用IoU減去這個比重得到新的IoU'。由此可見IoU只關注重疊區域,而IoU'在關注a與b重疊區域時還關注在最小閉包區域a與b不重疊的區域。此時邊界回歸損失函數記為LIoU'。

則最終的損失函數L為

4 實驗結果與分析

4.1 數據集

為了驗證方法的有效性,在三個公開的場景文本檢測數據集上進行了實驗:ICDAR2011,IC?DAR2015以及天池數據集。本文進行了三組對比實驗,分別是EAST、Pixel-link和本文方法,基礎網絡都采用VGG16。學習率初始值為10?3迭代10?5為止,整個實驗在深度學習框架TensorFlow上進行,為了保證效率,將圖像調整為384*384的尺寸大小,每個模型在GPU為GTX1070上訓練,訓練到性能停止改善為止。

4.2 實驗結果與分析

本實驗分別采用EAST、Pixel-link和本文改進的方法在三種數據集上進行了對比實驗,圖5展示了三種方法在三個數據集上的測試結果,不難發現對于EAST而言,長文本和較大文本的檢測不夠準確。Pixel-link雖然可以檢測很長的文本行。然而,這種方法后處理步驟非常復雜,容易受到復雜背景的干擾,導致檢測準確率反而下降。而改進的方法在一定程度上避免了上述問題,可以從圖中看出,改進的方法在檢測文本上準確率進一步提升,有效地提高了對長文本的檢測準確率。

圖5 EAST、Pixel-link以及本文方法分別在三個數據集上的測試結果

本文采用自然場景文本檢測的三個標準評價指標:準確率(precision)、召回率(recall)以及F值(F-measure)來比較三種方法的優劣[14]。其中F值表示準確率和召回率之間的目標檢索平衡度,準確率(P)的計算方式為

召回率(R)的計算方式為

F值與準確率(P)和召回率(R)之間的關系為

其中M(P,G)表示檢測正確的文本框的集合,G表示真實文本框的集合,P表示網絡檢測出的文本框結果的集合。

如表1~3所示,本文方法相較于其他兩個方法在三個數據集上均獲得了穩定的提升,從表中可以看出,本文的方法在三個數據集上F值均達到了84%以上,提升了效率。

表1 三種方法在ICDAR2011數據集上的評價指標

表2 三種方法在ICDAR2015數據集上的評價指標

表3 三種方法在天池數據集上的評價指標

5 結語

本文提出一種基于EAST改進的自然場景文本檢測器。通過加入ASPP來提升網絡的感受野,提升網絡對上下文信息的獲取能力。同時通過加入非局部注意力機制和邊界重定函數,在不犧牲速度的前提下,擴大感受野,對文本邊界進一步精準定位,極大地改善了EAST對于長文本和較大文本的誤檢和漏檢。實驗證明,改進的方法在精度上明顯優于以往的方法,F值在ICDAR2011、ICADR2015以及天池三個數據集上的F值均達到了84%以上。一方面由于本文的方法與EAST一致都是檢測整個文本框的整體方向,從而檢測多方向的文本,但是對于豎直文本檢測效果的性能較差,因此未來的研究方向可能會是結合本文方法與文本方向來檢測豎直文本。

猜你喜歡
特征文本區域
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
關于四色猜想
分區域
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产日本欧美在线观看| 人人澡人人爽欧美一区| 欧美中文字幕一区二区三区| 成人免费黄色小视频| 波多野结衣一区二区三区四区视频| 亚洲午夜国产片在线观看| 内射人妻无套中出无码| 久久国产精品77777| 伊人久久福利中文字幕| 久久黄色视频影| 欧美va亚洲va香蕉在线| 亚洲av色吊丝无码| 国产尹人香蕉综合在线电影 | 日韩在线2020专区| 亚洲性网站| 狠狠综合久久久久综| 亚洲婷婷丁香| 国产成人91精品免费网址在线| www.亚洲天堂| 一级毛片在线直接观看| 国产在线拍偷自揄拍精品| 欧美激情视频二区| 国产性生交xxxxx免费| 国产第一页第二页| 欧美一级99在线观看国产| 国产白浆一区二区三区视频在线| 亚洲天堂区| 丰满少妇αⅴ无码区| 一本一道波多野结衣一区二区 | 亚洲天堂区| 美女一级毛片无遮挡内谢| 丝袜亚洲综合| 五月天天天色| 爽爽影院十八禁在线观看| 亚洲国产黄色| 欧洲亚洲一区| 亚洲av日韩av制服丝袜| 老司机aⅴ在线精品导航| 亚洲成AV人手机在线观看网站| 欧美午夜在线观看| 亚洲乱伦视频| 国产成人调教在线视频| 亚洲伊人天堂| 久久国产乱子伦视频无卡顿| 91国内在线观看| 日韩不卡高清视频| 亚洲 成人国产| 在线中文字幕网| 一级毛片网| 九色在线观看视频| 国产成人精品男人的天堂| 国产免费a级片| 国产高清又黄又嫩的免费视频网站| 超碰精品无码一区二区| 欧美另类视频一区二区三区| 亚洲人成网站18禁动漫无码| 精品国产美女福到在线不卡f| 日本午夜三级| 亚洲成人精品久久| 伊人久久大香线蕉影院| 日韩最新中文字幕| 国产精品无码AV中文| 日韩无码视频播放| 无码网站免费观看| 国产一级特黄aa级特黄裸毛片| 国产精品青青| 无码电影在线观看| 午夜免费视频网站| 特级做a爰片毛片免费69| 国产亚洲精品自在久久不卡| 爽爽影院十八禁在线观看| 久久五月视频| 国产农村精品一级毛片视频| 国产免费网址| 国产无码精品在线播放| 午夜福利亚洲精品| 国产自在自线午夜精品视频| 国产精品任我爽爆在线播放6080 | 日韩精品一区二区三区swag| 四虎免费视频网站| 亚洲大学生视频在线播放| 一级做a爰片久久毛片毛片|