999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合感受野增強和全卷積網絡的場景文字檢測方法

2022-04-14 02:19:12李曉玉宋永紅余濤
自動化學報 2022年3期
關鍵詞:文本檢測方法

李曉玉 宋永紅 余濤

場景圖像文字中承載的高級語義信息可以幫助我們更好地理解周圍的世界,同時場景圖像文字檢測技術也可以廣泛地應用于多媒體檢索、視覺輸入和訪問,以及工業自動化.早期的文字檢測技術都是使用傳統的模式識別技術,可以分為兩大主流方法,一種是以連通區域分析為核心技術的文字檢測方法,另一種則是以滑動窗為核心技術的文字檢測方法.傳統的模式識別方法一般包含多個步驟:字符候選區域生成、候選區域濾除、文本行構造和文本行驗證,繁瑣的檢測步驟致使文字檢測結果過于依賴中間結果且非常耗時.

隨著計算機視覺和模式識別領域的發展,目標檢測方法研究開始使用卷積神經網絡(Convolutional neural network,CNN),研究者們開始借鑒基于深度學習的目標檢測方法來檢測文字,因此產生了一系列基于回歸的深度學習文字檢測方法,該類方法主要是基于目標檢測框架 SSD (Single shot multibox detector)[1]、Faster-RCNN (Region CNN)[2]等進行針對文字特性的改進得到.這類方法的主要特點是通過回歸水平矩形框、旋轉矩形框以及四邊形等形狀來獲得文字檢測結果.同時,由于后續文字識別步驟需要精確的文字定位結果,也誕生了一系列基于分割的深度學習文字檢測方法[3-5],該類方法主要借鑒語義分割的思路,將文本像素分到不同的實例中,并通過一些后處理方法獲得文字像素級別的定位結果,并且由于像素級檢測的特點,近年來該類方法逐漸開始用于解決曲線文本檢測與識別問題[6].此外,由于無論是基于目標檢測還是基于分割都存在各自的局限,因此也有學者嘗試融合檢測和分割的思想[7]進行文字檢測.雖然近些年基于深度學習的文字檢測方法已經取得巨大進步,但是文字作為一種具有其獨有特色的目標,其字體、顏色、方向、大小等呈現多樣化形態,相比一般目標檢測更加困難,即便有許多的學者嘗試根據文字的特點進行網絡改進,如使用旋轉敏感的回歸[8]來適應任意方向文本,亦或使用端到端的文字檢測與識別方法聯合優化檢測和識別結果[9],但在遇到多方向文字以及多尺度文字場景圖像時,檢測準確性和有效性依舊差強人意.另外,現有檢測方法有一階端對端檢測流程,但當前一階方法存在以下問題:1)一階方法如果使用較小的網絡結構進行檢測,速度快但精度不理想,因此,一階方法一般會通過增加網絡深度提高檢測精度,顯然,這種做法增大了計算開銷,檢測速度無法得到滿足;2)一階檢測方法存在嚴重的正負樣本不均衡、對目標尺度不敏感等問題,也導致檢測器準確率不高.

本文提出一種可端對端訓練的快速文本檢測方法,可以魯棒地檢測任意方向文本和多尺度文本.為 了提升網絡的檢測效果并盡量減少計算量,受人類視覺系統感受野結構的啟發,在網絡結構設計中加入手工設計的感受野增強模塊,從而在保持較快速度前提下提高檢測精度,克服了一階檢測方法速度快精度低的弊端.在損失函數部分,為了改善樣本不均衡、文字尺度不敏感等問題,引入 Focalloss[10]和GIoUloss[11]訓練網絡,進一步提升網絡性能.

本文內容安排如下:第 1 節介紹基于全卷積網絡的檢測框架的各部分結構設計;第 2 節描述損失函數的設計;第 3 節給出詳細的實驗結果與模型分析;第 4 節對本文進行總結.

1 網絡整體框架

1.1 檢測流程

圖1 是本文文字檢測算法流程的一個高級概述.可以看到圖像送入全卷積網絡(Fully convolutional networks,FCN),通過特征金字塔網絡(Feature pyramid networks,FPN)[12]隨之產生多通道的像素級別的文本得分圖和旋轉矩形框預測圖.其中 1 通道的像素級別文本得分圖的每一個像素值在 [0,1]之間,代表該像素屬于文本的置信度.旋轉矩形框預測圖表示以當前像素點為中心,可以包圍文本區域的旋轉矩形,共包含 5 通道特征圖,分別代表以該像素點為中心,預測的旋轉矩形的4 條邊與該點的距離以及該矩形的旋轉角度.網絡產生的旋轉矩形框預測結果直接經過精細局部感 知非極大值抑制(Refined locality aware non-maximum suppression,RLANMS)產生最終的結果.

圖1 本文方法檢測流程圖Fig.1 Flow chart of our detection method

1.2 網絡結構設計

圖2 展示了文字檢測網絡的詳細結構圖,主要包括4 部分:特征提取主干、感受野增強模塊、特征融合分支和輸出層.

圖2 本文方法網絡結構圖Fig.2 Structure of our network

特征提取主干使用的是在 ImageNet[13]數據集預訓練的 50 層的殘差網絡(ResNet50[14]).ResNet50 有 5 個級別特征圖,本文主要使用后四個級別的特征層,如圖2 所示,它們的尺寸分別是輸入圖像的 1/32,1/16,1/8,1/4,用fi表示.

在特征融合分支中,逐漸地合并從 ResNet50中提取的4 個級別特征圖mi,受 FPN[12]啟發,具體融合方式如式(1)和式(2)所示.

式(1)和式(2)中,bi是準備融合前的特征圖;fi是融合后的特征圖;[·;·]表示不同層次特征圖進行通道方向上的拼接.在每個融合階段,前一階段的特征圖fi-1經過一個反卷積層放大兩倍,然后與當前特征圖進行連接.這里,當i=4,5時,mi會先經過一個感受野增強模塊,該模塊的具體結構將在下一節詳細介紹.接著,一個conv1×1模塊用于增加網絡的非線性并降低特征圖的通道數,減少網絡參數.最后的融合階段,經過一個conv3×3模塊得到整個融合分支的最后輸出f4,作為輸出層的輸入.

輸出層各部件的特征圖通道數如圖2 所示,輸出層中,輸入的是 32 通道的融合特征,目的是為了保證以少許的計算復雜度換取更高的檢測精度.最后的輸出層包含3個conv1×1模塊,分別將輸入特征變換到 1 通道的文本得分圖、4 通道的矩形距離響應圖和 1 通道的旋轉角度響應圖,文本得分圖和旋轉矩形框的標簽制作具體可參照文獻[15].

1.3 增強感受野模塊

自然場景文字由于尺度大小和寬高比多變,導致現有方法準確率欠佳.本節通過加入感受野模塊(Receptive field block,RFB)來提升不同尺度和寬高比文字檢測準確率.受目標檢測領域中文獻[16]方法的啟發,本文重新設計了這一模塊,并將其嵌入特征融合中.圖3(a)展示了在人類視覺系統中,感受野的大小在人類視網膜圖中是離心率的函數,感受野隨著離心率的增加不斷增大;在不同視覺系統中,感受野也不同,圖3(b)展示了基于圖3(a)中參數的感受野空間陣列,顯示了感受野的分布規律,每個圓的半徑表示在對應離心率下的感受野大小.

圖3 離心率與感受野的關系圖Fig.3 Structure of the human visual system's receptive field

本節希望通過控制離心率來控制感受野大小,因此設計了與人類視覺系統感受野結構有相似分布規律的感受野增強模塊.整個感受野增強模塊用于在網絡特征融合時,主干網絡中共4 次特征融合,為了保證此模塊在發揮最大作用的同時,盡量減少參數量以加快檢測速度,本文只將該模塊用于高層語義(實驗時,加在低層在 ICADAR2015 上僅有 0.1%的提升),即主干網絡的 stage 4和stage 5.該模塊在參考Inception-ResNet[17]的基礎上,加入了空洞卷積,使用不同尺度的卷積核作為不同視覺系統,不同膨脹率的空洞卷積作為對應視覺系統中的離心率.

1.3.1 多分支卷積層

感受野增強模塊是由多種尺度卷積核的卷積層構成的多分支結構[17].具體設計如圖4 所示,從主干網絡提取的特征圖分別進入 6 個分支,其中,前五個分支都先經過一個conv1×1模塊以減少通道特征,最后經過一層空洞卷積,且其中間 4 個分支在空洞卷積前還要分別經過conv1×3、conv3×1、conv1×5、conv5×1卷積,最后一個分支為 short cut.使用 1、3、5 不同大小的卷積核相當于不同的視覺系統,它們的基礎感受野不同,針對不同尺度的文字進行檢測.使用 1×n和n×1代替n×n卷積是為了降低參數量,使得提升網絡性能的同時,盡量減少計算成本的增加;最后一個分支是直連,該設計來自于 ResNet和 Inception-ResNet.5 個分支的輸出進行通道上連接后與直連通道進行相加融合,得到該模塊的最終輸出.

圖4 感受野增強模塊Fig.4 Receptive field block

1.3.2 空洞卷積層

在圖像分割領域,為了保證在增大感受野的同時,又不會因為池化操作而損失圖像信息,學者們提出空洞卷積[18].在文字檢測中,大的長文本需要比較大的感受野,小的短文本檢測需要保留盡量多的信息,因此在本文的感受野增強模塊中加入空洞卷積,保證在感受野增大的同時,避免信息損失.在圖5 顯示的結構中,每個分支都是一個正常卷積后面加一個空洞卷積,膨脹因子大小根據卷積核大小設計.本文設計的感受野增強模塊結構中,分別在conv1×1,conv1×3,conv3×1,conv1×5,conv5×1卷積后加膨脹因子大小為 1,3,3,5,5的conv3×3卷積.圖5 展示了卷積核大小為 3×3 的卷積在膨脹因子分別為 1,3,5 情況下的感受野.

圖5(a)表示當膨脹因子為 1 時,與普通 3×3的卷積相同,感受野為 3;圖5(b)表示當膨脹因子為 3 時,與普通 3×3 的卷積相比,空洞卷積的感受野為 9;圖5(c)表示當膨脹因子為 5 時,與普通3×3 的卷積相比,空洞卷積的感受野為 15.圖5直觀展示了空洞卷積增大感受野的過程.

圖5 不同膨脹因子的空洞卷積Fig.5 Dilated convolution with different dilation rates

2 損失函數

本小節介紹本文模型的損失函數,模型整體的損失函數表示為

式中,Lconf和Lloc分別表示文本得分圖和旋轉矩形框損失;λ是平衡因子,用于均衡文本得分圖損失和旋轉矩形框損失;在本文實驗中,λ設為 1.

2.1 文本得分圖損失

在文字檢測領域,一幅圖像可能生成成千上萬的候選包圍框,但是一幅圖像上真實目標包圍框可能只是很少幾個甚至沒有,這樣就造成正負樣本比例失衡的問題.本文網絡最后會得到大小為256×256×1的文本得分圖和 256×256×5的旋轉矩形框幾何特征圖,在每一個像素點位置都會預測一個候選包圍框,也即是 256×256 個候選框.然而,每幅圖像上需要檢測的文字數量只是很少幾個甚至0 個,這樣致使網絡訓練過程中文字區域與非文字區域樣本比例嚴重失衡.

目前已有的很多檢測方法也關注到了樣本不均衡問題,其一般做法是對樣本進行數據增廣或者訓練過程中進行難樣本挖掘.這類做法確實在一定程度上改善了樣本不均衡問題,但是也在整個檢測過程中引入額外的步驟,這與本文 “簡潔快速的端對端檢測器”初衷是相違背的.為了保持一個簡單的訓練過程,同時又可以改善正負樣本不均衡問題,本文引入 Focalloss[10]損失函數,計算式為

式中,αt用于控制正負樣本的權重.一般而言,文字檢測任務中,文字類的樣本數量遠遠少于背景類的樣本,因此,αt取[0,0.5]來增加文字類的樣本的權重,使網絡關注文字類的學習. (1-pt)γ用于調控易分類樣本和難分類樣本的比重.當一個樣本越難分類,pt就越小,那么其損失和反向梯度就會越大,損失再乘以 (1-pt)γ則會更大;易分類樣本恰好相反,損失和梯度會更小.于是網絡就會更多關注難分類樣本的學習,從而降低樣本誤檢.通過多次實驗結果,當αt=0.5,γ= 0.5 時,效果最好,本文實驗均在該參數設置下進行.

2.2 旋轉矩形損失

2.2.1 矩形框損失

場景文字檢測的一大難題是場景圖像中文字的尺度、寬高比極其多變.目標檢測領域常用 L1、L2損失來回歸目標包圍框,這類損失的特點是對大數很敏感,如果直接使用這類損失來回歸文字區域,那么大文字、長文字的損失就會相對更大,不僅導致梯度難以控制,也很可能指導網絡學習出更大更長的文本包圍框.因此,需要一個對文字尺度不敏感的函數進行文字區域回歸.

EAST (Efficient and accurate scene text detector)[15]中,對于矩形框部分使用交并比(Intersection over union,IoU)損失,Zhou等[15]認為 IoU的特性就是對尺度不敏感,可以兼容文字的多種尺度,但沒有考慮 IoU 作為損失函數時存在以下問題:1)假設兩個目標包圍框沒有發生重疊,那么IoU值為零,這種情況下,IoU 作為損失反向梯度也為 0,網絡得不到任何優化;2)IoU 無法表達出兩個目標矩形框的重合情況.圖6 給出了兩個目標包圍框不同情況下的重合,圖6(a)~6(c)三種情況下的 IoU值相等,但顯然它們的重合情況完全不同.這三種情況下,圖6(a)會得到一個很好的回歸結果,圖6(c)很難回歸出理想的包圍框.因此,IoU 函數用作損失無法反映出兩個目標包圍框的重疊情況.

圖6 三種IoU 相等的情況[11]Fig.6 Three situations with the same IoU[11]

針對上述 IoU 的缺點,本文參考文獻[11]引入GIoU (Generalized IoU)作為文字回歸的損失,GIoU 計算過程很簡單,詳細計算步驟如下:

1)對于兩個任意形狀凸邊形,q1,q2?Q∈Rn,求出可以封閉兩者的最小凸邊形q3.這里q3?Q∈Rn.例如,圖6(c)中的虛線部分即兩個矩形框的最小凸邊形.

2)計算q1,q2的IoU值,

綜上所述,對于矩形框部分,本文模型使用 GIoU損失的表達式為

式中,表示網絡預測的矩形形狀;R*表示其對應的真實包圍框;R表示可以封閉R*和的最小矩形.|∪R*|的寬高可以簡單地表示為

式中,d1,d2,d3和d4分別代表一個像素位置到其對應的矩形框上、右、下、左邊的距離.R的寬高計算式為

因此,根據上述計算式,GIoU 可以很容易地計算出來.

2.2.2 角度損失

角度損失簡單地使用余弦損失,計算式為

綜上,幾何形狀損失可以整合表示為

式中,λθ在實驗時設置為20.值得一提的是,本文在計算Lα時假設兩個目標包圍框角度相同,即忽略了角度差異.雖然網絡在訓練過程中,兩個包圍框的角度有較大差異,但是這樣的近似 GIoU值依然可以反映兩個包圍框的重合情況.

3 實驗和結果分析

為了證明本文模型的有效性,分別在 ICDAR-2013,ICDAR2015,以及 MSRATD-500 數據集上進行測試.并對實驗結果進行了詳細的對比和分析.

3.1 實驗數據

ICDAR2013[19]:高分辨率的自然場景圖像,包含訓練圖片 229 幅,測試圖片 233 幅.

ICDAR2015[20]:該數據集來自 ICDAR2015 魯棒閱讀競賽中的任務 4:偶然場景文字檢測.該數據集包含的圖片是隨機拍攝的生活場景,不是刻意針對文字拍攝的.訓練集包含1 000 幅圖片,測試集包含 500 幅圖片,文本的標注是以單詞為單位.

MSRATD-500[21]:該數據集是多方向自然場景文字數據集,訓練集包含 300 幅圖片,測試集包含200 幅圖片.該數據集不僅包含英文文本也包含中文文本,并且中英文標注都是以行為單位.因為該數據集數據量太少,所以在使用該數據集時,加入HUSTTR400[22]數據集共同作為訓練數據.

3.2 模型訓練

本文方法利用 ADAM 優化器進行網絡訓練.為了加速訓練,統一地從原始圖片上隨機采樣 512 ×512 像素大小的圖片塊作為每一批次的訓練樣本,訓練的批次大小設置為 12.ADAM 的初始學習率為 0.0001,每迭 代 10 000 次下降為原來的0.94倍,訓練均在一塊 TITAN X GPU 上進行,一共迭代 100 000 次.

3.3 實驗結果和分析

3.3.1 精度性能

首先在兩個比較流行的多方向偶然場景文字數據集 ICDAR2015和 MSRA-TD500 上進行實驗,以此驗證本文模型解決偶然場景下多方向文本檢測的能力.并且,為了驗證本文方法的多功能性,又在比較流行的水平自然場景文字數據集 ICDAR2013進行訓練與測試,并與現有方法的性能進行了詳細對比.

1)多方向偶然場景文字數據集

本節實驗首先在廣泛使用的多方向偶然場景數據集 ICDAR2105 上實施,與其他方法的部分檢測結果列舉在圖7 中.從圖7 中列舉的檢測結果可以看到,Zhang等[23]和Shi等[24].對多方向文本和多尺度文本出現了大量的漏檢現象,而本文方法在所列舉的這幾幅圖像上表現出了對多尺度文本和多方文本魯棒的檢測性能.

圖7 各種方法在ICDAR2015 測試集檢測結果比較Fig.7 Qualitative comparison on ICDAR2015 dataset

根據文獻[20]定義的召回率(R)、精確率(P)、F值三個指標,將本文方法與其他方法的定量比較結果列舉在表1 中.本文模型單尺度測試的結果已經達到與現有先進方法相當的水平.更重要的是,本文模型與以 PVANET 作為基網絡的 EAST 相比,在都使用單尺度測試的情況下,F值相比EAST 高出 6.29%,當 EAST 基網絡 PVANET 通道增加為原來兩倍時,本文方法 F值高出 3.8%,更進一步,本文方法在單尺度測試的情況下,依然高出 EAST 多尺度測試版本 1.3%.與方法 Text-Boxes++相比,本文方法的單尺度測試結果高出TextBoxes++的單尺度測試結果.

表1 ICDAR2015 測試集檢測結果對比Table 1 Qualitative comparison on ICDAR2015 dataset

本文方法在 MSRA-TD500 數據集上實驗成績與現有方法相比也達到了相當的水準,如表2 所示.

表2 MSRA-TD500 測試集檢測結果對比Table 2 Qualitative comparison on MSRA-TD500 dataset

從表2 可知,本文方法與以 PVANET 作為基網絡的 EAST 相比,在 R值和 F值上分別高出 1.77%,8.94%和 4.45%,當 EAST 基網絡 PVANET 通道增加為原來兩倍時,本文方法 F值依舊高出 2.8%.Zhang等[23]的方法是之前發表的先進多方向文字檢測方法,與其相比,本文方法在 R值、P值、F值三個指標上分別提升了 25.9%,21.5%,25%.

2)水平自然場景文字數據集

除了在多方向數據集上進行實驗,本文也在水平文本數據集 ICDAR2013 上進行實驗,該數據集是目前最為廣泛使用的水平文本數據集.表3 展示了本文方法與其他先進文字檢測方法的成績對比情況.

由表3 可以觀察到,除了 Tang等[42]的方法,本文方法成績全方面超越表3 中所列舉的先進文字檢測方法.然而,Tang等[42]的方法使用的是包含了兩個網絡的級聯結構,檢測一幅圖片平均耗時 1.36 s,更進一步,該方法只可以檢測水平文本數據集,對多方向文本失效.與相似網絡[43]結構 EAST 相比,表3 中列出以 2 倍通道 PVANET 作為基網絡的EAST 的檢測成績,召回率、精確率和 F值分別為0.8267,0.9264,0.8737,本文方法在三個指標上分別超出 EAST 3.13%,0.46%,1.93%.

表3 ICDAR2013 測試集檢測結果對比Table 3 Qualitative comparison on ICDAR2013 dataset

3.3.2 時間性能

本文方法不僅檢測準確,而且檢測快速.在ICDAR2015 數據集上對本文方法和部分先進檢測算法[44-45]的運行速度進行比較,結果如表4 所示.

由表4 可知,本文方法在取得 82% 的 F值的情況下,檢測速度為 12.5 幀/s.相較其他方法,這樣的結果在性能和速度上達到了相對均衡.觀察表4,可以看到 Tian等[27]提出的 ss-600 方法,訓練時圖片的最短邊縮放到 600,其在 ICDAR2015 數據集上的最優結果是在將圖片最短邊放大到 2 000 時得到的,這種情況下,該方法的時間相對表4 中顯示的時間會更慢.對于 Zhang 等.[23]的方法,MS 表示使用三個尺度測試(如200,500,1 000).EAST 方法在以 PVANet 為基網絡時,可以達到 16.8 幀/s的速度,雖然 EAST 方法比本文方法略快,但是在ICDAR2015 數據集上 F值低于本文方法 6.3%.EAST 方法為了提高檢測成績,將 PVANet 的通道數增加為原來的兩倍,速度增為 13.2 幀/s,與本文方法速度相近,但檢測的 F值依然比本文方法低4% 左右.

表4 多種文字檢測方法在ICDAR2015 上的精度和速度對比結果Table 4 Comparison of accuracy and speed on ICDAR2015 dataset

3.4 模型分析

3.4.1 模型各組件作用

為了直觀地觀察模型中各組件的作用,本節進行控制變量實驗來觀察各組件如何影響模型的最終效果.由于 ICDAR2015 數據集為自然場景圖,在該數據集上的結果更能體現方法的實用性,因而整個實驗在該數據集上進行.本節的所有實驗除了控制變量,其他條件均相同,實驗結果如表5 所示.

從表5 中可以看出:1)本文模型通過使用基網絡 ResNet50,F值得到提升,在 ICDAR2015 數據集上達到 79.7%.2)在本文網絡結構中,對 Res-Net50 的第 4 階段和第 5 階段特征圖之后嵌入感受野增強模塊,F值得到 0.5% 的提升.這樣的實驗結果說明增大網絡的感受野對網絡性能確實有所提升,提升不是很明顯的主要原因是 ICDAR2015 數據 集主要特點在于自然場景背景的復雜,而不在于長、大文本,因此基礎模型由于感受野不足而誤檢的情況并不常見.3)當對像素點進行文本/非文本分類時,引入 Focalloss 作為分類損失,F值提高到 81.3%.這組實驗一定程度上說明正負樣本不均衡問題確實影響網絡性能,并且 Focalloss 確實改善了網絡性能.4)使用 GIoU 作為網絡回歸矩形的損失,使得F值再次得到提升.最終,本文方法在 ICDAR2015數據集上的召回率、精確率、F值分別為 78.9%,85.4%和 82%.

表5 本文方法各組件在ICDAR2015 數據集上的作用效果Table 5 Effectiveness of various designs on ICDAR2015 dataset

3.4.2 模型優缺點

圖8 給出了本文模型在 ICDAR2013、ICDAR-2015 以及 MSRA-TD500 數據集測試集上的部分圖像檢測結果.從這些檢測結果圖可以看出,本文方法在多方向數據集、水平數據集上都表現出了優異的檢測結果,并且對于一幅圖像上出現文字尺度多變、寬高比多邊的情況,本文方法檢測依然具有一定的魯棒性.另外,從圖8(c)可看出本文方法不僅可以檢測英文文本,中文文本同樣可以檢測.但是本文方法也存在檢測效果不理想的情況,如圖9(a)所示,對于過長文本和特大文字,本文方法會出現檢測不全甚至漏檢的情況.考慮到長文本和特大文字需要更大的感受野,雖然添加了感受野增強模塊,但感受野依然受限,導致長文本和特大文字檢測失敗.圖9(b)顯示了本文方法對曲線文本檢測[46]的效果差強人意,主要原因是一方面旋轉矩形框無法準確地表示出曲線文本的形狀,另一方面可能是因為所使用的三個數據集的訓練集中包含曲線文本的圖像樣本幾乎沒有.圖9(b)也顯示出本文方法在垂直文本檢測方面效果欠佳,這個問題出現的一個主要原因可能是在訓練集中包含垂直文本的樣本圖片數量較少,導致網絡對垂直文本的學習程度不夠.

圖8 本文方法在各個數據集上檢測結果比較Fig.8 Comparison of detection results on different datasets

圖9 本文方法檢測失敗的一些場景圖像Fig.9 Some scene image of detect failure

4 結束語

本文提出并介紹了一種結合感受野增強和全卷積網絡的多方向文本檢測方法.該方法基于以 Res-Net50 為基網絡的全卷積網絡(FCN),不僅可以魯棒地檢測任意方向文本和多尺度文本,而且消除了冗余且耗時的中間步驟,可端對端訓練.首先,為了提升不同尺度和寬高比文字檢測準確率,受人類視覺的感受野結構的啟發,使用多層卷積和空洞卷積設計了感受野增強模塊,使得網絡對尺度、寬高比多變的文字檢測更加魯棒,然后,針對文字檢測中樣本不均衡問題,引入 Focalloss 對像素點進行文本/非文本預測,從而一定程度上提升了網絡的檢測性能;其次,針對以往 IoUloss 使用存在的幾個弊端問題,引入 GIoU 作為包圍框回歸損失,改善文本定位精確性;最后,在多方向文本數據集 ICDAR2015和 MSRA-TD500 以及水平文本數據集 ICDAR2013上與現有的頂級方法進行對比實驗和模型分析,最后結果顯示本文方法達到了現有先進水平,并且也驗證了本文各部件的作用.

猜你喜歡
文本檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99热这里只有精品免费国产| 中日无码在线观看| 国产一级妓女av网站| 亚洲国产综合精品一区| 日韩精品无码免费一区二区三区 | 一级毛片在线直接观看| 成人综合网址| 国产精品yjizz视频网一二区| 久久综合色视频| 亚洲欧洲日本在线| 日本中文字幕久久网站| 亚洲人成人无码www| 亚洲精品国产日韩无码AV永久免费网 | 日本在线国产| 丁香五月激情图片| 午夜精品国产自在| 暴力调教一区二区三区| 亚洲视屏在线观看| h网站在线播放| swag国产精品| 无码人妻热线精品视频| 亚洲国产综合精品一区| 香蕉国产精品视频| 99久久人妻精品免费二区| 国产精品无码久久久久AV| 青青草原国产精品啪啪视频| 国产性精品| 欧美无遮挡国产欧美另类| 国产精品无码影视久久久久久久 | 亚洲欧美另类久久久精品播放的| 久久免费视频6| 97人人模人人爽人人喊小说| 国产哺乳奶水91在线播放| 波多野结衣一区二区三区四区| 欧美色伊人| 欧美激情视频二区| 亚洲国产成人精品无码区性色| 日韩精品成人网页视频在线| 国产91九色在线播放| 久久青草免费91线频观看不卡| 一级片一区| 日韩色图在线观看| 国产成人免费高清AⅤ| 国产精品久久久久久久久| 亚洲欧洲日韩久久狠狠爱| 国产另类视频| 综合久久久久久久综合网| 国产麻豆91网在线看| 成人夜夜嗨| 国产精品偷伦在线观看| 中文字幕第4页| 欧美在线伊人| 国产视频入口| 精品伊人久久久大香线蕉欧美 | 99久久无色码中文字幕| 丰满人妻中出白浆| 99热6这里只有精品| 色九九视频| 凹凸国产熟女精品视频| 欧美性天天| 亚洲精品视频免费| 国产精品亚洲αv天堂无码| 欧美精品高清| 香蕉蕉亚亚洲aav综合| 国产日韩欧美一区二区三区在线| 最新亚洲人成无码网站欣赏网| 日韩小视频网站hq| 久久久久免费看成人影片 | 九九免费观看全部免费视频| 这里只有精品国产| 国产精品免费入口视频| 国产精品自在拍首页视频8| 蜜臀AV在线播放| 熟女成人国产精品视频| 伊人查蕉在线观看国产精品| www.亚洲一区| 91亚洲视频下载| 2021国产精品自产拍在线| 97超级碰碰碰碰精品| 五月婷婷综合在线视频| 日韩无码视频播放| 久久精品中文无码资源站|