999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于層次自注意力的高效場景文本識別

2022-01-23 03:42:48陳平平林志堅
無線電工程 2022年1期
關鍵詞:特征提取文本

陳 瑛,陳平平,林志堅

(福州大學 物理與信息工程學院,福建 福州 350108)

0 引言

近年來,場景文本識別逐漸成為計算機視覺任務中的一個重要過程,在智能交通駕駛、圖像搜索、產品識別等實際項目中得到了廣泛的應用[1]。由于場景文本蘊含著豐富的語義信息,對理解現實場景發揮著至關重要的作用。隨著場景文本檢測技術的不斷發展,在精準的文本定位上如何實現精準的文本識別被視為一個極具挑戰性的研究問題。

目前的多數工作都從更加有效的提取視覺特征這一角度進行深入研究。例如,構造更加強大的視覺特征提取骨干網絡、引入文本圖像矯正機制等,它們在規則、清晰的文本裁剪圖像上取得了一定的突破性進展,但在應對不規則、模糊等文本圖像時,視覺特征的有效提取已無法滿足實際應用中的精度需求。

為了構建更加精準高效的識別網絡,本研究受到人類理解模式的啟發構造了一種新的層次自注意力編碼器(Hierarchical Self-Attention Transformer,HSAT)用于場景文本識別任務,在獲取視覺感知信息的基礎上結合有效的序列語義信息來推斷完整的文本內容。通過聯合深度可分離卷積[2](Depth Separable Convolution,DS Conv)與自注意力[3](Self-Attention)來增強捕獲視覺感知與文本序列間的相關性,以此獲得更為魯棒的識別結果。本研究可實現卷積神經網絡(Convolutional Neural Network,CNN)與Transformer的端到端結構,提升了模型的泛化能力。首先,通過輕量級特征提取網絡獲取視覺圖像的卷積嵌入映射圖;然后,采用HSAT對卷積嵌入塊進行編碼預測,利用視覺與序列特征間的互補性來學習更好的文本特征表示。實驗結果表明,本文提出的算法在5個場景文本識別基準數據集上均具備一定的優勢,并且以較高的識別速度在精度和效率間達到了更好的平衡。

1 相關工作

1.1 場景文本識別

早期的場景文本識別算法大都是基于文本圖像的特點進行研究。通過傳統的數字圖像處理方法對單個字符進行分割、匹配來識別字符。隨著背景日趨復雜的自然場景文本圖像的出現,文本識別任務面臨更深層的技術挑戰。

近年來,依靠大量人工成本進行文本識別的傳統方法[4]隨著深度學習的興起被逐漸取代。Le等人[5]最早提出用CNN進行文本識別,該模型在手寫字符MNIST數據集上達到了99%的識別精確率,證明了CNN模型的有效性。目前,基于深度學習的場景文本識別算法大致可分為基于字符的識別方法、基于序列的識別方法和基于注意力的識別方法。

基于字符的識別方法[6]采用固定詞典模型并結合CNN網絡對文本圖像進行掃描、分析,生成最終的識別結果。隨著更深入的研究,相關人員提出了基于序列的識別方法,例如CRNN[7]首先通過CNN提取一系列特征向量,然后輸入至循環神經網絡(Recurrent Neural Network,RNN)提取文本區域的字符序列,最后利用連接主義時間分類(Connectionist Temporal Classification,CTC)對序列數據進行預測解碼,有效地解決了時序數據在分類上難以對齊的問題。為了提升不規則形狀場景文本的識別效果,受到自然語言處理(Natural Language Processing,NLP)領域機器翻譯算法的啟發,RARE[8],ASRER[9],MORAN[10]等采用注意力機制對文本序列建模并解碼,通過關注更大范圍的上下文信息來獲得更好的文本序列特征。

1.2 自注意力與Transformer

在自然語言處理任務中,使用注意力機制能夠高效地提取稀疏數據的重要特征,因此被廣泛應用在機器翻譯中。自注意力機制作為注意力機制的變體,不僅繼承了注意力機制能夠從大量信息中篩選并聚焦在重要信息這一本質特點,同時更加擅長捕捉輸入數據間的內部相關性,以此獲得更長距離的序列信息。基于這一特性,谷歌提出了基于Transformer的BERT[11]模型在NLP領域取得重大突破。自此,由多頭自注意力機制和前饋網絡組成的Transformer掀起了計算機視覺領域的研究熱潮。

ViT[12]將Transformer引入CV領域進行圖像分類任務,輸入序列化的圖像數據至Transformer模型中進行編碼,舍棄了CNN中的歸納偏好問題,以更少的計算量達到了SOTA(State-of-the-art)的性能。DETR[13]將CNN與Transformer網絡相結合執行目標檢測任務,通過CNN提取的二維表征轉換至一維表征,進而輸入到Transformer的編解碼器中,利用表征間的相互關系來進行全局推理,從而得到預測結果。另外,Transformer也被應用于場景文本識別領域,VisSTR[14]采用ViT編碼器結構,在其基礎上對大規模的識別數據集進行訓練,通過并行的自注意力機制來進行序列的建模和預測,取得了相當不錯的性能。

2 主要方法

2.1 網絡結構

本文設計了一種聯合CNN與Transformer的場景文本識別網絡。整體網絡結構如圖1所示。

圖1 整體網絡結構Fig.1 Overall network architecture

采用MobileNetV2[15]的核心單元來構造視覺特征提取網絡,然后通過上采樣將視覺特征圖恢復至原圖尺寸的1/2,并將其輸入至HSAT中進行視覺和序列特征間的全局交互以實現有效的字符預測。

2.2 視覺特征提取網絡

考慮到識別算法需要滿足實時性需求,本文優先采用輕量級的特征提取網絡。在MobileNetV2網絡結構的啟發下,采用瓶頸殘差結構(Bottleneck Residual Block,BRB)作為該特征提取網絡的基本構成單元,在提取有效視覺特征的同時極大地減少了模型的參數量。具體來說,將調整尺寸后的圖像(224 pixel×224 pixel×1)數據輸入至由4個BRB堆疊的網絡中并輸出相應的視覺特征圖。由于圖像尺寸太小容易丟失目標位置信息,最后通過一個上采樣操作將該特征圖尺寸恢復至原圖大小的1/2,且保持通道維數不變(112 pixel×112 pixel×128)。

具體實現步驟如表1所示,Input表示輸入的尺寸(pixel × pixel)和維度,Operator表示相應的操作,t表示BRB的擴張倍數,C表示輸出通道維數。

表1 視覺特征提取器的網絡結構

圖2為BRB的內部結構,由擴張層、深度卷積層以及映射層組成,與一般的深度可分離卷積不同,它采用2個1×1的卷積結構來平衡在低維和高維空間中提取特征與計算效率的問題。

圖2 BRB的內部結構Fig.2 Internal architecture of BRB

2.3 層次自注意力編碼器

自然場景下的圖像通常包含復雜的背景噪聲,由于模型對文本區域的視覺特征不夠敏感,傳統的序列編解碼方法會導致文本識別結果出現較大的偏差。因此,本文構建了一種更加強大的HSAT,有效地減緩了視覺特征不足對序列預測的影響,同時避免了多階段傳播后梯度可能消失的問題。與RNN的順序結構不同,HSAT能夠以并行計算的方式關注文本序列的全局加權信息。基于傳統的Transformer編碼器結構,HSAT將深度可分離卷積融合到編碼器內部,以替換原先的矩陣計算。

為了在自注意力層的并行計算中增加位置信息的可學習性,本文不再采用人工設置位置編碼,而是對視覺提取網絡輸出的特征圖進行卷積操作,使輸入的Token map仍然保留二維空間的位置特性。

在傳統的Transformer中,編碼器端是由6個編碼塊堆疊而成。輸入每個編碼塊的Token個數取決于上一個編碼塊的輸出,且個數固定。而在HSAT中,Token的個數取決于卷積后的特征圖尺寸。為了降低自注意力層的計算復雜度,本文采用3層次結構,即每2個堆疊后采用深度可分離卷積來調整Token map的個數和維度。隨著網絡的加深,Token map個數則逐階段遞減,以此達到減少計算量的目的。HSAT的結構如圖3所示,每個階段Token map的個數分別為56×56,28×28,14×14;維度變化分別為128,256,512。由于文本識別任務包含39個輸出分類,即26個大寫字母、10個數字、1個開始標識符[GO]、1個結束標識符[S]以及一個未知字符標識符[UNK],最后利用全連接操作將輸出階段的Token個數調整至36,從而實現字符序列的預測。

圖3 HSAT結構Fig.3 Architecture of HSAT

3 實驗結果分析

3.1 數據集

基于3種類型的合成文本數據集進行訓練,并在5種類型的場景文本識別基準數據集上進行實驗以評估識別算法的性能。

訓練數據集由以下3類數據集組成,示例圖像如圖4所示,包括:

MJSynth(MJ)[16]:該數據集包含890萬個文本框圖像,對90 000個英語單詞應用渲染、著色和投影畸變,與真實圖像進行混合。

SynthText(ST)[17]:該數據集最初設計應用在場景文本檢測任務,本文對80 000張訓練圖像的文本區域進行裁剪來適應文本識別任務,大約包含700萬個帶有字符與單詞級的邊界框注釋實例。

SynthAdd(SA)[18]:該數據集是包含120萬個單詞框的合成文本圖像,其中增加了非字母、數字符號,例如標點符號等數據類型。

圖4 MJ,ST的示例圖像Fig.4 Image of datasets

5種類型的測試數據集覆蓋了規則文本和不規則文本,包括:

IIIT5K[19]:該數據集包含了5 000張在谷歌搜索引擎隨機檢索的規則場景文本圖像。

SVT[20]:該數據集來源于谷歌街景圖像,包含904張規則的文本裁剪圖像。。

IC13[21]:該數據集包含1 863張單詞級注釋框的規則裁剪文本圖像。

SVTP[22]:該數據集由645個裁剪的單詞級圖像構成,屬于不規則類文本圖像。

CUTE[23]:該數據集包含288個裁剪的單詞級圖像,以彎曲的文本圖像為主。

3.2 評估標準

本文從識別的精確度以及識別速度2個方面對場景文本識別算法的性能進行全面分析。為了公平比較,所有評估都是在相同的環境下進行的,即所有評估實驗均基于一張NVIDIA GeForce RTX 2080 Ti的GPU進行。

對于識別精度(Text Recognition Accuracy,TRA)的評估,定義如下:

(1)

式中,T表示文本框的總數量;TP表示識別正確的文本框數量。

對于識別速度(Text Recognition Speed,WRS)的評估,時間以ms為單位,計算識別每張文本圖像所需要的平均時間,定義如下:

(2)

3.3 實驗細節

采用AdaDelta優化器進行訓練,并使用以下訓練參數:衰減率為0.95,梯度下降步幅為5,Batch Size設置為128(其中,MJ,ST和SA訓練數據集的采樣比分別為0.4,0.4,0.2),圖像尺寸統一調整至224 pixel×224 pixel。此外,本文不采用任何預訓練方式,所有訓練實驗均使用Pytorch 3.6.0在2個型號為NVIDIA GeForce RTX 2080 Ti的GPU上并行訓練,共訓練10個epoch。

為了豐富文本數據的多樣性,使用了隨機縮放、旋轉和透視等數據增強手段。與常見的目標檢測任務不同,該模型的輸出分類為36個符號,分別為10個阿拉伯數字和26個不區分大小寫的字母符號。

3.4 消融實驗

將進行2組消融實驗來探究所提出方法的性能改進以及關鍵貢獻的影響。為了公平,所有實驗環境均相同。

3.4.1 BRB堆疊網絡的有效性

本組實驗對BRB堆疊網絡的有效性進行了探究,對單獨使用HSAT(方法1)、MobileNetV2-HSAT(方法2)以及本文所提出的模型進行評估。結果如表2所示。

表2 采用不同視覺特征提取網絡的實驗結果

從表2可以看出,聯合BRB堆疊網絡與HSAT在多個數據集上的平均識別精度為85.6%,比方法1和方法2分別高出0.3%,4.7%。特別的是,本文所采用的BRB網絡由MobileNetv2核心單元堆疊而成,其復雜度遠小于MobileNetv2的原始結構,但在該識別任務中卻獲得了相當的性能。

3.4.2 HSAT的有效性

為了驗證HSAT的有效性,本文在視覺特征提取網絡相同的前提下對CTC(方法1)、Attention(方法2)以及本文的方法進行探究。結果如表3所示。

表3 采用不同序列機制的結果

本文所使用的層次自注意力編碼器的識別精度遠高于方法1和方法2,這得益于Transformer能進行并行計算以獲取全局的序列特征。由于CTC和Attention的解碼結果在一定程度上依賴BiLSTM的編碼結果,但BiLSTM仍然受到超長距離依賴問題的限制, 而Transformer的并行性有效地解決了該問題。

3.5 對比實驗

為了驗證所提方法的有效性,本研究與其他較為先進的5種算法進行了比較,表4顯示了在III5K、SVT、IC13、SVTP以及CUTE五個數據集上的比較結果,其中加粗字體為最優結果,下劃線表示次優結果。

表4 不同基準數據集的識別精度對比

通過對表4的分析可以看出,本文所提出的模型在III5K與CUTE數據集上達到最優,相較于次優結果分別提升了0.8%,0.1%。在SVTP數據集上達到了次優結果。對于規則文本,可以看出本模型在此類數據集上獲得了更為顯著的結果。對于不規則文本,盡管相較先前算法在識別精度上提升了近20%,但錯誤比例相對較高。經分析,主要原因在于這類文本圖像本身具有光照不均、部分遮擋以及彎曲等容易造成混淆的特點。因此,仍需進一步探索識別此類樣本的有效解決方案。圖5展示了本方法識別的結果,綠色表示真實字符序列,黑色表示預測序列,紅色表示該字符預測錯誤。

圖5 場景文本識別數據集識別結果Fig.5 Recognition results of scene text recognition datasets

同時,該網絡的推理時間為6.24 ms,在識別效率上可以達到先進的性能。

4 結束語

本文提出了一種自注意力混合卷積的場景文本識別網絡。在輕量級特征提取骨干的基礎上通過HSAT加強視覺特征信息與文本語義信息的關聯。多模態的全局交互能夠有效抑制復雜噪聲所帶來的影響,使得網絡在低分辨率等數據集上獲得更好的泛化能力。經實驗,結果表明本模型在各個數據集上的性能均優于大多數算法,平均識別精度在85%以上。此外,將進一步考慮實現端到端的場景文本檢測識別算法,從而優化在實際項目中的部署。

猜你喜歡
特征提取文本
特征提取和最小二乘支持向量機的水下目標識別
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
Bagging RCSP腦電特征提取算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 亚洲美女AV免费一区| 日本免费福利视频| 欧美成人午夜视频| 国产农村1级毛片| 99r在线精品视频在线播放| 九色在线观看视频| 天天综合网在线| 无码一区二区三区视频在线播放| 夜夜操国产| 国产精品亚洲日韩AⅤ在线观看| av尤物免费在线观看| 国产精品久久精品| 久久久久免费精品国产| 国产二级毛片| 18禁黄无遮挡免费动漫网站| 日韩黄色大片免费看| 最新国产高清在线| 五月激情婷婷综合| 久久综合色播五月男人的天堂| 九九热精品在线视频| 欧美一级特黄aaaaaa在线看片| 国产成人三级在线观看视频| 亚洲一区毛片| 片在线无码观看| 欧美在线免费| 女人毛片a级大学毛片免费 | 91成人在线观看| 伦精品一区二区三区视频| 欧美午夜精品| 亚洲v日韩v欧美在线观看| 在线无码av一区二区三区| 亚洲一区二区三区麻豆| 亚洲成人网在线观看| 久久精品人人做人人爽| 国产自视频| 久久77777| 国产原创自拍不卡第一页| 丰满少妇αⅴ无码区| 亚洲AV电影不卡在线观看| 久久香蕉国产线看精品| 最新痴汉在线无码AV| 在线免费看片a| 一本色道久久88综合日韩精品| 99re免费视频| 免费看av在线网站网址| 国产一级在线播放| 97se亚洲| 99热6这里只有精品| 天天色天天综合网| 精品人妻系列无码专区久久| 国产欧美综合在线观看第七页| 亚洲日产2021三区在线| 东京热av无码电影一区二区| 久久久精品国产SM调教网站| 激情视频综合网| 欧美日本视频在线观看| 2020最新国产精品视频| 中文字幕久久亚洲一区| 不卡午夜视频| 国产精品第三页在线看| 亚洲天堂2014| 国产网友愉拍精品视频| 久久亚洲AⅤ无码精品午夜麻豆| 91精品小视频| 亚洲精品第一在线观看视频| 一级毛片视频免费| 波多野结衣一区二区三区AV| 天天色综合4| 欧美中文字幕在线视频| 久久夜色精品国产嚕嚕亚洲av| 粗大猛烈进出高潮视频无码| 91久久精品日日躁夜夜躁欧美| 99热这里只有成人精品国产| 国产主播在线一区| 国产va在线观看| 亚洲侵犯无码网址在线观看| 欧美日韩激情在线| 67194在线午夜亚洲| 国产亚卅精品无码| A级全黄试看30分钟小视频| 欧美影院久久| 亚洲中文字幕久久无码精品A|