













摘 要:為了解決自然場景文本圖像因為遮擋、扭曲等原因難以識別的問題,提出基于多模態特征融合的場景文本識別網絡(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享權重內部自回歸的排列語言模型實現多種解碼策略;其次,MMSTR在圖像編碼階段提出殘差注意力編碼器(residual attention encoder,REA-encoder)提高了對淺層特征捕獲能力,使得淺層特征能夠傳到更深的網絡層,有效緩解了vision Transformer提取圖像淺層特征不充分引起的特征坍塌問題;最后,針對解碼過程中存在語義特征與視覺特征融合不充分的問題,MMSTR構建了決策融合模塊(decision fusion module,DFM),利用級聯多頭注意力機制提高語義與視覺的融合程度。經過實驗證明,MMSTR在IIIT5K、ICDAR13等六個公共數據集上平均詞準確率達到96.6%。此外,MMSTR在識別遮擋、扭曲等難以識別的文本圖像方面相較于其他的主流算法具有顯著優勢。
關鍵詞:場景文本;特征融合;語言模型;注意力機制;殘差網絡
中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-042-1274-07
doi: 10.19734/j.issn.1001-3695.2024.05.0250
Scene text recognition based on multimodal feature fusion
Cai Mingzhe, Wang Manli, Dou Zeya, Zhang Changsen
(School of Physics amp; Electronic Information Engineering, Henan Polytechnic University, Jiaozuo Henan 454003, China)
Abstract:Toward addressing the challenges posed by occlusions, distortions, and other impediments in recognizing text within natural scenes, this paper proposed a scene text recognition network MMSTR based on multi-modal feature fusion. Firstly, MMSTR employed a shared-weight internal autoregressive permutation language model to facilitate a variety of decoding strategies. Secondly, during the image encoding phase, MMSTR introduced a REA-Encoder, which enhanced the capability of capturing shallow features, allowing them to propagate to deeper network layers. This effectively alleviated the issue of feature collapse resulting from the inadequate extraction of shallow image features by vision Transformer. Finally, to address the insufficient fusion of semantic and visual features during the decoding process, MMSTR constructed a DFM . The DFM utilized a cascaded multi-head attention mechanism to enhance the integration of semantic and visual features. Experimental evidence confirms that MMSTR attains an average word accuracy rate of 96.6% across six public datasets, including IIIT5K and ICDAR13. Furthermore, MMSTR exhibits a significant advantage over other mainstream algorithms in the recognition of challenging text images that are obscured or distorted.
Key words:scene text; feature fusion; language model; attention mechanism; residual network
0 引言
隨著信息化與智能化時代的到來,場景文本識別的應用越來越廣泛,如自動駕駛、道路標牌識別、自然場景翻譯等。自然界捕獲的文本圖像具有文本扭曲、字符分布不均勻、背景雜亂、字體多變等問題[1],基于圖像處理的傳統算法不足以勝任如此復雜的自然環境。早期基于深度學習的場景文本識別算法將識別任務當作分類問題[2],首先利用圖像分割,分割出字符位置,再逐個識別圖像中的字符,并在最后階段連接成字符串。這類算法僅僅關注圖像視覺的信息,忽略了場景文本圖像中字符與字符之間的關聯,因此它的性能在很大程度上受限于圖像的質量。
場景圖像文本中蘊涵著語義知識,借助文本間的語義信息,人們可以更好地識別場景圖像中的文本內容。受到自然語言處理領域的啟發,現階段大多數場景文本識別算法學習圖像中字符之間的關系,將其作為潛在的語義信息[3],并將識別整個圖像的任務當作一個序列預測處理。因此現有的場景文本識別算法大致可以分為非語義方法和語義方法兩大類。非語義的方法僅僅依靠視覺信息去預測圖像中的文本,缺乏語義推理能力。非語義方法對圖像質量要求比較高,在視覺特征缺失的情況下(如遮擋),難以實現最優的識別效果[4]。語義方法會挖掘圖像中詞匯、語法等信息作為上下文語義信息,接著利用語義信息和視覺信息聯合預測圖像中的文本,所以相較于非語義的方法,語義方法往往能取得更好的識別性能。視覺信息和語義信息屬于兩個模態的信息,并不能簡單地融合在一起,解決這個問題的一個常用方法是利用一個強大的視覺語言解碼器來融合從視覺編碼器和語言編碼器中獨立提取的特征。Qiao等人[5]將場景識別任務當作跨模態任務,并提出了一種語義增強的編解碼模型,但是難以做到實時識別。于是,Yu等人[6]提出了SRN,利用多路并行傳輸的自注意力網絡來學習語義信息,雖然有效提升了識別率,但是卻存在不同模態特征長度對齊的問題。Wang等人[7]提出了VisionLAN,在訓練階段利用語言感知的視覺掩圖遮擋選定的字符區域,將視覺線索與語義知識相結合,提高了場景文本識別的性能。為了高效地融合視覺信息和語義信息,Fang等人[8]提出了ABINet網絡。ABINet將雙向自主語言建模與迭代學習結合,有效緩解了對齊異常的問題,但是難以識別任意形狀以及背景復雜的圖像。Bautista等人[9]利用排列語言建模學習一個具有共享權重的內部自回歸語言模型,聯合處理上下文特征和圖像特征來執行初始解碼和迭代細化,能夠有效地識別任意形狀的文本圖像,但是其推理速度不能令人滿意。Yang等人[10]將排列語言建模與掩碼語言建模統一在一個解碼架構中隱式學習上下文,暫時實現了先進的識別性能,但算法存在復雜度過高的問題。考慮到上述算法存在的問題,為了進一步解決場景文本圖像模糊、字體扭曲等問題。本文在場景文本識別中利用文本的語義特征和圖像的視覺特征進行跨模態聯合訓練來緩解文本圖像模糊、字體扭曲導致難以識別的問題。但是常規的多模態文本識別網絡存在參數量大、訓練過程中算力資源消耗過多等問題。例如:MATRN[11]通過利用多模態增強代替語義增強,實現了視覺特征和語義特征的進一步交互,但是參數量過大導致識別效率低下[12]。Zhao等人[13]指出訓練語言模型提取語義特征會為整個識別網絡的訓練消耗掉大量的算力資源。受此啟發,本文提出的MMSTR使用排列語言建模出不同的文本序列,避免了訓練過程中巨大的資源消耗問題??偨Y本文貢獻主要分為以下三個方面:
a)提出了一個MMSTR場景文本識別網絡。經過大量實驗證明,MMSTR在多個基準數據集中評估對比當下主流算法均能達到最優的識別效果。
b)設計了一個基于殘差注意力的圖像編碼器。利用殘差連接能夠緩解vision Transformer[14]在場景文本圖像編碼過程中因為淺層特征不足所引起的特征坍塌問題,從而更好地讓模型提取到具有全局信息和淺層信息的視覺特征。
c)提出了決策融合模塊。通過搭建多個級聯的多頭注意力機制,在解碼過程中將圖像視覺特征與不同層次的語義特征融合,提高了字符解碼準確率。
1 本文模型
本文提出的MMSTR網絡采用了編解碼器的框架,整體網絡結構如圖1所示,其中[B]和[P]代表序列開始和序列填充,[E]表示序列的結束。字符最大的長度T設置為25時會產生26個位置標記。位置編碼(Pq)是一個模型可學習的參數,初始化為均值是0,標準差為0.02的正態分布。MMSTR主要由殘差注意力編碼器、決策融合解碼器兩部分組成。考慮到MMSTR的參數量和整體識別性能,本文將殘差注意力編碼器的層數設置為12,決策融合解碼器的層數設置為1。殘差注意力編碼器的輸入為文本圖像I∈Euclid Math TwoRAph×w×3,h、w分別為圖像的高度和寬度,3為圖像的通道數。文本圖像經過殘差注意力編碼器編碼后的輸出是視覺特征If 。隨后視覺特征If 、位置編碼Pq、上下文輸入Ic,以及由排列語言生成的注意力掩碼序列Am被送進決策融合解碼器生成解碼特征。解碼特征最后經過線性層產生MMSTR最終的識別結果。
1.1 殘差注意力編碼器
殘差注意力編碼器(REA-encoder)會將圖像分成多個圖像塊,其具體結構如圖2所示。它的每個層由一個殘差注意力模塊(ReMHA)和一個多層感知機(multi-layer perceptron, MLP)組成,如圖3所示。ReMHA是本文基于ViT網絡提出的全新模塊,與常規的ViT網絡相比,最大的差異是ReMHA在多頭注意力中加入了注意力殘差學習。
ReMHA在注意力層中引入了一種新式殘差連接機制(圖3),該機制通過自適應學習的門控變量來控制注意力在頭維度的快速擴展。該方法不僅保留了全局特征,還將淺層特征通過殘差連接傳遞至更深層,從而在深層網絡結構中也保持了淺層信息的活性。因此ReMHA有效地增強了提取特征的多樣性,緩解了在深層網絡中常見的特征坍塌問題。REA-encoder通過這種策略,提升了模型的表達能力,增強了網絡的泛化性和魯棒性。
1.2 決策融合解碼器
決策融合解碼器由一個多頭注意力(multi-head attention, MHA)[16]、一個決策融合模塊,以及多層感知機構成。由圖1可知,決策融合解碼器的輸入有三部分:a)位置查詢(Pq)是為了預測圖像中目標的位置,每一個都與輸出中的特定位置有直接對應關系,這種參數化類似于雙流注意力[17]的查詢流,它將上下文與目標位置解耦,允許模型從排列語言建模中學習;b)注意力掩碼(Am)是在模型訓練過程中使用排列語言隨機生成的;c)上下文輸入(Ic)由文本圖像的真實標簽生成。決策融合模塊的結構如圖4所示,If是殘差注意力編碼器輸出的視覺特征,Is是經過語義信息融合后的語義特征 。
Pq、Ic和Am作為整個決策融合解碼器的語義信息,首先會經過多頭注意力融合,其過程如式(5)所示。
Is=Pq+MHA(Pq,Ic,Ic,Am)
(5)
其中:Is為融合的語義特征,Is接下來會送給決策融合模塊。決策融合模塊的另一個輸入為If。在決策融合模塊中的融合過程如式(6)所示。
Of=MHA(MHA(Is,If,If)+Is,If,If)
Os=MHA(Is,If,If)+Is
(6)
其中:Of為DFM輸出的深融合特征;Os為輸出的淺融合特征。Of和Os隨后被進一步疊加融合,最后通過多層感知機和線性層生成每個字符的預測概率。
1.3 排列語言建模
排列語言建模(ermuted language modeling,PLM)屏蔽語言建模方式被廣泛應用在預訓練任務,而近期學者已經將其擴展應用于基于Transformer的廣義序列模型[18]學習,實現了多種解碼策略。本文所有實驗遵循文獻[9],將PLM應用于場景文本識別。PLM可以是自回歸(autoregressive, AR)建模的一個廣義形式,其中采用PLM訓練的模型可視為具有共享架構和權重的AR模型的集合。通過動態地使用注意力掩碼來指定令牌之間的依賴關系[19],使得這類模型能夠學習并利用給定輸入上下文任意子集的條件字符概率,從而支持單調的AR解碼、并行的非AR解碼,以及迭代細化。利用PLM訓練的多模態場景文本識別模型(MMSTR)是一個統一的場景文本識別模型,其結構簡潔,能夠進行上下文感知推理[20],并實現利用雙向上下文的迭代細化[8]。
上下文感知的AR模型,如式(7)所示。
P(y|x)=∏Tt=1P(Yt|y<t,x)
(7)
迭代細化模型,如式(8)所示。
P(y|x)=∏Tt=1P(yt|y≠t,x)
(8)
1.4 損失函數
給定一張文本圖像,文本識別算法要最大化文本標簽yT=[y1,y2,…,yT-1,yT]的可能性。PLM將序列標簽的所有T!個子序列可能性分解,如式(9)所示。
log p(y|x)=Ez-ZT∑Tt=1log pθ(yzt|yzy<t,x)
(9)
其中:ZT是序列[1,2,…,T]的所有可能排列的集合;zt和zlt;t分別代表z的第T個元素和前T-1個元素。每個排列z指定了一種順序,這個順序對應于可能性不同的因式分解。本文不用實際的文本排列標簽y,而是制作注意力掩碼圖強制生成z的順序。在實際的訓練過程中考慮到計算的復雜度,MMSTR從T!中選取K個序列訓練。所以MMSTR在訓練過程中的損失函數如式(10)所示。
Loss=1K∑Kt=1Lce(yt,)
(10)
其中:Lce為交叉損失熵;K作為超參數設置為6;yt為第t個子序列;為預測的字符序列。
2 實驗結果與分析
本章首先介紹場景文本識別中的常用數據集以及評價指標,接著進行消融實驗分析和對比實驗分析,最后將MMSTR的識別結果進行可視化對比分析。通過大量的實驗分析論證了MMSTR具有較強的魯棒性和更高的識別精度。
2.1 數據集與評估指標
2.1.1 實驗數據集
現有的文本識別方法通常需要大規模的訓練數據,由于缺乏帶標注的真實文本圖像,這些方法大多采用計算機合成的圖像進行訓練[21],即SynthText和MJSynth[22]。近年來,場景文本識別領域發布了大量的真實場景下的數據集,涵蓋了廣泛的真實場景[23]。有學者研究發現真實場景下的數據集有助于場景文本識別模型的訓練。因此,本文的實驗中除了Synth- Text和MJSynth之外,還用到了大量的真實數據,如RCTW17[24]、COCO-Text[25]、Uber[26]、Art[27]、LSVT[28]、MLT19[29]、ReCTS[30]、OPenVINO[31]和TextOCR[32]。
根據經驗,實驗采用IIIT5K、CUTE80、SVT、SVTP、ICDAR2013(IC13)、ICDAR15(IC15)[33]作為基準數據集來評估模型的性能。對比實驗還在Art、COCO、Uber此類更具挑戰性的數據集上評估了MMSTR的模型,進一步論證MMSTR的魯棒性。本文中所用的數據集遵循文獻[9]標準,其簡要介紹如表1所示。
2.1.2 評估指標
為了對比公平,本文中的實驗所采用的評價指標為場景文本識別中常用的詞準確率(accuracy)和歸一化編輯距離(1-NED)。詞準確率的計算如式(11)所示。
accuracy=n/N
(11)
其式:n為預測正確的單詞個數,如果預測單詞和標簽單詞完全相同,則可以視為正確;N為所要預測單詞的總數。
歸一化編輯距離(1-NED)是衡量兩個字符序列差異大小的方法。它的定義是一個序列通過編輯操作轉換成另一個序列的最小次數,歸一化編輯距離經常在評估場景文本識別模型的準確程度中用到。字符串sn與n的歸一化編輯距離計算如式(12)所示。
1-NED=1-1T∑Tn=1L(sn,n)/max(sn,n)
(12)
其中:L為萊溫斯特坦距離,代表sn與n的編輯距離;T是所有樣本數;max(sn,n)為最長字符串的長度。
字符集的不同會導致模型推理性能發生變化,本文的實驗中分為36-char(10個數字和26個小寫字母)、62-char(10個數字和52個大小寫字母)和94-char(10個數字、52個大小寫字母和32個標點符號)三個字符集。另外不同的解碼方式也會影響模型推理的性能,本文所有實驗一律采用AR方式結合迭代細化解碼字符序列。
2.2 實驗環境與訓練策略
2.2.1 實驗環境
本文實驗所用的系統軟件平臺為CentOS 7.6,Python版本為3.8,cudatoolkit的版本為11.6,深度學習框架為PyTorch 1.12。系統硬件平臺顯卡為兩張NVIDIA RTX 3090,CPU為XeonGold 6226R。
2.2.2 訓練策略
本文實驗中的訓練集分為合成訓練集(SynthText和MJSynth,用S表示)、真實訓練集(Art、COCO、LSVT、MLT19、RCTW17、Uber、OPenVINO、TesxtOCR、ReCTS,用R表示),在評估模型性能時分別將IC15、IC13分為兩部分(IC15-1811、IC15-2077、IC13-848、IC13-1015),所有模型的訓練都使用混合精度。MMSTR與MMSTR-tiny的BatchSize分別為256和384。MMSTR訓練采用Adam優化器,訓練輪數為40,學習率使用動態衰減的策略,其衰減過程與文獻[9]一致。
訓練過程中,每迭代1 000次評估一次模型的性能。單幅文本圖像中的字符最大數T設置為25,對于字符數不足25的標簽使用[P]符號填充,送入網絡的圖像尺寸設置為32×128。
2.3 消融實驗
為了快速驗證MMSTR網絡的識別性能,消融實驗使用MMSTR-tiny結構,超參數設置如表2所示,分別用S與R訓練MMSTR-tiny。其中actual-lr是實際學習率,patch為圖像塊的大小,dmodle代表輸入特征維度,h為MHA注意力頭的數量,dmlp代表中間特征維度,depth是編碼器的層數。Benchmark為MMSTR-tiny使用36-char在IIIT5K、SVT、IC13-1015、IC15-2077、CUTE80、SVTP上面的平均詞準確率,評估結果如表3所示。
分析表3中的數據,在添加REA-encoder后使用S和R訓練模型的平均詞準確率分別提高了0.9、0.4百分點,證明了無論在S還是R上加入了REA-encoder,不僅能提取全局特征,而且還能充分地提取圖像的淺層特征。REA-encoder從編碼階段緩解了利用常規的Vision Transformer在圖像編碼階段中存在的特征坍塌問題。此外,分析DFM模塊,僅加入DFM后訓練S與R上,DFM對模型平均詞準確率的提升均為0.2百分點,這驗證了DFM在充分融合語義信息與圖像的視覺信息的同時,還不受訓練數據的影響。進一步分析1-NED,從表3發現,使用REA-Encoder后在S上1-NED提高了0.3百分點,在R上1-NED提高了0.2百分點。
MMSTR加入REA-Encoder和DFM訓練S和R上,對比原始網絡的平均詞準確率均有1.2和0.5百分點的提升。
2.4 對比實驗
在對比實驗過程中,將MMSTR與當下流行的算法分別在36-char、62-char、94-char進行對比實驗分析。為了公平公正地對比,實驗遵循Bautista的模型訓練策略,對比的算法為Parseq[9]、ABINet[8]、TRBA[34]、ViTSTR[35]、CRNN[36],對比結果(對比算法中的平均詞準確率引用Bautista中的數據)如表4所示。MMSTR在基準數據集評估的詞準確率詳細數據如表5所示。
由表4可知,MMSTR無論是使用R訓練還是使用S訓練,使用不同大小的字符集在基準數據集上評估的平均詞準確率都能取得不同幅度的提升。特別是在合成數據集上訓練使用94-char評估,平均詞準確率相較于次優算法有3.4百分點的提升。從表5可以發現,MMSTR在所有的基準數據集上平均詞準確率都能取得最優。
除此之外,本文還用36-char在Art、COCO、Uber這些難度更大的數據集上進行評估,分析MMSTR的性能表現。由表6的數據可以看出,MMSTR在這三個高難度的數據集上的評估表現依然是最優的。MMSTR對比次優算法ParseqA在S上有2.4百分點的提高,在R上有1.5百分點的提高。
為了驗證MMSTR算法識別不同方向文本圖像的魯棒性,將基準數據集分別旋轉90°、180°、270°,再次使用36-char進行評估,結果如表7所示?;鶞蕯祿D后對比0°的平均下降率和平均精度,如圖5所示。
從表7可以看出,MMSTR在圖片旋轉不同的角度后,平均詞準確率領先于當前的主流算法。從圖5分析,MMSTR在基準數據集旋轉后平均精度能達到最優性能,從數值上看,旋轉后的平均精度達到了88.4%,領先次優算法2.2百分點,對比旋轉0°的情況,平均下降僅為5.8百分點,比次優算法低了1.8百分點。這驗證了MMSTR對于不同方向的文本圖像具有良好的魯棒性。
2.5 識別結果展示
為了直觀地分析MMSTR的識別優勢,本文隨機挑選了8張極具挑戰性的文本圖像,這幾張圖像分別具有字體扭曲、色彩豐富、模糊程度嚴重、背景復雜、方向不一致等問題。本文將主流算法的識別結果可視化展示,如圖6所示。從圖6可以直觀地看到,8張圖像中MMSTR正確識別了7張,優于其他識別算法。MMSTR對比ParseqA、CRNN、TRBA等主流算法在識別色彩豐富、扭曲嚴重、字體變化巨大的文本圖像具有更好的魯棒性。但是MMSTR與其他算法一樣對于模糊程度十分嚴重的圖像識別效果不夠理想,這是因為現在主流的場景文本識別算法沒有對模糊圖像進行特定的去模糊處理,直接從模糊圖像提取視覺特征信息導致視覺信息不足,從而對高模糊的圖像不能精準識別。
3 結束語
本文提出了MMSTR網絡,利用文本的語義特征與圖像的視覺特征來解決場景文本識別中因為圖像扭曲、遮擋、模糊等原因難以識別的問題。為了提高MMSTR網絡的性能,本文提出了一個殘差注意力編碼器用來進一步提取圖像中的淺層特征,解決傳統vision Transformer中存在的特征坍塌問題。在解碼階段,為了增強語義特征與圖像視覺特征的融合,本文還提出一個DFM模塊,通過消融實驗證明了DFM在合成數據集和真實數據集上面訓練都能充分融合不同層次的語義特征與圖像視覺特征。在對比實驗中得出了MMSTR在基準評估集上的平均詞準確率達到了96.6%,比次優算法高出了0.6百分點。為了驗證MMSTR的方向魯棒性,將圖像旋轉不同的方向,其平均詞準確率下降僅為5.8百分點。從實驗結果看,MMSTR在方向魯棒性與識別精度方面均優于當下主流的場景文本識別算法。在實驗中還發現MMSTR與當下主流的識別算法一樣、在面對更大的字符集時使用合成數據訓練出的模型,在評估后平均詞準確率會急劇下降。這一發現對于具有大規模字符集的場景文本識別并不友好,因此如何讓場景文本識別算法更好地識別大字符集是下一步的研究方向。
參考文獻:
[1]Zheng Tianlun, Chen Zhineng, Fang Shancheng, et al. CDistNet: perceiving multi-domain character distance for robust text recognition [J]. International Journal of Computer Vision, 2024, 132(2): 300-318.
[2]Ali Chandio A, Asikuzzaman M, Pickering M R, et al. Cursive text recognition in natural scene images using deep convolutional recurrent neural network [J]. IEEE Access, 2022, 10: 10062-10078.
[3]Xue Chuhui, Huang Jiaxing, Zhang Wenqing, et al. Image-to-character-to-word Transformers for accurate scene text recognition [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 45(11): 12908-12921.
[4]Zhang Boqiang, Xie Hongtao, Wang Yuxin, et al. Linguistic more: taking a further step toward efficient and accurate scene text recognition [C]//Proc of the 32nd International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann, 2023: 1704-1712.
[5]Qiao Zhi, Zhou Yu, Yang Dongbao, et al. SEED: semantics enhanced encoder-decoder framework for scene text recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2020: 13525-13534.
[6]Yu Deli, Li Xuan, Zhang Chengquan, et al. Towards accurate scene text recognition with semantic reasoning networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 12110-12119.
[7]Wang Yuxin, Xie Hongtao, Fang Shancheng, et al. From two to one: a new scene text recognizer with visual language modeling network [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 14174-14183.
[8]Fang Shancheng, Xie Hongtao, Wang Yuxin, et al. Read like humans: autonomous, bidirectional and iterative language modeling for scene text recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7094-7103.
[9]Bautista D, Atienza R. Scene text recognition with permuted autoregressive sequence models [C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 178-196.
[10]Yang Xiaomeng, Qiao Zhi, Wei Jin, et al. Masked and permuted implicit context learning for scene text recognition [J]. IEEE Signal Processing Letters, 2024, 31: 964-968.
[11]Na B, Kim Y, Park S. Multi-modal text recognition networks: interactive enhancements between visual and semantic features [C]//Proc of European Conference on Computer Vision. Cham: Springer, 2022: 446-463.
[12]曾凡智, 馮文婕, 周燕. 深度學習的自然場景文本識別方法綜述 [J]. 計算機科學與探索, 2024, 18(5): 1160-1181. (Zeng Fanzhi, Feng Wenjie, Zhou Yan. Survey on natural scene text recognition methods of deep learning [J]. Journal of Frontiers of Computer Science and Technology, 2024, 18(5): 1160-1181.)
[13]Zhao Zhen, Tang Jingqun, Lin Chunhui, et al. Multi-modal in-context learning makes an ego-evolving scene text recognizer [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2024: 15567-15576.
[14]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale [EB/OL]. (2021-06-03) . https://arxiv. org. abs/2010. 11929.
[15]Diko A, Avola D, Cascio M, et al. ReViT: enhancing vision Transformers with attention residual connections for visual recognition [EB/OL]. (2024-02-17) . https://arxiv. org/abs/2402. 11301.
[16]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[17]石祥濱, 李怡穎, 劉芳, 等. T-STAM: 基于雙流時空注意力機制的端到端的動作識別模型 [J]. 計算機應用研究, 2021, 38(4): 1235-1239, 1276. (Shi Xiangbin, Li Yiying, Liu Fang, et al. T-STAM: end-to-end action recognition model based on two-stream network with spatio-temporal attention mechanism [J]. Application Research of Computers, 2021, 38(4): 1235-1239, 1276.)
[18]黃文明, 任沖, 鄧珍榮. 基于多對抗訓練的古詩生成方法 [J]. 計算機應用研究, 2021, 38(1): 164-168. (Huang Wenming, Ren Chong, Deng Zhenrong. Chinese poetry generation model with multi-adversarial training [J]. Application Research of Compu-ters, 2021, 38(1): 164-168.)
[19]Zhang Ningyu, Ye Hongbin, Deng Shumin, et al. Contrastive information extraction with generative Transformer [J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2021, 29: 3077-3088.
[20]張少偉, 李斌勇, 鄧良明. 基于上下文感知的自適應訪問控制模型 [J]. 計算機應用研究, 2024, 41(9): 2839-2845. (Zhang Shaowei, Li Binyong, Deng Liangming. Context-aware adaptive access control model [J]. Application Research of Computers, 2024, 41(9): 2839-2845.)
[21]Yang Mingkun, Liao Minghui, Lu Pu, et al. Reading and writing: discriminative and generative modeling for self-supervised text recognition [C]//Proc of the 30th ACM International Conference on Multimedia. New York: ACM Press, 2022: 4214-4223.
[22]Yang Mingkun, Yang Biao, Liao Minghui, et al. Class-aware mask-guided feature refinement for scene text recognition [J]. Pattern Recognition, 2024, 149: 110244.
[23]Jiang Qing, Wang Jiapeng, Peng Dezhi, et al. Revisiting scene text recognition: a data perspective [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 20486-20497.
[24]Shi Baoguang, Yao Cong, Liao Minghui, et al. ICDAR2017 competition on reading Chinese text in the wild (RCTW-17) [C]// Proc of the 14th IAPR International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2017: 1429-1434.
[25]Veit A, Matera T, Neumann L, et al. COCO-Text: dataset and benchmark for text detection and recognition in natural images [EB/OL]. (2016-06-19). https://arxiv.org/abs/1601.07140.
[26]Zhang Ying, Gueguen L, Zharkov I, et al. Uber-text: a large-scale dataset for optical character recognition from street-level imagery [C]// Proc of Scene Understanding Workshop. 2017: 5.
[27]Chng C K, Liu Yuliang, Sun Yipeng, et al. ICDAR2019 robust reading challenge on arbitrary-shaped text - RRC-ArT [C]// Proc of International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2019: 1571-1576.
[28]Sun Yipeng, Ni Zihan, Chng C K, et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT [C]// Proc of International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2019: 1557-1562.
[29]Nayef N, Patel Y, Busta M, et al. ICDAR2019 robust reading challenge on multi-lingual scene text detection and recognition-RRC-MLT-2019 [C]// Proc of International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2019: 1582-1587.
[30]Zhang Rui, Zhou Yongsheng, Jiang Qianyi, et al. ICDAR 2019 robust reading challenge on reading Chinese text on signboard [C]// Proc of International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE Press, 2019: 1577-1581.
[31]Krylov I, Nosov S, Sovrasov V. Open images V5 text annotation and yet another mask text spotter [C]// Proc of Asian Conference on Machine Learning [S.I.]:PMIR, 2021: 379-389.
[32]Singh A, Pang Guan, Toh M, et al. TextOCR: towards large-scale end-to-end reasoning for arbitrary-shaped scene text [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 8798-8808.
[33]Xie Xudong, Fu Ling, Zhang Zhifei, et al. Toward understanding WordArt: corner-guided Transformer for scene text recognition [C]// Proc of European Conference on Computer Vision. Cham: Springer, 2022: 303-321.
[34]Baek J, Kim G, Lee J, et al. What is wrong with scene text recognition model comparisons? Dataset and model analysis [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2019: 4714-4722.
[35]Atienza R. Vision Transformer for fast and efficient scene text recognition [C]// Proc of International Conference on Document Analysis and Recognition. Cham: Springer, 2021: 319-334.
[36]Shi Baoguang, Bai Xiang, Yao Cong. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.