










關鍵詞:計算機視覺;場景文本識別;注意力機制;特征信息關聯
中圖分類號:TN911.73 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)11-2576-09
0引言
場景文本識別(Scene Text Recognition,STR)在提取自然場景中的文本信息方面對于許多高級視覺應用至關重要[1]。與光學字符識別(Optical Character Recognition,OCR)相比[2],STR 的不同之處在于OCR 主要在更結構化的環境中運行,而STR旨在識別各種不受限制的背景環境中的字符,例如墻壁、招牌、產品標簽、路標和標記等。由于拍攝的圖像可能存在嘈雜、模糊或扭曲等情況,場景文本圖像在識別任務上具有挑戰。此外,文本圖像在字體樣式、方向、形狀、大小、顏色、紋理和照明等方面存在許多不同程度的變化,這些變化對STR 的性能有著重大影響[3]。因此,STR 任務是一個重要且具有挑戰性的研究問題。
深度學習對于STR 領域的發展起到了巨大推動作用[4],使得自然場景中文本裁剪圖像在識別精度方面取得了突破性進展。然而,在STR 的大量研究中[5],重點一直放在識別準確性上,對識別速度和模型計算量要求的關注相對較少。對于計算資源受限的邊緣設備來說,識別速度和計算效率與識別準確性同樣重要[6]。這里的準確性指的是正確識別文本的能力,速度指的是單位時間內處理文本圖像的數量,效率可以通過參數和計算量(例如每秒浮點運算次數(Floating Point Operations Per Second,FLOPS))來衡量,其中,參數的數量反映了內存需求,而FLOPS 估計了完成任務所需的指令數量。部署于邊緣設備的STR 模型應該在準確性和速度、效率之間擁有較好的平衡。
為了平衡識別任務的準確性、速度和效率,本文提出了一種基于多頭注意力融合的自然場景文本識別(Scene Text Recognition Based on Multi-Head At-tention Fusion,MAF)算法。該算法利用輕量級的多頭注意力機制(Multi-Head Attention,MHA)[7]以及Linformer Self-Attention[8]融合感知文本圖像的視覺、位置和語義信息。本文使用位置編碼查詢視覺特征得到增強位置編碼,以增強感知字符之間的間距變化。同時,結合輸入上下文和置換模型,捕獲文本圖像的語義特征信息,提高模型對自然文本圖像中字符距離和上下文語義相似性的感知能力。最后,通過解碼視覺和語義特征信息,利用視覺和文本序列特征之間的互補性來獲得識別結果,提高識別任務的精度和速度,同時優化計算性能。
1相關工作
STR 是一個長期以來備受關注和研究的課題[9]。隨著深度學習方法的普及[10],STR 方法在領域內的有效性得到了廣泛驗證。根據是否應用語義信息,本文將STR 方法大致分為2 類,即語義信息無關的方法和語義信息增強的方法。
1.1語義信息無關的STR方法
上下文無關的STR 方法直接利用圖像特征來預測字符,輸出的字符在條件上相互獨立。在STR方法中,主流的圖像特征提取方法是卷積神經網絡(Convolutional Neural Network,CNN)[11]。基于連接主義時間分類(Connectionist Temporal Classification,CTC)的方法[12]先通過CNN 和循環神經網絡(Re-current Neural Network,RNN)提取特征向量,再利用CTC[13]來完成序列識別。Classification Perspectiveon Scene Text Recognition(CSRT)[14]將STR 轉化為多實例分類問題。但由于上下文無關的方法僅依賴于圖像特征進行預測,因此對于被遮擋或不完整的字符的魯棒性較差。受Transformer[7]在自然語言處理任務中的成功啟發,Transformer 在STR 中的應用也越來越受到關注。Vision Transformer(ViT)[15]直接處理不帶卷積的圖像塊,開啟了使用Transformer塊而不是CNN 來解決計算機視覺問題的開端[16],并取得了顯著效果。ViTSTR[6]試圖簡單地利用ViT最后一層的特征表示進行并行的字符解碼。通常情況下,無語義方法由于缺乏語言信息而無法識別低質量的圖像,促使STR 任務利用語言語義來增強模型的魯棒性。
1. 2語義信息增強的STR方法
上下文感知的STR 方法通常利用從數據中學習到的語義信息來輔助識別。基于RNN 的方法[17]可以有效地捕捉字符之間的順序依賴關系,將其視為一種隱性語言模型。然而,在訓練和推理過程中,它們無法同時進行解碼。隨著文本識別基準的提高和對各種形狀文本圖像魯棒性要求的增加,基于注意力機制的識別方法取得了顯著進展,基于注意力模型的遞歸循環神經網絡模型(Recursive Recurrent Neural Networks with AttentionModeling,R2AM)[10]首次將注意力機制引入STR,采用了一維圖像特征序列和字符序列嵌入相結合的方法,充分利用語義線索。語義推理網絡(SemanticReasoning Network,SRN)[18]提出了全局語義推理模塊,通過多個并行傳輸捕捉全局語義上下文。Atten-tional Scene Text Recognizer with Flexible Rectification(ASTER)[19]通過空間Transformer 網絡校正方向或彎曲的文本,然后使用注意力序列到序列模型進行識別。Autonomous,Bidirectional and Iterative Network forSTR(ABINet)[20]提出了雙向完形網絡來顯式地建模語言信息,并進一步用于迭代修正。視覺語言建模網絡(Visual Language Modeling Network,VisionLAN)[21]引入了一種視覺推理模塊,通過在特征級別對輸入圖像進行屏蔽,同時捕捉視覺和語言信息。
2提出的方法
本文提出了一種基于MHA 融合的自然STR 算法——MAF,利用輕量級的MHA 機制[7]和LinformerSelf-Attention[8]來提取和融合場景文本圖像的視覺、位置和語義特征信息,并解碼視覺特征和語義特征信息以獲取文本識別結果。基于MHA 融合的文本識別網絡遵循編碼器-解碼器的網絡架構,MAF 整體網絡結的如圖1所示。
該架構通常用于序列建模任務,編碼器的分支和層數多于解碼器,這種深淺配置[22]關系可以最小化模型的總體計算需求,同時對識別任務性能的影響可以忽略不計。接下來詳述該精確高效的STR算法的設計原理。首先,將給定的自然場景文本圖像Y∈Rh×w×3輸入到視覺編碼器中,h和w是輸入圖像的寬度和高度,3為圖像的通道數,獲取文本圖像的視覺特征信息Fv。其次,使用位置編碼Fp查詢視覺特征Fv,以獲取增強位置編碼Fep,從而使模型感知字符之間的間距變化。然后,將增強位置編碼Fep 應用于語義編碼器查詢輸入上下文和置換模型,感知圖像中的上下文語義相似性來獲取文本圖像的語義特征信息Fs。最后通過視覺-語義解碼器,利用視覺特征和文本序列之間的互補性進行解碼得到文本識別結果Yout。
2.1視覺編碼器
本文提出的視覺編碼器的整體結構如圖2所示。
視覺編碼器基于MHA 機制來實現對文本圖像視覺特征信息的提取。通過提取深度的視覺信息,MFA 能夠精確有效地對字符進行預測分類,在模糊或變形的情況下依舊能夠有效識別文本字符。視覺編碼器部分主要包括12 層ViT 編碼器和一層Lin-former Self-Attention。
Transformer[7]能夠有效處理序列之間的長期復雜的依賴關系,并在視覺特征上建立空間距離概念的信息交互。Vision Transformer[15]是Transformer 在圖像領域的直接擴展應用。本文將MHA 機制表示為MHA(q,k,v,m),其中q、k和v 表示對應的參數查詢、鍵和值,m 表示可選的注意掩碼。ViT 編碼層中包含一個用于自注意的MHA 模塊,即將查詢、鍵和值用同一個值進行代替。ViT 編碼器部分是一個12 層的ViT 編碼層,沒有分類頭和[CLS]令牌。為了在模型性能和效率之間取得平衡,本文將ViT 編碼器中的MHA 層的注意力頭的數量設置為3,中間特征層的尺寸設置為768。圖像Y∈Rh×w×c,其中寬度為w,高度為h,通道數為c。將圖像平均劃分為pw × ph 大小的patches,并將每個patch 攤平,使用patch 嵌入矩陣Wp 將其線性投影到維度為dmodel 的令牌中,從而得到(wh)/ (pw ph )個令牌。在第一個ViT 層處理之前,學習到的等維位置嵌入將被添加到令牌中。具體計算過程如式(1)和式(2)所示,先將圖像輸入到MHA 模塊并進行殘差連接和歸一化,再將特征層輸入到前饋網絡(Feed Forward Net-work,FFN)中同樣進行殘差連接和歸一化。
線性Transformer使用低秩矩陣近似來表示自注意力機制,其性能與標準Transformer 模型相當,同時具有更高的內存和時間效率。使用Linformer自注意力機制,在僅增加少量模型參數的同時,實現了對更深層次的文本視覺特征的提取。視覺特征Fv 的提取過程如下:
2.3視覺-語義解碼器
在視覺- 語義解碼器模塊中,通過融合前面MHA 獲得的視覺特征和語義特征,實現文本圖像視覺信息和序列特征之間的全局語義相似性交互,從而實現精確高效的文本字符識別。視覺-語義解碼器的網絡結構如圖4 所示,其中利用語義編碼器生成的語義特征作為查詢向量,與視覺特征進行MHA機制的融合,以關聯語義域和視覺域的每個元素,并通過多層感知機(Multilayer Perception,MLP )以及殘差連接和線性分支完成字符的識別。
3實驗結果和分析
3.1數據集
由于已標記的真實數據[25]相對稀缺,傳統上STR 模型是在大規模合成數據集上進行訓練的。然而,近年來已標記的真實數據量已經足夠訓練STR模型。事實上,在真實數據上訓練比在合成數據[26]上更具樣本效率。因此,本文采用真實數據進行訓練。數據集示例圖像如圖5 所示,真實自然STR 數據集通常可分為規則和不規則2類。
(1)常規數據集的文本圖像通常是正面、水平,并具有小扭曲量。其中,IIIT5k-words(IIIT5k)[27]是由3000張測試圖像組成的數據集,這些圖像來自于谷歌圖像搜索,主要包含街景中的招牌、品牌標識、門牌號碼、路牌等,這些圖像大多數是水平的。街景文本(Street View Text,SVT)[28]數據集包含257 張訓練圖像和647 張測試圖像,這些文本圖像是從谷歌街景圖像中裁剪得到的。ICDAR2013(IC13)[29]數據集是從288 幅場景真實圖像中進行裁剪得到的。在Baek等[25]的工作中,選擇了857 張圖像的版本進行測試,并刪除了非字母數字字符及長度小于3 個字符的文本。
(2)不規則數據集包含彎曲、垂直、透視、低分辨率和扭曲的文本圖像。ICDAR2015 (IC15)[30]是一個包含1 811 張圖像的不規則數據集。該數據集中的詞大多是彎曲的、透視的和帶有陰影的,這些詞很難進行識別。SVT-Perspective(SVTP)[31]是從谷歌街景創建的,其中大多數圖像是商業標識,包含645 個彎曲的文本圖像。CUTE80 (CUTE)[32]包含288 張從襯衫和產品標識上捕捉到的彎曲文本圖像。
3.2評價指標
為了平衡識別模型的準確率和效率的重要性,本文選取識別文字準確率、速度、模型參數量和計算量作為本文算法的評估度量。文字準確率是STR基準測試的主要指標,只有在所有位置的字符都匹配時,預測結果才被認為是正確的。速度是通過單位時間內處理的文本圖像數量來衡量的。效率則通過處理一張圖像所需的參數數量和計算量(例如FLOPS)來近似表示。參數數量反映了內存需求,而FLOPS估計了完成任務所需的指令數量。
3.3實驗細節
本文提出的算法模型在混合精度、雙GPU 設置下使用PyTorch DDP 進行訓練,批量大小設置為384。使用Adam 優化器和one-cycle 學習率調度器。在迭代總次數的3 / 4 時,使用隨機加權平均(Stochastic Weight Averaging,SWA),并用SWA 調度器代替1 cycle 調度器。patch 大小設置為8×4。輸入圖像大小調整為128×32。圖像經過擴充、調整大小后,最后歸一化到[-1,1]。增強數據集主要包括RandAugment 操作。所有實驗均基于2 張NVIDIAGeForce 3090Ti 的GPU 進行。
3. 4消融實驗
為了證明本文所提出的算法能夠有效地平衡識別算法的準確率和效率的重要性,本節設計2 組消融實驗來證明算法模塊對STR 算法的準確率和模型參數量的影響,所有實驗環境均相同,識別準確率使用在真實STR 數據集IC15[30]上測試得到的結果。
3.4.1增強位置編碼的有效性
本小節評估了使用位置信息與視覺特征進行交互得到的增強位置編碼用于后續的數據關聯對實驗結果的影響。設計2 組結構與增強位置編碼進行對比,第一組沒有進行交互感知,僅僅使用整型位置標記方法得到位置信息,第二組使用正弦位置編碼得到位置編碼信息與后續數據進行關聯。消融實驗的具體結果如表1 所示,其中加粗字體為最優結果。
表1 實驗結果顯示,與前2 組實驗相比,使用增強位置編碼得到的位置信息進行后續的信息關聯在IC15數據集上的識別準確率提高1. 6% ~ 2. 3% ,而在模型參數上僅增加了8×105 ,FLOPS 指標上僅增加了1×108 。實驗證明,本文提出的增強位置編碼模塊能夠很好地將位置信息與視覺特征關聯起來,更好地感知字符間的間距變化,在增加少量模型參數的情況下提高了自然STR 的精度。
3.4.2視覺編碼器的有效性
本小節評估了在視覺編碼器中采用了不同部件在視覺特征提取方面對文本識別精度和模型參數量實驗結果的影響。在IC15 數據集上設置了2 組對比實驗,第一組為僅采用ViT 編碼器作為視覺特征提取部分,沒有后續深入的特征提取操作。第二組為在ViT 編碼器后加入了Linformer 注意力機制進行深一層次的視覺特征提取,將提取得到的視覺特征信息與后續數據進行融合解碼,其他設置均相同。消融實驗具體結果如表2 所示,其中加粗字體為最優結果。
由表2可知,在IC15數據集的驗證下,本文所設計的視覺編碼器比僅使用ViTEncoder 的視覺特征提取模塊在模型參數量僅增加5 ×105的情況下,字符識別準確率提高了0.6% 。實驗結果證明在增加少量模型參數以及計算量的前提下,本文所設計的視覺特征提取模塊可以更好地提取深度的視覺特征,有利于后續的數據融合,提高整體識別任務的精度。
3.5對比實驗
為了證明本文所提出算法有效平衡了識別任務準確性和效率之間的重要性,通過實驗分別對比了不同方法的識別準確性、模型參數、計算量以及速度。首先在表3 中展示了MAF方法在規則數據集(IC13[29]、SVT[28]和IIIT5k[27])上的實驗結果并將該方法與先進的STR 方法的實驗結果進行比較,其中加粗字體為最優結果。從表3可以看出,本文提出的方法在規則數據集(IC13、SVT 和IIIT5k)上的識別性能與主流的算法相比,在IC13上提高了0.4% ~ 8.7% ,在SVT 上提高了1.1% ~17. 6% ,在IIIT5k 上提高了0.5% ~16.9% 。
表4 展示了MAF 方法在不規則數據集(IC15[30]、SVTP[31]和CUTE[32])上的實驗結果并將該方法與先進的STR 方法的實驗結果進行比較,其中加粗字體為最優結果。
從表4 可以看出,本文提出的方法在不規則數據集(IC15、SVTP 和CUTE)上的識別性能與主流的算法相比,在IC15 上提高了0. 9% ~ 24. 2% ,在SVTP 上提高了0. 5% ~ 10. 0% ,在IIIT5k 上僅次于PARSeqATiny 算法。
表5 展示了MAF 方法在模型參數量、計算量和速度上的實驗結果并將該方法與先進的STR 方法的實驗結果進行比較,其中加粗字體為最優結果。可以看到,本文提出方法識別任務的準確性和效率的重要性取得了較好的平衡,在較小模型參數量、計算量和較快的識別速度的基礎上,在大部分真實場景識別數據集上的識別性能優于其他算法。
圖6 展示了MAF 在不同真實場景數據集(包括IC13[29]、SVT[28]、IIIT5k[27]、IC15[30]、SVTP[31] 和CUTE[32])的識別結果,其中圖片上面的字符代表的是文本圖像所屬的數據集,圖片下面第一行黑色字體為圖片所對應的真實標簽識別結果,第二行中的字符為MAF 的識別結果,其中綠色字體為識別正確的字符,紅色加粗字體為識別錯誤的字符。
4結束語
本文提出了一種基于MHA 融合的自然STR 算法——MAF,利用輕量化MHA 機制和Linformer 注意力機制融合感知文本圖像的視覺、位置和語義特征信息。通過增強位置編碼模塊,使字符特征與位置信息相對齊。利用增強位置編碼與輸入上下文和置換模型進行交互感知,獲取文本圖像的語義特征信息。在視覺-語義解碼器中利用MHA 機制進行解碼,利用視覺和文本序列特征之間的互補性來得到識別結果。多模態的信息交互融合能夠使模型更好地感知文本圖像中字符間的間距變化和語義相似性,使得算法網絡能夠在真實場景文本圖像數據集上獲得更好的泛化性。實驗結果表明,MAF 在真實STR 數據集上取得了平均95. 6% 的識別準確率,同時模型的參數量僅有7.6×106 以及FLOPS 為1.0×109 ,有效平衡了識別任務的準確性和效率。
作者簡介
黃俊煬 男,(1998—),碩士研究生。主要研究方向:計算機視覺、場景文本圖像超分辨率識別。
陳宏輝 男,(1998—),博士研究生。主要研究方向:計算機視覺、場景文本檢測識別。
王嘉寶 男,(1999—),碩士研究生。主要研究方向:計算機視覺、場景文本檢測。
陳平平 男,(1986—),博士,教授,博士生導師。主要研究方向:機器學習、5G通信、智能信息等數據傳輸分析及應用。福州大學“旗山學者”。獲2019年廣州省科技進步二等獎,主持國家自然科學面上基金、青年基金;發表SCI/EI學術論文40余篇;擔任多個國際權威通信會議TPC 組委會成員,2019年ISWCS通信會議分會的組委會主席。