999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

注意力機制與復合卷積在手寫識別中的應用

2022-04-13 02:40:36卓天天桑慶兵
計算機與生活 2022年4期
關鍵詞:單詞特征模型

卓天天,桑慶兵

江南大學 人工智能與計算機學院,江蘇 無錫214122

脫機手寫識別處理的手寫文字來自掃描儀或相機等設備采集到的數字圖像,與聯機手寫不同,不包含在線書寫獲取到的書寫軌跡等其他信息。1990 年起,對于脫機英文手寫字符識別的研究取得了一定的進展,商業上也出現了一些可用的系統用于識別郵件地址或銀行支票數字。基于圖像矩特征、基于圖像結構特征、基于主成分分析特征(principal component analysis,PCA)等多種方式可提取出孤立字符圖像的特征,再將其送入分類器識別。后Liu 等人對于近鄰、貝葉斯分類、神經網絡和支持向量機誰是最好的分類器進行了比較,結果也是取決于具體的特征分布。不過經過了長時間的發展,如今的單字符識別已經達到了非常高的準確率。

脫機英文手寫單詞的識別難度要高于孤立字符識別。詞識別的一種方法是先將單詞圖像切分成多個字符圖像,之后對每個單“字”識別后將其連接。這種方式依賴于字符的切分效果,然而在實際情況中由于手寫體的書寫隨意、風格無規律,很難找到完美的切分方法。后來研究者們提出了其他方法,如先在小詞表上對單個單詞建立分類器,將識別的對象改為整個單詞而非單個字符,或將切割的單元改為更小的稱為“字素(類似語音識別中的音素)”的單元而不是單個字符,并在此基礎上進行識別。此外還有基于隱馬爾可夫模型的方法(hidden Markov model,HMM),這種方法也是對整個單詞建模,但不同于第一種方法對特征的提取,HMM 使用一個滑動窗口對每一幀數據提取特征,而且對圖像的長度也沒有要求。

在分類任務中,鑒別模型的效果要優于HMM 這種生成模型。人工神經網絡作為一種受生物學啟發的鑒別模型近年取得了飛速發展。循環神經網絡(recurrent neural network,RNN)是傳統神經網絡的變形,可用于提取圖片的序列特征。Shi 等人將卷積神經網絡(convolutional neural network,CNN)與RNN結合為卷積循環神經網絡(convolutional recurrent neural network,CRNN),它直接在粗粒度的單詞標簽上運行,在訓練階段不需要詳細標注每一個單獨的字符。基于CRNN 的脫機英文手寫單詞識別能夠獲取不同尺寸的輸入圖像,并產生不同長度的預測。

CRNN 雖解決了文本標簽不易對齊問題,但在處理脫機手寫文本上,由于書寫者的書寫風格迥異,原網絡提取出的特征表示力不夠,泛化性弱。為解決上述問題,本文在CRNN 基礎上引入了加強型卷積塊注意力模塊和復合卷積,構建了一種新的特征提取網絡。

1 基于加強型卷積塊注意力模塊與復合卷積的手寫文本識別網絡

當前處理脫機手寫文本識別的主流框架有兩種,CRNN+CTC 框架與CNN+Seq2Seq+Attention 框架。第二種Seq2Seq 屬于encoder-decoder 結構的一種,其利用一個RNN 做編碼,壓縮序列到指定長度的狀態向量;另一個RNN 做解碼,再根據輸入的狀態向量生成指定的序列。比起需要兩個RNN 分別做編碼和解碼,CRNN 中只需要一個RNN,一定程度上減輕了模型的參數壓力。而且Seq2Seq 為解決不定長序列的對齊問題引入的Attention 機制限制較大,因此CRNN 的使用更為廣泛。本文采用的網絡結構是基于注意力機制的CRNN+CTC 框架,具體的結構為CNN(其中嵌入注意力機制)+BLSTM+CTC,如圖1所示。

圖1 基于注意力機制和復合卷積的CRNN+CTC 框架Fig.1 CRNN+CTC framework based on attention mechanism and composite convolution

本文的貢獻主要是對CNN 結構部分的改進。首先將輸入圖片大小規范為32××,等比例縮放不會破壞文本細節,經加入注意力模塊的復合卷積神經網絡后得到高級語義特征圖∈R,然后將特征圖轉置為′∈R并將′的列向量依次輸入到雙向長短期記憶神經網絡(bidirectional long short term memory network,BLSTM)中繼續提取文字序列特征,其中BLSTM 選擇stack 形深層雙向架構,支持不定長輸入。最后使用優化算法優化CTC損失。若使用Softmax cross-entropy loss,則每一列輸出都需要對應一個字符元素,然而在實際情況中很難做字符對齊,因此CTC 提出了一種對不需要對齊的LOSS 的計算方法。CTC 引入了“blank”輸出標簽并將其添加到BLSTM 的輸出層,很好地減輕了網絡預測不確定、未完全對齊的字符標簽的壓力,一定程度上解決了兩個相鄰單元的混淆性。

將訓練樣本視為給定輸入特征和目標字符串,CTC 的目標函數定義如下:

其中,表示整個訓練集,(|)表示在給定輸入特征下BLSTM 預測出目標字符串的概率,其定義如下:

其中,表示將輸出路徑即帶“blank”標簽的路徑轉換為目標字符串的運算符,(|)為給定輸入特征,輸出路徑為的條件概率,其定義如下:

其中,表示輸出路徑的長度;π表示在時刻輸出的路徑;y表示在時刻的BLSTM 輸出。

1.1 加強型卷積塊注意力模塊

注意力機制模擬了人眼的視覺感知從而更加關注有用信息,部分人群在書寫時存在拖拽問題,如圖2 所示。圖2(a)中的字母“u”由于書寫拖拽可能被網絡識別成“w”,而圖2(b)中字母“o”可能被網絡識別成“a”。

圖2 存在書寫拖拽的脫機手寫單詞圖片Fig.2 Offline handwritten word pictures with writing drag and drop

不規范的書寫會嚴重影響網絡的判別力,在卷積神經網絡中添加注意力模塊可以有效提升模型對關鍵特征的提取能力,減小拖拽筆跡信息的權重輸入。Woo等人在2018年提出的CBAM(convolutional block attention module)通過通道、空間注意力模塊的串聯模式實現了跨通道和空間信息提取到有用特征。

CBAM 結構如圖3 所示,輸入特征圖依次通過通道、空間注意力模塊獲取到細化特征圖(refined feature),此細化特征圖可看成在通道、空間兩個維度上提取出的重要特征。但在此策略中,空間注意力模塊的輸入特征是通道注意力模塊的輸出特征,因此空間維度上的特征有效性間接依賴于通道注意力模塊的權重最優解。此外,原始輸入特征圖語義信息亦豐富,對原始特征的利用程度也將影響到注意力模塊的性能,而CBAM 僅在通道注意力模塊中使用原始輸入特征。綜上考慮,本文提出了加強型卷積塊注意力模塊(下文簡稱CBAM)。CBAM結構如圖4 所示,其取締了CBAM 中先將輸入特征圖送入通道注意力模塊,再將輸出結果送入空間注意力模塊的串聯方式,而是需要輸入的特征圖同時經過通道注意力和空間注意力模塊,并聯地獲取到各自的注意力映射()和(),之后分別與輸入特征圖做點乘得到通道注意力特征圖和空間注意力特征圖。獲取()和()的細節如下:

圖3 CBAM 結構Fig.3 Structure of CBAM

圖4 CBAM+結構Fig.4 Structure of CBAM+

圖5 通道注意力模塊結構Fig.5 Structure of channel attention module

其中,后使用了ReLU 作為激勵函數,表示Sigmoid 激活函數。

圖6 空間注意力模塊結構Fig.6 Structure of spatial attention module

其中,表示7×7 的卷積層。

最終的細化特征圖在、()、()的基礎上進行計算可得,過程如下:

其中,表示通道注意力特征圖;表示空間注意力特征圖;?表示細化特征圖。

注意力映射()和()在經過sigmoid 函數后將特征值限制到0~1 范圍,與輸入特征圖點乘可以在增強有用的特征表示的同時抑制無用特征的干擾。和相加后生成了3D 的注意力特征圖。比起傳統的CBAM,避免了先經過通道注意力模塊再經過空間注意力模塊后()對()可能存在的部分權重系數干擾。對輸入特征圖的卷積一方面讓模型自行選擇對輸入特征圖的響應權重,另一方面除了空間注意力模塊中的7×7 卷積核,額外的3×3卷積核使得CBAM融入多感受野,信息更加豐富。3D 注意力特征圖與輸入特征圖的卷積結果相加得到最終的細化特征圖。

BAM(bottleneck attention module)指出將注意力模塊置于每個池化層之前可以在每個stage 之間消除類似背景語義特征的低層次特征,聚焦高級的語義,因此將CBAM同樣置于池化層之前。

1.2 復合卷積

可通過其自主學習的能力提取出圖片的有用特征是卷積神經網絡的主要特點和優勢,在CRNN 中32××大小的圖片經卷積神經網絡下采樣后得到1×(/4)×512 大小的特征圖,但這種網絡結構采用的是順次連接的方式,并不能很好地提取出圖像的細微特征。對于脫機英文手寫單詞圖片的識別來說,網絡提取細微特征的能力對最后的識別精度有著非常重要的影響。

卷積神經網絡的深層特征語義信息豐富,如何利用深層特征決定著網絡表達能力的強弱。復合卷積指在深層卷積層中以雙通道卷積提取特征結構替換原本的單通道卷積結構,之后以相加方式處理雙特征圖。復合卷積可對深層特征進行重利用,進一步提升網絡對語義信息的判別能力,同時不同尺寸的卷積核提取多尺度特征,對于書寫風格因人而異的脫機手寫單詞來說,復合卷積結構能學習到不同人的書寫細節,一定程度上提升模型的泛化性。圖7為將原CRNN 中部分深層卷積層替換為復合卷積層的新CRNN 結構。

圖7 復合卷積CRNN 結構圖Fig.7 Schematic diagram of CRNN with composite convolution

2 實驗結果及分析

2.1 數據集

為充分驗證算法的有效性,本文在兩個不同的數據集上進行實驗。其中,IAM 脫機英文手寫數據集由657 個不同作者手寫的1 539 個掃描文本頁面組成,對應于從LOB 語料庫中提取的英語文本。每張文本頁又按文本行和單詞切分。RIMES 數據集包括12 723 個手寫頁面,對應于2~3 頁的5 605 封郵件。該數據集已在ICDAR 和ICFHR 的眾多比賽中使用。它包括51 739 個要訓練的單詞,7 464 個要驗證的單詞和7 776 個要測試的單詞。由于數據集中部分單詞標簽有誤,為避免模型的不收斂,各從中篩選出標簽無誤的單詞圖片23 914 張,其中22 010 張作為訓練集,1 904 張作為驗證集。表1 是部分數據及標簽示例。

表1 數據集示例Table 1 Examples of dataset

2.2 評估方法

本文采用的是端到端的識別,輸入脫機英文手寫單詞圖片,直接輸出圖片的識別結果。

字符錯誤率(character error rate,CER)是手寫體文本采用的標準性能指標。CER 計算Levenshtein 距離,它是將一個字符串轉換為另一個字符串所需的字符替換,插入和刪除之和再除以真實標簽中的字符總數字。本文采用批量驗證,因此將批量圖片的CER 均值作為性能評價標準,計算公式如下:

其中,S表示第張圖片識別結果的字符替換個數;I表示第張圖片識別結果的字符插入個數;D表示第張圖片識別結果的字符刪除個數;N表示第張圖片標簽字符串的字符個數;表示驗證集中的脫機英文手寫單詞圖片總數,本文中取1 904。

除CER 外,本文還引入識別準確率,計算方法如下:

2.3 實驗過程與結果分析

實驗運行環境:CPU IntelCorei7-8750H@2.2 Hz;GPU NVIDIA GeForce RTX2060;內存16 GB;程序代碼在Windows 系統Tensorflow1.13 框架下編寫運行。

實驗過程采用先訓練后驗證的方式,每次迭代后輸出CTC 損失值。訓練完成后將驗證集中所有圖片按批次全部送入模型識別,最終輸出準確率。由于驗證集中的圖片不參與訓練,極大地提高了實驗結果的可信度。

為了進一步增強實驗結果的可靠性,將訓練參數做統一規范:優化方式使用學習率指數衰減的Adadelta,初始學習率設為0.1,每2 000次迭代進行一個0.8 的學習率衰減。batch_size 設為16,共進行30 000次迭代。

基于CBAM和復合卷積,搭建了如表2 所示的CRNN+CTC 脫機文本識別框架,其中在一些卷積層后添加批標準化(batch normalization,BN),通過規范數據分布來避免梯度消失帶來的訓練困難,BLSTM中隱藏層單元為256。

表2 本文提出的基于CBAM+和復合卷積的CRNN+CTC 框架Table 2 CRNN+CTC framework based on CBAM+and composite convolution proposed in this paper

2.3.1 CBAM消融實驗

為驗證CBAM對模型的性能提升,本小節設計了CBAM消融實驗。在最終模型的基礎上刪除CBAM,刪除組件前后的兩模型的性能對比如表3 所示,其中擁有CBAM的最終模型在識別準確率和字符錯誤率上的表現都優于無CBAM的模型,由此驗證了CBAM的有效性。

表3 刪除CBAM+前后的模型性能對比Table 3 Performance comparison of models before and after deleting CBAM+

CBAM中涉及兩類卷積核尺寸問題:空間注意力模塊中×尺寸的卷積核以及對輸入特征圖卷積的×尺寸的卷積核。本小節對于、的最優選擇進行了實驗,實驗中還對比了傳統CBAM 對模型的性能影響,如表4 所示。

表4 不同注意力機制、參數對模型的性能影響Table 4 Impact of different attention mechanisms and parameters on model performance

從表4 中可以看出,傳統CBAM 中先使用通道注意力再使用空間注意力的方式確實對模型性能有一定的提升,但本文提出的CBAM既使用了雙注意力模塊,在對輸入特征圖的處理上又融入了多感受野,不同尺度的特征融合進一步提高了網絡模型的表達能力。當=7,=3 時,CBAM對網絡性能的提升最大。

2.3.3 CBAM的效果可視化

為更加直觀地看出CBAM對有用特征的提取能力,本小節實驗比較有無CBAM的模型經同一卷積層后的輸出特征圖區別。如圖8 所示,從上到下依次是原圖、輸出特征圖在通道維度上取平均的特征圖以及為更直觀地看出特征提取效果,增強對比度后的特征圖。

圖8 有無CBAM+的模型經同一卷積層后輸出特征圖對比Fig.8 Comparison of feature maps with or without CBAM+after same convolution layer

因為實驗將CBAM添加在卷積層的較淺層,所以語義信息還未變得抽象。從增強對比度后的特征圖比較可以看出,未使用CBAM的網絡未能處理好單詞的輪廓信息,字母“W”和“T”未與背景做明顯區分。而且字母“E”和“N”之間出現了粘連,這對于網絡判別力無疑是一項干擾。而添加了CBAM的網絡特征圖輪廓鮮明,提取有用特征的能力得到了提升。

為驗證復合卷積對模型的性能提升,本小節設計了復合卷積消融實驗。在最終模型的基礎上刪除復合卷積部分,刪除組件前后的兩模型的性能對比如表5 所示。其中擁有復合卷積的最終模型在識別準確率和字符錯誤率上的表現都優于無復合卷積的模型,由此驗證了復合卷積的有效性。

表5 刪除復合卷積前后的模型性能對比Table 5 Performance comparison of models before and after deleting composite convolution

本小節首先對復合卷積中雙卷積核尺寸的選擇進行實驗:對3、5 的卷積核尺寸進行兩兩組合,不同尺寸的組合對模型的性能影響如表6 所示。

表6 復合卷積中卷積核尺寸對模型的性能影響Table 6 Impact of convolution kernel size on model performance in composite convolution

從表6 中可以看出,復合卷積中如果雙卷積核尺寸相同,對模型性能提升不大,3 和5 的卷積核尺寸搭配可以顯著提升模型性能。由于不同人的單詞手寫習慣不同,連筆方式、字體大小也不盡相同,多尺度的卷積核一定程度上使得模型的泛化性更強。

復合卷積中卷積核個數同樣對模型的性能存在影響,考慮到參數代價帶來的訓練困難,只將雙卷積核和三卷積核的復合卷積進行性能對比。實驗結果如表7 所示。

表7 復合卷積中卷積核個數對模型的性能影響Table 7 Impact of the number of convolution kernels on model performance in composite convolution

從表7 中可以看出,三卷積核的復合卷積效果不及雙卷積核,可能存在過擬合現象。雙卷積核的復合卷積不僅花費更小的參數代價,而且其模型更加健壯。

消融實驗驗證了CBAM和復合卷積對網絡性能的有效提升。增加網絡深度也被認為是提升網絡性能的手段,原CRNN 網絡中共有9 層卷積層,為了驗證CRNN 卷積層數對網絡的性能影響進行了以下實驗,如表8 所示。

從表8 中可以看出,卷積層層數為9 網絡性能表現最好,8 層的卷積層可能存在欠擬合問題,而10 層的網絡可能由于深度過深出現了梯度消失引起的訓練困難或網絡退化問題。

表8 卷積層層數對模型的性能影響Table 8 Impact of the number of convolution layers on model performance

圖9 為在訓練中改進前后的模型的測試準確率隨迭代次數的變化曲線。其中每輪的測試準確率為該批次中從測試集隨機抽取的16 張圖片的平均識別準確率。從圖中可以看出,在10 000 輪之前,改進后的模型的識別準確率提升效果明顯,反映出加入了CBAM和復合卷積的模型收斂性更好。此外,模型收斂后的識別準確率較改進前也有所提升。

圖9 模型改進前后的準確率隨迭代次數變化曲線Fig.9 Accuracy of model before and after improvement varies with the number of iterations

表9 為當前幾種流行方法在IAM 與RIMES 數據集上的識別表現對比,它們大多對原始數據進行了預處理。Krishnan 等使用了語言模型,在訓練模型前先在自己合成的數據上進行預訓練。Stuner 等同樣使用了語言模型,并在訓練過程使用240 萬的單詞詞典(lexicon)。Luo 等提出了新的文本圖像增強方法并聯合AFDM 智能增強模塊一起加入識別網絡。Xu 等對原始數據進行預處理(pre-processing),清理了標點符號和大寫字母,使用了輪廓規范化并應用了測試擴充。Bluche 等額外使用CTC 損失進行了預訓練,獲得了更有意義的特征表示。Sueiras 等校正了圖像中的線條偏斜和傾斜,根據基線和語料庫線條對字符的高度進行了歸一化處理。本文的模型與Shi 等、Carbonell 等一樣未使用任何預處理、預訓練和額外訓練數據補充的操作,但是在IAM 數據集上,85.774 8%的識別準確率和8.6%字符錯誤率識別結果還是比較令人滿意的,進一步說明加入了CBAM和復合卷積的新框架更能聚焦有用特征,多尺度卷積在風格各異的脫機英文手寫單詞識別上表現良好。

表9 當前流行方法在IAM、RIMES 數據集上的精度對比Table 9 Accuracy comparison of current popular methods on IAM and RIMES datasets

3 結束語

本文將加強型卷積塊注意力模塊(CBAM)和復合卷積應用到處理文本識別的主流框架CRNN+CTC的卷積層中,特征提取網絡采用七層單通道卷積、三層CBAM和兩層復合卷積,經這種結構提取出的高層特征表示力強,為接下來提取文字序列特征免除了部分無用信息的干擾,因此針對具有語義信息的脫機英文手寫單詞數據取得了較好的實驗結果。為了進一步提升框架在脫機英文手寫單詞識別上的表現,接下來的研究工作會優化文字序列有效特征的提取方法,修改成合適的網絡結構后重新進行訓練。

猜你喜歡
單詞特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
單詞連一連
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
看圖填單詞
抓住特征巧觀察
3D打印中的模型分割與打包
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产福利小视频高清在线观看| 精品无码一区二区在线观看| 国产精品视频系列专区| 好紧太爽了视频免费无码| 欧美成人免费午夜全| 欧美α片免费观看| 国内自拍久第一页| 免费在线观看av| 国产精品三级专区| 黄色在线不卡| 青青国产成人免费精品视频| 亚洲色欲色欲www网| 免费观看无遮挡www的小视频| 1级黄色毛片| 青青草一区二区免费精品| 久久a毛片| 国产成人91精品免费网址在线 | 啊嗯不日本网站| 2048国产精品原创综合在线| 第一区免费在线观看| 在线视频亚洲色图| 国产成人综合久久| 伊人久久综在合线亚洲2019| 亚洲一区波多野结衣二区三区| 国产主播在线一区| 黄色网站在线观看无码| 国产麻豆另类AV| 国产精品专区第一页在线观看| 精品无码国产一区二区三区AV| 久久人人爽人人爽人人片aV东京热| 香蕉国产精品视频| 国产精品久久久久鬼色| 亚洲第一区在线| 色噜噜在线观看| 日本亚洲欧美在线| 亚洲国产成人综合精品2020| 亚洲欧美日本国产综合在线 | 国产婬乱a一级毛片多女| 亚洲午夜18| 国产免费a级片| 国产成人AV综合久久| 热思思久久免费视频| 欧洲在线免费视频| 99视频精品在线观看| 亚洲高清无码久久久| 欧美激情视频在线观看一区| 国产午夜无码片在线观看网站| 天天色综合4| 日韩一级毛一欧美一国产| 毛片免费在线| 国产亚洲欧美日韩在线一区| 波多野结衣一区二区三区88| 亚洲无码91视频| 一级黄色欧美| www.av男人.com| 国产精品人成在线播放| 国产成人区在线观看视频| 国产视频大全| 亚洲自偷自拍另类小说| 欧美成人精品欧美一级乱黄| 精品1区2区3区| 国产欧美精品一区aⅴ影院| 在线看免费无码av天堂的| a网站在线观看| 精品无码一区二区三区电影| 手机精品福利在线观看| 国产午夜看片| 国产靠逼视频| 99久久精品视香蕉蕉| 中日韩一区二区三区中文免费视频| 免费女人18毛片a级毛片视频| 99精品国产电影| 免费中文字幕一级毛片| 亚洲一级毛片免费观看| 欧美一区二区三区欧美日韩亚洲| 日本成人一区| 欧美成人精品一级在线观看| 国产在线观看成人91| 婷婷综合缴情亚洲五月伊| 国产区在线观看视频| 欧美成人午夜视频免看| 99热精品久久|