999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制藏文烏金體古籍文字識別研究

2023-10-21 02:36:40龍炳鑫
計算機技術與發展 2023年10期
關鍵詞:特征模型

童 攀,龍炳鑫,擁 措*

(1.西藏大學 信息科學技術學院,西藏 拉薩 850000;2.西藏大學 藏文信息技術人工智能西藏自治區重點實驗室,西藏 拉薩 850000;3.西藏大學 藏文信息技術教育部工程研究中心,西藏 拉薩 850000)

0 引 言

藏文烏金體古籍文字識別是計算機視覺領域的一個難題,同時也是國內外文獻資源數字化領域的一個重要研究方向。藏文烏金體古籍是藏族文化的重要組成成果,同時也是中華寶貴文化遺產的一部分,藏文古籍的數字化,對研究藏族文化教育,藏學研究、傳承優秀傳統文化等方面都發揮著極其重要的作用。目前,多數藏文烏金體古籍識別算法在清晰的藏文烏金體古籍圖像中能取得較好的識別效果,而對于藏文烏金體古籍中存在的文字粘連和背景復雜的圖像,其識別效果有待進一步提高。

國內外關于藏文古籍識別的研究相對稀少。20世紀90年代日本情報處理學會為了研究藏文佛教典籍,設立了藏文字符識別項目,1996年完成了識別系統[1]。該系統并沒有解決藏文古籍圖像中的文字切分問題,需要人工切分,并且只完成了字符識別功能。為了解決藏文古籍字切分的問題,Hedayati等人[2]首次將廣義隱馬爾可夫模型應用在藏文古籍識別流程中。西藏大學趙棟材等人[3]首次將反向傳播網絡應用在藏文古籍文字識別研究。為了增加識別效果,西藏大學高飛[4]進行藏文古籍圖像二值化研究。隨著深度學習技術的不斷發展,藏文古籍文字識別有了更多的研究。2018年,王筱娟[5]首次將深度神經網絡應用于藏文古籍相似字的識別,該方法有效提高了在藏文烏金體古籍相似字符的識別準確率。2019年,西北民族大學李振江[6]提出基于邊緣對比的二值化方法,西北民族大學韓躍輝[7]進行基于色彩空間轉換的二值化研究。同年李振江[8]提出利用基線信息進行字符識別方法,將藏字分為上下兩部分進行識別,提高了藏文字符的識別準確率。2021年,由于藏文古籍數據稀少且難以收集的問題,西藏大學仁青東主[9]進行了藏文古籍文字識別數據的合成方法研究,一定程度上解決了藏文古籍訓練規模小的問題。在藏文古籍的系統應用中,韓躍輝[10]采用基于卷積神經網絡 (Convolutional Neural Network,CNN)模型的字丁識別算法,設計并完成了藏文古籍識別系統,提高了藏文古籍7 240類字丁的識別率。胡鵬飛[11]采用藏文文本行數據集合成的方法以及端到端的深度學習模型,實現了文本行圖像的整行識別。仁青東主[12]使用殘差網絡和雙向循環長短期記憶循環神經網絡以及基于滑動窗的行識別技術,解決了行文字較長的問題。2021年,西藏大學完成承擔的國家重點研發項目,設計并完成了藏文古籍木刻本版面分析于文字識別系統,可以完成對整頁藏文烏金體古籍的識別。

現有的藏文烏金體古籍文字識別中的問題包括:(1)藏文烏金體古籍文字識別數據集資源稀少;(2)藏文烏金體古籍文字粘連圖像和背景復雜圖像識別效果不佳;(3)缺少一個行之有效的藏文識別評測指標。針對這些問題,該文的主要貢獻為:(1)提出以藏文字丁為基本單位的藏文字丁準確率評測標準,并應用在西藏大學國家重點研發項目中;(2)在文獻[13]提出的Encoder-Decoder模型以及文獻[14]提出的注意力機制的基礎上設計了識別模型算法,該模型在只有616張藏文烏金體古籍圖像作為數據集的情況下,以藏文字丁準確率為標準取得了90.55%的字丁識別效果。

1 相關工作

1.1 文字識別

近些年來,主流的文字識別方法主要分為兩種:基于連接時域分類(Connectionist Temporal Classification,CTC)的識別方法(如文獻[15])和基于注意力機制的識別方法。

基于CTC的識別方法的框架模型,首先使用卷積神經網絡對圖像進行視覺特征提取,再將視覺特征沿著寬度方向進行切片以形成特征序列,將特征序列輸入至序列建模之中,如RNN。再生成具有序列上下文的特征序列,最后使用CTC解碼每個序列特征進行字符類別預測并基于動態規劃對預測結果進行去重。該識別方法只依賴于視覺特征和視覺特征之間的序列關系,所以面對模糊文本和低質量圖像等難識別樣本時性能不好。

基于注意力機制的識別算法,同樣是先使用卷積神經網絡進行圖像特征提取,然后使用編碼器生成具有序列上下文信息的特征序列,使用注意力機制取所有特征序列為鍵和值,取解碼器中前一個時間步的預測為查詢進行注意力權重的計算,并對特征序列進行加權求和生成當前時間的解碼特征,將其送入解碼器中進行結果預測,持續過程直到輸出終止符或超過預定時間步。該方法可以自動尋找需要預測的文本區域,并將注意力集中在圖像中字符對應像素點位置,顯著地提高了模型的準確率。

1.2 藏文特點

圖1 現代藏文音節結構

圖2 現代藏文字丁結構

由于受印度文化的影響,藏文中還存在特殊的梵文藏文轉寫形式,梵文藏文轉寫并不符合藏文文法規則,而是符合梵文的文法規則,在藏文古籍文獻、藏文新聞等中時有出現,如圖3所示。在識別中對藏文字進行字丁切分的主要目的有:

圖3 梵文藏文轉寫

(1)保持藏文字的空間結構信息;

(2)簡化識別任務。

2 模型算法

2.1 基于注意力機制的卷積循環神經網絡

模型使用編碼器-解碼器(Encoder-Decoder)的模型結構,如圖4所示,其中x表示輸入信息,c表示通過Encoder層輸出的語義編碼,y表示通過Decoder層獲得的識別結果。該結構可以有效地將長度不同的圖像特征與之對應的文本序列進行對齊,同時注意力機制會自動尋找需要預測的文本區域,將注意力集中在圖像中字符對應的像素點位置從而顯著提高模型的準確率。

圖4 編碼器-解碼器結構

該文使用的基于注意力機制的卷積循環神經網絡(CRNN+ATTENTION)識別算法流程如圖5所示。該算法可以支持的字丁長度是有限的,根據訓練結果,該識別算法可識別的字丁個數為25。網絡對于輸入圖像的長寬并沒有限制。通過對收集的藏文古籍烏金體數據的藏文字丁統計共獲得了1 353個藏文字丁,并以此作為網絡支持的類別數。

圖5 藏文古籍圖像識別流程

在網絡的前端,卷積神經網絡自動從輸入的圖像中提取特征,將特征結果送入雙向長短期記憶(Bidirectional Long Short Term Memory,Bi-LSTM)網絡進行特征增強。接著注意力模型根據循環神經網絡(Recurrent Neural Network,RNN)神經元的隱藏狀態及上一時刻的輸出計算出注意力權重,最后將卷積神經網絡輸出的特征圖與注意力權重結合起來,輸入循環神經網絡進行編解碼后,得到整個字符集的概率分布,最后直接提取概率最高的編號所對應的字符作為最后的識別結果。

主要模型架構包括以下兩個方面:

(1)編碼器。

第一步,使用CNN網絡提取輸入圖像的特征序列,輸出為特征矩陣。在特征提取過程,imgH(圖像高度)方向經過4個pooling和1個卷積(Valid模式),imgW(圖像寬度)方向經過2個pooling和1個卷積(Valid模式),原圖高度變為imgH/32,原圖寬度變為 imgW/4+1。獲得圖像的特征矩陣。

參數設置如表1所示。其中K、S和P分別是卷積核(kernel size)、步長(stride)和填充大小(padding size)。BatchNorm2d為參與特征的通道數。

表1 卷積層參數

第二步,使用Bi-LSTM的方法對卷積層結果進行前后序列特征的增強。BLSTM在LSTM的基礎上,進一步學習上下文特征,結合了輸入序列在前向和后向兩個方向上的信息。對于t時刻的輸出,前向LSTM層具有輸入序列中t時刻以及之前時刻的信息,而后向LSTM層中具有輸入序列中t時刻以及之后時刻的信息。

循環參數設置如表2所示。其中nIn是輸入特征數,nHidden是LSTM中隱藏層的維度,Bidirectional表示是否使用雙向LSTM,nOut是輸出特征數。

表2 循環層參數

(2)解碼器。

第一步,計算注意力權重之前先對前一次的輸出進行詞嵌入,并進行特征融合,然后計算注意力權重。

注意力權重的計算需要三個指定的輸入Q(query),K(key),V(value),分別表示查詢,鍵值,值。然后通過計算得到注意力的權重結果??梢詫⑵錃w納為三個階段:第一個階段根據Query和Key計算兩者的相似性或者相關性;第二階段對第一階段的原始分值進行歸一化處理;第三個階段根據權重系數對Value進行加權求和。第一階段計算Query和Key某個的相似性,使用點向量積的方法進行計算。公式如下:

Sim(Query,Keyi)=Query*Keyi,i∈I

(1)

第二階段一方面可以進行歸一化,將原始計算分值整理成所有元素權重之和為1的概率分布;另一方面也可以通過SoftMax的內在機制更加突出重要元素的權重。公式如下:

(2)

式中,ai為Valuei對應的權重系數,第三階段將每一個ai進行加權求和即可獲得注意力的權重,公式如下:

(3)

第二步,將卷積神經網絡輸出的特征圖與注意力權重結合起來,根據Attention權重合并成1個最大概率的字符。

第三步,輸入循環神經網絡進行編解碼后,得到整個字符集的概率分布,直接提取概率最高的編號所對應的字符作為最后的識別結果。

參數設置如表3所示。其中out_size表示字典的維度,Dropout表示每個神經元不被激活的可能性。

表3 轉錄層參數

2.2 評測標準

對于藏文文字識別,目前并沒有一個固定的評測標準。該文采取編輯距離作為藏文古籍烏金體文字識別的準確率計算標準。編輯距離可以充分反映出藏文古籍烏金體識別中出現的錯識,漏識以及多識的情況。有利于對識別結果進行分析。藏文與中英文不同,每一個中英文都有對應的編碼,而一個藏字是由多個藏文字符編碼組成的,簡單的理解就是一個藏字就是多個藏文字符組合在一起的字符串,不易于比較且計算量較大??紤]藏文文字的結構特點,該文以藏文字丁為基本單位進行準確率計算。

提出的藏文字丁準確率算法的計算公式如下所示:

Acc=rd/(rd+ld)

(4)

式中,Acc是字丁準確率,rd是字丁匹配中對應位置正確的字丁個數,ld是字丁匹配中錯誤的字丁個數,包括識別中出現的多識,漏識,錯識三種情況。rd+ld是總共的比較次數,其計算結果并不一定等于標注文件的字丁個數。

3 實 驗

實驗運行環境:CPU 12th Gen Intel(R) Core(TM) i5-12400F 2.50 GHz;GPU NVIDIA GeForce RTX 3060;內存12 G;程序為Linux系統pytorch框架編寫運行。

以500張整頁藏文烏金體古籍作為訓練集,116張藏文烏金體古籍作為測試集。實驗訓練參數如表4所示。圖6為所使用的藏文烏金體古籍樣本圖。正常整頁藏文烏金體古籍識別流程應該是先進行藏文古籍文本檢測以及文本行切分處理,文本行切分處理結果送入文字識別模塊最后將識別結果進行后處理。該文主要說明識別模型的識別效果,故文本檢測,文本行切分處理和識別后處理這里不詳細解釋。

表4 訓練參數

圖6 藏文古籍圖像樣本圖

為了展示各模型的藏文烏金體古籍識別效果,特意截取兩小塊識別難度高的藏文烏金體古籍文本行圖像,如圖7所示,圖8為各模型針對兩小塊的識別結果。圖9為文中模型在116張整頁藏文烏金體古籍中隨機截取300個文本塊的識別準確率曲線。

(a)文字粘連圖像

圖8 各模型識別結果

圖9 CRNN+ATTENTION識別曲線

將文中識別模型與文獻[16]提出的CRNN+CTC識別模型以及文獻[17]提出的基于ABINET識別模型進行實驗對比。同時為了進一步驗證采用的注意力機制有效提高了藏文烏金體古籍識別效果,在文中算法基礎上刪去注意力機制進行實驗,如表5、表6所示,分別為文中模型與對比模型,文中模型與刪去注意力機制的文中模型進行500 epoch訓練之后使用116張樣本測試獲得的平均字丁準確率。

表5 不同算法識別結果對比

表6 注意力機制的文中模型對比

由表5可以看出,在使用小樣本的文字粘連和背景復雜的藏文烏金體古籍圖像進行模型訓練情況下,引入注意力機制能有效提高藏文烏金體古籍的識別準確率,使用CTC算法的模型其識別準確率明顯低于基于注意力機制的識別模型。同時文中模型與去掉注意力機制的文中模型進行比較,充分說明注意力機制能有效提高對藏文烏金體古籍中文字粘連和背景復雜圖像的識別效果。文中模型在少樣本的情況下,能充分利用樣本整體的上下文信息,并取得了較好的效果。同時,文中模型相比其他模型,在提升識別精度的同時,有效壓縮了模型的大小,提升了算法的實用價值。

4 結束語

針對藏文烏金體古籍圖像中的背景復雜和文字粘連的識別問題,采用卷積循環神經網絡CRNN與Attention注意力機制相結合的模型解決行文字粘連問題;以動態規劃的方法結合藏文字丁結構設計出來的藏文字丁識別準確率為評測指標;以統計藏文古籍中單獨出現的藏文字丁為識別字典。通過與CRNN+CTC模型和ABiNet模型在相同條件下的實驗結果進行對比,文中模型的識別效果最好,其字丁準確率為90.55%,在只有500張藏文烏金體古籍進行模型訓練的情況下取得了高效的識別結果。通過對文中模型測試的結果分析來看,后續計劃訓練藏文古籍語言模型以及添加藏文文法規則的方法來對識別結果進行后處理,以提高最終的識別效果。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲丝袜中文字幕| 2021精品国产自在现线看| 亚洲国产看片基地久久1024| 亚洲国产精品不卡在线 | 国产区精品高清在线观看| 欧美视频免费一区二区三区| 国产av一码二码三码无码| jizz在线观看| 成人国产免费| 亚洲日韩精品综合在线一区二区 | 国产一级α片| 国内丰满少妇猛烈精品播| 亚洲欧美日韩中文字幕一区二区三区| 国产综合日韩另类一区二区| 四虎成人在线视频| 2022国产91精品久久久久久| a在线观看免费| 伊人久久大香线蕉综合影视| 日韩av电影一区二区三区四区| 美女无遮挡免费网站| 久久精品娱乐亚洲领先| 乱码国产乱码精品精在线播放| AV片亚洲国产男人的天堂| 亚洲第一在线播放| 亚洲黄色视频在线观看一区| 人禽伦免费交视频网页播放| 伊人91在线| 国产亚洲成AⅤ人片在线观看| 天天婬欲婬香婬色婬视频播放| 色综合网址| 亚洲视频影院| 看看一级毛片| 青青青视频91在线 | 在线精品亚洲一区二区古装| 亚洲性视频网站| 亚洲色图欧美在线| 亚洲a免费| 99在线视频精品| 青青热久免费精品视频6| 一本大道无码高清| 呦系列视频一区二区三区| 午夜毛片免费观看视频 | 亚洲欧洲一区二区三区| 亚洲第一页在线观看| 国产亚洲视频在线观看| 国产亚洲精品97AA片在线播放| 欧美啪啪视频免码| 免费国产高清视频| 欧美中文字幕第一页线路一| 91在线播放免费不卡无毒| 天天综合亚洲| 自拍欧美亚洲| 国内丰满少妇猛烈精品播| 重口调教一区二区视频| 99精品一区二区免费视频| 国产91特黄特色A级毛片| 中文字幕亚洲乱码熟女1区2区| AV在线麻免费观看网站| 国产靠逼视频| 91亚瑟视频| 91人妻在线视频| 九色视频一区| 99在线免费播放| 亚洲一区二区三区麻豆| 国产黄在线观看| 亚洲成人免费在线| 日韩成人高清无码| 亚洲aⅴ天堂| 在线看片免费人成视久网下载| 免费AV在线播放观看18禁强制| 日韩午夜伦| 国产第一页亚洲| 亚洲欧洲免费视频| 午夜精品国产自在| 欧美国产在线一区| 久久www视频| 国产另类乱子伦精品免费女| 日韩精品欧美国产在线| 欧美亚洲一二三区| 色综合天天娱乐综合网| 日本影院一区| 中文字幕在线看|