999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文字結構的自切分手寫漢字文本識別方法

2025-09-11 00:00:00顧一漫張小壘
青島大學學報(自然科學版) 2025年3期

中圖分類號:TP311.5 文獻標志碼:A

Self-segmentation Recognition Method for Handwritten Chinese Character Text Based on Character Structure

GU Yi-man,ZHANG Xiao-lei (School of Computer Science and Technology,Qingdao University,Qingdao 266071,China)

Abstract: Handwritten Chinese text has complex structures, diverse writing styles,and unclear character boundaries, making traditional segmentation-free recognition methods prone to misalignment and recognition errors. A handwritten Chinese text recognition method based on a segmentation-based recognition framework was proposed,and a Swin attention mechanism module with self-attention and a sliding window approach was integrated,along with the embedding of the self-information of radicals. Experimental results show that the accuracy of the proposed method achieves 94.07% for handwritten Chinese text recognition, outperforming the current common recognition SVTR method by a margin of 0.57%

Keywords: handwritten Chinese text recognition; attention mechanism; self-information of radicals;convolutional neural network

隨著深度學習和互聯網技術的快速發展,各種終端設備獲取了眾多的圖像和視頻等媒體信息,這些信息中包含了大量的文本,豐富了信息世界,但也面臨如何有效地從中提取并利用文本信息等問題。雖然人類能夠輕松識別和理解這些文本,但如何使計算機在多樣化媒介中識別這些文本,仍然是一大難題。傳統的文本數字化方法,例如使用掃描儀,雖然提供了將紙質文檔轉換為數字格式的途徑,但也存在高昂的存儲成本和有限的可用性問題,并未從根本上解決此問題。在這種背景下,文字識別技術應運而生,即利用先進的計算機視覺和機器學習算法,自動識別和轉錄圖像中的文本內容,顯著提高了信息獲取和處理的效率。例如,微信已具有圖像中文本識別功能,用戶能快速提取和分享圖像中的文字信息。文本識別技術廣泛應用于智能入口系統的車牌識別、企業對發票和其他商業文件的自動處理。早期的手寫漢字文本識別方法大多基于過度分割技術,例如基于半馬爾可夫條件隨機場(semi-CRF)的中日手寫文本(字符串)識別方法[1],利用動態維護分割—識別候選網格的中文手寫輸入實時識別方法[2等。這些方法基于分割—識別網絡,首先對輸入的文本進行過度分割,然后結合分類器輸出、幾何和語言上下文尋找最佳分割識別方式,然而字符重疊等因素會限制準確率。目前的主流方法是基于隱馬爾可夫模型(Hidden Markov Model,HMM)的無分割方法,根據不同的解碼方式分為基于連接時序分類(Connectionist Temporal Classification,CTC)[3]的方法和基于注意力機制[4的方法,均優于早期的識別方法。然而,由于漢字相較于英語等印歐語系的文字擁有更復雜的二維結構,且書寫風格不同,漢語字符之間的分割不如英語單詞明顯,這導致無分詞方法容易出現錯位,尤其是基于注意力的方法。為了解決上述問題,本文借鑒切分的理念[5],提出了基于文字結構的自切分手寫漢字文本識別方法(Self-Information of Radicals-Swin-Transformer,SIR-ST)。其中,部首自信息量增強(Self-Informationof Radicals,SIR)模塊利用漢字偏旁部首的空間布局信息,通過估算筆畫局部區域的熵值,引導網絡關注區分度較高的筆畫區域,從而增強模型對相鄰字符和易混淆部件的識別能力,Swin-transformer[6]模塊采用窗口劃分和窗口平移的自注意力機制,在保證計算復雜度可控的同時,增強了模型的局部細節建模能力,并在 CASIA-HWDB2.0-2.2[7]、CASIA-OLHWDB2.0-2. 2[7] 、ICDAR2013[8]數據集上驗證了識別效果。

1算法實現

1.1 整體結構

SIR-ST方法整體結構由三部分組成(圖1),第一個模塊是基于分詞的手寫漢字文本識別框架,通過編碼器和快速的全卷積網絡實現,能夠識別字符位置、字符邊界框、字符種類信息,以供后續使用。

SIR模塊提取的偏旁部首自信息量,包含偏旁自信息在漢字識別中的內在差異價值,提高神經網絡對漢字的識別準確率。Swin-transformer模塊通過弱監督學習方法訓練網絡,僅使用文本注釋進行訓練,不需要額外的分割標注信息,降低了訓練所需代價。

圖1SIR-ST方法結構框架

1.2 數據預處理

數據質量與模型識別效果呈正相關,對輸人數據進行預處理有利于后續模型識別過程,通過數據預處理實現數據增廣,可以增強模型的性能與魯棒性。

(1)提高數據質量的關鍵在于優化數據背景和字體間的對比。手寫數據通常是黑色或深色字體,具有白色或淺色背景,將數據進行圖像二值化可以減少噪聲,避免對后續識別產生不必要的干擾,因此將所有的像素點限定為0或255兩個值。二值化的關鍵在于確定合適的閾值,常用的方法是大津法(Otsu's Threshol-ding Method,OTSU)[9],通過最大化背景像素與前景像素的類間方差迭代獲得最優的閾值,實現圖像的二值化。

(2)為了實現數據增廣,可以采用隨機平移與旋轉等方法。手寫數據可能存在一行文字并不水平的情況,文字也不一定會居中,但是人類可以正確的識別數據中的信息,理論上模型也能夠通過學習得到這種能力。對圖像進行高斯模糊[10],以此模擬低分辨率情況,從而提高模型識別不同分辨率數據的能力,本質上是一種數據平滑技術。真實的場景中,由不同設備采集得到的數據可能存在過曝或曝光不足的問題,因此利用暗化后增加噪聲的方式模擬與之類似的數據,以此增強模型的魯棒性。具體處理方式為對原圖像的灰度圖減去一個隨機值,使其整體變暗,然后加上符合高斯分布的噪聲來模擬拍照產生的噪點。

1.3 編碼器

文本檢測框架采用的 SPD(Space-to-Deepth)模塊考慮了文本實例特征的空間距離信息和特征位置信息,以增強文本檢測算法[11],本文據此設計了 SIR-ST 的編碼器。給定一個輸入 Iin∈RH×W×C (其中 H,W 和 C 分別代表高度,寬度以及輸人的通道數),編碼器提取特征圖 fenc

其中, 分別為特征圖的通道數和寬度。特征圖的高度被下采樣為1,編碼器是CNN。然后基于特征圖 fenc 生成3個預測: ,其中, ?loc??bbox 和 ?cls 分別為字符位置、字符邊界框和字符分類, ncls 是字符類別的總數。基于這些預測,輸入被平均劃分為 區域, plocn 是第n 個區域中包含字符的置信度, 是第 Ωn 個區域中字符邊界框的坐標, ?clsn 是包含第 n 個區域中字符被分類為每個 ncls 類別的概率。編碼器框架結構如圖2所示,推理過程使用全卷積網絡,編碼器不是提取單個特征映射 fenc ,而是輸出3個特征映射: floc?fbbox 和 fcls ,分別預測字符位置、字符邊界框和字符分類。

圖2編碼器結構

1.4 SIR模塊

SIR 模塊利用漢字筆畫與部首區域的信息量差異,自適應調整特征圖中局部區域的權重,從而增強模型對關鍵局部筆畫與偏旁部首的識別能力。在手寫漢字文本中,不同部首出現的次數是不同的,甚至相差巨大,可將出現次數較少的部首看作是漢字的特征部首,對漢字識別作用更大。利用文字的結構分解信息,可以通過簡單地計數得到詞根的概率分布,詞根在漢字識別中的重要性也可以用SIR表示。從信息論的角度分析,部首作為漢字識別的重要指標,越罕見的部首所帶來的信息量越大,對于手寫漢字識別的貢獻也越顯著。SIR模塊正是利用這一特性,引導模型關注關鍵偏旁和局部筆畫

SIR(r)=-logp(r)

獲得SIR指標關鍵在于 ?(r) 的計算,即自由基 r 的概率。圖3中展示了部分漢字的結構信息,漢字可以分解為不同的序列,每個序列由一個自由基組成,可以通過計數的方式獲得每個自由基的概率分布,而每個自由基由一個原型來維護,以此得到SIR的值。SIR-ST方法采用了常用的部首序列識別流程:使用卷積神經網絡(CNN)提取圖像特征,基于提取到的視覺特征,使用循環神經網絡(RNN)生成部首序列[12],預測每個字符可能包含的自由基,主要結構如圖4所示。

圖3一些漢字的結構信息

圖4SIR模塊部首序列識別流程

在特征提取階段,提取的圖像特征應該包含豐富的語義信息,即不能只關注細節信息豐富的局部區域,還應更好挖掘局部區域之間的聯系,對偏旁部首等復雜筆畫區域產生更高的權重響應,以獲取特征的全局表示,因此,利用DenseNet[13]提取圖像的視覺特征,輸人圖像經過卷積層和3個Dense塊獲得1個三維張量的視覺特征。然后基于這些視覺特征,通過RNN逐步預測字符可能包含的部首,利用門控制循環單元模塊(GRU)[14]和原型分類器識別字符的部首序列。具體來說,使用GRU和注意力機制在每個時間步 χt 中生成自由基,注意力機制可以判斷某區域是否被關注,以此獲取局部區域之間的聯系。由于局部關鍵區域的特征表達更明確,有助于SIR-ST模型在識別時降低相似字符(例如“問”和“聞”,“日\"和“目\"等)之間的錯判率。在嵌入Swin-transformer 模塊之前,為每個部首分配1個索引,得到其one-shot 向量 vi ,與部首的SIR值相乘,合并得到字符的嵌入向量 φ(C),C 為向量維度

1.5 Swin-transformer模塊

漢字復雜的二維結構包含的細小特征在一定程度上決定著識別的準確性[15-16],為了更好的提取實例的細小特征,SIR-ST引人了Swin-transformer模塊。

Swin-transformer模塊由緊密耦合的兩部分組成。第一部分是基于窗口的自注意機制,輸入前,先經過層規范化(Layer Normalization,LN)處理,然后進入串聯窗口多頭自注意力模塊(Windows Multi-head Self-Attention,W-MSA),W-MSA引入滑動窗口機制,將輸入圖像分為多個大小相等的窗口。第二部分是推拉窗口的自關注,結構與第一部分類似,但使用的是滑動窗口多頭自注意模塊(Sliding Window Multi-HeadSelf-AttentionModule,SW-MSA),通過窗口移動實現窗口之間的信息交換。

理論上,W-MSA能夠在局部窗口內提取細粒度特征,適應手寫漢字筆畫細節豐富、書寫風格各異的特點;而SW-MSA 則通過窗口平移,引導相鄰窗口共享信息,有效緩解了窗口分割導致的局部信息孤立問題,增強了模型的全局感受能力,這種局部到全局的注意力計算模式有助于建立漢字筆畫間的長距離依賴關系。例如,在識別類似“目”和“日\"這類細節差異微小的字形時,W-MSA能夠精準捕捉筆畫間的局部差異,而SW-MSA則確保筆畫分布整體信息能夠在窗口間流動,從而避免局部信息割裂導致的誤識別。

Swin-transformer模塊具有捕獲全局信息并通過滑動窗口方便信息傳播的能力,可以提取更精細的細節,建立特征間關系,增強分辨形近字的能力,從而提高檢測精度。此模塊中,輸入圖像分別通過CNN特征提取模塊和 Swin-transformer 模塊,特征向量相加,并嵌入SIR模塊得到最終結果,模塊總體結構如圖5所示,其中MLP為多層感知機,LN為線性層,為特征向量。

圖5Swin-transformer部分模塊結構圖

1.6 評價指標

文字識別任務中,最重要的是識別的準確率。行級的文本識別任務常使用編輯距離(Edit Distance,ED)[17衡量識別模型的錯誤率,編輯距離是使當前文本序列變為目標文本序列的最小修改次數,其中刪除、增加、替換1個字符算作1次修改,通過動態規劃完成計算,準確率Accuracy使用1與錯誤率的差表示

其中, g 代表真實標簽對應的字符串, 為模型預測的字符串, Ξli 為當前樣本對應的字符串的長度。

2 實驗結果及分析

2.1 數據集

驗證實驗在CASIA-HWDB2.0-2.2、CASIA-OLHWDB2.0-2.2、ICDAR2013數據集上展開。CASIA-HWDB2.0-2.2包含來自1019個作者的52230行文本;CASIA-OLHWDB2.0-2.2包含來自1020個作者的 52 220個文本行,分為用于訓練的41710文本行和用于測試的10 510文本行。ICDAR2013競賽數據集包含 60位作者的3432行在線和離線手寫中文文本。實驗前對數據集中數據進行了適當清洗,刪除和修正部分質量較差以及標注錯誤的數據。

實驗所采用的數據集包含了不同人群、不同書寫風格的手寫樣本,其多樣性可更好地檢驗識別方法的魯棒性。CASIA-HWDB2.0-2.2、CASIA-OLHWDB2.0-2.2數據集不僅數量豐富,且覆蓋了常用和特殊漢字。ICDAR2013是ICDAR會議的數據集,得到了國際研究者的廣泛認可,是該領域研究的標準之一。

2.2實驗結果與對比分析

驗證 SIR-ST方法時,將初始學習率設置為0.001,在第15、20個epoch 時衰減為當前的0.1,圖6為SIR-ST模型預測的部分結果。

Input 走過三個不同功能的容廳仿佛是從一個人的外表一步一發定入Output 走過三個不同功能的客廳,仿佛是從一個人的外表一步一步走入

Input 他看來,判斷房價只能看同一區域,同一樓盤戰現的變,從最近看,北京不打Output 他看來,判斷房價只能看同一區域、同一樓盤出現的變化,從最近看,北京不打

Input 新媒體閱讀的速度加快;為了學習或工作需要而讀書;Output 新媒體閱讀的速度加快;為了學習或工作需要而讀書;

為了驗證SIR-ST的性能,與目前的一些常用方法進行了對比。為保證公平性,所有方法均使用相同的訓練集和測試集,根據論文所提出的最優方式設置每個方法訓練時的超參數,結果見表1。可知,SIR-ST方法能夠更有效地建立字符的局部筆畫信息和偏旁部首空間的關系,從而減少字符錯位、粘連和筆畫混淆等情況,準確率達到了 94.07% ,比當前常用的SVTR方法提高了 0.57% ,略微超過MMAB,取得當前最優性能。

表1常用方法與SIR-ST方法準確率 (%)

2.3 消融實驗

為了驗證Swin-transformer模塊與SIR模塊的有效性,設計了相應的消融實驗,在同樣的實驗數據集上進行,且實驗步驟和參數設置與驗證實驗一致,確保了消融實驗的有效性,結果見表2。基線模型如表2第一行所示,即不添加Swin-transformer模塊與SIR模塊,準確率為 91.33% 。在基線模型上加人Swin-transformer模塊與SIR模塊時,分別獲得了 1.82% 和 1.43% 的準確率改善,當同時應用兩個模塊時,準確率相比于基線提高了2.74個百分點。實驗結果證明了Swin-transformer模塊與SIR模塊的有效性。

表2Swin-transformer模塊與SIR模塊的消融實驗

3 結論

本文針對手寫漢字文本識別中存在的字符錯位和識別錯誤問題,提出一種基于文字結構的自切分手寫漢字文本識別方法 SIR-ST。設計SIR模塊和 Swin-transformer模塊,提升了模型對關鍵筆畫區域的關注度和局部細節信息的挖掘能力,從而提高模型在文本識別中的準確率。對比當前常用的SVTR方法,SIR-ST方法準確率提高了 0.57% 。然而,由于手寫文本數據的多樣性和獲取的困難,以及中文書法和書寫形式的多變性,SIR-ST方法在少量數據集的情況下無法達到最佳性能。未來可從模型和數據集兩個方面進行優化,提高算法對于形近字的判斷準確率。

參考文獻

[1]ZHOUXD,WANGDH,TIANF,etal.HandwritenChinese/Japanesetextrecognitionusigsemi-Markovconditionalrandofiels [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,20l3,35(1O):2413-2426.

[2]WANGDH,UCL,ZHOUXDAnapproachforeal-timerecognitionofonlineCinesehandwritensentences[J].PatteRecog

tion,2012,45(10):3661-3675.

[3]GRAVESA,FERNNDEZSGMEZF,etal. Connectionisttemporalclasification:Labelingunsegmentedsequencedatawithrecurrent neural networks[C]// 23rd International Conference on Machine Learning.Pitsburgh,2O06:369-376.

[4]BAHDANAUD,CHOK,BENGIOY.Neuralmachinetranslationbyjointlylearning toalignandtranslateDB/OL].2024-12-25]https://arxiv.org/abs/1409.0473.

[5]PENGD,JL,MAW,etalRecognitionofhandritenChinesetextbysegmentation:Asegmentaotation-freapproacEEETransactions onMultimedia,2023,25:2368-2381.

[6]LIU Z,LINY,CAOY,etal.Swintransforer:Hierarchicalvisiontrasformerusingshifted widos[C]/EEE/CVFnteationalConference on Computer Vision. Montreal,2021:100l2-10022.

[7]LIUCL,YIF,WANGDH,etal.CSAolineandoflineChinesehandwritingdatabasesC]//InterationalConferenceDocment Analysis and Recognition. Beijing,2o11:37-41.

[8]YINF,WANGQF,ZHANGXY,talICDAR203ChinesehandwritingrecognitiocompetitionC]//InternationalConferenceonDocument Analysis and Recognition. Washington,2013:1464-1470.

[9]OTSUN.Athesholdselectionmethodfromgra-levelistogamsJIEEETransactionsonSystems,Man,andCybernetics,1979,9(1):62-66.

[10]HUMMELR A,KIMA B,ZUCKERSW.Deblurring gaussanblur[J].Computer Vision,Graphics,andImage Processng,1987,38(1):66-80.

[11]高戰,王國棟.基于空間位置特征增強的文本檢測算法[J].青島大學學報(自然科學版),2022,35(1):19-25+33.

[12]ZHANGJS,DUJ,DAILR.RadicalaalysisnetworkforlearinghierarciesofinesecharactersJ.PatternRecogition103:107305.

[13]HUANGG,LIUZ,LAURENSVDM,etal.Denselyconnectedconvolutional networksC]/ComputerVisionandPaernRecogni-tion.Honolulu,2017:4700-4708.

[14]CHO K,VAN MERRIENBOER B,GULCEHREC,et al.Learning phraserepresentations using RNNencoder-decoder forstatisticalmachine translation[C]/ Conferenceon Empirical Methods in NaturalLanguage Processing.Doha,2014:1724-1734.

[15]林粵偉,張通,宋丹,等.基于Swin Transformer和CNN的漢字書法教學系統[J].青島大學學報(自然科學版),2024,37(1):45-51.

[16]尹瀟偉,孫仁誠,王霄鵬,等.基于深度學習的中文票據文本檢測與識別方法[J].青島大學學報(自然科學版),2022,35(4):1-7+13.

[17]RISTADES,ANOSPN.Learingstringeditdistance]IEEETansactiosonPatenAnalsisandMacineInteligenc998,20(5):522-532.

[18]SHIBG,WANGXG,LUPY,etal.RbustsenetextrecognitionwithutomaticectificatioC/omputerVisioandeecognition. Seattle,2016:4168-4176.

[19]BORISYUKF,GORDOA,SVAKUMARV.Rosetta:Largescalesystemfortextdetectionandrecognitioninimages[C]/thInternational Conference onKnowledge Discoveryamp; Data Mining.London,2ol8:71-79.

[20]FANGSC,XIEHT,WANGYX,talReadlikeumans:Autonomous,idirectionalanditerativelanguagemodelingforentetrecognition[C]/ IEEE/CVF Conferenceon Computer Vision and Pattern Recognition.Kuala Lumpur,2021:7098-7107.

[21]SHBG,X,YAOC.Anentndtrainableeralnetworkfoiagbsedsequecerecoitioanditspliatiotettrecognition[J].IEEE Transactions on Pattern Analysis and Machine Inteligence,2016,39(11): 2298-2304.

[22]ATIENZAR.VisiotransforerforastandeficientsenetextecogitionC]/IteatioalConfereneonDocuentAalysisandRecognition.Lausanne,2021:319-334.

[23]DUYK,CHENZN,JIACY,etal.Svtr:ScenetextrecogitiowithinglevisuamodelDB/OL].2024-1-25]ttpsarxiv.org/abs/2205.00159.

[24]QUXWWUZHHUANGJ.End-tondaetioncovolutinalecurrentnetworkforolinandwittenCnesetextion[J].Multimedia Tools and Applications,2024,83(23):62541-62558.

[25]LIT,WUSL,WANGZF.Mask guidedselectivecontextdecodingforhandwritenChinesetextrecognitionC]/IEEInteationalConference on Acoustics, Speech and Signal Processing. Rhodes Island, 2023:1-5.

主站蜘蛛池模板: 亚洲天堂2014| 国产精品人莉莉成在线播放| 中文国产成人精品久久| 亚洲精品无码抽插日韩| 青青青国产视频| 国产色爱av资源综合区| 91偷拍一区| 日韩在线视频网站| 97人人做人人爽香蕉精品| 亚洲天堂网视频| 精品国产黑色丝袜高跟鞋| 国产成年女人特黄特色毛片免 | 国产网站黄| 久久这里只有精品8| 国产精品手机视频一区二区| 久久久久久久久亚洲精品| 亚洲an第二区国产精品| 婷婷亚洲最大| 日本人又色又爽的视频| 欧美成人精品高清在线下载| a级毛片在线免费| 就去色综合| 欧美黄网在线| 丁香亚洲综合五月天婷婷| 国产一级毛片在线| 日本高清成本人视频一区| 亚洲免费播放| 日韩一区精品视频一区二区| 国产精品网址你懂的| 日本国产精品| 日本欧美精品| 久久国产精品麻豆系列| 91在线一9|永久视频在线| 婷婷色中文| 国产免费a级片| 欧美成一级| 五月天综合婷婷| 制服无码网站| 久久久久亚洲Av片无码观看| 欧美日韩91| 欧美成人午夜视频| 中文成人在线视频| 精品国产黑色丝袜高跟鞋| 麻豆AV网站免费进入| 成人久久精品一区二区三区| 国产成人欧美| 香蕉99国内自产自拍视频| 一区二区午夜| 伊人色天堂| 国产精品亚洲日韩AⅤ在线观看| 色哟哟国产成人精品| 久久精品波多野结衣| 热久久综合这里只有精品电影| 亚洲福利片无码最新在线播放 | 国产欧美在线观看一区| 性色在线视频精品| 久久美女精品| 熟妇丰满人妻av无码区| 免费在线一区| 日韩少妇激情一区二区| 69av在线| 国产91在线免费视频| 国产特级毛片aaaaaaa高清| 九九热精品在线视频| 国产成人喷潮在线观看| 无码内射在线| 午夜毛片福利| 日韩精品中文字幕一区三区| 91在线播放国产| 呦女亚洲一区精品| 欧美在线黄| 久草视频中文| 欧美一区国产| 91免费精品国偷自产在线在线| 午夜免费小视频| 国产尤物视频在线| 国产精品视频3p| 中文字幕无码电影| 无码人妻免费| 免费毛片视频| 亚洲视频在线网| 久久国产av麻豆|