一種改進(jìn)IE-AlexNet的少數(shù)民族文字圖像識(shí)別方法＊

2022-11-10 06:39:52楊秀璋周既松陳登建劉建義宋籍文

計(jì)算機(jī)時(shí)代 2022年11期

楊秀璋，周既松，武帥,2，陳登建，劉建義，宋籍文

(1.貴州財(cái)經(jīng)大學(xué)信息學(xué)院，貴州貴陽 550025；2.漣水縣財(cái)政局；3.貴州高速公路集團(tuán)有限公司)

0 引言

隨著文本信息數(shù)字化程度不斷提升，模式識(shí)別技術(shù)被廣泛運(yùn)用于檔案信息化應(yīng)用中[1]。部分檔案由于以手寫體為主，需要對(duì)其進(jìn)行手寫體字符識(shí)別(Optical Character Recognition，簡稱OCR)，以獲取較為準(zhǔn)確的文字信息[2]。整個(gè)過程主要包括圖像預(yù)處理、特征提取和分類器分類，其中特征提取最為關(guān)鍵。傳統(tǒng)手寫體字符識(shí)別方法在提取目標(biāo)書寫體圖像信息時(shí)，能較好地提取手寫體空間、字體輪廓信息，但對(duì)復(fù)雜環(huán)境下手寫體圖像的處理存在準(zhǔn)確率低和識(shí)別效果不佳的現(xiàn)象[3]。此外，當(dāng)前少數(shù)民族古文字研究集中于藝術(shù)考究和字形釋義，缺乏利用深度學(xué)習(xí)技術(shù)自動(dòng)化識(shí)別文字，且古文字主要通過古籍、雕刻、木刻或碑刻存在，存在大量噪聲，數(shù)字化讀取困難[3]。針對(duì)上述情況，本文提出一種改進(jìn)IE-AlexNet 神經(jīng)網(wǎng)絡(luò)的少數(shù)民族文字圖像識(shí)別方法，一定程度上提升了對(duì)復(fù)雜環(huán)境下手寫體圖像的關(guān)鍵特征提取效果，提高模型整體分類效果。該方法有較好的魯棒性和準(zhǔn)確性。

1 相關(guān)研究現(xiàn)狀

現(xiàn)階段，手寫體字符識(shí)別的研究主要集中于對(duì)中文和英文手寫體文字的識(shí)別，但針對(duì)少數(shù)民族古文字手寫體識(shí)別研究相對(duì)較少。傳統(tǒng)手寫體字符識(shí)別方法在識(shí)別少數(shù)民族古文字手寫體時(shí)，由于其手寫體字型變化，數(shù)字化識(shí)別效果欠佳。因此，如何運(yùn)用計(jì)算機(jī)視覺技術(shù)和檔案數(shù)字化方法構(gòu)建一個(gè)能夠智能化準(zhǔn)確識(shí)別少數(shù)民族古文字的模型，一定程度上對(duì)提高少數(shù)民族檔案數(shù)字化建設(shè)起到積極作用，具有較高的研究意義，是研究者們迫切需要解決的問題。

熱依曼·吐爾遜等[4]融合高斯模型和隱馬爾可夫模型，設(shè)計(jì)了一種維吾爾語聯(lián)機(jī)手寫體識(shí)別系統(tǒng)，利用高斯模型模擬維吾爾語整詞的靜態(tài)特征和隱馬爾科夫模型模擬書寫筆跡的動(dòng)態(tài)特征。王曉娟等[5]針對(duì)數(shù)字手寫體圖像區(qū)域進(jìn)行歸一化處理，提出一種基于BP神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別方法。楊秀璋等[6]針對(duì)水族古文字傳承以刺繡、碑刻、木刻等為主，文字清晰度不高，數(shù)字化讀取困難的現(xiàn)象，提出一種基于自適應(yīng)圖像增強(qiáng)和區(qū)域檢測(cè)的水族文字提取與分割算法。姜文等[7]針對(duì)手寫體維吾爾文字字符識(shí)別過程中的特征提取環(huán)節(jié)，提出一種基于方向線素特征的手寫體維吾爾文單字字符筆跡特征的KNN分類識(shí)別算法。楊秀璋等[8]考慮到古文字的字形變化特點(diǎn)，提出一種改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的阿拉伯文字圖像識(shí)別方法。

此外，深度學(xué)習(xí)技術(shù)的不斷成熟，為手寫體字符識(shí)別提供了新的解決思路。本文在AlexNet 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上融合圖像增強(qiáng)技術(shù)，一定程度上提升了對(duì)阿拉伯文字手寫體關(guān)鍵特征的提取效果，提高了模型整體分類效果。將本文方法運(yùn)用于手寫體阿拉伯文字的識(shí)別，可以一定程度上拓寬手寫體文字識(shí)別的研究范疇，同時(shí)也為本研究團(tuán)隊(duì)后期對(duì)水族文字識(shí)別提供理論基礎(chǔ)，給少數(shù)民族數(shù)字化檔案建設(shè)提供實(shí)際應(yīng)用的可能性，這是我們研究的意義所在。

2 系統(tǒng)設(shè)計(jì)

本文提出一種融合自適應(yīng)圖像增強(qiáng)和深度學(xué)習(xí)的IE-AlexNet（Image Enhancement AlexNet）模型，并對(duì)復(fù)雜環(huán)境下的阿拉伯文字圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，模型設(shè)計(jì)的研究內(nèi)容如下。

2.1 總體框架

本文設(shè)計(jì)并實(shí)現(xiàn)了IE-AlexNet 模型，其總體框架如圖1所示。具體實(shí)現(xiàn)步驟如下。

圖1 復(fù)雜環(huán)境下少數(shù)民族文字圖像識(shí)別的總體框架

⑴模擬現(xiàn)實(shí)場(chǎng)景采集并構(gòu)造阿拉伯文字圖像數(shù)據(jù)集，并將其隨機(jī)劃分為訓(xùn)練集和測(cè)試集。

⑵計(jì)算場(chǎng)景系數(shù)，構(gòu)建自適應(yīng)圖像增強(qiáng)得算法實(shí)現(xiàn)去噪，增強(qiáng)圖像質(zhì)量，共包括形態(tài)學(xué)去噪（閉運(yùn)算）、灰度伽馬變換、灰度對(duì)數(shù)變換、直方圖均衡化、ACE算法去霧和暗通道先驗(yàn)去霧六種算法。

⑶對(duì)所有圖像進(jìn)行預(yù)處理，包括圖像向量表征、標(biāo)準(zhǔn)化處理、形狀修改和編碼轉(zhuǎn)換等。

⑷構(gòu)建IE-AlexNet模型該模型包括5層卷積層、3層池化層和3個(gè)全連接層，并優(yōu)化模型超參數(shù)。

⑸通過構(gòu)建Softmax 分類器實(shí)現(xiàn)阿拉伯文字圖像識(shí)別，對(duì)比少數(shù)民族文字識(shí)別的性能。

2.2 AlexNet模型

AlexNet 神經(jīng)網(wǎng)絡(luò)是由Alex Krizhevsky 等人[9]于2012 年提出的首個(gè)應(yīng)用于圖像分類的深層卷積神經(jīng)網(wǎng)絡(luò)，并在當(dāng)年舉辦的ImageNet Large Scale Visual Recognition Competition（簡稱ILSVC）比賽中以15.3%的top-5測(cè)試錯(cuò)誤率獲得了分類任務(wù)的冠軍，其網(wǎng)絡(luò)結(jié)構(gòu)詳如圖2所示。該網(wǎng)絡(luò)由五個(gè)卷積層和三個(gè)全連接層組成。卷積層用于提取特征，池化層用于實(shí)現(xiàn)特征降維，激活函數(shù)用于獲取非線性特征，全連接層起到分類作用。輸入圖像經(jīng)過卷積層特征提取和全連接層分類操作之后，輸入到具有1000 個(gè)節(jié)點(diǎn)的Softmax分類器中實(shí)現(xiàn)圖像分類。

圖2 AlexNet模型結(jié)構(gòu)

2.3 自適應(yīng)圖像增強(qiáng)

在真實(shí)場(chǎng)景中，少數(shù)民族文字圖像通常存在于古籍、木雕或碑刻中，因此存在大量的噪聲，導(dǎo)致傳統(tǒng)圖像識(shí)別方法效果不理性。本文結(jié)合真實(shí)場(chǎng)景噪聲特點(diǎn)（含文字噪聲、全局噪聲、年代噪聲、亮度噪聲和光照影響），設(shè)計(jì)了一種自適應(yīng)圖像增強(qiáng)的算法。該算法通過計(jì)算場(chǎng)景系數(shù)，針對(duì)不同場(chǎng)景構(gòu)建對(duì)應(yīng)的閾值，再開展相應(yīng)的圖像增強(qiáng)處理，包括形態(tài)學(xué)、灰度伽馬變換、灰度對(duì)數(shù)變換、直方圖均衡化、自動(dòng)色彩均衡(Automatic Color Equalization，簡稱ACE)算法[10]和暗通道先驗(yàn)(Dark Channel Prior，簡稱DCP)去霧算法[11]。

圖3詳細(xì)展示了四種場(chǎng)景下的阿拉伯文字圖像處理效果。圖3(a)存在字內(nèi)噪聲，圖3(e)利用形態(tài)學(xué)閉運(yùn)算有效去噪；圖3(b)存在全局噪聲，通常存在于雕刻和木刻的掃描圖像，圖3(f)利用ACE 算法有效消除中心文字的內(nèi)部噪聲；圖3(c)屬于年代噪聲，年代久遠(yuǎn)的古籍會(huì)導(dǎo)致字體不清晰，圖3(g)是圖像增強(qiáng)方法消除噪聲的效果；圖3(d)是亮度或光線、過曝導(dǎo)致的噪聲，圖3(h)利用暗通道先驗(yàn)去霧處理的效果圖。

圖3 復(fù)雜環(huán)境下自適應(yīng)圖像增強(qiáng)算法處理的效果圖

3 實(shí)驗(yàn)評(píng)估

本文進(jìn)行了詳細(xì)的對(duì)比分析，利用Keras和Sklearn構(gòu)建模型。實(shí)驗(yàn)環(huán)境為Windows 10 操作系統(tǒng)，處理器為Inter(R) Core i7-8700K，GPU 為GTX 1080Ti，內(nèi)存為64GB。

3.1 數(shù)據(jù)集和模型參數(shù)

數(shù)據(jù)集是來自Kaggle 的阿拉伯字母手寫圖像，并結(jié)合真實(shí)場(chǎng)景模擬噪聲，最終生成如表1 所示的數(shù)據(jù)集。其中，訓(xùn)練集共計(jì)13440幅字符圖像，測(cè)試集共計(jì)3360 幅字符圖像，涉及28 類阿拉伯文字。同時(shí)，按照10%的比例進(jìn)行噪聲混淆。每幅圖像大小為32×32，并經(jīng)過圖像預(yù)處理修改為統(tǒng)一大小。

表1 阿拉伯手寫文字?jǐn)?shù)據(jù)集

為更好地評(píng)估IE-AlexNet 模型，本文所有實(shí)驗(yàn)在相同的數(shù)據(jù)集及場(chǎng)景下實(shí)現(xiàn)。此外，為避免某些異常實(shí)驗(yàn)結(jié)果的影響，本文最終的實(shí)驗(yàn)結(jié)果為十次結(jié)果的平均值。

構(gòu)建的AlexNet 模型的超參數(shù)如表2 所示，包括層類、核尺寸、通道數(shù)和函數(shù)。AlexNet 共包括5 個(gè)卷積層、3 個(gè)池化層和3 個(gè)全連接層，并且本文添加BN和Dropout函數(shù)，防止出現(xiàn)過擬合現(xiàn)象。

表2 模型超參數(shù)

3.2 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)評(píng)估指標(biāo)為精確率（Precision）、召回率（Recall）、F1值（F1-score）和準(zhǔn)確率（Accuracy），它們是經(jīng)典的分類評(píng)估指標(biāo)，其計(jì)算過程如公式⑴～公式⑷所示。

3.3 實(shí)驗(yàn)對(duì)比分析

本文與經(jīng)典機(jī)器學(xué)習(xí)、現(xiàn)有深度學(xué)習(xí)進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表3 所示。其中，本文IEAlexNet 模型的精確率為0.9564，召回率為0.9554，F(xiàn)1值為0.9559，準(zhǔn)確率為0.9553，均優(yōu)于現(xiàn)有方法。

表3 各模型少數(shù)民族文字識(shí)別實(shí)驗(yàn)結(jié)果對(duì)比

此外，本文方法的F1值比機(jī)器學(xué)習(xí)中表現(xiàn)最好的SVM 模型提升27.32%，比單層CNN 和雙層CNN 模型提升3.49%和3.13%，比TextCNN 模型提升0.87%，比文獻(xiàn)[8]方法提升0.29%。該實(shí)驗(yàn)充分說明本文構(gòu)建的IE-AlexNet 能較好地識(shí)別阿拉伯文字圖像，并應(yīng)用于復(fù)雜場(chǎng)景下的少數(shù)民族古文字識(shí)別領(lǐng)域。

同時(shí)，本文對(duì)比了28 種阿拉伯字母的識(shí)別效果，其對(duì)應(yīng)字母、類別和F1值如表4 所示。表現(xiàn)最好的阿拉伯文字包括第0 類、第1 類、第4 類、第11 類和第22類，其F1值分別為0.9917、0.9916、0.9876、0.9789、0.9746，這些文字相對(duì)于其他文字特點(diǎn)更明顯，更容易被IE-AlexNet 識(shí)別。而具有相似的文字識(shí)別效果相對(duì)較差，比如第10類和第9類，第7類和第8類，第2類和第3類等。

表4 IE-AlexNet模型識(shí)別各類阿拉伯文字的實(shí)驗(yàn)結(jié)果

圖4 展示了28 種阿拉伯字母的識(shí)別結(jié)果對(duì)應(yīng)的混淆矩陣，藍(lán)色對(duì)角線表示正確識(shí)別類別，紅色區(qū)域是誤報(bào)或漏報(bào)數(shù)量。

圖4 IE-AlexNet模型識(shí)別結(jié)果的混淆矩陣

3.4 圖像增強(qiáng)及模型性能比較

為突出本文模型自適應(yīng)圖像增強(qiáng)的效果以及性能，本文分別進(jìn)行了對(duì)比實(shí)驗(yàn)。表5 展示了五種經(jīng)典模型是否使用圖像增強(qiáng)優(yōu)化的前后效果。其中，使用自適應(yīng)圖像增強(qiáng)算法后，KNN 模型的F1值提升14.46%，RF 模型的F1值提升13.59%，單層CNN 模型的F1值提升11.97%，文獻(xiàn)[8]模型的F1值提升3.80%，本文AlexNet 模型的F1值提升3.49%。該實(shí)驗(yàn)充分說明本文方法能有效實(shí)現(xiàn)不同場(chǎng)景的圖像增強(qiáng)，去除少數(shù)民族文字圖像的噪聲，具有更強(qiáng)的魯棒性和準(zhǔn)確率,并能有效識(shí)別阿拉伯文字或其他少數(shù)民族古文字，具有一定的應(yīng)用前景和實(shí)用價(jià)值。

表5 各模型遷移場(chǎng)景的情感分析實(shí)驗(yàn)結(jié)果對(duì)比

最后，本文對(duì)比了深度學(xué)習(xí)模型的訓(xùn)練誤差隨Epoch 下降曲線，如圖5 所示。其中，IE-AlexNet 模型能以更快的速度下降并擬合，最終趨于0.1822 為主。相較于其他模型，本文針對(duì)該數(shù)據(jù)集的圖像識(shí)別效果更佳，性能更好。

圖5 實(shí)驗(yàn)誤差變化曲線

4 結(jié)束語

傳統(tǒng)圖像識(shí)別方法較難識(shí)別少數(shù)民族文字，而且古文字主要以古籍、雕刻、木刻或碑刻而存在，利用深度學(xué)習(xí)技術(shù)自動(dòng)化識(shí)別，存在大量噪聲，數(shù)字化讀取困難。

本文提出一種融合自適應(yīng)圖像增強(qiáng)的深度學(xué)習(xí)IE-AlexNet 模型，旨在識(shí)別復(fù)雜場(chǎng)景下的阿拉伯文字圖像。實(shí)驗(yàn)結(jié)果表明，本文方法能有效識(shí)別阿拉伯文字圖像，并去除噪聲，其F1值為0.9559，準(zhǔn)確率為0.9553，IE-AlexNet 的F1值比機(jī)器學(xué)習(xí)中表現(xiàn)最好的SVM 模型提升27.32%，比單層CNN 和雙層CNN 模型提升3.49%和3.13%，比TextCNN 模型提升0.87%，比文獻(xiàn)[8]方法提升0.29%。

該實(shí)驗(yàn)充分說明了本文構(gòu)建的IE-AlexNet能較好地識(shí)別阿拉伯文字圖像，其應(yīng)用于復(fù)雜場(chǎng)景下的少數(shù)民族古文字識(shí)別領(lǐng)域，有較好的魯棒性和準(zhǔn)確率，有一定的應(yīng)用前景和實(shí)用價(jià)值。