楊秀璋,周既松,武 帥,2,陳登建,劉建義,宋籍文
(1.貴州財經大學信息學院,貴州 貴陽 550025;2.漣水縣財政局;3.貴州高速公路集團有限公司)
隨著文本信息數字化程度不斷提升,模式識別技術被廣泛運用于檔案信息化應用中[1]。部分檔案由于以手寫體為主,需要對其進行手寫體字符識別(Optical Character Recognition,簡稱OCR),以獲取較為準確的文字信息[2]。整個過程主要包括圖像預處理、特征提取和分類器分類,其中特征提取最為關鍵。傳統手寫體字符識別方法在提取目標書寫體圖像信息時,能較好地提取手寫體空間、字體輪廓信息,但對復雜環境下手寫體圖像的處理存在準確率低和識別效果不佳的現象[3]。此外,當前少數民族古文字研究集中于藝術考究和字形釋義,缺乏利用深度學習技術自動化識別文字,且古文字主要通過古籍、雕刻、木刻或碑刻存在,存在大量噪聲,數字化讀取困難[3]。針對上述情況,本文提出一種改進IE-AlexNet 神經網絡的少數民族文字圖像識別方法,一定程度上提升了對復雜環境下手寫體圖像的關鍵特征提取效果,提高模型整體分類效果。該方法有較好的魯棒性和準確性。
現階段,手寫體字符識別的研究主要集中于對中文和英文手寫體文字的識別,但針對少數民族古文字手寫體識別研究相對較少。傳統手寫體字符識別方法在識別少數民族古文字手寫體時,由于其手寫體字型變化,數字化識別效果欠佳。因此,如何運用計算機視覺技術和檔案數字化方法構建一個能夠智能化準確識別少數民族古文字的模型,一定程度上對提高少數民族檔案數字化建設起到積極作用,具有較高的研究意義,是研究者們迫切需要解決的問題。
熱依曼·吐爾遜等[4]融合高斯模型和隱馬爾可夫模型,設計了一種維吾爾語聯機手寫體識別系統,利用高斯模型模擬維吾爾語整詞的靜態特征和隱馬爾科夫模型模擬書寫筆跡的動態特征。王曉娟等[5]針對數字手寫體圖像區域進行歸一化處理,提出一種基于BP神經網絡的圖像識別方法。楊秀璋等[6]針對水族古文字傳承以刺繡、碑刻、木刻等為主,文字清晰度不高,數字化讀取困難的現象,提出一種基于自適應圖像增強和區域檢測的水族文字提取與分割算法。姜文等[7]針對手寫體維吾爾文字字符識別過程中的特征提取環節,提出一種基于方向線素特征的手寫體維吾爾文單字字符筆跡特征的KNN分類識別算法。楊秀璋等[8]考慮到古文字的字形變化特點,提出一種改進卷積神經網絡的阿拉伯文字圖像識別方法。
此外,深度學習技術的不斷成熟,為手寫體字符識別提供了新的解決思路。本文在AlexNet 神經網絡的基礎上融合圖像增強技術,一定程度上提升了對阿拉伯文字手寫體關鍵特征的提取效果,提高了模型整體分類效果。將本文方法運用于手寫體阿拉伯文字的識別,可以一定程度上拓寬手寫體文字識別的研究范疇,同時也為本研究團隊后期對水族文字識別提供理論基礎,給少數民族數字化檔案建設提供實際應用的可能性,這是我們研究的意義所在。
本文提出一種融合自適應圖像增強和深度學習的IE-AlexNet(Image Enhancement AlexNet)模型,并對復雜環境下的阿拉伯文字圖像數據集進行實驗,模型設計的研究內容如下。
本文設計并實現了IE-AlexNet 模型,其總體框架如圖1所示。具體實現步驟如下。

圖1 復雜環境下少數民族文字圖像識別的總體框架
⑴模擬現實場景采集并構造阿拉伯文字圖像數據集,并將其隨機劃分為訓練集和測試集。
⑵計算場景系數,構建自適應圖像增強得算法實現去噪,增強圖像質量,共包括形態學去噪(閉運算)、灰度伽馬變換、灰度對數變換、直方圖均衡化、ACE算法去霧和暗通道先驗去霧六種算法。
⑶對所有圖像進行預處理,包括圖像向量表征、標準化處理、形狀修改和編碼轉換等。
⑷構建IE-AlexNet模型該模型包括5層卷積層、3層池化層和3個全連接層,并優化模型超參數。
⑸通過構建Softmax 分類器實現阿拉伯文字圖像識別,對比少數民族文字識別的性能。
AlexNet 神經網絡是由Alex Krizhevsky 等人[9]于2012 年提出的首個應用于圖像分類的深層卷積神經網絡,并在當年舉辦的ImageNet Large Scale Visual Recognition Competition(簡稱ILSVC)比賽中以15.3%的top-5測試錯誤率獲得了分類任務的冠軍,其網絡結構詳如圖2所示。該網絡由五個卷積層和三個全連接層組成。卷積層用于提取特征,池化層用于實現特征降維,激活函數用于獲取非線性特征,全連接層起到分類作用。輸入圖像經過卷積層特征提取和全連接層分類操作之后,輸入到具有1000 個節點的Softmax分類器中實現圖像分類。

圖2 AlexNet模型結構
在真實場景中,少數民族文字圖像通常存在于古籍、木雕或碑刻中,因此存在大量的噪聲,導致傳統圖像識別方法效果不理性。本文結合真實場景噪聲特點(含文字噪聲、全局噪聲、年代噪聲、亮度噪聲和光照影響),設計了一種自適應圖像增強的算法。該算法通過計算場景系數,針對不同場景構建對應的閾值,再開展相應的圖像增強處理,包括形態學、灰度伽馬變換、灰度對數變換、直方圖均衡化、自動色彩均衡(Automatic Color Equalization,簡稱ACE)算法[10]和暗通道先驗(Dark Channel Prior,簡稱DCP)去霧算法[11]。
圖3詳細展示了四種場景下的阿拉伯文字圖像處理效果。圖3(a)存在字內噪聲,圖3(e)利用形態學閉運算有效去噪;圖3(b)存在全局噪聲,通常存在于雕刻和木刻的掃描圖像,圖3(f)利用ACE 算法有效消除中心文字的內部噪聲;圖3(c)屬于年代噪聲,年代久遠的古籍會導致字體不清晰,圖3(g)是圖像增強方法消除噪聲的效果;圖3(d)是亮度或光線、過曝導致的噪聲,圖3(h)利用暗通道先驗去霧處理的效果圖。

圖3 復雜環境下自適應圖像增強算法處理的效果圖
本文進行了詳細的對比分析,利用Keras和Sklearn構建模型。實驗環境為Windows 10 操作系統,處理器為Inter(R) Core i7-8700K,GPU 為GTX 1080Ti,內存為64GB。
數據集是來自Kaggle 的阿拉伯字母手寫圖像,并結合真實場景模擬噪聲,最終生成如表1 所示的數據集。其中,訓練集共計13440幅字符圖像,測試集共計3360 幅字符圖像,涉及28 類阿拉伯文字。同時,按照10%的比例進行噪聲混淆。每幅圖像大小為32×32,并經過圖像預處理修改為統一大小。

表1 阿拉伯手寫文字數據集
為更好地評估IE-AlexNet 模型,本文所有實驗在相同的數據集及場景下實現。此外,為避免某些異常實驗結果的影響,本文最終的實驗結果為十次結果的平均值。
構建的AlexNet 模型的超參數如表2 所示,包括層類、核尺寸、通道數和函數。AlexNet 共包括5 個卷積層、3 個池化層和3 個全連接層,并且本文添加BN和Dropout函數,防止出現過擬合現象。

表2 模型超參數
實驗評估指標為精確率(Precision)、召回率(Recall)、F1值(F1-score)和準確率(Accuracy),它們是經典的分類評估指標,其計算過程如公式⑴~公式⑷所示。

本文與經典機器學習、現有深度學習進行了詳細的對比實驗,實驗結果如表3 所示。其中,本文IEAlexNet 模型的精確率為0.9564,召回率為0.9554,F1值為0.9559,準確率為0.9553,均優于現有方法。

表3 各模型少數民族文字識別實驗結果對比
此外,本文方法的F1值比機器學習中表現最好的SVM 模型提升27.32%,比單層CNN 和雙層CNN 模型提升3.49%和3.13%,比TextCNN 模型提升0.87%,比文獻[8]方法提升0.29%。該實驗充分說明本文構建的IE-AlexNet 能較好地識別阿拉伯文字圖像,并應用于復雜場景下的少數民族古文字識別領域。
同時,本文對比了28 種阿拉伯字母的識別效果,其對應字母、類別和F1值如表4 所示。表現最好的阿拉伯文字包括第0 類、第1 類、第4 類、第11 類和第22類,其F1值分別為0.9917、0.9916、0.9876、0.9789、0.9746,這些文字相對于其他文字特點更明顯,更容易被IE-AlexNet 識別。而具有相似的文字識別效果相對較差,比如第10類和第9類,第7類和第8類,第2類和第3類等。

表4 IE-AlexNet模型識別各類阿拉伯文字的實驗結果
圖4 展示了28 種阿拉伯字母的識別結果對應的混淆矩陣,藍色對角線表示正確識別類別,紅色區域是誤報或漏報數量。

圖4 IE-AlexNet模型識別結果的混淆矩陣
為突出本文模型自適應圖像增強的效果以及性能,本文分別進行了對比實驗。表5 展示了五種經典模型是否使用圖像增強優化的前后效果。其中,使用自適應圖像增強算法后,KNN 模型的F1值提升14.46%,RF 模型的F1值提升13.59%,單層CNN 模型的F1值提升11.97%,文獻[8]模型的F1值提升3.80%,本文AlexNet 模型的F1值提升3.49%。該實驗充分說明本文方法能有效實現不同場景的圖像增強,去除少數民族文字圖像的噪聲,具有更強的魯棒性和準確率,并能有效識別阿拉伯文字或其他少數民族古文字,具有一定的應用前景和實用價值。

表5 各模型遷移場景的情感分析實驗結果對比
最后,本文對比了深度學習模型的訓練誤差隨Epoch 下降曲線,如圖5 所示。其中,IE-AlexNet 模型能以更快的速度下降并擬合,最終趨于0.1822 為主。相較于其他模型,本文針對該數據集的圖像識別效果更佳,性能更好。

圖5 實驗誤差變化曲線
傳統圖像識別方法較難識別少數民族文字,而且古文字主要以古籍、雕刻、木刻或碑刻而存在,利用深度學習技術自動化識別,存在大量噪聲,數字化讀取困難。
本文提出一種融合自適應圖像增強的深度學習IE-AlexNet 模型,旨在識別復雜場景下的阿拉伯文字圖像。實驗結果表明,本文方法能有效識別阿拉伯文字圖像,并去除噪聲,其F1值為0.9559,準確率為0.9553,IE-AlexNet 的F1值比機器學習中表現最好的SVM 模型提升27.32%,比單層CNN 和雙層CNN 模型提升3.49%和3.13%,比TextCNN 模型提升0.87%,比文獻[8]方法提升0.29%。
該實驗充分說明了本文構建的IE-AlexNet能較好地識別阿拉伯文字圖像,其應用于復雜場景下的少數民族古文字識別領域,有較好的魯棒性和準確率,有一定的應用前景和實用價值。