吉娃阿英
(四川大學計算機學院,成都 610065)
字符識別因為其較高的實際應用價值,一直是模式識別領域的一個研究熱點。隨著計算機和相關學科的發展,文字識別的研究工作已經取得了較大的成功,一些文字識別的產品相繼產生,并投入使用當中。特別是針對漢字和英文的光學字符識別產品已經比較成熟[1],在實際的應用中表現良好。然而,對于一些少數民族語言文字的研究卻還剛剛起步甚至是空白。彝語是一門使用人數超過百萬的少數民族語言,而對于彝文字識別的研究還處在起步階段,還沒有統一或者成型的彝文字識別方法和工具出現[2]。
目前雖然有少數的相關研究者對彝文字符識別做了初步的探索和研究,但是大都使用的是一些傳統的人工設計規則來提取特征,再用模板匹配或者是分類的方法。這些傳統的研究方法雖然在一定的條件和特定的數據集上可以獲得比較良好的實驗結果,但是存在著不足和缺陷[3]。例如,手工構造規則并提取特征對特定的數據集有效,但是在不同數據集或者實際應用中它會出現泛化能力不足的現象。另外,不同的特征選擇算法和特征選擇,對識別的效果影響較大以及特征選擇困難,容易受數據集影響,算法對數據的噪聲敏感,從而對前期原始數據的預處理要求就很高[4]。鑒于此,本文探究了深度學習在彝文字符識別上的應用,深度學習方法因能夠自主從數據中學習和提取特征,能夠大大彌補上述傳統方法的缺點。經過實驗驗證,深度學習算法在彝文字符識別中具有良好的表現。
彝文字符識別是一個新起步的研究課題,目前為止相關的研究還比較少。王嘉梅等人使用基于圖像分割,手工構造規則和特征字典匹配的方法研究了彝文字識別的應用,并設計相關實驗來進行仿真[4]。朱宗曉等人采用1024維周邊方向貢獻度作為彝文字符的統計特征,使用基于K-L變化的特征壓縮算法和三級字典快速匹配算法,來實現脫機印刷體彝文的識別[5]。朱龍華等人應用彈性網格特征,方向線素特征,投影特征和筆畫密度特征以及結合彝文字型的結構特征進行特征提取,最后通過多分類器集成的方法來輸出識別結果[6]。賈曉棟初次提出了深度學習方法在脫機手寫彝文字上的研究工作,并使用卷積神經網絡在自建的包含100個類的手寫體彝文字數據集上訓練和測試,在此100個類別的手寫體彝文數據集上獲得不錯的效果[3]。本文在更大的脫機印刷體彝文字符數據集上探索和驗證了深度學習在彝文印刷體文字識別上的應用,實驗結果表明,深度學習在彝文脫機印刷體識別上是有效可行的。

圖1
本文收集了大量的脫機印刷體彝文字圖片和掃描件樣本,然后將彝文字圖片數據經過文字切分,二值化和歸一化處理。最后形成包含全部1165個標準彝文字符,每個字符對應20個不同圖片,樣本大小為23300張32×32小圖片的彝文印刷體字符集。示例樣本如圖2:

圖2
本實驗設計的彝文字識別方法屬于機器學習中的監督學習方法,需要讓神經網絡模型從訓練數據中學習不同類別文字的模式,因此需要對彝文字符進行數據標注。本文采用Unicode彝文系統[7]的編碼順序來對彝文字進行標注,類別標號從0開始。Unicode彝文系統中彝文字符的編碼范圍為0xA000-0xA4c6,而0xA000編碼對應的是字,所以該字的類別標號是0,同樣地字的類別標號為10,依此類推。實驗時從數據集中隨機20000份樣本作為訓練集,剩余的3300份作為測試集。
采用的網絡模型如圖3,包括多個卷積層和下采樣層,原始圖像數據輸入模型,經過卷積層的處理產生多個輸出(特征圖),特征圖再經過采樣層max-pooling采樣處理,最后特征圖作為全連接層的輸入來產生對應的輸出。在此網絡模型當中,卷積層經過學習輸出多個特征圖,這是一個特征學習的過程,跟傳統算法的特征選擇相似,但是卷積層能夠通過多個卷積核對輸入圖像產生多個對應的特征圖,相比傳統人工設計和選擇特征相比,能學習到更多更細微的特征,能夠適應圖像的旋轉位移等變化[8]。下采樣層類似傳統方法中的特征降維處理,這樣能降低網絡模型參數的復雜度,提高模型的泛化能力。最后的全連接層類似傳統方法中的分類器,把卷積網絡學習到的高層特征作為模式輸入,學習輸出對應的分類預測結果。

圖3

圖4

圖5
圖4和圖5訓練和驗證誤差曲線,橫軸表示模型訓練過程中的迭代次數,縱軸是對應準確率和誤差。由圖可以看到,隨著訓練迭代次數的增加準確率逐漸提高,誤差逐漸減小,當模型迭代次數到達400左右的時候,準確率和誤差趨于穩定。在驗證過程中,情況與訓練過程類似。雖然隨著訓練迭代次數的增加,模型預測的準確率也會相應地提高,但這可能會產生過擬合現象,為此,在本實驗中,迭代次數選擇350次,這樣能在一定程度上提高模型的泛化能力。
由于彝文字符識別的研究尚不成熟,標準統一的數據集沒有形成,目前為止很難做到相同條件下的實驗結果對比,本文從數據集、識別率,以及特征提取方法等角度來對不同方法的比較。如表1。

表1
從實驗結果中可以看到,基于特征字典匹配,基于組合特征多分類器集成和本文深度學習的方法在識別率上都表現出較好的性能。但是,由于深度學習的方法對前期數據預處理的要求比上文兩種方法低,也不需要人工構造和提取特征,而是通過數據學習獲取相關特征。因此基于神經網絡的方法不僅能提高識別的效率,其在不同數據集上的泛化能力也明顯優于前者。
彝文字符識別是一個具有現實意義的研究工作,然而目前尚處在摸索探究的階段,大多數研究方法都還在沿用傳統的手工設計規則和特征提取的方法。鑒于深度學習方法現在圖像處理領域取得的巨大成就[8],本文探索了深度學習方法在彝文字符識別中的應用,實驗結果表明,深度學習方法在彝文字符識別方面的應用是可行的,并且相比一些傳統的方法,其具有一定的優勢。
參考文獻:
[1]孫華,張航.漢字識別方法綜述[J].計算機工程,2010,36(20):194-197.
[2]朱宗曉,吳顯禮.脫機印刷體彝族文字識別系統的原理與實現[J].計算機技術與發展,2012,22(2):85-88.
[3]賈曉棟.基于深度學習的手寫體彝文識別技術應用研究.北京:中央民族大學,2017.
[4]王嘉梅,文永華,李燕青.基于圖圖像分割的古彝文字識別系統研究[J].云南民族大學學報:自然科學版,2008,17(1):76–79
[5]朱宗曉,吳顯禮.脫機印刷體彝族文字識別系統的原理與實現[J].計算機技術與發展,2012,22(2):85-88.
[6]朱龍華,王嘉梅.基于組合特征的多分類器集成的脫機手寫體彝文字識別[J].云南民族大學;自然科學版,2010,19(5):329-333.
[7]沙馬拉毅.計算機彝文信息處理[J].涼山大學學報,2001,3:4-7.
[8]Alex Krizhevsky,Ilya Sutskever,Geoffrey E.Hinton.ImageNet Classification with Deep Learning Convolutional Neural Networks.International Conference on Neural Information Processing Systems,2012,60(2):1097-1105.