師躍普 西熱旦增 陳瑤 強巴旦增 西藏大學
關鍵字:深度學習 藏文手寫字符 CNN
深度學習是機器學習領域的重要組成部分深度學習的主要結構是含有多層類似人腦的感知器,可以通過大量的數據來觀察和學習其中隱含的信息,并做出與之相適應的反應。本文主要通過構建和運用卷積神經網絡 [2](Convolutional Neural Networks,CNN)對手寫藏文字符進行訓練及其識別。本文主要識別的字符有10個數字:

深度學習是模擬人的大腦分層次處理信息的生理機制,構建一個不少于兩個隱含層的神經網絡對輸入進行“端到端”的非線性變換或表示學習的技術,包括多種架構模型:MLP,CNN,R-CNN,RNN,LSTM,GAN等。
假設一個模型M包含了n個隱含層,各層分別標記為Li(i=1,2,…,n),輸入為I,輸出為O,則該模型可以簡單表示為I=>L1=> L2=>…=>Ln=>O。在數據流動中Li層的輸入總是Li-1層的輸出,Li層的數據輸出作為Li+1層的數據輸入,通過訓練調整各層參數使輸出結果更接近輸入,最后利用分類器對O中的特征信息進行分類識別。

圖1 CNN模型
卷積神經網絡可以通過大量訓練,計算出輸入和輸出之間的關系。CNN是交替組成的卷積層和池化層[3],網絡中的每一層包括多個特征提取器。卷積層中的每一神經元與其上一層的神經元的連接屬于局部性的連接,且位于同一層中某些神經元的權值具有共享性。通過卷積層的運算,可以提取到輸入數據的特征信息,并且能夠減少噪聲對已提取特征的影響。池化層對輸入的數據進行抽樣,使其分辨率降低,能夠在在盡量保留原數據特征信息的同時降低數據處理時的維度,以提高處理信息時的速度。
將所有數據處理后,按train : test=7:3劃分數據集,代碼如下

本模型主要包括:輸入輸出層,兩個卷積層,兩層池化層和一個全連接層共七個層次。
下面介紹主要幾層,卷積層代碼如下:


通過對不同樣本同一人書寫和相同樣本同一人書寫建立的數據庫中7000張圖片的訓練。由準確率從第一次訓練的60%左右,邊訓練邊調整參數經過15次訓練后的準確率基本穩定在92%。(見表1)

表1 訓練20次數據表
藏文信息處理作為中文信息處理的重要組成部分,藏文文獻數量在國內僅次于漢文文獻,藏文文獻能夠較短時間內完成電子化存貯是當下亟待解決的一個重大課題。隨著深度學習和圖像識別領域的發展,希望藏文信息處理方面的研究利用深度學習技術能夠快速完成古籍保護傳承工作。