印刷體滿文文字數(shù)據(jù)庫的構建與實現(xiàn)

2015-04-21 12:24:28周興華鄭蕊蕊胡艷霞

大連民族大學學報 2015年3期

周興華，李敏，鄭蕊蕊，許爽，胡艷霞

(大連民族學院a.計算機科學與工程學院;b.信息與通信工程學院;c.東北少數(shù)民族研究院，遼寧大連116605)

清朝統(tǒng)治中國將近300年，作為中華民族的少數(shù)民族之一的滿族，歷史悠久，文化內涵豐富，在中國歷史上起著舉足輕重的作用?，F(xiàn)存的大量滿文檔案至今已有400多年的歷史，由于年限久遠，很多歷史文獻已經(jīng)不同程度的破損［1］。如何將這些珍貴的文化歷史記錄轉化為可永久保存的電子文檔成為當務之急［2］。光學字符識別技術(Optical Character Recognition，OCR)具有將圖片中文字翻譯成計算機文字的功能，已廣泛應用于少數(shù)民族文檔的數(shù)字化保護，是實現(xiàn)滿文文檔數(shù)字化的技術保障［3］。利用光學字符識別技術識別滿文，必須以大量的字符樣本為基礎，因此建設滿文文字數(shù)據(jù)庫是研究滿文識別方法的必要條件［4］。目前，國內已經(jīng)建成了蒙文、藏文、維文等少數(shù)民族文字庫，但滿文字庫的研究相對較少，還沒有一個有影響的滿文文字數(shù)據(jù)庫可以為開發(fā)滿文識別算法提供公共的訓練和測試樣本，實驗結果存在很大差異性，識別結果無法統(tǒng)一比較。因此，建立滿文文字數(shù)據(jù)庫是滿文識別技術的必要前提。

考慮到滿文文字的特殊性，滿文文字庫的構建與其它字庫不同，需要將單詞部件作為采集內容，而部件的分割是建庫的重點和難點。本文將建庫與文字切分聯(lián)系在一起，提出了一種多級庫的構建思想。該庫為后續(xù)滿文識別和特征提取提供有利的保證。對繼承和發(fā)揚少數(shù)民族文化，研究滿清歷史，保護和傳承非物質文化遺產(chǎn)，促進各民族共同繁榮有著十分重要的歷史意義［5］。

1 印刷體滿文文字數(shù)據(jù)庫的結構

基于滿文的特殊性，提出了一種多級數(shù)據(jù)庫的構建思想，滿文文字數(shù)據(jù)庫的構建框圖如圖1。該庫包括列文本庫、單詞庫、基元庫三個子庫。列文本庫可用于分析滿文的語法結構，單詞庫可用于基元切割和樣本測試訓練，基元庫可用于后續(xù)的特征提取和模式識別等。該數(shù)據(jù)庫的構建以《滿文365句》一書為采集內容，書中都是常用的滿文高頻詞匯，大多數(shù)高校和研究所都是以該書為教材學習滿語，因此以該書為采集內容構建的數(shù)據(jù)庫普適性更強。

圖1 滿文文字數(shù)據(jù)庫構建框圖

滿文文字數(shù)據(jù)庫結構如圖2，該庫最大的結構特點在于它是一個多級庫，其中根據(jù)滿文單詞的長度又將單詞庫分為多個子庫。為了方便文字識別的調用，系統(tǒng)可以先判斷滿文文字的字長，根據(jù)組成單詞基元的個數(shù)選擇去哪個子庫匹配，提高了系統(tǒng)的運行速度和匹配效率。同樣，基元庫中根據(jù)基元出現(xiàn)在單詞中的不同位置劃分為單字基元庫、字頭基元庫、字中基元庫和字尾基元庫。這樣，在文字識別、特征提取的時候就可以根據(jù)基元出現(xiàn)在單詞中的位置選擇去哪個子庫查詢匹配。

圖2 滿文文字數(shù)據(jù)庫結構圖

2 數(shù)據(jù)庫的構建

要構建印刷體滿文文字數(shù)據(jù)庫，首先要對掃描得到的滿文圖像進行一系列的預處理，提取圖像中的列文本建立列文本庫，再切分出單個滿文單詞和基元，建立單詞庫和基元庫。

2.1 圖像預處理

由于獲取的原始圖像因為噪聲、傾斜、污點、痕跡及人為掃描過程中各種參數(shù)調整不當?shù)仍?，使得掃描的圖像并不完美，質量也不高，因此，需要對圖像進行灰度化、二值化、傾斜矯正、行列切分等預處理［6］。

對于圖像的灰度化和二值化，采用文獻［7］中的方法，該方法能夠較好地反映原圖像的亮度信息，取得了較為理想的灰度化和二值化結果。但是如果掃描圖像產(chǎn)生傾斜，就會引起字符變形，字符分割就很困難，嚴重影響文字的識別率［8］。因此，在預處理過程中，還要對二值圖像進行傾斜校正，如圖3(a)。掃描得到的滿文文本圖像存在一定的傾斜角θ，以原點為中心，將像素(x，y)旋轉θ角度而得到新的像素點坐標(x'，y')的旋轉變換公式為

旋轉校正后的圖像如圖3(b)。通過設定不同的θ值，可實現(xiàn)圖像不同角度的旋轉校正。

圖3 傾斜校正

2.2 列文本庫的構建

滿文為拼音文字，在結構上與蒙古文相似，都是以詞為單位，書寫時從左至右，從上至下。每個滿文在垂直方向上是由頭部、中部、尾部構成的，由主干線相連。而且主干線大多位于單詞的中部，由分布密集的黑色像素點構成［9］。

要建立列文本庫，首先要對二值圖像進行列切分，提取圖像中的滿文列文本。列切分的關鍵技術是如何確定左右邊界，這里采用的是文獻［10］中的投影法。滿文二值圖像在X軸上的投影曲線如圖4，使用該方法的切分效果如圖5，在切分出的列文本中挑選滿文列保存入庫。

圖4 在X軸上的投影曲線

圖5 列切分效果圖

2.3 單詞庫的構建

單詞庫的構建需要調用列文本庫中的圖像，提取圖像中的滿文單詞。單詞切分與列切分原理基本類似，將圖像的像素點在Y軸上做投影，根據(jù)先前經(jīng)驗設定合適閾值，具體切分算法如下:

(1)設f(i，j)是二值圖像中點(i，j)的像素值，其中 0≤i≤pic_height，0≤j≤pic_wide;

(2)第i=0行時，計算第i行黑色像素點總個數(shù)，并存入一維數(shù)組count［i］中，i循環(huán)加1;

(3)如果i小于圖像高度，重復操作(2);

(4)設定閾值p，如果count［i］小于等于p，則返回i的值;

(5)沿(4)中返回的i值橫向切分圖像。

這種結合閾值的投影法，在某些特定規(guī)則下取得了較好的切分效果。將切分出的滿文文字存入單詞庫中，最后根據(jù)詞長以及構成單詞的基元個數(shù)對滿文單詞進行分類，分別放入對應的子庫中。

2.4 基元庫的構建

基元庫的構建相對復雜，因為同一字母出現(xiàn)在單詞中的不同位置會有不同的寫法，為了便于基元庫的充分調用，我們將基元庫分為字頭基元庫、字中基元庫、字尾基元庫以及單字庫四個三級子庫?；那蟹中枰獙υ嘉淖謭D片進行列掃描列，選取有效像素點最多的列作為該文字的中軸［11］。構建基元庫具體算法流程如圖6，該算法切分出的基元效果圖如圖7。

圖6 構建基元庫算法流程圖

圖7 基元切分效果圖

通過以上方法構建的列文本庫、滿文單詞庫、基元庫樣本如圖8。

圖8 印刷體滿文文字數(shù)據(jù)庫樣本示例

3 結語

文章提出了一種多級滿文文字數(shù)據(jù)庫的構建思想，將數(shù)據(jù)庫分為列文本庫、單詞庫和基元庫三個子庫，又根據(jù)基元個數(shù)的多少和出現(xiàn)位置的不同分為多個三級子庫。這種多級庫的設計有利于文字的調用和特征提取，可有效提高后續(xù)的文字識別速率。另外，該庫包含豐富的滿文文字及特征資源，可為其他學者研究和學習滿文提供測試和訓練樣本，為后續(xù)滿文識別奠定基礎。在今后的研究中，將努力改進方法，進一步改善和豐富該數(shù)據(jù)庫內容，努力構建不同字體和字號都適用的滿文文字數(shù)據(jù)庫。

［1］趙驥，王麗君，李晶皎.基于統(tǒng)計的滿文識別后處理的研究和實現(xiàn)［J］.鞍山科技大學學報，2005，28(6):444-446.

［2］吳敏.從滿文發(fā)展的歷史與現(xiàn)狀談保護與發(fā)展?jié)M文的意義［J］.滿族研究，2010(2):62-65.

［3］LIN W S，JAY K C C.Perceptual Visual Quality Metrics:A Survey［J］.Journal of Visual Communication and Image Representation，2011，22(4):297-312.

［4］鄭蕊蕊，李敏，吳寶春.基于MATLAB GUI的少數(shù)民族文字手寫體采集系統(tǒng)—以滿文為例［J］.大連民族學院學報，2014，16(3):306-309.

［5］魏巍，郭晨.基于多特征集成分類器的脫機滿文識別方法［J］.計算機工程與設計，2012，33(6):2347-2352.

［6］吳剛，德熙嘉措，黃鶴鳴.印刷體藏文識別技術［J］.青海師范大學學報:自然科學版，2006(01):286-291.

［7］鄭蕊蕊，趙印繼，李敏，等，.多民族脫機手寫體漢字數(shù)據(jù)庫的設計與構建［J］.大連民族學院學報，2011，13(5):205-506.

［8］劉芳，歐珠.藏文文字識別系統(tǒng)中的數(shù)字圖像預處理方法研究［J］.西藏大學學報，2006，22(13):257-264.

［9］張廣淵.脫機手寫體滿文識別研究［D］.沈陽:東北大學，2006.

［10］劉賽，李益東.彝文文字識別中的文字切分算法設計與實現(xiàn)［J］.中南民族大學學報:自然科學版，2007，26(3):70-72.

［11］白文榮.手寫體蒙古文字識別—切分技術的研究［J］.科技經(jīng)濟市場，2009，(6):30-31.

［12］魏宏喜，高光來.印刷體蒙古文字識別中蒙古文字特征的選擇［J］.內蒙古大學學報，2006，37(6):694-697.

［13］朱滿瓊，李敏，許爽，等.圖像背景下的滿文文字提?。跩］.大連民族學院學報，2014，16(1):78-81.

［14］唐春強，趙驥，王愛俠，等.基于投影法的滿文識別研究［C］.中國控制與決策學術年會論文集，2004:256-265.

［15］張廣淵，李晶皎，王愛俠.脫機手寫滿文筆畫基元的提取和識別［J］.計算機工程，2007，33(22):200-202.

［16］郭海，趙晶瑩.基于小波分析及改進二次鑒別函數(shù)的民族文種識別［J］.計算機應用，2009，29(12):3360-3365.

［17］ PENG Liangrui，LIU Changsong，DING Xiaoqing.Multi-font printed Monglian document recognition system［J］.International Journal on Document Analysis and Recognition(IJDAR)，2010，13(2):93-106.