999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

印刷體滿文文字數(shù)據(jù)庫的構建與實現(xiàn)

2015-04-21 12:24:28周興華鄭蕊蕊胡艷霞
大連民族大學學報 2015年3期
關鍵詞:單詞數(shù)據(jù)庫

周興華,李 敏,鄭蕊蕊,許 爽,胡艷霞

(大連民族學院a.計算機科學與工程學院;b.信息與通信工程學院;c.東北少數(shù)民族研究院,遼寧大連116605)

清朝統(tǒng)治中國將近300年,作為中華民族的少數(shù)民族之一的滿族,歷史悠久,文化內涵豐富,在中國歷史上起著舉足輕重的作用?,F(xiàn)存的大量滿文檔案至今已有400多年的歷史,由于年限久遠,很多歷史文獻已經(jīng)不同程度的破損[1]。如何將這些珍貴的文化歷史記錄轉化為可永久保存的電子文檔成為當務之急[2]。光學字符識別技術(Optical Character Recognition,OCR)具有將圖片中文字翻譯成計算機文字的功能,已廣泛應用于少數(shù)民族文檔的數(shù)字化保護,是實現(xiàn)滿文文檔數(shù)字化的技術保障[3]。利用光學字符識別技術識別滿文,必須以大量的字符樣本為基礎,因此建設滿文文字數(shù)據(jù)庫是研究滿文識別方法的必要條件[4]。目前,國內已經(jīng)建成了蒙文、藏文、維文等少數(shù)民族文字庫,但滿文字庫的研究相對較少,還沒有一個有影響的滿文文字數(shù)據(jù)庫可以為開發(fā)滿文識別算法提供公共的訓練和測試樣本,實驗結果存在很大差異性,識別結果無法統(tǒng)一比較。因此,建立滿文文字數(shù)據(jù)庫是滿文識別技術的必要前提。

考慮到滿文文字的特殊性,滿文文字庫的構建與其它字庫不同,需要將單詞部件作為采集內容,而部件的分割是建庫的重點和難點。本文將建庫與文字切分聯(lián)系在一起,提出了一種多級庫的構建思想。該庫為后續(xù)滿文識別和特征提取提供有利的保證。對繼承和發(fā)揚少數(shù)民族文化,研究滿清歷史,保護和傳承非物質文化遺產(chǎn),促進各民族共同繁榮有著十分重要的歷史意義[5]。

1 印刷體滿文文字數(shù)據(jù)庫的結構

基于滿文的特殊性,提出了一種多級數(shù)據(jù)庫的構建思想,滿文文字數(shù)據(jù)庫的構建框圖如圖1。該庫包括列文本庫、單詞庫、基元庫三個子庫。列文本庫可用于分析滿文的語法結構,單詞庫可用于基元切割和樣本測試訓練,基元庫可用于后續(xù)的特征提取和模式識別等。該數(shù)據(jù)庫的構建以《滿文365句》一書為采集內容,書中都是常用的滿文高頻詞匯,大多數(shù)高校和研究所都是以該書為教材學習滿語,因此以該書為采集內容構建的數(shù)據(jù)庫普適性更強。

圖1 滿文文字數(shù)據(jù)庫構建框圖

滿文文字數(shù)據(jù)庫結構如圖2,該庫最大的結構特點在于它是一個多級庫,其中根據(jù)滿文單詞的長度又將單詞庫分為多個子庫。為了方便文字識別的調用,系統(tǒng)可以先判斷滿文文字的字長,根據(jù)組成單詞基元的個數(shù)選擇去哪個子庫匹配,提高了系統(tǒng)的運行速度和匹配效率。同樣,基元庫中根據(jù)基元出現(xiàn)在單詞中的不同位置劃分為單字基元庫、字頭基元庫、字中基元庫和字尾基元庫。這樣,在文字識別、特征提取的時候就可以根據(jù)基元出現(xiàn)在單詞中的位置選擇去哪個子庫查詢匹配。

圖2 滿文文字數(shù)據(jù)庫結構圖

2 數(shù)據(jù)庫的構建

要構建印刷體滿文文字數(shù)據(jù)庫,首先要對掃描得到的滿文圖像進行一系列的預處理,提取圖像中的列文本建立列文本庫,再切分出單個滿文單詞和基元,建立單詞庫和基元庫。

2.1 圖像預處理

由于獲取的原始圖像因為噪聲、傾斜、污點、痕跡及人為掃描過程中各種參數(shù)調整不當?shù)仍?,使得掃描的圖像并不完美,質量也不高,因此,需要對圖像進行灰度化、二值化、傾斜矯正、行列切分等預處理[6]。

對于圖像的灰度化和二值化,采用文獻[7]中的方法,該方法能夠較好地反映原圖像的亮度信息,取得了較為理想的灰度化和二值化結果。但是如果掃描圖像產(chǎn)生傾斜,就會引起字符變形,字符分割就很困難,嚴重影響文字的識別率[8]。因此,在預處理過程中,還要對二值圖像進行傾斜校正,如圖3(a)。掃描得到的滿文文本圖像存在一定的傾斜角θ,以原點為中心,將像素(x,y)旋轉θ角度而得到新的像素點坐標(x',y')的旋轉變換公式為

旋轉校正后的圖像如圖3(b)。通過設定不同的θ值,可實現(xiàn)圖像不同角度的旋轉校正。

圖3 傾斜校正

2.2 列文本庫的構建

滿文為拼音文字,在結構上與蒙古文相似,都是以詞為單位,書寫時從左至右,從上至下。每個滿文在垂直方向上是由頭部、中部、尾部構成的,由主干線相連。而且主干線大多位于單詞的中部,由分布密集的黑色像素點構成[9]。

要建立列文本庫,首先要對二值圖像進行列切分,提取圖像中的滿文列文本。列切分的關鍵技術是如何確定左右邊界,這里采用的是文獻[10]中的投影法。滿文二值圖像在X軸上的投影曲線如圖4,使用該方法的切分效果如圖5,在切分出的列文本中挑選滿文列保存入庫。

圖4 在X軸上的投影曲線

圖5 列切分效果圖

2.3 單詞庫的構建

單詞庫的構建需要調用列文本庫中的圖像,提取圖像中的滿文單詞。單詞切分與列切分原理基本類似,將圖像的像素點在Y軸上做投影,根據(jù)先前經(jīng)驗設定合適閾值,具體切分算法如下:

(1)設f(i,j)是二值圖像中點(i,j)的像素值,其中 0≤i≤pic_height,0≤j≤pic_wide;

(2)第i=0行時,計算第i行黑色像素點總個數(shù),并存入一維數(shù)組count[i]中,i循環(huán)加1;

(3)如果i小于圖像高度,重復操作(2);

(4)設定閾值p,如果count[i]小于等于p,則返回i的值;

(5)沿(4)中返回的i值橫向切分圖像。

這種結合閾值的投影法,在某些特定規(guī)則下取得了較好的切分效果。將切分出的滿文文字存入單詞庫中,最后根據(jù)詞長以及構成單詞的基元個數(shù)對滿文單詞進行分類,分別放入對應的子庫中。

2.4 基元庫的構建

基元庫的構建相對復雜,因為同一字母出現(xiàn)在單詞中的不同位置會有不同的寫法,為了便于基元庫的充分調用,我們將基元庫分為字頭基元庫、字中基元庫、字尾基元庫以及單字庫四個三級子庫?;那蟹中枰獙υ嘉淖謭D片進行列掃描列,選取有效像素點最多的列作為該文字的中軸[11]。構建基元庫具體算法流程如圖6,該算法切分出的基元效果圖如圖7。

圖6 構建基元庫算法流程圖

圖7 基元切分效果圖

通過以上方法構建的列文本庫、滿文單詞庫、基元庫樣本如圖8。

圖8 印刷體滿文文字數(shù)據(jù)庫樣本示例

3 結 語

文章提出了一種多級滿文文字數(shù)據(jù)庫的構建思想,將數(shù)據(jù)庫分為列文本庫、單詞庫和基元庫三個子庫,又根據(jù)基元個數(shù)的多少和出現(xiàn)位置的不同分為多個三級子庫。這種多級庫的設計有利于文字的調用和特征提取,可有效提高后續(xù)的文字識別速率。另外,該庫包含豐富的滿文文字及特征資源,可為其他學者研究和學習滿文提供測試和訓練樣本,為后續(xù)滿文識別奠定基礎。在今后的研究中,將努力改進方法,進一步改善和豐富該數(shù)據(jù)庫內容,努力構建不同字體和字號都適用的滿文文字數(shù)據(jù)庫。

[1]趙驥,王麗君,李晶皎.基于統(tǒng)計的滿文識別后處理的研究和實現(xiàn)[J].鞍山科技大學學報,2005,28(6):444-446.

[2]吳敏.從滿文發(fā)展的歷史與現(xiàn)狀談保護與發(fā)展?jié)M文的意義[J].滿族研究,2010(2):62-65.

[3]LIN W S,JAY K C C.Perceptual Visual Quality Metrics:A Survey[J].Journal of Visual Communication and Image Representation,2011,22(4):297-312.

[4]鄭蕊蕊,李敏,吳寶春.基于MATLAB GUI的少數(shù)民族文字手寫體采集系統(tǒng)—以滿文為例[J].大連民族學院學報,2014,16(3):306-309.

[5]魏巍,郭晨.基于多特征集成分類器的脫機滿文識別方法[J].計算機工程與設計,2012,33(6):2347-2352.

[6]吳剛,德熙嘉措,黃鶴鳴.印刷體藏文識別技術[J].青海師范大學學報:自然科學版,2006(01):286-291.

[7]鄭蕊蕊,趙印繼,李敏,等,.多民族脫機手寫體漢字數(shù)據(jù)庫的設計與構建[J].大連民族學院學報,2011,13(5):205-506.

[8]劉芳,歐珠.藏文文字識別系統(tǒng)中的數(shù)字圖像預處理方法研究[J].西藏大學學報,2006,22(13):257-264.

[9]張廣淵.脫機手寫體滿文識別研究[D].沈陽:東北大學,2006.

[10]劉賽,李益東.彝文文字識別中的文字切分算法設計與實現(xiàn)[J].中南民族大學學報:自然科學版,2007,26(3):70-72.

[11]白文榮.手寫體蒙古文字識別—切分技術的研究[J].科技經(jīng)濟市場,2009,(6):30-31.

[12]魏宏喜,高光來.印刷體蒙古文字識別中蒙古文字特征的選擇[J].內蒙古大學學報,2006,37(6):694-697.

[13]朱滿瓊,李敏,許爽,等.圖像背景下的滿文文字提?。跩].大連民族學院學報,2014,16(1):78-81.

[14]唐春強,趙驥,王愛俠,等.基于投影法的滿文識別研究[C].中國控制與決策學術年會論文集,2004:256-265.

[15]張廣淵,李晶皎,王愛俠.脫機手寫滿文筆畫基元的提取和識別[J].計算機工程,2007,33(22):200-202.

[16]郭海,趙晶瑩.基于小波分析及改進二次鑒別函數(shù)的民族文種識別[J].計算機應用,2009,29(12):3360-3365.

[17] PENG Liangrui,LIU Changsong,DING Xiaoqing.Multi-font printed Monglian document recognition system[J].International Journal on Document Analysis and Recognition(IJDAR),2010,13(2):93-106.

猜你喜歡
單詞數(shù)據(jù)庫
What’s This?
Exercise 1
單詞連一連
看圖填單詞
數(shù)據(jù)庫
財經(jīng)(2017年15期)2017-07-03 22:40:49
看完這些單詞的翻譯,整個人都不好了
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 91色国产在线| 手机精品视频在线观看免费| 亚洲第一视频区| 国产欧美在线观看一区| 99色亚洲国产精品11p| 欧美国产日韩在线观看| 国产亚卅精品无码| 深爱婷婷激情网| 波多野结衣一二三| 欧美成人午夜视频免看| 亚洲日本中文字幕天堂网| 在线观看热码亚洲av每日更新| 99热这里只有精品5| 亚洲欧洲综合| 亚洲日韩每日更新| 亚洲国产日韩在线成人蜜芽| 亚洲视频在线观看免费视频| 欧美一级黄色影院| 国产成人a毛片在线| 一级一级一片免费| 国产一在线| 久久99国产综合精品女同| 精品日韩亚洲欧美高清a| 久久久久九九精品影院| 色哟哟色院91精品网站| 国产精品无码在线看| 亚洲欧美极品| 丁香六月综合网| 性网站在线观看| 国产爽妇精品| 日韩麻豆小视频| 99热这里只有成人精品国产| 中文字幕伦视频| 天天综合网亚洲网站| 欧美日韩亚洲综合在线观看| 五月丁香伊人啪啪手机免费观看| 国产永久在线视频| 国产视频一二三区| 真实国产乱子伦高清| 欧美国产日韩在线观看| 国产精品伦视频观看免费| 成年人福利视频| 97青青青国产在线播放| 亚洲欧美精品在线| 亚洲视屏在线观看| 欧美福利在线观看| 一区二区无码在线视频| 久热re国产手机在线观看| 欧美在线观看不卡| 蜜芽国产尤物av尤物在线看| 亚洲婷婷丁香| av大片在线无码免费| 国产女人18水真多毛片18精品| 狠狠色丁香婷婷| 免费在线看黄网址| 中文字幕在线观| 极品国产一区二区三区| 久久综合色视频| 国产黑丝视频在线观看| 久久综合色天堂av| 欧美成人二区| 日韩欧美国产综合| 四虎亚洲精品| 女人18毛片水真多国产| 蜜桃臀无码内射一区二区三区| 日本人妻一区二区三区不卡影院| 国产精品手机视频| 波多野结衣一区二区三区88| 亚洲精品欧美重口| 国产精品自拍合集| av无码久久精品| 大香伊人久久| 久久免费精品琪琪| 久久精品国产999大香线焦| 一本色道久久88| 亚洲黄色成人| 亚洲精品国产成人7777| 四虎精品黑人视频| 伊人久久大香线蕉综合影视| 精品欧美视频| 日日拍夜夜操| 国产网站在线看|