999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文音節(jié)的錯誤檢測方法研究

2020-02-14 05:58:28王福釗周雁
計算機時代 2020年1期

王福釗 周雁

摘 ?要: 在藏文信息化處理中,藏文音節(jié)的正確拼寫是一切工作的基礎。文章針對藏文文本中藏文音節(jié)的錯誤自動檢測技術(shù)進行了研究,以包含62597個藏文音節(jié)的50篇新聞稿作為文本語料,研究比較了基于藏文音節(jié)構(gòu)件識別的構(gòu)件間約束限制匹配和基于全藏字列表的直接匹配這兩種方法的藏文音節(jié)檢錯誤判率,進而探討了不同的音節(jié)檢錯方法適用的最佳范圍和情況。

關(guān)鍵詞: 藏文; 音節(jié); 錯誤檢測; 約束限制匹配; 直接匹配

中圖分類號:TP391.4 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2020)01-05-05

Abstract: In the Tibetan information processing, the correct spelling of Tibetan syllables is the basis of all work. This paper studies the automatic error detection technology of Tibetan syllable in Tibetan text, and uses 50 news articles containing 62,597 Tibetan syllables as text corpus to study and compare the syllable error rate with two methods, i.e., the constraint limited matching between Tibetan syllable components method and the Tibetan syllable full-word list based direct matching method, and then explore the optimal range and situation for different syllable error detection methods to use.

Key words: Tibetan; syllable; error detection; constraint limited matching; direct matching

0 引言

本世紀初,國內(nèi)藏文信息化處理進入了發(fā)展階段,以中央民族大學、西藏大學、西北民族大學等高校為首的研究機構(gòu)加大了藏文信息處理的研究,在藏文文字處理上取得了大量成果。藏文是具有悠久歷史的古老文字,其可追溯至上古象雄時期,后經(jīng)過中世紀的發(fā)展,至吐蕃王朝第三十三代贊普松贊干布時期,由該時期的著名大臣吐彌桑布扎結(jié)合梵文正式創(chuàng)制了這一獨特的文字[1]。藏文是藏族人民交流溝通的主要語言文字,是藏文文化傳播的重要載體,是經(jīng)過不斷修正完善的中華民族古老文字的重要組成部分。藏語是中華民族語言大家庭中的重要一員,在信息化發(fā)展的不斷推動下,藏文信息化得到了快速發(fā)展。隨著藏文信息化的發(fā)展,計算機對藏文的處理顯得格外重要,計算機中藏文的正確表示和存儲是藏文信息處理的基礎,是進行藏文分詞、詞性標注、詞頻統(tǒng)計等工作的基礎。本次研究是從藏文的文本基本組成單元——音節(jié)出發(fā),以西藏新聞網(wǎng)的新聞稿件為文本語料,從構(gòu)字規(guī)則上研究并編寫計算機程序,實現(xiàn)了藏文音節(jié)的拼寫錯誤檢測。

1 研究基礎

1.1 藏文結(jié)構(gòu)

藏文類似于漢文屬于拼音型文字,屬于藏漢語系藏緬語族藏語支[2]。從狹義上講,藏文是指藏語的符號;但就廣義上講,藏文除了符號外還包括藏文文法等[3]。藏文在組成上由30個輔音字母(共8組)和5個元音字母(其中?a為省略不寫)組成[1]。具體如表1-表2所示。

藏文的基本組成單元是字母,文本的基本組成單元是藏文音節(jié)。另外,藏文音節(jié)是字、詞、短語和句子的組成基本單元,音節(jié)間用隔音符“?”標記隔開,句子分割使用單垂符“?”或雙垂符“??”標記隔開。每個藏文音節(jié)呈橫向-縱向雙重疊加的平面字,由30個輔音字母和4個元音字母按照構(gòu)字規(guī)則填補在基字、前加字、上加字、下加字、元音符號、后加字和再后加字中的1~7部分,來進行構(gòu)成。其中基字必須存在,是整個音節(jié)的核心部分。30個輔音字母皆可作為基字。藏字基本結(jié)構(gòu)如圖1所示。

基字:30個輔音字母皆可作為基字。

前加字:?????共5個。

上加字:???共3個。

下加字:????共4個。

元音符號:? ?? ?? ??共4個。

后加字:??????????共10個。

再后加字:??共2個。

前加字約束如表3,其中,? ?? ?? ?? ?? ?? 6個只能在疊加時才可添加前加字?,其余只需作為基字即可添加相應前加字。對于上加字的添加限制如表4所示。

對于下加字的添加限制如表5所示。

對于再后加字的添加限制如表6所示。

對于后加字而言,? ? ? ?? ? ? ? ? ? ? 皆可加在所有的字丁后,但不同的后加字將限制再后加字的出現(xiàn)[1]。還有一些特殊情況,基字+下加字+再下加字的三重疊加體,如???等。

1.2 檢錯原理

對于藏文音節(jié)的錯誤檢測,是根據(jù)其構(gòu)字規(guī)則進行規(guī)則匹配,匹配與否就是錯誤與否。對于整篇藏文文本而言,首先對文本進行預處理操作,替換非藏文字符的其他所有符號及進行藏文縮略詞的還原,后將文章按照隔音符“?”進行單元隔開,最后通過音節(jié)匹配進行錯誤檢測[4-8]。其原理圖如圖2所示。

主站蜘蛛池模板: 国产成人久视频免费| 曰韩人妻一区二区三区| 亚洲欧美日韩成人高清在线一区| 亚洲 欧美 中文 AⅤ在线视频| 亚洲男人的天堂在线观看| 中国一级特黄大片在线观看| 婷婷成人综合| 波多野结衣无码中文字幕在线观看一区二区| 欧美午夜视频| 中文字幕有乳无码| 国产在线专区| 欧美成人日韩| 中文成人无码国产亚洲| 国产成人精品一区二区秒拍1o| 五月天久久综合| 青草视频免费在线观看| 久久特级毛片| 少妇露出福利视频| 国产亚洲欧美另类一区二区| 亚洲国产黄色| 国产精品流白浆在线观看| 97超碰精品成人国产| 国产白浆视频| 亚洲男人在线| 欧美区在线播放| 亚洲自拍另类| 99热最新在线| 五月天综合网亚洲综合天堂网| 最近最新中文字幕在线第一页| 99精品高清在线播放| 国产成人久久综合777777麻豆| 欧美特级AAAAAA视频免费观看| 亚洲黄色网站视频| 五月婷婷欧美| m男亚洲一区中文字幕| 亚洲欧美另类中文字幕| 亚洲欧美天堂网| 亚洲人成影院午夜网站| 中文字幕无线码一区| 网久久综合| 国产jizzjizz视频| 国产在线视频欧美亚综合| 久久精品人妻中文视频| 91精品专区国产盗摄| 激情亚洲天堂| 在线观看91香蕉国产免费| 免费在线一区| 无码av免费不卡在线观看| 亚洲成人一区二区三区| 老司机aⅴ在线精品导航| 91无码国产视频| 亚洲第一中文字幕| 天天干天天色综合网| 久久精品丝袜高跟鞋| 国产黄在线免费观看| 亚洲欧美在线综合图区| 91久久国产成人免费观看| 久操线在视频在线观看| 亚洲国产系列| 欧美特级AAAAAA视频免费观看| 伊人网址在线| 91po国产在线精品免费观看| 国产H片无码不卡在线视频 | 久久五月天国产自| 人禽伦免费交视频网页播放| 亚洲欧美天堂网| 国产精品无码一二三视频| 人禽伦免费交视频网页播放| 2021国产精品自产拍在线| 国产99在线观看| 色天天综合久久久久综合片| 无码国产伊人| 欧美激情综合| 欧美成人精品一级在线观看| 国产在线97| 欧洲精品视频在线观看| 国产制服丝袜91在线| 亚洲精品久综合蜜| 亚洲一级毛片在线观| 久久精品这里只有精99品| 亚洲一区二区约美女探花| 国产日韩av在线播放|