999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文(含梵文)字丁自動識別方法研究

2015-08-28 03:11:30完么才讓
卷宗 2015年8期
關鍵詞:文本

完么才讓

摘 要:本文以《ISO/IEC 10646藏文編碼字符集 基本集》為參考,把其中除標點符號外的字符歸類到字母集、主字集和元音集三個集合,再將測試文本中的藏文字符與三個集合逐一匹配的方法,準確識別(本文所講識別,非OCR圖形識別)出藏文字丁。

關鍵詞:ISO/IEC 10646;音節;字丁;識別

藏文字丁的準確識別是字丁頻率、信息熵計算的前提,也是音節分類的基礎,更是藏文識別必不可少的環節。收錄至中國知網的關于藏文字丁的幾篇論文都未談及藏文字丁的自動識別方法,本文從一下三個方面詳細講解藏文(含梵文)字丁的自動識別方法。

1 字母集、主字集和元音集

把藏文unicode字符集中除標點符號等特殊字符外的其他字符分成字母集、主字集和元音集三個集合,分別用英文標記letter_set、main_char_set和vowels_set表示,則

letter_set集合中的字符都無上加字,即字符上下均無main_char_set和vowels_set集合所示的空心圓圈,這類字符在實際文本中多作為字母出現,故將這類字符收錄到字母集中。相應地,main_char_set集合所含字符大都上有空心圈,結合時,附著在前一個字符的下面,把具有這個特征的字符收集到主字集中。vowels_set集合中的字符都下附空心圓圈,表名這類字符在具體文本中充當元音,應收集到元音集中。這三個集合是字丁識別的前提,以下內容中用L、M和V分別代表letter_set、main_char_set和vowels_set,Li、Mi和Vi表示對應集合中的任意元素。

2 藏文字丁的基本分類

藏文字丁可分為六大類型,分別為:

所有藏文字丁可歸類到以上六種類型。

3 識別方法

在有了集合的劃分和字丁的基本分類后,即可依據如下所描述的方法識別出藏文字丁。假設字符串變量Ttext存放待測試的藏文文本,字符串變量WR表示字丁。根據字符串變量的性質,Ttext[i](i=0,1,2,…,Ttext->Length)表示文本的第i個字符,則

(1)取出第0個字符Ttext[0],放至WR,再判斷Ttext[1]屬于集合letter_set、main_char_set還是vowels_set。

如果Ttext[1] letter_set,說明Ttext[1]是字母,則Ttext[0]單獨構成一個字丁WR,相當于第二節的第1類字丁,轉到步驟(4);如果Ttext[1] vowels_set,說明Ttext[1]是元音,則Ttext[0]+Ttext[1]的組合構成新的WR,等于第二節中的第2類字丁,轉到步驟(4)。如果Ttext[1] main_char_set,則轉到步驟(2)。

(2)判斷Ttext[2]是字母、主字還是元音。若是字母,則由Ttext[0]+Ttext[1]構成的新字丁WR即一個字丁,相當于第二節的第3類字丁,轉到步驟(4);若為元音,則Ttext[0]+Ttext[1]+Ttext[2]為一個字丁,即第二節的第4類字丁,轉到步驟(4);如果Ttext[2]是主字,即Ttext[2] main_char_set,則轉入步驟(3)。

(3)判斷Ttext[3]屬于哪個集合,若Ttext[3]為字母,則Ttext[0]+Ttext[1]+Ttext[2]為一個字丁,等于第二節的第5類字丁,轉到步驟(4);若Ttext[3]為元音,則Ttext[0]+Ttext[1]+Ttext[2]+ Ttext[4]為一個字丁,相當于第二節的第6類字丁,轉到步驟(4)。

(4)轉到步驟(1),從識別出的字丁的下一個字符繼續判斷,直至到達文本末尾。

用算法流程圖表示如下

4 結語

本文特意對字丁識別方法作了分析,除了提出一種適用于藏梵文的字丁識別算法外,第一節的三個集合和第二節對字丁的分類,對藏文的結合規律總結了一個新的歸納和分類方式。

參考文獻

[1]王維蘭,丁曉青,祁坤鈺. 藏文識別中相似字丁的區分研究.中文信息學報,2002(4):61-63

[2] 王維蘭,陳萬軍. 藏文字丁、音節頻度及其信息熵. 語音信息處理,2004(2):27-31

[3] 桑塔,達哇彭措. 信息處理用藏文字丁統計.科技信息,2010(29):430

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 国产人妖视频一区在线观看| 日韩av无码精品专区| 精品国产自| 久草国产在线观看| 亚洲国产午夜精华无码福利| 亚洲精品欧美日韩在线| 国产a网站| 欧美精品啪啪| 99精品视频在线观看免费播放| 99精品久久精品| 久久夜夜视频| 国产精品亚欧美一区二区| 国产午夜福利在线小视频| 五月激情综合网| 91色国产在线| 日本不卡在线视频| 91色国产在线| 亚洲一区二区精品无码久久久| 欧美三级视频网站| 国内熟女少妇一线天| 国产成人综合久久精品尤物| 免费无码网站| 黑人巨大精品欧美一区二区区| 国产成人久久777777| 国产一区二区三区免费观看 | 日韩a在线观看免费观看| 色老二精品视频在线观看| av大片在线无码免费| 尤物国产在线| 在线免费观看a视频| 欧美日韩第二页| 五月综合色婷婷| 欧美不卡视频一区发布| 国产丝袜丝视频在线观看| 999国内精品久久免费视频| 中文字幕人成乱码熟女免费| 999福利激情视频| 波多野衣结在线精品二区| 欧美怡红院视频一区二区三区| 华人在线亚洲欧美精品| 国产夜色视频| 看看一级毛片| 99在线视频网站| 五月天久久综合| 欲色天天综合网| 日韩成人午夜| 免费无码网站| 国产欧美日韩另类精彩视频| 亚洲天堂首页| 91丝袜乱伦| 九九线精品视频在线观看| 国产成人综合亚洲网址| 亚洲综合色婷婷| 免费全部高H视频无码无遮掩| 中文字幕在线欧美| 在线观看亚洲精品福利片| 日本不卡在线播放| 欧美国产日韩在线播放| 久久精品最新免费国产成人| 亚洲一区二区成人| 婷婷激情亚洲| 国产一区二区福利| 亚洲AⅤ波多系列中文字幕| 精品国产亚洲人成在线| 国产靠逼视频| 最新日韩AV网址在线观看| 最新国产网站| 97久久超碰极品视觉盛宴| 毛片手机在线看| 天天操天天噜| 亚洲天堂色色人体| 天天色天天综合| 国产va在线观看| 国产成人精品一区二区秒拍1o| 亚洲一区波多野结衣二区三区| 欲色天天综合网| 精品国产香蕉在线播出| 亚洲日韩精品综合在线一区二区| 久久99精品国产麻豆宅宅| 日本午夜视频在线观看| 国产玖玖视频| 亚洲综合九九|