張玉田 關白
摘要:藏文音節七元組識別是藏文信息處理技術的基礎,現代藏文字的研究是藏文信息處理的重點,為了更好地研究現代藏文字的各個構件,本文以現代藏文字為研究對象,按照藏文字的結構、長度和藏文書寫順序,提出了以藏文字符長度為基準的構件識別算法。
關鍵詞:藏文構件識別;藏字結構;藏文字符搭配;字長識別;藏文書寫順序
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)04-0195-03
1 引言
所謂的藏文音節七元組的識別,其實是指最長的現代藏文字符是由七個部件組成,所有藏文字符都是由不超過七個構件組成的,然后分別將各個構件識別出來。由于藏文字符處理技術在藏文信息處理領域已經取得較好成果,[1]因此提出全新的、有效的構件識別算法顯得尤為重要。對藏文字進行構件識別是為了給藏文字符提供屬性分析,藏文字符的屬性分析可以為研究藏文字使用的穩定性及變遷情況提供科學依據,還可以分析藏文字在不同學科中的使用情況,對藏文信息處理的研究具有重要的指導及參考價值。
2 藏文構件介紹
現代藏文音節字中的基字、元音、前加字、后加字、上加字、下加字和再后加字(如圖)被稱之為構件,[2]而基字則是音節字中必不可少的一個構件。在這些構件的搭配過程中哪些前加字、上加字、又后加字和下加字與哪些基字搭配在藏語文法中都有著嚴格的規定。
3 識別算法設計與實現
藏文字符的長度是,構成該藏文字的構件的多少。如:一個藏文字的長度有:一個構件構成的藏文字符長度為一,兩個構件構成的藏文字符長度為二,三個構件構成的藏文字符長度為三,四個構件構成的藏文字符長度為四,五個構件構成的藏文字符長度為五,六個構件構成的藏文字符長度為六,七個構件構成的藏文字符長度字長為七,現代藏文字符最長有7個構件構成。在判斷現代藏文字符的具體構件時,首先根據藏字長度將藏文字符分為7大類,然后每一類按照藏文從左到右,從上到下的書寫順序進行匹配[3],也就是構件進行識別,具體算法流程如下圖所示:
4 結束語
對藏文組字部件的識別研究可以提高現有藏文信息處理研究的成果。在藏文排序、檢索、拼寫檢查、自動分詞、語料庫制作、文本編輯、輔助教學等領域它也有著非常廣泛的應用前景,它可以簡化許多不必要的工作程序,提高經濟效益與社會效益,有著非常重要的現實意義。
參考文獻:
[1] 高定國,關白.回顧藏文信息處理技術的發展[J].西藏大學學報:社會科學版,2009(3):18-27.
[2] 高定國,龔育昌.現代藏字屬性統計研究[J].中文信息學報,2005(1):71-75.
[3] 才讓卓瑪,李永明,才智杰.基于Mealy機的藏文字構件分解[J].電子學報,2015(5):935-938.
[4] 高定國,珠杰.藏文信息處理的原理與應用[M].成都:西南交通大學出版社,2014:25.
【通聯編輯:唐一東】