更藏卓瑪,安見才讓
(青海民族大學計算機學院,西寧 810007)
藏文中共有85個虛詞,它比實詞少很多,但藏文虛詞在藏文中的使用及其廣泛,而且它在不同語境中扮演者不同的角色,因此出現了虛詞的歧義問題,而因它的歧義性問題識別起來非常復雜,尤其是非依他關聯詞的識別。但對它的研究對藏文詞和句子的處理起著重要性的作用。因此,文章通過藏文虛詞添接規則和正則表達式對藏文虛詞“”類進行識別研究。
表1 虛詞“”類添接表

表1 虛詞“”類添接表
藏文文本校對過程中校對藏文虛詞的添接是一項很重要的工作,要完成這個工作首先要識別藏文虛詞。
檢測添接規則,并統計其次數。如圖1所示。

圖1
其表示匹配字母或數字或下劃線或藏文字重復零次或者更多次后((匹配除了換行符以外的字符(匹配前面的位置加,例 如不能檢測添接規則,并統計其次數。如圖2所示。

圖2

圖3
檢測添接規則,并統計其次數。如圖4所示。

圖4
表2 “”等14個詞語料中的數量統計

表2 “”等14個詞語料中的數量統計

圖5
表3 虛詞“”類的歧義統計

表3 虛詞“”類的歧義統計
數量名稱總數 為虛詞總數 為虛詞百分比“???”類 9902 3996 40.3%