阿布都哈力力·阿布都熱依木+鄒帥+余長江
摘要:即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,自動推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。
關鍵詞:維吾爾語詞法分析;詞根;詞綴;語音和諧律;MeCab-uyghur
中圖分類號:N945.23 文獻標識碼:A 文章編號:1009-3044(2016)28-0171-03
1 背景
維吾爾語在內的阿勒泰語系語言中詞根與詞綴相互聚合時,詞根和詞綴含有的元音和輔音之間存在相互限制和被限制關系,此種現象通稱語音和諧律(1999.竹內.現代維吾爾語)。現代維吾爾語共有32個字母,其中有8個元音,24個輔音。元音按發音位置分為前元音、中元音、后元音。
語音和諧律一個詞根粘附的詞綴有選擇性和若干種變體。例如:符合漢語中“向”詞的與格維吾爾語中有著“?a, qa, g?,k?” 等4中變體。這些變體根據跟前的獨立詞在內的元音和輔音類型選擇。即舉例“bazar”這一詞,由于該詞屬于尾部由響音結尾的舌面前元音,連接開頭由響音開始的舌面前元音變體“?a”,構成“bazar + ?a =bazar?a”。詞綴不僅按照詞根元音和輔音類型選擇,有時在詞綴的影響下詞根語音發生變化。例如:“imla+ing=imlaying”是以元音結束的詞連接以元音開頭的詞綴時中間將會加上輔音,“bar+ip=berip”是以元音開頭的詞綴對詞根產生壓力,將會引起語音的弱化,“orun+i=orni”是以元音開頭的詞綴影響詞根的元音引起元音的減音。由于記錄維吾爾語的文字屬于有聲文字,以上變化也在文字直接表達。
2 目前信息化處理情況
上述語音和諧和變化現象在書面語發生的比較明顯。有些人在書面材料上把語音拼寫,影響意念的正確表達。這些問題此前未突出明顯,但在信息技術上屬必須解決的重要問題。
至于信息技術領域如何解決以上問題,主要采取兩種方法。其一,對詞根和詞綴未作出任何語法或詞匯范疇定義的情況下,分別作為單位編寫詞典,自動聚合方法。雖通過這個方式所形成的詞庫能解決錯字問題,但無法解決像沒有語音和諧律的漢語等語言與維吾爾語之間機器翻譯系統和詞典中的一對一問題(UyghurEdit, n.d.)。其二,將詞根和詞綴的構形作為一個單詞編入詞典的處理方法。雖方法簡單,維吾爾語的詞綴為數較多,文本中的聚合情況復雜,無法將全部構形編入詞典。
在這里我們要提出不同與上述方法的另一種方法。即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。
3 詞性標注和處理方法
用維吾爾語形態分析工具Mecab-uyghur 把給予的文章分成單詞和詞綴。
3.1 語音的和諧類型的處理
首先把詞根和詞綴分為合適的部類,并人工匹配語音和諧律的單詞大義上歸屬于和諧類型范疇。第二階段,區別元音和諧類型,輔音和諧類型,元音和輔音和諧類型等三個類型。
語音的和諧法列入到1至3的表格里,詞法形式表示詞根的語法形式。 詞根和詞綴類型進一步細化到下一列詞典形里。作為附加信息, 詞音和諧類型列入下一個列里。詞根和詞綴的元音和輔音作為一個和諧因素列入到下一個相對應的列里。 最后, 與詞音和諧法無關的部分標記為Null.
3.2 語音的變化類型的處理
將語音變化大義上歸屬于語音變化類型范疇。作為小分類分別為語音弱化類型,語音増音類型,語音減音類型等三個類型。
語音的變化規律列入到4至6的表格里,其中語音上有變化詞語的詞典型和本文形分別列入到詞典形該列里。語音的和諧法作為一個附加信息列入到下一列里,而詞根的結束語音和附加詞的字首語音作為一個影響語音變化規律的因素列入到一個列里。最后要列入語音的變化原因。
4 實驗
4.1 計算方式
本研究上我們使用維吾爾語詞法分析Mecab-uyghur系統。Mecab-uyghur系統是由日語的開源詞法分析系統Mecab添加維吾爾語詞典及語法規則開發演變而來,此系統具體使用方法及其他情況不在此做詳細說明;Mecab-uyghur 系統的計算方式:以最小開銷法,利用了單詞的產生權重,以及連接權重這兩個概念。單詞的產生權重是從語料庫出現的單詞頻度獲取,連接權重是從語法概念獲取。
4.2 訓練
把上述介紹的語法范疇用于傳統語言學詞類的附加識別因素(區別性特征), 并通過人工匹配建立1萬句的詞性標注語料庫。
利用Mecab-uyghur訓練法,獲取單詞的產生權重、語法范疇的連接概率。此連接概率是通過維吾爾語語法作為基礎作推斷。
5 測試
為驗證上述方法的準確性及可靠性,利用在訓練階段推斷出的模型,將詞根與詞綴分別進行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;將此四種詞型利用Mecab-Uyghur系統進一步分析,具體分析結果如下圖所示:
bazar?a,bazarqa, bazarg ?, bazark ?從左到左開始讀取,從詞典里面獲取有記錄的詞典序列。上圖為分解圖,其中方框內的藍色數字表示該詞的產生權重,紅色數字表示連接權重,連接線上的咖啡色數字表示該文法段和它的左端文法段的連接權重。
由上圖可知,bazar?a 這一個序列,bazar 的產生權重為10,?a 的產生權重為40," ?a 詞綴-和諧類型-前元音-清輔音"的連接權重為200。在四種序列中第一個序列的總共成本是10+700+40+200=950;第二個序列的總共成本是10+4500+38+150=4698;第三個序列的總共成本是 10+6000+70+250=6330;第四個序列的總共成本是10+4000+29+190=4229;這些序列里第一個序列的成本最小。因此,正確的是第一個序列。
6 結束語
論文主要闡述利用傳統語言規則及現代信息技術處理方法將維吾爾語詞根與詞綴聚合的辦法。以多次試驗舉例驗證了此猜想的正確性,以上舉例為其中以典型案例,此方法的研究證實不僅為維吾爾語和其他語言的機器翻譯、詞典學開辟了一條先河,而且為維吾爾語正字法的校對工作提供了基礎。
參考文獻:
[1] 吐爾遜·卡得. 維吾爾語柯坪土語研究[D]. 北京: 中央民族大學, 2011.
[2] 祖木拉提·阿扎提. 多語環境下伊犁維吾爾族人群語言使用狀況調查研究[D]. 新疆: 新疆大學, 2012.
[3] 木哈拜提·哈斯木. 從來源方面來看維吾爾語方言詞的特點[J]. 新疆大學學報:哲學社會科學版, 2005(1).
[4] 李經緯. 試論現代維吾爾語方言詞的類型及其對劃分方言的意義[J]. 語言與翻譯, 1986(3).
[5] 陳宗振. 維語方言研究的回顧與展望[J]. 語言與翻譯, 2000(4).
[6] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]// 第十一屆全國人機語音通訊學術會議論文集(一). 2011.
[7] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]//第十一屆全國人機語音通訊學術會議論文集(一). 2011.
[8] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]//第十一屆全國人機語音通訊學術會議論文集(二). 2011.
[9] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]// 第十一屆全國人機語音通訊學術會議論文集(二). 2011.