999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用詞性標注語料庫自動推斷維吾爾語詞綴變體的研究

2016-12-21 12:07:50阿布都哈力力·阿布都熱依木鄒帥余長江
電腦知識與技術 2016年28期
關鍵詞:詞根詞綴

阿布都哈力力·阿布都熱依木+鄒帥+余長江

摘要:即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,自動推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。

關鍵詞:維吾爾語詞法分析;詞根;詞綴;語音和諧律;MeCab-uyghur

中圖分類號:N945.23 文獻標識碼:A 文章編號:1009-3044(2016)28-0171-03

1 背景

維吾爾語在內的阿勒泰語系語言中詞根與詞綴相互聚合時,詞根和詞綴含有的元音和輔音之間存在相互限制和被限制關系,此種現象通稱語音和諧律(1999.竹內.現代維吾爾語)。現代維吾爾語共有32個字母,其中有8個元音,24個輔音。元音按發音位置分為前元音、中元音、后元音。

語音和諧律一個詞根粘附的詞綴有選擇性和若干種變體。例如:符合漢語中“向”詞的與格維吾爾語中有著“?a, qa, g?,k?” 等4中變體。這些變體根據跟前的獨立詞在內的元音和輔音類型選擇。即舉例“bazar”這一詞,由于該詞屬于尾部由響音結尾的舌面前元音,連接開頭由響音開始的舌面前元音變體“?a”,構成“bazar + ?a =bazar?a”。詞綴不僅按照詞根元音和輔音類型選擇,有時在詞綴的影響下詞根語音發生變化。例如:“imla+ing=imlaying”是以元音結束的詞連接以元音開頭的詞綴時中間將會加上輔音,“bar+ip=berip”是以元音開頭的詞綴對詞根產生壓力,將會引起語音的弱化,“orun+i=orni”是以元音開頭的詞綴影響詞根的元音引起元音的減音。由于記錄維吾爾語的文字屬于有聲文字,以上變化也在文字直接表達。

2 目前信息化處理情況

上述語音和諧和變化現象在書面語發生的比較明顯。有些人在書面材料上把語音拼寫,影響意念的正確表達。這些問題此前未突出明顯,但在信息技術上屬必須解決的重要問題。

至于信息技術領域如何解決以上問題,主要采取兩種方法。其一,對詞根和詞綴未作出任何語法或詞匯范疇定義的情況下,分別作為單位編寫詞典,自動聚合方法。雖通過這個方式所形成的詞庫能解決錯字問題,但無法解決像沒有語音和諧律的漢語等語言與維吾爾語之間機器翻譯系統和詞典中的一對一問題(UyghurEdit, n.d.)。其二,將詞根和詞綴的構形作為一個單詞編入詞典的處理方法。雖方法簡單,維吾爾語的詞綴為數較多,文本中的聚合情況復雜,無法將全部構形編入詞典。

在這里我們要提出不同與上述方法的另一種方法。即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。

3 詞性標注和處理方法

用維吾爾語形態分析工具Mecab-uyghur 把給予的文章分成單詞和詞綴。

3.1 語音的和諧類型的處理

首先把詞根和詞綴分為合適的部類,并人工匹配語音和諧律的單詞大義上歸屬于和諧類型范疇。第二階段,區別元音和諧類型,輔音和諧類型,元音和輔音和諧類型等三個類型。

語音的和諧法列入到1至3的表格里,詞法形式表示詞根的語法形式。 詞根和詞綴類型進一步細化到下一列詞典形里。作為附加信息, 詞音和諧類型列入下一個列里。詞根和詞綴的元音和輔音作為一個和諧因素列入到下一個相對應的列里。 最后, 與詞音和諧法無關的部分標記為Null.

3.2 語音的變化類型的處理

將語音變化大義上歸屬于語音變化類型范疇。作為小分類分別為語音弱化類型,語音増音類型,語音減音類型等三個類型。

語音的變化規律列入到4至6的表格里,其中語音上有變化詞語的詞典型和本文形分別列入到詞典形該列里。語音的和諧法作為一個附加信息列入到下一列里,而詞根的結束語音和附加詞的字首語音作為一個影響語音變化規律的因素列入到一個列里。最后要列入語音的變化原因。

4 實驗

4.1 計算方式

本研究上我們使用維吾爾語詞法分析Mecab-uyghur系統。Mecab-uyghur系統是由日語的開源詞法分析系統Mecab添加維吾爾語詞典及語法規則開發演變而來,此系統具體使用方法及其他情況不在此做詳細說明;Mecab-uyghur 系統的計算方式:以最小開銷法,利用了單詞的產生權重,以及連接權重這兩個概念。單詞的產生權重是從語料庫出現的單詞頻度獲取,連接權重是從語法概念獲取。

4.2 訓練

把上述介紹的語法范疇用于傳統語言學詞類的附加識別因素(區別性特征), 并通過人工匹配建立1萬句的詞性標注語料庫。

利用Mecab-uyghur訓練法,獲取單詞的產生權重、語法范疇的連接概率。此連接概率是通過維吾爾語語法作為基礎作推斷。

5 測試

為驗證上述方法的準確性及可靠性,利用在訓練階段推斷出的模型,將詞根與詞綴分別進行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;將此四種詞型利用Mecab-Uyghur系統進一步分析,具體分析結果如下圖所示:

bazar?a,bazarqa, bazarg ?, bazark ?從左到左開始讀取,從詞典里面獲取有記錄的詞典序列。上圖為分解圖,其中方框內的藍色數字表示該詞的產生權重,紅色數字表示連接權重,連接線上的咖啡色數字表示該文法段和它的左端文法段的連接權重。

由上圖可知,bazar?a 這一個序列,bazar 的產生權重為10,?a 的產生權重為40," ?a 詞綴-和諧類型-前元音-清輔音"的連接權重為200。在四種序列中第一個序列的總共成本是10+700+40+200=950;第二個序列的總共成本是10+4500+38+150=4698;第三個序列的總共成本是 10+6000+70+250=6330;第四個序列的總共成本是10+4000+29+190=4229;這些序列里第一個序列的成本最小。因此,正確的是第一個序列。

6 結束語

論文主要闡述利用傳統語言規則及現代信息技術處理方法將維吾爾語詞根與詞綴聚合的辦法。以多次試驗舉例驗證了此猜想的正確性,以上舉例為其中以典型案例,此方法的研究證實不僅為維吾爾語和其他語言的機器翻譯、詞典學開辟了一條先河,而且為維吾爾語正字法的校對工作提供了基礎。

參考文獻:

[1] 吐爾遜·卡得. 維吾爾語柯坪土語研究[D]. 北京: 中央民族大學, 2011.

[2] 祖木拉提·阿扎提. 多語環境下伊犁維吾爾族人群語言使用狀況調查研究[D]. 新疆: 新疆大學, 2012.

[3] 木哈拜提·哈斯木. 從來源方面來看維吾爾語方言詞的特點[J]. 新疆大學學報:哲學社會科學版, 2005(1).

[4] 李經緯. 試論現代維吾爾語方言詞的類型及其對劃分方言的意義[J]. 語言與翻譯, 1986(3).

[5] 陳宗振. 維語方言研究的回顧與展望[J]. 語言與翻譯, 2000(4).

[6] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]// 第十一屆全國人機語音通訊學術會議論文集(一). 2011.

[7] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]//第十一屆全國人機語音通訊學術會議論文集(一). 2011.

[8] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]//第十一屆全國人機語音通訊學術會議論文集(二). 2011.

[9] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]// 第十一屆全國人機語音通訊學術會議論文集(二). 2011.

猜你喜歡
詞根詞綴
藏在英文里的希臘詞根(二十四)
英語世界(2023年12期)2023-12-28 03:36:30
藏在英文里的希臘詞根(二十三)
英語世界(2023年11期)2023-11-17 09:24:50
藏在英文里的希臘詞根(二十二)
英語世界(2023年10期)2023-11-17 09:19:18
藏在英文里的希臘詞根(十八)
英語世界(2023年6期)2023-06-30 06:29:38
藏在英文里的希臘詞根(九)
英語世界(2022年9期)2022-10-18 01:11:48
從網絡語“X精”看“精”的類詞綴化
詞尾與詞綴的區別研究
淺談現代漢語類詞綴
小說月刊(2017年16期)2017-12-01 05:14:50
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
試析否定詞綴在漢維語中的不同表現
語言與翻譯(2014年3期)2014-07-12 10:31:56
主站蜘蛛池模板: 国产jizzjizz视频| 伊人激情综合| 国产精品99久久久久久董美香| 亚洲欧美日韩精品专区| 伊人激情综合网| 久久精品视频亚洲| 日韩无码精品人妻| 老司机久久99久久精品播放| 国产午夜在线观看视频| 99热这里只有精品5| 国产午夜不卡| 精品一区二区三区自慰喷水| 在线观看亚洲精品福利片| 亚洲a级毛片| 青草娱乐极品免费视频| 日韩第九页| 蜜臀AV在线播放| 亚洲男人天堂网址| 青青国产在线| 国产永久在线观看| 麻豆国产精品一二三在线观看| 色偷偷男人的天堂亚洲av| 91久久国产综合精品| 波多野结衣中文字幕久久| 18禁不卡免费网站| 91欧美在线| 欧美日韩精品综合在线一区| 亚洲最大情网站在线观看 | 人人妻人人澡人人爽欧美一区| 麻豆精品视频在线原创| 国内熟女少妇一线天| 免费国产无遮挡又黄又爽| 91欧美亚洲国产五月天| 青青草原国产一区二区| 天天色天天操综合网| 日韩小视频网站hq| 大陆精大陆国产国语精品1024| 97国产在线视频| 天天综合网站| 91麻豆精品视频| 91精品免费高清在线| 久久久久国产一级毛片高清板| 亚洲人成网址| 日韩国产精品无码一区二区三区| 精品成人免费自拍视频| 狠狠色香婷婷久久亚洲精品| 欧美中文字幕在线播放| 青青青伊人色综合久久| 色综合中文字幕| 91网在线| 国产一级裸网站| 亚洲一级毛片免费看| 无码一区18禁| 日韩福利视频导航| 在线五月婷婷| 中文字幕第4页| 色悠久久久| 精品亚洲国产成人AV| 国产精品免费电影| 日韩在线观看网站| 久久精品国产999大香线焦| 91网站国产| 白浆视频在线观看| 精品一區二區久久久久久久網站 | 这里只有精品国产| 国产一在线| 999福利激情视频| 亚洲精品国产精品乱码不卞| 亚洲第七页| 国产在线91在线电影| 亚洲丝袜中文字幕| 亚洲中文在线视频| 亚洲日本韩在线观看| av午夜福利一片免费看| 国产在线一区二区视频| 一区二区三区四区精品视频| a级毛片在线免费观看| 91毛片网| 韩国福利一区| 九九热这里只有国产精品| 天堂av综合网| 色综合成人|