999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用詞性標注語料庫自動推斷維吾爾語詞綴變體的研究

2016-12-21 12:07:50阿布都哈力力·阿布都熱依木鄒帥余長江
電腦知識與技術 2016年28期
關鍵詞:詞根詞綴

阿布都哈力力·阿布都熱依木+鄒帥+余長江

摘要:即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,自動推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。

關鍵詞:維吾爾語詞法分析;詞根;詞綴;語音和諧律;MeCab-uyghur

中圖分類號:N945.23 文獻標識碼:A 文章編號:1009-3044(2016)28-0171-03

1 背景

維吾爾語在內的阿勒泰語系語言中詞根與詞綴相互聚合時,詞根和詞綴含有的元音和輔音之間存在相互限制和被限制關系,此種現象通稱語音和諧律(1999.竹內.現代維吾爾語)。現代維吾爾語共有32個字母,其中有8個元音,24個輔音。元音按發音位置分為前元音、中元音、后元音。

語音和諧律一個詞根粘附的詞綴有選擇性和若干種變體。例如:符合漢語中“向”詞的與格維吾爾語中有著“?a, qa, g?,k?” 等4中變體。這些變體根據跟前的獨立詞在內的元音和輔音類型選擇。即舉例“bazar”這一詞,由于該詞屬于尾部由響音結尾的舌面前元音,連接開頭由響音開始的舌面前元音變體“?a”,構成“bazar + ?a =bazar?a”。詞綴不僅按照詞根元音和輔音類型選擇,有時在詞綴的影響下詞根語音發生變化。例如:“imla+ing=imlaying”是以元音結束的詞連接以元音開頭的詞綴時中間將會加上輔音,“bar+ip=berip”是以元音開頭的詞綴對詞根產生壓力,將會引起語音的弱化,“orun+i=orni”是以元音開頭的詞綴影響詞根的元音引起元音的減音。由于記錄維吾爾語的文字屬于有聲文字,以上變化也在文字直接表達。

2 目前信息化處理情況

上述語音和諧和變化現象在書面語發生的比較明顯。有些人在書面材料上把語音拼寫,影響意念的正確表達。這些問題此前未突出明顯,但在信息技術上屬必須解決的重要問題。

至于信息技術領域如何解決以上問題,主要采取兩種方法。其一,對詞根和詞綴未作出任何語法或詞匯范疇定義的情況下,分別作為單位編寫詞典,自動聚合方法。雖通過這個方式所形成的詞庫能解決錯字問題,但無法解決像沒有語音和諧律的漢語等語言與維吾爾語之間機器翻譯系統和詞典中的一對一問題(UyghurEdit, n.d.)。其二,將詞根和詞綴的構形作為一個單詞編入詞典的處理方法。雖方法簡單,維吾爾語的詞綴為數較多,文本中的聚合情況復雜,無法將全部構形編入詞典。

在這里我們要提出不同與上述方法的另一種方法。即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。

3 詞性標注和處理方法

用維吾爾語形態分析工具Mecab-uyghur 把給予的文章分成單詞和詞綴。

3.1 語音的和諧類型的處理

首先把詞根和詞綴分為合適的部類,并人工匹配語音和諧律的單詞大義上歸屬于和諧類型范疇。第二階段,區別元音和諧類型,輔音和諧類型,元音和輔音和諧類型等三個類型。

語音的和諧法列入到1至3的表格里,詞法形式表示詞根的語法形式。 詞根和詞綴類型進一步細化到下一列詞典形里。作為附加信息, 詞音和諧類型列入下一個列里。詞根和詞綴的元音和輔音作為一個和諧因素列入到下一個相對應的列里。 最后, 與詞音和諧法無關的部分標記為Null.

3.2 語音的變化類型的處理

將語音變化大義上歸屬于語音變化類型范疇。作為小分類分別為語音弱化類型,語音増音類型,語音減音類型等三個類型。

語音的變化規律列入到4至6的表格里,其中語音上有變化詞語的詞典型和本文形分別列入到詞典形該列里。語音的和諧法作為一個附加信息列入到下一列里,而詞根的結束語音和附加詞的字首語音作為一個影響語音變化規律的因素列入到一個列里。最后要列入語音的變化原因。

4 實驗

4.1 計算方式

本研究上我們使用維吾爾語詞法分析Mecab-uyghur系統。Mecab-uyghur系統是由日語的開源詞法分析系統Mecab添加維吾爾語詞典及語法規則開發演變而來,此系統具體使用方法及其他情況不在此做詳細說明;Mecab-uyghur 系統的計算方式:以最小開銷法,利用了單詞的產生權重,以及連接權重這兩個概念。單詞的產生權重是從語料庫出現的單詞頻度獲取,連接權重是從語法概念獲取。

4.2 訓練

把上述介紹的語法范疇用于傳統語言學詞類的附加識別因素(區別性特征), 并通過人工匹配建立1萬句的詞性標注語料庫。

利用Mecab-uyghur訓練法,獲取單詞的產生權重、語法范疇的連接概率。此連接概率是通過維吾爾語語法作為基礎作推斷。

5 測試

為驗證上述方法的準確性及可靠性,利用在訓練階段推斷出的模型,將詞根與詞綴分別進行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;將此四種詞型利用Mecab-Uyghur系統進一步分析,具體分析結果如下圖所示:

bazar?a,bazarqa, bazarg ?, bazark ?從左到左開始讀取,從詞典里面獲取有記錄的詞典序列。上圖為分解圖,其中方框內的藍色數字表示該詞的產生權重,紅色數字表示連接權重,連接線上的咖啡色數字表示該文法段和它的左端文法段的連接權重。

由上圖可知,bazar?a 這一個序列,bazar 的產生權重為10,?a 的產生權重為40," ?a 詞綴-和諧類型-前元音-清輔音"的連接權重為200。在四種序列中第一個序列的總共成本是10+700+40+200=950;第二個序列的總共成本是10+4500+38+150=4698;第三個序列的總共成本是 10+6000+70+250=6330;第四個序列的總共成本是10+4000+29+190=4229;這些序列里第一個序列的成本最小。因此,正確的是第一個序列。

6 結束語

論文主要闡述利用傳統語言規則及現代信息技術處理方法將維吾爾語詞根與詞綴聚合的辦法。以多次試驗舉例驗證了此猜想的正確性,以上舉例為其中以典型案例,此方法的研究證實不僅為維吾爾語和其他語言的機器翻譯、詞典學開辟了一條先河,而且為維吾爾語正字法的校對工作提供了基礎。

參考文獻:

[1] 吐爾遜·卡得. 維吾爾語柯坪土語研究[D]. 北京: 中央民族大學, 2011.

[2] 祖木拉提·阿扎提. 多語環境下伊犁維吾爾族人群語言使用狀況調查研究[D]. 新疆: 新疆大學, 2012.

[3] 木哈拜提·哈斯木. 從來源方面來看維吾爾語方言詞的特點[J]. 新疆大學學報:哲學社會科學版, 2005(1).

[4] 李經緯. 試論現代維吾爾語方言詞的類型及其對劃分方言的意義[J]. 語言與翻譯, 1986(3).

[5] 陳宗振. 維語方言研究的回顧與展望[J]. 語言與翻譯, 2000(4).

[6] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]// 第十一屆全國人機語音通訊學術會議論文集(一). 2011.

[7] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]//第十一屆全國人機語音通訊學術會議論文集(一). 2011.

[8] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]//第十一屆全國人機語音通訊學術會議論文集(二). 2011.

[9] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]// 第十一屆全國人機語音通訊學術會議論文集(二). 2011.

猜你喜歡
詞根詞綴
藏在英文里的希臘詞根(二十四)
英語世界(2023年12期)2023-12-28 03:36:30
藏在英文里的希臘詞根(二十三)
英語世界(2023年11期)2023-11-17 09:24:50
藏在英文里的希臘詞根(二十二)
英語世界(2023年10期)2023-11-17 09:19:18
藏在英文里的希臘詞根(十八)
英語世界(2023年6期)2023-06-30 06:29:38
藏在英文里的希臘詞根(九)
英語世界(2022年9期)2022-10-18 01:11:48
從網絡語“X精”看“精”的類詞綴化
詞尾與詞綴的區別研究
淺談現代漢語類詞綴
小說月刊(2017年16期)2017-12-01 05:14:50
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
試析否定詞綴在漢維語中的不同表現
語言與翻譯(2014年3期)2014-07-12 10:31:56
主站蜘蛛池模板: 欧美日韩激情| 欧美国产精品不卡在线观看 | 老司机精品久久| 亚洲欧美日本国产综合在线| 国产精品无码影视久久久久久久| 自拍欧美亚洲| 国产精品香蕉在线| 欧美精品成人一区二区视频一| 国产麻豆永久视频| 日韩高清在线观看不卡一区二区 | 国产人碰人摸人爱免费视频| 久久精品电影| 亚洲中文无码av永久伊人| 亚洲精品成人福利在线电影| 在线另类稀缺国产呦| 丰满的少妇人妻无码区| 欧美特黄一免在线观看| 婷婷伊人五月| 播五月综合| 高清大学生毛片一级| 韩国v欧美v亚洲v日本v| 国产成人精彩在线视频50| 91久久大香线蕉| 国产成人亚洲精品色欲AV| 一本一道波多野结衣一区二区 | 97se亚洲综合不卡| 亚洲欧洲日产国产无码AV| 日韩无码一二三区| 国产精品99一区不卡| 韩日午夜在线资源一区二区| 日本黄色不卡视频| 久久久噜噜噜| 性喷潮久久久久久久久| 久久五月视频| 免费看av在线网站网址| 亚洲天堂精品视频| 欧美亚洲一区二区三区导航 | 在线观看亚洲精品福利片| 一区二区三区在线不卡免费| 欧美国产成人在线| JIZZ亚洲国产| 在线a网站| 91www在线观看| 幺女国产一级毛片| 都市激情亚洲综合久久| 国产成人一区| 一本综合久久| 一区二区三区高清视频国产女人| 九九热在线视频| 欧美亚洲中文精品三区| 国产激情影院| 夜精品a一区二区三区| 999国产精品| 免费在线看黄网址| 色综合天天娱乐综合网| 国产无码精品在线| 狠狠做深爱婷婷综合一区| 97在线公开视频| 全部免费特黄特色大片视频| 伊人国产无码高清视频| 天堂网亚洲综合在线| 亚洲视频一区| 毛片网站免费在线观看| 国产免费久久精品99re丫丫一| 精品国产免费观看一区| 精品伊人久久久大香线蕉欧美| 国产精品女主播| 91视频青青草| 国精品91人妻无码一区二区三区| 亚洲国产欧洲精品路线久久| 久热中文字幕在线观看| 99久久精品无码专区免费| 91蝌蚪视频在线观看| 国产美女在线观看| 熟妇人妻无乱码中文字幕真矢织江| 亚洲av中文无码乱人伦在线r| 亚洲成人一区二区| 亚洲中文字幕av无码区| 亚洲香蕉在线| 亚洲高清在线天堂精品| 亚洲婷婷丁香| 色噜噜中文网|