999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用詞性標注語料庫自動推斷維吾爾語詞綴變體的研究

2016-12-21 12:07:50阿布都哈力力·阿布都熱依木鄒帥余長江
電腦知識與技術 2016年28期
關鍵詞:詞根詞綴

阿布都哈力力·阿布都熱依木+鄒帥+余長江

摘要:即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,自動推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。

關鍵詞:維吾爾語詞法分析;詞根;詞綴;語音和諧律;MeCab-uyghur

中圖分類號:N945.23 文獻標識碼:A 文章編號:1009-3044(2016)28-0171-03

1 背景

維吾爾語在內的阿勒泰語系語言中詞根與詞綴相互聚合時,詞根和詞綴含有的元音和輔音之間存在相互限制和被限制關系,此種現象通稱語音和諧律(1999.竹內.現代維吾爾語)。現代維吾爾語共有32個字母,其中有8個元音,24個輔音。元音按發音位置分為前元音、中元音、后元音。

語音和諧律一個詞根粘附的詞綴有選擇性和若干種變體。例如:符合漢語中“向”詞的與格維吾爾語中有著“?a, qa, g?,k?” 等4中變體。這些變體根據跟前的獨立詞在內的元音和輔音類型選擇。即舉例“bazar”這一詞,由于該詞屬于尾部由響音結尾的舌面前元音,連接開頭由響音開始的舌面前元音變體“?a”,構成“bazar + ?a =bazar?a”。詞綴不僅按照詞根元音和輔音類型選擇,有時在詞綴的影響下詞根語音發生變化。例如:“imla+ing=imlaying”是以元音結束的詞連接以元音開頭的詞綴時中間將會加上輔音,“bar+ip=berip”是以元音開頭的詞綴對詞根產生壓力,將會引起語音的弱化,“orun+i=orni”是以元音開頭的詞綴影響詞根的元音引起元音的減音。由于記錄維吾爾語的文字屬于有聲文字,以上變化也在文字直接表達。

2 目前信息化處理情況

上述語音和諧和變化現象在書面語發生的比較明顯。有些人在書面材料上把語音拼寫,影響意念的正確表達。這些問題此前未突出明顯,但在信息技術上屬必須解決的重要問題。

至于信息技術領域如何解決以上問題,主要采取兩種方法。其一,對詞根和詞綴未作出任何語法或詞匯范疇定義的情況下,分別作為單位編寫詞典,自動聚合方法。雖通過這個方式所形成的詞庫能解決錯字問題,但無法解決像沒有語音和諧律的漢語等語言與維吾爾語之間機器翻譯系統和詞典中的一對一問題(UyghurEdit, n.d.)。其二,將詞根和詞綴的構形作為一個單詞編入詞典的處理方法。雖方法簡單,維吾爾語的詞綴為數較多,文本中的聚合情況復雜,無法將全部構形編入詞典。

在這里我們要提出不同與上述方法的另一種方法。即對詞根和詞綴以維吾爾語語法為基礎,作出語法和詞匯定義,通過現代信息處理事業廣泛運用的機器學習方法,計算詞綴和詞根聚合概率,將概率意義為主,推斷文本中的單詞聚合失誤和符合詞根的詞綴自動選擇原理。

3 詞性標注和處理方法

用維吾爾語形態分析工具Mecab-uyghur 把給予的文章分成單詞和詞綴。

3.1 語音的和諧類型的處理

首先把詞根和詞綴分為合適的部類,并人工匹配語音和諧律的單詞大義上歸屬于和諧類型范疇。第二階段,區別元音和諧類型,輔音和諧類型,元音和輔音和諧類型等三個類型。

語音的和諧法列入到1至3的表格里,詞法形式表示詞根的語法形式。 詞根和詞綴類型進一步細化到下一列詞典形里。作為附加信息, 詞音和諧類型列入下一個列里。詞根和詞綴的元音和輔音作為一個和諧因素列入到下一個相對應的列里。 最后, 與詞音和諧法無關的部分標記為Null.

3.2 語音的變化類型的處理

將語音變化大義上歸屬于語音變化類型范疇。作為小分類分別為語音弱化類型,語音増音類型,語音減音類型等三個類型。

語音的變化規律列入到4至6的表格里,其中語音上有變化詞語的詞典型和本文形分別列入到詞典形該列里。語音的和諧法作為一個附加信息列入到下一列里,而詞根的結束語音和附加詞的字首語音作為一個影響語音變化規律的因素列入到一個列里。最后要列入語音的變化原因。

4 實驗

4.1 計算方式

本研究上我們使用維吾爾語詞法分析Mecab-uyghur系統。Mecab-uyghur系統是由日語的開源詞法分析系統Mecab添加維吾爾語詞典及語法規則開發演變而來,此系統具體使用方法及其他情況不在此做詳細說明;Mecab-uyghur 系統的計算方式:以最小開銷法,利用了單詞的產生權重,以及連接權重這兩個概念。單詞的產生權重是從語料庫出現的單詞頻度獲取,連接權重是從語法概念獲取。

4.2 訓練

把上述介紹的語法范疇用于傳統語言學詞類的附加識別因素(區別性特征), 并通過人工匹配建立1萬句的詞性標注語料庫。

利用Mecab-uyghur訓練法,獲取單詞的產生權重、語法范疇的連接概率。此連接概率是通過維吾爾語語法作為基礎作推斷。

5 測試

為驗證上述方法的準確性及可靠性,利用在訓練階段推斷出的模型,將詞根與詞綴分別進行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;將此四種詞型利用Mecab-Uyghur系統進一步分析,具體分析結果如下圖所示:

bazar?a,bazarqa, bazarg ?, bazark ?從左到左開始讀取,從詞典里面獲取有記錄的詞典序列。上圖為分解圖,其中方框內的藍色數字表示該詞的產生權重,紅色數字表示連接權重,連接線上的咖啡色數字表示該文法段和它的左端文法段的連接權重。

由上圖可知,bazar?a 這一個序列,bazar 的產生權重為10,?a 的產生權重為40," ?a 詞綴-和諧類型-前元音-清輔音"的連接權重為200。在四種序列中第一個序列的總共成本是10+700+40+200=950;第二個序列的總共成本是10+4500+38+150=4698;第三個序列的總共成本是 10+6000+70+250=6330;第四個序列的總共成本是10+4000+29+190=4229;這些序列里第一個序列的成本最小。因此,正確的是第一個序列。

6 結束語

論文主要闡述利用傳統語言規則及現代信息技術處理方法將維吾爾語詞根與詞綴聚合的辦法。以多次試驗舉例驗證了此猜想的正確性,以上舉例為其中以典型案例,此方法的研究證實不僅為維吾爾語和其他語言的機器翻譯、詞典學開辟了一條先河,而且為維吾爾語正字法的校對工作提供了基礎。

參考文獻:

[1] 吐爾遜·卡得. 維吾爾語柯坪土語研究[D]. 北京: 中央民族大學, 2011.

[2] 祖木拉提·阿扎提. 多語環境下伊犁維吾爾族人群語言使用狀況調查研究[D]. 新疆: 新疆大學, 2012.

[3] 木哈拜提·哈斯木. 從來源方面來看維吾爾語方言詞的特點[J]. 新疆大學學報:哲學社會科學版, 2005(1).

[4] 李經緯. 試論現代維吾爾語方言詞的類型及其對劃分方言的意義[J]. 語言與翻譯, 1986(3).

[5] 陳宗振. 維語方言研究的回顧與展望[J]. 語言與翻譯, 2000(4).

[6] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]// 第十一屆全國人機語音通訊學術會議論文集(一). 2011.

[7] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]//第十一屆全國人機語音通訊學術會議論文集(一). 2011.

[8] 楊雅婷, 馬博, 王磊, 等. 維吾爾語語音識別中發音變異現象[C]//第十一屆全國人機語音通訊學術會議論文集(二). 2011.

[9] 楊雅婷, 馬博, 王磊, 等. 多發音字典在維吾爾語方言語音識別中的應用[C]// 第十一屆全國人機語音通訊學術會議論文集(二). 2011.

猜你喜歡
詞根詞綴
藏在英文里的希臘詞根(二十四)
英語世界(2023年12期)2023-12-28 03:36:30
藏在英文里的希臘詞根(二十三)
英語世界(2023年11期)2023-11-17 09:24:50
藏在英文里的希臘詞根(二十二)
英語世界(2023年10期)2023-11-17 09:19:18
藏在英文里的希臘詞根(十八)
英語世界(2023年6期)2023-06-30 06:29:38
藏在英文里的希臘詞根(九)
英語世界(2022年9期)2022-10-18 01:11:48
從網絡語“X精”看“精”的類詞綴化
詞尾與詞綴的區別研究
淺談現代漢語類詞綴
小說月刊(2017年16期)2017-12-01 05:14:50
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
試析否定詞綴在漢維語中的不同表現
語言與翻譯(2014年3期)2014-07-12 10:31:56
主站蜘蛛池模板: 永久免费精品视频| 日韩精品免费一线在线观看| 久久香蕉国产线看观看式| 国产亚洲欧美日韩在线观看一区二区| 在线播放国产一区| 97se亚洲综合在线韩国专区福利| 亚洲国产成人久久精品软件| P尤物久久99国产综合精品| 亚洲日本www| a国产精品| 国产美女自慰在线观看| 国产成人无码综合亚洲日韩不卡| 国产日韩欧美中文| 久久免费视频6| 色综合天天综合| 国产成人亚洲精品无码电影| 亚洲成人免费在线| 2021国产精品自产拍在线| 亚洲码在线中文在线观看| 在线亚洲小视频| 天天综合网亚洲网站| 国产成人高清精品免费5388| 少妇露出福利视频| 亚洲精品福利网站| 91网址在线播放| 日韩精品无码免费一区二区三区| 色悠久久综合| 国产小视频免费| 亚洲香蕉在线| 国产精品v欧美| 午夜日本永久乱码免费播放片| 亚洲最大看欧美片网站地址| 中文纯内无码H| 国产精品午夜电影| 天堂在线视频精品| 国产办公室秘书无码精品| 久久男人视频| 欧美日韩精品一区二区视频| 国产激爽大片在线播放| 成人一级黄色毛片| 国产女人18毛片水真多1| 日本精品中文字幕在线不卡| 亚洲侵犯无码网址在线观看| 欧美在线一二区| 日本人妻一区二区三区不卡影院| 97精品伊人久久大香线蕉| 国产成人精品优优av| 爽爽影院十八禁在线观看| 毛片免费在线视频| 国内嫩模私拍精品视频| 国产精品久线在线观看| 国产又爽又黄无遮挡免费观看| 免费日韩在线视频| 人妖无码第一页| 午夜福利视频一区| 一本综合久久| 国产精品亚洲片在线va| 欧美亚洲第一页| 精品久久高清| 伊人网址在线| 综合人妻久久一区二区精品| 98超碰在线观看| 色噜噜综合网| 日本AⅤ精品一区二区三区日| 久久综合亚洲鲁鲁九月天| 热久久综合这里只有精品电影| 成人夜夜嗨| 午夜福利免费视频| 福利小视频在线播放| 538国产视频| 日本成人一区| 国产jizz| 国产丝袜啪啪| 久久视精品| www.youjizz.com久久| 天天干天天色综合网| 无码有码中文字幕| 91福利在线观看视频| 国产草草影院18成年视频| 亚洲美女AV免费一区| 国产一区二区三区视频| 四虎永久在线视频|