999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

維吾爾語(yǔ)詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)

2018-12-20 06:08:44艾孜麥提艾尼瓦爾
中文信息學(xué)報(bào) 2018年11期
關(guān)鍵詞:詞綴規(guī)則

艾孜麥提·艾尼瓦爾,董 軍,李 曉

(1. 中國(guó)科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830012)

0 引言

本文以現(xiàn)有的研究成果為基礎(chǔ),從維吾爾語(yǔ)詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征出發(fā),歸納總結(jié)維吾爾語(yǔ)語(yǔ)音和諧律。在充分考慮基本搭配規(guī)則和特殊規(guī)則的前提下,提出一種通用的維吾爾語(yǔ)變體搭配算法。結(jié)合大規(guī)模詞庫(kù),一方面驗(yàn)證已有規(guī)則是否覆蓋詞庫(kù)中所有單詞,另一方面篩選出所有具有詞綴特殊使用方法的單詞。更深入地研究這些詞綴特殊使用方法,揭示其內(nèi)在規(guī)律奠定基礎(chǔ)。

1 維吾爾語(yǔ)詞綴變體搭配規(guī)則

目前已有眾多文獻(xiàn)對(duì)語(yǔ)音和諧律做了總結(jié)[1-3, 9-13],其中《正字法詞典》對(duì)規(guī)則的總結(jié)最全面。《正字法詞典》針對(duì)單音節(jié)和多音節(jié)詞,結(jié)合其詞性分別從元音和諧律、輔音和諧律兩方面對(duì)規(guī)則進(jìn)行了總結(jié)。但正字法詞典中的規(guī)則以自然語(yǔ)言方式描述,并不適合計(jì)算機(jī)處理。為了便于計(jì)算機(jī)處理語(yǔ)音和諧律,我們對(duì)正字法詞典中的規(guī)則進(jìn)行了進(jìn)一步歸納,以形式化的語(yǔ)言對(duì)其進(jìn)行了描述。

1.1 字母分類

維吾爾語(yǔ)有8個(gè)元音字母。根據(jù)發(fā)音時(shí)舌面發(fā)音部位的不同,可以分為前元音、中元音、后元音三種類型,根據(jù)發(fā)音時(shí)嘴唇形狀的不同,又可分為圓唇元音和展唇元音。表1列出了維吾爾語(yǔ)元音字母按發(fā)音方法的分類。

表1 維吾爾文元音字母按發(fā)音方法分類

維吾爾語(yǔ)有24個(gè)輔音字母。根據(jù)發(fā)音時(shí)聲帶是否震動(dòng),這24個(gè)輔音字母可以分為清輔音和濁輔音兩種類型。表2列出了維吾爾文24個(gè)輔音字母的分類。

表2 維吾爾文輔音字母分類

1.2 詞干結(jié)構(gòu)分類

根據(jù)詞干末音節(jié)字母結(jié)構(gòu)特點(diǎn),維吾爾文詞干可以分為4種不同的類。按詞干末音節(jié)中元音字母發(fā)音時(shí)舌面發(fā)音部位的不同可分為前詞干和后詞干;按詞干末尾字母分類,可分為開詞干和閉詞干或清詞干和濁詞干;按詞干末音節(jié)中元音字母發(fā)音時(shí)嘴唇形狀的不同可分為圓詞干和展詞干[2]。為計(jì)算機(jī)處理語(yǔ)音和諧律的方便性,我們對(duì)4種分類法的定義進(jìn)行了一定的擴(kuò)充,其中我們對(duì)分類定義進(jìn)行擴(kuò)展的部分用*表示,具體的結(jié)構(gòu)分類定義如表3所示。

表3 維吾爾語(yǔ)詞干結(jié)構(gòu)分類

續(xù)表

1.3 詞綴結(jié)構(gòu)分類

根據(jù)詞綴首音節(jié)字母的結(jié)構(gòu)特點(diǎn),維吾爾文詞綴也有4種不同的分類。按詞綴首音節(jié)中元音字母發(fā)音時(shí)發(fā)音部位的不同可分為前詞綴和后詞綴;按詞綴首字母分類,可分為開詞綴和閉詞綴或清詞綴和濁詞綴;按詞綴首音節(jié)中元音字母發(fā)音時(shí)嘴唇形狀的不同可分為圓詞綴和展詞綴[2]。同樣,我們也對(duì)詞綴分類部分定義進(jìn)行了擴(kuò)展,具體定義如表4所示。

表4 維吾爾語(yǔ)詞綴結(jié)構(gòu)分類

表5 維吾爾語(yǔ)詞綴結(jié)構(gòu)分布

1.4 維吾爾語(yǔ)語(yǔ)音和諧律

維吾爾語(yǔ)語(yǔ)音和諧是指元音或輔音或元輔音之間在發(fā)音部位和發(fā)音方法上的相互協(xié)同一致性。維吾爾語(yǔ)的和諧分為元音和諧和輔音和諧,元音和諧中起決定性作用的是詞干末尾音節(jié)中元音的前后和圓展,輔音和諧中起決定性作用的是詞干末尾音節(jié)中元音的前后以及末尾輔音的清濁[10]。《正字法詞典》從語(yǔ)言學(xué)的角度出發(fā),分別針對(duì)靜詞、動(dòng)詞、單音節(jié)詞干、多音節(jié)詞干詳細(xì)介紹了元音和諧和輔音和諧分,指出維吾爾語(yǔ)詞干附加詞綴變體時(shí)遵循4個(gè)語(yǔ)音和諧基本規(guī)則,即前后和諧、圓展和諧、開閉和諧、清濁和諧,并舉例說(shuō)明了不符合這基本規(guī)則的特殊情況[2]。由于規(guī)則描述過于詳細(xì),存在一定的冗余,缺少形式化描述,并不適合直接用計(jì)算機(jī)處理。因此,根據(jù)前文定義的詞干及詞綴的結(jié)構(gòu)特征,介紹如下維吾爾語(yǔ)語(yǔ)音和諧律詞綴變體搭配的基本規(guī)則和特殊規(guī)則以及形式化描述:

1.4.1 詞綴變體搭配的基本規(guī)則

1) 前詞干搭配前詞綴,表示為Sf+Af=>(Sf,Af):

2) 后詞干搭配后詞綴;表示為Sb+Ab=>(Sb,Ab):

3) 圓詞干搭配圓詞綴,表示為Sr+Ar=>(Sr,Ar):

4) 展詞干搭配展詞綴, 表示為Snr+Anr=> (Snr,Anr):

5) 清詞干搭配清詞綴,表示為Sv+ Av=> (Sv, Av):

6) 濁詞干搭配濁詞綴, 表示為Svl+ Avl=> (Svl, Avl):

7) 開詞干搭配閉詞綴,表示為So+Ac=> (So, Ac):

8) 閉詞干搭配開詞綴, 表示為Sc+Ao=> (Sc, Ao):

1.4.2 詞綴變體搭配特殊規(guī)則:

2 維吾爾語(yǔ)詞綴變體搭配算法

根據(jù)維吾爾語(yǔ)語(yǔ)音和諧律,在充分考慮基本規(guī)則和特殊規(guī)則的前提下,本文提出了基于規(guī)則的維吾爾語(yǔ)詞綴變體搭配算法。其中,基本搭配規(guī)則用算法實(shí)現(xiàn)。由于特殊搭配規(guī)則需要考慮特殊詞干或詞綴,我們建立對(duì)應(yīng)的特殊規(guī)則搭配庫(kù)來(lái)實(shí)現(xiàn)詞綴搭配的功能。

2.1 算法具體步驟

1) 輸入詞干、詞性及詞綴對(duì)應(yīng)的多個(gè)變體;

2) 若詞綴只要一個(gè)變體,則返回該變體,否則轉(zhuǎn)下一步;

3) 提取詞干結(jié)構(gòu)特征,形式為1x4的一位數(shù)組,記錄詞干前后、圓展、清濁、開閉特征;

4) 提取詞綴結(jié)構(gòu)特征,形式為nx4的二位數(shù)組(n為詞綴變體數(shù)),記錄每個(gè)詞綴變體前后、圓展、清濁、開閉特征;

5) 若詞干/詞綴符合特殊規(guī)則搭配庫(kù),則根據(jù)特殊規(guī)則處理庫(kù)對(duì)詞干詞綴進(jìn)行處理并轉(zhuǎn)一下步;

6) 根據(jù)詞綴基本搭配規(guī)則,對(duì)詞綴變體結(jié)構(gòu)特征和詞干變體結(jié)構(gòu)特征進(jìn)行匹配性計(jì)算返回計(jì)數(shù)最大的詞綴變體轉(zhuǎn)下一步;

7) 若詞干、詞綴符合特殊規(guī)則五,對(duì)詞綴進(jìn)行字母替換處理并返回。否則,詞綴作為最終輸出直接返回。

2.2 基本搭配算法

根據(jù)詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征, 每個(gè)詞綴變體結(jié)構(gòu)特征跟詞干結(jié)構(gòu)特征進(jìn)行前后、圓展、清濁、開閉特征的匹配性計(jì)算,計(jì)數(shù)最大的詞綴變體作為最終的搭配變體返回。具體搭配算法如下:

若(Sf并且Af)或(Sb并且Ab):

則 計(jì)數(shù)+1,否則 計(jì)數(shù)-1;

若(Sr并且Ar)或(Snr并且Anr):

則 計(jì)數(shù)+1,否則 計(jì)數(shù)-1;

若(Sv并且Av)或(Svl并且Avl):

則 計(jì)數(shù)+1,否則 計(jì)數(shù)-1;

若(So并且Ac)或(Sc并且Ao):

則 計(jì)數(shù)+4,否則 計(jì)數(shù)-4;

2.3 特殊規(guī)則處理

處理特殊規(guī)則的總原則是,結(jié)合特殊規(guī)則搭配庫(kù)對(duì)特殊規(guī)則進(jìn)行處理,使特殊規(guī)則可以用基本搭配算法處理,具體處理方法如下:

特殊規(guī)則一: 收集符合此類規(guī)則的詞干,提取詞干結(jié)構(gòu)特征時(shí)標(biāo)記為前詞干。

特殊規(guī)則二、三: 由于此類詞干附加詞綴時(shí)需要判斷所附加詞綴類型,若名詞構(gòu)形詞綴則詞干被標(biāo)記為后詞干,若動(dòng)詞構(gòu)詞詞綴則詞干被標(biāo)記為前詞干。

特殊規(guī)則四: 由于缺乏歷史背景,盡看此類詞綴本身無(wú)法判斷屬于前詞干還是后詞干,但根據(jù)現(xiàn)代維吾爾語(yǔ)中對(duì)這類詞干所附加的詞綴的前后類型可以判斷其前后特征。因此,首先通過程序篩選這類詞干,依據(jù)所附詞綴的前后類型進(jìn)行人工標(biāo)注。

3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析

準(zhǔn)確提取詞干、詞綴結(jié)構(gòu)特征是正確搭配詞綴變體的前提。為了驗(yàn)證維吾爾語(yǔ)語(yǔ)音和諧律的正確性和完整性,首先對(duì)詞干結(jié)構(gòu)特征提取的正確性進(jìn)行驗(yàn)證;其次,對(duì)詞綴變體搭配的正確性進(jìn)行驗(yàn)證。

3.1 詞干結(jié)構(gòu)特征提取驗(yàn)證

表6 維吾爾語(yǔ)詞干結(jié)構(gòu)分布

3.2 詞綴結(jié)構(gòu)特征提取驗(yàn)證

為了驗(yàn)證詞綴變體搭配的正確性,本文收集了378個(gè)維吾爾語(yǔ)詞綴(構(gòu)詞詞綴104個(gè),構(gòu)形詞綴274個(gè)),總變體為887個(gè)。其中,單變體詞綴124個(gè)(無(wú)變體詞綴),兩變體詞綴120個(gè),三變體詞綴27個(gè),四變體詞綴100個(gè),六變體詞綴7個(gè)[1, 12]。由于單變體詞綴無(wú)需選擇變體即可搭配,因此,本文對(duì)其余254個(gè)多變體詞綴進(jìn)行詞綴結(jié)構(gòu)特征提取,經(jīng)人工驗(yàn)證其提取結(jié)果,發(fā)現(xiàn)全部提取正確。

3.3 變體搭配算法驗(yàn)證

實(shí)驗(yàn)說(shuō)明:

1) 維吾爾語(yǔ)中,構(gòu)詞詞綴改變?cè)~干的語(yǔ)義,而構(gòu)形詞綴則使詞干發(fā)生形態(tài)變化,具有更加豐富的語(yǔ)法信息。雖然本文提出的搭配算法對(duì)兩種類型的詞綴都有效,但詞干是維吾爾語(yǔ)自然語(yǔ)言處理的基本單元,本次實(shí)驗(yàn)只考慮構(gòu)形詞綴;

2) 據(jù)統(tǒng)計(jì),維吾爾語(yǔ)13種詞性中名詞和動(dòng)詞在總詞匯量中所占的比例最高,本次實(shí)驗(yàn)只針對(duì)名詞和動(dòng)詞詞干;

3) 名詞可以附加復(fù)數(shù)、人稱、格等構(gòu)形詞綴,動(dòng)詞也可以附加時(shí)態(tài)、語(yǔ)態(tài)、體、人稱等多種構(gòu)形詞綴,且這些詞綴按照一定的規(guī)則連續(xù)出現(xiàn),可以產(chǎn)生詞綴串。但本算法驗(yàn)證的重點(diǎn)是詞干搭配詞綴變體的正確性。因此,本實(shí)驗(yàn)考慮詞干附加一個(gè)詞綴的情況;

4) 本文從《正字法詞典》[2]中搜集了25 919個(gè)常用詞干,從中隨機(jī)抽取500個(gè)名詞詞干和300個(gè)動(dòng)詞詞干進(jìn)行詞綴變體搭配;

5) 維吾爾語(yǔ)詞干和對(duì)應(yīng)的詞綴變體相結(jié)合時(shí)發(fā)生音變現(xiàn)象,本次試驗(yàn)中我們按照文獻(xiàn)[12]中的音系現(xiàn)象處理方法,對(duì)詞干進(jìn)行音變現(xiàn)象的處理;

6) 試驗(yàn)結(jié)果采用機(jī)器驗(yàn)證和人工驗(yàn)證結(jié)合的方式進(jìn)行。搭配算法產(chǎn)生的單詞首先通過維吾爾語(yǔ)文字校對(duì)工具進(jìn)行機(jī)器驗(yàn)證,而校對(duì)工具無(wú)法判斷的未登錄詞,則進(jìn)行人工驗(yàn)證判斷其正確性。

研究維吾爾語(yǔ)構(gòu)形詞綴的語(yǔ)法特征可知,一個(gè)維吾爾語(yǔ)名詞詞干分別與18個(gè)構(gòu)形詞綴搭配,可以產(chǎn)生18個(gè)單詞;一個(gè)維吾爾語(yǔ)動(dòng)詞詞根分別與126個(gè)構(gòu)形詞綴搭配,可以產(chǎn)生126個(gè)單詞,如表7所示。

表7 詞根、詞綴變體搭配

為了驗(yàn)證詞綴變體搭配算法的正確性和完整性,本文從《正字法詞典》[2]中搜集了25 919個(gè)常用詞干。從中隨機(jī)抽取500個(gè)名詞詞干和300個(gè)動(dòng)詞詞干進(jìn)行詞綴變體搭配,分別生成9 000個(gè)名詞和37 800個(gè)動(dòng)詞。借助維吾爾語(yǔ)文字校對(duì)系統(tǒng)和人工驗(yàn)證的方法,對(duì)生成的所有單詞進(jìn)行詞綴變體搭配準(zhǔn)確性驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,名詞和動(dòng)詞詞干搭配詞綴準(zhǔn)確率分別為98.40%和96.49%,整體搭配準(zhǔn)確率為96.86%,實(shí)驗(yàn)結(jié)果如表8所示。

表8 實(shí)驗(yàn)結(jié)果

導(dǎo)致詞綴變體搭配錯(cuò)誤的原因主要以下兩種:

(2) 未標(biāo)注特殊單詞: 雖然本文從388 692個(gè)拼寫正確的維吾爾語(yǔ)單詞中的8 000多個(gè)只包含中元音的特殊單詞進(jìn)行了人工的前后特征標(biāo)注,生成特殊單詞標(biāo)注詞典。但在實(shí)際應(yīng)用中若遇到未標(biāo)注單詞,在搭配詞綴前后變體時(shí)仍出現(xiàn)盲目搭配的情況。因此,在使用中遇到此類情況,需要對(duì)其進(jìn)行人工標(biāo)注并加入已標(biāo)注詞詞典。

4 結(jié)論

本文介紹了維吾爾語(yǔ)字母分類,維吾爾語(yǔ)詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征,歸納總結(jié)了維吾爾語(yǔ)語(yǔ)音和諧律,闡述了詞干搭配詞綴的基本搭配規(guī)則和特殊規(guī)則。以此為基礎(chǔ),充分考慮基本搭配規(guī)則和特殊規(guī)則的前提下,提出一種基于詞干、詞綴結(jié)構(gòu)特征的維吾爾語(yǔ)詞綴變體搭配算法。結(jié)合大規(guī)模詞庫(kù)和詞綴庫(kù),分別從詞干、詞綴結(jié)構(gòu)特征提取的正確性和完整性及詞干搭配詞綴的準(zhǔn)確性等方面進(jìn)行驗(yàn)證。對(duì)實(shí)驗(yàn)結(jié)果的分析可知,出現(xiàn)搭配錯(cuò)誤的主要原因?yàn)椴糠滞鈦?lái)詞和未標(biāo)注特殊單詞的出現(xiàn)。

猜你喜歡
詞綴規(guī)則
撐竿跳規(guī)則的制定
從網(wǎng)絡(luò)語(yǔ)“X精”看“精”的類詞綴化
數(shù)獨(dú)的規(guī)則和演變
詞尾與詞綴的區(qū)別研究
規(guī)則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
淺談現(xiàn)代漢語(yǔ)類詞綴
釋西夏語(yǔ)詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
搜索新規(guī)則
主站蜘蛛池模板: 亚洲一区二区成人| www.亚洲天堂| 欧美有码在线观看| 亚洲人成人伊人成综合网无码| 一级片一区| 午夜啪啪福利| 国产69精品久久久久孕妇大杂乱 | 成人国内精品久久久久影院| 女同国产精品一区二区| 国产粉嫩粉嫩的18在线播放91| 丁香六月综合网| 亚洲日本韩在线观看| 日韩欧美在线观看| 18禁黄无遮挡免费动漫网站| 67194在线午夜亚洲| 亚洲无码电影| 欧美中文字幕第一页线路一| 国产天天色| 国产麻豆va精品视频| 国产又爽又黄无遮挡免费观看| 久久精品aⅴ无码中文字幕| 国产一区在线视频观看| 中文字幕资源站| 亚洲三级色| 天天综合网站| 日韩二区三区无| 丁香综合在线| 谁有在线观看日韩亚洲最新视频| 亚洲欧美日韩另类| 伊人久久大香线蕉aⅴ色| 国产亚洲视频免费播放| 色视频久久| 精品丝袜美腿国产一区| 国产不卡网| 看你懂的巨臀中文字幕一区二区| 久久久亚洲色| 最新国产麻豆aⅴ精品无| 久久香蕉国产线看精品| 日本道综合一本久久久88| 欧美在线伊人| 丝袜亚洲综合| 一本大道无码高清| 波多野结衣一区二区三区四区视频 | 亚洲永久免费网站| 亚洲成人一区二区| 欧美成人影院亚洲综合图| 日本妇乱子伦视频| 亚洲资源站av无码网址| 男女性色大片免费网站| 免费观看男人免费桶女人视频| 国产精品一区二区国产主播| 亚洲AV成人一区国产精品| 91人妻在线视频| 精品成人一区二区三区电影 | 久久人体视频| 91香蕉视频下载网站| 伊人久久精品无码麻豆精品 | 成人精品视频一区二区在线| 欧美成人国产| 精品一区二区三区四区五区| 国产精品短篇二区| 国产素人在线| 日韩 欧美 小说 综合网 另类 | 亚洲日韩Av中文字幕无码| 波多野结衣第一页| 五月婷婷丁香综合| 亚洲成人福利网站| 亚洲自偷自拍另类小说| 国产视频 第一页| 欧美a在线视频| 久久黄色免费电影| 巨熟乳波霸若妻中文观看免费| 97青草最新免费精品视频| 蜜芽国产尤物av尤物在线看| 色婷婷久久| 国产精品xxx| 丝袜美女被出水视频一区| 亚洲综合网在线观看| 久久超级碰| 欧美另类图片视频无弹跳第一页| 久久久国产精品免费视频| 亚洲AV人人澡人人双人|