999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

維吾爾語(yǔ)詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)

2018-12-20 06:08:44艾孜麥提艾尼瓦爾
中文信息學(xué)報(bào) 2018年11期
關(guān)鍵詞:詞綴規(guī)則

艾孜麥提·艾尼瓦爾,董 軍,李 曉

(1. 中國(guó)科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國(guó)科學(xué)院大學(xué),北京 100049;3. 新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830012)

0 引言

本文以現(xiàn)有的研究成果為基礎(chǔ),從維吾爾語(yǔ)詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征出發(fā),歸納總結(jié)維吾爾語(yǔ)語(yǔ)音和諧律。在充分考慮基本搭配規(guī)則和特殊規(guī)則的前提下,提出一種通用的維吾爾語(yǔ)變體搭配算法。結(jié)合大規(guī)模詞庫(kù),一方面驗(yàn)證已有規(guī)則是否覆蓋詞庫(kù)中所有單詞,另一方面篩選出所有具有詞綴特殊使用方法的單詞。更深入地研究這些詞綴特殊使用方法,揭示其內(nèi)在規(guī)律奠定基礎(chǔ)。

1 維吾爾語(yǔ)詞綴變體搭配規(guī)則

目前已有眾多文獻(xiàn)對(duì)語(yǔ)音和諧律做了總結(jié)[1-3, 9-13],其中《正字法詞典》對(duì)規(guī)則的總結(jié)最全面。《正字法詞典》針對(duì)單音節(jié)和多音節(jié)詞,結(jié)合其詞性分別從元音和諧律、輔音和諧律兩方面對(duì)規(guī)則進(jìn)行了總結(jié)。但正字法詞典中的規(guī)則以自然語(yǔ)言方式描述,并不適合計(jì)算機(jī)處理。為了便于計(jì)算機(jī)處理語(yǔ)音和諧律,我們對(duì)正字法詞典中的規(guī)則進(jìn)行了進(jìn)一步歸納,以形式化的語(yǔ)言對(duì)其進(jìn)行了描述。

1.1 字母分類

維吾爾語(yǔ)有8個(gè)元音字母。根據(jù)發(fā)音時(shí)舌面發(fā)音部位的不同,可以分為前元音、中元音、后元音三種類型,根據(jù)發(fā)音時(shí)嘴唇形狀的不同,又可分為圓唇元音和展唇元音。表1列出了維吾爾語(yǔ)元音字母按發(fā)音方法的分類。

表1 維吾爾文元音字母按發(fā)音方法分類

維吾爾語(yǔ)有24個(gè)輔音字母。根據(jù)發(fā)音時(shí)聲帶是否震動(dòng),這24個(gè)輔音字母可以分為清輔音和濁輔音兩種類型。表2列出了維吾爾文24個(gè)輔音字母的分類。

表2 維吾爾文輔音字母分類

1.2 詞干結(jié)構(gòu)分類

根據(jù)詞干末音節(jié)字母結(jié)構(gòu)特點(diǎn),維吾爾文詞干可以分為4種不同的類。按詞干末音節(jié)中元音字母發(fā)音時(shí)舌面發(fā)音部位的不同可分為前詞干和后詞干;按詞干末尾字母分類,可分為開詞干和閉詞干或清詞干和濁詞干;按詞干末音節(jié)中元音字母發(fā)音時(shí)嘴唇形狀的不同可分為圓詞干和展詞干[2]。為計(jì)算機(jī)處理語(yǔ)音和諧律的方便性,我們對(duì)4種分類法的定義進(jìn)行了一定的擴(kuò)充,其中我們對(duì)分類定義進(jìn)行擴(kuò)展的部分用*表示,具體的結(jié)構(gòu)分類定義如表3所示。

表3 維吾爾語(yǔ)詞干結(jié)構(gòu)分類

續(xù)表

1.3 詞綴結(jié)構(gòu)分類

根據(jù)詞綴首音節(jié)字母的結(jié)構(gòu)特點(diǎn),維吾爾文詞綴也有4種不同的分類。按詞綴首音節(jié)中元音字母發(fā)音時(shí)發(fā)音部位的不同可分為前詞綴和后詞綴;按詞綴首字母分類,可分為開詞綴和閉詞綴或清詞綴和濁詞綴;按詞綴首音節(jié)中元音字母發(fā)音時(shí)嘴唇形狀的不同可分為圓詞綴和展詞綴[2]。同樣,我們也對(duì)詞綴分類部分定義進(jìn)行了擴(kuò)展,具體定義如表4所示。

表4 維吾爾語(yǔ)詞綴結(jié)構(gòu)分類

表5 維吾爾語(yǔ)詞綴結(jié)構(gòu)分布

1.4 維吾爾語(yǔ)語(yǔ)音和諧律

維吾爾語(yǔ)語(yǔ)音和諧是指元音或輔音或元輔音之間在發(fā)音部位和發(fā)音方法上的相互協(xié)同一致性。維吾爾語(yǔ)的和諧分為元音和諧和輔音和諧,元音和諧中起決定性作用的是詞干末尾音節(jié)中元音的前后和圓展,輔音和諧中起決定性作用的是詞干末尾音節(jié)中元音的前后以及末尾輔音的清濁[10]。《正字法詞典》從語(yǔ)言學(xué)的角度出發(fā),分別針對(duì)靜詞、動(dòng)詞、單音節(jié)詞干、多音節(jié)詞干詳細(xì)介紹了元音和諧和輔音和諧分,指出維吾爾語(yǔ)詞干附加詞綴變體時(shí)遵循4個(gè)語(yǔ)音和諧基本規(guī)則,即前后和諧、圓展和諧、開閉和諧、清濁和諧,并舉例說(shuō)明了不符合這基本規(guī)則的特殊情況[2]。由于規(guī)則描述過于詳細(xì),存在一定的冗余,缺少形式化描述,并不適合直接用計(jì)算機(jī)處理。因此,根據(jù)前文定義的詞干及詞綴的結(jié)構(gòu)特征,介紹如下維吾爾語(yǔ)語(yǔ)音和諧律詞綴變體搭配的基本規(guī)則和特殊規(guī)則以及形式化描述:

1.4.1 詞綴變體搭配的基本規(guī)則

1) 前詞干搭配前詞綴,表示為Sf+Af=>(Sf,Af):

2) 后詞干搭配后詞綴;表示為Sb+Ab=>(Sb,Ab):

3) 圓詞干搭配圓詞綴,表示為Sr+Ar=>(Sr,Ar):

4) 展詞干搭配展詞綴, 表示為Snr+Anr=> (Snr,Anr):

5) 清詞干搭配清詞綴,表示為Sv+ Av=> (Sv, Av):

6) 濁詞干搭配濁詞綴, 表示為Svl+ Avl=> (Svl, Avl):

7) 開詞干搭配閉詞綴,表示為So+Ac=> (So, Ac):

8) 閉詞干搭配開詞綴, 表示為Sc+Ao=> (Sc, Ao):

1.4.2 詞綴變體搭配特殊規(guī)則:

2 維吾爾語(yǔ)詞綴變體搭配算法

根據(jù)維吾爾語(yǔ)語(yǔ)音和諧律,在充分考慮基本規(guī)則和特殊規(guī)則的前提下,本文提出了基于規(guī)則的維吾爾語(yǔ)詞綴變體搭配算法。其中,基本搭配規(guī)則用算法實(shí)現(xiàn)。由于特殊搭配規(guī)則需要考慮特殊詞干或詞綴,我們建立對(duì)應(yīng)的特殊規(guī)則搭配庫(kù)來(lái)實(shí)現(xiàn)詞綴搭配的功能。

2.1 算法具體步驟

1) 輸入詞干、詞性及詞綴對(duì)應(yīng)的多個(gè)變體;

2) 若詞綴只要一個(gè)變體,則返回該變體,否則轉(zhuǎn)下一步;

3) 提取詞干結(jié)構(gòu)特征,形式為1x4的一位數(shù)組,記錄詞干前后、圓展、清濁、開閉特征;

4) 提取詞綴結(jié)構(gòu)特征,形式為nx4的二位數(shù)組(n為詞綴變體數(shù)),記錄每個(gè)詞綴變體前后、圓展、清濁、開閉特征;

5) 若詞干/詞綴符合特殊規(guī)則搭配庫(kù),則根據(jù)特殊規(guī)則處理庫(kù)對(duì)詞干詞綴進(jìn)行處理并轉(zhuǎn)一下步;

6) 根據(jù)詞綴基本搭配規(guī)則,對(duì)詞綴變體結(jié)構(gòu)特征和詞干變體結(jié)構(gòu)特征進(jìn)行匹配性計(jì)算返回計(jì)數(shù)最大的詞綴變體轉(zhuǎn)下一步;

7) 若詞干、詞綴符合特殊規(guī)則五,對(duì)詞綴進(jìn)行字母替換處理并返回。否則,詞綴作為最終輸出直接返回。

2.2 基本搭配算法

根據(jù)詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征, 每個(gè)詞綴變體結(jié)構(gòu)特征跟詞干結(jié)構(gòu)特征進(jìn)行前后、圓展、清濁、開閉特征的匹配性計(jì)算,計(jì)數(shù)最大的詞綴變體作為最終的搭配變體返回。具體搭配算法如下:

若(Sf并且Af)或(Sb并且Ab):

則 計(jì)數(shù)+1,否則 計(jì)數(shù)-1;

若(Sr并且Ar)或(Snr并且Anr):

則 計(jì)數(shù)+1,否則 計(jì)數(shù)-1;

若(Sv并且Av)或(Svl并且Avl):

則 計(jì)數(shù)+1,否則 計(jì)數(shù)-1;

若(So并且Ac)或(Sc并且Ao):

則 計(jì)數(shù)+4,否則 計(jì)數(shù)-4;

2.3 特殊規(guī)則處理

處理特殊規(guī)則的總原則是,結(jié)合特殊規(guī)則搭配庫(kù)對(duì)特殊規(guī)則進(jìn)行處理,使特殊規(guī)則可以用基本搭配算法處理,具體處理方法如下:

特殊規(guī)則一: 收集符合此類規(guī)則的詞干,提取詞干結(jié)構(gòu)特征時(shí)標(biāo)記為前詞干。

特殊規(guī)則二、三: 由于此類詞干附加詞綴時(shí)需要判斷所附加詞綴類型,若名詞構(gòu)形詞綴則詞干被標(biāo)記為后詞干,若動(dòng)詞構(gòu)詞詞綴則詞干被標(biāo)記為前詞干。

特殊規(guī)則四: 由于缺乏歷史背景,盡看此類詞綴本身無(wú)法判斷屬于前詞干還是后詞干,但根據(jù)現(xiàn)代維吾爾語(yǔ)中對(duì)這類詞干所附加的詞綴的前后類型可以判斷其前后特征。因此,首先通過程序篩選這類詞干,依據(jù)所附詞綴的前后類型進(jìn)行人工標(biāo)注。

3 實(shí)驗(yàn)驗(yàn)證及結(jié)果分析

準(zhǔn)確提取詞干、詞綴結(jié)構(gòu)特征是正確搭配詞綴變體的前提。為了驗(yàn)證維吾爾語(yǔ)語(yǔ)音和諧律的正確性和完整性,首先對(duì)詞干結(jié)構(gòu)特征提取的正確性進(jìn)行驗(yàn)證;其次,對(duì)詞綴變體搭配的正確性進(jìn)行驗(yàn)證。

3.1 詞干結(jié)構(gòu)特征提取驗(yàn)證

表6 維吾爾語(yǔ)詞干結(jié)構(gòu)分布

3.2 詞綴結(jié)構(gòu)特征提取驗(yàn)證

為了驗(yàn)證詞綴變體搭配的正確性,本文收集了378個(gè)維吾爾語(yǔ)詞綴(構(gòu)詞詞綴104個(gè),構(gòu)形詞綴274個(gè)),總變體為887個(gè)。其中,單變體詞綴124個(gè)(無(wú)變體詞綴),兩變體詞綴120個(gè),三變體詞綴27個(gè),四變體詞綴100個(gè),六變體詞綴7個(gè)[1, 12]。由于單變體詞綴無(wú)需選擇變體即可搭配,因此,本文對(duì)其余254個(gè)多變體詞綴進(jìn)行詞綴結(jié)構(gòu)特征提取,經(jīng)人工驗(yàn)證其提取結(jié)果,發(fā)現(xiàn)全部提取正確。

3.3 變體搭配算法驗(yàn)證

實(shí)驗(yàn)說(shuō)明:

1) 維吾爾語(yǔ)中,構(gòu)詞詞綴改變?cè)~干的語(yǔ)義,而構(gòu)形詞綴則使詞干發(fā)生形態(tài)變化,具有更加豐富的語(yǔ)法信息。雖然本文提出的搭配算法對(duì)兩種類型的詞綴都有效,但詞干是維吾爾語(yǔ)自然語(yǔ)言處理的基本單元,本次實(shí)驗(yàn)只考慮構(gòu)形詞綴;

2) 據(jù)統(tǒng)計(jì),維吾爾語(yǔ)13種詞性中名詞和動(dòng)詞在總詞匯量中所占的比例最高,本次實(shí)驗(yàn)只針對(duì)名詞和動(dòng)詞詞干;

3) 名詞可以附加復(fù)數(shù)、人稱、格等構(gòu)形詞綴,動(dòng)詞也可以附加時(shí)態(tài)、語(yǔ)態(tài)、體、人稱等多種構(gòu)形詞綴,且這些詞綴按照一定的規(guī)則連續(xù)出現(xiàn),可以產(chǎn)生詞綴串。但本算法驗(yàn)證的重點(diǎn)是詞干搭配詞綴變體的正確性。因此,本實(shí)驗(yàn)考慮詞干附加一個(gè)詞綴的情況;

4) 本文從《正字法詞典》[2]中搜集了25 919個(gè)常用詞干,從中隨機(jī)抽取500個(gè)名詞詞干和300個(gè)動(dòng)詞詞干進(jìn)行詞綴變體搭配;

5) 維吾爾語(yǔ)詞干和對(duì)應(yīng)的詞綴變體相結(jié)合時(shí)發(fā)生音變現(xiàn)象,本次試驗(yàn)中我們按照文獻(xiàn)[12]中的音系現(xiàn)象處理方法,對(duì)詞干進(jìn)行音變現(xiàn)象的處理;

6) 試驗(yàn)結(jié)果采用機(jī)器驗(yàn)證和人工驗(yàn)證結(jié)合的方式進(jìn)行。搭配算法產(chǎn)生的單詞首先通過維吾爾語(yǔ)文字校對(duì)工具進(jìn)行機(jī)器驗(yàn)證,而校對(duì)工具無(wú)法判斷的未登錄詞,則進(jìn)行人工驗(yàn)證判斷其正確性。

研究維吾爾語(yǔ)構(gòu)形詞綴的語(yǔ)法特征可知,一個(gè)維吾爾語(yǔ)名詞詞干分別與18個(gè)構(gòu)形詞綴搭配,可以產(chǎn)生18個(gè)單詞;一個(gè)維吾爾語(yǔ)動(dòng)詞詞根分別與126個(gè)構(gòu)形詞綴搭配,可以產(chǎn)生126個(gè)單詞,如表7所示。

表7 詞根、詞綴變體搭配

為了驗(yàn)證詞綴變體搭配算法的正確性和完整性,本文從《正字法詞典》[2]中搜集了25 919個(gè)常用詞干。從中隨機(jī)抽取500個(gè)名詞詞干和300個(gè)動(dòng)詞詞干進(jìn)行詞綴變體搭配,分別生成9 000個(gè)名詞和37 800個(gè)動(dòng)詞。借助維吾爾語(yǔ)文字校對(duì)系統(tǒng)和人工驗(yàn)證的方法,對(duì)生成的所有單詞進(jìn)行詞綴變體搭配準(zhǔn)確性驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,名詞和動(dòng)詞詞干搭配詞綴準(zhǔn)確率分別為98.40%和96.49%,整體搭配準(zhǔn)確率為96.86%,實(shí)驗(yàn)結(jié)果如表8所示。

表8 實(shí)驗(yàn)結(jié)果

導(dǎo)致詞綴變體搭配錯(cuò)誤的原因主要以下兩種:

(2) 未標(biāo)注特殊單詞: 雖然本文從388 692個(gè)拼寫正確的維吾爾語(yǔ)單詞中的8 000多個(gè)只包含中元音的特殊單詞進(jìn)行了人工的前后特征標(biāo)注,生成特殊單詞標(biāo)注詞典。但在實(shí)際應(yīng)用中若遇到未標(biāo)注單詞,在搭配詞綴前后變體時(shí)仍出現(xiàn)盲目搭配的情況。因此,在使用中遇到此類情況,需要對(duì)其進(jìn)行人工標(biāo)注并加入已標(biāo)注詞詞典。

4 結(jié)論

本文介紹了維吾爾語(yǔ)字母分類,維吾爾語(yǔ)詞干結(jié)構(gòu)特征和詞綴結(jié)構(gòu)特征,歸納總結(jié)了維吾爾語(yǔ)語(yǔ)音和諧律,闡述了詞干搭配詞綴的基本搭配規(guī)則和特殊規(guī)則。以此為基礎(chǔ),充分考慮基本搭配規(guī)則和特殊規(guī)則的前提下,提出一種基于詞干、詞綴結(jié)構(gòu)特征的維吾爾語(yǔ)詞綴變體搭配算法。結(jié)合大規(guī)模詞庫(kù)和詞綴庫(kù),分別從詞干、詞綴結(jié)構(gòu)特征提取的正確性和完整性及詞干搭配詞綴的準(zhǔn)確性等方面進(jìn)行驗(yàn)證。對(duì)實(shí)驗(yàn)結(jié)果的分析可知,出現(xiàn)搭配錯(cuò)誤的主要原因?yàn)椴糠滞鈦?lái)詞和未標(biāo)注特殊單詞的出現(xiàn)。

猜你喜歡
詞綴規(guī)則
撐竿跳規(guī)則的制定
從網(wǎng)絡(luò)語(yǔ)“X精”看“精”的類詞綴化
數(shù)獨(dú)的規(guī)則和演變
詞尾與詞綴的區(qū)別研究
規(guī)則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
淺談現(xiàn)代漢語(yǔ)類詞綴
釋西夏語(yǔ)詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
搜索新規(guī)則
主站蜘蛛池模板: 亚卅精品无码久久毛片乌克兰| 国产成人欧美| 国产成人精品一区二区秒拍1o| 国产粉嫩粉嫩的18在线播放91| 国产91麻豆视频| 成人免费午夜视频| 午夜激情婷婷| 久久这里只精品国产99热8| 91九色国产porny| 97se亚洲| 亚洲欧美日韩精品专区| 人与鲁专区| 亚洲一级无毛片无码在线免费视频| 人与鲁专区| 欧美在线视频a| 亚洲成人网在线播放| 国产成人三级在线观看视频| 亚洲91在线精品| 香蕉伊思人视频| 国产特级毛片| 午夜限制老子影院888| av一区二区三区高清久久| 欧美色综合网站| 91麻豆精品视频| 亚洲AV成人一区国产精品| 美女无遮挡免费网站| 亚洲成a人在线播放www| 无码一区二区三区视频在线播放| 天天躁日日躁狠狠躁中文字幕| 国产第一页第二页| 国产精品永久不卡免费视频| 精品国产毛片| 亚洲综合第一页| 91精品啪在线观看国产60岁| 成人夜夜嗨| 欧美在线视频不卡| 色综合手机在线| 在线毛片网站| 国产精品久久国产精麻豆99网站| 波多野结衣国产精品| 国产亚洲精品yxsp| 久久久噜噜噜| 99视频精品全国免费品| 91最新精品视频发布页| 国产精品中文免费福利| 国产乱人免费视频| 国产福利在线免费观看| 99热这里只有精品免费| 国产精品久久久久鬼色| av一区二区无码在线| 国产视频a| 国产激爽大片高清在线观看| 亚洲色图综合在线| 伦精品一区二区三区视频| 亚洲色图另类| 久久这里只有精品国产99| 精品国产亚洲人成在线| 999国产精品| 亚洲欧洲日本在线| 亚洲国产欧美自拍| 欧美一级在线看| 日韩精品亚洲一区中文字幕| 国产精品yjizz视频网一二区| 日韩在线永久免费播放| a免费毛片在线播放| 最新日韩AV网址在线观看| 无码一区18禁| 欧美成人h精品网站| 国产精品成人久久| 国产成人无码AV在线播放动漫 | 国产精品视频观看裸模| 亚洲日本中文字幕乱码中文| 欧美人人干| 97超碰精品成人国产| 美女一级免费毛片| 国产亚洲欧美另类一区二区| 欧美啪啪精品| 色悠久久久久久久综合网伊人| 欧美精品在线视频观看| 欧美精品色视频| 欧美精品导航| 亚洲精品国产成人7777|