999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

論柯爾克孜語詞干提取方法

2020-03-24 22:46:34開比爾罕·麥麥提明艾孜爾古麗·玉素甫
關(guān)鍵詞:詞綴單詞規(guī)則

開比爾罕·麥麥提明 艾孜爾古麗·玉素甫

[摘? ? ? ? ? ?要]? 首先介紹柯爾克孜語形態(tài)特征對詞干提取的作用,之后探討柯爾克孜語詞類劃分、詞類的形態(tài)特征。介紹基于規(guī)則、詞典以及詞典和規(guī)則相結(jié)合的方法和柯語語料構(gòu)建工作。討論柯語基于詞典、基于規(guī)則及詞典與規(guī)則方法的設(shè)計工作。最后以柯爾克孜文微信公眾號的新聞語料作為驗證對象,對利用三種不同的方法進行詞干提取試驗,并對數(shù)據(jù)進行統(tǒng)計與分析,驗證詞干提取方法的可行性。

[關(guān)? ? 鍵? ?詞]? 柯爾克孜語;形態(tài)分析;詞干提取;方法

[中圖分類號]? H215? ? ? ? ? ? ? ? ?[文獻標志碼]? A? ? ? ? ? ? ? [文章編號]? 2096-0603(2020)22-0096-02

柯爾克孜語詞干提取是柯爾克孜語信息處理中的重要技術(shù),是柯爾克孜語信息提取、文本情感分析、數(shù)據(jù)發(fā)掘等領(lǐng)域的重要基礎(chǔ)步驟。

在柯爾克孜語詞干提取方面,2013年阿依努爾·阿迪力等提出了基于字典的方法和機器學習方法的組合來從文本中提取詞干,并計算相應詞干的頻率、長度,給出組合詞的詞匯量。2013年陳莉等設(shè)計并且實現(xiàn)了基于隱馬爾科夫模型的柯爾克孜語基本詞性標注系統(tǒng)。當前柯爾克孜語詞干提取方法是以規(guī)則為主,本研究采用基于規(guī)則和字典相結(jié)合的方法,探討柯爾克孜語詞干提取方法。本文采用詞典的方法和規(guī)則的方法及兩種方法的混合來進行詞干提取并有效提高了詞干提取的準確性。

本文構(gòu)建一定規(guī)模的柯爾克孜語新聞資料庫,將語料庫中的新聞內(nèi)容生成詞干詞典和詞綴詞典,結(jié)合柯爾克孜語詞法特征,提出基于詞典和規(guī)則的詞干提取方法,研究一種結(jié)合柯爾克孜語形態(tài)特征和結(jié)合人工切分實例庫、詞綴庫作為規(guī)則庫基礎(chǔ),基于規(guī)則和字典相結(jié)合的柯爾克孜語詞干提取方法。

一、柯爾克孜語本體研究

(一)柯爾克孜語形態(tài)概述

柯爾克孜語共有30個字母和36個音位。由于柯爾克孜語的14個元音音位當中的6個長元音是用基本元音的復寫形式來表示,因此36個音位用30個字母來表示,其中有22個輔音音位,有14個元音音位。柯爾克孜語中詞匯的形態(tài)變化非常豐富,依據(jù)詞的形態(tài)、意思以及在句子中起到的作用,柯爾克孜語的詞類可劃分為名詞、代詞、形容詞、數(shù)詞、副詞、動詞、連詞、助詞、后置詞、嘆詞、象聲詞十一類。柯爾克孜語在形態(tài)上具有元音和諧,元音的增加和減少,輔音和諧,發(fā)音部位的同化和清音的濁化現(xiàn)象。在柯爾克孜語中,元音和諧不但出現(xiàn)在詞根或詞干中,而且更關(guān)鍵的是出現(xiàn)在詞綴中。柯爾克孜語實詞構(gòu)形詞綴有208個不相同的詞綴、29個數(shù)詞詞綴、80個名詞詞綴、27個形容詞詞綴,動詞就有90多個詞綴。依據(jù)統(tǒng)計,柯爾克孜語實詞詞綴的不同相連組合在理論上能達到562種。

(二)柯爾克孜語特點研究

本論文中,用于詞干提取的方法有基于字典的方法、基于規(guī)則的方法以及基于詞典及規(guī)則相結(jié)合的方法。實際上詞干提取系統(tǒng)往往只采用一種單一的方法難以達到較高的實用水平。由于柯爾克孜語單詞的形態(tài)結(jié)構(gòu)特別復雜,并且詞綴很多,語料非常稀缺,用統(tǒng)計方法、機器學習方法和其他方法提高詞干提取效率非常困難。在柯語中,由于受到語音規(guī)律的影響,詞干本身的元音或者輔音要發(fā)生某些變化,導致相同的詞尾和不同單詞相連接可能充當不同的附加成分的種類,這使詞尾的切分和對詞干提取存在一定的困難。主要體現(xiàn)在以下幾個方面:

4.語言的形態(tài)系統(tǒng)復雜,詞綴與詞綴之間的連接關(guān)系很難全面收集。

(三)基于詞典的方法

主要查找已知詞典進行詞形的轉(zhuǎn)換。通過詞典匹配,結(jié)果更為準確,并且易于擴展和維護。返回詞干可能是詞典中的有效詞,減去詞干還原工作。本文在探討了柯爾克孜語的詞法規(guī)則等資源之后,研究了字典數(shù)據(jù)庫的初步實現(xiàn)。利用“新疆廣播電臺柯爾克孜語”微信公眾號中的新聞內(nèi)容建立詞典,詞典包括詞干庫、詞綴庫和弱化庫。首先,文本的所有內(nèi)容讀進來,然后進行分句、分詞、詞頻統(tǒng)計、詞干提取,詞干提取時系統(tǒng)會和提前準備好的詞干表進行對比,如果出現(xiàn)的詞與詞干表中的詞匹配就確認是詞干,如果沒有匹配等下一步用別的方法或者人工來進行詞干提取。本文利用Access數(shù)據(jù)庫技術(shù)建設(shè)了所必要的詞干、詞綴以及弱化庫。

(四)基于規(guī)則的方法

基于規(guī)則的方法的重點問題是需要構(gòu)造比較完備、適應性相對強的規(guī)則庫和大規(guī)模的語言推導規(guī)則。本文詞綴表中錄入了柯爾克孜語中所有詞類的詞綴分類。基于規(guī)則詞干提取的詳細過程:從語單詞的左邊的字母開始切分,根據(jù)柯語詞綴的相連接順序與構(gòu)形詞綴表匹配,然后找出全部的構(gòu)形詞綴的切分形式放到詞干表里。首先,確定構(gòu)形后綴列表,例如配置構(gòu)形后綴庫,單詞后綴庫和前綴庫,并開始查找匹配位置,并指定詞干必須至少保留兩個字母的長度。然后進行詞綴列表查找及匹配;如匹配失敗,進行重新編碼;如匹配成功,找到詞綴,則判斷是否滿足規(guī)則。若滿足,則切取詞綴;不滿足,則重新進行編碼。

本研究提出單詞的雙向讀取文本和切分來實行詞干提取,是從左向右讀取詞匯的字母而進行最大匹配的構(gòu)形詞綴的切分后詞干提取的方法,從右向左讀取詞匯字母來對詞干進行切分提取。

(五)基于規(guī)則和詞典結(jié)合的方法

基于規(guī)則和詞典結(jié)合的方法是為規(guī)避上述方法的局限性而提出的有效方法。從柯爾克孜語單詞的左側(cè)開始,根據(jù)詞綴的并置順序,與配置詞綴表匹配,將配置詞綴的所有細分形式查找到整個詞綴切分中;在柯爾克孜語詞的右側(cè),它與已建立的詞干表匹配,并找到所有詞干的分割形式將其放入詞干完整分割集中。在左側(cè)和右側(cè)的分割過程中,如果詞綴全切分集和詞干全切分集僅具有唯一的重合邊界,則認為分割是正確的;否則,執(zhí)行規(guī)則還原處理。將字典的驗證提取結(jié)果得出的規(guī)則與字典的結(jié)果相結(jié)合的方法用于研究詞干提取。

詞干提取的詳細過程如下:(1)從單詞的末尾開始,對單詞的末尾進行掃描切分詞尾,以提取詞干,并匹配詞干字典以查找所有可能的詞干;(2)依據(jù)詞尾規(guī)則、詞干詞性和詞尾綴接順序全切分詞尾;(3)使用最大匹配法消除歧義切分;(4)提取詞干。

二、實驗及結(jié)果分析

本文以“新疆人民廣播電臺柯爾克孜語”微信公眾號中的新聞內(nèi)容作為訓練語料庫,語料庫中出現(xiàn)1048080個柯爾克孜文詞匯,以此語料庫作為實驗對象進行詞干提取工作。

由于柯語的形態(tài)結(jié)構(gòu)與規(guī)則不同,因此本次試驗采用詞語的從左邊切分進行詞干提取和語言本身的語法規(guī)則相結(jié)合還原詞干的方法。以柯語詞匯庫為處理對象,對3954篇文本中出現(xiàn)的1048080個詞匯進行詞干提取,通過使用三種詞干提取方法,同時比較了在訓練集大小規(guī)模確定條件下,獲取的詞干提取的正確率不同。結(jié)果如下表所示:

從上表可以看出,隨著訓練集大小的增加,詞干提取的效率越來越高,提取精度也逐漸提高。然而,隨著訓練規(guī)模的增加,錯誤率逐漸減小。同時可見,利用基于混合的方法進行詞干提取的效果比單獨用一種方法的效果好。說明本文提出的方法可以較好地提高對柯爾克孜語詞干提取的準確率。本次實驗結(jié)果分析發(fā)現(xiàn),導致錯誤的詞干提取的主要原因是:詞干庫中的一些單詞本身是詞干,但后面的部分像詞綴就造成過度切分問題,有些單詞是其他詞干連接詞尾后的形式,要對這些單詞進行詞干提取時需要根據(jù)上下文內(nèi)容才能正確地切分詞干和詞尾。

參考文獻:

[1]阿依努爾·阿迪力.小學柯爾克孜語文新課標教材用詞情況研究[D].新疆:新疆師范大學,2013.

[2]陳莉.基于HMM的柯爾克孜語基本詞性標注研究[D].新疆:新疆大學,2013.

[3]熱娜·艾爾肯.基于混合方法的維吾爾語詞干提取方法研究[J].計算機應用研究,2015(1).

[4]塔依爾·阿不都外力,基于標注詞典和規(guī)則的維吾爾文動詞詞干提取方法[J].新疆大學學報(自然科學版),2013(2).

[5]胡振華.柯爾克孜語言文化研究[M].北京:中央民族大學出版社,2006.

編輯 張 慧

猜你喜歡
詞綴單詞規(guī)則
撐竿跳規(guī)則的制定
從網(wǎng)絡語“X精”看“精”的類詞綴化
數(shù)獨的規(guī)則和演變
單詞連一連
看圖填單詞
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
TPP反腐敗規(guī)則對我國的啟示
試析否定詞綴在漢維語中的不同表現(xiàn)
語言與翻譯(2014年3期)2014-07-12 10:31:56
最難的單詞
主站蜘蛛池模板: 午夜欧美理论2019理论| 成人噜噜噜视频在线观看| 午夜小视频在线| 在线国产资源| 国产不卡一级毛片视频| 国产91小视频| 免费看的一级毛片| 日韩无码黄色| 亚洲国产成人精品一二区| 91精品伊人久久大香线蕉| 无码久看视频| 国产波多野结衣中文在线播放 | 999国内精品视频免费| 国产精品第| 日韩欧美国产区| 亚洲国产精品国自产拍A| AV不卡在线永久免费观看| 亚洲国产第一区二区香蕉| 亚洲欧美另类中文字幕| 91一级片| 久久精品人人做人人爽| 内射人妻无码色AV天堂| hezyo加勒比一区二区三区| 在线国产欧美| 久久毛片网| 亚洲a免费| 亚洲色图在线观看| 日本高清免费不卡视频| 97在线观看视频免费| 国产精品第页| 一本视频精品中文字幕| 国产高颜值露脸在线观看| 大学生久久香蕉国产线观看| 国产成人一区免费观看| 香蕉eeww99国产精选播放| 国产真实二区一区在线亚洲| 台湾AV国片精品女同性| 91麻豆精品国产91久久久久| 亚洲熟女中文字幕男人总站| 中文字幕永久视频| av一区二区三区高清久久| 国产91高清视频| 欧美日韩一区二区三| 亚洲午夜18| 性色一区| 亚洲国产日韩视频观看| 久久国产高清视频| 国产麻豆aⅴ精品无码| 欧美啪啪网| 日本成人不卡视频| 国产福利一区在线| 伊人激情久久综合中文字幕| 538国产视频| 欧美日韩成人在线观看| 永久免费av网站可以直接看的 | 亚洲高清中文字幕| 国产高潮流白浆视频| 日韩无码视频专区| 欧美a在线视频| 一级毛片在线播放免费| 国产精品中文免费福利| 免费全部高H视频无码无遮掩| 性欧美精品xxxx| 国产96在线 | 99re在线视频观看| 国产情侣一区二区三区| 无码精品一区二区久久久| 国产在线自在拍91精品黑人| 大学生久久香蕉国产线观看 | 99视频全部免费| 欧美在线导航| 国产精品无码制服丝袜| 国产男人天堂| 真人免费一级毛片一区二区 | 国产日本欧美在线观看| 久久一级电影| 免费在线看黄网址| 中文字幕有乳无码| 国产精品不卡片视频免费观看| 久久久久久尹人网香蕉 | 欧美日韩中文字幕在线| 欧美成人午夜在线全部免费|