999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

字符序列標注的維吾爾語詞干提取方法

2020-06-19 07:51:31古麗尼格爾·阿不都外力買合木提·買買提吐爾根·依布拉音早克熱·卡德爾西熱艾力·海如拉王路路
現(xiàn)代電子技術 2020年12期
關鍵詞:特征提取

古麗尼格爾·阿不都外力 買合木提·買買提 吐爾根·依布拉音 早克熱·卡德爾 西熱艾力·海如拉 王路路

摘 ?要: 詞干提取是形態(tài)豐富語言信息處理中的基礎任務,對其他自然語言處理任務有著重要的影響。該文將詞干提取任務看作序列標注問題,以字符為切分粒度來表征維吾爾語單詞的構成機制,結合條件隨機場模型,實現(xiàn)基于字符序列標注的維吾爾語詞干提取方法。首先使用詞典查詢方法進行詞干提取,然后結合字符的弱化發(fā)音特征、音類特征以及語音特征,針對受限數(shù)據(jù)和非受限數(shù)據(jù)采用條件隨機場訓練模型及預測結果。實驗結果表明,該方法在非受限數(shù)據(jù)集上效果較佳,且能廣泛應用到其他語言。

關鍵詞: 詞干提取; 序列標注; 條件隨機場; 特征提取; 模型訓練; 預測結果

中圖分類號: TN912.34?34; TP391 ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)12?0151?04

Abstract: Stemming is a fundamental task in the morphologically rich language information processing and has an important influence on other natural language processing (NLP) tasks. Taking the task for stemming as the process of character sequence labeling in this paper, and using the character as the segmentation unit to represent the formation mechanism of Uyghur word, the method of Uyghur stemming based on character sequence labeling is realized in combination with the conditional random field model. The dictionary query method is used to stemming, and then the model training with the conditional random field and the results′prediction are performed for the restricted data and unrestricted data by combining with the weak pronunciation features, sound class features and speech features of characters. The experimental results this method has well effect on unrestricted datasets and can be widely used in other languages.

Keywords: stemming; sequence labeling; conditional random field; feature extraction; model training; prediction results

0 ?引 ?言

維吾爾語是典型的形態(tài)復雜的黏著性語言。黏著性語言的主要特點是沒有詞內部的屈折,每個語法范疇都由一類詞綴來表示?[1]。由于詞干連接的詞綴不同,因此會構成不同的單詞,將造成嚴重的數(shù)據(jù)稀疏問題。如“Biz(我們)”與“ni?(的)”相連接會構成“Bizni?(我們的)”,與“ni(把)”相連接會構成“Bizni(把我們)”,而詞干提取是去除詞綴獲取詞干的過程,使單詞的不同形態(tài)變體還原成一種統(tǒng)一形式,從而有效地提高自然語言處理?[2]以及信息檢索??[3]等任務的性能。

由于維吾爾語構詞方法較為豐富,因此,利用相關技術深入研究詞干提取才能有效解決維吾爾語形態(tài)復雜問題。目前主要采用基于規(guī)則的方法和基于統(tǒng)計的方法,其中,基于規(guī)則的方法是根據(jù)形態(tài)構成中的規(guī)律進行詞綴刪除、詞干還原,其嚴重依賴于形態(tài)構成規(guī)律,局限性較強;基于統(tǒng)計的方法主要借助詞干在單詞中的分布進行概率統(tǒng)計,但是針對維吾爾語而言,目前的研究結果還不夠理想。

基于以上分析,本文將詞干提取問題看作是序列標注問題,以字符為序列標注單元,提出一種基于條件隨機場模型的維吾爾語詞干提取方法,且能廣泛應用到其他語言。

1 ?相關工作

目前為止,國內外流行的詞干提取方法主要有基于詞典和規(guī)則的方法[4?5]、基于統(tǒng)計的方法[6?7]和基于混合的方法[8?9]。20世紀六七十年代,研究者們使用基于詞典的方法和基于規(guī)則的方法對文本進行詞干提取。孫漢博等人利用改進的Porter Stemmer算對英文詞干提取并應用于垃圾郵件的過濾上??[5]。基于詞典/規(guī)則的方法準確率很高,但基于詞典的方法只能提取詞典中存在的詞干,不能處理詞典中不存在的單詞;而基于規(guī)則的方法只能處理普遍存在的語言規(guī)則,不能處理特殊的情況。Gupta等人提出了基于無監(jiān)督的詞干提取方法?[6]。

隨著詞干提取技術的不斷發(fā)展,國內少數(shù)民族語言的詞干提取技術也發(fā)展起來了。趙偉等通過分析蒙古語詞的構形特點,提出一種有效的蒙古語詞標注方法,并基于條件隨機場模型構建了一個蒙古語詞切分系統(tǒng)?[7]。吾蘭等人提出了基于N?gram語言模型的哈薩克語詞干提取方法?[9]。維吾爾語詞干提取研究處于起步階段?[10],文獻?[8]提出了融合詞性特征和上下文詞干信息的維吾爾語詞干提取模型。文獻?[11]提出基于雙向門限遞歸單元神經(jīng)網(wǎng)絡的維吾爾語形態(tài)切分方法,將維吾爾詞自動切分為語素序列,從而緩解數(shù)據(jù)稀疏問題。

2 ?基于CRF的維吾爾語詞干提取

本文利用少數(shù)民族語言分詞技術評測(MLWS2017)語料,以字符(字母)為切分粒度,構建一種結合特征的條件隨機場模型。首先利用詞干/詞綴詞典對評測語料進行過濾,然后使用受限CRF模型和非受限CRF模型分別進行預測,最終評估結果。整體流程圖如圖1所示。

2.1 ?預處理

訓練集是在官方提供的數(shù)據(jù)集基礎上抽取的詞對(Kursantlarda|Kursant),再對其進行字符切分和標記;而測試集使用新疆多語種信息技術實驗室自然語言處理組維吾爾語自然語言處理工具包,將進行詞例、詞性標注等預處理操作,詞性標注集如表1所示。本文根據(jù)詞性進行篩選,僅保留部分詞性的單詞,保留單詞的詞性見表中的加粗部分。

2.2 ?問題描述

詞干提取問題可視為一個序列標注問題,維吾爾語詞干最少由兩個字符構成,本文以字符為切分粒度,利用條件隨機場模型對單詞進行標注,將每個單詞作為一個字符串的觀測序列,目標是獲取對應的標記序列 。

為了更好地提高詞干提取效果,本文采用“SF標記符號”對單詞進行標注,其中S表示當前單詞的詞干部分,F(xiàn)表示當前單詞非詞干部分,如“d?wirl?rg? (時代)”標注模型如圖2所示。

2.3 ?條件隨機場模型

2.4 ?特征選擇

條件隨機場序列標注算法中,特征選擇關系到訓練模型對維吾爾語詞干提取的性能。本文主要選取字符(C)、弱化發(fā)音特征(WP)、音類特征(S)、語音特征作(P)為特征?[13]。

2.4.1 ?字符(C)

由于單詞主要由字符構成,一個字符代表一個維吾爾語字母,而這些字符構成單詞存在一些規(guī)律,因此字符本身具有信息,可以作為有效的特征。

2.4.2 ?弱化發(fā)音特征(WP)

在維吾爾語中,當詞干與詞綴相連接時一般會發(fā)生弱化發(fā)音現(xiàn)象,這將會影響詞干提取的過程,如“a,?,o,u”弱化成“e,i,?,ü”。如果發(fā)生此現(xiàn)象,則取弱化后的字符,如果沒有弱化則填寫NL。

2.4.3 ?音類特征(S)

維吾爾語單詞由一個或者一個以上音節(jié)構成,而音節(jié)是由元音和輔音組成,其中元音8個,輔音24個。判斷當前字符的音類(元音或者輔音)作為特征,若當前字符是元音,則表示V;如果是輔音,則音類特征為C。

2.4.4 ?語音特征(P)

根據(jù)音類特征,本文按照文獻?[13]分別將元音和輔音劃分為3類特征,元音和輔音都具有各自的語音(音系)特征,如下:

1) 元音

① 縱向舌位位置

按照發(fā)音時縱向舌位的位置分為高位元音(VH)、中位元音(VM)、低位元音(VL),以當前字符發(fā)音時縱向舌位的位置作為特征。

② 橫向舌位位置

如果按照發(fā)音時橫向舌位的位置分為前位元音(VR)、后位元音(VF)、前后自由浮動性元音(VB),以當前字母發(fā)音時縱向舌位的位置作為特征。

③ 展圓情況

維吾爾語元音發(fā)音時根據(jù)嘴唇的展圓情況分為展唇元音(OV)和圓唇元音(RV),判別當前元音發(fā)音時的嘴唇展圓情況作為特征。

2) 輔音

① 振動情況

輔音根據(jù)發(fā)音時聲帶的振動情況,分為濁輔音和清輔音,因此本文考慮該特征,如果是濁輔音,則表示為CT,否則表示為CC。

②發(fā)音部位

維吾爾語的24個輔音發(fā)音時會受到氣流阻力的部位不同,分為雙唇(PA1)、唇齒(PA2)、舌尖前(PA3)、舌尖中(PA4)、舌尖后(PA5)、舌面中(PA6)、舌面后(PA7)、小舌音(PA8)、喉音(PA9),故本文將當前字符的發(fā)音部位作為特征。

③ 發(fā)音方式

輔音發(fā)音時氣流受阻和除阻的方式也不同,并分為塞音(MA1)、塞擦音(MA2)、擦音(MA3)、鼻音(MA4)、顫音(MA5)、邊擦音(MA6)、半元音(MA7)等,本文將不同的發(fā)音方式作為當前字符的考慮特征。

2.5 ?特征模板

維吾爾語形態(tài)的豐富性造成了詞干提取的復雜性。如果單一地從字符特征出發(fā),難以達到理想的結果。條件隨機場模型的關鍵是利用選取的特征構建特征模板,因此,選擇具有代表性的特征模版能夠充分利用相關信息且能減少信息冗余,同時還能提高詞干提取性能。本文在特征模板的設計中不僅定義了原子特征模板,還定義了復合特征模板。假設C是字符特征,F(xiàn)為非字符特征,則特征模板定義如表2 所示。

3 ?實 ?驗

3.1 ?數(shù)據(jù)集

目前,針對維吾爾語詞干提取公開語料庫未見報道,因此,本文使用兩種數(shù)據(jù)進行訓練,分別是受限數(shù)據(jù)和非受限數(shù)據(jù)。受限數(shù)據(jù)中的訓練語料來自MLWS2017評測語料;非受限數(shù)據(jù)中的訓練集是由MLWS2017評測語料和新疆大學建立的詞干提取語料組成。兩種數(shù)據(jù)的測試語料是來自MLWS2017評測語料的測試語料,具體的語料統(tǒng)計如表3所示。

3.2 ?實驗結果與分析

在維吾爾語詞干提取中,本文共提供了兩個實驗結果,分別為受限結果和非受限結果,各系統(tǒng)描述如下:

受限實驗主系統(tǒng)(UY?2017?U1?primary?a):首先根據(jù)評測舉辦方發(fā)布的語料進行詞對提取,其次構建一個詞干/詞綴詞典,最后按字符串的序列標注,提取單詞特征,為CRF模型準備數(shù)據(jù)并訓練受限系統(tǒng)模型。

非受限實驗主系統(tǒng)(UY?2017?U1?primary?b):此系統(tǒng)與上述受限系統(tǒng)唯一區(qū)別在于詞典的構建,在構建非受限系統(tǒng)的詞典時,加入了內部數(shù)據(jù)集,擴大了詞典的規(guī)模。兩個系統(tǒng)測試結果如表4所示。

從總體的實驗結果可以發(fā)現(xiàn),非受限系統(tǒng)的實驗結果比受限系統(tǒng)的實驗結果較好一些。從準確率上看,當擴大詞典的規(guī)模時準確度比較高;從召回率上看,非受限系統(tǒng)中有些詞干沒有召回或錯誤提取。通過分析實驗結果發(fā)現(xiàn),如果構詞詞綴與構形詞綴一樣時,模型可能沒有準確區(qū)分;將序列標注的方法應用于以字符構成的語言進行詞干提取時,對實驗結果還是有效的。以上的實驗結果是參加MLWS2017的評測結果,并在評測中獲得了第三名。

4 ?結 ?論

本文從維吾爾語形態(tài)豐富的特點出發(fā),提出一種基于字符序列標注的維吾爾語詞干提取方法。以MLWS2017評測數(shù)據(jù)作為受限數(shù)據(jù),融合新疆大學建立的詞干提取語料作為非受限數(shù)據(jù)。結合字符的弱化發(fā)音特征、音類特征以及語音特征,對兩種數(shù)據(jù)使用基于字符序列的條件隨機場模型預測提取結果。實驗結果表明,該方法在非受限數(shù)據(jù)結果較佳,且能夠廣泛應用于其他語言。以后,將進一步采用神經(jīng)網(wǎng)絡的方法實現(xiàn)維吾爾語詞干提取,提高準確率。

注:本文通訊作者為吐爾根·依布拉音。

參考文獻

[1] 葉蜚聲,徐通鏘.語言學綱要[M].北京:北京大學出版社,2006.

[2] 吳思竹,錢慶,胡鐵軍,等.詞干提取方法及工具的對比分析研究[J].圖書情報工作,2012,56(15):109?115.

[3] FLORES F N, MOREIRA V P. Assessing the impact of stemming accuracy on information retrieval?a multilingual perspective [J]. Information processing & management, 2016, 52(5): 840?854.

[4] 塔依爾·阿不都外力,艾山·吾買爾,吐爾根·伊布拉音,等.基于標注詞典和規(guī)則的維吾爾文動詞詞干提取方法[J].新疆大學學報(自然科學版),2013(1):6?12.

[5] 孫漢博,馮國燦.基于改進的Porter Stemmer詞干提取與核方法的垃圾郵件過濾算法[J].計算機科學,2017,44(z1):61?67.

[6] GUPTA D, KUMAR Y R, SAJAN N. Improving unsupervised stemming by using partial lemmatization coupled with data?based heuristics for Hindi [J]. International journal of computer applications, 2012, 38(8): 1?8.

[7] 趙偉,侯宏旭,從偉,等.基于條件隨機場的蒙古語詞切分研究[J].中文信息學報,2010,24(5):31?36.

[8] 賽迪亞古麗·艾尼瓦爾,向露,宗成慶,等.融合多策略的維吾爾語詞干提取方法[J].中文信息學報,2015,29(5):204?210.

[9] 吾蘭·努魯別克,熱木土拉·麥麥提,艾斯卡爾·艾木都拉.基于N?gram模型的哈薩克詞干提取方法[J].電腦知識與技術,2017(12):160?162.

[10] 吐爾根·依布拉音,袁保社.新疆少數(shù)民族語言文字信息處理研究與應用[J].中文信息學報,2011,25(6):149?156.

[11] 哈里旦木·阿布都克里木,程勇,劉洋,等.基于雙向門限遞歸單元神經(jīng)網(wǎng)絡的維吾爾語形態(tài)切分[J].清華大學學報(自然科學版),2017(1):1?6.

[12] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2001: 282?289.

[13] 力提甫·托乎提.現(xiàn)代維吾爾語參考語法[M].北京:中國社會科學出版社,2012.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術
自動化學報(2017年7期)2017-04-18 13:41:09
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 国产日韩精品欧美一区灰| 久久久久亚洲AV成人网站软件| 免费观看国产小粉嫩喷水 | 久久99蜜桃精品久久久久小说| 少妇高潮惨叫久久久久久| 国产日韩丝袜一二三区| 亚洲人网站| 亚洲精品午夜天堂网页| 亚洲中文字幕无码爆乳| 中文字幕无码中文字幕有码在线 | 亚洲福利一区二区三区| 色网站在线免费观看| 国产成人精彩在线视频50| 亚洲日韩国产精品综合在线观看| 精品国产aⅴ一区二区三区| 成人精品视频一区二区在线| 国产成人综合日韩精品无码首页| 欧美日韩免费在线视频| 波多野结衣中文字幕一区二区 | 在线五月婷婷| 欧洲日本亚洲中文字幕| 99re在线免费视频| 玖玖免费视频在线观看| 国产美女一级毛片| 亚洲自偷自拍另类小说| 秋霞午夜国产精品成人片| 国产凹凸视频在线观看| 91九色视频网| 国产91精品久久| 欧美激情视频一区| 二级毛片免费观看全程| 成人日韩欧美| 日韩乱码免费一区二区三区| 嫩草影院在线观看精品视频| 2021国产精品自产拍在线观看| 国产美女久久久久不卡| 免费在线色| 日本成人在线不卡视频| 日本免费一区视频| 亚洲黄色高清| 为你提供最新久久精品久久综合| 亚洲天堂.com| 色婷婷亚洲十月十月色天| 国产激情无码一区二区免费 | 午夜视频免费试看| www.亚洲国产| 一本一道波多野结衣av黑人在线| 999在线免费视频| 狠狠综合久久| 亚洲午夜福利在线| 啪啪永久免费av| 日本人妻一区二区三区不卡影院| 99热这里只有成人精品国产| 一本色道久久88综合日韩精品| 无码日韩精品91超碰| 2020久久国产综合精品swag| 国产69精品久久久久妇女| 欧美日韩国产系列在线观看| 不卡无码网| 亚洲精品不卡午夜精品| 国产屁屁影院| 2020国产免费久久精品99| 2021亚洲精品不卡a| 国产亚洲精品自在久久不卡| 制服丝袜一区| 欧美97欧美综合色伦图| 久久国产精品无码hdav| 野花国产精品入口| 国产网站在线看| 91福利一区二区三区| 欧美日韩福利| 国产一区二区三区精品久久呦| 理论片一区| 国模私拍一区二区| 国产成人精品视频一区视频二区| 国产免费羞羞视频| 婷婷色婷婷| 国产va欧美va在线观看| 美女国内精品自产拍在线播放| 久久动漫精品| 欧美日韩国产成人在线观看| 国产成年女人特黄特色毛片免|