999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于最大熵的哈薩克語詞性標注模型

2013-08-04 02:23:54新疆大學信息科學與工程學院烏魯木齊830046
計算機工程與應用 2013年11期
關鍵詞:詞綴特征模型

1.新疆大學 信息科學與工程學院,烏魯木齊 830046

2.國家語言資源監測與研究中心 少數民族語言中心 哈薩克和柯爾克孜語文基地,烏魯木齊 830046

1.新疆大學 信息科學與工程學院,烏魯木齊 830046

2.國家語言資源監測與研究中心 少數民族語言中心 哈薩克和柯爾克孜語文基地,烏魯木齊 830046

1 引言

在自然語言中,詞是語言的基本單位,而詞性(POS)是詞匯最重要的特性。詞性標注是為句子中的每一個詞標注一個正確的詞性,是實現自然語言分析和理解的一個重要中間環節,此環節出現的錯誤,將在后續處理鏈中被放大。例如在機器翻譯中,詞性標注錯誤有時會導致錯誤地理解整句話。許多自然語言處理任務,如:信息抽取、信息檢索、文本分類、機器翻譯等都依賴于詞性標注的精確結果才能最終取得理想的效果[1]。

哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,是黏著語言類型;與漢語、英語等相比具有自己的特點。

2 研究現狀

詞性標注的方法有基于規則、統計以及規則與統計相結合的方法。Ratnaparkhi[2]較早展開了應用最大熵模型進行英文詞性標注的研究,使用的特征有包括每個單詞本身詞形,前面兩個詞的詞形和詞性,后面兩個詞的詞形以及單詞中是否含有數字、連字符、大寫字母等,測試的語料采取華爾街日報,取得了96.63%的標注準確率。在漢語研究方面趙巖[3]等應用最大熵模型進行了漢語的詞性標注研究,使用的特征有包括每個單詞本身詞形,前面兩個詞的詞形和詞性、后面兩個詞的詞形以及詞的前綴、后綴、重疊詞等,在《人民日報》語料庫上進行了大規模測試,詞性標注的準確率均在96%以上。在哈薩克語詞性標注研究方面,達吾勒等[4]使用基于規則的詞性標注,準確率為74%。劉艷等[5]使用統計與規則結合的方法進行了探索,其中的統計方法使用了隱馬爾科夫模型(HMM),封閉測試準確率達到了86%。侯呈風[6]使用了改進的HMM,封閉測試準確率達到86.8%,開放式測試的準確率為81.4%。本文基于最大熵的方法構建哈薩克語詞性標注模型,在封閉與開放測試中準確率分別達到了96.8%和86.1%。

3 基于最大熵的詞性標注模型

3.1 最大熵模型原理

最大熵模型(Maximum Entropy,ME)的工作原理是,對未知部分的知識,不做任何假設,選取符合這些知識使熵值取最大的概率分布。熵是對一個隨機變量的不確定性的定義,熵最大的時候對應的隨機變量最不確定。最大熵原理的實質:在已知部分知識的前提下,符合已知知識最不確定或最隨機的推斷就是對未知部分最合理的推斷,這是可以做出的唯一最接近事物真實狀態的選擇,對于任何其他的選擇,都意味著增加了其他的約束和假設條件。

最大熵模型能把各種不同的特征在同一個框架中刻畫出來,并且不需要特征的獨立性假設,能夠對文本中的上下文信息有效地利用,根據己有的事實提取表達特定任務的特征集合,在有效的約束條件下可以得到與訓練數據一致的概率分布,該模型已廣泛應用于分類問題的處理中。

3.2 最大熵模型框架

形式化描述最大熵模型:隨機過程所有輸出的值構成一個有限集,設為Y,對于每個輸出結果 y∈Y,輸出的結果都受到上下文x的影響,x屬于有限集X。對于自然語言處理的許多問題都可以這樣來描述,對于哈語詞性標注任務來說,x表示待標注詞上下文的環境,y表示輸出結果屬于所有的詞性標記集合Y,實現的任務是:在實例或上下文x的條件下,構造一個模型,能精確地估計出分類標記結果 y出現的概率即P(y/x)。所有的條件概率分布的集合用P來表示,那么對P(y/x)就是P的一個元素。但是對于所有可能的(x,y),要做到完全精確地確定P(y/x)一般是不可能的,所以需要構造出一種模型,通過x和 y的統計特征,當給定上下文信息x∈X時,能夠較準確地估計出輸出y∈Y的條件概率 p(y/x)。

根據最大熵原理,p(y/x)的取值符合下面的指數模型:

fi(x,y)就是所謂的特征函數,y表示標注結果,當 x滿足特定的上下文條件時,特征值為真。

λi是特征參數,代表每個特征的重要性。Zλ(y/x)是歸一化因子,它的引入是為了保證P*(y/x)是概率,也就是。公式(1)使模型由求概率值轉化為求參數值λi,一般的估計方法是Darroch和Ratcliff[7]的通用迭代算法(Generalized Iterative Scaling,GIS),用來得到具有最大熵分布的所有參數值λi。Pietra等[8]則描述了一個改進的迭代算法IIS。

3.3 最大熵模型的特征表示

最大熵模型的關鍵在于如何針對特定的任務,為模型選取特征集合。采用簡單的特征表示復雜的語言現象,承認已有的可觀察到的事實,不做任何獨立性假設,這些觀察到的事實表示為最大熵模型的特征集合。在漢語詞性標注研究中,基本上都采用基于詞的上下文特征[9]。哈薩克語與漢語、英語不同,哈語是以詞為單位,這方面像英語,但是哈薩克語具有粘著性和豐富的上下文信息,哈語詞的詞形變化要比英語豐富得多。基于哈語自身的特點,本文特征空間定義為:

詞,當前詞及其前后各一個詞。

詞干,當前詞的詞干及其前后各一個詞的詞干。

詞性,前一個詞的詞性,及后一個詞的詞性。

詞綴,由于哈語的詞綴變化較多,這里只選擇前一個詞及當前詞的最后一個詞綴。

根據這個特征空間,本文定義了模型中的模板,如表1所示。在這個表中每個模板只考慮了一種因素,稱之為原子模板。原子模板也可以看作是對于當前上下文的一個特征函數。

表1 原子特征模板

當特征函數取特定值時,則該模板被實例化,得到具體的特征。特征一般由兩部分來組成,一部分稱為條件或上下文x,另一部分則是在條件滿足時采取的行動,或稱為目標概念類y。特征值一般可以定義為下面的一個二值函數形式:

在上下文中,僅僅使用原子特征不足以表示上下文中的一些現象。故本文對表1中的各種原子模板進行了組合,構成一些復合模板來表示更復雜的上下文環境,如表2所示,由于文章篇幅,這里只列出了一部分。原子特征模板和各種復合特征模板共同構成了模型的所有特征模板,共有40種摸板。同樣,對于復合特征模板,也是首先對各個原子模板進行實例化,對模板函數取值后,輸出某種標注,從而產生一個特征,為復合特征。復合特征表示為二值特征函數的形式與原子特征相似,只是在取值時需要滿足的條件變多。

3.4 特征選擇

通過對人工標注的熟語料進行訓練,從候選特征集中提取一個數量龐大的特征集合,然而并非所有特征都適合引入到最大熵模型中,因此,需要進行特征選擇,通常選擇下面兩種辦法。

(1)基于頻數閾值的特征選擇:只保留那些頻數大于等于一定閾值k的特征。基于頻數閾值的特征選擇認為不常出現的特征是噪聲或不相關的,只有那些出現頻數大于k的特征才真正代表了數據的特性,可以選作特征。閾值k的選定與任務和數據相關,可以通過實驗來確定。多數研究者[10]通常取5,在3到20之間都可以找到較好的閾值。

(2)增量式特征選擇:使用增量法來選擇區分度最高的特征作為特征集。增量式特征選擇以特征信息的增益來判斷是否引入該特征,通過計算每一個要加入特征的增益,再從中選取增益最大的一個,并且重新計算加入該特征的最大熵分布,重復該步驟直到增益不顯著為止。

文獻[11]將方法(1)和方法(2)進行了比較:當k值選取適當時,兩種方法性能上差別不大,均有相同的召回率和準確率,但在訓練時間上,第一種方法較為簡單,訓練時間相對較短,優于第二種方法。本文采用第一種方法進行特征選取,經過反復實驗,將特征頻數的閾值定為5,表示只使用特征頻數大于5的特征。考慮到哈語的特殊性,如有的詞是合成詞,有的詞沒有詞綴(如:詞根)等,需在進行特征提取時將上下文中含有空值的特征去掉。

表2 復合特征模板

4 系統設計

基于最大熵模型的哈薩克語詞性標注系統,核心的是訓練模塊和標注模塊。

4.1 訓練模塊

圖1是訓練模塊的數據流圖。圖中的候選特征是通過特征模板從語料庫中進行的抽取;在候選特征的基礎上通過基于頻數閾值的特征選擇,只保留那些出現頻數大于等于5的特征,建立特征集。將特征結果組織好后送到最大熵工具包進行訓練,本文中選擇IIS算法進行參數估計。

圖1 訓練模塊數據流圖

4.2 標注模塊

首先進行識別之前的預處理工作,將語料組織成符合識別模塊接口標準的形式。輸入文件是經過詞干提取之后的語料,語料中包括詞、詞干、詞綴等信息。為了能提高模型的標注準確率,在語料中加入了部分詞的詞性信息:

(1)根據電子詞典能唯一確定詞性的,標注其詞性并添加一個標簽記為var=0。

(2)不能確定其唯一詞性,但是可以獲得所有可能詞性的,將這些詞性一起標注,使用#號分隔不同的詞性,并添加標簽var=1。

(3)其余的詞添加標簽var=2。

標注模塊的主要任務就是給定一個需要詞性標注的句子W=(w1,w2,…,wn),找到一個與此對應的詞性序列T= (t1,t2,…,tn), 使得

本文的算法如下:

步驟1讀入一個句子,從左向右依次標注每個哈語單詞wi,根據特征模板實例化其上下文特征向量Xi。

步驟2使用訓練階段得到的模型計算得到Xi的每個特征取值的概率P(Yi|Xi),選取概率最大的前n項作為候選詞性(這里取n等于3)。局部最優算法在這一步只是選擇概率最大的一個詞性,因此它也就沒有下面的步驟3,選擇一個概率最大的詞性標準序列。因為基于局部最優算法得出的只有一條標準序列。

步驟3依次將這n個詞性加入下一個詞的上下文特征向量中,以此類推直至句子結束。最終選出一條使P(T|W)取值最大的詞性標注序列。

5 實驗結果與分析

5.1 實驗數據

本文實驗數據來自本實驗室的現代哈薩克語綜合語料庫,它的內容來自于2008年《新疆日報》哈語版,題材涉及政治、經濟、體育、衛生、文化、藝術、娛樂等。目前該語料庫已完成詞干切分、詞綴的提取,以及部分的詞性標注。本文采用2008年1月份的已完成人工詞性標注和校對后的語料進行實驗,包含646篇文章共31 695條語句,圖2給出了一個語料的樣例。在31天的語料中1~28號的語料作為訓練語料,其余作為開放測試語料,并其在測試時從訓練集中隨機抽取3天的語料作為封閉測語料。其中pos表示單詞的詞性,stem表示單詞的詞干,affix表示單詞的附加成分,var為詞類標記符號(var為0時表示電子詞典中詞性唯一;var為1時表示兼類詞;var為2時表示人工修改的詞性)。

圖2 語料樣例

根據本階段語料庫建設的需要和訓練語料的規模,本文詞性主要包括一級詞性。具體詞性及對應的標記集見表3。

表3 哈薩克語一類詞性標注集

5.2 實驗結果

為評估本文中方法的有效性,在相同的語料上分別做了HMM及局部最優的最大熵方法的對照實驗,標注結果對比如表4所示。

表4 標注結果準確率比較 (%)

表4中(M)表示使用經過本文語料預處理所得的語料。這里的結果并未對最大熵模型在其他語言中詞性標注的結果作對比,不同的語言、不同的語料標注以及詞性標注集的大小等都會對模型的標注結果產生一定的影響,因此這里僅對本實驗室相同語料下的不同標注方法作了結果對比。由結果可以看出加入部分確定性詞性后標注準確率有了明顯的提高,這主要是因為部分詞的標注過程中可以用到后一個詞的詞性特征(如果其后一個詞的詞性是預先標注好的),這是一般最大熵模型不會用到的特征。使用本文中的標注方法后準確率相比局部最優的最大熵也有提高,本文的方法中考慮到了詞性標注序列的整體最優,當然這增加了時間復雜度,但是這里可以設置取每個詞的最優前n個詞性,既照顧了整體的最優,又不會過多地增加模型的時間、空間復雜度。

5.3 錯誤分析

由實驗數據可以看出準確率仍有很大的提升空間,經分析標注錯誤主要來自以下幾個方面:

(1)詞法分析中的錯誤產生的積累,即詞干提取、詞綴的切分錯誤在詞性標注中的影響。因為詞干、詞綴作為模型的原子特征,其中詞綴或詞干的錯誤造成了詞性標注的錯誤。

(2)專有名詞、固定詞組標注錯誤。習語、固定詞組和專有名詞的構成不完全符合語法規則而且這些詞出現次數又極少,對其中的詞標注詞性時常規特征概率較大,系統對這些詞組中的詞按一般詞進行標注,因而出現錯誤。

(3)組合詞的標注錯誤。未登錄詞在詞性標注中是一個難點,哈語中未登錄詞的一大部分是組合詞,即兩個或兩個以上的詞用下劃線連接組成新的詞如(玩笑),這些詞不能很好地確定其詞干、詞綴等,數據稀疏加上本身的特征信息又少,此類詞標注的正確率也就不高。

6 結束語

本文使用最大熵模型進行哈薩克語的詞性標注,在語料預處理中對有唯一確定詞性的詞進行了預先標注,增加了可以利用的上下文特征;改進了標注算法,在計算量不過多增長的同時考慮了詞性序列的整體最優化,提高了詞性標注的準確率。實驗結果表明開放測試的準確率仍然有很大的提高空間,原因在語料的預處理階段中,詞干、詞綴的自動切分正確率不是很高、專有名詞等未能提前處理,在接下來的工作中可以考慮從提高詞干切分的準確率、預先識別專業名詞等方面來提高整個系統的標注準確率。

[1]買合木提·買買提.基于統計的維吾爾語詞性標注研究與實現[D].烏魯木齊:新疆大學,2009.

[2]Ratnaparkhi A.A maximum entropy model for part-of-speech tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,1996:133-141.

[3]Zhao Yan,Wang Xiaolong.Applying class triggers in Chinese POS tagging based on maximum entropy model[C]// The 3rd InternationalConference on Machine Learning and Cybernetics,Shanghai,2004:1641-1645.

[4]達吾勒·阿布都哈依爾,古麗拉·阿東別克.哈薩克語詞法分析器的研究與實現[J].計算機工程與應用,2008,44(19):146-149.

[5]劉艷,古麗拉·阿東別克,伊力亞爾.哈薩克語詞性自動標注研究初探[J].計算機工程與應用,2008,44(20):242-244.

[6]侯呈風,古麗拉·阿東別克.改進的HMM應用于哈薩克語詞性標注[J].計算機工程與應用,2010,46(36):147-149.

[7]Darroch JN,RatcliffD.Generalized iterative scaling for log2 linear models[J].Analysis of Mathematical Statistics,1999,43(5):1470-1480.

[8]Pietra S D,Pietra V D,Lafferty J.Including features of random fields[J].IEEE Transactionson Pattern Analysisand Machine Intelligence,1997,19(4):380-393.

[9]Chen Jinying,Xue Nianwen,Palmer M.Using a smoothing maximum entropy model for Chinese nominal entity tagging[C]// Proceedingsofthe1st International Joint Conference on Natural Language Processing,Hainan Island,2004:493-499.

[10]RatnaparkhiA.Learning to parse naturallanguage with maximum entropy models[J].Machine Learning,1999,341(3):151-176.

[11]Berger A L,Della Pietra S A,Della Pietra V J.A maximum entropy approach to natural language processing[J]. Computational Linguistic,2002,22(1):39-71.

基于最大熵的哈薩克語詞性標注模型

桑海巖1,2,古麗拉·阿東別克1,2,牛寧寧1,2

SANG Haiyan1,2,Gulia·Altenbek1,2,NIU Ningning1,2

1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
2.The Base of Kazakh and Kirghiz Language,Minority Languages Branch,National Language Resource Monitoring and Research Center,Urumqi 830046,China

Maximum entropy model can make full use of context,agilely take multiple characteristics.This paper uses maximum entropy model to part of speech tagging of Kazakh,designs feature template according to tackiness and rich shape,and joins the backward relying part of speech feature template.In this paper,the module is improved,which takes the previous n words of highest probability to join the characteristic vector of next word and so on until the end of the sentence,and finally it selects a probability optimal sequence of part of speech tagging.The results show that feature template choice is correct,and the improved model accuracy rate reaches 96.8%.

natural language processing;part-of-speech tagging;maximum entropy model;Kazakh

最大熵模型能夠充分利用上下文,靈活取用多個特征。使用最大熵模型進行哈薩克語的詞性標注,根據哈語的粘著性、形態豐富等特點設計特征模板,并加入了向后依賴詞性的特征模板。對模型進行了改進,在解碼中取概率最大的前n個詞性分別加入下一個詞的特征向量中,以此類推直至句子結束,最終選出一條概率最優的詞性標注序列。實驗結果表明,特征模板的選擇是正確的,改進模型的準確率達到了96.8%。

自然語言處理;詞性標注;最大熵模型;哈薩克語

A

TP391

10.3778/j.issn.1002-8331.1212-0193

SANG Haiyan,Gulia·Altenbek,NIU Ningning.Kazakh part-of-speech tagging method based on maximum entropy. Computer Engineering and Applications,2013,49(11):126-129.

國家自然科學基金(No.61063025)。

桑海巖(1982—),男,碩士,研究領域為自然語言信息處理;古麗拉·阿東別克(1962—),女,教授,博士生導師,研究領域為自然語言信息處理、人工智能等;牛寧寧(1988—),女,碩士,研究領域為自然語言信息處理等。E-mail:sang_haiyan@163.com

2012-12-17

2013-03-06

1002-8331(2013)11-0126-04

猜你喜歡
詞綴特征模型
一半模型
從網絡語“X精”看“精”的類詞綴化
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
3D打印中的模型分割與打包
試析否定詞綴在漢維語中的不同表現
語言與翻譯(2014年3期)2014-07-12 10:31:56
主站蜘蛛池模板: 日韩a在线观看免费观看| 国产精品一区在线麻豆| 伊人久久精品无码麻豆精品| 亚洲啪啪网| 超碰aⅴ人人做人人爽欧美 | 亚洲综合欧美在线一区在线播放| 精品小视频在线观看| 国产人在线成免费视频| 日韩福利在线观看| 欧美三級片黃色三級片黃色1| 国产精品香蕉在线观看不卡| 国产麻豆福利av在线播放| 中文字幕亚洲综久久2021| 欧美视频在线不卡| 国产电话自拍伊人| 免费看美女自慰的网站| 在线日韩日本国产亚洲| 自拍欧美亚洲| 欧美在线精品一区二区三区| 素人激情视频福利| 精品国产美女福到在线直播| 亚洲伊人天堂| 国产欧美日韩另类| 91网红精品在线观看| 99热最新网址| 国产精品视频导航| 亚洲精品成人福利在线电影| 国产永久在线观看| 一区二区三区精品视频在线观看| 亚洲一区二区在线无码| 婷婷综合在线观看丁香| 国产成人精品免费视频大全五级| 国产一级视频久久| 亚洲精品无码久久毛片波多野吉| 亚洲AV电影不卡在线观看| 国产美女人喷水在线观看| 九九久久精品国产av片囯产区| 免费又黄又爽又猛大片午夜| 99久久精品无码专区免费| 韩日午夜在线资源一区二区| 亚洲综合亚洲国产尤物| 2021国产乱人伦在线播放| 亚洲首页在线观看| 欧美日韩精品在线播放| 成人国产免费| 好吊妞欧美视频免费| 原味小视频在线www国产| 专干老肥熟女视频网站| 欧美日韩v| 亚洲a级毛片| 日韩国产高清无码| 亚洲欧美日韩成人高清在线一区| 国产99精品久久| 综合久久五月天| 亚洲天堂网2014| 久久久久无码精品| www.精品视频| 日韩东京热无码人妻| 2021国产精品自产拍在线| 日韩东京热无码人妻| 在线高清亚洲精品二区| 丁香五月婷婷激情基地| 狠狠操夜夜爽| 亚洲欧洲日产国产无码AV| 亚洲欧美一区在线| 欧美激情综合| 国产在线视频欧美亚综合| 一级毛片免费播放视频| 在线观看免费国产| 欧美一级特黄aaaaaa在线看片| 黑人巨大精品欧美一区二区区| 欧美精品在线视频观看| 天天干天天色综合网| 亚洲综合九九| 一区二区三区四区日韩| 一本大道视频精品人妻 | www成人国产在线观看网站| 在线看AV天堂| 久久国产毛片| 国产啪在线91| 成人国产精品2021| 亚洲aaa视频|