999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文詞性自動標注中歧義問題處理方法研究

2013-07-20 02:34:14羊毛卓瑪
計算機工程與應用 2013年24期
關鍵詞:規則

羊毛卓瑪

青海師范大學民族師范學院,青海海南 813000

藏文詞性自動標注中歧義問題處理方法研究

羊毛卓瑪

青海師范大學民族師范學院,青海海南 813000

1 引言

藏文詞性自動標注是藏文信息處理技術中的一項基礎性課題,它的研究成果不僅為機器翻譯、搜索引擎、網絡信息安全等諸多領域的研究奠定基礎;也是藏文信息后續句法分析、語義分析及篇章分析必不可少的前提條件。藏文詞性標注的研究是自然語言理解智能化的一項重要工作。因此,研究和實現藏文詞性自動標注系統具有重要的理論意義和實用價值。

藏文詞性自動標注的重點和難點是詞性歧義問題的處理,即兼類詞的處理問題。所謂兼類詞在理論上指的是有些詞具有兩類或兩類以上詞的句法分布特征,這些詞將屬于不同的詞類,簡稱兼類[1]。兼類詞是影響藏文詞性自動標注的關鍵因素,也是自然語言處理中難以解決的棘手問題及語法界存在爭論的焦點問題。據對藏文中常用的詞典《藏漢大辭典》[2]、《新編藏文詞典》[3]和《藏文動詞詞典》[4]合并去重后精選七萬余詞條完成詞性標注統計,其中兼類詞有23 623個,約占總詞數的32.36%。據對12萬余字的人工標注語料統計,兼類詞出現詞次為60 481個,約占語料總詞數的49.17%。數據表明:在藏文中兼類詞數量較多,且常用詞兼類現象嚴重。這給藏文詞性標注及藏文信息處理后續的工作帶來了一定的難度。所以藏文詞性標注的關鍵是解決兼類詞問題。該文在基于HMM統計方法[5]的基礎上提出了符合藏文語法規則實用于藏文詞性標注的詞性排岐處理方法。有效地提高了藏文詞性標注正確率。

2 藏文中兼類詞現象

在藏文中,詞性的兼類現象普遍存在,尤其是常用詞的兼類現象給藏文詞性標注帶來了很大困難。在12萬余字的標注語料中對藏文兼類詞特點及現象作了具體的分析。比如(例子來源《藏漢大辭典》):

根據對文中使用的詞庫和語料的統計,藏文中兼類詞的分布情況如表1~表3所示。

表1 藏文兼類詞現象統計

表2 藏文兼類詞所占比例

表3 藏文中兼兩類詞示例

從表2數據可知,藏文兼類詞中,兼兩種詞性的兼類詞占多數,所占比例如表3(本文采用的詞性標記集[6])。

通過以上分析可以發現:藏文本中兼類詞的數量較多,尤其常用詞的兼類現象嚴重,對后續句法分析造成直接的影響。隨著藏文信息處理的不斷研究,尤其是機器翻譯正在深入研究,兼類詞是一個無法回避的重點和難點問題,詞性是一個詞的最重要的語法信息,如果一個詞的詞性無法確定,句法分析就無法進行,如果一個詞賦予錯誤的詞性,將導致嚴重的句法分析錯誤,所以,兼類詞的處理在自然語言處理中有至關重要的意義。

3 藏文詞性標注中歧義問題的處理

3.1 詞綴造成的詞性歧義問題

藏文本中后接成分(文獻[7]中有詳細介紹)具有較高出現頻率且組詞能力極強,引用范圍也廣,又不能一一收入詞典。在藏文詞性自動標注處理中出現了“詞綴單切”現象。導致了標注結果的正確率下降。該文結合藏文語法知識特點解決了藏文詞性自動標注中藏文后接成分的處理問題。

圖1 專職詞識別流程圖

圖2 形容詞識別流程圖

3.2 詞的義項功能造成的詞性歧義問題

規則處理的基本思想是利用上下文框架規則描述在特定的語境下一個多類詞到底應標上什么詞性標記,這里的語境包括詞語信息、詞類信息甚至還有某個詞語的特征信息[8]。

藏文中虛詞出現的頻率很高且兼類現象嚴重。多數虛詞具有嚴格的語法規則與上下文關聯,根據此特點,可以設置規則完成對其排岐處理。

圖3 “”等識別流程圖

具體算法實現如下:

(1)讀取文本,進行分詞;

(3)查兼類詞庫JLDictionary,如果找到轉(4);否則轉(6);

(6)標記為未登錄詞(暫不研究);

(7)賦予兼類詞庫FJLDictionary中相應的詞性;

(8)標注為名詞n;

(9)輸出結果。

4 實驗結果

本文以藏文文學、民俗、網頁新聞,五省區中小學藏文教材為取材,整理后精選12萬余字語料完成人工標注,作為統計數據的來源,分析了藏文詞性標注中兼類詞的特點,并提出了解決兼類詞的方法。為了更好地評價藏文詞性自動標注的性能,本文采用詞性標注正確率=(標注結果正確詞數/語料總詞數)×100%進行計算。實驗結果如表4所示。

表4 藏文詞性自動標注算法比較結果

本文提出的算法使藏文詞性標注正確率在原有的基礎上提高了1.83%,證明了本文算法的實用性。

5 結束語

藏文自動詞性標注中詞性歧義問題的解決對藏文詞性自動標注正確率起著重要的作用。本文通過藏文詞綴歸并后標注等規則結合統計方法處理了藏文中出現頻率高的兼類詞排岐處理,提高了藏文詞性自動標注的正確率,為進一步研究藏文信息處理后續的句法分析、語義分析、篇章分析奠定了基礎。

[1]黃德根,張麗靜.規則與統計相結合的兼類詞處理機制[J].小型微型計算機系統,2003(7).

[2]張怡蓀.藏漢大辭典[M].北京:民族出版社,1993.

[3]編寫組.新編藏文字典[M].西寧:青海民族出版社,2005.

[4]李永昌.藏文動詞詞典[M].北京:民族出版社,2005.

[5]羊毛卓瑪.藏文詞性自動標注系統的研究與實現[D].拉薩:西藏大學,2012.

[6]扎西加,歐珠,高定國,等.信息處理用藏語詞類標記集規范[S].拉薩:西藏大學工學院,2007.

[7]羊毛卓瑪,高定國.藏文自動分詞中未登錄詞處理方法研究[J].計算機工程,2012(18).

[8]周強.規則和統計相結合的漢語詞類標注方法[J].中文信息學報,1995(3).

[9]格桑居冕.實用藏文文法教程[M].成都:四川民族出版社,2004:258-270.

Yangmo Droma

School of National Teachers,Qinghai Normal University,Hainan,Qinghai 813000,China

Tibetan language Part-Of-Speech(POS)tagging is the subsequent parsing of Tibetan language information processing. POS tagging is an essential foundation work for semantic analysis and text analysis.POS ambiguity problem solving is the key to Tibetan POS tagging,is also one of the difficulties in the Tibetan automatic POS tagging.This paper analyzes and studies POS ambiguity problem in the Tibetan POS tagging,and puts forward a method of solving POS ambiguity problem suitable for Tibetan grammar rules.Experiments prove that this method on speech disambiguation in the Tibetan POS tagging has achieved better results and has definitely increased the accuracy of the Tibetan POS tagging.

Tibetan information processing;affix;Part Of Speech(POS);automatic tagging;Part Of Speech disambiguation

藏文詞性自動標注是藏文信息處理后續句法分析、語義分析及篇章分析必不可少的基礎工作。詞性歧義問題的處理是藏文詞性自動標注的關鍵所在,也是藏文信息處理的難點問題。對藏文詞性標注中詞性歧義問題進行了分析研究,提出了符合藏文語法規則實用于藏文詞性標注的解決詞性排岐方法。實驗證明:該處理方法在藏文詞性自動標注中對詞性排岐方面有較好的效果,使藏文詞性標注正確率有了一定的提高。

藏文信息處理;詞綴;詞性;自動標注;詞性排岐

A

TP311

10.3778/j.issn.1002-8331.1204-0294

Yangmo Droma.Study on method of solving ambiguity in Tibetan part of speech tagging.Computer Engineering and Applications,2013,49(24):135-137.

國家自然科學基金(No.61063015);教育部“長江學者與創新團隊發展計劃”藏文信息技術創新團隊項目(No.IRT0975)。

羊毛卓瑪(1978—),女,講師,主要研究方向:藏文信息處理。E-mail:yangmaozhuoma@163.com

2012-04-17

2012-07-25

1002-8331(2013)24-0135-03

CNKI出版日期:2012-08-08http://www.cnki.net/kcms/detail/11.2127.TP.20120808.0938.010.html

◎圖形圖像處理◎

猜你喜歡
規則
拼寫規則歌
撐竿跳規則的制定
數獨的規則和演變
依據規則的推理
法律方法(2019年3期)2019-09-11 06:26:16
善用首次銷售規則
中國外匯(2019年7期)2019-07-13 05:44:52
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
顛覆傳統規則
環球飛行(2018年7期)2018-06-27 07:26:14
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
啦啦操2010—2013版與2013—2016版規則的對比分析
運動(2016年6期)2016-12-01 06:33:42
主站蜘蛛池模板: a天堂视频| 狂欢视频在线观看不卡| 国产一级做美女做受视频| 午夜欧美在线| 日韩不卡免费视频| 久久精品午夜视频| 亚洲一区二区约美女探花| 国产麻豆福利av在线播放| 最新无码专区超级碰碰碰| 国产AV毛片| 亚洲精品色AV无码看| 91破解版在线亚洲| 欧美成人精品高清在线下载| 国产精品国产主播在线观看| 欧美性久久久久| 亚洲人妖在线| 四虎在线观看视频高清无码| 999国产精品永久免费视频精品久久 | 日韩av无码精品专区| 亚洲资源站av无码网址| a级高清毛片| 久久成人免费| 亚洲无码高清一区二区| 久久精品免费看一| 国产人免费人成免费视频| 小蝌蚪亚洲精品国产| 久久国产成人精品国产成人亚洲| 好吊色妇女免费视频免费| 黄色成年视频| 国产乱码精品一区二区三区中文 | 免费无码AV片在线观看中文| 特级精品毛片免费观看| 国产jizz| 亚洲国产欧美国产综合久久 | 国产高清不卡| 亚洲欧美在线看片AI| 四虎成人在线视频| 国产91小视频在线观看| AV熟女乱| 亚洲香蕉伊综合在人在线| 国产欧美日韩在线在线不卡视频| 成人av手机在线观看| 国产精品美女网站| 2020最新国产精品视频| 国内精品久久久久鸭| 亚洲人成人伊人成综合网无码| 国产无遮挡猛进猛出免费软件| 夜夜拍夜夜爽| 国产一区二区三区免费| 欧美色99| 亚洲色欲色欲www在线观看| 亚洲永久色| 国产大全韩国亚洲一区二区三区| 香蕉在线视频网站| 国产激情无码一区二区APP| 亚洲欧美日韩中文字幕在线| 欧美成人精品一级在线观看| 无码国产伊人| 午夜国产大片免费观看| 中文字幕乱码中文乱码51精品| 青青青国产免费线在| 嫩草国产在线| 日本人妻一区二区三区不卡影院 | 成人福利在线视频| 精品撒尿视频一区二区三区| 丁香亚洲综合五月天婷婷| 58av国产精品| 真实国产精品vr专区| 国产精品第页| 亚洲黄色成人| 色亚洲激情综合精品无码视频| AV天堂资源福利在线观看| 中文天堂在线视频| 国产免费好大好硬视频| 在线国产资源| 在线免费观看a视频| 毛片一区二区在线看| 亚洲视频免费播放| 91九色视频网| 亚洲性一区| 欧日韩在线不卡视频| 91丨九色丨首页在线播放|