999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規則的維吾爾語命名實體識別研究

2015-09-19 09:47:13于光磊徐毅馬明達俞珍珍米克然阿依·艾爾肯
中國科技縱橫 2015年15期

于光磊 徐毅 馬明達 俞珍珍 米克然阿依·艾爾肯

【摘 要】命名實體(Named Entity, NE)是指文本中承載著人名、地名、組織機構名等重要信息的詞語。命名實體識別(Named Entity Recognition, NER)是指在正確理解文本意義的基礎上,對文本中的命名實體進行識別,并按照其類型進行歸類。本次主要是基于對維吾爾語中的人名、地名進行研究,通過此次的研究,能夠使更多的人了解到維吾爾語,同時對了解維吾爾族人民的文化也起到積極的作用。維吾爾族語言中的人名、地名等都有相關的特征詞,通過特征詞能夠迅速而有效的找出文本中的人名、地名等信息,所以此次研究的方法主要依據基于規則的方法。

【關鍵詞】命名實體 命名實體識別 特征詞

1 引言

從研究范圍方面來說,早期的命名實體識別研究主要集中在西方國家,以研究英文為主。1995年后學者開始了對中文、德文、日文等語言的研究。中國在中文命名實體識別研究上取得了較好成績,并且展開了對少數民族語言如維語、蒙語等語言的命名實體的研究。

本次的研究目的在于通過該軟件對我國少數名族中的維語能夠起到一個推動的作用,使更多的人能夠了解維語,同時在閱讀維語文章中能夠快速找到該文章的人名,地名,組織機構等重要信息,對閱讀者起到一個非常重要的幫助。

2系統的設計與實現

2.1系統設計功能及實現原理

命名實體識別過程中,通過信息檢索,在一篇文章中能夠快速找到有用的信息。此次研究,主要針對數字,人名,地名等信息,由此,該系統的設計功能主要分為以下七大模塊:

(1)分詞功能:通過分詞功能,把讀取的文本數據進行分詞,方便取詞和查找人名地名時進行詞與詞之間的比對。

(2)數字識別:通過程序的控制,對數字進行直接的判斷,從而找出文本信息中出現的數字以及數字出現的位置;

(3)人名識別:在維語命名中,人們習慣把名字命名為具有一定寓意的詞語。因此,在人名中,我們提前建立一個人名數據詞庫,通過查找那些具有一定寓意的詞語,把它們總結起來進行錄入,然后通過分詞功能把文章中的每個詞語進行讀取和比對,再加上句子的語法構成結構,從而判斷該詞是否屬于人名,如果文章中出現過的人名不在數據庫中,那么我們需要手動錄入該詞,使該詞保存到數據庫中,以便在下次使用中出現該詞語時會自動識別為人名。

(4)地名識別:地名識別的方法類似于人名的識別方法,不同的是,地名的詞語組成種類比較多,可分為以下四種:①單個詞語組成地名;②由地名首詞語+規則詞共同組成地名;③由地名首詞語+中間詞+規則詞共同組成地名;④多個連續地名組成一個特定地名;

通過程序的判斷,得出該詞屬于哪一種地名構成的結構,從而得出一個較為完整和準確的地名。

(5)詞語添加:在使用的期間,用戶會發現有的人名或是地名在數據庫中沒有存在,那么為了下次使用時能夠判斷該詞屬于人名或是地名,我們需要手動的進行錄入,因此該軟件系統具有添加信息的功能。

(6)文本讀取:在如此多的文本格式中,需要對多種文本格式的支持,例如.txt,.doc等;

(7)編輯功能:編輯為文本提供常見的文本編輯功能,例如字號、顏色的設置、查找、選擇、導入/導出等功能。

2.2系統技術支持

后臺技術:通過Java語言的控制與判斷,實現對文本的讀取,同時找出文本中的所要的信息,包括數字、人名、地名等。

前臺技術:通過Java中的Swing組件與AWT組件,完成對前臺可視化的編輯,從而有一個更好的用戶體驗。

數據庫技術:MySql數據庫是一個小型的,用戶數量最多、最廣的數據庫,因此,此系統通過MySql數據庫進行數據存儲,同時還能夠方便、快捷的對數據進行操作。

3系統識別結果與分析

對系統的識別性能評估,我們用:準確率(P),召回率(R),綜合指標(F)值3個評測指標,其識別結果如表1,表2所示。

通過數據可以看出,我們這次完成的軟件系統對維語識別的正確率是很高的,但是還有好多的沒有識別出來,原因是數據庫中所存儲的人名、地名有限,我們不能完完整整的把所有數據都保存在數據庫中,只能通過后期的不斷應用,不斷的添加數據,完善自己的數據。對于這些問題,我們今后會對其改進,使正確率更高,更能有效地幫助人們在閱讀維語文章中找到有用的信息。

4 結語

通過此次實驗研究,我們不但完成了軟件系統的功能實現,還對維吾爾語的語言特點以及人名、地名構成規則進行了深入研究,總結出維語人名、地名中的規則。與此同時,我們還建立了維語人名詞典庫和地名詞典庫,通過詞典庫中的信息,能夠在使用軟件時,快速而有效地找出文本中存在的人名、地名。

參考文獻:

[1] 劉群.機器翻譯研究新進展[J].當代語言學,2009,02:147-158+190.

[2] 鄧尚民,孫玉偉.信息抽取系統的研究現狀[J].現代圖書情報術,2006

[3] 張小衡,王玲玲.中文機構名稱的識別與分析[J].中文信息學報,1997

[4] Dimitra Farmakiotou, Vangelis Karkaletsis, et al. Rule-based named entity recognition for Greek financial texts[C]//Proc. of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000). 2000: 75-78.

主站蜘蛛池模板: 色偷偷一区二区三区| 国产精品毛片一区| 2021国产精品自拍| 久久天天躁狠狠躁夜夜躁| 亚洲欧美在线看片AI| 老司机午夜精品网站在线观看| 久久中文电影| 色成人综合| 国产精品吹潮在线观看中文| 欧美激情成人网| 中国毛片网| 亚洲国产亚综合在线区| 97国产一区二区精品久久呦| 国产色婷婷| 国产美女视频黄a视频全免费网站| 色综合久久88| 欧美国产在线精品17p| 国产女人在线| 午夜天堂视频| 国产精品第一区在线观看| 一级成人a毛片免费播放| 69av免费视频| 日韩免费无码人妻系列| a欧美在线| 狠狠ⅴ日韩v欧美v天堂| 波多野结衣无码中文字幕在线观看一区二区 | 91久久偷偷做嫩草影院电| 沈阳少妇高潮在线| 国产在线视频欧美亚综合| 欧美三級片黃色三級片黃色1| 久久99热66这里只有精品一| 日韩精品资源| 亚洲一区二区精品无码久久久| 97精品国产高清久久久久蜜芽| 亚洲国产精品成人久久综合影院| 亚洲AⅤ综合在线欧美一区 | 国产乱人视频免费观看| 四虎成人精品| 中文字幕一区二区人妻电影| 亚洲欧美成人网| 九九这里只有精品视频| 一级毛片在线播放免费| 99精品免费在线| 福利在线免费视频| 狠狠v日韩v欧美v| 亚洲天堂免费| 免费无码AV片在线观看国产| 久久精品aⅴ无码中文字幕| 精品成人一区二区| 久久国产精品无码hdav| 天天视频在线91频| 91成人在线免费视频| 在线观看欧美国产| 日本五区在线不卡精品| 国产真实自在自线免费精品| 久久99国产精品成人欧美| 国产女人爽到高潮的免费视频 | 精品综合久久久久久97超人| 国产成人你懂的在线观看| 欧美日韩亚洲国产| 亚洲第一黄片大全| 午夜高清国产拍精品| 国产精品无码在线看| 成人在线不卡视频| 91精品国产一区自在线拍| 日韩美女福利视频| 日韩午夜福利在线观看| av无码一区二区三区在线| 亚洲av片在线免费观看| 最新国产精品第1页| 国产制服丝袜91在线| 亚洲国产精品无码久久一线| 极品尤物av美乳在线观看| 国产精品网址在线观看你懂的| 99热这里只有精品免费国产| 色屁屁一区二区三区视频国产| 国产精品成人观看视频国产 | 香蕉伊思人视频| 97成人在线视频| 91精品情国产情侣高潮对白蜜| 精品视频一区二区三区在线播| 欧美人与牲动交a欧美精品 |