999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規(guī)則的維吾爾語(yǔ)命名實(shí)體識(shí)別研究

2015-10-31 11:03:17于光磊徐毅馬明達(dá)俞珍珍米克然阿依艾爾肯
中國(guó)科技縱橫 2015年15期
關(guān)鍵詞:數(shù)據(jù)庫(kù)文本信息

于光磊 徐毅 馬明達(dá) 俞珍珍 米克然阿依·艾爾肯

(大連民族大學(xué)理學(xué)院,遼寧大連 116600)

基于規(guī)則的維吾爾語(yǔ)命名實(shí)體識(shí)別研究

于光磊徐毅馬明達(dá)俞珍珍米克然阿依·艾爾肯

(大連民族大學(xué)理學(xué)院,遼寧大連116600)

命名實(shí)體(Named Entity, NE)是指文本中承載著人名、地名、組織機(jī)構(gòu)名等重要信息的詞語(yǔ)。命名實(shí)體識(shí)別(Named Entity Recognition,NER)是指在正確理解文本意義的基礎(chǔ)上,對(duì)文本中的命名實(shí)體進(jìn)行識(shí)別,并按照其類型進(jìn)行歸類。本次主要是基于對(duì)維吾爾語(yǔ)中的人名、地名進(jìn)行研究,通過(guò)此次的研究,能夠使更多的人了解到維吾爾語(yǔ),同時(shí)對(duì)了解維吾爾族人民的文化也起到積極的作用。維吾爾族語(yǔ)言中的人名、地名等都有相關(guān)的特征詞,通過(guò)特征詞能夠迅速而有效的找出文本中的人名、地名等信息,所以此次研究的方法主要依據(jù)基于規(guī)則的方法。

命名實(shí)體命名實(shí)體識(shí)別特征詞

1 引言

從研究范圍方面來(lái)說(shuō),早期的命名實(shí)體識(shí)別研究主要集中在西方國(guó)家,以研究英文為主。1995年后學(xué)者開始了對(duì)中文、德文、日文等語(yǔ)言的研究。中國(guó)在中文命名實(shí)體識(shí)別研究上取得了較好成績(jī),并且展開了對(duì)少數(shù)民族語(yǔ)言如維語(yǔ)、蒙語(yǔ)等語(yǔ)言的命名實(shí)體的研究。

本次的研究目的在于通過(guò)該軟件對(duì)我國(guó)少數(shù)名族中的維語(yǔ)能夠起到一個(gè)推動(dòng)的作用,使更多的人能夠了解維語(yǔ),同時(shí)在閱讀維語(yǔ)文章中能夠快速找到該文章的人名,地名,組織機(jī)構(gòu)等重要信息,對(duì)閱讀者起到一個(gè)非常重要的幫助。

2 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2.1系統(tǒng)設(shè)計(jì)功能及實(shí)現(xiàn)原理

命名實(shí)體識(shí)別過(guò)程中,通過(guò)信息檢索,在一篇文章中能夠快速找到有用的信息。此次研究,主要針對(duì)數(shù)字,人名,地名等信息,由此,該系統(tǒng)的設(shè)計(jì)功能主要分為以下七大模塊:

(1)分詞功能:通過(guò)分詞功能,把讀取的文本數(shù)據(jù)進(jìn)行分詞,方便取詞和查找人名地名時(shí)進(jìn)行詞與詞之間的比對(duì)。

(2)數(shù)字識(shí)別:通過(guò)程序的控制,對(duì)數(shù)字進(jìn)行直接的判斷,從而找出文本信息中出現(xiàn)的數(shù)字以及數(shù)字出現(xiàn)的位置。

(3)人名識(shí)別:在維語(yǔ)命名中,人們習(xí)慣把名字命名為具有一定寓意的詞語(yǔ)。因此,在人名中,我們提前建立一個(gè)人名數(shù)據(jù)詞庫(kù),通過(guò)查找那些具有一定寓意的詞語(yǔ),把它們總結(jié)起來(lái)進(jìn)行錄入,然后通過(guò)分詞功能把文章中的每個(gè)詞語(yǔ)進(jìn)行讀取和比對(duì),再加上句子的語(yǔ)法構(gòu)成結(jié)構(gòu),從而判斷該詞是否屬于人名,如果文章中出現(xiàn)過(guò)的人名不在數(shù)據(jù)庫(kù)中,那么我們需要手動(dòng)錄入該詞,使該詞保存到數(shù)據(jù)庫(kù)中,以便在下次使用中出現(xiàn)該詞語(yǔ)時(shí)會(huì)自動(dòng)識(shí)別為人名。

(4)地名識(shí)別:地名識(shí)別的方法類似于人名的識(shí)別方法,不同的是,地名的詞語(yǔ)組成種類比較多,可分為以下四種:①單個(gè)詞語(yǔ)組成地名;②由地名首詞語(yǔ)+規(guī)則詞共同組成地名;③由地名首詞語(yǔ)+中間詞+規(guī)則詞共同組成地名;④多個(gè)連續(xù)地名組成一個(gè)特定地名。

通過(guò)程序的判斷,得出該詞屬于哪一種地名構(gòu)成的結(jié)構(gòu),從而得出一個(gè)較為完整和準(zhǔn)確的地名。

(5)詞語(yǔ)添加:在使用的期間,用戶會(huì)發(fā)現(xiàn)有的人名或是地名在數(shù)據(jù)庫(kù)中沒(méi)有存在,那么為了下次使用時(shí)能夠判斷該詞屬于人名或是地名,我們需要手動(dòng)的進(jìn)行錄入,因此該軟件系統(tǒng)具有添加信息的功能。

(6)文本讀取:在如此多的文本格式中,需要對(duì)多種文本格式的支持,例如.txt,.doc等。

表1 人名識(shí)別結(jié)果統(tǒng)計(jì)表

表2 地名識(shí)別結(jié)果統(tǒng)計(jì)表

(7)編輯功能:編輯為文本提供常見的文本編輯功能,例如字號(hào)、顏色的設(shè)置、查找、選擇、導(dǎo)入/導(dǎo)出等功能。

2.2系統(tǒng)技術(shù)支持

后臺(tái)技術(shù):通過(guò)Java語(yǔ)言的控制與判斷,實(shí)現(xiàn)對(duì)文本的讀取,同時(shí)找出文本中的所要的信息,包括數(shù)字、人名、地名等。

前臺(tái)技術(shù):通過(guò)Java中的Swing組件與AWT組件,完成對(duì)前臺(tái)可視化的編輯,從而有一個(gè)更好的用戶體驗(yàn)。

數(shù)據(jù)庫(kù)技術(shù):MySql數(shù)據(jù)庫(kù)是一個(gè)小型的,用戶數(shù)量最多、最廣的數(shù)據(jù)庫(kù),因此,此系統(tǒng)通過(guò)MySql數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ),同時(shí)還能夠方便、快捷的對(duì)數(shù)據(jù)進(jìn)行操作。

3 系統(tǒng)識(shí)別結(jié)果與分析

對(duì)系統(tǒng)的識(shí)別性能評(píng)估,我們用:準(zhǔn)確率(P),召回率(R),綜合指標(biāo)(F)值3個(gè)評(píng)測(cè)指標(biāo),其識(shí)別結(jié)果如表1,表2所示。

通過(guò)數(shù)據(jù)可以看出,我們這次完成的軟件系統(tǒng)對(duì)維語(yǔ)識(shí)別的正確率是很高的,但是還有好多的沒(méi)有識(shí)別出來(lái),原因是數(shù)據(jù)庫(kù)中所存儲(chǔ)的人名、地名有限,我們不能完完整整的把所有數(shù)據(jù)都保存在數(shù)據(jù)庫(kù)中,只能通過(guò)后期的不斷應(yīng)用,不斷的添加數(shù)據(jù),完善自己的數(shù)據(jù)。對(duì)于這些問(wèn)題,我們今后會(huì)對(duì)其改進(jìn),使正確率更高,更能有效地幫助人們?cè)陂喿x維語(yǔ)文章中找到有用的信息。

4 結(jié)語(yǔ)

通過(guò)此次實(shí)驗(yàn)研究,我們不但完成了軟件系統(tǒng)的功能實(shí)現(xiàn),還對(duì)維吾爾語(yǔ)的語(yǔ)言特點(diǎn)以及人名、地名構(gòu)成規(guī)則進(jìn)行了深入研究,總結(jié)出維語(yǔ)人名、地名中的規(guī)則。與此同時(shí),我們還建立了維語(yǔ)人名詞典庫(kù)和地名詞典庫(kù),通過(guò)詞典庫(kù)中的信息,能夠在使用軟件時(shí),快速而有效地找出文本中存在的人名、地名。

[1]劉群.機(jī)器翻譯研究新進(jìn)展[J].當(dāng)代語(yǔ)言學(xué),2009,02:147-158+190.

[2]鄧尚民,孫玉偉.信息抽取系統(tǒng)的研究現(xiàn)狀[J].現(xiàn)代圖書情報(bào)術(shù),2006.

[3]張小衡,王玲玲.中文機(jī)構(gòu)名稱的識(shí)別與分析[J].中文信息學(xué)報(bào),1997.

[4]Dimitra Farmakiotou, Vangelis Karkaletsis, et al. Rule-based named entity recognition for Greek financial texts[C]//Proc. of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000). 2000: 75-78.

猜你喜歡
數(shù)據(jù)庫(kù)文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會(huì)信息
如何快速走進(jìn)文本
主站蜘蛛池模板: 91欧美在线| 国产女人18毛片水真多1| 国产日本视频91| 亚洲香蕉久久| 亚洲欧美不卡中文字幕| 国内精品一区二区在线观看| 狠狠色综合网| 四虎AV麻豆| 久久黄色视频影| 国产精品尤物铁牛tv| 国产亚洲欧美日韩在线一区二区三区| 91 九色视频丝袜| 毛片在线看网站| 色婷婷色丁香| 四虎成人精品| 亚洲天堂久久| 精品国产电影久久九九| 另类综合视频| 国产人妖视频一区在线观看| 欧美笫一页| 国产网站在线看| 日韩不卡高清视频| 久久伊人操| 亚洲天堂视频在线观看| 国产精品一区二区国产主播| 亚洲 欧美 中文 AⅤ在线视频| 2021国产v亚洲v天堂无码| 亚洲人成网18禁| 欧美日韩一区二区在线播放| 久久综合色视频| 久久夜色撩人精品国产| 亚洲人成网址| 丰满人妻久久中文字幕| 天堂网亚洲系列亚洲系列| 国产91无码福利在线| 国产精品无码作爱| 天天色天天综合| 日本日韩欧美| 国产丝袜无码精品| 欧美人人干| 国产尤物在线播放| 男女男精品视频| 一区二区自拍| 少妇露出福利视频| 精品中文字幕一区在线| 91年精品国产福利线观看久久| 亚洲欧洲一区二区三区| 亚洲国产精品无码AV| 无码aaa视频| 欧美精品不卡| 国产精品流白浆在线观看| 国产欧美综合在线观看第七页| 免费三A级毛片视频| 亚洲国产成人久久精品软件| 欧美日韩北条麻妃一区二区| 91在线无码精品秘九色APP| 99伊人精品| 国产成a人片在线播放| 亚洲日韩国产精品无码专区| 欧美色综合网站| 国产女人在线| 欧美日韩高清在线| 91免费国产高清观看| 在线观看欧美国产| www.亚洲色图.com| 91精品免费高清在线| 国产一级毛片高清完整视频版| 福利视频一区| 97超爽成人免费视频在线播放| 国产免费羞羞视频| 国产精品网拍在线| 婷婷成人综合| 中文字幕在线观| 亚洲综合色婷婷中文字幕| 亚洲人成网址| 国产人成在线观看| 国产正在播放| a毛片在线| 欧美中文字幕在线视频| 免费a级毛片视频| 国产激情无码一区二区APP| 波多野结衣久久高清免费|