999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

命名實(shí)體識(shí)別研究發(fā)展綜述

2016-05-30 11:26:40周玉新
科技風(fēng) 2016年16期

周玉新

摘 要:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和極大普及,以及相關(guān)領(lǐng)域研究的不斷深入,可用信息資源得到了極大豐富。人們迫切需要從海量的非結(jié)構(gòu)化文本中獲取有用的信息。在這一背景下,信息抽取技術(shù)應(yīng)運(yùn)而生。命名實(shí)體識(shí)別自誕生之日起,就被看作信息抽取系統(tǒng)的一個(gè)重要子任務(wù),受到廣大國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。本文探討了命名實(shí)體識(shí)別的基本概念和意義,并對(duì)現(xiàn)有的命名實(shí)體識(shí)別技術(shù)、特征、評(píng)估方法進(jìn)行了總結(jié)。

關(guān)鍵詞:命名實(shí)體識(shí)別;信息抽??;評(píng)估方法

目前廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域的“命名實(shí)體”最初于1996年在第六屆信息理解會(huì)議(MUC-6)上提出,那時(shí),MUC主要側(cè)重于信息抽取任務(wù)。信息抽取是從給定文本中抽取諸如公司活動(dòng)和國(guó)防活動(dòng)等特定的信息,這些文本可以是結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。在進(jìn)行信息抽取任務(wù)時(shí),人們發(fā)現(xiàn)識(shí)別文本中某些具有特殊意義的實(shí)體,如包括人名、機(jī)構(gòu)名稱和地名在內(nèi)的名稱和包括具有特殊意義的時(shí)間、日期及百分?jǐn)?shù)在內(nèi)的數(shù)字是必不可少的。在文本中識(shí)別這些實(shí)體的任務(wù)被稱為“命名實(shí)體識(shí)別”,普遍被認(rèn)為是信息抽取的一個(gè)重要子任務(wù),它的主要任務(wù)是抽取文本中的專有名詞、生物物種和有意義的時(shí)間、日期扥數(shù)量短語(yǔ)并進(jìn)行分類。

早期的命名實(shí)體識(shí)別研究工作主要對(duì)文本中的“專有名詞”進(jìn)行識(shí)別,其中研究最多的三種“專有名詞”是人名、地名和結(jié)構(gòu)名稱,這些名稱可以被轉(zhuǎn)換為更細(xì)化的類型,如地名可以被細(xì)化為:城市、州和國(guó)家。同樣,人名可以細(xì)化為政治家和演員等。

近年來,除了識(shí)別一般文本中的專有名詞外,一些生物醫(yī)學(xué)語(yǔ)料庫(kù),如GENIA的出現(xiàn)引起了一些命名實(shí)體識(shí)別研究者對(duì)生物醫(yī)學(xué)實(shí)體識(shí)別研究的興趣,這些命名實(shí)體主要包括蛋白質(zhì)、DNA、RNA和細(xì)胞類型等。大多數(shù)生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別研究主要集中于對(duì)蛋白質(zhì)的識(shí)別,也有一些關(guān)于藥品和化學(xué)名稱實(shí)體識(shí)別的研究。

最近的一些研究并不局限于抽取這些可能的實(shí)體類型,一些細(xì)化的類如博物館、河流或機(jī)場(chǎng)等引起了一些研究人員的興趣,并且還增加了一些范圍更廣的類,如產(chǎn)品和事件,以及物質(zhì)、動(dòng)物、種族或顏色等。隨著命名實(shí)體識(shí)別研究范圍的進(jìn)一步擴(kuò)大,針對(duì)不同的特定領(lǐng)域,越來越多的實(shí)體類型得到了廣大實(shí)體識(shí)別研究工作者的關(guān)注。

1 學(xué)習(xí)方法

在信息抽取系統(tǒng)中,識(shí)別未知實(shí)體的能力是一個(gè)非常重要的部分,這樣的能力取決于系統(tǒng)所使用的識(shí)別和分類規(guī)則,這些規(guī)則由與正例和負(fù)例相關(guān)的特有規(guī)則觸發(fā)。早期的研究大多采用基于人工構(gòu)造規(guī)則的方法,而現(xiàn)在大多使用監(jiān)督的機(jī)器學(xué)習(xí)方法。

監(jiān)督學(xué)習(xí)方法的思想是在大量標(biāo)注的文檔上學(xué)習(xí)命名實(shí)體正例和負(fù)例的特征并設(shè)計(jì)捕獲給定類型本質(zhì)的規(guī)則。而語(yǔ)料庫(kù)的缺乏和構(gòu)造這些資源的高昂成本導(dǎo)致了兩種可替代的學(xué)習(xí)方法:半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

1.1 監(jiān)督學(xué)習(xí)

目前,命名實(shí)體識(shí)別所使用的主流技術(shù)是監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)包括隱馬爾科夫模型、決策樹、最大熵模型、支持向量機(jī)、條件隨機(jī)域等[ 4 ],這些方法都是命名實(shí)體識(shí)別系統(tǒng)的變體,這些系統(tǒng)都是讀取大量的標(biāo)注語(yǔ)料,存儲(chǔ)一系列實(shí)體,并且構(gòu)造基于特征的判別規(guī)則。

通常提出的基本監(jiān)督方法包括標(biāo)注測(cè)試語(yǔ)料庫(kù)的詞,這些詞在訓(xùn)練集中被注釋為實(shí)體。系統(tǒng)的性能依賴于同時(shí)出現(xiàn)在訓(xùn)練語(yǔ)料庫(kù)和測(cè)試語(yǔ)料庫(kù)中的詞所占的比例,通常稱之為詞匯轉(zhuǎn)移。

1.2 半監(jiān)督學(xué)習(xí)

由于可用標(biāo)注語(yǔ)料庫(kù)的匱乏以及大量未標(biāo)注語(yǔ)料庫(kù)的存在,研究人員提出了一種半監(jiān)督學(xué)習(xí)方法,也稱為弱監(jiān)督學(xué)習(xí)。主要的半監(jiān)督學(xué)習(xí)方法被稱為“bootstrapping”,它只需要提供少量的標(biāo)注數(shù)據(jù),例如一組種子用于開始的學(xué)習(xí)。然后,系統(tǒng)搜索包含這些已提供數(shù)據(jù)的句子并嘗試發(fā)現(xiàn)出現(xiàn)在相似上下文中實(shí)體的其他實(shí)例。接著將學(xué)習(xí)過程應(yīng)用于新發(fā)現(xiàn)的例子以發(fā)現(xiàn)新的相關(guān)上下文。通過重復(fù)這一過程收集大量命名實(shí)體和大量上下文信息。半監(jiān)督方法只需要較少的已標(biāo)注數(shù)據(jù),從而在大量無標(biāo)注數(shù)據(jù)的條件下獲得可以與監(jiān)督學(xué)習(xí)方法相媲美的性能。

1.3 無監(jiān)督學(xué)習(xí)

由于現(xiàn)實(shí)中存在的大量無標(biāo)注數(shù)據(jù),在未進(jìn)行標(biāo)注的數(shù)據(jù)中,試圖找到隱藏的實(shí)體,即無監(jiān)督學(xué)習(xí)問題被提上日程。提供給系統(tǒng)的實(shí)例是無標(biāo)記的,這區(qū)別于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。典型的無監(jiān)督學(xué)習(xí)方法是聚類[ 5 ],我們可以嘗試根據(jù)上下文的相似性從聚類組中收集命名實(shí)體。

2 命名實(shí)體識(shí)別的特征空間

特征是用來描述命名實(shí)體的各種屬性,對(duì)不同的識(shí)別系統(tǒng)來說所采用的特征也不同。我們通常用特征向量來描述系統(tǒng)所使用的特征,特征向量描述是由一個(gè)或多個(gè)布爾型數(shù)據(jù)、數(shù)值數(shù)據(jù)和標(biāo)量數(shù)據(jù)所表示的每個(gè)詞的文本抽象。經(jīng)常用于命名實(shí)體識(shí)別和分類的特征通常包括三種:詞級(jí)特征、列表查找特征以及文檔和語(yǔ)料特征。

3 評(píng)估指標(biāo)

對(duì)命名實(shí)體識(shí)別系統(tǒng)的發(fā)展來說,對(duì)系統(tǒng)的全面評(píng)估是必不可少的,許多系統(tǒng)被要求根據(jù)它們標(biāo)注文本的能力來對(duì)系統(tǒng)進(jìn)行排序。目前,通常采用的評(píng)估指標(biāo)主要有正確率、召回率和F值,它們的定義如下:

正確率=識(shí)別出的正確實(shí)體數(shù)/識(shí)別出的實(shí)體數(shù)

召回率=識(shí)別出的正確實(shí)體數(shù)/樣本中的實(shí)體數(shù)。

兩者的取值都在0和1之間,數(shù)值越接近1,正確率或召回率就越高。正確率和召回率有時(shí)會(huì)出現(xiàn)矛盾的情況,這時(shí)需要綜合考慮它們的加權(quán)調(diào)和平均值,也就是F值,其中最常用的F1值,當(dāng)F1值較高時(shí)說明試驗(yàn)方法比較有效。F1值定義如下:

F1值=(2*正確率*召回率)/(正確率+召回率)。

4 結(jié)語(yǔ)

命名實(shí)體識(shí)別作為信息抽取的重要子任務(wù),從提出伊始就得到了廣大國(guó)內(nèi)外學(xué)者的廣泛重視,并且受到了各方面的持續(xù)關(guān)注,取得了巨大的進(jìn)展。本文探討了命名實(shí)體識(shí)別的基本概念和意義,并對(duì)現(xiàn)有的命名實(shí)體識(shí)別技術(shù)、特征、評(píng)估方法進(jìn)行了總結(jié)。目前,對(duì)某些領(lǐng)域如新聞的命名實(shí)體識(shí)別研究已經(jīng)相當(dāng)成熟,如何將新聞?lì)I(lǐng)域中成熟的技術(shù)方法應(yīng)用于一些新興領(lǐng)域如生物醫(yī)學(xué)等是未來命名實(shí)體識(shí)別系統(tǒng)發(fā)展的趨勢(shì)。

參考文獻(xiàn):

[1] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):1-5.

[2] 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才.基于層疊隱馬爾科夫模型的中文命名實(shí)體識(shí)別[J].通信學(xué)報(bào),2006(02).

[3] 張祝玉,任飛亮,朱靖波.基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別特征比較研究[C].第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集,2008.

[4] 王丹,樊興華.面向短文本的命名實(shí)體識(shí)別[J].計(jì)算機(jī)應(yīng)用,2009,29(1).

404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 国产原创自拍不卡第一页| 毛片基地美国正在播放亚洲| 久久99久久无码毛片一区二区| 中国精品自拍| 国产中文在线亚洲精品官网| 在线观看91精品国产剧情免费| 亚洲第一综合天堂另类专| 日韩一区精品视频一区二区| 免费看一级毛片波多结衣| 日韩一区精品视频一区二区| 亚洲精品无码不卡在线播放| 亚洲国产成人精品一二区| 国产情侣一区| 99久久性生片| 欧美日韩中文国产| 亚洲国产日韩视频观看| 精品视频在线一区| 日韩av电影一区二区三区四区 | 国产亚洲视频免费播放| 亚洲综合色区在线播放2019| 欧美精品在线免费| 97国内精品久久久久不卡| 依依成人精品无v国产| 欧美人人干| 不卡无码网| 亚洲男人在线天堂| 综合色区亚洲熟妇在线| 国产精品所毛片视频| 91精品国产综合久久香蕉922| 国产91丝袜在线播放动漫| 国产日韩欧美成人| 精品亚洲国产成人AV| 欧美在线黄| 无码免费视频| 亚洲国产精品日韩欧美一区| 亚洲天堂免费| 香蕉蕉亚亚洲aav综合| 狠狠躁天天躁夜夜躁婷婷| 国产精品主播| 99re在线观看视频| 久久久久中文字幕精品视频| 精品人妻AV区| 91蜜芽尤物福利在线观看| 熟妇丰满人妻| 精品国产黑色丝袜高跟鞋| 亚洲AⅤ无码国产精品| 在线另类稀缺国产呦| 亚洲最猛黑人xxxx黑人猛交| 成人一级黄色毛片| 熟妇无码人妻| 精品国产毛片| www.狠狠| 久久精品丝袜| 国产玖玖玖精品视频| 九九九九热精品视频| 99热这里只有精品久久免费| 嫩草国产在线| 国产美女一级毛片| 中文字幕佐山爱一区二区免费| 欧美精品一区二区三区中文字幕| 欧美69视频在线| 亚洲精品片911| 国产大片喷水在线在线视频| 一级黄色网站在线免费看| 成人国产免费| 91精品网站| 国产成人高清精品免费软件 | 在线观看精品国产入口| 国产呦精品一区二区三区网站| 在线播放91| 久久青草热| 亚洲精品视频在线观看视频| 欧美在线三级| 午夜精品久久久久久久2023| 国产精品爆乳99久久| 欧美精品影院| 国模极品一区二区三区| 人妻夜夜爽天天爽| 国产99视频精品免费观看9e| 成人一级黄色毛片| 成人福利在线视频| 91免费片|