999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

命名實(shí)體識別研究發(fā)展綜述

2016-05-30 11:26:40周玉新
科技風(fēng) 2016年16期

周玉新

摘 要:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和極大普及,以及相關(guān)領(lǐng)域研究的不斷深入,可用信息資源得到了極大豐富。人們迫切需要從海量的非結(jié)構(gòu)化文本中獲取有用的信息。在這一背景下,信息抽取技術(shù)應(yīng)運(yùn)而生。命名實(shí)體識別自誕生之日起,就被看作信息抽取系統(tǒng)的一個(gè)重要子任務(wù),受到廣大國內(nèi)外學(xué)者的廣泛關(guān)注。本文探討了命名實(shí)體識別的基本概念和意義,并對現(xiàn)有的命名實(shí)體識別技術(shù)、特征、評估方法進(jìn)行了總結(jié)。

關(guān)鍵詞:命名實(shí)體識別;信息抽取;評估方法

目前廣泛應(yīng)用于自然語言處理領(lǐng)域的“命名實(shí)體”最初于1996年在第六屆信息理解會(huì)議(MUC-6)上提出,那時(shí),MUC主要側(cè)重于信息抽取任務(wù)。信息抽取是從給定文本中抽取諸如公司活動(dòng)和國防活動(dòng)等特定的信息,這些文本可以是結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。在進(jìn)行信息抽取任務(wù)時(shí),人們發(fā)現(xiàn)識別文本中某些具有特殊意義的實(shí)體,如包括人名、機(jī)構(gòu)名稱和地名在內(nèi)的名稱和包括具有特殊意義的時(shí)間、日期及百分?jǐn)?shù)在內(nèi)的數(shù)字是必不可少的。在文本中識別這些實(shí)體的任務(wù)被稱為“命名實(shí)體識別”,普遍被認(rèn)為是信息抽取的一個(gè)重要子任務(wù),它的主要任務(wù)是抽取文本中的專有名詞、生物物種和有意義的時(shí)間、日期扥數(shù)量短語并進(jìn)行分類。

早期的命名實(shí)體識別研究工作主要對文本中的“專有名詞”進(jìn)行識別,其中研究最多的三種“專有名詞”是人名、地名和結(jié)構(gòu)名稱,這些名稱可以被轉(zhuǎn)換為更細(xì)化的類型,如地名可以被細(xì)化為:城市、州和國家。同樣,人名可以細(xì)化為政治家和演員等。

近年來,除了識別一般文本中的專有名詞外,一些生物醫(yī)學(xué)語料庫,如GENIA的出現(xiàn)引起了一些命名實(shí)體識別研究者對生物醫(yī)學(xué)實(shí)體識別研究的興趣,這些命名實(shí)體主要包括蛋白質(zhì)、DNA、RNA和細(xì)胞類型等。大多數(shù)生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識別研究主要集中于對蛋白質(zhì)的識別,也有一些關(guān)于藥品和化學(xué)名稱實(shí)體識別的研究。

最近的一些研究并不局限于抽取這些可能的實(shí)體類型,一些細(xì)化的類如博物館、河流或機(jī)場等引起了一些研究人員的興趣,并且還增加了一些范圍更廣的類,如產(chǎn)品和事件,以及物質(zhì)、動(dòng)物、種族或顏色等。隨著命名實(shí)體識別研究范圍的進(jìn)一步擴(kuò)大,針對不同的特定領(lǐng)域,越來越多的實(shí)體類型得到了廣大實(shí)體識別研究工作者的關(guān)注。

1 學(xué)習(xí)方法

在信息抽取系統(tǒng)中,識別未知實(shí)體的能力是一個(gè)非常重要的部分,這樣的能力取決于系統(tǒng)所使用的識別和分類規(guī)則,這些規(guī)則由與正例和負(fù)例相關(guān)的特有規(guī)則觸發(fā)。早期的研究大多采用基于人工構(gòu)造規(guī)則的方法,而現(xiàn)在大多使用監(jiān)督的機(jī)器學(xué)習(xí)方法。

監(jiān)督學(xué)習(xí)方法的思想是在大量標(biāo)注的文檔上學(xué)習(xí)命名實(shí)體正例和負(fù)例的特征并設(shè)計(jì)捕獲給定類型本質(zhì)的規(guī)則。而語料庫的缺乏和構(gòu)造這些資源的高昂成本導(dǎo)致了兩種可替代的學(xué)習(xí)方法:半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

1.1 監(jiān)督學(xué)習(xí)

目前,命名實(shí)體識別所使用的主流技術(shù)是監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)包括隱馬爾科夫模型、決策樹、最大熵模型、支持向量機(jī)、條件隨機(jī)域等[ 4 ],這些方法都是命名實(shí)體識別系統(tǒng)的變體,這些系統(tǒng)都是讀取大量的標(biāo)注語料,存儲(chǔ)一系列實(shí)體,并且構(gòu)造基于特征的判別規(guī)則。

通常提出的基本監(jiān)督方法包括標(biāo)注測試語料庫的詞,這些詞在訓(xùn)練集中被注釋為實(shí)體。系統(tǒng)的性能依賴于同時(shí)出現(xiàn)在訓(xùn)練語料庫和測試語料庫中的詞所占的比例,通常稱之為詞匯轉(zhuǎn)移。

1.2 半監(jiān)督學(xué)習(xí)

由于可用標(biāo)注語料庫的匱乏以及大量未標(biāo)注語料庫的存在,研究人員提出了一種半監(jiān)督學(xué)習(xí)方法,也稱為弱監(jiān)督學(xué)習(xí)。主要的半監(jiān)督學(xué)習(xí)方法被稱為“bootstrapping”,它只需要提供少量的標(biāo)注數(shù)據(jù),例如一組種子用于開始的學(xué)習(xí)。然后,系統(tǒng)搜索包含這些已提供數(shù)據(jù)的句子并嘗試發(fā)現(xiàn)出現(xiàn)在相似上下文中實(shí)體的其他實(shí)例。接著將學(xué)習(xí)過程應(yīng)用于新發(fā)現(xiàn)的例子以發(fā)現(xiàn)新的相關(guān)上下文。通過重復(fù)這一過程收集大量命名實(shí)體和大量上下文信息。半監(jiān)督方法只需要較少的已標(biāo)注數(shù)據(jù),從而在大量無標(biāo)注數(shù)據(jù)的條件下獲得可以與監(jiān)督學(xué)習(xí)方法相媲美的性能。

1.3 無監(jiān)督學(xué)習(xí)

由于現(xiàn)實(shí)中存在的大量無標(biāo)注數(shù)據(jù),在未進(jìn)行標(biāo)注的數(shù)據(jù)中,試圖找到隱藏的實(shí)體,即無監(jiān)督學(xué)習(xí)問題被提上日程。提供給系統(tǒng)的實(shí)例是無標(biāo)記的,這區(qū)別于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。典型的無監(jiān)督學(xué)習(xí)方法是聚類[ 5 ],我們可以嘗試根據(jù)上下文的相似性從聚類組中收集命名實(shí)體。

2 命名實(shí)體識別的特征空間

特征是用來描述命名實(shí)體的各種屬性,對不同的識別系統(tǒng)來說所采用的特征也不同。我們通常用特征向量來描述系統(tǒng)所使用的特征,特征向量描述是由一個(gè)或多個(gè)布爾型數(shù)據(jù)、數(shù)值數(shù)據(jù)和標(biāo)量數(shù)據(jù)所表示的每個(gè)詞的文本抽象。經(jīng)常用于命名實(shí)體識別和分類的特征通常包括三種:詞級特征、列表查找特征以及文檔和語料特征。

3 評估指標(biāo)

對命名實(shí)體識別系統(tǒng)的發(fā)展來說,對系統(tǒng)的全面評估是必不可少的,許多系統(tǒng)被要求根據(jù)它們標(biāo)注文本的能力來對系統(tǒng)進(jìn)行排序。目前,通常采用的評估指標(biāo)主要有正確率、召回率和F值,它們的定義如下:

正確率=識別出的正確實(shí)體數(shù)/識別出的實(shí)體數(shù)

召回率=識別出的正確實(shí)體數(shù)/樣本中的實(shí)體數(shù)。

兩者的取值都在0和1之間,數(shù)值越接近1,正確率或召回率就越高。正確率和召回率有時(shí)會(huì)出現(xiàn)矛盾的情況,這時(shí)需要綜合考慮它們的加權(quán)調(diào)和平均值,也就是F值,其中最常用的F1值,當(dāng)F1值較高時(shí)說明試驗(yàn)方法比較有效。F1值定義如下:

F1值=(2*正確率*召回率)/(正確率+召回率)。

4 結(jié)語

命名實(shí)體識別作為信息抽取的重要子任務(wù),從提出伊始就得到了廣大國內(nèi)外學(xué)者的廣泛重視,并且受到了各方面的持續(xù)關(guān)注,取得了巨大的進(jìn)展。本文探討了命名實(shí)體識別的基本概念和意義,并對現(xiàn)有的命名實(shí)體識別技術(shù)、特征、評估方法進(jìn)行了總結(jié)。目前,對某些領(lǐng)域如新聞的命名實(shí)體識別研究已經(jīng)相當(dāng)成熟,如何將新聞?lì)I(lǐng)域中成熟的技術(shù)方法應(yīng)用于一些新興領(lǐng)域如生物醫(yī)學(xué)等是未來命名實(shí)體識別系統(tǒng)發(fā)展的趨勢。

參考文獻(xiàn):

[1] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003(10):1-5.

[2] 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才.基于層疊隱馬爾科夫模型的中文命名實(shí)體識別[J].通信學(xué)報(bào),2006(02).

[3] 張祝玉,任飛亮,朱靖波.基于條件隨機(jī)場的中文命名實(shí)體識別特征比較研究[C].第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集,2008.

[4] 王丹,樊興華.面向短文本的命名實(shí)體識別[J].計(jì)算機(jī)應(yīng)用,2009,29(1).

主站蜘蛛池模板: 色婷婷电影网| 日本成人不卡视频| 亚洲第一区欧美国产综合 | 久久精品国产在热久久2019| 麻豆精选在线| 全部无卡免费的毛片在线看| 一区二区自拍| 欧美在线精品怡红院| 国产精品欧美亚洲韩国日本不卡| 国产chinese男男gay视频网| 国产精品视频系列专区| 尤物视频一区| 伊人久久久久久久| 深爱婷婷激情网| 黑人巨大精品欧美一区二区区| 色婷婷在线影院| 日韩精品少妇无码受不了| 国产视频a| 天天综合网色中文字幕| 伊人天堂网| 99re热精品视频国产免费| 国产精品免费电影| 鲁鲁鲁爽爽爽在线视频观看 | 综合久久五月天| 国产免费自拍视频| 日本影院一区| 熟女视频91| 人人爱天天做夜夜爽| 久久亚洲欧美综合| 午夜高清国产拍精品| 精品无码人妻一区二区| 全部免费特黄特色大片视频| 亚洲av片在线免费观看| 啪啪永久免费av| 精品久久国产综合精麻豆| 在线毛片免费| 中文字幕第4页| 黄色网在线| 婷婷六月色| 青草视频在线观看国产| 亚洲天堂日韩在线| 欧美不卡在线视频| A级毛片高清免费视频就| 99精品视频九九精品| 精品少妇人妻av无码久久| 国产精品99在线观看| 亚洲欧美精品在线| 成人欧美在线观看| 亚洲日本精品一区二区| 国产一区二区三区在线观看免费| 久久国产V一级毛多内射| 亚洲国产日韩在线成人蜜芽| 激情无码视频在线看| 一级黄色片网| 亚洲综合在线网| 国产青榴视频在线观看网站| 国产成人精品亚洲77美色| h视频在线播放| 国产 日韩 欧美 第二页| 永久免费av网站可以直接看的| 国产欧美日韩免费| www.亚洲国产| 性网站在线观看| 日韩中文字幕免费在线观看| 日韩AV无码免费一二三区| 国产亚洲精久久久久久久91| AV老司机AV天堂| 国产特级毛片aaaaaaa高清| 青青草原国产免费av观看| 永久成人无码激情视频免费| 国产成人1024精品下载| 99视频在线免费| 国产黄在线免费观看| 在线精品视频成人网| 免费国产高清精品一区在线| 国内精品视频在线| 欧美色综合网站| 久草视频福利在线观看| 亚洲欧美日韩久久精品| 国产亚洲欧美在线人成aaaa| aa级毛片毛片免费观看久| 欧洲av毛片|