999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

命名實體識別綜述

2016-09-23 05:51:43陳基
現代計算機 2016年3期
關鍵詞:監督特征信息

陳基

(四川大學計算機學院,成都 610065)

命名實體識別綜述

陳基

(四川大學計算機學院,成都610065)

0 引言

MUC-6第一次提出命名實體識別[1],現在在自然語言處理中已經被廣泛使用。信息抽取就是從非結構化的文本中(例如,新聞)抽取結構化的數據和特定的關系。在定義任務的過程中人們注意到識別信息單元的名稱,像人名、機構名、地名、時間等是必不可少的。識別上面所說的實體的名稱,就叫做命名實體識別[1]。命名實體識別是信息抽取的子任務,識別的好壞直接關系到抽取的好壞。

早期的命名實體識別工作,主要識別一般的“專有名詞”[2],包括三類名詞:人名、地名、機構名。這也是MUC-6最早定義的任務要識別的名詞。隨著研究的進行,人們對這些名詞進行更細致的劃分。對于地名,可以進行細分為:國家名、省/州、城市名、街道名等[3]。類似的人名可以細分為:政客、演員等[4]。除了識別一般的專有名詞,人們也開始關注對于特定領域的命名實體識別。在生物醫學領域,對于基因名、蛋白質名的識別已經有許多工作在開展,也取得了不錯的效果[5]。針對社交媒體文本中存在大量的電影、歌曲等,識別電影名、歌曲名、郵件地址等實體[6]。隨著研究范圍的擴大,針對不同的特定問題特定領域,越來越多的實體類型被提出。

1 技術方法

早期的研究大多數通過人工構造規則的方法,現在多采用監督學習的方法,自動構造規則或者進行序列標注。監督學習的從發點是從標注好的文檔的正負例里面學習特征,通過自動學習到的這些特征來識別命名實體。1.1部分對序列標注方法進行更細致的介紹。序列標注的方法的主要缺點是需要大量標注好的語料。當沒辦法獲取大規模的語料或者代價比較昂貴時,人們提出其他的解決方法,包括:半監督和無監督方法。這兩部分內容在1.2和1.3中介紹。

1.1有監督方法

有監督學習方法將命名實體識別看做序列標注問題。序列標注模型包括:隱馬爾科夫模型 Hidden Markov Models(HMM)[7],最大熵馬爾科夫模型Maximum Entropy Markov Models(MEMM)和條件隨機場Conditional Random Fields(CRF)[8]等。這些模型都是基于大量的標注語料,定義一系列實體,通過學習得到基于特征的判別規則。隱馬爾科夫模型描述了一個含有隱含未知參數的馬爾可夫過程,針對命名實體識別這里的未知參數為實體類型。

隱馬爾科夫模型考慮了上下文信息,測試時求得的解是全局最優的解,得到最優的馬爾科夫鏈,這是傳統分類算法做不到的。隱馬爾科夫模型缺點是假設可觀測變量之間獨立,而且限制觀測變量是詞語本身,限制了特征的選擇。例如像字數、DF詞頻、位置等對實體類型很有預示作用的特征都無法很方便地使用。

最大熵馬爾科夫模型只計算給定可觀測變量下隱藏變量的概率,將模型由隱馬爾科夫的生成模型變成判別模型,克服了隱馬爾科夫的模型的缺點,可以方便使用各種特征。不過也帶來新的問題——標記偏置問題。

條件隨機場模型將最大熵馬爾科夫模型里面的條件概率轉化為特征函數的形式,分解為兩部分:轉移特征和狀態特征。通過訓練得到不同特征的權值,測試的時候一般采用維特比(Viterbi)算法進行求解。條件隨機場模型克服最大熵馬爾科夫模型的標記偏置問題,不過也帶類訓練速度偏慢的問題。

在這些模型基礎上,國內外學者針對不同的問題還提出許多改進的版本:層疊隱馬爾科夫模型[9]、層疊條件隨機場[10]等。

1.2半監督方法

半監督也叫弱監督,主要的技術叫拔靴法(Bootstrapping),只提供很少的標注數據,例如一些種子用于開始的學習。例如識別疾病名的系統,需要用戶提供一些樣例。然后系統就會搜索包含這些實體的句子,辨別它們的上下文環境。接著系統就會尋找其他跟之前樣例有相識的上下文的疾病名。學習的過程就是不斷地循環這個過程,發現新的上下文,發現新的疾病名,產生大量的基疾病名和上下文。辨別上下文環境的方法包括:M.Collins和Singer采用模板的方式[11]、A.Cucchiarelli和 Velardi采用句法分析樹[12]等。半監督的方法可以在很少量的標注數據和大量無標注的數據條件下,取得比較好的效果。

1.3無監督方法

無監督學習最典型的方法是聚類。比如,通過相似的上下文將不同的命名實體聚到一起。當然還有其他的無監督方法,包括:基于外部資源(wordNet)[13],當針對某個特定的領域的標注語料沒有時候,可以采用外部資源比如wordNet進行遷移學習。首先,通過詞在大規模語料中的共現,對wordNet里面的同義詞分配一個實體類型。然后對于給定的文檔中一個詞,通過比較一定窗口的上下文,給它分配一個實體類型。基于點互信息[14],將點互信息做為特征對給定的詞進行分類,判斷輸入哪個類型。還有基于詞匯模板[15]等。

2 特征

特征是在算法假設下描述詞的各種屬性。例如一個布爾型的特征,如果當前單詞是大寫則為真,否則為假。特征一般用特征向量表示,一個維度代表一個特征取值可以是布爾型、數值型等,整個向量就表示詞在假設條件下所有屬性。特征一般分為三類:詞級別特征,包括詞本身是否大小寫、前后文的詞、詞性等;字典級別特征,判斷當前詞是否屬于某個字典,如地名字典,姓名字典等;全局特征。

3 評價指標

命名實體識別一般采用這幾個評價指標:精確率(Precision)、召回率(Recall)和F值。

表1 

精確率p和召回率r定義如下:

F值是精確率和召回率的調和平均值。

4 結語

命名實體識別作為信息抽取的子任務,從一開始提出就得到國內外學者的重視,并成為研究熱點,取得眾多進展。本文主要從三類技術方法:監督學習、無監督學習、半監督學習,介紹了相關的研究工作。一般文本的命名實體識別已經相當成熟,目前大部分命名實體識別研究,側重于對特點領域的命名實體,例如生物醫學、社交媒體。

[1]Grishman,Ralph;Sundheim,B.1996.Message Understanding Conference-6:A Brief History.In Proc.International Conference on Computational Linguistics.

[2]hielen,Christine.1995.An Approach to Proper Name Tagging for German.In Proc.Conference of European Chapter of the Association for Computational Linguistics.SIGDAT.

[3]Lee,Seungwoo;Geunbae Lee,G.2005.Heuristic Methods for Reducing Errors of Geographic Named Entities Learned by Bootstrapping.In Proc.International Joint Conference on Natural Language Processing.

[4]Fleischman,Michael;Hovy.E.2002.Fine Grained Classification of Named Entities.In Proc.Conference on Computational Linguistics.

[5]Settles,Burr.2004.Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets.In Proc.Conference on Computational Linguistics.Joint Workshop on Natural Language Processing in Biomedicine and Its Applications.

[6]X Liu,M Zhou-Information Processing&Management,2013

[7]Bikel,Daniel M.;Miller,S.;Schwartz,R.;Weischedel,R.1997.Nymble:a High-Performance Learning Name-finder.In Proc.Conference on Applied Natural Language Processing.

[8]McCallum,Andrew;Li,W.2003.Early Results for Named Entity Recognition with Conditional Random Fields,Features Induction and Web-Enhanced Lexicons.In Proc.Conference on Computational Natural Language Learning.

[9]劉杰.基于統計的中文機構名實體識別的研究[J].佳木斯大學學報(自然科學版),2010(03)

[10]俞鴻魁,張華平,劉群,呂學強,施水才.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006(02)

[11]Collins,Michael;Singer,Y.1999.Unsupervised Models for Named Entity Classification.In Proc.of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.

[12]Cucchiarelli,Alessandro;Velardi,P.2001.Unsupervised Named Entity Recognition Using Syntactic and Semantic Contextual Evidence.Computational Linguistics 27:1.123-131,Cambridge:MIT Press.

[13]Alfonseca,Enrique;Manandhar,S.2002.An Unsupervised Method for General Named Entity Recognition and Automated Concept Discovery.In Proc.International Conference on General WordNet.

[14]Etzioni,Oren;Cafarella,M.;Downey,D.;Popescu,A.-M.;Shaked,T.;Soderland,S.;Weld,D.S.;Yates,A.2005.Unsupervised Named-Entity Extraction from the Web:An Experimental Study.Artificial Intelligence 165.91-134

Named Entity Recognition;Conditional Random Fields;Information Extraction;Evaluation Index

Survey of Named Entity Recognition

CHEN Ji
(College of Computer Science,Sichuan University,Chengdu,Chengdu 610065)

1007-1423(2016)03-0024-03

10.3969/j.issn.1007-1423.2016.03.006

陳基(1990-),男,福建福州人,研究生碩士,研究方向為數據挖掘

2015-12-15

2015-12-30

互聯網的普及和發展,信息資源得到極大的豐富,同時也造成信息過載的問題。人們迫切需要快速準確地獲取信息的技術方法,信息抽取技術就應運而生。命名實體識別作為信息抽取的一個子任務被提出,受到國內外學者的重視,并進行一系列研究。探討命名實體的概念和意義,對現有的命名實體識別研究進行總結歸納。

命名實體;條件隨機場;信息抽取;評價指標

With the growing popularity and development of the Internet,information resources have been greatly enriched,but also result in information overload problem.For people's need of technical method that can find out information fast and accurately,information extraction technology is brought into being.Information extraction is presented as a subtask;named entity recognition is attached great importance. A series of studies are doing by scholars.Discusses the concept and significance of named entity,and gives a summary to named entity recognition.

猜你喜歡
監督特征信息
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 久久久久免费精品国产| 亚洲精品在线91| 91青青视频| 国产成人无码AV在线播放动漫 | 国产在线啪| 中文字幕1区2区| 怡红院美国分院一区二区| 国产一区三区二区中文在线| 亚洲成人黄色在线| 久久先锋资源| 日本一本在线视频| 欧美日一级片| AV色爱天堂网| 91福利国产成人精品导航| 香蕉国产精品视频| 99久久人妻精品免费二区| 熟妇人妻无乱码中文字幕真矢织江| 亚洲天堂视频在线播放| 视频二区欧美| 99视频国产精品| 狠狠v日韩v欧美v| 91精品国产自产91精品资源| 久久综合丝袜日本网| 久久免费视频6| 中国一级特黄视频| 99在线免费播放| 久久久久无码精品| 日韩av电影一区二区三区四区 | 色综合久久无码网| 国模在线视频一区二区三区| 欧美19综合中文字幕| 国产美女叼嘿视频免费看| 国产午夜福利在线小视频| 亚洲午夜福利精品无码不卡| 国产成人亚洲综合a∨婷婷| 亚洲精品777| 婷婷综合色| 亚洲天堂免费在线视频| 久久中文字幕av不卡一区二区| 国产精彩视频在线观看| 国产精品美乳| 国产在线视频二区| 亚洲国产日韩一区| 欧美亚洲激情| 国产一区二区三区夜色| 欧美.成人.综合在线| 精品久久久久无码| 亚洲成人高清无码| 精品少妇人妻无码久久| 中文字幕资源站| 久久久久国产精品熟女影院| 日韩欧美综合在线制服| 香蕉国产精品视频| 国产精品福利在线观看无码卡| 一级毛片免费不卡在线视频| 1级黄色毛片| 国产精品人莉莉成在线播放| 熟妇人妻无乱码中文字幕真矢织江 | 强奷白丝美女在线观看| 国产免费羞羞视频| 欧美色99| 国产特一级毛片| 91探花在线观看国产最新| 色综合狠狠操| 中国黄色一级视频| 亚洲综合精品香蕉久久网| 欧洲欧美人成免费全部视频| 99九九成人免费视频精品| 亚洲男人天堂2020| 高清无码不卡视频| 色偷偷一区二区三区| 成年网址网站在线观看| 国产成人综合日韩精品无码首页 | www亚洲天堂| 精品亚洲国产成人AV| 亚洲无码91视频| 免费在线国产一区二区三区精品| 国产成人高清精品免费软件| 国产亚洲视频中文字幕视频 | 亚洲天堂久久| 成人午夜福利视频| 国产亚洲精品va在线|