999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關系抽取研究綜述

2015-05-15 10:19:03母克東萬琪
現代計算機 2015年3期
關鍵詞:語義文本信息

母克東,萬琪

(四川大學計算機學院,成都 610065)

關系抽取研究綜述

母克東,萬琪

(四川大學計算機學院,成都 610065)

信息抽取、自然語言理解、信息檢索等應用需要更好地理解兩個實體之間的語義關系,對關系抽取進行概況總結。將關系抽取劃分為兩個階段研究:特定領域的傳統關系抽取和開放領域的關系抽取。并對關系抽取從抽取算法、評估指標和未來發展趨勢三個部分對關系抽取系統進行系統的分析總結。

關系抽取;機器學習;信息抽取;開放關系抽取

0 引言

隨著大數據的不斷發展,海量信息以半結構或者純原始文本的形式展現給信息使用者,如何采用自然語言處理和數據挖掘相關技術從中幫助用戶獲取有價值的信息,是當代計算機研究技術迫切的需求。因此,信息抽取技術應運而生,信息抽取的主要目的是從自然語言文本中抽取指定的實體(Entity)、關系(Relation)、事件(Event)等事實信息。信息抽取技術可以經過一些列處理把文本中蘊含的無規律化信息轉化成結構化的信息存儲到數據庫中,方便用戶快速獲取急需的信息,而關系抽取(Relation Extraction)是信息抽取的一個重要子任務,首次于1998年在MUC[1]會議正式提出,主要任務是確定兩個實體之間的語義關系。實體關系抽取技術已經被廣泛應用到信息檢索(information extraction)、基因疾病關系挖掘(gene-disease)、蛋白質交互作用(protein-protein)等眾多應用領域。

1 關系抽取

實體間的關系可被形式化描述為關系三元組<E1,R,E2>,其中E1和E2是實體類型,R是關系描述類型。實體關系抽取的主要目的是把無結構的自然語言文本中所蘊含的實體語義關系挖掘出來,整理成三元組<E1,R,E2>存儲在數據庫中,供進一步分析利用或查詢。當前主流關系抽取研究主要朝著2個方向進行:面向領域的傳統關系抽取(Traditional Relation Extraction, TRE)和開放領域的關系抽取(Open Relation Extraction, ORE)。

1.1 特定領域的傳統關系抽取

(1)基于規則的方法

基于規則的方法需要提前定義能夠描述兩個實體所在結構的規則,Aone等人[2]通過對語料文本特點總結,邀請知識領域專家編寫文本關系描述規則從而抽取關系實例。Humphreys等人[3]首先對句子進行句法樹分析,從而手工構造一系列復雜的規則識別實體之間的語義關系。此方法要求規則構建者對領域的背景和特點有深入的了解,缺點是人工參與量大大,難以移植到其他領域。

(2)基于機器學習的方法

目前基于機器學習的實體關系抽取的研究主要集中于以下三類方法:有指導方法、半指導、無指導的方法。

①有指導的關系抽取(Supervised Approaches)

有指導方法將關系抽取看作一個分類問題,即通過2個實體的一系列特征來判斷該實體對是否屬于提前定義好的關系類型。這類方法一般需要人工標注足夠多的數據作為訓練語料庫,然后抽取能描述刻畫關系表達的上下文特征,利用不同的分類模型對關系實例進行學習判別,對新來的實體關系樣例進行關系類型預測。其算法框架如圖1所示。

圖1 有指導方法框架

基于特征向量抽取以及基于核函數的方法是當前實體關系抽取領域最流行的基于有指導的方法。

基于特征向量抽取的方法主要從關系實例實體的上下文信息、詞性、句法等信息中抽取一系列特征[f1,f2,…,fn]訓練一個分類器(樸素貝葉斯、支撐向量機、最大熵等),從而完成關系抽取任務。Kambhatla等人[4]首次采用最大熵分類器對關系抽取進行建模,考慮實體上下文信息、句法分析樹、依存關系在內的多種特征,結果表明實體上下文豐富的語言特征對關系表達具有豐富的價值,為后續關系抽取奠定了基礎。Jiang等人[5]對從各種信息中抽取特征進行了系統性的研究和描述,根據自然語言處理技術復雜度不同,將特征按照不同的維度劃分為不同的子空間,實驗結果表明這種劃分在一定程度上能有效提升關系結果的準確率。董靜等人[6]結合中文語料庫的特點,將實體關系劃分為包含實體關系抽取子任務以及非包含實體關系抽取子任務,采用不同的句法特征、詞匯特征等信息,在條件隨機場模型下,在ACE2007語料庫中進行實驗,取得較好的抽取效果。

基于核函數的方法是指利用核函數直接計算兩個實例之間的相似度來訓練關系分類模型。最核心的一步是如何設計計算兩個實例(X,Y)相似度的核函數K(X,Y)。Bunescu等人[7]對短語句法和依存句法上的核函數進行深入的研究。Zhang M等人[8]和Zhou GD等人[9]利用兩個實體間最短路徑封閉樹(Shortest Path Enclosed Tree),考慮不同層面語義關系特征,定義了基于樹的卷積核(Convolution Tree Kernel),并綜合考慮謂詞上下文,實驗結果表明在關系抽取任務中使用卷積核函數可以得到更好的性能。

②半指導的關系抽取(Semi-supervised Approaches)

半指導的關系抽取方法是從關系種子(Seed)進行自舉(Bootstrapping),在一定包含種子實例的文本語料庫中抽取實體之間的關系。典型工作有DIPRE[10]、Snowball[11]、KnowItAll[12]。該方法優點在于不需要訓練語料,從而可以有效地減少對標注語料的依賴和人工參與,而且能獲得很高的準確率,并且能自動擴展到大規模語料的任務中,目前廣泛被使用。缺點在于,對初識種子的依賴程度很敏感,必須要具有一定的代表性和一般性。該方法目前研究重點在于如何獲取可信度較高的新關系實例和抽取模板。

③無指導的關系抽取(Unsupervised Approaches)

無指導的關系抽取一種自底向上的信息抽取策略,直接從大規模的文本數據集出發,假設擁有相同關系類型的實體對,可以通過相似的上下文信息來表達刻畫,可以通過聚類(Cluster)的方法來自動抽取其上下文集合來刻畫實體對的語義關系。Hasegawa等人[13]利用前面的假設信息,通過對2個實體之間的文本信息聚類,類簇集合來表達關系類別,結果表明聚類方法在關系抽取中具有很好的可行性。Zhang等人[14]利用淺層句法樹(shallow parsing tree)來表達關系,利用自頂向下層次聚類算法,自己定義句法樹之間的相似度函數,從而獲取關系抽取結果。無指導方法優點在于不依賴當前實體關系類型定義體系,從而方便算法進行跨領域的移植,缺點在于該方法產生的聚類結果很依賴語料庫的質量,并且很多結果并沒有實際的意義,難以定義合適的類別給類簇,另外,該方法對低頻的實體對處理能力有限,往往還需要進行人工篩選,準確性和完整性沒有統一的評價標準。

1.2 開放領域的關系抽取

開放領域關系抽取使用兩個實體上下文中的一些詞語來描述實體之間的語義關系,從而避免構建關系類型體系。主要任務是從文本中抽取關系三元組(實體1,關系指示詞,實體2),其中關系指示詞是指上下文中能夠描述實體對語義關系的詞或詞序列。Banko等人[15]最早提出開放式關系抽取(ORE)的概念,利用啟發式規則和簡單的句法特征訓練分類器的TextRunner系統。Wu等人[16]提出WOE系統,使用維基百科中信息框來標注關系抽取語料。Yao等人[17]認為一個關系模板可以描述不同的關系樣例,提出了基于LDA的關系模板聚類方法構建關系類型體系。

2 關系抽取的評價體系

對于傳統的關系抽取研究一般是在某個具體的領域語料定義多個關系類別,對每個子類別進行評估或者對多個類別進行評價評估。針對整個關系結果,可以通過計算對應的準確率(Precision)、召回率(Recall)和F1度量值來衡量抽取結果,其對應的公式如下:

其中ri表示正確識別的第i個類別的實例數目;ti被識別成第i類的關系實例數目;ai實際上是第i類關系的實例數目。

對于開放關系抽取,一般通過考察抽取關系的準確性來評價系統性能。綜合考慮算法的時間復雜度(運行時間)和空間復雜度。

3 未來關系抽取發展趨勢

3.1 從二元關系抽取到多元關系抽取的轉化

當前的關系抽取系統主要集中在兩個實體之間的二元關系抽取,但不是所有的關系都是二元的,如有些關系實例需要考慮時間和地點等信息,所以會考慮更多的論元。

3.2 面向知識庫構建的關系抽取

當前主流思想是采用遠距離監督(Distant Supervision)方法,即利用已有知識庫(FreeBase、維基百科等)蘊含的潛在的關系信息作為背景,并訓練出一個潛在的關系分類抽取模型,在大規模未標注的語料上獲取帶有一定可信軟關系類標的關系實例,從而補充已有知識庫。

3.3 領域自適應的關系抽取

目前的研究工作主要面向特定的關系類型或者特定領域,使用特定的語料庫,很難做到領域自動遷移,所以,是否可以搞一套領域自適應的關系抽取研究框架,系統可以自動發現關系類型、挖掘關系描述模式、抽取實體對。或者在已有領域標注語料庫基礎上,使用遷移學習(transfer learning)的方法推廣到其他領域。

4 結語

綜上所述,經過多年的發展,關系抽取的相關理論和方法已經越來越完善,從最開始的基于規則的匹配到后面的基于機器學習的方法,到現在流行的開放領域關系抽取。關系抽取已經變成機器學習和人工智能的重要研究方向,其關注點已從特定領域、特定類型的關系分類轉變為面向Web大規模語料的開放實體關系自動發現。隨著關系抽取技術進一步發展,將對大數據處理、QA系統、本體自動構建、醫學信息學等領域產生深遠的作用。

[1] Automatic Content Extraction(ACE)Evaluation[EB/OL].[2013-06-24].http://www.itl.nist.gov/iad/mig//tests/ace/

[2] Aone C,Halverson L,Hampton T,et al.SRA:Description of the IE2 System Used for MUC-7[C].(MUC-7),1998

[3] Kambhatla N.Combining Lexical,Syntactic,Semantic Features with Maximum Entropy Models for Extracting Relations[C]ACL 2004

[4] Humphreys K,Gaizauskas R,Azzam S,et al.University of Sheffield:Description of the LaSIE-II System as Used for MUC-7[C].In: Proceedings of the 7th Message Understanding Conference(MUC-7),1998

[5] Jiang J,Zhai C X.A Systematic Exploration of the Feature Space for Relation Extraction[C].NAACL-HLT'07.2007:113~120

[6] 董靜,孫樂,馮元勇,等.中文實體關系抽取中的特征選擇研究[J].中文信息學報,2007,21(4):80~85

[7] Bunescu R C,Mooney R J.A Shortest Path Dependency Kernel for Relation Extraction[C].ACL,2005:724~731

[8] Zhang M,Zhang J,Su J,et al.A Composite Kernel to Extract Relations Between Entities with Both Flat and Structured Features[C]. ACL,2006:825~832

[9] Zhou G D,Zhang M,Ji D H,et al.Tree Kernel-based Relation Extraction with Context-Sensitive Structured Parse Tree Information[C].EMNLP/CoNLL-2007.2007:728~736

[10] Brin S.Extracting Patterns and Relations from the World Wide Web[C].In:Proceedings of International Workshop on the World Wide Web and Databases.London,UK:Springer-Verlag,1999:172~183

[11] Agichtein E,Gravano L.Snowball:Extracting Relations from Large Plain-text Collections[C].In:Proceedings of the 5th ACM Conference on Digital Libraries.ACM,2000:85~94

[12] Etzioni O,Cafarella M,Downey D,et al.Unsupervised Named-entity Extraction from the Web:An Experimental Study[J].Artificial Intelligence,2005,165(1):91~134

[13] Hasegawa T,Sekine S,Grishman R.Discovering Relations Among Named Entities from Large Corpora[C].ACL 2004

[14] Zhang M,Su J,Wang D,et al.Discovering Relations Between Named Entities from a Large Raw Corpus Using Tree Similarity-based Clustering[C].IJCNLP'05.Berlin,Heidelberg:Springer-Verlag,2005:378~389

[15] Banko M.Open Information Extraction for the Web[D].University of Washington,2009

[16] Wu F,Weld D S.Open information extraction using Wikipedia.ACL'10.2010:118~127

[17] Yao L,Riedel S,McCallum A.Unsupervised Relation Discovery with Sense Disambiguation.ACL'12.2012:712~720

Survey of the Research on Relation Extraction

MU Ke-dong,WAN Qi
(School of Computer Science,Sichuang University,Chengdu 610065)

Many applications in natural language understanding,information extraction,information retrieval require an understanding of the semantic relations between entities.Carries on the summary to the relation extraction.There are two paradigms extracting the relation-ship between two entities:the Traditional Relation Extraction and the Open Relation Extraction.Makes detailed introduction and analysis of the algorithm of relation extraction,evaluation indicators and the future of the relation extraction system.

Relation Extraction;Information Extraction;Machine Learning;Open Relation Extraction

1007-1423(2015)03-0018-04

10.3969/j.issn.1007-1423.2015.03.005

母克東(1989-),男,四川南充人,碩士研究生,講師,研究方向為數據挖掘與自然語言處理

萬琪(1991-),男,湖北荊門人,碩士研究生,研究方向為數據挖掘與自然語言處理

2014-12-09

2014-12-29

猜你喜歡
語義文本信息
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 国产欧美在线观看一区| 97se亚洲综合| 欧美日韩国产在线播放| 欧美成人精品高清在线下载| 日韩国产黄色网站| 无码免费的亚洲视频| 亚洲无码精彩视频在线观看| 国产精品第页| 国产精品免费电影| 国产午夜在线观看视频| 99久久精品国产自免费| 毛片视频网址| 国产日韩精品欧美一区灰| 欧美日本视频在线观看| 亚洲九九视频| 日本亚洲欧美在线| 99尹人香蕉国产免费天天拍| 成人毛片免费在线观看| 自拍偷拍欧美日韩| 亚洲综合狠狠| 国内视频精品| 国产成人91精品免费网址在线| 亚洲福利片无码最新在线播放| 色综合热无码热国产| 国产精品自在线拍国产电影| 国产在线精品人成导航| 国产在线精彩视频论坛| 91成人在线免费观看| 中文字幕亚洲另类天堂| 国产经典免费播放视频| 精品国产一区91在线| 亚洲中文字幕在线精品一区| 亚洲欧美综合另类图片小说区| 国产主播福利在线观看| 欧美一级在线| 天堂岛国av无码免费无禁网站| 国产AV毛片| 免费激情网址| 色妞永久免费视频| 538精品在线观看| 午夜国产不卡在线观看视频| 青青草原国产免费av观看| 亚洲va精品中文字幕| 亚洲精品天堂自在久久77| 久久亚洲美女精品国产精品| 最新加勒比隔壁人妻| 国产精品13页| 亚洲色图综合在线| 日韩精品亚洲人旧成在线| 欧美午夜在线播放| 91丨九色丨首页在线播放| 找国产毛片看| 九九热在线视频| 免费福利视频网站| 国产精品熟女亚洲AV麻豆| 国产精品30p| 国产精品乱偷免费视频| 好久久免费视频高清| 欧美成人一级| 亚洲一区二区三区麻豆| 国产一在线观看| 亚洲一本大道在线| 中文国产成人久久精品小说| 亚洲无码精品在线播放| 亚洲精品中文字幕午夜| 国产高清免费午夜在线视频| 欧美国产日本高清不卡| 激情六月丁香婷婷| 九色视频最新网址| 中文字幕人妻av一区二区| 沈阳少妇高潮在线| 毛片大全免费观看| www.狠狠| 亚洲区欧美区| 日韩午夜伦| 四虎国产成人免费观看| 国内精品视频| 992tv国产人成在线观看| 国产精品思思热在线| 中文字幕日韩欧美| 亚洲国产成人久久精品软件| 國產尤物AV尤物在線觀看|