宋卿,戚成琳,楊越
(1.中國傳媒大學 新媒體研究院,北京 100024;2.中國傳媒大學 理工學部,北京 100024)
基于Bootstrapping的新聞事件型實體關系抽取方法
宋卿1,戚成琳1,楊越2
(1.中國傳媒大學 新媒體研究院,北京 100024;2.中國傳媒大學 理工學部,北京 100024)
新聞所包含核心內容是事件,現有的中文實體關系抽取方法都針對屬性型關系,忽略了事件型關系的抽??;新聞內容涉及領域廣,要求關系抽取方法具有良好的領域擴展能力;同時,開放域人工標注訓練語料庫的難度較大。針對上述問題,本文提出Bootstrapping的關系種子集自動生成方法,并在迭代過程中加入擴展和過濾規則,最終得到準確度和復用性較高的實體關系提取模式。通過實驗測試,本文提出的方法在事件型實體關系的提取中能夠取得良好效果。
關系抽?。皇录完P系;Bootstrapping;開放模板
隨著媒體行業信息化程度不斷加深,互聯網已成為媒體機構最重要的宣傳陣地,中文新聞網頁總量也早已過億。面對海量的新聞內容,傳統的搜索引擎基于關鍵字匹配和網頁重要度排序等方法,雖然在一定程度上能夠解決用戶查詢新聞信息的需求,但僅能提供符合條件的新聞文本,用戶仍需要通讀全文來獲取新聞所包含的事件內容。此外,新聞記者進行新聞報道時,要花費大量的時間從以往相關報道中獲取相關知識作為素材。因此,如何幫助用戶快速準確的獲取新聞文本中所包含的核心內容就成為近幾年新聞領域的一個研究熱點。
信息抽取(Information Extraction,IE)技術的主要目的是從非結構化自然語言文本中抽取實體、實體關系和事件信息。其中實體關系抽取(Entity Relation Extraction)用于識別實體間的語義關系。例如 “國家主席習近平在中南海會見到訪的美國總統奧巴馬”一句中,“習近平”和“奧巴馬”是其中包含的兩個命名實體,而“會見”是兩個實體間的語義關系詞。我們可以看到:如果信息抽取是將非結構化的自然語言文本表述為結構化的表格數據,而實體識別確定了表格中各個元素的話,那么實體關系抽取則是確定這些元素在表格中的相對位置[1]??傊?,實體關系抽取是在實體識別的基礎上,將無結構的自然語言文本中包含的實體間的語義關系提取出來,然后以三元組(實體 1、關系、實體 2)的形式存儲在數據庫中,供用戶查詢或其他軟件系統復用。本文針對中文新聞的特點,提出了一種面向開放領域的中文新聞事件型實體關系抽取方法。
關系抽取任務最早由MUC[2]會議提出,在后續ACE[3]、TAC[4]測評會議的推動下取得了顯著的發展。早期主要采用基于規則的方法,一般針對特定關系類型,由語言專家或領域專家人工編寫關系抽取規則集合。如:抽取層次關系,專家通過制定規則集合(Y such as X,such Y as X,such Y as X,X,and other Y,Y including X,Y especially X等)來抽取不同表述形式的層次關系[5]。上述方法非常依賴人工制定規則的質量。優點在于匹配精準,但即便是某一種關系類別,人工也很難窮舉所有可能規則。如果有新的關系類型抽取需求,則要重新制定規則,因此基于規則的方法領域移植性較差。
監督學習方法在自然語言處理領域的廣泛應用極大的促進了實體關系抽取方法的革新。監督學習類方法又分為兩類:1)基于特征向量的方法和基于核函數的方法?;谔卣飨蛄糠椒▽㈥P系抽取任務轉化成分類問題,根據訓練語料庫的特點選取有效特征,并構造特征向量,使用條件隨機場[6]、最大熵[7]、SVM[8]等不同方法訓練關系分類器用于關系預測。該方法性能好壞的關鍵在于特征選取,不同的領域不同的語料特征選取差別很大,所以移植性較差,但計算復雜度較低;2)基于核函數[9-11]的方法,引入核函數對樣例關系和待識別關系之間的相似度進行計算,不需要定義特征集合,通過一個隱含的高維特征空間計算相似度,一方面可以得到更加全面的特征信息,同時也解決了特征方法在特征選取方面存在的問題,但核函數方法的計算復雜較高。監督學習方法相比人工規則的方法有了很大提升,但是還是需要人工進行算法訓練語料的標注,往往只針對特定的關系或者特定的領域,難以適應開放領域關系的抽取的要求。
面向開放域的關系抽取,Banko[12]等人最早提出了開放式關系抽取的概念,利用啟發式規則和簡單的句法特征訓練分類器的TextRunner系統,Hasegawa[13]等人在ACL2004提出利用無監督的方法,在假設相同實體關系具有相同的上下文語境的前提下,使用聚類算法對關系進行聚類,但這種方法過于依賴語料的好壞,而且假設也存在問題。哈工大劉安安[14]等人提出無監督開放式的中文實體關系抽取方法主要研究人、機構、地點之間的屬性型實體關系開放式描述。Wu F[15]等人提出的WOE系統,使用維基百科中的信息框來標注關系抽取語料,該類方法主要依靠已有知識庫,在假設兩個實體對應的句子均表示同一種關系的基礎上,通過將知識庫中已有的關系實例和待標注訓練語料進行對齊自動構建訓練語料庫,后續和監督學習方法一樣進行關系抽取分類器的訓練和關系的抽取。方法不需要人工過多干預,但是現階段沒有完備可供使用的中文知識庫,同時,目前所有的知識庫只有屬性型關系,缺少新聞需要的事件型關系,無法構建訓練語料滿足新聞文本中抽取事件型實體關系的要求。因此,我們考慮采用自動的方式生成種子關系集,然后通過自舉的方法不斷進行新的關系的學習,結合規則的思想,自動生成關系抽取模式,用于新的關系發現與抽取。
面向開放領域的實體關系抽取目前普遍采用弱/遠監督的方法,需要借助已有的知識庫,OLLIE系統[16]是抽取結果最好的系統,但其僅支持英文,初始種子集依靠ReVerb系統[17]產生。本文針對中文新聞提出自動構建種子集的方法,能夠解決中文領域無現成可用的知識庫和關系抽取系統的問題。通過多次迭代學習關系抽取模式,以簡單的模式為起點,生成更多復雜模式,從而匹配更多的關系,獲得比較好的實體關系抽取結果。方法主要分為下面兩個部分:新聞文本預處理和新聞事件型關系抽取。

圖1 開放式中文新聞事件型關系抽取方法流程
2.1 文本預處理
新聞文本以非結構化形式存在,為了便于后續處理,我們需要進行文本預處理,主要包括以下步驟:
(1)句子分詞與命名實體識別。綜合考慮分詞速度和準確率指標,我們選擇Ansj中文分詞包(分詞速度30萬字/秒,準確率大于96%)。輸出結果(有詞性標注、命名實體標注并且完成分詞的句子)將作為句子劃分和依存句法分析的基礎輸入。通過對結果分析發現,命名實體識別存在一定誤差,例如“中國傳媒大學 食堂 最 受 歡迎 的 菜品 是 廣院肉餅”的命名實體識別結果是“中國傳媒大學”為機構,但緊鄰的“食堂”并沒有與緊鄰的名詞共同識別為一個組織機構,我們期望得到的是“中國傳媒大學食堂”作為組織機構名,同時“廣院”和“肉餅”也存在類似的情況,因此,我們對ansj的命名實體識別結果進行如下處理:在識別出一個命名實體E1后,如果緊鄰這個實體的前后詞語是名詞N或者命名實體E2,我們就對其標記,在后續得到依存句法分析結果后,如兩個詞語之間的依存關系滿足“ATT關系”,我們則將詞語組合的整體為一個命名實體E3(E1E2/E1N)。
(2)復雜句切分??紤]到依存句法分析對復雜長句的分析準確率很低,因此我們考慮對復雜句進行切分,通過對新聞語料的分析,我們選用逗號作為分句的標點符號,遵循以下規則進行復雜句切分:對由一個或多個逗號分隔的復雜長句進行切分,如果任意一個切分結果中的按照前一步進行合并后的名詞或命名實體的總數少于2個,則不做切分。
(3)依存句法分析。依存句法分析選用哈工大的語言技術平臺云[18],以完成分詞、命名實體識別和復雜句切分處理后的文本作為輸入,進行依存句法分析,輸出依存句法分析結果。

圖2 依存句法分析結果
2.2 事件型關系抽取
(1)關系抽取種子集自動生成。對于事件型關系來說,命名實體/名詞短語對之間的關系主要是施動和受動的關系,為了保證關系抽取種子集的質量,我們選用最基本的關系抽取規則:依據依存句法分析的輸出結果,從依存樹中提取主語、謂語、賓語,其中主語和賓語是命名實體/名詞短語對,謂語則是與實體對主謂關系的動詞/動詞短語,進而得到候選的實體關系三元組??紤]到種子集質量對整個關系抽取的重要影響,我們定義以下規則對三元組進行篩選過濾:
?基于停用詞表過濾關系無實際意義的關系指示詞和名詞;
?關系指示詞為動補結構時,排除該三元組;
?通過定中關系(ATT)將實體對象補充完整;
基于以上過濾和補充規則,我們可以將滿足這些條件的句子中的實體三元組從候選集合中刪除或者補充完整,作為后面實體關系提取的種子集。
(2)基于Bootstrapping的事件型關系提取。將種子集中的三元組作為Bootstrapping算法的初始三元組在新聞語料庫進行軟匹配(句子中包含兩個以上三元組元素就匹配成功),對匹配成功的句子抽取實體關系模式,存入模式庫,然后選擇模式庫中頻率高的前N項(本實驗中N取10)對語料庫進行模式匹配,匹配成功則抽取實體關系三元組。Bootstrapping方法的核心在于不斷迭代,每次迭代輸出的數據作為下次迭代的輸入數據,誤差會不斷被放大,因此對每一次迭代的輸入準確性要求較高,通過上一步中三元組過濾規則對迭代結果進行過濾。過濾新獲得的實體關系三元組再作為軟匹配的種子,不斷重復上述過程,直到沒有新的實體關系三元組產生為止。

Bootstrapping算法偽代碼
(1)測試集獲?。耗壳皼]有公開的面向開放領域的中文新聞關系抽取語料庫,我們在新華社新聞庫中選取1000篇新聞文章(國內政治領域300篇,國際政治領域200篇,體育領域100篇,科技領域50篇,歷史領域100篇,財經領域50篇,軍事領域100篇,社會領域100篇),采用交叉標注的方式對新聞中所包含的事件句進行人工標注。
(2)實驗設計與實現:利用已構建種子集中實體關系三元組作為輸入,采用Bootstrapping方法進行開放模版的學習,表1中我們列舉了出現頻率最高的三個開放模版,模版符合下列條件:
?依存樹路徑中沒有空節點;
?關系表示節點位于實體之間;
?如果模版的介詞需要和關系中的介詞匹配;
?依存樹路徑中不能存在名詞組合或形容詞修飾的關系邊。
最后,就可以使用開放模版從待抽取關系的新聞文本中識別實體關系三元組。

表1 開放模板示例
(3)實驗結果與分析
從測試集中隨機抽取100個句子進行實驗,實驗結果如下:

表2 實驗關系三元組抽取結果

表3 實驗的召回率、準確率、F值

圖3 召回率、準確率、F值
從實驗結果中可以看出,引入了過濾規則后,算法的準確率得到大幅提高。
本文自動從中文新聞文本中抽取實體關系的算法是在OLLIE系統方法的基礎之上進行改進的。本文自動構建初始種子集,并通過過濾規則的設定控制了自舉算法每次迭代的誤差,對最終結果準確率的提高切實有效。接下來將會對方法進行優化,在實體關系抽取基礎之上,進一步研究對時間、地點等關系屬性值的抽取。
[1]車萬翔,劉挺,李生.實體關系自動抽取[J].中文信息學報,2005,19(2):1-6.
[2]Chinchor N.Overview of MUC-7[J].Seventh Message Understanding Conference(MUC-7):Proceedings of a Conference held in Fairfax,VA,1998.
[3]ACE[EB/OL].http://www.nist.gov/speech/tests/ace.
[4]TAC[EB/OL].http://www.nist.gov.tac/203/KBP.
[5]M A Hearst.Automatic acquisition of hyponyms from large text corpora[J].Proceedings of the 14th conference on Computational linguistics-Volume 2,539-545,Association for Computational Linguistics,1992.
[6]Culotta,Aron,Andrew McCallum,Jonathan Betz.Integrating probabilistic extraction models and data mining to discover relations and patterns in text[J].Proceedings of HLT-NAACL,2006.
[7]Kambhatla N.Combining Lexical,Syntactic,Semantic Features with Maximum Entropy Models for Extracting Relations[C].ACL,2004.
[8]Mooney R J,Bunescu R C.Subsequence kernels for relation extraction[C].advances in neural information processing systems,2005,171-178.
[9]Zelenko D,Aone C,Richardella A.Kernel methods for relation extraction[J].The Journal od Machine Learning Research,2003(3):1083-1106.
[10]Zhao S,Grishman R.Extracting relations with integrated information using kernel methods[C].Proceedings of 43rd annual Meeting on Association for Computational Linguistics,2005,419-426.
[11]Qian L,Zhou G,Kong F.Tree Kernel-Based Semantic Relation Extraction using Unified Dynamic Relation Tree[C].Advanced Language Processing and Web Information Technology,ALPIT’08 International Conference,2008,64-69
[12]M Banko,M Cafarella,S Soderland,M Broadhead,O Etzioni.Open information extraction from the Web[J].Procs of IJCAI.
[13]Hasegawa T,Sekine S,Grishman R.Discovering Relations among Named Entities form Large Corpora[C].Proc of ACL-2004,2004,415-422.
[14]劉安安.無指導的開放式中文實體關系抽取[D].哈爾濱工業大學,2013.
[15]Wu F,Weld D S.Open information extraction using Wikpedia[J].ACL ’10 Proceedings of the 48th Annual Meeting of the Association for Cimputational Linguistics,2010,118-127.
[16]Mausam,Michael Schmitz.Open Language Learning for Information Extraction[J].
[17]Oren Etzioni,Anthony Fader,Janara Christensen,Stephen Soderland,Mausam.Open information extraction:the second generation[J].Proceedings of the International Joint Conference on Artificial Intelligence,2011.
[18]Che W,Li Z,Liu T.LTP:A Chinese Language Technology Platform[J].Proceedings of the Coling 2010,8,13-16.
(責任編輯:宋金寶)
News Event Relation Extraction Approaches Based on Bootstrapping
SONG Qing1,QI Cheng-Lin1,YANG Yue2
(1.New Media Institute,Communication University of China,Beijing 100024,China2.Faculty of Science and Technology,Communication University of China,Beijing 100024,China)
Event is the core content of the news.The entity relation extraction methods,which have been obtained,can only be used for extracting property relations.And the work on event relation extraction is neglected;News contents involving a wide range of fields,require the relation extraction method has domain expansion capability;and it is difficult to annotate the training corpus.To solve the above problems,we proposed an automatic seed set generation method of bootstrapping,and add the extension and filtering rules throughout the iteration,finally get entity relation extraction template with accuracy and reusability.The experimental results show that the method proposed in this paper can achieve good results in the extraction of event entity relation.
relation extraction;event relation;Bootstrapping;open template
2017-04-15
北京市科委項目(Z161100000216141);中國傳媒大學工科規劃項目(3132016XNG1605)
宋卿(1982-),男(漢族),貴州人,中國傳媒大學博士研究生、講師.E-mail:songqing@cuc.edu.cn
TP391.1
A
1673-4793(2017)04-0046-05