薛麗娟,席夢隆,王夢婕,王昊奮,阮 彤
華東理工大學 信息科學與工程學院,上海 200237
基于規則推理引擎的實體關系抽取研究*
薛麗娟,席夢隆,王夢婕,王昊奮,阮彤+
華東理工大學 信息科學與工程學院,上海 200237
關系抽取;關系推理;遠程監督;規則推理引擎
實體關系抽取是信息抽取的子任務,其主要目的是把無結構的自然語言文本中所蘊含的實體之間的語義關系抽取出來,并以結構化的形式表示出來,供用戶查詢和分析使用。遠程監督學習(distant supervision learning)是訓練大規模關系抽取器的主要方法。
傳統的實體關系抽取方法需要針對預先定義好的每一類實體關系人工標注大量的訓練語料,然后利用機器學習的方法訓練分類器進行新的實體關系識別。人工標注大量的訓練數據是非常耗時和耗力的,因此本文將實體關系抽取和實體關系推理結合起來,只需要在少量訓練數據的情況下就可以訓練出大規模關系抽取器。另外傳統的實體關系抽取只注重一種特定類型的數據源,怎樣充分利用不同的數據源并沒有得到充分研究。本文提出的方法將綜合多種數據源,不僅從無結構的文本中可以抽取出實體關系,從半結構的實體屬性中也可以抽取出實體關系。
本文主要從百度知識圖譜大賽提供的數據文件中抽取人物實體之間的關系,針對于此,提出了一種新穎的基于規則推理引擎的實體關系抽取方法。本文的主要貢獻在于:
(1)綜合多種數據源抽取實體關系,不僅可以從無結構文本中抽取出實體關系,從半結構的實體屬性中也可以抽取出實體關系。
(2)將關系抽取和關系推理結合起來增加訓練數據的數量。原始的訓練數據比較稀疏,使用規則推理引擎推理出一些關系作為訓練數據,用來幫助從無結構文本中抽取關系三元組,將從無結構文本中抽取出的高置信度的關系三元組再加入到種子集中,因此整個過程是不斷迭代進行的,在每一輪迭代中,抽取出的高置信度的關系三元組將作為新的種子。
(3)本文的實體關系抽取主要是人物關系抽取,關系抽取時將實體本身固有的屬性作為特征將會大大提高關系抽取的準確率,比如實體的性別屬性以及實體的姓名特征。
實體關系抽取是信息抽取的一個應用,在過去幾年里得到了廣泛的研究。封裝器歸納法(wrapper induction)是一種用于從半結構化數據中抽取信息的方法。Multi-view learner[1]和Vertex![2]使用監督學習方法從手動標注的數據中學習抽取規則。信息抽取的另一種方法就是從文本中抽取信息,Snowball[3]和TextRunner[4]就是典型的例子。Snowball的輸入是語料和種子集,通過總結語料中種子出現的模式學習抽取模式(extraction patterns)。Banko等人構建的TextRunner系統在沒有事先定義規則和手動標注種子的情況下從語料中學習所有的關系。Reverb[5]使用句法分析確定關系短語,將出現在兩個名詞短語之間的動詞短語作為關系短語。Wu等人[6]的WOE系統使用種子式擴展方法從Wikipedia的Infoboxes中學習抽取patterns。Reverb和WOE只能抽取出所有關系短語是動詞的關系,同時它們也忽略了上下文,因此抽取的關系三元組并不是事實。為了改善這些缺陷,Mausam等人[7]提出了OLLIE系統,OLLIE可以抽取出關系短語不是動詞的短語,并且可以抽取出使關系成立的條件。TextRunner、Reverb、WOE和OLLIE都是在沒有事先定義規則和沒有事先給出目標關系的情況下抽取所有的關系,因此這些方法都屬于開放域關系抽取(open information extraction, Open IE)。本文需要從文本中學習出給定的目標關系,這是本文工作和Open IE方法很大不同的地方。
NELL[8]、SOFIE[9]和PROSPERA[10]是需要給定目標類別和關系的信息抽取工具。NELL的輸入數據由包含幾百個類別和關系的初始本體以及每個類別和關系的少量實例組成。SOFIE通過將學習得到的pattern和文本進行匹配,從文本中抽取本體事實,并將這些事實鏈接到本體知識庫中,它在現存的知識庫上做本體推理,目的是對詞義進行消歧。因此SOFIE是一個將模式匹配、詞義消歧和本體推理集合在一起的系統。Nakashole等人提出的PROSPERA 對SOFIE進行了改善。PROSPERA對pattern做N-gram,目的是對pattern進行泛化以增加召回率。KYLIN[11]使用迭代的方法構造訓練數據,用構造的訓練數據學習兩種分類器,一種分類器用于識別,另一種分類器用于過濾。KOG[12]使用機器學習中的支持向量機(support vector machine,SVM)和馬爾可夫邏輯網絡(Markov logic network,MLN)中聯合推理的方法將Wikipedia的Infoboxes和WordNet結合起來建立了一個豐富的本體。NELL、SOFIE和PROSPERA都需要手動定義一些規則來幫助pattern的學習,而在本文的工作中并不需要手動地定義規則。
信息抽取的一個趨勢是從發布在網上的數據中抽取信息,包括網頁、開放鏈接數據和動態網站上的列表和表格。Gentile等人[13]提出多策略學習的方法,該方法將文本抽取和包裝器歸納學習結合起來,從列表、表格和網頁中抽取知識。雖然這種方法看起來似乎很好,但是在他們的文章中并沒有清楚地說明實驗評估結果。另一方面,遠程監督是利用不同種類數據源之間冗余信息的有效方法,文獻[14-15]就是使用遠程監督學習的方法抽取關系。
3.1問題定義
本文的語料集S由實體描述屬性中的分句構成,每個分句至少包含兩個實體。本文的任務可以描述為:給定關系類型體系 R={r1,r2,…,rm},實體集合E={e1,e2,…,en}以及每個實體ei的全部屬性和少量的實體關系種子集合Seed={(eirkej)|rk∈R,ei,ej∈E},對于?s∈S,給定句子S中的兩個實體ei∈E,ej∈E,預測ei、ej在S中的關系對應于集合R中的一個或多個rk。例如,給定句子“姚沁蕾是籃球明星姚明的女兒”以及實體“姚明”和“姚沁蕾”,本文的任務就是預測出<姚明,姚沁蕾>在句子S中是“女兒”關系。分析了語料庫中的數據之后可以得到以下的觀察:
(1)可以從實體的一些屬性中抽取出實體關系,比如從實體的“parent”屬性中可以抽取出“父母”關系。
(2)現有的規則推理引擎可以推理出新的實體關系。可以將實體關系文件給出的實體關系以及從實體屬性中抽取的實體關系作為輸入,用規則推理引擎推理出更多的實體關系。在本文中,規則推理引擎還需要實體性別作為輸入。
(3)一些關系類型之間具有層次關系,如“父母”關系和“父親”、“母親”這兩個關系具有層次關系。確定了“父母”關系后,可以根據實體的性別進一步確定是“父親”關系還是“母親”關系,以<姚沁蕾父母姚明>為例,如果可以確定“姚明”的性別為“男”,那么可以將上述關系三元組細化為<姚沁蕾父親姚明>。因此識別出實體的性別有助于關系的抽取。
3.2整體流程
本文的目標是找到一種識別語料庫中任意實體對之間關系的方法。實體關系文件已經給出少量的實體關系作為種子,但是這些種子對于訓練抽取器是遠遠不夠的。根據3.1節的觀察,可以通過兩種途徑擴充種子的數量:一種是從實體的屬性中抽取實體關系;另一種是用規則推理引擎推理出新的實體關系。將以上實體關系作為種子幫助從實體的“description”屬性中抽取實體關系。實體的“description”屬性可以看作是一種無結構的文本,因此整個過程就是遠程監督學習的過程。本文的工作主要分為3步:實體性別識別、規則引擎推理和實體關系抽取。整體流程如圖1所示。
4.1實體性別識別
通過觀察,實體的性別可以通過3種途徑獲得:

Fig.1 Overall workflow of algorithm圖1 算法整體流程圖
(1)從實體的“gender”屬性中識別實體的性別。對于一些實體,它們本身包含“gender”屬性,因此可以直接確定這些實體的屬性。
(2)使用一些預先定義的啟發式規則從實體的“description”屬性中識別實體的性別。實體的“description”屬性由一個或多個分句組成,如果“description”屬性的第一個分句包含“,男,”或者“,女,”,那么就可以直接確定該實體的性別。
(3)從實體關系文件的三元組中識別實體的性別。部分關系三元組中的關系謂詞和性別有關,比如三元組<姚明女兒姚沁蕾>,根據關系謂詞“女兒”可以確定“姚沁蕾”的性別為“女”。
以上3條觀察可以識別一部分實體的性別,但是大部分實體的性別還是無法確定。因為使用上述3條觀察識別出的實體性別準確率很高,所以把這些實體作為訓練數據,實體性別識別任務就可以視為一個二分類問題,使用支持向量機為分類模型。
使用分類法識別實體性別的過程如下:
(1)特征抽取
高頻詞作為特征:用S表示訓練數據中所有實體的“description”屬性的分句集合,使用Stanford Parser 對S分詞,選擇出現次數超過50次的詞為高頻詞。
實體的“weight”和“heigh”屬性作為特征:因為男性和女性的身高、體重具有很明顯的差別,所以“weight”和“height”屬性對分類具有很大的貢獻。“weight”和“height”的屬性值經過標準化和離散化之后作為特征值。
建立姓名庫作為特征:通常可以根據姓名中的某些字確定實體的性別,選擇經常出現在男性姓名中的字建立一個男性姓名庫,選擇經常出現在女性姓名中的字建立一個女性姓名庫,然后把男性姓名庫和女性姓名庫分別作為特征。
(2)特征選擇
并不是所有的特征都對分類有貢獻,在分類之前需要進行特征選擇,本文使用信息增益選擇對分類有貢獻的特征。
(3)訓練分類模型
使用訓練數據訓練SVM分類模型,用訓練好的分類模型對性別未知的實體進行分類。
4.2規則引擎推理
規則推理引擎通常有規則和事實兩個輸入,目的是把已知的事實按照一定的規則推理出新的事實。在本文中,事實是關系三元組,根據關系謂詞的性質,人工總結出如下8條規則。
(1)關系謂詞具有反函數性,則存在規則:
如:
(2)關系謂詞加條件后具有反函數性,則存在規則:
如:
(3)關系謂詞具有對稱性,則存在規則:
如:
(4)關系謂詞加條件后具有對稱性,則存在規則:
如:
(5)關系謂詞具有傳遞性,則存在規則:
如:
(6)關系謂詞具有多重復合關系,則存在規則:
[with conditions]?
如:
(7)關系謂詞具有層次性,則存在規則:
如:
(8)關系謂詞具有互斥性,則存在規則:
如:
從實體的“parent”、“spouse”屬性中可以抽取出實體關系,將抽取出的實體關系和關系文件中給出的實體關系作為種子用于規則推理引擎的推理,規則推理引擎推理出的實體關系加入到種子集中。本文使用Drools和Tuffy兩種規則推理引擎。
4.3實體關系抽取
實體的“description”屬性由一個或多個句子組成,因此可以將“description”屬性看作是無結構的文本。使用種子數據從實體的“description”屬性中抽取出至少包含一個實體且該實體不是當前實體的分句,對于只包含一個實體的分句,使用簡單的規則加上當前實體,這樣就得到訓練數據。本文從實體的上下文、句法、詞性等信息中抽取特征訓練分類器,從而完成關系抽取任務。每一種關系的抽取都視為一個二分類問題,為每一種關系訓練一個分類模型。為某種關系訓練分類模型時,當前關系作為正例,其他所有關系作為負例。
4.3.1最短依賴路徑作為抽取特征
使用Stanford Parser對分句做依存關系分析,從產生的依賴路徑中學習出對關系抽取有用的patterns。以下面的句子為例:
姚沁蕾是籃球明星姚明的女兒。
產生的依賴路徑為:nsubj(女兒-7,姚沁蕾-1),cop(女兒-7,是-2),nn(明星-4,籃球-3),nn(女兒-7,明星-4),assmod(女兒-7,姚明-5),case(姚明-5,的-6),root(ROOT-0,女兒-7)。這些依賴路徑形成一個有向圖

這種路徑叫作核心路徑,可以看出核心路徑對預測兩個實體之間的關系是很有用的。
為了解決數據稀疏的問題,本文對核心路徑進行泛化,用詞性標注取代核心路徑中的詞語。同時,所有的專有名詞都抽象為“NN”,所有的復合名詞(如“NN nn NN”)都抽象為“NN”。以上述核心路徑為例,泛化后的路徑為,把這種泛化后的核心路徑作為pattern。
由于產生的pattern比較稀疏,需要對pattern進行合并。pattern的合并分兩種情況:
(1)對pattern在一定的編輯范圍內進行合并。如果一個pattern和另一個pattern只有一個詞性或依賴關系不同,就把這兩個pattern合并成“或”的關系。比如:pattern1為“prnmod VV dobj NN dep”,pattern2為“prnmod VV dobj NN assmod”,這兩個pattern只有一個依賴關系不同,可以合并成“prnmod VV dobj NN dep|assmod”。
(2)對pattern進行規約處理。如果一個pattern是另一個pattern的一部分,就把這兩個pattern合并成父子關系。比如:pattern1為“nsubj VV ccomp VV nsubj”,pattern2為“nsubj VV ccomp VV nsubj NN conj”,pattern1是子pattern,pattern2為父pattern,父pattern可以寫成“子pattern*”。
4.3.2關鍵詞作為抽取特征
分句中的關鍵詞對確定實體之間的關系非常有用。當兩個分句的句式結構相同時就需要通過關鍵詞語來確定實體之間的關系,以下面兩個句子為例:
姚沁蕾是籃球明星姚明的女兒。
張慕童是港星張智霖的兒子。
關鍵詞作為特征的表示形式為:“W1|W2|W3| W4|W5”,其中W1、W2、W3、W4和W5表示同一個意思的詞語,“|”表示或關系。使用Fudan Natural Language Process中的關鍵詞抽取方法抽取出每個分句的關鍵詞,抽取出的關鍵詞需要經過詞義統一和詞義擴展兩步處理。詞義統一是為了使表示同一個意思的詞語為同一維特征,如“兒子”和“獨子”表示同一個意思;詞義擴展是為了使在訓練數據中沒有出現但是和抽取的關鍵詞表示同一個意思的詞語為同一維特征,如從訓練數據中抽取的關鍵詞沒有“次子”一詞,但“次子”和“兒子”、“獨子”表示同一個意思。經過詞義統一和詞義擴展之后,表示“兒子”關系的這一維特征為“兒子|長子|獨子|次子|幼子”。
關系集R中的部分關系和實體的性別有關,如“父親”、“女兒”等關系。實體本身具有的屬性對關系抽取很有幫助,因此對于和性別有關的關系,抽取特征除了最短依賴路徑和關鍵詞之外還包括實體的性別。本文對“父親”關系增加了一維其獨有的特征,就是判斷兩個實體的“姓”是否相同,如果相同就置這一維特征為“1”,否則為“0”。
并不是所有的特征都對分類有貢獻,因此在訓練分類器之前要對特征進行特征選擇,本文選用信息增益作為特征選擇方法。雖然本文使用的方法是為每一種關系都訓練一個分類模型,但是所有的分類模型包含的特征類型都相同。
5.1實驗數據與設置
本文所用的語料庫Corpus是百度知識圖譜大賽提供的3個數據文件:實體屬性文件、實體關系文件、實體模式文件。實體屬性文件(entity)共包含11 445個實體,描述的是每個實體所包含的屬性以及對應的屬性值,實體屬性主要包括“name”、“sid”、“weight”、“height”、“description”、“parent”等屬性。實體關系文件(relation)用關系三元組
雖然本文方法是半監督的,但是需要標注數據去評估抽取質量。本文使用準確率Precision和召回率Recall作為評價標準,若A表示抽取出的正確的關系三元組,B表示抽取出的錯誤的關系三元組,C表示沒有抽取出的關系三元組,則準確率和召回率的定義分別如下:

5.2實驗結果與分析
5.2.1實體性別識別的結果分析
實體性別識別時所用的特征包括高頻詞(words)、“height”和“weight”屬性(attributes)、男女姓名庫(names)3類,每一類特征對實驗結果的影響如圖2(a)所示。本文在性別識別時選擇支持向量機、決策樹(decision tree,DT)、樸素貝葉斯(Na?ve Bayes,NB)和邏輯回歸(logistic regression,LR)4種不同的學習算法訓練分類模型,對這些模型進行比較,選擇識別準確率最高的模型作為最終的分類模型。不同學習算法的比較結果如圖2(b)所示。
5.2.2實體關系抽取的結果分析

Fig.2 Comparison of different feature combinations and models圖2 不同特征組合和模型比較
本文對“妻子”、“師生”、“祖孫”、“兄弟”和“父親”5種關系進行了實驗。根據4.2節的描述,使用規則推理引擎對種子關系三元組進行推理以增加種子的數量,對Drools和Tuffy兩種規則推理引擎的比較如表1所示。由于Tuffy執行時把事實存放在關系數據庫中,判斷查詢通過SQL語句實現,由于用到數據庫技術,所需的內存就較小,但是本地I/O頻繁,導致運行速度較慢;而Drools執行時把事實存放在內存中,使用Rete算法對判斷和查詢進行優化,因此所需的內存較大,但是運行速度快。本文選擇了Drools作為規則推理引擎。

Table 1 Comparison of rule-based inference engines表1 規則推理引擎的比較
使用推理前和推理后的種子數據分別進行實驗,這里只使用NaiveBayes作為分類器,對抽取結果的影響如表2所示。使用規則推理引擎推理后,種子數據的數量增加,對于“妻子”一些關系的準確率會有所降低,但是抽取出的條數會大幅度增多,大大提高了召回率。

Table 2 Reasoning comparison表2 推理前后比較
本文試圖找到最適合的種子數量去學習最佳的分類模型,這里只使用Na?ve Bayes分類器,不同數量的種子對抽取的準確率和召回率的影響分別如圖3 (a)和圖3(b)所示。本文綜合考慮準確率和召回率,在保證有較高準確率的前提下又有較高的召回率。為每一種關系選擇了一個最佳的種子數量,“妻子”、“師生”、“祖孫”、“兄弟”和“父親”5種關系的最佳種子數量分別是50、20、30、30和100。但是在關系文件中5種關系的種子數都達不到上述標準,因此需要使用規則推理引擎推理出更多的關系三元組加入到種子集中。
根據4.3節的描述,本文對pattern特征進行合并處理,pattern合并前后的準確率如圖4(a)所示。對關鍵詞特征進行了合并擴展處理,關鍵詞合并擴展前后的準確率如圖4(b)所示。可以看出,對pattern進行合并和對關鍵詞進行合并擴展可以提高抽取的準確率。
在對每一種關系進行分類時,本文同樣選擇了4種不同的學習算法SVM、DT、NB和LR訓練分類模型,不同學習算法對結果的影響如表3所示。本文綜合考慮抽取的準確率和召回率為不同的關系選擇不同的分類模型,對于“兄弟”關系,NB學習算法明顯優于其他學習算法,但對于“祖孫”關系,各種學習算法沒有很大區別。

Fig.3 Precision and recall of different seed amount圖3 不同種子數下的準確率和召回率

Fig.4 Comparison of pattern and keyword圖4 Pattern和關鍵詞的比較

Table 3 Comparison for different models表3 不同模型的比較
本文針對傳統實體關系抽取需要人工標注大量數據并只注重一種特定類型的數據源的問題,提出了一種基于規則推理引擎的從多種數據源抽取實體關系的方法。從實體的多種屬性中抽取出實體關系,經規則推理引擎推理出更多的實體關系作為種子;幫助從無結構的文本中抽取實體關系。本文方法的優點在于將實體關系推理和實體關系抽取結合起來,大大增加了訓練數據的數量,解決了人工標注大量數據的問題。在數據集上的實驗結果表明,本文方法達到較高的準確率和召回率。接下來計劃將規則推理引擎應用于其他領域的關系推理中。本文方法在百度知識圖譜大賽中獲得第一名的成績。
References:
[1]Hao Qiang,Cai Rui,Pang Yanwei,et al.From one tree to a forest:a unified solution for structured Web data extraction [C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval,Beijing,China,Jul 24-28,2011.New York:ACM, 2011:775-784.
[2]Gulhane P,Madaan A,Mehta R,et al.Web-scale information extraction with vertex[C]//Proceedings of the 2011 IEEE 27th International Conference on Data Engineering,Hannover,Germany,Apr 11-16,2011.Piscataway,USA:IEEE, 2011:1209-1220.
[3]Agichtein E,Gravano L.Snowball:extracting relations from large plain-text collections[C]//Proceedings of the 5th ACM Conference on Digital Libraries,San Antonio,USA, Jun 2-7,2000.New York:ACM,2000:85-94.
[4]Banko M,Cafarella M J,Soderland S,et al.Open information extraction from the Web[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad,India,Jan 6-12,2007:2670-2676.
[5]Fader A,Soderland S,Etzioni O.Identifying relations for open information extraction[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg, USA:ACL,2011:1535-1545.
[6]Wu Fei,Weld D S.Open information extraction using Wikipedia[C]//Proceedings of the 48th Annual Meeting of the AssociationforComputationalLinguistics,Uppsala,Sweden, Jul 11-16,2010.Stroudsburg,USA:ACL,2010:118-127.
[7]Mausam,Schmitz M,Bart R,et al.Open language learning for information extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jeju Island,Korea,Jul 12-14,2012.Stroudsburg,USA: ACL,2012:523-534.
[8]Carlson A,Betteridge J,Kisiel B,et al.Toward an architecture for never-ending language learning[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence,Atlanta, USA,Jul 11-15,2010.Menlo Park,USA:AAAI,2010.
[9]Suchanek F M,Sozio M,Weikum G.SOFIE:a self-organizing framework for information extraction[C]//Proceedings of the 18th International Conference on World Wide Web,Madrid,Spain,Apr 20-24,2009.NewYork:ACM,2009:631-640.
[10]Nakashole N,Theobald M,Weikum G.Scalable knowledge harvesting with high precision and high recall[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining,Hong Kong,China,Feb 9-12,2011. New York:ACM,2011:227-236.
[11]Wu Fei,Weld D S.Autonomously semantifying Wikipedia [C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management,Lisbon,Portugal,Nov 6-10,2007.New York:ACM,2007:41-50.
[12]Wu Fei,Weld D S.Automatically refining the Wikipedia infobox ontology[C]//Proceedings of the 17th International Conference on World Wide Web,Beijing,China,Apr 21-25,2008. New York:ACM,2008:635-644.
[13]Gentile A L,Zhang Ziqi,Ciravegna F.Web scale information extraction with LODIE[C]//AAAI 2013 Fall Symposium,Semantics for Big Data,Arlington,USA,Nov 15-17, 2013.Menlo Park,USA:AAAI,2013.
[14]Mintz M,Bills S,Snow R,et al.Distant supervision for relation extraction without labeled data[C]//Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP,Singapore,Aug 2-7,2009.Stroudsburg,USA:ACL,2009:1003-1011.
[15]Roth B,Barth T,Wiegand M,et al.Effective slot filling based on shallow distant supervision methods[C]//Proceedings of the 6th Text Analysis Conference,Gaithersburg, USA,Nov 18-19,2013.arXiv:1401.1158.

XUE Lijuan was born in 1988.She is an M.S.candidate at East China University of Science and Technology. Her research interests include natural language processing,data mining and information extraction,etc.
薛麗娟(1988—),女,安徽當涂人,華東理工大學碩士研究生,主要研究領域為自然語言處理,數據挖掘,信息抽取等。

XI Menglong was born in 1991.He is an M.S.candidate at East China University of Science and Technology. His research interests include question answer system,data mining and knowledge graph,etc.
席夢隆(1991—),男,河南登封人,華東理工大學碩士研究生,主要研究領域為問答系統,數據挖掘,知識圖譜等。

WANG Mengjie was born in 1993.She is an M.S.candidate at East China University of Science and Technology. Her research interests include natural language processing,information extraction and data mining,etc.
王夢婕(1993—),女,安徽亳州人,華東理工大學碩士研究生,主要研究領域為自然語言處理,信息抽取,數據挖掘等。

WANG Haofen was born in 1982.He received the Ph.D.degree from Shanghai Jiao Tong University in 2013. Now he is a lecturer at East China University of Science and Technology.His research interests include semantic search,graph database,Web mining and information extraction,etc.
王昊奮(1982—),男,上海人,2013年于上海交通大學獲得博士學位,現為華東理工大學講師,主要研究領域為語義搜索,圖數據庫,Web挖掘,信息抽取等。

RUAN Tong was born in 1973.She received the Ph.D.degree from Chinese Academy of Sciences in 2002.Now she is a professor and M.S.supervisor at East China University of Science and Technology.Her research interests include natural language processing,information extraction and data quality,etc.
阮彤(1973—),女,上海人,2002年于中國科學院獲得博士學位,現為華東理工大學教授、碩士生導師,主要研究領域為自然語言處理,信息抽取,數據質量等。
Entity Relation Extraction Based on Rule Inference Engine*
XUE Lijuan,XI Menglong,WANG Mengjie,WANG Haofen,RUAN Tong+
College of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China
+Corresponding author:E-mail:ruantong@ecust.edu.cn
XUE Lijuan,XI Menglong,WANG Mengjie,et al.Entity relation extraction based on rule inference engine. Journal of Frontiers of Computer Science and Technology,2016,10(9):1310-1319.
Entity relation extraction refers to extract semantic relationships between entities from unstructured natural language text and express in a structured form.Traditional entity relation extraction methods only focus on a particular type of data source,and label large numbers of training data by humans to train extraction model.Manually labeling training data are labor-intensive and time consuming.So this paper proposes a method integrating diversity data sources, and combines rule-based inference engine to discover relation triples.More precisely,integrating structured and unstructured data sources,and in the case of having small amount of seeds provided by structured data,a large number of entity relationships are reasoned by rule-based inference engine.The newly entity relationships are fed as seeds to distantly supervise the learning process to extract entity relationships from unstructured text.The final entity relationships are obtained through multiple iterations.The experimental results show the effectiveness of the proposed method.
relation extraction;relation reasoning;distant supervision;rule-based inference engine
實體關系抽取是指從無結構的自然語言文本中抽取實體之間的語義關系,并以結構化的形式表示出來。傳統的實體關系抽取方法只注重一種特定類型的數據源,并需要標注大量的訓練數據來訓練抽取模型,人工成本高。因此提出了一種綜合多種數據源,并結合規則推理引擎的實體關系抽取方法,準確地說就是綜合結構化和非結構化兩種數據源,在結構化數據提供少量種子的情況下用規則推理引擎推理出更多的實體關系。然后使用遠程監督學習方法從無結構的文本中抽取實體關系,通過多次迭代獲得最終的實體關系。實驗結果證明了該方法的有效性。
2015-08,Accepted 2015-10.
*The Software and Integrated Circuit Industry Development Special Funds of Shanghai Economic and Information Commission under Grant No.140304(上海市經信委“軟件和集成電路產業發展專項資金”).
CNKI網絡優先出版:2015-10-20,http://www.cnki.net/kcms/detail/11.5602.TP.20151020.1042.016.html
A
TP391