黃楊琛,賈焰,甘亮,徐菁,黃九鳴,赫中翮
?
基于遠程監督的多因子人物關系抽取模型
黃楊琛1,賈焰1,甘亮1,徐菁1,黃九鳴1,赫中翮2
(1. 國防科技大學計算機學院,湖南 長沙 410073;2. 湖南星漢數智科技有限公司知識圖譜研發部,湖南 長沙 410205)
針對遠程監督的基本假設過強容易引入噪聲數據的問題,提出了一種可以對遠程監督自動生成的訓練數據去噪的人物實體關系抽取模型。在訓練數據生成階段,通過多示例學習的思想和基于TF-IDF的關系指示詞發現的方法對遠程監督產生的數據進行去噪處理,使訓練數據達到人工標注質量。在模型分類器中,提出采用詞法特征和句法特征相結合的多因子特征作為關系特征向量用于分類器的學習。在大規模真實數據集上的實驗結果表明,所提模型結果優于同類型的關系抽取方法。
關系抽取;人物關系;遠程監督;機器學習;自然語言處理
在互聯網產生的爆炸式增長的電子文本信息中,大量人物實體以及他們之間的關系信息涵蓋其中。面對如此多元異質的數據,人們必須采用信息抽取技術才能滿足其從中快速獲取有效信息的需求。關系抽取作為信息抽取的一項重要任務,第一次正式提出是在1998年的第七屆消息理解大會(MUC, message understanding conference)上[1],它是指從自然語言文本中發現和識別2個實體之間的語義關系的過程[2]。
實體關系抽取技術突破了傳統的人工閱讀、理解等方式來獲得語義關系的限制,取而代之的是語義關系的自動查找和抽取[3]。作為自然語言處理中的熱門研究領域,實體關系抽取一直是信息抽取領域的重要方向。關系抽取的早期研究主要是通過人工建立語法和語義規則,然后通過模式匹配的方法來識別實體的關系[4-6]。由于這些方法需要大量的人工處理和專業知識的前期準備,研究人員開始嘗試機器學習方法。根據對標注數據的依賴程度,基于機器學習的關系抽取方法可分為有監督學習、半監督學習、遠程監督學習及無監督學習的方法。有監督學習方法將關系抽取作為一個分類問題,根據訓練數據設計有效的特征,然后構造各種分類模型,最后使用訓練好的分類器來預測關系。在特征選擇上,可以結合詞匯、句法、語義等特征來訓練關系分類器[7],還可以加入語法分析樹和依存關系樹來形成特征向量[8],此外,還有研究加入了關系特征詞的位置信息特征來進行關系分類[9]。另外,為了避免人工設計特征工程的缺陷,學者們開始利用神經網絡結構來自動學習自然語言文本特征然后進行實體關系抽取[10-12],這類深度學習方法也屬于有監督學習方法。有監督的關系抽取系統準確率和召回率都很高,但是嚴重依賴于事先制定好的關系類型體系和標注數據集。尤其是深度學習的方法,由于神經網絡本身的特點,需要大量的訓練數據才能得到較好的分類網絡模型。半監督學習方法主要采用Bootstrapping[13]、標簽傳播[14]等方式來進行關系抽取。對于要抽取的關系,該方法首先手工設定若干種子實例,然后迭代地從數據中抽取關系對應的關系模板和更多的實例。與有監督學習方法相比,半監督學習方法可以大大減少學習過程中需要的標注語料庫的規模,但是初始種子集的選取問題以及迭代過程中噪聲的干擾問題等會影響該方法的實際性能。而無監督[15-16]的開放式關系抽取方法是假設擁有相同語義關系的實體對擁有相似的上下文信息,從而利用每個實體對應的上下文信息來代表該實體對的語義關系,并對所有實體對的語義關系進行聚類。無監督實體關系抽取不需要預先定義實體關系類型體系,具有領域無關性,這在處理海量開放領域數據時很有優勢,但其聚類閾值難以事先確定,抽取結果的準確率較低,并且目前仍缺乏較客觀的評價標準。
近年來,各種大型知識庫(KB, knowledge base)如Freebase[17]、DBpedia[18]、YAGO[19]以及在線百科知識庫已建成,這對于構造有監督機器學習方法的訓練數據有極大的價值。Mintz等[20]于2009年首次在關系抽取領域提出遠程監督(DS, distant supervision)的思想。遠程監督方法假設如果2個實體在知識庫中是有關系的,那么所有包含這2個實體的句子都將表達這種關系。基于遠程監督的關系抽取自發地對齊自然語言文本和給定的知識庫,然后使用對齊的結果產生弱標簽訓練數據來學習關系提取[21-22]。圖1是一個采用遠程監督技術進行關系抽取的系統示例(本文出現的人名均為舉例用,與實際無關)。在該系統中,首先通過遠程監督技術在對齊自然語言文本和知識庫時,將識別出的含有某人物實體對的句子標記為知識庫中該實體對關系的弱標簽數據,然后針對相關人物對的關系查詢,系統通過將從句子中提取到的相關特征輸入分類器中進行關系判斷,最后通過分類結果中的關系概率大小來將正確的關系事實結果放入關系知識庫中。這既解決了有監督方法過于依賴人工標記數據的問題,又在一定程度上避免了無監督方法準確率較低的問題。
但是,遠程監督的基本假設并不嚴謹,在語料庫中的實體對共現句中并不一定都能表達實體對在知識庫中的關系。例如,“李明帶領大家來到了新聞發布會現場,張莉隨后也出現在現場。”這個共現句在語義上并不能表達他們之間的“夫妻”關系事實。這種包含了實體對卻不能提取到關系特征的句子屬于遠程監督方法產生的噪聲數據,應當將其過濾。目前,關系抽取的研究主要集中在英文資源的處理上,這主要是因為中文語料需要分詞,并且存在復雜的句式結構和隱含語義,因此中文人物關系抽取更加困難。另外,中文的知識庫建設比較晚,遠程監督在中文語料的關系抽取中的研究還比較少。潘云等[23]首次嘗試利用中文互動百科在線資源構建中文的人物關系抽取系統,采用的是標簽傳播算法訓練模型,得到68%左右的準確率,但此方法并沒有進行遠程監督數據的去噪處理。黃蓓靜等[24]利用詞向量及句子模式抽取、聚類及評分的方法,對遠程監督人物關系抽取過程得到的原始訓練集中的噪聲句子進行過濾,達到對遠程監督產生的訓練集去噪的目的,但是該方法所用的模式抽取方法可遷移性不好,具有很強的領域特性。

圖1 基于遠程監督的關系抽取系統
基于以上研究的不足,本文提出了一個針對中文文本的遠程監督人物關系抽取模型。該模型的主要方法和貢獻包括以下3個方面。
1) 通過遠程監督技術自動產生標注數據集,并且進一步地利用多示例學習思想以及本文提出的基于詞頻—逆文檔頻率(TF-IDF, term frequency-inverse document frequency)的過濾算法來獲取更準確的訓練數據。在不需要人工參與的情況下,可以獲得大量高質量的訓練數據集。
2) 本文模型在訓練過程的特征選擇中,綜合考慮自然語言文本的多因子特征,包括詞法特征和句法依存分析產生的句法特征,通過多因子特征向量各參數綜合調優達到較好的分類效果。
3) 本文模型具有較好的可拓展性,可適應新關系類型的抽取任務。即不需要人工干預標注的情況下,任何新的人物關系的抽取任務都可以使用本文模型來快速實現。


句子的句法結構描述了句子中的短語結構、依存結構及其功能。依存結構分析是句法結構分析的一個重要方面,它通過分析語言單位內成分之間的依存關系揭示其句法結構,主張句子中核心謂詞是支配其他成分的中心成分,而其本身卻不受其他任何成分的支配,所有受支配的成分都以某種依存關系從屬于支配者[28]。對于關系抽取來說,由于句子中的命名實體必定是作為一個短語結構出現在依存結構中的,那么這種依存關系也必然會反映出相應實體之間的關系特征[29]。
例如,“這是王磊與趙娟11歲的大女兒多多,大名叫王思南。”其中,文分詞和句法分析結果如圖2所示。從圖2可以看出,人物實體“王磊”和關系詞“女兒”存在著定中關系,關系詞“女兒”與核心謂詞“叫”存在著主謂關系,而核心謂詞“叫”與人物實體“王思南”之間又存在著動賓關系,通過這樣的句法依存分析可以發現,人物實體“王磊”與“王思南”都是依存于關系詞“女兒”的。進一步,通過“王磊”與“趙娟”之間的并列關系,又可以得到人物實體“趙娟”與“王思南”之間與關系詞“女兒”的依存關系。
與以上例句的分析結果類似,對依存句法分析的結果進行大量研究后發現,核心謂詞對獲取實體邊界、承接實體關系起著關鍵作用。句子中命名實體分別與核心謂詞、普通謂詞的平均距離有明顯差異。所以,在自然語言文本句子中,實體與核心謂詞的距離也是實體之間的一種隱含關系特征。

1) 遠程監督模塊:該模塊通過對齊關系知識庫和語料庫中的自然語言文本生成弱標記數據。同時,本文模型中還采用了多示例學習的思想,將同一個人物實體對產生的所有弱標簽關系實例放到同一個包中,通過同一關系的關系實例之間的信息互補性來提高后續分類的準確性。

圖2 句法依存分析示例

圖3 人物關系抽取模型框架
2) 預處理模塊:該模塊完成2個功能。首先,對所有的弱標簽數據進行詞性標注、句法分析等自然語言處理操作,為后續的特征提取做準備。其次,則是針對遠程監督產生的弱標簽數據的正例包,通過基于值的關系指示詞發現的過濾算法進行去噪處理,以得到更加精準的正例數據用于關系分類器的訓練。
3) 特征提取模塊:該模塊從語料庫的自然語言文本中提取多因子特征向量,分為詞法特征和句法特征,然后輸入關系分類器中,采用有監督的方法進行人物實體的關系分類。
接下來將從訓練語料生成、實驗數據去噪以及多因子特征向量3個部分來詳細闡述人物關系抽取的關鍵過程。
本文實驗涉及2個部分的實驗數據。關系知識庫的數據是從650萬個百度百科詞條中直接爬取的2 500萬個中文三元組。語料庫的自然語言文本語料為全網新聞數據,其中,涵蓋了若干新聞站點在2012年6—7月國內、國際的新聞真實語料。
實驗中使用遠程監督技術構建了包含104 593個句子的弱標簽數據集。其中,80%的弱標簽數據(83 675個句子)用作訓練數據,剩下的20%(20 919個句子)用作測試數據。本文實驗選擇5種常見的人物關系進行實驗,分別為夫妻、父子、母子、兄弟、姐妹。表1展示了弱標簽數據集的數據分布。

表1 弱標簽數據集的數據分布
得到遠程監督產生的弱標簽數據以后,在進行關系抽取實驗前,應當對實驗數據進行預處理。數據預處理的目的是通過自然語言工具對語料中的句子進行處理,以得到詞性標注、依存關系分析等結果。實驗采用的是HanLP漢語言處理包來進行中文的自然語言處理,其結果將作為特征表示以及向量生成的基礎。
由于中文文本表達的多樣性,應當盡可能地挖掘出實驗數據中對于關系分類有幫助的句子,過濾掉其中的噪聲。例如,對于關系“夫妻”來說,在自然語言文本當中含有“配偶”“夫婦”“妻子”“丈夫”等詞語的句子對于訓練關系“夫妻”的抽取模型更有幫助。因此,基于同義詞詞林擴展版構造了對應關系的關系詞詞典,針對遠程監督的強假設下產生的關系實例包中的弱標簽正例實驗數據,進行了進一步的去噪處理。引入來計算語料庫中每一個句子分詞后詞語的權值為

由此可見,值通過統計詞語的歸一化詞頻來反映詞語的重要性。然而,某些情況下,一些通用的高頻詞語對于反映句子的主題并沒有太大的作用,反倒是一些頻率較小的詞更能表達句子的主題。所以,還需要詞語的值通過統計包含該詞語的句子數與訓練語料中句子總數的關系來體現詞語的主題類別區分能力。因此,值通過綜合值和值的大小,可以判斷當前詞反映本句子主題類別的程度。基于此特性,計算出句中詞語的值之后,保留其中值最大的3個詞語放入集合中,并與相應的關系詞詞典()匹配。

在通過遠程監督自動產生了弱標簽的訓練數據,并且經過去噪處理后,接下來從標記為正例和負例的自然語言句子中獲得分類器的輸入特征。自然語言文章結構一般有語素<詞語<句子<段落幾個層級。比詞語更細粒度的語素特征,表達語義特征不明顯,存在大量干擾雜音,因此不選取。比句子更高層的段落特征,目前,還沒有好的方法標注段落特征,因此也未選取。本文模型中的分類器選擇的多因子特征為詞法特征因子和句法特征因子。詞法因子是以詞為對象,研究句子中詞語的形成和用法,包括詞法、詞性以及詞語的位置等信息。通過統計句子中的詞法因子可以反映出句子的組織規律。而句法因子是以句子為對象,研究句子的構成和功能。句法分析將輸入句子從序列形式變成樹狀結構,從而可以捕捉句子內部詞語之間的搭配或修飾關系,得到句子的淺層語義分析結果。最后,形成了多因子特征向量(,,,,,)。
3.3.1 詞法因子向量
自然語言文本中,詞語之間的位置、順序以及詞語的詞性都能夠反映出句子的重要信息。因此,從詞語的維度出發,選擇了以下詞法因子構成特征向量。
1) 距離特征():研究表明[15],距離更近的2個實體之間存在實體關系的可能性更大。因此,本文將2個人物實體在句子中的詞距作為距離特征。
圖4中的點(5, 0.792 3)表示2個實體之間的詞距小于或等于5時的關系實例總數占總關系三元組數的79.23%。從圖4可以看出,開始階段隨著詞距的增大,關系三元組的數目急劇增大。但是當詞的數目超過5時,隨著實體之間詞距的增大,關系三元組數量的增加幅度越來越小。這也就說明了距離較近的2個實體更可能存在關系。

圖4 實體間的詞距與三元組的數量關系

3) 詞性特征():在人物關系抽取中,能夠表示人物關系的詞語通常是名詞或動詞。因此,對于語料庫中句子特征的構建來說,名詞和動詞比其他詞語更為重要。通過統計分詞后句子中的動詞和名詞的數量,并進行歸一化處理,從而衡量動詞和名詞對于人物關系判斷的影響。
3.3.2 句法因子向量
從第2節的依存句法分析相關知識可以了解到,通過對句子進行依存分析所得結果的語塊以及語塊之間的依存關系,可以直接反映實體間的語義關系。因此,從句子的句法分析結果出發,選擇以下句法因子構成特征向量。
1) 句法依存關系特征():由于人物實體將會作為短語結構出現在依存結構中,這些短語結構間的依存關系必然會反映出相應實體之間的關系特征。因此,通過獲取實體對每個實體在句子中所屬的句法關系依存值來反映人物實體間的關系。
2) 實體與核心謂詞之間的距離特征():根據命名實體識別和句法依存分析的結果,計算出人物實體與核心謂詞之間的詞距。
3) 實體上下文特征():實體的上下文可以直接反映句子的信息。從圖4可以得知,0.792 3的關系實例都可以在實體之間得到。除此之外,實體對左右兩側的內容同樣重要。因此,通過計算所得到的權值,將人物實體對的上下文信息加入分類特征中。取為實體對左右兩側的詞語數目,從語料庫中抽樣統計得到表2。從表2可以看出,隨著的增大,獲得的信息也就更多,因此能在此范圍內獲得關系三元組的句子也就越多。但是大于2以后的增幅并不明顯,而越大計算的開銷則呈指數級增加。因此,本實驗中取=2,即將句中人物實體的前2個詞和后2個詞的信息也加入分類特征。

表2 關系三元組總數目與n的關系

為了驗證人物社會關系抽取模型在不同關系上的性能,針對5種人物關系的抽取結果進行了對比。圖5的縱坐標是每種關系抽取結果的以及1值的數值大小,縱坐標是對應表1中的關系類型編號,其中,最后一組展示的是人物抽取模型的3項指標的平均值。從表1可以發現,知識庫中含有關系“夫妻”的三元組是最多的,這就直接影響到了實驗的最終結果。實驗結果顯示,在所有關系中,關系“夫妻”的抽取模型的結果是最好的。同樣地,關系“姐妹”在知識庫中的三元組數量是最少的,其抽取結果也是所有關系中最差的。這是容易理解的,因為知識庫中含有的知識越全面,能夠從語料庫的關系實例中學習到的該關系特征就會越多,那么對于后續關系識別的指導作用就越大。

圖5 關系抽取模型的性能
另外,為了驗證本文模型提出的針對關系正例包中的進一步除噪操作的有效性,本文實驗還進行了有無除噪操作的關系抽取系統的性能對比。圖6展示了除噪前后系統的性能對比,其中,橫坐標同圖5,表示的是與表1對應的關系類型編號,最后一項表示的綜合5種關系類型的1值的平均值,縱坐標表示的是抽取結果的1值。從圖6可以看到,進行了除噪操作的關系抽取系統的性能相較于未進行除噪操作的系統的性能有了進一步的提升,這證明本文提出的基于TF-IDF的關系指示詞發現的去噪方法對于遠程監督的關系抽取而言是有效的。

圖6 有無除噪操作的系統性能對比
為了驗證各特征因子對于人物社會關系抽取模型的有效性,對每一項特征因子對于關系抽取的作用都進行了因子疊加實驗,共6組實驗。第一個實驗選取的特征是距離特征,第二個實驗特征是在實驗一的基礎上加入了相對位置特征。依次類推,后一個實驗是在前一個實驗的基礎上增加了一維特征。性能比較平均值如表3所示,其中,表示準確率,表示召回率,1表示1值。

表3 不同特征下模型性能比較
從表3結果來看,隨著特征的增加,關系抽取的性能越來越好。這反映了分類器中輸入的關系描述數據的信息越多,分類器的學習能力就會越好,那么在分類的時候就更容易獲得好的結果。但是,仔細分析發現,整個特征中,動詞和名詞特征的加入對于關系抽取的性能提升作用并不是很大。經過分析認為,可能僅僅統計句子中的動詞、名詞的數量并不能很好地反映某關系在句子中的存在。例如,“李明夢想著成為郎朗那樣的人,要知道郎朗畢業于美國柯蒂斯音樂學院,他不僅是國際著名鋼琴家,還是聯合國和平大使。”這句話中動詞和名詞的數量很多,但是并不能反映2個人物實體之間的關系。另外,還觀察到,當加入句子的依存句法分析特征以后,關系抽取系統的性能得到了明顯的提升。所以,在人物關系抽取的任務中,發現和理解自然語言文本中的語義才是抽取人物關系的關鍵。
為了驗證本文模型對于新關系的適應性,在不需要其他任何額外操作的情況下,利用以上的人物關系抽取模型進行新關系(“朋友”“同事”)的抽取實驗。
新人物關系抽取結果如表4所示。從結果來看,關系“朋友”的抽取結果要優于關系“同事”的抽取結果。經分析發現可能有以下原因:1) 統計發現知識庫中含有關系“朋友”三元組為56 557組,而關于“同事”的三元組為48 623組,因此關系“朋友”能夠從知識庫中學到的關系特征更全面,從而達到更好的關系抽取效果;2) 關系“同事”的表述相對關系“朋友”的表述更加隱晦,在很多句子中可能只是描述2個人物實體在同一機構中一起工作的事實,而沒有具體的關系描述詞,例如,“李明和趙西一起邁入公司的大門,開啟一天的工作。”在這句話中,模型中的詞法特征和句法特征實現的淺層的語義分析并不能得到2個人物實體是“同事”關系的有效特征。因此,在關系分類器的學習過程中,關系“同事”的無效訓練數據可能更多,因而抽取效果不太理想。

表4 新關系的抽取性能比較
當前針對中文文本的基于遠程監督的人物關系抽取研究中,還沒有一個標準的數據集用于對比實驗。但是,從目前的研究現狀來看,中文知識庫大多都是基于中文百科構建的,語料庫大多采用新聞數據構成,這說明此情況下,通過遠程監督技術將知識庫和語料庫對齊所產生的訓練數據并不會有太大差異。因此,在相似數據下,可以將本文模型與其他相近研究進行對比。
標簽傳播模型(2015年)[23]和模式聚類模型(2017年)[24]都是在中文文本下,基于百科知識庫和新聞數據,采用遠程監督技術產生訓練數據的人物關系抽取模型。不同的是,標簽傳播模型采用的是基于人物對間相似度計算的標簽傳播方法來進行人物的關系抽取,模式聚類模型則采用句子模式聚類的方法進行遠程監督數據的過濾以后再進行人物關系的抽取。實驗結果對比如表5所示。從實驗結果來看,標簽傳播模型的準確率明顯低于后兩者的準確率,這說明對遠程監督產生的弱標簽訓練數據進行過濾處理,對人物關系抽取結果的準確性很有幫助。另外,模式聚類模型采用的模式匹配方法在召回率上的結果不如本文模型,這說明使用特征抽取的方法進行關系分類,能在保證準確率的同時提高系統的召回率。綜合對比發現,在大規模真實數據集上的實驗結果表明,本文模型結果優于其他同類型的人物關系抽取模型。

表5 相關研究對比
本文提出了一個針對中文文本自動生成訓練數據的人物實體關系抽取模型。它首先利用遠程監督技術產生弱標簽數據集,然后采用多示例學習的思想以及本文提出的基于TF-IDF的過濾算法獲取更準確有效的訓練數據,最后利用多因子特征向量采用有監督的方法進行關系抽取。整個模型包含3個部分,遠程監督的模塊、預處理模塊和特征提取模塊。本文將文本數據中的詞法特征和句法特征綜合考慮,從文本詞語結構和依存句法上提取反映實體間關系的相關特征。在真實數據集上進行的實驗表明,基于關系指示詞的過濾算法能有效提高遠程監督關系抽取的準確率,并且本文模型性能優于當前中文語料下的其他遠程監督關系抽取系統,另外,本文模型還具有良好的新關系類型的適應性。
另一方面,實驗結果表明,通過遠程監督獲得的弱標簽數據的準確性在很大程度上影響著關系抽取的結果。此外,源于自然語言處理技術的特征提取過程中可能產生的誤差積累會導致關系抽取模型的性能很難提高。在未來,將探討如何進一步減少在遠程監督過程中的錯誤標簽的問題,并且可以使用深度學習技術自動學習句子的相關特征。
[1] CHINCHOR N, MARSH E. Muc-7 information extraction task definition[C]//The Seventh Message Understanding Conference (MUC-7), Appendices. 1998: 359-367.
[2] CHE W, LIU T, LI S. Automatic entity relation extraction[J]. Journal of Chinese Information Processing, 2005, 19(2): 1-6.
[3] 劉紹毓, 李弼程, 郭志剛, 等. 實體關系抽取研究綜述[J].信息工程大學學報, 2016 (5): 541-547.
LIU S Y, LI B C , GUO Z G, et al. Review of entity relation extraction[J]. Journal of Information Engineering University, 2016(5): 541-547.
[4] APPELT D E, HOBBS J R, BEAR J, et al. SRI International FASTUS system: MUC-6 test results and analysis[C]//The 6th Conference On Message Understanding. 1995: 237-248.
[5] YANGARBER R, GRISHMAN R. NYU: description of the proteus/PET system as used for MUC-7 ST[C]//Seventh Message Understanding Conference (MUC-7).1998.
[6] AONE C, RAMOS S M. REES: a large-scale relation and event extraction system[C]//The Sixth Conference On Applied Natural Language Processing. 2000: 76-83.
[7] KAMBHATLA N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//The ACL 2004 On Interactive Poster And Demonstration Sessions. 2004: 22.
[8] GUO D Z, JIAN S, JIE Z, et al. Exploring various knowledge in relation extraction[C]//The 43rd Annual Meeting on Association for Computational Linguistics. 2005: 427-434.
[9] 寧海燕. 實體關系自動抽取技術的比較研究[D]. 哈爾濱: 哈爾濱工業大學, 2010.
NING H Y. Comparative study of automatic entity relation extraction[D]. Harbin: Harbin Institute of Technology, 2010.
[10] WANG L, CAO Z, MELO D G, et al. Relation classification via multi-level attention CNNS[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 1298-1307.
[11] KUMAR S. A survey of deep learning methods for relation extraction[J]. arXiv preprint, arXiv:1705.03645, 2017.
[12] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 207-212.
[13] CARLSON A, BETTERIDGE J, KISIEL B, et al. Toward an architecture for never-ending language learning[C]//AAAI. 2010: 3.
[14] 劉錦文, 許靜, 張利萍, 等. 基于標簽傳播和主動學習的人物社會關系抽取[J]. 計算機工程, 2017, 34(2): 234-240.
LIU J W, XU J, ZHANG L P, et al. Personal social relation extraction based on label propagation and active learning[J]. Computer Engineering, 2017, 34(2): 234-240.
[15] 秦兵, 劉安安, 劉挺. 無指導的中文開放式實體關系抽取[J]. 計算機研究與發展, 2015, 52(5): 1029-1035.
QIN B, LIU A A, LIU T. Unsupervised Chinese open entity relation extraction[J]. Journal of Computer Research and Development, 2015, 52(5): 1029-1035.
[16] GASHTEOVSKI K, GEMULLA R, DEL C L. MinIE: minimizing facts in open information extraction[C]//The 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 2630-2640.
[17] BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]// The 2008 ACM SIGMOD International Conference on Management of Data. 2008: 1247-1250.
[18] AUER S, BIZER C, KOBILAROV G, et al. Dbpedia: a nucleus for a web of open data[M]//The Semantic Web. 2007: 722-735.
[19] SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge[C]//The 16th International Conference on World Wide Web. 2007: 697-706.
[20] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]//The Joint Conference of the 47th Annual Meeting of the ACL and The 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 1003-1011.
[21] JI G, LIU K, HE S, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//AAAI. 2017: 3060-3066.
[22] PERSHINA M, MIN B, XU W, et al. Infusion of labeled data into distant supervision for relation extraction[C]//The 52nd Annual Meeting of the Association for Computational Linguistics. 2014: 732-738.
[23] 潘云, 布勒布麗汗?伊沙巴依, 楊靜, 等. 利用中文在線資源的遠程監督人物關系抽取[J]. 小型微型計算機系統, 2015, 4: 11.
PAN Y, BULEHULIHAN.YISHABAY, YANG J, et al. Distant supervised personal relation extraction using chinese online resource[J]. Journal of Chinese Mini-Micro Computer Systems, 2015, 4: 11.
[24] 黃蓓靜, 賀樑, 楊靜. 遠程監督人物關系抽取中的去噪研究[J]. 計算機應用與軟件, 2017, 34(7): 11-18.
HUANG B J, HE L, YANG J. Research on noise reduction in distant supervised personal relation extraction[J]. Computer Application and Software, 2017, 34(7): 11-18.
[25] CRAVEN M, KUMLIEN J. Constructing biological knowledge bases by extracting information from text sources[C]//ISMB. 1999: 77-86.
[26] SURDEANU M, TIBSHIRANI J, NALLAPATI R, et al. Multi-instance multi-label learning for relation extraction[C]//The 2012 Joint Conference On Empirical Methods In Natural Language Processing And Computational Natural Language Learning. 2012: 455-465.
[27] HOFFMANN R, ZHANG C, LING X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]// The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011: 541-550.
[28] 胡寶順, 王大玲, 于戈, 等. 基于句法結構特征分析及分類技術的答案提取算法[J].計算機學報, 2008, 31(4):662-676.
HU B S, WANG D L , YU G, et al. An answer extraction algorithm based on syntax structure feature parsing and classification[J].Chinese Journal of Computers, 2008, 31(4):662-676.
[29] 郭喜躍, 何婷婷, 胡小華, 等. 基于句法語義特征的中文實體關系抽取[J]. 中文信息學報, 2014, 28(6): 183-189.
GUO X Y, HE T T , HU X H, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Chinese Information Processing, 2014, 28(6): 183-189.
Multi-factor person entity relation extraction model based on distant supervision
HUANG Yangchen1, JIA Yan1, GAN Liang1, XU Jing1, HUANG Jiuming1, HE Zhonghe2
1. College of Computer, National University of Defense Technology, Changsha 410073, China 2. KB R&D department, Hunan Singhand Intelligent Data Technology Co., Ltd., Changsha 410205, China
Aiming at the problem that the basic assumption of distant supervision was too strong and easy to produce noise data, a model of the person entity relation extraction which could automatically filter the training data generated by distant supervision was proposed. For training data generation, the data produced by distant supervision would be filtered by multiple instance learning and the method of TF-IDF-based relation keyword detecting, which tried to make the training data has the manual annotation quality. Furthermore, the model combined lexical and syntactic features to extract the effective relation feature vector from two angles of words and semantics for classifier. The experiment results on large scale real-world datasets show that the proposed model outperforms other relation extraction methods which based on distant supervision.
relation extraction, person entity relation, distant supervision, machine learning, natural language processing
TP391
A
2017?10?25;
2018?06?21
黃楊琛,huangyangchen13@nudt.edu.cn
國家重點研究發展計劃基金資助項目(No.2016QY03D0601, No.2016QY03D0603);國家自然科學基金資助項目(No.61502517);湖南省重點研發計劃基金資助項目(No.2018GK2056)
10.11959/j.issn.1000?436x.2018118
TheNational Key Research and Development Program of China (No.2016QY03D0601, No.2016QY03D0603), The National Natural Science Foundation of China (No.61502517), Key Research and Development Plan of Hunan Province (No.2018GK2056)
黃楊琛(1991?),女,湖南衡陽人,國防科技大學博士生,主要研究方向為數據挖掘、自然語言處理等。

賈焰(1960?),女,四川成都人,國防科技大學教授、博士生導師,主要研究方向為社交網絡分析、信息安全等。
甘亮(1977?),男,江西樟樹人,國防科技大學講師,主要研究方向為知識工程、專家系統等。
徐菁(1989?),女,山東濟南人,國防科技大學博士生,主要研究方向為知識工程、文本挖掘等。
黃九鳴(1981?),男,福建安溪人,國防科技大學講師,主要研究方向為社交網絡分析、信息安全等。
赫中翮(1991?),男,山西大同人,湖南星漢數智科技有限公司工程師,主要研究方向為信息抽取。