馬超義,徐蔚然
(北京郵電大學 信息與通信工程學院,北京 100876)
基于弱監督和半自動方法的中文關系抽取數據集構建
馬超義,徐蔚然
(北京郵電大學 信息與通信工程學院,北京 100876)
關系抽取是信息抽取中的一項基礎任務,對信息檢索、問答系統、知識圖譜等有非常重要的意義。現有的關系抽取數據集存在包含類別太少、句子標注困難、不易擴展等缺陷,且只有英文數據集,不能很好地解決中文關系抽取任務。該文采用弱監督和半自動的方法,構建了一份中文關系抽取數據集,彌補了上述不足。首先借助維基百科抽取出豐富的關系對,從百度搜索返回結果及搜狗新聞語料中抽取包含實體對的句子,完成弱監督句子抽取過程。將句子放入RNN關系抽取系統進行打分,選取標注價值高的句子提交人工標注,對標注結果進行處理,最終得到中文關系抽取數據集。
關系抽取;數據集;弱監督;半自動
隨著互聯網技術的發展,網絡日益成為人們生活中不可缺少的一部分。信息抽取能夠幫助人們在海量的信息中快速定位到自己真正需要的信息,它是一個以自由文本作為輸入,產生固定格式的、無歧義的輸出數據的過程。
關系抽取是信息抽取的一項重要子任務,是指利用包含一對命名實體的自然語言文本來確定兩者之間的關系。對信息抽取技術的研究和應用有重要意義,對信息檢索、問答系統、信息過濾、機器翻譯等有非常積極的意義。比如,在搜索服務中,用戶想要知道某明星的出生日期,而網絡搜索通常只返回包含用戶搜索詞的頁面,無法洞悉用戶的需求進而直接返回答案。而關系抽取的目的正是希望通過對網絡中各類自由文本的解析,返回最有可能的結果作為答案。
實體關系抽取的方法,主要有基于知識工程的方法和基于機器學習的方法。基于知識工程的方法依賴于專家構建的知識庫,花費大量的人力和時間,并且系統移植困難,所以基于機器學習的方法成為目前的主流。機器學習方法效果的好壞很大程度上依賴于訓練數據集的質量。目前被廣泛采用的是2009年構建的SemEval-2010 Task 8數據集,數據集包含九種關系定義,最新的關系抽取系統可以達到85%以上的準確率。
考慮到現有數據集類別種類不夠豐富,分類效果已很難提高,且不能很好地解決中文關系抽取的任務。本文在總結了現有關系數據集的基礎上: ①采用弱監督的方法獲取待處理語料,豐富了關系類別及句子類型;②采用半自動的方式,處理獲得的語料,在保證準確性的基礎上,大大降低了人工標注工作量;③最終通過標注得到中文關系抽取數據集,供中文關系抽取任務使用。
2.1 相關工作總結
現有關系抽取數據集主要有兩個,一是Sem-Eval-2010 Task 8 數據集,該數據集構建于2009年,共包含九種互不相容的關系,如因果關系、包含關系等。數據集包含10 717條數據,其中每條數據是一個包含實體對的句子,類別標簽為實體對在該句中表現出的關系,例如:
My new lt;e1gt; apartment lt;/e1gt; has a lt;e2gt; large kitchen lt;/e2gt;. --Component-Whole
該數據集被廣泛應用,已被引用108次。目前關系抽取系統在該數據集上的分類效果已達到85%以上,在錯分的句子中很多通過人工都很難準確識別,因而需要更豐富的類別和更多的句子供關系抽取系統使用。
另一評測數據集是TAC-KBP關系抽取任務給出的官方答案。該任務中共包含41種關系類別,約33 000句。句子類別相對豐富,但句子都來自官方給出的新聞語料,類型不夠豐富且包含網頁中的多余字符。由于允許利用共指信息完成推斷,因而答案常常包含整段信息,不能很好地應用于關系抽取任務。
2.2 弱監督與半自動的抽取框架
本文在參考了現有英文數據集的基礎上,構建了關系抽取的中文數據集,框架如圖1所示。首先,通過弱監督的方式,從數據庫中抽取實體對,進而從自由文本中取得更多更精確的句子,然后交由半自動的標注系統,進一步抽取標注價值更大的句子完成標注工作,在保證句子可靠性和多樣性的基礎上,降低了人工標注的難度。

圖1 數據集構建流程
關系抽取的標注工作需借助句子中表達的內容確定句子中實體對的關系。若直接從網絡數據中找出包含實體對,且描述恰為已定義關系類型的句子,將耗費大量的人力,效率低下且標注效果也將受到影響。
因此本文提出了一種弱監督的句子抽取方法。首先,借助外部知識庫,找出屬于特定關系的實體對,再從自由文本中選擇包含這些實體對的句子。比如,在尋找屬于“出生地”這個關系的句子時,借助外部知識庫,發現 lt;奧巴馬,夏威夷gt;實體對屬于該關系,然后抽取包含 “奧巴馬”和“夏威夷”兩個詞的句子,相較于隨機抽取的句子,如只包含“奧巴馬”而不包含“夏威夷”的句子,這種方式得到的結果更有可能屬于“出生地”這個類別,而且可以很方便地標注句子中待確定關系的實體對的位置。
3.1 關系定義
關系定義時,最重要的兩點是關系的完備性和獨立性。完備性是指我們定義的關系應盡可能地覆蓋所有的句子,同時關系之間應相互獨立,即不出現一個句子同時屬于兩個關系的情況。由于關系類型的多樣性,通常在已經能夠包含大多數句子的情況下,會將剩余關系全部歸于“其他”。比如,Sem-Eval-2010 Task 8 數據集,定義了九種相互獨立的關系,然后將其余不屬于所列九種關系的句子全部歸于第十個類別“其他”。
但由于SemEval-2010 Task 8中類型不夠豐富,現有方法已能達到很高的分類準確性。本文采用了TAC-KBP 2015年slot-filling任務中對句子關系的定義,共41種,更加細致也更加豐富。這41種關系可以按照候選實體的類型、數量分別分類。按候選實體類型可以分為三種: 名稱、數值、字符串。其中名稱類實體包括人名、地名、組織機構名。數值類實體為數字或者日期。字符串型實體是除以上兩種類型外的其他實體,如宗教信仰、死亡原因等關系所對應的實體。每種關系含義的具體描述在slot-filling任務的任務說明*http://www.nist.gov/tac/2015/KBP/ColdStart/guidelines/TAC_KBP_2015_Slot_Descriptions_V1.0.pdf中有詳細介紹。關系具體名稱及類型如表1所示。

表1 slot-filling 關系列表
3.2 實體對獲取
本文采用弱監督的方式,借助結構化數據庫完成關系對獲取,目的是從結構化數據庫中獲取屬于特定關系的實體對。在此之前,需要將已經定義的關系與知識庫中描述的關系類型進行對應。
為保證所抽取實體對的可靠性及多樣性,本文采用維基百科作為輔助的外部數據庫。我們下載了離線的中文維基百科數據庫*https://dumps.wikimedia.org/zhwiki/,共包含11GB語料,包含約400萬詞條。每個詞條對應一個維基百科頁面,維基百科中人名、組織機構名等頁面都包含實體關系描述部分,如圖2所示是詞條奧巴馬的關系描述部分。

圖2 維基百科頁面示例
這部分信息記錄在離線數據庫的info-box部分,含有info-box的詞條共20萬個。通過人工篩選,我們得到了與這41個英文關系所對應的維基關系描述共331條,如與altername對應的維基關系有別名、alias、nickname等。通過抽取這些關系包含的實體,并經過一些簡單的字符處理,最終得到候選關系對共24多萬條,如表2所示。

表2 關系對實例
3.3 包含實體對的句子獲取
在對TAC-KBP任務數據集進行分析的過程中,我們發現通過新聞語料獲取的句子形式不夠豐富,不能充分地包含各種類型的句子。因此,我們在句子抽取過程中加入了百度搜索的結果,既可以很方便地得到包含實體對的句子,又能得到各種類型的句子形式,且能方便地拓展句子數量,解決類別間樣本不平衡的問題。
我們首先使用了搜狗實驗室提供的sogouCA新聞數據集,來自搜狐新聞2012年6—7月期間國內、國際、體育、社會、娛樂等18個頻道共3GB的新聞數據。從中匹配包含已獲得實體對的句子。同時,為保證候選句子類型的多樣性,我們利用百度API,抓取了搜索目標實體對后的返回頁面內容,通過字符匹配得到包含目標實體對的句子,這樣大大地豐富了原有的結果。最終我們從sougouCA得到了5萬多條候選句子,從百度返回結果中獲取了15萬多條句子。由于百度結果的豐富性,結果可隨時進行擴充。
為方便接下來的句子分類任務,我們在句子中加入標記符對包含的實體進行定位。最終句子形式如下:
lt;e1gt;劉墉lt;/e1gt;,臺灣著名lt;e2gt;作家lt;/e2gt;,由造成轟動的《螢窗小語》開始,到近年《愛就注定了一生的漂泊》,總共出版了30多本書。
使用半監督的方法,可以確保抽取的句子中包含特定關系的實體對,但由于句子源自自由文本,仍存在很大的冗余,直接提交人工標注仍需較大工作量。因而本文采用了一種半自動的標注方式,將得到的句子首先交由訓練好的RNN(recurrent neural network)關系抽取系統打分,選擇置信度較高的提交人工標注,進一步降低了人工標注的數量,且每個句子有預設的類別,降低了標注的復雜度。
4.1 RNN框架介紹
傳統關系抽取方法如基于模式匹配的關系抽取、基于字典驅動的關系抽取等,都需要根據句子的語法特性,設定具體的模式,結果依賴于模式的優劣及多樣性。與傳統關系抽取方法相比,基于機器學習的方法有更好的拓展性。該方法的實質是將關系抽取看作一個分類問題,通過具體的機器學習算法,借助標注語料構造分類器,然后將其應用于特定關系的判別。
隨著深度學習理論的不斷發展,RNN在自然語言處理,尤其是句子級的分類任務中取得了很大進展。相較于傳統方法依賴自然語言處理工具,進行實體識別、詞性標注、句法解析等預處理工作,RNN可只利用詞向量來表示每一個詞,作為網絡的輸入。并且利用神經網絡來做句子分類的效果已逐漸超過傳統方法。
如圖3所示,分類器共包含三個部分,分別是: ①詞向量層,將輸入句子中的每個詞轉為詞向量表示;②雙向的循環層,將詞序列正向反向分別輸入,得到詞級別的特征;③最大池化層,將前一層得到的詞級別特征合并成句子級別的特征。最終將句子級別的特征用于分類。
借助詞向量的表達能力及RNN本身對詞的記憶能力,該模型在關系抽取任務中取得了很好的效果,已被廣泛應用于各種句子分類任務。以上模型經過訓練,可以在英文訓練集SemEval-2010 Task 8上取得80.0%的準確率。
4.2 半監督標注過程
在半監督標注過程中, 我們采用了基于置信度的標注策略,使用一個句子S被分為某一類別的最大概率值p0=maxpi(S)作為置信度,置信度越高

圖3 循環神經網絡結構
的句子越容易被標注為“是”從而加入訓練數據集,但太高的閾值會導致待標注句子數過少。本文最終選定0.75作為閾值,保證有足夠的結果加入最終數據集。如果置信度大于某一閾值,則認為該句子具有更大的標注價值,需要提交人工標注。針對標注任務,我們設計了簡易的標注工具,如圖4所示。

圖4 簡易標注工具
從圖4可以看出:標注選項共有五個:“是”“否”“不確定”“丟棄”“其他”,分別代表: 句子屬于該類別、句子不屬于該類別、不能確定句子是否屬于該類別、句子格式或表述有問題,直接丟棄、句子不屬于41個關系中的任一類別。標注中,若標注人員一致標注為“是”或“其他”,則直接加入數據集。對于標注不一致或標為“不確定”的部分,可以幫助我們找出標注過程中定義不清楚的情況。
初始階段,我們隨機地從每個類別中選取一些句子進行標注,以完成對RNN的初始訓練,接著從余下的數據集中選擇句子放入分類器打分,根據打分結果決定是否提交人工標注,標注完成后的句子將繼續應用于RNN的訓練。重復以上步驟,完成對句子的處理,得到最終的數據集。
最終,我們選擇了41個關系類別,通過人工標注的方式,從維基百科中選擇了331種關系定義作為這41種關系的拓展;通過半監督的方式,從維基百科中獲取中文實體對24萬多個,從百度結果頁面及sougouCA新聞語料中抽取句子20萬余句。經由RNN抽取系統,選擇了約一萬個句子提交人工標注,經過人工標注,將5 031個句子加入數據集,作為最終的結果。該方法可供中文關系抽取及多類別句子分類任務使用,填補了中文數據集的空白。
經過半監督的抽取過程及分類器的打分,我們對候選句子進行了有效的刪減,保留的句子包含候選類別,大大降低了人工標注的難度。標注過程中,我們通過分析標注不一致及標注結果為“不確定”的句子,逐步明確了各類別的定義。最后,針對標注結果中某些類別句子數很少的情況,我們重新拓展了這些類別的句子數,保證各類別句子數不會太少。
我們利用文中提到的RNN結構在最終的數據集上進行了實驗。隨機抽取每個關系中80%的句子作為訓練集,20%的句子作為測試集。最終在41個類別上的分類準確率為76%。相同分類器在TAC-KBP的數據集上,三萬個句子、41個類別上的分類準確率為61.6%。說明最終的數據集更加規范有效,適用于關系抽取任務。
本文采用弱監督和半自動的方法,構建了一份中文關系抽取數據集,填補了中文關系抽取數據集的空白。在數據集構建過程中,參考現有英文數據集的構建方式,并針對其關系類別少、句子形式不夠豐富、標注復雜等缺陷,采用弱監督的方式抽取句子,采用半自動的方法對結果進行進一步處理,大大降低了人工標注的難度。最終對數據集的評測效果證明了數據集的實用性。
由于中文關系抽取任務并沒有廣泛開展,本文中的關系定義參考了英文數據集的定義方式,后續可逐步拓展和完善。分類器設計部分也可根據中文語法句法等的特點加入更多信息,或修改神經網絡,以達到很好的效果。
[1] 陳立瑋, 馮巖松, 趙東巖. 基于弱監督學習的海量網絡數據關系抽取[J]. 計算機研究與發展, 2013, 50(9): 1825-1835.
[2] 劉克彬, 李芳, 劉磊, 等. 基于核函數中文關系自動抽取系統的實現[J]. 計算機研究與發展, 2007, 44(8): 1406-1411.
[3] 牟晉娟, 包宏. 中文實體關系抽取研究[J]. 計算機工程與設計, 2009 (15): 3587-3590.
[4] 余東, 李諾, 申德榮, 等. ERE: 基于半結構化 Web 頁面的實體關系抽取系統[J]. 計算機與數字工程, 2014, 42(9): 1581-1586.
[5] 楊靜, 徐蔚然, 譚松波. COAE2014 情感關鍵句評測任務和評測數據設計[C]. 第六屆中文傾向性分析評測委員會, 2015: 51.
[6] 楊博, 蔡東風, 楊華. 開放式信息抽取研究進展[J]. 中文信息學報, 2014, 28(4):1-11.
[7] HENDRICKX I, KIM S N, KOZAREVA Z, et al. Semeval-2010 task 8: multi-way classification of semantic relations between pairs of nominals[C]//Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions. Association for Computational Linguistics, 2009: 94-99.
[8] 賈真, 何大可, 楊燕, 等. 基于弱監督學習的中文網絡百科關系抽取[J]. 智能系統學報, 2015, 10(1): 113-119.
[9] 楊宇飛, 戴齊, 賈真, 等. 基于弱監督的屬性關系抽取方法[J]. 計算機應用, 2014, 34(1): 64-68.
[10] 涂新輝, 張紅春, 周琨峰,等. 中文維基百科的結構化信息抽取及詞語相關度計算方法[J]. 中文信息學報, 2012, 26(3):109-115.
[11] Mikolov T, KarafiT M, Burget L, et al. Recurrent neural network based language model[C]//Proceedings of the Interspeech, 2010(2): 3.
[12] 戴敏, 朱珠, 李壽山,等. 面向中文文本的情感信息抽取語料庫構建[J]. 中文信息學報, 2015, 29(4):67-73.
[13] Zhang Z. Weakly-supervised relation classification for information extraction[C]//Proceedings of the thirteenth ACM international conference on Information and knowledge management. ACM, 2004: 581-588.

馬超義(1991—),通信作者,碩士研究生,主要研究領域為自然語言處理和信息抽取。
E-mail: machaoyi@bupt.edu.cn

徐蔚然(1975—),副教授,博士,研究生導師,主要研究領域為信息抽取、知識圖譜等。
E-mail: xuweiran@bupt.edu.cn
Semi-automaticConstructionofChineseRelationExtractionDataSetBasedonaWeaklySupervisedMethod
MA Chaoyi, XU Weiran
(School of Information and Communication Engineering, Beijing University of Posts and Telecommunications, Beijing 100876, China)
The relation extraction is a fundamental task in information extraction, with practical significance in information retrieval, question answering system and knowledge mapping, etc. The existing relation extraction data set are for English, containing very limited categories and neglecting sentence level annotations. This paper constructs a Chinese relation extraction data set using a weakly supervised and semi-automatic method. It firstly extracts a large amount of relation pairs from Wikipedia, then extracts sentences that contains entity pairs from the corpus of Sougou News and Baidu. Thus the weakly supervised sentence extracting is completed. These sentences are then scored in an RNN-based relation extraction system, selecting sentences with higher score for manual annotation. Finally the Chinese relation extraction data set is completed after manual annotation.
relation extraction; data set; weakly supervised; semi-automatic
1003-0077(2017)05-0114-06
TP391
A
2016-08-16定稿日期2017-04-26
教育部博士點學科專項科研基金(20130005110004)