王瀚琳
摘要:實體關系信息抽取涉及基于實體的上下文信息和來自注釋的信息,從不規則文本中提取與任務關聯的實體之間的關系信息。實體關系抽取是指根據實體的上下文信息和命名實體的注釋信息,從不規則文本中提取任務相關實體之間的關系信息。本文介紹了幾種具有代表性的實體關系抽取技術,以望為之后的研究者提供一定的參考。
關鍵詞:實體關系;監督學習;半監督學習;無監督學習
中圖分類號:TP391.1文獻標識碼:A文章編號:1672-9129(2020)13-0045-01
隨著機器學習和深度學習的發展,統計機器學習方法在挖掘相關任務中的應用變得越來越普遍,包含的種類也有很多,本文將介紹它的幾個主要的類別。
1關系抽取研究現狀
目前,在信息抽取領域中,SemEval-2010的評測任務八數據集,至今仍然是關系抽取任務中重要的評測數據集。
通過有監督的機器學習方法從不規則的文本中抽取出實體之間的主要關系的方法主要有兩種:一是將文本的語義信息表示為向量;二是將文本的語義信息通過核函數映射到高維空間,從高維空間中抽取出實體之間主要關系的方法。
基于半監督機器學習的實體關系抽取模型,首先,是用人工的方式選取少量的高質量的規則作為模板。然后,根據模板不斷地從數據集中進行迭代抽取出新的模板,新的模板評估結果符合預期后,會被添加到模板的集合中用于后續的迭代計算。具有代表性的基于半監督機器學習的實體關系抽取工作,是2015年Agichtein開發的Snowball系統。
基于無監督機器學習的實體關系抽取模型主要是通過聚類的方式從數據集中抽取出實體關系,此種方法雖然在技術和操作流程上比較簡答,但它在效果和性能方法并不令人滿意。
2基于規則匹配的關系抽取
在研究初期,研究者主要采用基于規則匹配的方法用于提取實體之間的關系,它適用于沒有規律的文本,但這些類型的規則對于較長范圍的模式和具有更大多樣性的序列來說是不適用的。這種方法在進行實體關系抽取任務時需要較多的人工干預,根據不同的任務需要相應領域的專家設計抽取規則,因此基于規則匹配的關系抽取方法存在很強的局限性,而且泛化能力差可移植性不強。
隨著規則集合的擴充,使用基于規則匹配的方法處理復雜的實體關系類型抽取的任務時,規則之間可能會發生沖突從而降低模型的效果。
3基于監督學習的關系抽取
在監督學習的框架下,需要將數據集中的數據進行標注。這一類方法一般將關系抽取任務作為分類問題進行建模,從文本中抽取兩個實體之間的關系可以看作找到一個合適的映射函數,通過映射函數計算出兩個實體之間概率最大的實體關系類型。
監督學習模型需要進行數據的處理和特征的提取,以便使用機器學習或深度學習過程中構造分類器,從而有利于模型進行分類和測試數據中實體之間的關系。
根據句子的特征信息構建表示句子特征的方法,常使用的特征信息有實體信息、實體類型信息、實體相對距離信息、實體之間單詞序列信息等。但是基于句子特征信息的關系抽取只獲取了淺層的句子信息,而基于核函數的關系抽取可以將特征映射到高維空間,從高維空間對句子進行分析,常用的核函數有字符串核、句法樹核、詞袋核、依存句法核等核函數。
優點是高質量的監督信號和有明確的負樣本,缺點是標注樣本成本高,增加新的關系難且成本高,對于新領域不具有很好的泛華性,使用范圍小,只對一小部分相關類型可用,不具有遷移性。
無論是基于句子特征信息的關系抽取方法,還是基于核函數的關系抽取方法,都需要人工設計特征的表示方法。
4基于半監督學習和無監督學習的關系抽取
基于半監督學習中的bootstrap方法的關系抽取模型的研究重點,是通過少量標注的數據集進行規則的學習,然后根據少量的實例或模板,在大規模的未標注的數據中抽取新的模板,為了防止誤差的疊加,需要對新模板進行評估,將準確率達到閾值標準的模板添加到模板庫中,然后繼續進行迭代抽取。雖然基于無監督學習的關系抽取方法省略了人工標注數據集的步驟,減少了人工干預,但是,通過聚類的方式抽取出的結果很難映射到實際的實體關系類型中,無法對結果進行分類。
半監督學習的優點是可以發現比基于規則的關系提取更多的關系和更少的人力投入,因為它只需要高質量的種子。缺點是隨著每次迭代,模式的集合更容易出錯、在通過元組共現生成新模式時必須十分小心和新的關系類型需要新的種子,即需要手動提供。
無監督學習的優點是幾乎不需要標注訓練數據,且不需要我們手動預先指定每個甘心去的關系,而是考慮所有可能的關系類型。缺點是系統的表現在很大程度上取決于約束和啟發法的構造有多好和關系不像預先指定的關系類型那樣規范化。
5實體關系抽取技術的創新
針對空間實體識別任務,在傳統的雙向長短期記憶網絡和條件隨機場混合模型的基礎上進行了改進。在特征表示層增加用于提取詞向量語義特征的全連接神經網絡,這種改進方式可以提升模型的特征提取能力。
通過在關系抽取的流程中添加空間實體類型識別模塊,對傳統的關系抽取方法進行了改進。改進后的方法可以識別出訓練樣本中未出現的關系類型。
6總結
根據不同的應用場景,選取合適的模型方法來對抽取實體之間的關系以滿足認為的需求是重要的研究領域。實體關系技術作為信息抽取技術的重要組成部分,人具有重要意義,如何根據不同場景選取合適的實體關系抽取技術,仍需要研究者們進一步探索與創新。
參考文獻:
[1] 張春云.實體關系抽取算法研究 [D].北京:北京郵電大學,2015.
[2] 譚鋒,李天真,崔亮亮.Web信息抽取系統研究綜述 [J].科技創新導報
[3] 李保利,陳玉忠,俞士汶.信息抽取研究綜述 [J].計算機工程與應用,2003 (10):1-5.