李楓 林柯佳
摘要:[目的/意義]實體語義關系分類是信息抽取重要任務之一,將非結構化文本轉化成結構化知識,是構建領域本體、知識圖譜、開發問答系統、信息檢索系統的基礎工作。[方法/過程]本文詳細梳理了實體語義關系分類的發展歷程,從技術方法、應用領域兩方面回顧和總結了近5年國內外的最新研究成果,并指出了研究的不足及未來的研究方向。[結果/結論]熱門的深度學習方法拋棄了傳統淺層機器學習方法繁瑣的特征工程,自動學習文本特征,實驗發現,在神經網絡模型中融入詞法、句法特征、引入注意力機制能有效提升關系分類性能。
關鍵詞:實體語義關系;關系分類;神經網絡;深度學習
DOI:10.3969/j.issn.1008-0821.2019.02.006
〔中圖分類號〕TP391〔文獻標識碼〕A〔文章編號〕1008-0821(2019)02-0047-10
近年來,云計算、大數據迅猛發展,如何快速有效地從海量異構的非結構化數據中抽取出有價值的信息成為文本挖掘的主要任務。文本表達具有復雜性、多樣性、歧義性等特點,實體語義關系分類一直是學術界和工業界的關注熱點。1998年,美國消息理解會議MUC(Message Understanding Conference)首次引入實體語義關系分類任務,Culotta A等[1]對實體關系分類任務定義為“輸入一段文本,發現每句話中的實體及其之間的語義關系”,其包括兩個子任務:1)判斷實體對是否存在關系;2)若存在關系,將其劃分到預先定義的類別中。實體關系分類是建立知識庫的基礎工作,對開發知識圖譜、信息檢索系統、智能問答助手都具有重要意義。
本文的研究主要是指從一句話中抽取出兩個實體及語義關系,用三元組(實體1,關系,實體2)表示,不涉及高階、跨句子、多元實體語義關系分類及關系推理。傳統的知識工程方法和機器學習方法需要大量費時耗力的“特征工程”,近幾年,隨著深度學習方法在多個NLP任務的廣泛應用,學者也開始嘗試將深度學習方法應用到實體語義關系分類任務中,研究領域也從限定領域發展到開放領域,本文從研究方法和研究領域兩方面入手,梳理和回顧近5年實體關系分類的研究進展,以求把握其研究方向與趨勢,為今后學者的研究提供參考和幫助。
1實體語義關系分類評測會議
為了推動實體語義關系分類的發展,多年來國內外知名會議(見表1)組織了不同的關系分類競賽。
1.1國際評測會議
1998年,第七屆美國消息理解會議MUC首次引入了實體語義關系分類(模板關系,Template Relation)任務。會議語料主要來自限定領域的新聞語料,飛機失事事件和航天器發射事件,預先定義了3種實體關系:Location-of、Employee-of和Product-of。
2000年,美國國家標準技術研究院開始組織自動內容抽取ACE(Automatic Content Extraction)評測,任務之一就是實體關系識別(Relation Detection and Recognition,RDR)。會議語料主要來源于新聞,預先定義了人物、組織機構、物理位置、局部與整體等7大類關系。與MUC相比,ACE評測不針對某個具體場景,ACE2008還增加了跨文檔關系抽取,用來發現全局實體間的關系。
2009年,美國國家標準與技術研究院組織的國際文本分析會議(Text Analysis Conference,TAC),將關系分類任務并入到構建知識庫的槽填充(Slot-Filling)任務,涉及關于PER(人物)的25種屬性和ORG(組織)的16種屬性,使用英語維基百科作為知識庫,要求參賽者從大規模文本中找到指定實體及其屬性。
2010年,國際語義評測會議SemEval(Semantic Evaluation)引入了實體語義關系分類任務,SemEval 2010-task8預先定義了9種有方向的關系和other類(不屬于9種類別)。
2017年,國際語義評測會議SemEval引入了科技文獻(計算機、材料科學、物理學期刊論文)實體語義關系分類任務,實體分為3大類:過程Process(包括模型、算法、過程)、任務Task(包括目的、問題、任務)、材料Material(包括資源),實體關系分為3種:下義詞Hyponym-of、同義詞Synonym-of、無關系unrelated。
2018年,國際語義評測會議SemEval也引入了科技文獻(ACL論文集)實體語義關系分類任務,包括兩個子任務:1)關系抽取;2)關系分類,預先定義了5種不對稱的關系:“方法Usage”、“結果Result”、“模型—特征Model-feature”、“部分—整體Part-whole”、“主題Topic”和對稱關系“比較Compare”和關系“Order-independent”。
1.2國內評測會議
國內實體語義關系分類研究起步較晚,公開的中文評測語料是第八屆中文情感傾向性評測(The Eighth Chinese Opinion Analysis Evaluation)會議標注的微博語料COAE2016-task3,其包括兩個子任務:1)識別出包含實體關系的句子并完成實體關系分類;2)抽取出每個包含實體關系的句子中具有特定關系的實體對。
實體語義關系分類研究是以MUC、ACE、SemEval評測會議提出的任務展開的,其技術方法也由人工標注語料、基于機器學習的“特征工程”方法發展到無需人工標注,機器自動學習、抽取特征的深度學習[2]方法。
2任務描述及評測標準
實體關系分類的研究領域主要包括限定領域和開放領域。根據對標注數據的依賴程度,關系分類方法可分為有監督方法、弱監督方法、無監督方法。近幾年,限定域的實體關系分類主要采用有監督的深度學習神經網絡模型完成,開放域的實體關系分類采用弱監督遠程監督方法結合神經網絡模型完成。限定域的實體關系分類評測采用信息檢索領域的F1值(召回率和準確率)作為評價標準。遠程監督的實體關系分類除了F1值,還需要進行留出法(Held-out)評價和人工(Manual)評價。
留出法評價:將知識庫中每種關系的所有關系實例分為互斥的兩部分:一部分用于自動標注訓練實例;另一部分用于測試新發現的關系實例,評估模型的泛化能力。例如以知識庫Freebase中存在的關系三元組作為標準,沒有出現在知識庫中的關系實例都認為是負樣本。留出法評價的優點在于:速度快、無需人工介入,可用來調試算法的參數;缺點在于:無法處理知識庫不完備導致的“偽正例(False Positive)”情況,采用人工評價修正。
人工評價:人工檢查關系實例,找出那些標簽為無關系(NA)但實際有關系的實體對,判定每種關系中置信度最高的K個(Top-K)新發現關系實例,對前N個抽取的關系實例評分(按照置信度排序),計算“前K個實例的準確率”,使用Top-K作為評測指標,判斷模型預測的準確率。
3熱門研究方法—深度學習方法
深度學習是機器學習的一個分支,是一種表示學習(Representation Learning)方法,區別于傳統淺層機器學習,通過含有多個隱藏層的神經網絡建模海量數據,自動學習文本特征,能夠在保證準確率的前提下大幅減少人工標注和復雜的特征工程,具有較強的泛化能力,近幾年被廣泛應用于實體語義關系分類任務。
深度學習方法與傳統淺層機器學習方法相比,具有3個特點(見表2):
1)模型能夠無監督學習,直接將組成句子的詞向量序列輸入到神經網絡,無需自然語言處理工具預處理文本,也可以有監督學習,預先標注語料,引入外部特征用于提高性能。
2)多層特征表示。深度學習模型以原始文本作為輸入,將訓練樣本的特征變換到一個新的特征空間,在輸入層和輸出層之間包含若干個隱藏層(Hidden Layer),包含更多的非線性變換,模型逐層抽取特征,將當前層的輸出作為下一層的輸入,用于分類或預測。
3)模型用低維、實數詞嵌入表示單詞(詞語),一方面解決了高維0~1詞向量帶來的數據稀疏問題;另一方面詞嵌入每一維度代表了一定的語義信息,能夠幫助神經網絡學習特征。
神經網絡模型按照模型結構的不同分為4大類:遞歸神經網絡RecNN[3](Recursive Neural Network)、卷積神經網絡CNN[4](Convolutional Neural Network)、循環神經網絡RNN[5]( Recurrent Neural Network)及RNN改進模型長短時記憶網絡LSTM[6](Long Short-Term Memory Network)和門控循環單元 GRU[7](Gated Recurrent Unit)。
3.1限定域關系分類
限定域的關系分類需要人工預先定義關系類別,使用不同的機器學習分類器將實體對劃分到預先定義好的關系類別中。目前限定域的公開評測語料主要包括ACE2005、SemEval 2010-task8。在ACE 2005數據集中,90%的實體對不存在語義關系,任務要點在于實體關系判別(是否存在關系),在SemEval 2010 task8數據集中,83%的實體對存在語義關系,任務要點在于實體關系分類,所以本文涉及的關系分類任務大多是在SemEval 2010-task8語料上完成。
根據神經網絡模型融入特征的不同,將融入神經網絡模型的特征分為詞法特征和句法特征。
3.1.1引入詞法特征(Lexical? Feature)
1)語義詞典WordNet
借助語義詞典Wordnet,對同義詞關系聚類,同時指明了實體類型。2013年,Liu C Y等[8]首次提出將語義詞典WordNet中的同義詞關系、詞性、實體類別等詞匯特征融入到卷積神經網絡中,完成關系分類任務。
2)詞匯相對位置特征(Position Feature)
2014年,Zeng D等[9]首次提出將句子每個單詞與實體對的相對位置、實體上位詞(語義詞典WordNet)輸入到CNN模型中,實驗發現語義詞典的上位詞、相對位置特征能顯著提高關系分類性能,后來的學者大多沿用了此方法。盡管Zeng D提出的相對位置特征顯著提升了性能,但由于CNN模型只能學習窗口內局部詞序特征,為了捕獲更長的單詞序列特征,Zhang D等[10]嘗試直接使用標簽表示兩個實體的位置,使用RNN模型更好的學習當前句子的前文特征。實驗對比RNN模型與CNN模型發現,RNN對于長文本建模更有優勢。由于RNN模型存在梯度消失和梯度爆炸的問題,后來的學者嘗試使用RNN模型的改進模型—長短時記憶網絡LSTM和門控循環單元GRU研究關系分類問題。Zhang S等[11]提出使用雙向長短時記憶網絡(Bi-LSTM)建模句子,實驗發現雙向LSTM相比單向LSTM優勢在于能捕獲句子上下文特征。
3.1.2引入句法特征(Syntactic Feature)
1)依存句法
依存句法通過分析語言單位內成分之間的依存關系揭示句子中各詞語的語義修飾關系,分析出句子的主謂賓、定狀補結構。
2012年,Socher R等[12]首次使用矩陣—矢量遞歸神經網絡模型MV-RNN(matrix-vector Recursive Neural Network)對依存句法樹建模實現關系分類。Hashimoto K等[13]不同于前人使用隱性權重賦予重要短語的RecNN模型,而是采用平均參數的RecNN模型建模句法樹。Xu Y等[14]提出了深度循環神經網絡模型DRNN(Deep Recurrent Neural Networks),句法樹的兩個子樹輸入到多層RNN中。Li J等[15]對比樹狀模型(Tree-LSTM)和雙向序列模型(Bi-LSTM)在實體關系分類任務上的結果發現,樹狀模型能建模實體對遠距離依賴關系,性能優于序列模型,序列模型實體對之間的干擾詞影響了抽取結果。
2)最短依存樹
句子最短依存路徑反映了句子實體之間的依賴關系,通常最短依存路徑上的詞都是句子的關鍵詞。
在英文研究方面,Xu K等[16]使用CNN建模句子最短依存路徑,在模型中引入負樣本(Negative Sampling),提升關系分類性能。Xu Y等[17]提出利用SDP-LSTM模型對句子的實體對進行關系分類。模型充分利用最短依賴路徑SDP(Shortest Dependency Path)確定實體對的有向關系,將句法依存樹分成兩個子樹,每個實體作為子樹的祖先節點,再拼接子樹的特征進行關系分類。為了提高準確率,作者還使用了多通道的循環神經網絡。Liu Y等[18]使用遞歸神經網絡建模句法依存樹子樹,使用卷積神經網絡建模句子最短依存路徑。Cai R等[19]將最短依存路徑上詞與詞之間的依存關系分別編碼輸入到LSTM的兩個通道,將句子相鄰詞對應的LSTM輸出和它們的依存關系LSTM輸出連結起來作為CNN模型的輸入,經過最大池化操作使用3個softmax分類器從正向和反向預測關系。
在中文研究方面,劉燊[20]提出使用SDP-LSTM模型(Short Dependence Paths LSTM),從百度百科文本中抽取實體對關系。孫紫陽等[21]在SogouCA新聞語料上,采用Bi-LSTM建模句子最短依存路徑,模型融入詞性特征,將LSTM模型的輸出作為CNN模型輸入。
利用句法樹進行實體關系分類的不足之處在于關系分類性能受限于句法分析的正確性,一旦句法分析錯誤,必然影響關系分類,所以這一方法一般適用于短句子較簡單句子的建模。
3.1.3句子層面的注意力機制[22](Attention)
神經網絡模型將單詞序列無差別的輸入到模型中進行表示學習,無法反映句子關鍵(動)詞特征,例如句子中的單詞“Work(工作)”對描述“Employ-of”雇傭關系有重要作用,如果在模型中引入注意力機制,模型為單詞“Work(工作)”賦予更高的權重,提升關系分類的性能。
李博等[23]使用CNN模型建模最短依存路徑,并引入注意力機制,針對實體關系具有方向性的特點,提出了一種正向和反向實例結合的分類方法。Xiao M等[24]將句子按兩個實體對分段,使用多層注意力的RNN模型建模上下文,完成關系分類。Zhou P等[25]在Zhang S[11]基礎上,引入注意力機制,通過權重向量連結LSTM中的每一個時間節點信息,在沒有使用NLP工具和任何詞法特征的情況下,取得了不錯的性能。王紅等[26]在LSTM模型中引入注意力機制,并加入單詞位置特征,詞性特征、句法信息,融合句子局部特征和整體特征。
3.2開放域關系分類—引入注意力機制
遠程監督方法實現實體語義關系分類優勢在于無需人工預先定義關系類別,利用外部知識庫已有的關系實例自動標注訓練樣本,一定程度上解決了標注語料不足的問題。不同于前文使用限定領域語料SemEval 2010-task8,數據規模較小,關系類別有限且只有正例。
2009年,Mintz M等[27]首次提出利用已有的外部知識庫三元組啟發式的訓練大規模語料,自動標注訓練樣本,使用遠程監督的方法實現開放域實體語義關系分類。
Zeng D等[28]首次提出將卷積神經網絡應用到遠程監督實體語義關系分類任務上,借鑒多實例學習的方法,從訓練集中選取置信度最高的關系實例訓練模型,實體對將句子分成3段,每段做最大池化(Max-pooling),增強特征學習能力。Lin Y等[29]針對Zeng D[28]只選取包(含有同一實體對的所有句子)內概率最大的關系語句訓練模型,未充分利用語料中包含同一實體對的所有語句,提出在CNN的全連接層引入句子級別(Sentence-level)的注意力機制(Attention),為含有同一實體對的每個句子分配權重,通過賦予關系標簽正確實例更大的權重,錯誤實例較小的權重,減少噪聲,提高關系預測準確度。Ji G等[30]在Lin Y[29]模型基礎上,將外部知識圖譜的實體描述信息添加到模型中,強化語義表示能力,改變Lin Y[29]注意力權重的計算方法,通過計算實體間關系與句子間的相似度賦予句子不同的權重。Liu T等[31]針對之前的模型在訓練過程中,關系實例標簽保持不變的缺點,提出在實體對層面(Entity-pair Level)的標注方法,模型訓練過程中動態的修正錯誤標簽,在Lin Y[29]模型基礎上,通過聯合得分函數(Joint Score Function)計算實體對表示的合理程度和關系標簽(Hard Label)的置信度,這個得分函數描述關系實例軟標簽(Soft-label)的置信度。
黃兆瑋等[32]提出基于GRU和注意力機制的遠程監督關系分類方法,使用GRU神經網絡學習文本特征,在實體對層面構建句子級的注意力機制,減小噪聲。蔡強等[33]針對大多數關系分類模型沒有充分利用局部特征及全局特征的問題,引入多層次注意力(Multi-level Attention)GRU模型。詞語層面的注意力通過在池化層構建權重矩陣衡量實體詞與關系詞的語義相關度,句子層面的注意力比較待預測關系與語句的相關性。
在中文研究方面,黃蓓靜[34]將中文“互動百科”和新聞“Sogou CS 2008”作為訓練語料,利用遠程監督方法,組合CNN和LSTM,提出LSTM_PCNN模型實現中文人物關系分類。尚琪[35]使用CNN模型和遠程監督方法,抽取云南旅游領域實體及其屬性之間的關系。
遠程監督方法避免了人工預先定義關系類別的問題,但該方法依賴知識庫的完備性與準確性,并且訓練語料與知識庫對齊會產生噪聲,目前對于此方法的研究主要從引入注意力機制,降低訓練數據噪聲方面展開(見表3),以求提高關系分類的性能。
4實體關系分類應用領域
生物醫學文獻急劇增長,學者迫切希望從這些海量的科學前沿信息中抽取出有價值的知識進行結構化的組織和管理,推動生物醫學更快發展。所以生物醫學實體語義關系分類是目前最熱門的研究領域。
4.1生物學領域
生物學實體(基因、蛋白質、化合物、藥物、疾?。┱Z義關系分類對于生命科學研究、生物學數據庫的構建、藥物開發和疾病防治都具有重要意義。生物學領域國際公開評測會議多次發布實體關系分類任務(見表4),主要涉及蛋白質與蛋白質相互作用關系(Protein Protein Interaction Extraction,PPIE)、藥物與藥物相互作用關系(Drug Drug Interaction Extraction,DDIE)、化合物(藥物)與疾病關系(Chemical Disease Relation,CDR、Chemical Induced Diseases,CID)等等。
4.1.1蛋白質與蛋白質相互作用關系分類
科學實驗證明,蛋白質與蛋白質相互作用與許多疾?。ɡ绨┌Y)有關。研究蛋白質與蛋白質相互作用關系對于疾病治療、藥物開發、生命科學研究等領域都具有極其重要的意義。從生物醫學文本中抽取蛋白質與蛋白質之間的關系一直是生物醫學領域文本挖掘的熱點任務之一。
國際著名生物文獻信息挖掘標準評測會議BioCreative在2007年、2009年、2010年分別發布了蛋白質與蛋白質相互作用關系分類任務。
Quan C等[36]實驗發現多通道CNN神經網絡關系分類性能優于單通道CNN。Sung[37]使用DCNN(Deep Convolutional Neural Network)將多種特征(詞匯、句法、語義特征)融入到CNN模型中,探索了詞匯位置特征對蛋白質與蛋白質關系分類性能的影響。Hua L等[38]使用sdpCNN模型建模句子蛋白質之間的最短依存路徑。Peng Y等[39]提出了基于依存關系的多通道卷積神經網絡模型McDepCNN(Multichannel Dependency-based Convolutional Neural Network Model)完成關系分類任務。一個通道輸入詞向量及詞匯特征(詞性、詞塊、命名實體、依存關系、位置向量),另一個通道輸入依存樹句法特征,實驗發現,依存關系CNN模型較適合抽取長句子的蛋白質相互作用關系。Zhang H等[40]在CNN模型中引入注意力機制,賦予句子重要詞匯更大的權重提升關系分類性能。
4.1.2藥物與藥物相互作用關系分類
研究藥物與藥物相互作用能減少藥物安全事故,降低醫療成本。2013年,國際語義評測會議SemEval發布藥物與藥物相互作用關系分類任務——DDIExtraction 2013,DDIExtraction任務將藥物相互作用的關系定義為機制(Mechanism)、影響(Effect)、建議(Advice)、相互作用(Int)4大類關系和無任何關系。
Quan C等[41]實驗發現多通道CNN優于單通道CNN模型和基線標準模型。Zhao Z等[42]提出1個新穎的句法詞向量(Syntax Word Embedding),將詞法特征融入到SCNN(Syntax Convolutional Neural Network)模型中。劉勝宇[43]對比序列CNN與依存(樹)結構CNN關系分類性能。實驗表明:序列CNN模型參數較少,訓練相對簡單,時間較短,適用于長句子關系分類,依存CNN模型由于將句法依存信息建模到模型中,參數較多,訓練相對復雜,時間較長,適用于短句子關系分類。Suárez-Paniagua V等[44]從3個方面比較CNN模型藥物相互作用關系分類性能:1)同一模型在2個不同的藥物數據庫DDI-DrugBank和DDI-MedLine上的分類性能;2)9種不同大小的卷積核關系分類性能;3)6種不同的詞向量關系分類性能,深入分析了語料、卷積核尺寸、詞向量對關系分類性能的影響。
4.1.3化合物與疾病的關系分類
研究化合物(藥物)與疾病的關系在疾病治療、藥物開發方面具有極其重要的作用,識別化合物和疾病之間的不良反應ADRs(Adverse Drug Reactions)、依從關系(治療關系),對于病人用藥安全、藥物毒性研究、藥物生存篩選等方面都具有非常重要的作用,藥物上市之后,ADRs也是藥物監測重要內容之一。
Le H Q等[45]對比3種不同的CNN模型:1)無依存關系的化合物——疾病關系分類模型;2)有依存關系、無方向的化合物—疾病關系分類模型;3)有依存關系、有方向的化合物——疾病關系分類模型,探索最短依存路徑對關系分類性能的影響,實驗在標準評測語料BioCreative Ⅴ數據集上取得了不錯的結果。Gu J等[46]使用卷積神經網絡抽取句子內的化合物疾病實體關系。馮欽林[47]利用CNN模型建模藥物與疾病的最短依存路徑,考慮不同語義特征的差異,對句子特征和單詞特征賦予不同的權重,突出重要特征。Huynh T等[48]使用4種不同的CNN模型:1)普通CNN;2)Convolutional Recurrent Neural Network;3)Recurrent Convolutional Neural Network;4)Convolutional Neural Network with Attention在社交媒體Twitter語料和MEDLINE數據集上實現藥物與不良反應的關系分類,實驗發現,普通卷積神經網絡模型優于其他改進CNN模型。
Lee K等[49]設計了多個弱監督的CNN模型(Semi-supervised Convolutional Neural Network),在社交媒體Twitter語料上抽取藥物與不良反應的關系,實驗表明,弱監督機器學習性能要優于有監督的分類方法。
4.2醫學領域
4.2.1臨床電子病歷的實體關系分類
在臨床醫學領域,學者大多使用I2B2-2010(Integrating Biology and the Bedside-2010)人工標注的英文語料庫完成關系分類任務,訓練語料將臨床醫療電子病歷的實體劃分為3大類:1)醫療問題(Medical? Problem)(Uzuner O[50]把醫療問題又劃分為疾病和癥狀兩種實體);2)檢查(Test);3)治療(Treatment),16種具體的實體關系,研究實體識別和關系分類方法。
Sahu S K等[51]提出了一個從英文出院小結中抽取Medical Problem,Treatment 和Test 3類實體關系的CNN模型,實驗從3個方面展開:1)不同尺寸的卷積核;2)模型加入不同的外部語言特征(例如詞性、詞塊、詞位置);3)CNN模型與傳統支持向量機機器學習方法對比。實驗發現:(4,6)大小的卷積核分類效果最好、加入外部語言特征能改善關系分類的效果,CNN模型的抽取效果優于支持向量機。劉凱等[52]提出基于卷積神經網絡的弱監督關系分類方法。利用人工定義的規則標注訓練語料實體關系,再轉換為向量矩陣輸入到CNN模型中。文章定義了5類具有方向性的臨床醫療實體關系,實體分別是癥狀、疾病、檢查、并發癥和治療。
5總結與展望
本文闡述了實體語義關系分類研究的發展歷程,從技術方法、應用領域兩方面回顧和總結了近5年國內外的最新研究成果。限定域的關系分類通過在神經網絡模型中融入詞法、句法特征(見表5)、添加注意力機制提升性能,開放域的關系分類利用外部已有知識庫(三元組)使用遠程監督方法提升性能。
雖然神經網絡作為熱門研究方法提升了實體語義關系分類的性能,但目前的研究還存在幾方面的不足:
5.1研究主題方面
目前關系分類的研究對象大多針對二元實體,多元、跨句子的實體語義關系分類研究相對較少。近幾年特定領域的關系分類主要集中在生物醫學領域、人物關系[53-56],原因在于這兩個領域實體關系相對固定,變化較少,易于開展。實際上,關系分類在金融領域、公共安全、食品安全、農業領域都有廣泛的應用,學者下一步可從這幾個領域展開研究。
從目前已有的研究成果來看,開放域關系分類除了采用前文提到的遠程監督方法還可以采用基于模板的方法,在國際上取得領先地位的谷歌、微軟公司,其知識圖譜、信息搜索產品都是建立在實體語義關系分類基礎上的,工業界的優勢在于擁有海量的用戶日志和搜索數據;學術界華盛頓大學圖靈研究中心開發了5代開放域關系分類原型系統(TextRunner、ReVerb、R2A2、WOE、OLLIE)、美國斯坦福大學DeepDive系統,卡內基梅隆大學開發的NELL(Never-Ending Language Learning)系統,也都在開放域關系分類任務上做了大量有益的探索。
5.2語料方面
訓練語料的數量和質量是決定性能的首要前提。目前大部分實體語義關系分類的研究主要集中在英文數據集——SemEval 2010-Task 8、NYT10、ACE2005、ACE2008、TAC-KAP上,這幾個語料的缺點是數據量偏小,關系類別不夠豐富,難以達到神經網絡模型海量訓練數據的要求,模型容易出現過擬合。若要增強深度學習方法的泛化能力,需要領域專家建設高質量的海量語料。
5.3模型方面
深度學習方法處理自然語言問題的研究處于初級階段,對于模型本身仍有許多問題值得深度思考。
神經網絡處理文本缺乏理論依據和完備的數學解釋,模型類似一個黑盒(Black Box),可解釋性差。目前基于神經網絡的實體語義關系分類主要集中在模型結構的設計和參數的調整上,深度學習方法雖然避免了傳統機器學習方法繁瑣的特征工程,但增加了調整參數、網絡層數及激活函數等大量工作,需要在實驗中不斷累積經驗優化模型。
目前完成關系分類任務在模型中融入的特征主要還是句法特征,對語言先驗知識(如語義詞典WordNet,HowNet、網絡眾包百科Wikipedia)的運用相對較少。如何將更多的先驗知識融入到神經網絡模型中,強化特征表示能力,實現數據與知識的雙重驅動,是一個值得深入研究的方向。
本文回顧總結了近5年實體語義關系分類研究方法、應用領域,并指出了未來的研究方向,希望能對研究者提供有益的參考和幫助,相信在學者的不斷努力下,還會有更多、更有效的方法被提出。
參考文獻
[1]Culotta A,Mccallum A,Betz J.Integrating Probabilistic Extraction Models and Data Mining to Discover Relations and Patterns in Text[C]//Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics.Association for Computational Linguistics,2006:296-303.
[2]Hinton G E,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.
[3]Goller C,Kuchler A.Learning Task-dependent Distributed Representations By Backpropagation Through Structure[J].Neural Networks,1996,(1):347-352.
[4]LeCun Y,Boser B,Denker J S,et al.Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Computation,1989,1(4):541-551.
[5]Elman J L.Distributed Representations,Simple Recurrent Networks,and Grammatical Structure[J].Machine Learning,1991,7(2-3):195-225.
[6]Hochreiter S,Schmidhuber J.Long Short-term Memory[J].Neural Computation,1997,9(8):1735-1780.
[7]Chung J,Gulcehre C,Cho K H,et al.Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[EB/OL].https://arxiv.org/pdf/1412.3555.pdf,2014-12-11.
[8]Liu C Y,Sun W B,Chao W H,et al.Convolution Neural Network for Relation Extraction[C]//International Conference on Advanced Data Mining and Applications.Springer,Berlin,Heidelberg,2013:231-242.
[9]Zeng D,Liu K,Lai S,et al.Relation Classification Via Convolutional Deep Neural Network[C]//Proceedings of COLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:2335-2344.
[10]Zhang D,Wang D.Relation Classification via Recurrent Neural Network[EB/OL].https://arxiv.org/pdf/1508.01006.pdf,2015-04-05.
[11]Zhang S,Zheng D,Hu X,et al.Bidirectional Long Short-term Memory Networks for Relation Classification[C]//Proceedings of the 29th Pacific Asia Conference on Language,Information and Computation,2015:73-78.
[12]Socher R,Huval B,Manning C D,et al.Semantic Compositionality Through Recursive Matrix-vector Spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Association for Computational Linguistics,2012:1201-1211.
[13]Hashimoto K,Miwa M,Tsuruoka Y,et al.Simple Customization of Recursive Neural Networks for Semantic Relation Classification[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.2013:1372-1376
[14]Xu Y,Jia R,Mou L,et al.Improved Relation Classification By Deep Recurrent Neural Networks with Data Augmentation[EB/OL].https://arxiv.org/pdf/1601.03651.pdf,2016-10-13.
[15]Li J,Luong T,Jurafsky D,et al.When Are Tree Structures Necessary for Deep Learning of Representations[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:2304-2314.
[16]Xu K,Feng Y,Huang S,et al.Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:536-540
[17]Xu Y,Mou L,Li G,et al.Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1785-1794.
[18]Liu Y,Wei F,Li S,et al.A Dependency-Based Neural Network for Relation Classification[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015:285-290.
[19]Cai R,Zhang X,Wang H.Bidirectional Recurrent Convolutional Neural Network for Relation Classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016,(1):756-765.
[20]劉燊.面向《大詞林》的中文實體關系挖掘[D].哈爾濱:哈爾濱工業大學,2016.
[21]孫紫陽,顧君忠,楊靜.基于深度學習的中文實體語義關系抽取方法.計算機工程[J/OL].http://www.ecice06.com/CN/abstract/abstract28113.shtml,2017-10-17.
[22]Treisman A,Sykes M,Gelade G.Selective Attention and Stimulus Integration[J].Attention and Performance Ⅵ,1977,333.
[23]李博,趙翔,王帥,等.改進的卷積神經網絡關系分類方法研究[J].計算機科學與探索,2018,(5).
[24]Xiao M,Liu C.Semantic Relation Classification Via Hierarchical Recurrent Neural Network with Attention[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:Technical Papers,2016:1254-1263.
[25]Zhou P,Shi W,Tian J,et al.Attention-based Bidirectional Long Short-term Memory Networks for Relation Classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers),2016,(2):207-212.
[26]王紅,史金釧,張志偉.基于注意力機制的LSTM的語義關系抽取[J].計算機應用研究,2018,(5).
[27]Mintz M,Bills S,Snow R,et al.Distant Supervision for Relation Extraction Without Labeled Data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume 2.Association for Computational Linguistics,2009:1003-1011.
[28]Zeng D,Liu K,Chen Y,et al.Distant Supervision for Relation Extraction Via Piecewise Convolutional Neural Networks[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:1753-1762.
[29]Lin Y,Shen S,Liu Z,et al.Neural Relation Extraction with Selective Attention Over Instances[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016,(1):2124-2133.
[30]Ji G,Liu K,He S,et al.Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence,2017:3060-3066.
[31]Liu T,Wang K,Chang B,et al.A Soft-label Method for Noise-tolerant Distantly Supervised Relation Extraction[C]//Conference on Empirical Methods in Natural Language Processing,2017:1790-1795.
[32]黃兆瑋,常亮,賓辰忠,等.基于GRU和注意力機制的遠程監督關系抽取[J].計算機應用研究,2019,(10).
[33]蔡強,郝佳云,曹健,等.采用多尺度注意力機制的遠程監督關系抽取[J].中文信息學報,2018,32(1).
[34]黃蓓靜.深度學習技術在中文人物關系抽取中的應用研究[D].上海:華東師范大學,2017.
[35]尚琪.特定領域實體屬性關系抽取方法研究[D].昆明:昆明理工大學,2017.
[36]Quan C,Hua L,Sun X,et al.Multichannel Convolutional Neural Network for Biological Relation Extraction[J].BioMed Research International,2016.
[37]Choi S P.Extraction of Protein-protein Interactions(PPIs)from the Literature By Deep Convolutional Neural Networks with Various Feature Embeddings[J].Journal of Information Science,2016:0165551516673485.
[38]Hua L,Quan C.A Shortest Dependency Path Based Convolutional Neural Network for Protein-Protein Relation Extraction.[J].BioMed Research International,2016.
[39]Peng Y,Lu Z.Deep Learning for Extracting Protein-protein Interactions from Biomedical Literature[EB/OL].https://arxiv.org/pdf/1706.01556.pdf,2017-06-07.
[40]Zhang H,Yang M Q,Feng X,et al.Protein-Protein Interaction Extraction Using Attention-Based Convolution Neural Networks[C]//ACM International Conference on Bioinformatics,Computational Biology,and Health Informatics.ACM,2017:770-771.
[41]Quan C,Hua L,Sun X,et al.Multichannel Convolutional Neural Network for Biological Relation Extraction[J].BioMed Research International,2016.
[42]Zhao Z,Yang Z,Luo L,et al.Drug Drug Interaction Extraction from Biomedical Literature Using Syntax Convolutional Neural Network[J].Bioinformatics,2016,32(22):3444-3453.
[43]劉勝宇.生物醫學文本中藥物信息抽取方法研究[D].哈爾濱:哈爾濱工業大學,2016.
[44]Suárez-Paniagua V,Segura-Bedmar I,Martínez P.Exploring Convolutional Neural Networks for Drug-drug Interaction Extraction[J].Database,2017,(1).
[45]Le H Q,Can D C,Dang T H,et al.Improving Chemical-induced Disease Relation Extraction with Learned Features Based on Convolutional Neural Network[C]//International Conference on Knowledge and Systems Engineering,2017:292-297.
[46]Gu J,Sun F,Qian L,et al.Chemical-induced Disease Relation Extraction Via Convolutional Neural Network[J].Database the Journal of Biological Databases & Curation,2017,(1).
[47]馮欽林.基于半監督和深度學習的生物實體關系抽取[D].大連:大連理工大學,2016.
[48]Huynh T,He Y,Willis A,et al.Adverse Drug Reaction Classification with Deep Neural Networks[C]//Proceedings of COLING 2016,the 26th International Conference on Computational Linguistics:Technical Papers,2016:877-887.
[49]Lee K,Qadir A,Hasan S A,et al.Adverse Drug Event Detection in Tweets with Semi-Supervised Convolutional Neural Networks[C]//Proceedings of the 26th International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,2017:705-714.
[50]Uzuner O,Mailoa J,Ryan R,et al.Semantic Relations for Problem-oriented Medical Records[J].Artificial Intelligence in Medicine,2010,50(2):63-73.
[51]Sahu S K,Anand A,Oruganty K,et al.Relation Extraction from Clinical Texts Using Domain Invariant Convolutional Neural Network[EB/OL].https://arxiv.org/pdf/1606.09370.pdf,2016-06-30.
[52]劉凱,符海東,鄒玉薇,等.基于卷積神經網絡的中文醫療弱監督關系抽取[J].計算機科學,2017,44(10):249-253.
[53]珠杰,洪軍建.基于SDAs的人物關系抽取方法研究[J].計算機科學,2017,44(s1):141-145.
[54]黃衛春,徐力,熊李艷,等.基于信息增益的Web人物關系抽取[J].計算機應用研究,2016,33(8):2286-2289.
[55]劉錦文.基于新聞數據的中文人物社會關系抽取研究[D].合肥:中國科學技術大學,2016.
[56]潘云.基于中文在線資源的人物關系抽取研究[D].上海:華東師范大學,2015.
(責任編輯:郭沫含)