改進的卷積神經網絡關系分類方法研究*

2018-05-09 08:49:40肖衛東

計算機與生活 2018年5期

李博，趙翔，王帥，葛斌，肖衛東

1.國防科學技術大學信息系統與管理學院，長沙 410072

2.地球空間信息技術協同創新中心，武漢 430079

1 引言

近年來，大規模知識庫在自然語言處理、網頁搜索和自動問答等方面得到廣泛應用，典型的大規模知識庫包括Freebase、DBpedia和YAGO等，這些知識庫的核心是大量形如“（Mark Zuckerberg，founder of，Facebook）”的事實關系元組。目前這些知識庫還遠不能準確描述真實世界中的海量知識。為進一步豐富現有知識庫，新近的研究希望通過機器學習的自動化方法來提升知識庫的體量，尤其是增加事實關系的數量。這個過程稱作關系抽取，即從無格式文本中識別并生成實體之間的語義關系。例如，輸入文本“Financial stress1）粗體表示語句中已事先標注的實體。is one of the main causes of divorce.”，其中已標注實體e1=“stress”和e2=“divorce”，關系分類任務將自動識別實體e1和e2之間存在Cause-Effect關系，并表示為Cause-Effect(e1,e2)。

當前，實現關系抽取的主流方法是進行關系分類。在上述例子中，兩實體對應的謂語和目標關系聯系緊密，易于識別和區分；但在實際中，描述同一種關系的表達方式往往各式各樣，這些在詞義句法，甚至語境上的不同給正確關系分類帶來了巨大的困難和挑戰。一個符合直覺的想法是，不僅利用每個詞的意思，而且考慮單個詞（word）與句字（sentence）句法相結合。因此，已有研究提出了許多基于核（kernel）的方法，利用自然語言處理工具提取特征，包括 POS（part-of-speech）標簽、NER（named entity recognition）標簽、依賴分析樹和組成分析等。

隨著深度學習技術的發展，有研究主張不手動設計特征或者利用外部知識，而是直接使用深層神經網絡來學習和表示特征。代表性工作包括基于卷積神經網絡（convolution neural network，CNN）、循環神經網絡（recurrent neural network，RNN）以及其他結合神經網絡的方法[1-2]。其中，基于CNN的方法結構簡單且效果突出，僅使用包含一個卷積層、池化層和softmax層的網絡就能取得與基于RNN和LSTM（long short-term memory）等復雜模型相當的效果。但是，深入研究發現，基于CNN的方法仍存在如下問題：

（1）經常無法發現與關系緊密相關的詞。譬如，“We poured the milk，which is made in China，into the mixture.”中既包含“made”又包含“into”，其中“made”與Product-Producer關系緊密相關，“pour”和“into”與Entity-Destination關系聯系緊密；CNN傾向于抽取出“made”的高層特征而將“milk”和“mixture”分類為Product-Producer關系，但其實兩者之間為Entity-Destination關系。換言之，將實體間的詞輸入神經網絡，當出現從句（clauses）等實體間距較大的樣本時，CNN不能正確抽取特征或抽取的特征和實體無關聯。

（2）同一句子中實體對按照不同的先后順序輸入神經網絡，其分類結果可能不同。例如，在“Financial stress is one of the main causes of divorce.”中，將實體“stress”當作e1，實體“divorce”當作e2，得到結果為Cause-Effect；將“stress”當作e2，“divorce”當作e1，理應得到結果Effect-Cause。但CNN實際分類過程中存在兩種結果不對應的情況。

本文試圖通過解決上述問題給出一種更好的基于CNN的關系分類方法。針對問題（1），提出利用最短依賴路徑對不同詞進行選擇性注意的機制；針對問題（2），重新定義該問題并提出正向實例和反向實例的概念，綜合兩者分類的結果以實現最終分類。本文的主要貢獻包括：

（1）在經典CNN編碼器中添加了選擇性注意力層，利用最短依賴路徑幫助CNN找到和實體關系聯系緊密的關鍵詞并提取特征，提高了處理大間距實體對的效果。

（2）設計了一種新的編碼方式來融入依賴結構信息，使CNN編碼器能夠捕獲短距離依賴結構信息。

（3）提出了一種正向和反向實例結合的方法，并且將該方法與帶有選擇性注意的CNN編碼器配合，在SemEval 2010任務8上取得了當前最優的F1值。

本文組織結構如下：第2章介紹關系分類的研究現狀，尤其是基于神經網絡的方法；第3章介紹模型設計，從改進的CNN句子編碼器和正反實例結合兩方面進行細致闡述；第4章是模型有效性實驗和比較分析；最后總結全文，并討論下一步工作方向。

2 研究現狀

關系分類是一個經典的信息抽取問題，其本質是一個有監督多分類問題，可將現有研究分為如下三類：

（1）基于特征的方法。抽取大量語言學（詞義和語法）特征，組合特征形成特征向量并利用各種分類器（例如最大熵模型和支持向量機等）進行分類[3-5]?；谔卣鞯姆椒ㄔ谔幚硖囟I域數據或小數據量時效果較好，但其特征集的選擇依靠經驗和專家知識，需要花費大量時間去設計和完善。

（2）基于核的方法。通過計算兩實體在高維稀疏空間上的內積獲取結構化特征。Zelenko等人設計的樹核利用共同子樹的加權和來計算兩個淺層分析樹的結構共性[6]。Culotta和Sorensen將該樹核遷移到依賴樹上并添加了額外語法分析信息[7]。Zhou等人則提出了內容感知卷積樹核，不僅使用語法解析樹，還添加了文本內容信息[8]。該類方法的分類性能很大程度上依賴于基礎自然語言處理工具，而基礎工具的錯誤可能會造成最終分類性能的下降；而對于沒有完善的基礎處理工具的語言，此時該方法不再適用。另外該類方法需要獲取語法分析結果，前期數據預處理過程耗費時間。

（3）基于神經網絡的方法。通過對每個詞進行編碼，克服了傳統方法的稀疏問題，且能夠自動學習特征。在CNN上，Zeng等人提出了一個用softmax層分類的深度卷積神經網絡[1]，提取詞匯和句子級別特征；Santos等人提出了排序CNN模型（classification by ranking CNN，CR-CNN），使用排序層進行分類[2]；肜博輝等人提出利用多通道卷積神經網絡來獲取更豐富的語義信息[9]。在遞歸神經網絡上，Socher等人提出的遞歸矩陣-矢量模型嘗試利用句法樹來獲取語句組成成分的語義[10]；Hashimoto等人提出使用RNN在語義樹上提取特征進行分類[11]；此外，還有一系列的改進方法，如 Bi-LSTM-RNN[12]和 ATT-BLSTM[13]。Vu等人使用CNN和RNN兩個網絡進行訓練，然后利用投票等方法整合分類結果[14]。相比其他兩類方法，基于神經網絡的方法不需要人工定義特征，利用神經網絡自動抽取特征，遷移性較好，且其關系分類的效果較好。而相比其他神經網絡結構，CNN的結構簡單，效果突出，但存在沒有綜合考慮詞義和句義的結合，處理大間距分類問題能力差等缺陷；并且現有的研究都忽視了同一句子中實體對按照不同的先后順序輸入神經網絡，其分類結果不一致的問題。本文結合原始詞序列和依賴樹來解決大間距分類問題，并結合兩個順序輸入實體綜合訓練進行關系分類，以簡單模型取得良好效果。

3 模型與方法

對于每個句子S，其中包含標注實體e1和e2，關系分類的任務是從一系列候選關系集R={r1,r2,…,rm}中識別出實體e1和e2的語義關系ri。所提模型包含兩部分，即在正向和反向實例結合的關系分類框架下，使用帶選擇性注意力的基于CNN的句子編碼器。

（1）SA-CNN句子編碼器。輸入一個句子和兩個目標實體，采用一個帶選擇性注意力的CNN構建低維實數向量來表示句子。

（2）正向和反向實例結合。當得到句子的正向實例表示和反向實例表示后，同時結合正反實例來選擇最合適的關系分類結果。

Fig.1 Structure of SA-CNN sentence encoder圖1 SA-CNN句子編碼器結構

3.1 SA-CNN句子編碼器

設計的句子編碼器結構如圖1所示，稱為SA-CNN（selective attention-convolution neural network）。

首先，嵌入（embedding）層將句子中的詞轉換為低維實數向量，之上的卷積（convolution）層獲取每個詞的高層特征；接著，通過最短依賴路徑找出與兩實體語義聯系最緊密的詞，由權重矩陣表示；然后，通過選擇性注意力（selective attention）層提高編碼器對關鍵詞注意力；最后，經由池化（pooling）和非線性層構建出句子向量表示，編碼后的向量記作s。

3.1.1 輸入表示和卷積層

SA-CNN的輸入是原始句子文本。CNN只能處理定長輸入，因此在輸入之前將原始句子填充為長度一致的詞序列。這里設置目標長度為數據集最長句子長度n，填充詞為“NaN”。

在輸入表示層，每個詞通過詞向量矩陣轉換為低維向量。為標識實體位置，給每個詞添加位置特征向量；為提高系統對句子依賴結構的理解，還給每個詞添加依賴方向向量和依賴特征向量。

（1）詞編碼。已知一個句子x其包含n個詞，表示為x=[x1,x2,…,xn]，其中xi表示在該序列中第i個詞，n為預先設定的填充截取長度。每個詞xi通過查找詞向量表W獲得其對應詞向量表示ei，即ei=Wxi。實驗操作中使用預訓練的詞向量數據。

（2）位置編碼。實體在句子中的位置影響實體間的關系。不添加位置特征向量時，CNN將無法識別句中哪個詞為實體，導致分類效果差。位置特征向量可以幫助CNN知道每個詞到兩個關系實體的距離。受文獻[1]啟發，利用每個詞與實體的距離生成位置特征向量。例如，在句子“Financial stress is one of the main causes of divorce.”中，詞“main”與實體“stress”距離為5，與實體“divorce”距離為-3。具體地，使用每個詞xi與兩個實體在句子中的距離i-i1和i-i2對應在位置特征編碼表D中的向量作為位置編碼，記作。位置特征編碼表使用隨機值初始化。

（3）依賴編碼。基于依賴分析樹的依賴編碼包括依賴方向向量和依賴特征向量。依賴分析樹是對句子結構分析后根據詞之間相互依賴關系構成的樹，是句義理解的基本工具。如圖2所示，在依賴分析樹中，每一節點（除根節點）與上級節點之間存在依賴關系，依賴關系不僅包含其上級節點還包括依賴標簽。具體地，使用詞與上層節點的距離生成依賴方向向量，利用詞之間依賴關系的標簽生成依賴特征向量。

Fig.2 Classification framework of combining forward and backward instances圖2 正向和反向實例結合的關系分類框架

借鑒位置編碼的方式，利用每個詞與上一詞的距離dip對應在依賴方向編碼表P中的實數向量作為pi，利用依賴標簽對應在依賴特征編碼表F中的向量作為fi。依賴方向編碼表和依賴特征編碼表使用隨機值初始化。

至此，將每個詞的詞編碼、位置編碼和依賴編碼串聯在一起作為該詞的編碼表示。對于填充詞，設置唯一向量進行標識。具體地，對每一個詞，串聯詞向量ei，與兩實體的位置向量di1和di2，依賴方向向量pi和依賴特征向量fi得到該單詞的表示向量，即：

而句子的編碼表示則為：

在卷積層，關系分類的最大挑戰源自語義表述多樣性，重要信息在句中的位置不是固定的。因此，考慮在模型中采用一個卷積層來融合所有局部特征，卷積層通過一個大小為w的滑窗來抽取局部特征。當滑窗在邊界附近可能越界，可在句子兩邊填充零向量來保證卷積后維數不變。

具體地，卷積核為矩陣f=[f1,f2,…,fw]，則在卷積之后得到特征序列s=[s1,s2,…,sn]，其中：

其中，b為偏置項，g是一個非線性函數。使用不同的卷積核和窗口大小可獲取不同的特征。

3.1.2 選擇性注意力層

經典CNN在卷積過程中對所有詞進行無差別特征抽取，然而通過研究發現，每個詞對實體關系的貢獻度是不同的，有區別地對待可能提升分類效果。已有研究[15]表明，實體間的最短依賴路徑直接影響關系分類結果。因此，考慮使用最短依賴路徑生成權重矩陣，并通過權重矩陣實現對關鍵詞進行選擇性關注。

兩實體之間的最短依賴路徑定義為該句的依賴分析樹中兩實體的最短路徑，表示了兩實體的最短依賴關系；最短依賴路徑上的詞為關鍵詞。例如，“A thief，who intends to go to the city，broke the ignition with screwdriver.”，在依賴分析樹中“thief”和“screw-driver”的最短依賴路徑為“thief-nsubj-broke-nmodscrewdriver”。最短依賴路徑上詞對關系分類影響最大，“thief”和“screwdriver”之間為 Instrument-Agency關系，而關鍵路徑上的“broke”也和該關系聯系緊密。該句中還包含“go”，該詞和Entity-Destination關系聯系緊密。若不考慮關鍵詞對關系分類的影響，很可能會判斷為Entity-Destination關系，造成錯誤分類。

具體地，對關鍵詞和非關鍵詞分別進行加權。由于決定實體間關系的詞序列不僅是一個詞，將處于關鍵詞附近的詞也進行選擇性注意。設置關鍵詞權重系數α(α＞1)及距離衰減系數β(0＜β＜1)，對于每一單詞其權重為qi，由該單詞到最短依賴路徑上單詞的最短距離dq決定，即：

則選擇性注意權重矩陣為：

因此，經過該層后的特征矩陣為：

3.1.3 池化和非線性層

在池化層，使用max函數獲取最重要特征，則對于每一卷積核其卷積分數為：

每一卷積核得到的池化分數串聯形成，表示該句子的特征向量z=[p1,p2,…,pm]，其中m為卷積核數量。

最后，給特征向量加上非線性函數作為輸出，該輸出即為輸入句子的編碼表示。

3.2 正向和反向實例結合

已知句子的編碼表示，通過一個多層感知器配合一個softmax層即得到關系分類。然而，研究發現，這種分類能導致不同的結果。例如，“Financial stress is one of the main causes of divorce.”中，“stress”與“divorce”有Cause-Effect關系，而“divorce”與“stress”有Effect-Cause關系2）由于關系具有方向性，Cause-Effect關系和Effect-Cause關系非同一類關系。。在SA-CNN句子編碼器中，兩種順序情況下實體的位置編碼不同，進而造成句子編碼不同，但其實兩種順序情況都是表示“stress”與“divorce”間存在Cause-Effect關系。

為此，考慮結合這兩種情況來判斷實體關系。首先給出兩個定義。

定義1（正向實例）給定一個已標注兩個實體的句子，根據句中詞的前后線性順序，把對應詞在前出現的實體作為e1，另一個實體作為e2的實例，稱作正向實例。

定義2（反向實例）給定一個已標注兩個實體的句子，根據句中詞的前后線性順序，把對應詞在后出現的實體作為e1，另一個實體作為e2的實例，稱作反向實例。

譬如，在前述例子中，以“stress”作為e1、“divorce”作為e2的為正向實例，正向實例有Cause-Effect關系；以“divorce”作為e1、“stress”作為e2的為反向實例，反向實例有Effect-Cause關系。研究發現，正向實例的語義關系和反向實例的語義關系是相互對應的。一個優秀的分類系統應確保正向實例和反向實例分類結果亦相互對應，鑒于此，設計了正向和反向實例結合的關系分類框架，如圖2所示。

首先，對于任一句子，其正向實例的編碼特征向量為，反向實例的編碼特征向量為zi-，正向實例關系為，反向實例關系為ri-。由于存在正向實例和反向實例不對應的情況，設置其有ω概率正向實例正確，有1-ω概率反向實例正確。然后，利用交叉熵設計目標函數為：

其中，n為句子數量；θ和θ′分別為正向實例和反向實例模型中所有參數。

為解決上述優化問題，使用隨機梯度下降法來最小化目標函數。具體地，從訓練集中隨機選擇mini-batch個樣本進行訓練直到收斂；在測試時，正向實例分類概率向量為C+=[c1,c2,…,cr]，反向實例分類概率向量為C-=[c1,c2,…,cr]，ci表示該句子中實體e1與e2之間存在關系ri的概率。因此，分類的結果是：

最終，通過最大值反函數i=argmax(C)獲取對應的分類結果ri。

4 實驗與分析

實驗旨在證明：（1）引入依賴分析樹能夠提高基于CNN的方法在處理大間距關系分類上的效果；（2）正向實例和反向實例結合的分類框架可以改進關系分類效果。首先介紹實驗數據集、評價指標和設定的超參數；然后分別測試SA-CNN句子編碼器和正向反向實例結合框架的性能和有效性；最后與其他典型方法進行橫向對比評測。

4.1 數據集

本文采用了廣泛用于關系分類評測的SemEval 2010任務8作為實驗數據集，共包括標注好實體位置及實體間關系的10 717個樣本，其中8 000個樣本為訓練集，2 717個樣本為測試集，詳細分布信息如表1所示。該數據集標注關系包括9種語義關系及Other關系（表示實體間不存在語義關系），9種語義關系分別是Cause-Effect、Component-Whole、Content-Container、Entity-Destination、Entity-Origin、Product-Producer、Member-Collection、Message-Topic和 Instrument-Agency。每個樣本僅包含一個句子，且句中已標注兩個實體及其關系。在該任務中，不僅需要預測實體間的關系，還需預測關系的方向。因此，實際關系分類系統中共有2×9+1=19種關系。在評價分類結果時，使用9種語義關系的macro-F1值作為評價指標。

Table 1 Dataset statistics of SemEval 2010 task 8表1 SemEval 2010任務8數據集分布

4.2 基礎配置及超參數

詞向量編碼使用預訓練詞向量進行初始化，而詞向量使用了開源word2vec工具（https://code.google.com/p/word2vec/）對英文維基百科進行訓練。對于CNN，采用4折交叉驗證方法來調節網絡參數，并使用了early stop策略，監控值為驗證集loss值。使用tanh函數作為非線性函數，卷積時設置4個滑動窗口，窗口大小分別為2、3、4和5，卷積核數目為256，權重衰減L2的超參數設置為0.4，關鍵詞權重系數α為1.2，距離衰減系數β為0.9。詞向量和位置特征向量分別設為300維和40維，依賴方向向量和依賴特征向量均為30維。此外，其他參數與文獻[16]中一致，例如dropout設為0.5，mini-batch設為50等。

4.3 實驗結果及分析

該組實驗以文獻[16]中的方法作為基準，實驗得到該方法的F1值為82.1%，與原論文中結果相當。

4.3.1 評價SA-CNN句子編碼

該組實驗中不使用正向實例和反向實例結合框架。實驗結果如表2所示，只在詞編碼過程添加依賴編碼，F1值為82.6%；添加了選擇性注意力層后，F1值提升到84.1%。

Table 2 Experiment results of SA-CNN sentence encoder表2 SA-CNN句子編碼實驗結果

由實驗結果可見，增加依賴編碼提高了系統分類效果。其原因在于，卷積過程中，基準CNN只能抽取基于詞序列的高層特征，而改進的模型還能抽取基于依賴關系的高層特征。另一方面，盡管該種依賴編碼的方式已經將全部依賴樹信息編碼為句子表示，但分類效果提升并不顯著。通過分析發現，當依賴關系兩詞位置較近時（處于CNN滑窗之內），CNN能夠抽取該詞組內部的依賴結構，而當依賴關系較遠，CNN很難抽取其依賴結構。另外，增加選擇性注意層能提高分類效果的原因在于，它提高了大間距實體上的分類效果。CNN可能會將有極強關系信號但不是描述兩個實體間關系的詞抽出作為特征，例如從句中包含“cause”使得CNN很容易判斷其為Cause-Effect關系，因而導致關系分類不準確。而改進的模型在抽取特征時，考慮了每一個詞與實體的依賴關系，從而減少了此類錯誤。

為進一步證明設計的句子編碼器能更有效地處理大間距實體樣本，對比分析了不同距離樣本的F1值。首先關注數據集的實體距離（兩個實體之間包含詞數量）分布，結果如圖3所示3由于實體距離大于15的樣本較少，本文將距離大于15的樣本全部統計為15。）。分別測試了基準系統和基于SA-CNN編碼器的分類系統在不同實體距離數據上的F1值。如圖4所示：（1）當實體距離超過5時，隨著距離增大，基準系統分類準確率顯著降低；在距離為14時，F1值為0.83，但此時樣本數量僅有9個，分類準確率偶然性較大，不具有代表性。（2）改進的系統相比基準系統顯著提高了大間距實體樣本的F1值，特別是當距離處于6至12之間時。（3）當實體間距過長時，雖然改進的系統效果減弱，但仍略優于基準系統。其原因在于當句子較長時，句法分析的準確率下降，造成最短依賴路徑分析不準確，進而使得效果減弱。

Fig.3 Distance distribution of entities圖3 實體距離分布

Fig.4 Comparison of classification effect圖4 分類效果對比

該組實驗說明，SA-CNN句子編碼器在處理實體間距較大的樣本時，能抽取出更代表兩者關系的特征來進行句子表示，從而證明了SA-CNN編碼器模型的有效性。

4.3.2 正向反向實例結合實驗

在該組實驗中不使用依賴特征和選擇性注意層，實驗結果如表3所示。注意到，在基準系統上添加正向反向實例結合框架使得F1值提高了1.4%。

Table 3 Experiment results of combining forward and backward instances表3 正向反向實例結合對比實驗結果

分析原因，主要包括：（1）使用結合反向實例的方法可以避免正向實例和反向實例分類結果不一致的錯誤分類，使得訓練出的模型更具有魯棒性。如前文所述，基準系統分類時，可能出現實體“stress”和實體“divorce”有Cause-Effect關系，但實體“divorce”和實體“stress”有Component-Whole關系的情況。這種正向實例和反向實例分類結果不對應，也即對一個樣本的兩種表示分類結果不同，表明其模型不穩健。（2）由于每一樣本都包含反向實例，訓練集由原始的8 000樣本擴大到了16 000樣本。因此，結合正向實例和反向實例的分類框架是一個簡單卻行之有效的改進方案。

4.3.3 與其他方法的對比

將所提兩種改進結合，形成本文的方法SA-CNN+FBI（selective attention-convolution neural network+forward and backward instances），并與其他關系分類方法進行橫向比較。下列典型方法參與了對比實驗。

（1）SVM[4]：該方法通過人工定義和其他工具抽取大量新的特征，通過支持向量機訓練來進行分類。

（2）CNN[1]：該方法使用CNN學習句子中詞的詞向量表示，將詞表示串聯形成句子表示。為了輸入實體位置信息，使用了一個特殊的位置向量來表示每一單詞距離實體的距離，并且將該位置向量和詞向量結合構成單詞特征向量，然后通過CNN學習每個句子的特征表示，最后輸入softmax分類器。

（3）CR-CNN[2]：該方法關注于人工定義的Other關系對實驗的影響，通過重新定義排序損失函數，在CNN后使用排序層替換softmax層，提高分類效果。

（4）depLCNN+NS[17]：該方法在反向監督的框架下，使用實體間的最短依賴路徑作為輸入，通過CNN學習其編碼表示，然后輸入softmax分類器進行分類。

（5）MV-RNN[10]：該方法為了獲取長短語的編碼表示，通過RNN由每個詞的向量表示構成詞塊編碼表示和句子編碼表示，然后通過分類器進行分類。

（6）Bi-LSTM-RNN[12]：該方法依據兩個實體將句子分為5部分作為序列特征，通過雙向LSTM和RNN進行關系分類。

（7）ATT-BLSTM[13]：該方法在雙向LSTM上添加注意力層，提高分類系統對關鍵部分詞的注意力。

在結合正向和反向實例關系分類框架下，使用帶有選擇性注意的卷積神經網絡，并且添加依賴方向向量和依賴特征向量，SA-CNN+FBI在SemEval 2010任務8數據集上F1值為85.8%。如表4所示，SA-CNN+FBI的結果達到了當前的最優效果；與SA-CNN+FBI結果最接近的是depLCNN+NS方法，因為它不僅考慮了關系的方向性，并且還添加了WordNet特征。同時還注意到，經典CNN以十分簡單的網絡結果就取得了良好的初始分類效果，這也是SA-CNN+FBI選擇CNN作為基礎開展改進研究的原因。

5 結束語

本文針對現有基于CNN的關系分類方法難以處理包含大間距實體樣本的問題，提出了利用實體間的最短依賴路徑構建選擇性注意權重，對關鍵詞進行選擇性注意的SA-CNN句子編碼器。在此基礎上，針對現有方法難于解決句中正反實例分類結果不一致的問題，設計了一種將正向實例與反向實例結合進行關系分類的框架。在公開數據集上，對比驗證了所提模型SA-CNN+FBI的效果，其在SemEval 2010任務8數據集上獲得了當前最優結果。實驗證明，SACNN+FBI在維持模型結構簡單性的同時，不需要提供額外的人工特征即可取得優秀的性能。注意到，這種依賴樹與輸入詞序列相結合的方法，其實質是利用CNN捕捉句子的詞義和句義兩方面的特征，因而能提高模型對句子的理解能力。在下一步工作中，將探索該模型在其他自然語言處理任務中的應用，例如情感分類和文本分類等。

[1]Zeng Daojian,Liu Kang,Lai Siwei,et al.Relation classification via convolutional deep neural network[C]//Proceedings of the 25th International Conference on Computational Linguistics,Dublin,Aug 23-29,2014.Stroudsburg:ACL,2014:2335-2344.

[2]Santos C N,Xiang Bing,Zhou Bowen.Classifying relations by ranking with convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing,Beijing,Jul 26-31,2015.Stroudsburg:ACL,2015:626-634.

[3]Kambhatla N.Combining lexical,syntactic,and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions,Barcelona,Jul 21-26,2004.Stroudsburg:ACL,2004:22.

[4]Rink B,Harabagiu S.UTD:classifying semantic relations by combining lexical and semantic resources[C]//Proceedings of the 5th International Workshop on Semantic Evaluation,Uppsala,Jul 15-16,2010.Stroudsburg:ACL,2010:256-259.

[5]Gan Lixin,Wan Changxuan,Liu Dexi,et al.Chinese named entity relation extraction based on syntactic and semantic features[J].Journal of Computer Research and Development,2016,53(2):284-302.

[6]Zelenko D,Aone C,Richardella A.Kernel methods for relation extraction[J].Journal of Machine Learning Research,2003,3:1083-1106.

[7]Culotta A,Sorensen J S.Dependency tree kernels for relation extraction[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics,Barcelona,Jul 21-26,2004.Stroudsburg:ACL,2004:423-429.

[8]Zhou Guodong,Zhang Min,Ji Donghong,et al.Tree kernelbased relation extraction with context-sensitive structured parse tree information[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Prague,Jun 28-30,2007.Stroudsburg:ACL,2007:728-736.

[9]Rong Bohui,Fu Kun,Huang Yu,et al.Relation extraction based on multi-channel convolutional neural network[J].Application Research of Computers,2017,34(3):689-692.

[10]Socher R,Huval B,Manning C D,et al.Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,Jeju Island,Jul 12-14,2012.Stroudsburg:ACL,2012:1201-1211.

[11]Hashimoto K,Miwa M,Tsuruoka Y,et al.Simple customization of recursive neural networks for semantic relation classification[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,Seattle,Oct 18-21,2013.Stroudsburg:ACL,2013:1372-1376.

[12]Li Fei,Zhang Meishan,Fu Guohong,et al.A Bi-LSTMRNN model for relation classification using low-cost sequence features[J/OL].arXiv:1608.07720v1,2016.

[13]Zhou Peng,Shi Wei,Tian Jun,et al.Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,Berlin,Aug 7-12,2016.Stroudsburg:ACL,2016:207-212.

[14]Vu N T,Adel H,Gupta P,et al.Combining recurrent and convolutional neural networks for relation classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,San Diego,Jun 12-17,2016.Stroudsburg:ACL,2016:534-539.

[15]Kim Y.Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing,Doha,Oct 25-29,2014.Stroudsburg:ACL,2014:1746-1751.

[16]Nguyen T H,Grishman R.Relation extraction:perspective from convolutional neural networks[C]//Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing,Denver,Jun 5,2015.Stroudsburg:ACL,2015:39-48.

[17]Xu Kun,Feng Yansong,Huang Songfang,et al.Semantic relation classification via convolutional neural networks with simple negative sampling[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,Lisbon,Sep 17-21,2015.Stroudsburg:ACL,2015:536-540.

附中文參考文獻：

[5]甘麗新,萬常選,劉德喜,等.基于句法語義特征的中文實體關系抽取[J].計算機研究與發展,2016,53(2):284-302.

[9]肜博輝,付琨,黃宇,等.基于多通道卷積神經網的實體關系抽取[J].計算機應用研究,2017,34(3):689-692.