基于關系提示的單模塊單步驟實體關系抽取方法研究

2025-03-14 00:00:00劉輝張智王啟源

西安交通大學學報 2025年3期

摘要：針對現有關系三元組抽取方法由于忽略關系本身的關系語義信息以及三元組中元素的相互依賴和不可分性所導致的抽取效果不佳問題，提出了一種基于關系提示的實體關系抽取方法。在構建單模塊單步關系三重抽取模型（RPSS）的基礎上，考慮不同層次的關系語義信息和符號級和特征級的關系提示信息，對實體和關系提示符進行聯合編碼，得到統一的全局表示；同時通過注意力機制挖掘不同嵌入之間的深層關聯，構建三重交互矩陣，可在一個步驟中直接從單個模塊中提取所有三元組。結果表明：所提方法在NYT、WebNLG兩個基準數據集上實現了最佳的表現，F1分別達到了93.3%和94.9%。

關鍵詞：實體關系抽取；注意力機制；聯合編碼

中圖分類號：TP391.1 文獻標志碼：A

DOI：10.7652/xjtuxb202503020 文章編號：0253-987X（2025）03-0222-13

Research on Entity Relation Extraction Method Based on Relational "Prompts with Single-Module Single-Step Approach

LIU Hui1， ZHANG Zhi2， WANG Qiyuan1

（1. College of Electronic Engineering， National University of Defense Technology， Hefei 230037， China;

2. School of Computer Science and Technology， Harbin Institute of Technology， Harbin 150001， China）

Abstract：To address the issue of suboptimal performance in existing relation triplet extraction methods， caused by the oversight of relationship semantic information and the interdependence and indivisibility of elements in triplets， a novel entity relation extraction method based on relational prompts is proposed. Building upon a single-module single-step relation triple extraction model （RPSS）， this method incorporates relationship semantic information at varying levels and symbol-level as well as feature-level relational prompt information. By jointly encoding entities and relational prompt symbols to derive a unified global representation， and employing attention mechanisms to delve into deep associations among different embeddings， a triple interaction matrix is constructed. This approach enables the extraction of all triplets directly from a single module in a single step. The proposed method demonstrates superior performance on benchmark datasets like NYT and WebNLG， achieving F1 scores of 93.3% and 94.9%， respectively.

Keywords：entity relation extraction; attention mechanism; joint encoding

自然語言處理中最重要的一項信息提取任務就是從非結構化文本中提取實體和實體之間的關系^［^1-2^］，從而生成結構化的關系三元組。通常，結構化三元組的形式是主體、關系、客體，其中主體和客體是通過關系聯系在一起的實體。從非結構化文本中抽取結構化的三元組能夠服務眾多下游任務，如知識圖譜^［³^］、問答系統^［⁴^］、醫學任務^［⁵^］、網絡空間測繪^［⁶^］等。

早期關于實體關系三元組抽取的研究^［^7-8^］主要包括兩部分：識別實體和預測它們之間的關系。通過識別文本中的所有實體，然后枚舉實體進行關系判斷，這種方法被稱為流水線方法。這種方法的優點是可以利用現有技術識別命名實體并對關系進行分類。然而，這種方法不但忽略了實體識別和關系預測之間的聯系，而且一個子任務中的錯誤很容易傳播到其他任務中，從而影響其應用。

隨著深度學習在各種任務上的廣泛應用，文獻［9-10］提出了以端到端方式識別實體及其關系的聯合提取模型。例如，Wei等^［¹¹^］提出的CasRel方法首先檢測所有的主體，然后以映射函數的形式推斷出相應的關系和對象。文獻［12］嘗試對實體和關系進行統一表示。Kong等^［¹³^］提出的共同注意網絡（CARE）方法采用并行編碼策略學習不同子任務的解碼方式。總的來說，這些模型通過分解和重組關系三重提取任務來實現端到端的關系三重提取。雖然這些方法取得了相當大的成功，但仍然存在一些問題：一方面，這些方法將關系三元抽取簡單地視為實體對上的多標簽分類任務，這種觀點將關系視為無意義的標簽，忽略了關系中豐富的語義信息，即存在關系標簽語義缺失的問題；另一方面，實體和關系之間有著豐富而深刻的聯系，三要素是不可分割的、相互依存的，忽略三元組完整性使模型容易丟失正確的關系組并引入無關噪聲。這些缺點阻礙了當前關系提取模型對于關系語義的有效利用。

針對當前句子級實體關系抽取中關系標簽語義缺失的問題，本文提出了一種基于關系提示的單模塊單步驟實體關系抽取模型（RPSS）。關系提示方法能夠提供豐富的標簽語義信息，通過對句子和關系提示的統一編碼構建實體關系交互矩陣；在解碼階段將關系三元組的三種元素作為一個整體進行抽取，實現了一次性抽取整個三元組。通過公開數據集實驗驗證了關系提示方法的有效性，表明了關系語義和關系三元組的整體性對于實體關系抽取的重要性。

1 基本思路

圖1所示為傳統實體關系抽取方法與本文所提方法的比較。其中，左側為傳統實體關系三元組抽取方法，首先通過不同的標注方法識別實體對，然后將其進行關系分類。這種方法雖然可以捕捉實體之間的相互聯系，但卻忽略了關系的語義信息以及實體與關系之間的相互聯系。例如，關系“live in”的語義信息可以推斷出關系三元組與人和地方有關，主體的實體類型應該是人物，客體的實體類型應該是地點。因此，關系的語義信息對于關系三元組的提取至關重要，越早構建實體和關系之間的鏈接結構，就能越深入地捕捉實體和關系之間的關聯特征。為解決這一問題，本文引入了提示學習，并提出了基于關系提示的三元組抽取方法，如圖1的右側。與提示學習中的離散提示和連續提示相對應，本文提出了關系硬提示和關系軟提示。關系硬提示提供token級的關系語義特征信息，關系軟提示提供特征級的關系語義特征信息。引入關系提示具有以下優勢：首先，構建的token級關系硬提示與句子中的實體標記是同構的，硬提示使模型能夠同時對實體和關系進行編碼，從而獲得統一的表征，有利于同時挖掘實體和關系之間的深層交互關系；其次，構建的特征級關系軟提示可以充分利用標簽數據捕捉關系特征語義信息，從而在不同語境下提供豐富的關系特征和先驗信息。

以往的方法在分解和重組關系三元組抽取任務時，多采取多模塊結構或多步解碼方法。如圖2所示，第一類多模塊多步驟方法使用級聯模塊進行序列化的實體抽取和關系抽取；第二類多模塊單步驟方法試圖單獨確定關系三元組的不同元素，然后根據潛在的相關性將它們結合起來。然而，這兩種方法都受到分類錯誤和大量冗余信息存的困擾，這些問題的根源在于分解和重組任務忽略了關系三元組的三種元素，而主體、客體和關系是相互關聯和不可分割的，抽取其中任一元素在沒有對其他兩個元素的信息完全感知的情況下都是不可信的。

為了解決這個問題，本文共同編碼句子和關系提示，并使用Transformer結構網絡來構建一個實體關系交互矩陣，用于挖掘不同元素之間的交互。通過這種方式，將實體抽取和關系判斷集成到一個模塊中，使模型能夠同時關注到3種元素，而不僅僅在某一時刻只關注到實體或關系。這種結構具有以下優點：首先，實體和關系是共同編碼和相互交互的，能夠完整捕捉實體與關系之間的相互依賴；其次，交互矩陣能夠在單個步驟中發現句子中所有的關系三元組，級聯誤差問題被有效地避免；第三，模型結構簡單，易于訓練。

基于以上分析，本文提出了一種基于關系提示的單模塊單步驟實體關系抽取模型（relational prompt-based single-module single-step model，RPSS），以充分挖掘和利用三元組三種元素之間的相互關聯。

2 模型算法設計

首先，定義實體關系抽取任務。對于給定的句子S=x1，x2，…，xN含有N個詞，實體關系抽取任務的目標是抽取出句子S中潛在的所有關系三元組T=（sl，rl，ol）s，o∈R，r∈ELl=1，其中L表示關系三元組的數量，sl、rl、ol分別表示主體、客體和主客體之間的關系，E=e1，e2，…，eM是一個包含所有的主體和客體的實體集合，其中M表示實體的數量，R=r1，r2，…，rK是一個預定義的關系集合，其中K表示關系類型的數量。需要注意的是，關系集合R是已知的，實體和關系能夠同時出現在不同的三元組中。

圖3描述了本文提出的基于關系提示的單模塊單步驟實體關系抽取方法框架。輸入是句子和關系硬提示的連接，將預訓練語言模型編碼器和關系式軟提示獲得的特征嵌入進行特征融合。實體關系交互矩陣是從預訓練語言模型編碼器的自注意網絡中學習得到的。矩陣的紅色部分是實體與實體之間的交互，矩陣的綠色部分是客體與關系之間的交互，矩陣的藍色部分是主體與關系之間的交互。之后通過交互矩陣就可以直接一步對齊識別出關系三元組。

2.1 關系提示

關系提示有兩種主要類型：關系硬提示和關系軟提示。

2.1.1 關系硬提示

關系硬提示有兩個主要特點：人工選擇和token級提示。關系硬提示使用自然語言中的詞來表示關系集合R中的關系類型。例如，關系詞“contain”代表關系類型“/location/location/contains”；關系詞“capital”代表關系類型“/location/country/capital”。有時存在多個語義相近的關系詞可以表示一個關系類型。例如，用來表示關系類型“/business/company/founders”的關系詞有“creator”、“builder”、“founder”、“author”等。從理論上講，使用多個關系詞共同表示一個關系類型可以提供更準確、更豐富的關系語義信息。為了簡單起見，本文手動選擇了一個語義信息最豐富的關系詞，因為這些詞在語義上差距并不大，選擇不同的語義相關的提示詞并不會導致結果的波動。

最后，得到一個關系硬提示序列RHP={r1，r2，…，rK}，關系硬提示包含豐富語義信息的關系詞，而不是無意義的關系標簽，同時將實體和關系的結構統一為token。

2.1.2 關系軟提示

關系軟提示有兩個主要特點：集成生成和特征級提示。標注數據中的關系語義曾被嚴重忽視，標注數據中的三元組包含豐富的先驗關系語義信息，

充足的標注數據可以構建關系特征語義信息，具有很強的泛化能力和廣泛的適用性。通過對訓練數據中所有特定關系實體對進行特征融合，可以得到包含豐富語義信息的先驗關系嵌入式表示，這種嵌入式表示就是關系軟提示。具體來說，對于一個關系ri，實體對集合Pi=（sl，ol）s，o∈E^Lil=1是所有ri特定實體對的集合^［¹^］；句子編碼完成后，通過平均池化抽取實體對所在的token的特征進行特征整合，得到每個實體對（sl，ol）的特征表示為il，然后，通過整合所有實體對的il得到關系ai的嵌入表示的語義特征。計算關系軟提示的公式為

ai=1Li∑LilAvgPool（Encoder（sl，ol））（1）

式中：AvgPool是平均池化方法；Encoder表示文本編碼器；ai表示關系軟提示的嵌入；Li表示關系包含的實體對的數量。

最后，得到一組關系軟提示RSP={a1，a2，…，aK}，其中每個向量ai，i∈1，K表示關系類型集合R中對應的關系類型的關系軟提示。關系軟提示是通過整合特定關系實體對的特征信息生成的。關系軟提示利用現有的標注數據，從不同語境中充分挖掘特征級的關系語義信息。

2.2 RPSS編碼

在編碼前，將關系硬提示和句子連接在一起，統一進行編碼；編碼后，關系軟提示和統一表示進行特征融合。為了進行公平的比較，選擇預訓練語言BERT-Base（Cased）模型^［¹⁴^］為編碼器，但理論上可以選擇其他預訓練語言模型作為編碼器，目前基于Transformer架構的預訓練語言模型發展迅速，包括但不限于RoBERTa^［15^］、BART^［16^］、T5^［17^］、GPT-4^［18^］等。更大的模型自然會帶來更豐富的語義信息，但為了與其他基線模型進行公平比較，選擇BERT作為與其他基線模型一致的編碼器。與以往只對句子中進行編碼的工作不同，本文提出的關系硬提示與句子具有相同的結構，這使得編碼時可以對實體和關系進行聯合編碼，從而統一表示。聯合編碼的計算公式如下

T=Contat（S，RHP）

H=Encoder（T）（2）

式中：Contat表示連接操作；T表示關系和句子的連接之后的文本；H∈R^（N+K）^×d是句子和關系的統一表示，d是嵌入的維度。

接下來，嵌入特征級關系軟提示，以獲得包含關系語義信息的全局統一表示。具體來說，通過平均池化關系軟提示和統一表示的關系嵌入H來進行特征融合。關系軟提示嵌入的計算公式如下

H=h1，h2，…，hN，hN+1+r12，hN+K+rK2 （3）

式中：hN+i，ri∈R¹^×d，i∈1，K。最后得到了實體和關系的全局統一表示H，H包含豐富的關系語義信息。

2.3 三元組交互矩陣

在前一階段獲得統一表示之后，編碼器通過使用自注意力技術^［¹⁹^］挖掘出每個輸入詞之間的相關性，其中，基于Transformer的預訓練模型采用Transformer網絡層的整體架構。Transformer網絡層由兩個子層組成：多頭自注意網絡和簡單的前饋神經網絡。語言模型強大的詞嵌入表征能力主要得益于多頭自注意機制，其使得模型能夠同時關注來自不同位置和不同表征子空間的信息。本文選擇多頭注意力機制的原因如下。首先，為了解決模型在對當前位置的信息進行編碼時會過度關注自身位置的問題，多頭注意力能夠學習不同的特征信息，并最終將其整合在一起；其次，在一定程度上，頭越多，整個模型的表現力就越強，也越能提高模型對注意力權重的合理分配；最后，多頭的本質是多個獨立的注意力網絡并行計算，起到融合的作用，防止過擬合。多頭自注意力機制主要用于捕捉H中每個輸入嵌入之間的相互聯系。每個注意力頭由3個不同的線性變換網絡組成，其將輸入單詞嵌入H轉換為查詢向量Q、鍵向量K和值向量V，然后計算Q與K的縮放點積，并使用非線性激活函數獲得V的權重。相關計算公式如下

Q=WqueryH+bquery （4）

K=WkeyH+bkey （5）

V=WvalueH+bvalue （6）

Attention（Q，K，V）=softmaxQKTdV （7）

A=Attention（Q，K，V）（8）

式中：Wquery，Wkey，Wvalue∈R^（N+K）^×（N+K）是可訓練的權重；bquery，bkey，bvalue∈Rd是可訓練的偏置；Attention（）和softmax（）分別為注意力函數和歸一化指數函數。

參數更新規則如下：第一步，在模型初始化過程中，模型參數根據正態分布隨機分布；第二步，在模型訓練過程中，為了最小化損失函數，通過反向傳播不斷修改參數，最終實現收斂。在多層網絡中，每一個Transformer層通過注意機制從上一層的輸出中生成新的嵌入，這使得Transformer網絡能夠充分捕捉不同嵌入之間豐富的深度相關性。用Hi表示第i個Transformer層的輸出。在此基礎上，將實體和關系提示統一到輸入嵌入H中，Hi包含了實體和關系之間豐富的內在關聯。Transformer結構的BERT具有強大的捕獲深層特征的能力。使用BERT的最后一層來構建三元組交互矩陣。BERT的Transformer網絡共有12層，將最后一層定義為H11。從H11中得到嵌入向量矩陣的Q和K，然后對Q和K的多個注意頭的點乘運算結果進行平均，并直接使用sigmoid非線性激活函數得到交互矩陣的結果。獲取三元組交互矩陣的公式如下

I=sigmoid1L∑LlQlKTld （9）

式中：L表示多頭自注意網絡中的頭數，在BERT中通常為12；I∈R^（N+K）^×（N+K）是三元組交互矩陣。如果I（·）的值超過了預定義的閾值σ，實體-實體對（ea，eb）或實體-關系對（e，r）將被視為有效，否則，將被視為無效。

最后，得到用于三元組對齊抽取的交互矩陣I。

2.4 RPSS解碼

如圖3所示，在交互矩陣中，有兩類交互：實體-實體交互（矩陣的紅色部分）和實體-關系交互（矩陣的藍色和綠色部分），通過對齊這兩類交互直接抽取關系三元組。實體-實體交互用于提取有效的實體對，實體-實體對用于構建有效的關系三元組。給定句子S中的兩個實體ei、ej，當交互矩陣中位置（i，j）的值為True時，實體對（ei， ej）是有效的。只有有效的實體對（ei， ej）才有可能是有效的關系三元組，在這里既可以是（ei，r，ej），也可以是（ej，r，ej）。例如，在圖3中，交互矩陣中的位置（0，3）是True，這意味著實體對（John， London）和（London，John）是有效的，其對構成關系三重（John， lives in， London）提供支持。通過三元組交互矩陣中的實體-實體交互，得到實體-實體對集。實體-關系交互識別每個關系的所有相關實體，并形成有效的實體-關系對用于構建有效的關系三重。給定一個關系r，當存在由實體e和關系r組成的三元組時，認為實體e和關系r是相互作用的。此外，由于關系的方向性，不應該對稱地提取主體-關系對和客體-關系對。為了區分主體和客體，將實體-關系交互分為兩部分：主體-關系交互（圖3矩陣右上方的藍色部分）和關系-客體交互（圖3矩陣左下方的綠色部分）。例如，在圖3中，交互矩陣中的位置（0，12）是True，這意味著主體-關系對（John，lives in）是有效的，交互矩陣中的位置（12，3）是True，這意味著關系-客體對（lives in， London）是有效的。他們對構建關系三元組（John，lives in， London）提供支持。通過交互矩陣中的實體-關系交互，得到所有主體-關系對和客體-關系對的集合。

這種簡單高效的解碼方法考慮了所有可以形成有效關系三元組的實體和關系。因此，該方法不僅能有效對齊三元組，還能在復雜場景中有效抽取嵌套三元組。如圖3中的例子所示，RPSS模型識別出了句子“John lives in London， the capital of the UK.”中的4個三元組，包括兩個SEO類型的嵌套三元組：（John， lives in， London）和（John， lives in， UK）以及兩個EPO類型的嵌套三元組：（London， is capital of， UK）和（UK， contains， London）。

2.5 訓練策略

在模型訓練過程中，計算二元交叉熵損失作為RPSS的目標函數，公式如下

L=－1（N+K）2∑N+Ki∑N+Kj（yi，jlgIi，j+ （1－yi，j）lg（1－Ii，j））（10）

式中：yi，j是對應于位置（i， j）的正確標簽。

3 實驗設計與結果分析

在本節中進行了多個實驗來驗證所提出的RPSS的效果，然后詳細討論實驗結果。

3.1 數據集與評測指標

為了驗證本文RPSS模型的有效性，在兩個公開的實體關系抽取基準數據集NYT^［20^］和WebNLG^［21^］上進行實驗。采用精確率、召回率、F1作為模型的評價指標。

3.2 基線方法

為了進行比較，選擇14個模型作為基線，包括SOTA模型CasRel^［11^］、TPLinker^［22^］、R-BPtrNet^［23^］、TDEER^［24^］、PFN^［25^］、PRGC^［26^］、CARE^［13^］、GRTE^［27^］和OneRel^［28^］。上述基線模型的結果均來自其對應的文獻。

3.3 實現細節

實驗使用含有108M參數量的Cased BERT base作為編碼器，包含12個Transformer層，每層都有12個注意力頭。文本的最大長度設置為100，NYT和WebNLG數據集在實驗中的批大小分別設置為24和6，實驗總共進行100輪，使用Pytorch框架實現了提出的方法，所有的參數通過Adam優化器^［²⁹^］進行優化，NYT和WebNLG數據集的學習率分別設置為3×10^－5和5×10^－5，權重衰減比例設置為0.01，閾值σ設置為0.5。所有的訓練和測試都在一臺配有InterXeon（R） Gold 6230R CPU@2.10GHz、128G內存、NVIDIA GeForce RTX3090 GPU和Windows10專業版系統的計算機上進行。

3.4 實驗結果與分析

3.4.1 總體結果分析

表1展示了RPSS與其他14個基線的對比結果。

從表1可知，許多基線的F1都超過了90%，尤其是在WebNLG數據集上，表現出了優于人類水平的性能。與基線相比，RPSS在兩個數據集的所有指標上都表現得更好，F1得分的絕對值分別提高了0.5%和0.6%。結果表明了提出的RPSS的優越性和有效性。RPSS在所有指標上都超過了最具競爭力的GRTE和OneRel模型，原因有兩個。首先，關系語義信息對于關系三元組抽取至關重要。關系提示方法為模型引入了豐富的關系語義信息，然而，GRTE和OneRel在抽取過程中只維護關系矩陣，并為矩陣分配可訓練的權重，無法充分利用和挖掘關系語義信息。其次，RPSS結合實體和關系的依賴關系構建實體關系交互矩陣，與傳統的填表法相比，復雜度從O（N×N×K）降至O（（N+K）2）并減少了冗余噪聲信息。最后，RPSS是單模塊、單步驟的。RPSS同時與關系三元組的所有3個元素交互，檢測主體、客體和關系，并在一個步驟中提取三元組，而其他方法需要多步交互，一步步提取實體和關系。本文發現，同時挖掘三元間的交互能取得更好的結果，并有效避免級聯誤差傳播問題。

此外，WebNLG比NYT數據集更具挑戰性，因為其包含了更多的關系類型，而訓練數據卻很少。然而，本文提出的方法不僅取得了更顯著的進步，而且首次在3個指標上同時達到了95%。一般來講，關系類型越多，抽取正確的關系類型難度越大，但RPSS將實體和關系整合到一個模塊中，增強了交互和約束，使得模型能夠同時關注三元組的所有3個元素，而不是僅在某時刻關注到關系或實體，這也是RPSS在WebNLG上比其他模型取得更大改進的主要原因。所有這些都表明，本文提出的RPSS具有良好的魯棒性，能夠適應不同的數據集，在處理多種關系類型的復雜情況時優勢明顯。

3.4.2 復雜場景結果分析

為了驗證RPSS抽取嵌套三元組和多重三元組的能力，在本節進行了額外的實驗。選擇了8個功能強大的模型進行比較，結果如表2和表3所示。表中，Normal、EPO、SEO、SOO分別表示普通三元組、某實體與多個實體存在關系、兩個實體之間存在多個關系、兩個實體之間存在字符重疊，N為一個句子中三元組的數量。

可以看出，RPSS在所有18個復雜場景的子集下，在15個子集中的表現優于之前的基線方法，取得了一定的性能提升。在其余3個子集中，與最佳結果的差距很小，可以忽略不計。此外，RPSS在子集Normal、SEO、EPO和N=1，2，3上也取得了可喜的性能提升，這些子集占數據集的比例較大。

實驗結果表明，RPSS在常規場景和復雜場中的表現同樣出色，表明了該模型的魯棒性。總之，兩個進一步的實驗表明了RPSS在復雜場景中的優勢。這是因為模型構建了一個實體關系交互矩陣，可以捕捉多個關系三元組和不同關系類型嵌套模式下的復雜交互，這對于處理復雜場景中的關系三元組提取至關重要。此外，所構建的實體關系交互矩陣中的每一項都表示是否可以建立實體-實體對或實體-關系對，考慮了所有可能的實體-實體和實體-關系對，同時，在解碼時不遺漏任何一個三元組，使得模型能夠高效抽取嵌套三元組和一個句子中多個關系三元組。

3.4.3 子任務結果分析

RPSS通過交互矩陣實現單模塊單步提取實體和關系，能更好地捕捉實體-實體和實體-關系之間的相互聯系。此外，單模塊、單步提取模型避免了級聯錯誤和暴露偏差。為了驗證這些特性，進一步研究了RPSS在兩個子任務（實體對提取和關系提取）上的效果。選擇CasRel、SPN和PRGC作為基線，首先，都是近期的SOTA模型；其次，分別是經典的多模塊多步驟和多模塊單步驟模型；此外，在實體對對齊和關系分類方面非常有效。

實驗對比結果如表4所示。在多數情況下，RPSS在所有子任務上的表現都優于之前的基線方法。盡管在某些情況下無法達到最佳性能，但在最終的三元組抽取任務上，RPSS的單模塊單步驟提取方法的整體性能優越，并比之前的優秀模型有顯著的性能提升，這表明本文提出的單模塊、單步提取方法避免了多步驟和多模塊之間的級聯錯誤。這再次證實了將不同元素的提取合并到單模塊中的動機是正確的。此外，單模塊單步抽取解碼方式允許兩個子任務相互聯系并相互促進。

3.4.4 消融實驗分析

本節進行了消融實驗，以驗證關系提示方法在RPSS模型中的效果。

（1）關系提示的影響關系。提示方法的提出是為了充分利用關系的語義信息，而不僅僅是無意義的關系標簽。在關系提示方法的消融實驗中，刪除了關系軟提示和關系硬提示，并使用無意義占位符來表示每個關系的標簽，即［unused1］、［unused2］、［unused3］，這些無意義的占位符在微調階段隨機初始化。模型會給它們分配一個隨機的詞嵌入，而不會考慮從預訓練中學到的語義信息。RPSS消融實驗結果見表5。

從表5可以看出，在沒有關系提示的情況下，各項指標有不同程度的下降，尤其是在WebNLG數據集上，下降幅度接近30%。由于WebNLG的關系類型較多，多達171種，因此僅通過無意義的標簽與實體交互是無法獲得實體與關系之間的深層關聯的。模型無法關注與實體密切相關的關系類型，導致精確度和召回率都大幅下降。相比之下，NYT數據集上的關系類型較少，只有24種，因此模型性能的下降并不明顯。

實驗驗證了關系提示方法的有效性，同時也表明該方法具有很強的普適性和實用價值，因為真實場景中的關系數量很大。

（2）關系硬提示和關系軟提示的影響。在關系硬提示的消融實驗中，使用無意義占位符代替關系式硬提示。在關系軟提示的消融實驗中，使用隨機初始化的關系軟提示，而不是來自特征融合的關系軟提示。

從表5可以看到，缺少其中任何一種提示都會導致模型性能下降，這說明兩種關系提示對于構建實體-關系交互矩陣的重要性。在沒有token級關系硬提示的情況下，實體和關系類型之間在模型的初始階段沒有注意力交互。在模型的初始階段，實體和關系標簽之間缺乏注意力交互和特征流，也就無法在當前上下文中構建實體和關系之間的深度關聯，從而導致性能下降。在缺乏特征級關系軟提示的情況下，實體與關系的交互只能停留在淺層次，這適用于簡單三元組的情況，但無法滿足具有多個三元組和三元組重疊的復雜場景的需求。關系軟提示是不同語境下關系特征的融合，對于多關系三元組和嵌套三元組的特征對齊和深度交互非常重要。

以上實驗結果表明，關系硬提示和關系軟提示對于建立實體和關系之間的深度交互與依賴至關重要。

3.4.5 效率分析

在訓練階段所有實驗均采用相同的硬件配置，將NYT和WebNLG數據集的批量大小分別統一設置為12、6，在推理階段將批量大小設置為1。PRGC、GRTE、OneRel和RPSS模型的復雜度、浮點運算次數及參數量見表6。

在復雜度方面，RPSS明顯優于相同的基于表格填充的GRTE和OneRel方法。由于RPSS是通過BERT的最后一層進行解碼的，沒有為解碼設計額外的網絡，因此在浮點運算次數和參數量方面與其他模型相比具有明顯優勢。從參數量來看，4個模型都使用BERT作為編碼器，BERT的參數量為108M。去除BERT的參數量后，與其他模型相比，RPSS的參數量非常小。在時間方面，由于RPSS的浮點運算次數和參數量相較其他模型都較小，因此在訓練時間和推理時間上都小于其他基線模型。RPSS 的訓練速度是其他模型的2倍，推理速度是其他模型的1～2倍，同時獲得了更好的F1。盡管PRGC的復雜度較低，但RPSS的效率和F1仍有顯著優勢，即訓練時間提高了2倍，F1在WebNLG數據集上提高了1.9%。此外，PRGC的復雜度較低是因為其是一種基于標記的方法，無法考慮到所有實體和關系，容易出現級聯錯誤傳播或遺漏嵌套三元組，表2和3中所有復雜場景下RPSS的性能都優于PRGC就驗證了這一點。

從圖4可以看出，RPSS模型能更好、更快地收斂，這體現了RPSS在收斂速度方面的優勢，即RPSS在效率方面的進步。總的來說，本文方法具有更低的復雜度和更高的效率。這主要有兩個原因：首先，模型結構簡單，解碼前沒有多余的其他網絡層，直接利用預訓練語言模型的最終編碼層構建實體關系交互矩陣；第二，單步提取，解碼簡單。RPSS在解碼階段只通過一個實體交互矩陣進行解碼，不像其他方法按不同順序分別抽取關系三元組的不同元素，解碼方法復雜，本文提出的解碼方法簡單有效。

3.4.6 案例分析

在本節中分別選取了數據集NYT和數據集WebNLG中包含嵌套三元組和多個關系三元組的案例。

選取的NYT數據集案例為：“In perhaps the most ambitious Mekong cruise attempt， Impulse Tourism， an operator based in Chiang Mai， Thailand， is organizing an expedition starting in November in Jinghong， a small city in the Yunnan province in China.”。選取的WebNLG數據集的案例為：“American test pilot Alan Shepard died in California and was born in New Hampshire.”。

利用RPSS將上述案例的實體關系三元組交互矩陣可視化，結果如圖5和圖6所示，其中實體-實體交互、主體-關系交互和客體-關系交互分別用紅色部分、藍色部分和綠色虛線框表示。可以看出，RPSS能精確定位有效的實體對和有效的實體-關系對，并提供較高的置信度。由于該模型是單模塊單步驟的，因此增強了實體和關系之間的交互和依賴。

通過矩陣中3種元素的關聯，可以一步提取出所有關系三元組。通過圖5可以提取出NYT案例中包含的6個三元組：（China，/location/location/contains，Jinghong），（China，/location/location/contains，Yunnan），（China，/location/country/administrative_divisions，Yunnan），（Yunnan，/location/administrative_divisions/country，China），（Thailand，/location/location/contains，ChiangMai）and（Yunnan，/location/location/contains，Jinghong）。

通過圖6可以提取出WebNLG案例中的3個關系三元組：（Alan Shepard， death， California），（Alan Shepard， occupation， pilot）和（Alan Shepard， birthplace， New Hampshire）。

4 結論

針對當前實體關系抽取中關系標簽語義缺失的問題，本文提出了一種基于關系提示的單模塊單步驟實體關系抽取方法。關系提示方法能夠提供豐富的標簽語義信息，通過對句子和關系提示的統一編碼構建實體關系交互矩陣。在解碼階段將關系三元組的3種元素作為一個整體進行抽取，實現了一次性抽取整個三元組。實驗驗證了關系提示方法的有效性，表明了關系語義和關系三元組的整體性對于實體關系抽取的重要性。實驗結果表明該方法實現了最佳性能。

未來，我們將在現有研究的基礎上，繼續開展實體關系抽取方法研究。本文的方法需要手動選擇關系提示詞，這對于具有很多關系的數據來說是復雜的。未來，我們將嘗試設計一個關系的自動語言表達器，提升算法選擇關系提示詞的自適應性。此外，模型在少樣本情況下的效能如何還需進一步探索。

參考文獻：

［1］耿汝山，陳艷平，唐瑞雪，等. 跨度語義增強的命名實體識別方法［J］. 西安交通大學學報， 2022， 56（7）： 118-126.

GENG Rushan， CHEN Yanping， TANG Ruixue， et al. Named entity recognition based on span semantic enhancement［J］. Journal of Xi’an Jiaotong University， 2022， 56（7）： 118-126.

［2］秦濤，杜尚恒，常元元，等. ChatGPT的工作原理、關鍵技術及未來發展趨勢［J］. 西安交通大學學報， 2024， 58（1）： 1-12.

QIN Tao， DU Shangheng， CHANG Yuanyuan， et al. Principles， key technologies and emerging trends of ChatGPT［J］. Journal of Xi’an Jiaotong University， 2024， 58（1）： 1-12.

［3］NAYAK T， MAJUMDER N， GOYAL P， et al. Deep neural approaches to relation triplets extraction： a comprehensive survey［J］. Cognitive Computation， 2021， 13（5）： 1215-1232.

［4］ZHAO Tianyang， YAN Zhao， CAO Yunbo， et al. Asking effective and diverse questions： a machine reading comprehension based framework for joint entity-relation extraction［C］//Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence Main track. California， USA： IJCAI， 2021： 3948-3954.

［5］ZENG Zheni， YAO Yuan， LIU Zhiyuan， et al. A deep-learning system bridging molecule structure and biomedical text with comprehension comparable to human professionals［J］. Nature Communications， 2022， 13（1）： 862.

［6］薛鵬飛，沈毅，胡淼，等. 基于規則的域名WHOIS信息抽取技術研究［J］. 信息對抗技術， 2023， 2（1）： 66-77.

XUE Pengfei， SHEN Yi， HU Miao， et al. Rule-based WHOIS information extraction technology［J］. Information Countermeasure Technology， 2023， 2（1）： 66-77.

［7］GORMLEY M R， YU Mo， DREDZE M. Improved relation extraction with feature-rich compositional embedding models［C］//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA， USA： ACL， 2015： 1774-1784.

［8］LIN Yankai， SHEN Shiqi， LIU Zhiyuan， et al. Neural relation extraction with selective attention over instances［C］//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA， USA： ACL， 2016： 2124-2133.

［9］ZHANG Yunqi， CHEN Yubo， HUANG Yongfeng. RelU-net： syntax-aware graph U-net for relational triple extraction［C］//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA， USA： ACL， 2022： 4208-4217.

［10］WADDEN D， WENNBERG U， LUANYi， et al. Entity， Relation， and event extraction with contextualized span representations［C］//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing （EMNLP-IJCNLP）. Stroudsburg， PA， USA： ACL， 2019： 5784-5789.

［11］WEI Zhepei， SU Jianlin， WANG Yue， et al. A novel cascade binary tagging framework for relational triple extraction［C］//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA， USA： ACL， 2020： 1476-1488.

［12］TANG Wei， XU Benfeng， ZHAO Yuyue， et al. UniRel： unified representation and interaction for joint relational triple extraction［C］//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA， USA： ACL， 2022： 7087-7099.

［13］KONG Wenjun， XIA Yamei. CARE： co-attention network for joint entity and relation extraction［C］//Proceedings of the 2024 Joint International Conference on Computational Linguistics， Language Resources and Evaluation （LREC-COLING 2024）. Stroudsburg， PA， USA： ACL， 2024： 2864-2870.

［14］DEVLIN J， CHANG Mingwei， LEE K， et al. BERT： pre-training of deep bidirectional transformers for language understanding［C］//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA， USA： ACL， 2019： 4171-4186.

［15］LIU Yinhan， OTT M， GOYAL N， et al. RoBERTa： a robustly optimized BERT pretraining approach［EB/OL］. （2019-07-26）［2024-06-01］. https：//arxiv.org/abs/1907.11692.

［16］LEWIS M， LIU Yinhan， GOYAL N， et al. BART： denoising sequence-to-sequence pre-training for natural language generation， translation， and comprehension［C］//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA， USA： ACL， 2020： 7871-7880.

［17］RAFFEL C， SHAZEER N， ROBERTS A， et al. Exploring the limits of transfer learning with a unified text-to-text transformer［J］. The Journal of Machine Learning Research， 2020， 21（1）： 5485-5551.

［18］OpenAI. GPT-4 technical report［EB/OL］. （2024-03-04）［2024-06-01］. https：//arxiv.org/abs/2303.08774.

［19］VASWANI A， SHAZEER N， PARMAR N， et al.Attention is all you need［C］//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook， NY， USA： Curran Associates Inc.， 2017： 6000-6010.

［20］RIEDEL S， YAO Limin， MCCALLUM A. Modeling relations and their mentions without labeled text［C］//Machine Learning and Knowledge Discovery in Databases. Berlin， Germany： Springer Berlin Heidelberg， 2010： 148-163.

［21］GARDENT C， SHIMORINA A， NARAYAN S， et al.Creating training corpora for NLG micro-planners［C］//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA， USA： ACL， 2017： 179-188.

［22］WANG Yucheng， YU Bowen， ZHANG Yueyang， et al. TPLinker： single-stage joint extraction of entities and relations through token pair linking［C］//Proceedings of the 28th International Conference on Computational Linguistics. Stroudsburg， PA， USA： ACL， 2020： 1572-1582.

［23］CHEN Yubo， ZHANG Yunqi， HU Changran， et al. Jointly extracting explicit and implicit relational triples with reasoning pattern enhanced binary pointer network［C］//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA， USA： ACL， 2021： 5694-5703.

［24］LI Xianming， LUO Xiaotian， DONG Chenghao， et al. TDEER： an efficient translating decoding schema for joint extraction of entities and relations［C］//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA， USA： ACL， 2021： 8055-8064.

［25］YAN Zhiheng， ZHANG Chong， FU Jinlan， et al. A partition filter network for joint entity and relation extraction［C］//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA， USA： ACL， 2021： 185-197.

［26］ZHENG Hengyi， WEN Rui， CHEN Xi， et al. PRGC： potential relation and global correspondence based joint relational triple extraction［C］//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg， PA， USA： ACL， 2021： 6225-6235.

［27］REN Feiliang， ZHANG Longhui， YIN Shujuan， et al. A novel global feature-oriented relational triple extraction model based on table filling［C］//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA， USA： ACL， 2021： 2646-2656.

［28］SHANG Yuming， HUANG Heyan， MAO Xianling. OneRel： joint entity and relation extraction with one module in one step［C］//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto， CA， USA： AAAI Press， 2022： 11285-11293.

［29］KINGMA D P， BA J. Adam： a method for stochastic optimization［EB/OL］. （2014-12-22）［2024-07-01］. https：//www.semanticscholar.org/paper/Adam%3A-A-Method-for-Stochastic-Optimization-Kingma-Ba/a6cb366736791bcccc5c8639de5a8f9636bf87e8.

［30］ZHENG Suncong， WANG Feng， BAO Hongyun， et al. Joint extraction of entities and relations based on a novel tagging scheme［C］//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA， USA： ACL， 2017： 1227-1236.

［31］ZENG Xiangrong， ZENG Daojian， HE Shizhu， et al. Extracting relational facts by an end-to-end neural model with copy mechanism［C］//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA， USA： ACL， 2018： 506-514.

［32］FU T J， LI P H， MAWeiyun. GraphRel： modeling text as relational graphs for joint entity and relation extraction［C］//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA， USA： ACL， 2019： 1409-1418.

［33］ZENG Xiangrong， HE Shizhu， ZENG Daojian， et al. Learning the extraction order of multiple relational facts in a sentence with reinforcement learning［C］//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing （EMNLP-IJCNLP）. Stroudsburg， PA， USA： ACL， 2019： 367-377.

［34］YU Bowen， ZHANG Zhenyu， SHU Xiaobo， et al. Joint extraction of entities and relations based on a novel decomposition strategy［C］//ECAI 2020. Amsterdam， Netherlands： IOS Press， 2020： 2282-2289.

［35］SUI Dianbo， ZENG Xiangrong， CHEN Yubo， et al. Joint entity and relation extraction with set prediction networks［J］. IEEE Transactions on Neural Networks and Learning Systems， 2024， 35（9）： 12784-12795.

（編輯亢列梅）

西安交通大學學報2025年3期

西安交通大學學報的其它文章: 一種雙阻尼小波賦能的可解釋卷積神經網絡在軸承故障診斷中的應用; 采用離散余弦變換的復合材料構件制造偏差建模方法; 荷能離子作用對氧化鋁顆粒表面類金剛石薄膜生長特性的影響; 鋰離子電池同心結構液冷板冷卻性能分析及結構優化; 金屬化膜電容器多頻阻抗特征及健康狀態評估方法; 采用自適應功率與電壓指令的構網型變流器故障穿越策略