






摘要: 針對文檔級關系抽取任務中的實體多提及問題和實體對噪音問題, 使用實體的類別信息, 提出一個基于實體類別信息的關系抽取模型(EUT模型), 該模型通過實體類別判斷和類別對產生的關系類別先驗兩個子任務提高關系抽取結果. 實體類別判斷任務對實體進行類型標記后, 再對實體所有提及進行類型分類, 使實體的多個提及產生更豐富且相近的特征表示. 關系類別先驗任務使模型獲得實體對的頭尾類型所產生的關系分布先驗, 通過實體對的類別降低錯誤實體對噪音. 為驗證EUT模型的效果, 在兩個文檔級數據集DocRED和Re-DocRED上進行實驗, 實驗結果表明, 該模型有效利用了實體的類型信息, 與基礎模型相比取得了更好的關系抽取效果, 表明實體的類別信息對文檔級關系抽取有重要影響.
關鍵詞: 文檔級關系抽取; 知識圖譜; 結構化先驗; 自然語言處理
中圖分類號: TP181文獻標志碼: A文章編號: 1671-5489(2025)02-0428-09
Data Analysis and Relation Extraction Model ConstructionBased on Entity Category Information
YANG Hang, ZHANG Xiaocheng, ZHANG Yonggang
(Key Laboratory of Symbol Computation and Knowledge Engineering of Ministry of Education,
College of Computer Science and Technology, Jilin University, Changchun 130012, China)
收稿日期: 2023-11-29.
第一作者簡介: 楊 航(1997—), 男, 滿族, 碩士研究生, 從事自然語言處理的研究, E-mail: hangyang21@mails.jlu.edu.cn.
通信作者簡介: 張永剛(1975—), 男, 漢族, 博士, 教授, 從事約束求解與約束優化的研究, E-mail: zhangyg@jlu.edu.cn.
基金項目: 吉林省自然科學基金(批準號: 20200201447JC).
Abstract: Aiming at the problem of multiple mentions of entities and the noise of entity pairs in the document-level relation extraction task,weproposed a relation extraction
model (EUT model) based on entity type information. The modelimproved the relation extraction results through two sub-tasks:entity type judgment anda priori of the relation types produced by the type pairs.
After the entity type judgment task labelled entities by type, then categorized all mentions of the entity by type, so that multiple mentions of the entity produced richer and similar feature representations.
The relation category prior task enabled the model to obtain a prior of therelation distributiongenerated by the head and tail types of entity pairs, and reduced erroneous entity pair noise through the categories of entity pairs.
In order to verify the effectiveness of the EUT model,theexperiments were conducted on two document-level datasets, DocRED and Re-DocRED. The experimental results show that the model effectively utilizes the entity
type information and achieves better relation extraction results compared to the base model, indicating that entity type information has an important impact on document-level relation extraction.
Keywords: document-level relation extraction; knowledge graph; structured prior; natural language processing
0 引 言
關系抽取任務(RE)是自然語言處理(NLP)領域中的一項重要任務, 其目標是從文本中提取出{頭實體,尾實體,關系}三元組, 該任務廣泛應用于知識圖譜構建和知識問答系統等應用中[1-2].傳統研究方法大多數集中于預測一個句子中兩個實體提及之間的關系[3-4], 但在現實場景中, 人類文本更多以文章或段落的形式出現, 并且實體會以不同提及的形式出現在文檔各處, 因此頭尾實體對的跨度可能超過多個句子. 所以, 從實際和應用的角度, 關系抽取的任務應更專注于文檔級數據集.
在傳統關系抽取任務中, 對每個訓練批次, 需先在數據集中為每個批次劃分出固定數量的句子, 然后將這些句子送入模型進行推理, 得到每個句子中包含的實體對之間的關系. 而在文檔級關系抽取任務中, 送入模型的樣本最小單位是文檔, 需在每篇文檔中推理出給定實體之間的關系. 在本文使用的數據集DocRED[5]和Re-DocRED[6]的訓練集中, 都包含3 053篇人工標注文檔, 文檔中的提及多, 有關系的提及跨度大, 每篇文檔均不少于3個句子和3個實體, 實體最多可達22個提及, 同一實體對最多有4個預定義關系. 表1列出了數據集DocRED和Re-DocRED的訓練集數據統計信息.
目前, 用于文檔級關系抽取任務的模型主要有3種方法: 1) 以句子序列為基礎的模型, 通常使用傳統的人工神經網絡, 如卷積神經網絡(CNN)[7]或長短期記憶網絡(LSTM)[8]對輸入數據進行編碼, 然后用得到的詞嵌入表征進行關系分類; 2) 以圖神經網絡為基礎的模型, 旨在將文檔轉化為圖結構表示, 并賦予圖節點和節點的邊某種意義, 從而獲得文檔所隱含的圖結構, 然后用圖卷積網絡進行推理得到關系抽取結果, 如AGGCN[9]和LSR[10]; 3) 以Transformer為基礎的模型, 主要是用Transformer強大的語義表示能力和自注意力機制推理出文檔中各實體之間的關系. 其流程通常是先獲取各單詞的向量表示,
再將實體對的表征送入關系分類器中得到關系抽取結果, 如HIN-BERT[11]和 ATLOP[12].
但上述方法都忽視了實體的類型信息, 這不利于對實體向量表示的微調和模型對實體對關系的判斷. 圖1為一個利用實體類型信息預測關系的示例. 由圖1可見, 在數據集DocRED中的標題為“Joe Garagiola Jr.”這篇文檔中, 頭實體為“Joe Garagiola Jr”,尾實體分別為“1952”、“Arizona Diamondbacks”和“Joe Garagiola Sr”, 對于97種關系中的“father”, “member of sports team”和“date of birth”, 如果提前知道了頭實體類型為“人物”, 尾實體類型分別為“時間”、 “機構”和“人物”的先驗知識, 則通過頭尾實體對的類型情況及各實體的上下文信息即能容易得到對應關系.
在數據集DocRED和Re-DocRED中, 本文提出的方法盡可能地利用每個實體的類型信息, 主要體現在以下幾方面: 1) 在獲取文檔中各單詞的向量表示階段前, 在該實體的前后使用該實體的類型符號進行標記, 然后送入預訓練語言模型獲取各單詞的上下文向量表示; 2) 模型中的實體類型判斷子任務ETJ, 模型先對每個實體進行類型分類, 以加強模型對實體類型的識別; 3) 模型中的關系類型先驗子任務T2T, 用模型對頭尾實體類型對進行關系預測, 從而使模型獲得類型對所產生標簽的先驗知識.
實驗結果表明, 基于實體類別信息的關系抽取模型(EUT模型)相對于基礎模型可以更好地融入實體類型信息, 并且在文檔級關系抽取任務上取得了更好的效果.
1 數據集分析
本文實驗使用數據集DocRED和Re-DocRED. 數據集DocRED是包含大規模人工標注數據的數據集, 其共包含5 053篇人工標注的文檔和101 873篇遠距離監督的文檔, 標注了包括地點(LOC)、 人物(PER)、 時間(TIME)、 機構(ORG)、 數字(NUM)和產品(MISC)等豐富實體類型, 整理了包括科學、 藝術、 時間和人員關系等關系類型. 數據集Re-DocRED是最近發布的在數據集DocRED基礎上重新修訂和整理的數據集, 它分析并解決了數據集DocRED中出現的大量假陰性問題, 并重新標注了4 053篇文檔, 將遺漏的關系三元組添加回數據集DocRED中, 從而提高了數據集中關系三元組的準確性和完整性.
為挖掘實體類型與關系之間的聯系, 下面進行詳細的數據集分析. 首先, 以實體為主視角, 在數據集DocRED和Re-DocRED中統計已存在關系的實體對. 根據實體類型對頭實體和尾實體進行分類, 并記錄它們所產生的關系數量, 結果分別列于表2和表3. 由表2和表3可見, 類型均為“地點”的頭實體和尾實體更易產生預定義的關系, 而類型均為“數字”的實體對在數據集中不會產生預定義的關系.
其次, 深入挖掘數據集Re-DocRED, 并統計各實體類型之間最可能發生的預定義關系. 結果列于表4, 其中OMO表示頭尾實體相應類型發生次數最多的關系類型, SRO表示該關系發生的次數, STP表示頭尾實體相應類型發生關系的總次數. 由表4可見, 地點類型的實體對最可能發生P131關系(P131描述“located in the administrative territorial entity”, 表示位于行政領土實體內). P131關系發生的次數約占相應類型實體對總次數的48.27%. 該結果符合數據集的分布情況, 并且與語義常識相符.
通過以上分析, 揭示了實體類型與關系之間的聯系, 并且促進了EUT模型的構建.
2 任務描述
給定一篇文檔, 其中包含一個由I個實體組成的集合{ei}Ii=1, 對每個實體ei在文檔中的表現為Tei次提及{mji}Teij=1, 所有的ei兩兩相互組合構成頭尾實體對(es,eo)s; o=1,2,…,N; s≠o, es,eo分別表示實體對中的頭實體和尾實體, 文檔級關系抽取的任務是從R∪{NA}中預測實體對之間的關系子集, 其中R是數據集中預定義的96種關系, 如果一個實體對存在關系{rk}96k=1, 則rk∈R, 否則rk∈NA(NA表示不是96種關系中的任意一種). 對于ETJ任務, 要求對每個實體ei的每個提及mji, 判斷它的類型是TR={type}6p=1中的哪一個, 其中typep為{PER,ORG,LOC,TIME,NUM,MISC}中的任意一個. 對于T2T任務, 要預測不同類型實體對產生關系的概率分布, 其中頭尾實體的類型對為(types,typeo)types,typeo∈typep, 由于types和typeo各為6種, 所以(types,typeo)共有36種可能. 根據文檔中全部實體類型的數據統計分析, 本文定義頭尾實體的類型對產生的關系概率分布作為標簽PT2T=(types,typeo,TRs-o)types,typeo∈typep, PT2T是一個類型對的關系三元組, 是由每種頭尾實體的類型對所暗含的概率分布產生的標簽, 標簽內容列于表5.
數據集Re-DocRED中, 當頭實體類型為“地點”, 尾實體類型為“地點”時, 發生關系時產生的關系數量, 用每個關系發生的次數除以總次數即可得T2T任務的標簽. “其他”表示除列出的關系外, 其余所有關系發生的次數總數, “總計”表示所有關系發生的總次數. 由于實體的類型共有6種, 所以會產生36種類型對, 表5只列出了其中一種情況.
3 模型設計
基礎模型EUT-base的構建基于已存在的BERT系列模型[5,12-13], 在整合了本文方法后構成完整模型EUT-complete, 模型的整體結構如圖2所示. 在訓練時, 使用多任務學習微調詞向量, 訓練模型并抽取關系, 所有子任務都有自己的分類器但共享基礎編碼器.
3.1 編碼器
對于一篇由L個單詞構成的文檔d=(hl)Ll=1, 在類型符號修飾階段, 與傳統提及標記方法[13-14]不同的是在每個實體提及{mji}的前面和后面均使用對應提及的類型符號做標記而
不是使用“*”, 這樣可使提及的詞語表征融入類型信息, 同時使不同類型的實體產生類型區分. 然后使用預訓練語言模型中的編碼器對修飾后文檔中的每個單詞進行
編碼, 獲取s維度的詞向量表示(h1,…,hL), hl∈瘙綆s
, 并獲得編碼器中的最后一層Transformer層中的單詞交叉注意力A∈瘙綆L×L:
H=Encoder(h1,…,hL),(1)
A=Transformer(h1,…,hL).(2)
對于一個實體ei的每個提及mji, 使用該提及前面類型符號的向量表示作為該提及的向量表示mji, 然后用LogSumExp池化技術
得到實體ei全部提及的池化作為ei的特征表示:
ei=log∑jexp{mji}.(3)
為能更好獲得關系抽取結果, 除得到各實體池化后的向量表示外, 還需獲得各實體在文檔中與各單詞的注意力, 尤其是實體與實體的注意力, 以便得到每個
實體對(es,eo)之間的上下文向量表示[12]ch,t∈瘙綆s:
vs-o=AsAo/ATsAo,(4)
cs-o=HTvs-o,(5)
其中As,Ao∈瘙綆L, 分別表示es,eo對整篇文檔中其他所有單詞的注意力矩陣. 通常在語義上如果一個單詞對另一個單詞關系很緊密, 則其向量表示也同樣具有很強的聯系, 所得到的注意力分數也會很高[15].同理, 如果一個單詞對實體對(es,eo)中的每個實體都有很高的注意力分數, 則該單詞對與獲取實體對的上下文向量表示也有更大的價值.
3.2 基礎模型
通過編碼器獲取到實體對向量表示(es,eo)和式(4)獲取到上下文向量表示后, 使用雙線性層(RE-線性層)進行運算可得到具有飽滿語義和上下文注意力的頭尾實體表征(us,uo), 并以此得到預測關系概率分布:
us=tanh(Wses+Ws-cCs-o),(6)
uo=tanh(Woeo+Wo-cCs-o),(7)
Pr(res,eo)=Sigmoid(usWruo+br),(8)
其中Ws,Wo,Ws-c,Wo-c,Wr∈瘙綆s×s和br∈瘙綆均為可學習參數; Sigmoid(·)為非線性激活函數, 可將實數映射為0~1的值. 損失函數采用交叉熵損失:
LRE=∑r∈R∑(es,eo)s≠oCrossEntropy(Pr(es,eo),yr(es,eo)),(9)
其中yr表示對應實體對產生的關系標簽.
3.3 ETJ子任務
在基礎模型的基礎上, 為使實體的類型信息盡可能地融入模型和詞向量中, 僅用類型符號對提及進行修飾還不夠, 因此本文設計了ETJ任務, 用于解決實體多提及問題. 研究表明, 在極少部分文章中, 存在較少的實體其多個提及竟大于一種類型(僅有0.9%的實體會出現這種情況), 盡管它們都同屬于一個實
體. 本文未忽視該現象, 而是用每個實體的第一個提及前的類型符號表示該實體的類型, 因為該實體第一次出現的提及具有概括意義, 此外如果一個實體的不同提及能產生多個類型, 那么在對這些提及表征池化后會更豐富該實體的語義信息和類型信息. 這里使用了一個線性層(命名為“ETJ-線性層”), 對每個實體ei進行類型多分類任務, 其分類結果必為TR={PER,ORG,LOC,TIME,NUM,MISC}中的一個, 得到最有可能的概率Ptr:
Ptr(trei)=Sigmoid(Wetjei+betj),(10)
其中Wetj∈瘙綆s×s和betj∈瘙綆是可學習參數. 采用交叉熵作為ETJ任務的損失:
LETJ=∑tr∈TR∑eiCrossEntropy(Ptr(ei),ytr(ei)).(11)
3.4 T2T子任務
為使模型獲得對頭尾實體類型對關系抽取的先驗知識, 進而減少錯誤的實體對噪音, 本文設計了T2T任務: 先將每個批次中的實體按類型預分類, 然后進行平均池化得到表示實體類型的表征, 進而得到類型對(ets,eto), 考慮到一個實體存在極少的多種類型情況, 可以將該實體第一次出現的提及類型視為該實體的真正類型構建標簽. 最后通過線性層(命名為“T2T-線性層”)得到(fs,fo), 進而得到分類結果概率pt2t, 其標簽PT2T是不同類型對會產生97種關系的實際分布數量比例:
fs=tanh(Wetsets+Wts-cCs-o),(12)
fo=tanh(Wetoeto+Wto-cCs-o),(13)
Pt2t(rets,eto)=Sigmoid(fsWt2tfo+bt2t),(14)
其中Wets,Weto,Wts-c,W
to-c,Wt2t∈瘙綆s×s和bt2t∈瘙綆均為可學習參數. 損失函數采用交叉熵損失:
LT2T=∑t2t∈T2T∑(ets,eto)CrossEntropy(Pt2t(ets,et
o),yt2t(ets,eto)).(15)
模型在進行上述3個子任務學習后得到的總損失L為
L=αLT2T+βLETJ+γLRE,(16)
其中α,β和γ為超參數.
4 實 驗
4.1 實驗設計
模型的實現基于Pytorch這個開源的Python機器學習庫和Huggingface這個模型庫開源網站提供的Transformers 庫. 對于數據集DocRED, 編碼器Encoder取自BERTbase-cased[13], 對于數據集Re-DocRED, 編碼器取自RoBERTalarge[16], 其中BERT的詞向量維度為768維, RoBERTa的詞向量維度為1 024維.模型使用AdamW優化算法[17]、 Warmup技術[18]和Dropout技術[19], 超參數設置列于表6. 在實驗中, 先在驗證集上使用不同的隨機種子運行5次, 然后選取在驗證集上得到最好結果時的配置, 更新測試時預測結果的F1分數. EUT的實驗結果來源于吉林大學符號計算與知識工程教育部重點實驗室的實驗設備, 其他結果均來自其原文獻. 為展現本文方法的效果, 采用兩個通用的評價指標: F1分數和Ignore-F1分數. 其中Ignore-F1分數與F1的計算方法相同, 但排除了在訓練時會暴露給驗證集和測試集的事實關系. 在推理階段, 使用在驗證集上確定的全局閾值判斷es與eo之間是否存在關系r, 并選擇一個最高的F1分數作為結果.
4.2 實驗結果
在數據集DocRED和Re-DocRED上的實驗結果分別列于表7和表8. 對于數據集DocRED的結果, 其中CNN和BiLSTM模型是基于句子級關系抽取任務的, 在進行文檔級關系抽取任務后, 其效果明顯不如EUT模型. HIN-BERT是以Transformer為基礎的模型, 但它沒有用到實體的類型信息, 其效果也不如EUT模型. 在EUT的兩個分支模型中, EUT-complete相對于EUT-base, 在F1分數上提高了1.58個百分點, 在Ignore-F1分數上提高了1.14個百分點, 原因可能是因為通過上述方法, 模型對詞向量進行了積極的微調, 并學習到了實體類型對關系預測的先驗知識. 對于數據集Re-DocRED的結果, JEREX原來也是用于句子級關系抽取的模型, 采用多任務學習方法實現端到端聯合關系抽取, 在將其用于文檔級關系抽取后, 其效果不如其他模型. ATLOP模型同EUT模型一樣采用了Transformer技術, 但其同樣未用到實體的類別信息, 其關系抽取結果不如EUT模型. EUT-complete相對于EUT-base在F1分數上提高了1.58個百分點, 在Ignore-F1分數上提高了1.98個百分點, 高于在數據集DocRED上的提升, 產生這樣的結果可能是因為: 1) 數據集Re-DocRED中的關系三元組標記的更準確; 2) RoBERTa的詞向量維度為1 024, 高于BERT的768, 使RoBERTa的詞向量可容納更豐富的語義信息.
綜上所述, 針對文檔級關系抽取任務, 本文通過對文檔級數據集DocRED和Re-DocRED進行深度分析, 揭示了實體類型與實體對所產生關系的關聯. 例如, 當一個關系發生時, 對應的頭尾實體類型會有傾向性, 同理, 當已知頭尾實體的類別信息時, 它們所產生的關系也具有趨向性. 基于這些信息, 本文重點考慮了實體的類型信息對預測關系的影響, 并提出了包含兩個與類型信息相關的子任務ETJ和T2T, 二者共同構成了EUT模型. 實驗結果表明, EUT模型能很好地融入實體的類型信息, 解決了文檔級關系抽取任務中出現的實體多提及問題和實體對噪音問題, 且在文檔級關系抽取任務上效果較好.
參考文獻
[1]YU M, YIN W P, HASAN K S, et al. Improved Neural Relation Detection for Knowle
dge Base Question Answering[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.[S.l.]: ACL, 2017: 571-581.
[2]TRISEDA B D, WEIKUM G, QI J Z, et al. Neural Relation Extraction for Knowledge
Base Enrichment[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.[S.l.]: ACL, 2019: 229-240.
[3]SHANG Y M, HUANG H, SUN X, et al. Relational Triple Ex
traction: One Step Is Enough[C]//Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence.[S.l.]: IJCAI, 2022: 4360-4366.
[4]REN F L, ZHANG L H, ZHAO X F, et al. A Simple but Effective Bidirectional Framework
for Relational Triple Extraction[C]//Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. New York: ACM, 2022: 824-832.
[5]YAO Y, YE D M, LI P, et al. DocRED: A Large-Scale Docum
ent-Level Relation Extraction Dataset[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.[S.l.]: ACL, 2019: 764-777.
[6]TAN Q Y, XU L, BING L D, et al. Revisiting DocRED-Addressing the False Negative Pr
oblem in Relation Extraction[C]//Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing.[S.l.]: ACL, 2022: 8472-8487.
[7]ZENG D J, LIU K, LAI S W, et al. Relation Classification via Convolutional Deep Neural Network[C]//Proceedings of the
25th International Conference on Computational Linguistics: Technical Papers.[S.l.]: ACL, 2014: 2335-2344.
[8]HOCHREITER S, SCHMIDHUBER J. Long Short-Term Memory[J].Neural Computation, 1997, 9(8): 1735-1780.
[9]GUO Z J, ZHANG Y, LU W. Attention Guided Graph Convoltional Networks for Relat
ion Extraction[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.[S.l.]: ACL, 2019: 241-251.
[10]NAN G S, GUO Z J, SEKULIC I, et al. Reasoning with Latent Structure Refinement
for Document-Level Relation Extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.[S.l.]: ACL, 2020: 1546-1557.
[11]TANG H Z, CAO Y N, ZHANG Z Y, et al. Hin: Hierarchical Infer
ence Network for Document-Level Relation Extraction[C]//Advances in Knowledge Discovery and Data Mining: 24th Pacific-Asia Conference. Berlin: Springer International Publishing, 2020: 197-209.
[12]ZHOU W X, HUANG K, MA T Y, et al. Document-Level Relation Extraction with Adapti
ve Thresholding and Localized Context Pooling[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: [s.n.], 2021: 14612-14620.
[13]DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-train
ing of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of the 2019 Conferenc
e of the North American Chapter of the Association for Computational Linguistics.[S.l.]: ACL, 2019: 4171-4186.
[14]ZHANG Y H, ZHONG V, CHEN D Q, et al. Position-Aware Attention and Supervised Data
Improve Slot Filling[C]//Conference on Empirical Methods in Natural Language Processing.[S.l.]: ACL, 2017: 35-45.
[15]VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need[EB/OL].(2017-06-12)[2023-11-10].https://arxiv.org/abs/1706.03762.
[16]LIU Y H, OTT M, GOYAL N, et al. Roberta: A Robustly Optimiz
ed Bert Pretraining Approach[EB/OL].(2019-07-26)[2023-11-01].https://arxiv.org/abs/1907.11692.
[17]LOSHCHILOV I, HUTTER F. Decoupled Weight Decay Regulariz
ation[EB/OL].(2017-11-14)[2023-11-01].https://arxiv.org/abs/1711.05101.
[18]HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognitio
n[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[19]SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A Simple Way to Prevent
Neural Networks from Overfitting[J].The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
(責任編輯:韓 嘯)