




摘要: 針對目前領域知識圖譜實體關系抽取效果不佳的問題, 提出一種面向領域知識圖譜的實體關系抽取模型研究方法. 先建立由編解碼模塊、 實體識別模塊和實體關系抽取模塊組成的實體關系抽取模型, 在實體關系抽取模型中, 通過雙向長短期記憶神經網絡對文本句子進行編碼處理, 將編碼后文本句子特征表示向量輸入至基于深度神經網絡的實體識別模塊中進行文本句子的實體識別, 并將識別結果輸入至基于卷積神經網絡的實體關系抽取模塊中進行實體關系抽取, 然后將實體關系抽取獲取的實體關系三元組輸入至編解碼模塊中進行解碼操作, 實現最終的面向領域知識圖譜的實體關系抽取. 實驗結果表明, 該方法的實體關系抽取效果和整體應用效果較好.
關鍵詞: 知識圖譜; 實體關系抽取; 實體識別; 卷積神經網絡
中圖分類號: TP391文獻標志碼: A文章編號: 1671-5489(2025)02-0465-07
Simulation of Entity Relationship ExtractionModel for Domain Knowledge Graph
HE Shan, XIAO Xi, ZHANG Jialing
(School of Computer Science and Software Engineering, Southwest Petroleum University, Chengdu 610599, China)
收稿日期: 2024-02-07.
第一作者簡介: 何 山(1972—), 男, 漢族, 碩士, 副教授, 從事大數據挖掘和機器學習的研究, E-mail: heshanwzj@163.com.
基金項目: 國家自然科學基金面上項目(批準號: 62276099).
Abstract: Aiming atthe problem of poorperformance of entity relationship extraction in current domain knowledge graphs, we proposed a research method for entity relationship extraction models oriented towards domain knowledge graphs. Firstly, we established an entity relationship extraction model consisting of an encoding and decoding module, an entity recognition module, and an entity relationship extraction module. In the entity relationship extraction model, a bidirectional long short-term memory neural network was used to encode text sentences, and the feature representation vectors of the encoded text sentences were input into a deep neural network-based entity recognition module for entity recognition of text sentences, andthe recognition results were input into the entity relationship extraction module based on convolutional neural networks forentity relationship extraction. Secondly,the entity relationship triplet obtained from entity relationship extraction was input into the encoding and decoding module for decoding operation, achieving the final entity relationship extraction for domain oriented knowledge graph. The experimental results show that the proposed method has better entity relationship extraction effect and overall application effect.
Keywords: knowledge graph; entity relationship extraction; entity recognition; convolutional neural network
領域知識圖譜是一種將某一特定領域知識可視化的知識表示方法, 是目前人工智能領域的研究熱點. 知識圖譜實體關系抽取是建立知識圖譜的重要步驟, 但其在面臨復雜語義關系時, 常存在實體關系抽取效果不佳的問題, 因此, 進行面向領域知識圖譜的實體關系抽取方法研究有一定的現實意義[1-2].
夏鴻斌等[3]建立了由基于BERT(bidirectional encoder representations from Transformers)編碼和鏈式解碼模塊、 實體抽取和關系抽取模塊、 關系修正模塊組成的實體關系抽取模型, 但該方法的計算復雜度較高, 且依賴于訓練數據的質量, 實體關系抽取結果質量較低; 張亮等[4]建立了由基于PATB(position and attention based Booster)信息聚合器的編解碼模塊、 基于實體抽取器的實體識別模塊等模塊組成的實體關系抽取模型, 但該方法在構建模型時未考慮實體之間存在的多種關系, 導致實體關系抽取效果不佳; Huang等[5]先進行實體識別, 然后將識別出的實體輸入至長短期記憶(LSTM)網絡完成實體關系抽取, 但該方法存在因數據稀疏性導致LSTM網絡處理實體關系時性能下降的問題, 從而導致實體關系抽取中文本編解碼效果不佳; Sun等[6]通過選擇門網絡實現實體關系抽取, 但該方法對特定任務具有依賴性, 且需要大量標注數據, 導致實體關系抽取模型的可解釋性不足.
為解決上述方法中存在的問題, 本文設計一種面向領域知識圖譜的實體關系抽取模型.
1 實體關系抽取模型構建
實體關系抽取模型是一種從文本中識別實體并建立實體之間關系的模型, 本文建立基于深度神經網絡的實體識別模塊、 基于雙向長短期記憶神經網絡的編解碼模塊和基于卷積神經網絡的實體關系抽取模塊三部分組成的實體關系抽取模型[7-8].其中, 深度神經網絡可通過層疊多個隱藏層提取更高級別的特征表示, 使實體識別模塊能更好地理解復雜的文本語義信息; 雙向長短期記憶神經網絡能捕捉上下文依賴關系, 允許模型同時考慮過去和未來的上下文, 從而提高編解碼的精度和效果; 卷積神經網絡在局部區域上進行參數共享和池化操作, 能有效捕獲局部特征并保持空間位置信息, 因此適用于實體關系的抽取. 綜合使用這些神經網絡模型, 可有效提取文本中的實體和實體關系, 實現精準實體關系抽取任務. 本文實體關系抽取模型結構如圖1所示.
在建立的實體關系抽取模型中, 實體識別模塊可獲取文本句子的實體, 為后續的實體關系抽取提供基礎數據; 編解碼模塊中的編碼用于實體關系抽取前的文本句子特征向量表示, 解碼用于實體關系抽取后的原始文本形式轉換; 實體關系抽取模塊用于實現實體關系抽取[9-10].
實體關系抽取模型步驟如下:
1) 利用基于雙向長短期記憶神經網絡的編解碼器轉換文本句子至適用于實體識別和實體關系抽取的表示形式;
2) 將通過編碼器編碼獲取的文本句子特征表示向量輸入至實體識別模塊中, 獲取文本句子中的實體;
3) 將獲取的文本句子實體實行編碼處理后, 繼續輸入至實體關系抽取模型中, 實現實體關系抽取;
4) 將獲取的實體關系抽取三元組輸入至編解碼器中實現解碼處理, 恢復實體關系的原始表達.
1.1 實體編碼處理
由于文本句子和實體通常以字符或詞的形式存在, 而神經網絡[11]對字符或詞序列的直接處理較困難, 因此在進行實體識別與實體關系抽取前, 需先對文本句子和實體進行編碼操作, 通過編碼轉換文本句子和實體為特征表示向量形式[12-13].通過雙向長短期記憶網絡模型對文本句子進計編碼處理, 文本句子/實體的特征表示向量可通過雙向長短期記憶網絡編碼器的前向傳播輸出與后向傳播輸出結果拼接得到.
編碼器前向傳播輸出值o用公式表示為
o=LSTM(o+1,ro),(1)
其中LSTM表示長短期記憶神經網絡前向編碼函數, o+1表示第(o+1)個文本句子/實體的雙向特征向量, ro表示第o個文本句子/實體的嵌入向量. 編碼器后向傳播輸出值o用公式表示為
o=LSTM(o-1,ro),(2)
其中LSTM表示長短期記憶神經網絡后向編碼函數, o-1表示第(o-1)個文本句子/實體的雙向特征向量.
拼接前向傳播輸出和后向傳播輸出, 得到用于實體識別和實體關系抽取的文本句子/實體特征表示向量jRo為
jRo=(o;o).(3)
1.2 實體識別模塊
將獲取的文本句子特征表示向量輸入至基于深度神經網絡中完成實體識別, 獲取實體數據, 為領域知識圖譜的實體關系抽取提供基礎數據. 實體識別即通過實體識別模型獲取文本中具有特定意義的實體, 通過對輸入文本句子的特征表示向量進行標簽預測, 選擇文本最優描述標簽的過程[14-15].
深度神經網絡分為輸入層、 神經網絡層和輸出層, 輸入層用于輸入數據的低維映射, 神經網絡層由兩個線性層夾雜一個非線性層組成, 其用于輸入數據的特征表示, 在輸出層獲取文本句子的標簽預測結果, 即實體識別結果. 將文本句子特征表示向量jRo作為深度神經網絡的輸入, 通過神經網絡層得到輸入文本句子特征表示向量jRo的特征表示Evhid為Evhid=whidjRo+bhid,(4)
其中whid表示權重, bhid表示偏置.
在輸出層得到文本句子特征表示向量jRo的標簽預測scorev(θ,jRo), 用公式表示為
scorev(θ,jRo)=Evout×h(Ev
hid×gv1(jRo)+nvhid)+nvout,(5)
其中Evout表示輸出層的文字特征向量, nvhid和nvout分別表示隱含層和輸出層的訓練參數, h表示激活函數, θ表示輸入的真實標簽.
1.3 實體關系抽取模塊
實體關系抽取即從句子中獲取頭實體、 尾實體、 關系組成的實體關系三元組, 將識別得到的文本句子實體輸入至基于卷積神經網絡的實體關系抽取模塊中, 然后通過卷積層的卷積操作獲取特征圖, 再通過池化層優化卷積層獲取的特征圖, 獲取對應的特征映射圖, 其中分別設置2層卷積層與池化層, 最后經全連接層得到實體關系抽取結果.
經卷積層特征處理輸出的特征圖kl表示為
kl=tanh(ev·scorev(θ,jRo)),(6)
其中ev表示權重. 在池化層進行最大池采樣, 以進一步獲取卷積層中有用的局部特征信息A(o), 用公式表示為
A(o)=maxl=1,2,…,L {kl(o)}.(7)
選擇表示關系分類參數的五元組θ=(c;M;E1;E2;E3)作為卷積神經網絡的參數, 其中c表示輸入文本, M表示網絡結構, E1,E2,E3表示網
絡的權重參數. 最終得到輸出概率分布結果A(oc,θ), 即實體關系抽取結果為
A(oc,θ)=epk∑nl=1epl,(8)
其中epk,epl分別表示第k,l個分量包含關系p的權重, n表示所有關系分類的數量.
對卷積神經網絡進行訓練, 以優化神經網絡的關系分類參數θ, 通過優化網絡的參數逐漸調整到更準確的狀態, 使網絡能更好地識別和抽取文本中的實體關系.
關系分類參數θ的優化可利用隨機梯度下降法獲取參數的最大對數似然值實現, 對一個句子中的實體訓練數據對(c,u), 可得參數的對數似然值K(θ)為
K(θ)=∑Yc=1log p(uc,θ).(9)
通過隨機梯度下降法最大化對數似然值, 更新網絡參數θ:
θ′=θ+μlog p(uc,θ)K(θ),(10)
其中μ表示關系索引, 表示偏導率.
利用卷積神經網絡參數θ的不斷優化, 即可獲取最佳輸出概率分布結果, 實現實體關系抽取.
1.4 實體解碼處理
在利用實體關系抽取獲取實體關系三元組后, 仍需通過雙向長短期記憶神經網絡完成解碼操作. 將上下文向量rt、 實體關系三元組u、 關系嵌入trk作
為解碼器的輸入, 通過解碼層和映射層獲取解碼結果[16-17].關系嵌入即將結構化數據中的關系轉變為向量表示, 可將關系嵌入描述為詞嵌入, 根據關系索引μ查詢關系的向量表示.
在解碼器中引入注意力機制以獲取解碼器隱含向量的上下文向量rt, 用公式表示為
rt=Attention(jFk,t,jRk,t)×θ′,(11)
其中jFk,t表示解碼層隱含向量, jRk,t表示編碼層隱含向量. 在解碼層中, 可得隱含向量jFk,t如下:
jFk,t=LSTMF(rt-1‖trk‖u,jFk,t-1),(12)
其中LSTMF表示解碼器的計算單元, rt-1表示上一時刻的上下文向量, jFk,t-1表示上一時刻的隱含向量. 最后將解碼層獲取的信息輸
入至映射層中獲取原始文本形式θk,t如下:
θk,t=Softmax{k,t,jFk,t}.(13)
通過將實體關系抽取的結果輸入至編解碼器進行解碼處理, 可實現對實體關系的還原和重建, 從而更好地理解文本中實體之間的關聯性.
2 實驗與結果分析
為驗證面向領域知識圖譜實體關系抽取模型的有效性, 下面對其進行測試.
2.1 實體關系與實驗指標選取
選擇維基百科的地質領域公共數據集作為實驗對象, 根據地質句子實例, 將實體關系類型分為實例、 子類、 屬于、 可分為、 位于、 用途、 形狀、 形成原因、 地質年代、 顏色、 組成和其他關系. 地質句子的實體關系抽取表示實例如圖2所示.
采用本文方法、 文獻[3]方法和文獻[4]方法, 分別在編解碼效果、 實體識別效果和實體關系抽取效果三方面進行對比. 實驗采用編解碼效果和P-R(precision-recall)曲線兩個評價指標.
1) 編解碼效果: 文本的編解碼效果直接影響實體關系抽取效果的好壞, 故要進行編解碼效果的測試. 引入ROUGE(recall-oriented understudy for gisting evaluation)
指標評價文本編解碼效果, ROUGE可用于評估模型生成的文本特征表
示與人工文本特征表示之間的相似度.
2) P-R曲線: 引入P-R曲線評價實體識別效果與實體關系抽取效果. P-R曲線是一種描述查準率與查全率關系的曲線, P-R曲線下面積越大, 表明實體識別、 實體關系抽取效果越好.
2.2 抽取效果分析
2.2.1 編解碼效果
采用文獻[3]方法、 文獻[4]方法和本文方法完成文本編解碼處理, 記錄3種方法的ROUGE-1,ROUGE-2,ROUGE-L結果, 其中ROUGE-1,ROUGE-2,ROUGE-L分別表示基于詞的評估效果、 基于詞對的評估效果和基于最長公共子序列的評估效果. 實驗結果如圖3所示.
由圖3可見, 本文方法在ROUGE-1,ROUGE-2,ROUGE-L上的結果均高于文獻[3]方法和文獻[4]方法, 表明本文方法生成的文本特征表示與人工文本特征表示之間的相似度更高, 編解碼效果更好, 更利于后續實現實體關系抽取模型中的實體關系抽取.
2.2.2 P-R曲線
采用本文方法、 文獻[3]方法和文獻[4]方法完成實體識別和實體關系抽取, 記錄3種方法的P-R曲線, 結果如圖4所示.
由圖4可見, 在實體識別的P-R曲線上, 本文方法P-R曲線下面積明顯大于文獻[3]方法和文獻[4]方法, 表明本文方法的實體識別效果更好; 在實體關系抽取的P-R曲線上, 本文方法的P-R曲線下面積同樣大于文獻[3]方法和文獻[4]方法, 表明本文方法的實體關系抽取效果更佳. 綜合結果表明, 本文方法構建的實體關系抽取模型應用效果更好.
圖4 不同方法的P-R曲線對比Fig.4 Comparison of P-R curves of different methods
上述實驗結果表明, 本文方法的實體關系抽取效果較好, 這是因為該方法建立了由基于深度神經網絡的實體識別模塊、 基于雙向長短期記憶網絡的編解碼模塊和基于卷積神經網絡的實體關系抽取模塊組成的面向領域知識圖譜的實體關系抽取模型, 編解碼模塊過程準確且流暢, 結果一致性高, 實體識別模塊準確獲得了實體數據, 提高了后續實體關系抽取的準確性, 實體關系抽取模型也具有良好的性能表達能力, 最終獲得了實體關系抽取效果良好的實體關系抽取模型.
綜上所述, 針對目前領域知識圖譜中實體關系抽取效果不佳的問題, 為提高實體關系抽取任務的準確性和應用能力, 本文提出了一種面向領域知識圖譜實體關系抽取模型的方法.
該方法將文本句子經過雙向長短期記憶神經網絡進行編碼處理, 捕捉上下文依賴關系, 提高了實體識別模塊對文本語義的理解能力. 通過深度神經網絡模型實現實體識別, 可以更好地理解文本中的實體信息.
采用卷積神經網絡模型進行實體關系抽取, 捕捉局部特征并保持空間位置信息, 提高了抽取的準確性. 實驗結果表明, 該方法在實體關系抽取任務中具有更好的性能和應用效果.
參考文獻
[1]趙丹丹, 張俊朋, 孟佳娜, 等. 基于預訓練模型和混合神經網絡的醫療實體關系抽取[J].北京大學學報(自然科學版), 2023, 59(1): 65-75. (ZHAO D D, ZHANG J P, MENG J N, et al. Medical Entity Relation Extraction Based on Pre-trained Model and Hybrid Neural Network[J].Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 65-75.)
[2]胡代旺, 焦一源, 李雁妮. 一種新型高效的文庫知識圖譜實體關系抽取算法[J].西安電子科技大學學報, 2021, 48(6): 75-83. (HU D W, JIAO Y Y, LI Y N. Novel and Efficient Algorithm for Entity Relation Extraction with the Corpus Knowledge Graph[J].Journal of Xidian University, 2021, 48(6): 75-83.)
[3]夏鴻斌, 沈健, 劉淵. 基于過濾機制的鏈式實體關系抽取模型[J].模式識別與人工智能, 2023, 36(7): 590-601. (XIA H B, SHEN J, LIU Y. Chain Entity Relation Extraction Model with Filtering Mechanism[J].Pattern Recognition and Artificial Intelligence, 2023, 36(7): 590-601.)
[4]張亮, 盧玲, 王愛娟, 等. PATB: 一種面向聯合實體和關系抽取的信息聚合器[J].小型微型計算機系統, 2023, 44(10): 2338-2345. (ZHANG L, LU L, WANG A J, et al. PATB: An Information Booster for
Joint Entity and Relationship Extraction[J].Journal of Chinese Computer Systems, 2023, 44(10): 2338-2345.)
[5]HUANG H Y, LEI M, FENG C. Graph-Based Reasoning Model for Multiple Relation Extraction[J].Neurocomputing, 2021, 420(8): 162-170
.[6]SUN J, LI Y, SHEN Y T, et al. Selection Gate-Based Networks for Semantic Relation Extraction[J].International Journal of Embedded Systems, 2021, 14(3): 211-217.
[7]丁相國, 桑基韜. 基于關系自適應解碼的實體關系聯合抽取[J].計算機應用, 2021, 41(1): 29-35. (DING X G, SANG J T. Joint Extraction of Entities and Relations Based on Relation-Adaptive Decoding[J].Journal of Computer Applications, 2021, 41(1): 29-35.)
[8]喬勇鵬, 于亞新, 劉樹越, 等. 圖卷積增強多路解碼的實體關系聯合抽取模型[J].計算機研究與發展, 2023, 60(1): 153-166. (QIAO Y P, YU Y X, LIU S Y, et al. Graph Convolution-Enhanced Multi-channel Decoding Joint Entity and Relation Extraction Model[J].Journ
al of Computer Research and Development, 2023, 60(1): 153-166.)
[9]李曉林, 潘治霖, 鄧慶康, 等. 基于融合關系信息編碼的法律文書實體關系抽取方法[J].中文信息學報, 2023, 37(4): 90-97. (LI X L, PAN Z L, DENG Q K, et al. Relation Enhanced Embedding Based Entities Relation Extraction from Legal Documents[J].Journal of Chinese Information Processing, 2023, 37(4): 90-97.)
[10]廖開際, 鄒珂欣, 席運江. 一種在線醫療社區問答文本實體識別方法——基于卷積神經網絡和雙向長短期記憶神經網絡[J].科技管理研究, 2021, 41(8): 173-179. (LIAO K J, ZOU K X, XI Y J. An Online Medical Community Qamp;A Text Entity Recognition Method: Based on CNN and BiLSTM[J].Science and Technology Management Research, 2021, 41(8): 173-179.)
[11]湯志康, 武毓琦, 李春英, 等. 基于知識圖譜卷積網絡的學習資源推薦 [J]. 計算機工程, 2024, 50(9): 153-160. (TANG Z K, WU Y Q, LI C Y, et al. Recommendation of Learning Resource Based on Knowledge Graph Convolutional Network [J]. Computer Engineering, 2024, 50(9): 153-160.)
[12]張洪程, 李林育, 楊莉, 等. 基于對比學習與語言模型增強嵌入的知識圖譜補全 [J]. 計算機工程, 2024, 50(4): 168-176. (ZHANG H C, LI L Y, YANG L, et al. Knowledge Graph Completion Based on Contrastive Learning and Language Model-Enhanced Embedding [J].
Computer Engineering, 2024, 50(4): 168-176.)
[13]景鵬, 袁代標, 杜劉洋, 等. 基于科學知識圖譜的自動駕駛技術接受度研究綜述 [J]. 江蘇大學學報(自然科學版), 2023, 44(1): 14-21. (JING P, YUAN D B, DU L Y, et al. Research of Acceptance of Autonomous Vehicles Technology Based on Mapping Knowledge Domain [J].
Journal of Jiangsu University (Natural Science Edition), 2023, 44(1): 14-21.)
[14]王明常, 丁文, 趙競爭, 等. 基于知識圖譜與隨機森林的落葉松毛蟲害遙感識別 [J]. 吉林大學學報(地球科學版), 2023, 53(6): 2006-2017. (WANG M C, DING W, ZHAO J Z, et al. Remote Sensing Identification of Dendrolimus Superans Infestation Based on Knowledge Graph and Random Forest [J].
Journal of Jilin University (Earth Science Edition), 2023, 53(6): 2006-2017.)
[15]劉瓊昕, 牛文濤, 王佳升. 融合知識和約束圖的遠程監督關系抽取方法 [J].北京理工大學學報, 2024, 44(7): 731-739. (LIU Q X, NIU W T, WANG J S. Extracting Method of Distant Supervised Relation Based on Fusion of Knowledge and Constraint Graph [J]. Transactions of Beijing Institute of Technology,
2024, 44(7): 731-739.)
[16]鄧亮, 齊攀虎, 劉振龍, 等. BGPNRE: 一種基于BERT的全局指針網絡實體關系聯合抽取方法 [J]. 計算機科學, 2023, 50(3): 42-48. (DENG L, QI P H, LIU Z L, et al. BGPNRE:A BERT-Based Global Pointer Network for Named Entity-Relation Joint Extraction Method [J]. Computer Science, 2023, 50(3): 42-48.)
[17]任安琪, 柳林, 王海龍, 等. 面向文本實體關系抽取研究綜述 [J]. 計算機科學與探索, 2024, 18(11): 2848-2871. (REN A Q, LIU L, WANG H L, et al. Review of Text-Oriented Entity Relation Extraction Research [J]. Journal of Frontiers of Computer Science and Technology, 2024,18(11): 2848-2871.)
(責任編輯: 韓 嘯)