











摘" 要: 知識圖譜可輔助現場人員處理配電網運行過程中積累的海量異構文本,挖掘高價值運行信息。針對知識圖譜構建需求人工標注成本過高的問題,提出一種基于知識增強的遠程監督關系抽取方法。利用GloVe編碼與Bi?GRU網絡對配電網運行語料庫的句包進行向量表征;同時,新增外部知識增強模塊,通過Attention?GCN模型獲取編碼文本的句法結構以及非線性關系,實現低成本的關系抽取,解決傳統遠程監督學習存在的長尾分布及噪聲問題,提升關系抽取精度。實驗結果表明,該方法在配電網運行信息關系抽取任務中表現優秀,相較于主流模型在精確率上提升6%。
關鍵詞: 關系抽取; 遠程監督; 外部知識增強; 配電網運行; 知識圖譜; GloVe編碼
中圖分類號: TN99?34" " " " " " " " " " " " " "文獻標識碼: A" " " " " " " " " " " " " 文章編號: 1004?373X(2024)05?0171?05
Relation extraction of distribution network operation information
via external knowledge enhancement
LI Qiang1, ZHUANG Li2, ZHAO Feng1, WANG Qiulin2, ZHANG Xiaodong2
(1. State Grid Information amp; Telecommunication Group Co., Ltd., Beijing 102211, China; 2. Fujian Yirong Information Technology Co., Ltd., Fuzhou 350001, China)
Abstract: Knowledge graph can assist field personnel to process the massive heterogeneous texts accumulated in the operation process of distribution network and mine high?value operation information. In view of the fact that the cost of manual labeling for knowledge graph construction requirements is excessively high, a distant supervision relation extraction method based on knowledge enhancement is proposed. GloVe (global vectors for word representation) decoding and Bi?GRU (bidirectional?gated recurrent unit) are used to implement the vector representation for the sentence packets of the power grid operation corpus. An external knowledge enhancement module is added to obtain the syntactic structure and nonlinear relationship of the encoded text by the Attention?GCN (graph convolutional network) model, so as to realize low?cost relationship extraction and solve the problems of long?tail distribution and noise in traditional distant supervised learning, and then improve the relation extraction accuracy. Experimental results show that the proposed method performs excellently in the extraction task of distribution network operation information relationship, and improves the accuracy by 6% in comparison with the mainstream model.
Keywords: relation extraction; distant supervision; external knowledge enhancement; distribution network operation; knowledge graph; GloVe decoding
0" 引" 言
隨著知識圖譜技術在配電網智能運維、智能問答以及輔助決策等領域的應用日益廣泛,高質量、低成本實現結構化信息抽取成為該領域的研究焦點。其中,關系抽取作為構建和拓展知識圖譜的重要前置技術,意在自動建立任意兩個實體間可能存在的語義關系,是深度理解文本內容的核心,可為下游自然語言處理任務的文本分析提供支撐[1?3]。
遠程監督關系抽取(Distant Supervised Relation Extraction, DSRE)充分結合半監督學習與無監督學習的優點,利用已有結構化數據對語料庫進行自動標注以實現高效率、低成本的訓練樣本生成,該方法在科研領域與工業應用領域均受到廣泛關注[4?7]。文獻[8]提出一種多示例學習(Multi?Instance Learning, MIL)框架,旨在降低樣本噪聲影響,基于“expressed?at?least?onece”假設認為句包中至少存在一個句子能夠正確表征實體間的關系信息。此后的諸多研究工作均在此框架下開展。其中,文獻[9]提出了一種分段卷積神經網絡(Piecewise Convolutional Neural Network, PCNN)對句子進行編碼,將多示例學習與卷積神經網絡融合,對句子特征進行分段提取以改善模型特征抽取效果。以此為基礎,文獻[10]融合句級注意力機制與PCNN模型,充分利用句包中其他真正例的特征信息獲取完整的句子表征,構建了性能較強的模型結構。不同于文獻[10]提出的句級注意力模型,文獻[11]提出基于詞注意力機制的Bi?GRU(Bi?GRU based Word Attention, BGWA)模型,基于Bi?GRU模型實現詞向量的特征編碼,并引入詞級注意力機制以獲取更加完備的句子文本的向量表征。文獻[12]提出引入外部知識庫包含的邊界信息與實體類型信息輔助關系抽取構建RESIDE模型,該方法通過對關系類型預測環節施加軟約束實現較高的識別精度。
本文提出一種基于知識增強的配電網運行信息抽取方法,通過基于全局詞頻統計的詞表征(Global Vectors for Word Representation, GloVe)模型與Bi?GRU編碼器實現句子的向量化表征,并利用圖卷積神經網絡(Graph Convolutional Network, GCN)構建外部知識庫信息提取模塊,挖掘目標實體及關系的關聯信息和約束信息,降低關系類型識別時樣本噪聲與長尾分布的影響,有效提升模型關系抽取效果。
1" 基于外部知識增強的遠程監督關系抽取模型
1.1" 模型整體架構
模型架構分為三層,具體如下:
1) 句法特征提取層。本層采用GloVe詞表征方法與Bi?GRU句子編碼模型對句包中的句子進行編碼,將文本信息轉換為機器理解的向量表征形式。具體技術細節可見1.2節。
2) 外部知識增強層。利用圖卷積神經網絡與自注意力機制抽取外部知識庫中包含的實體類別信息和關系類別信息,并將其中的關系類別信息與句包向量編碼進行特征拼接和融合,通過自注意力機制調整不同句子關系信息的權重,獲取相應的向量表征。
3) 聚合分類層。將外部知識增強層獲取的實體類別關系與句包向量表征進行拼接,并將其送入Softmax分類器中進行關系抽取。模型整體架構如圖1所示。
1.2" 句法特征提取層
根據關系抽取任務需求設置目標實體為[e1,e2],其中,[e1]和[e2]分別為目標實體的頭實體與尾實體。對于配電網運行信息語料庫中給定的句包[S=S1,S2,…,Sm],[Si=t1,t2,…,tn]表示句包中的任一句子,其中[m]為句包中的句子數量,[n]為句子長度,[ti]代表句子中的每一個詞。
將[Si]輸入GloVe模型,通過窗口滑動的方式對語料庫中的文本信息進行掃描,進而分解詞[ti]與詞[tj]之間的共現矩陣[Xij],獲取相應的詞向量表示[13]。該模型的損失函數為:
[J=i, j=1NfXijvTivj+bi+bj-logXij2] (1)
式中:[vi]、[vj∈Rk]分別為詞[ti]與詞[tj]的向量表征;[bi]和[bj]對應詞[ti]與詞[tj]的偏差項;[fx]是一個加權函數,用于對語料庫中統計得到的低頻詞進行衰減,減少低頻噪聲帶來的誤差。[f(x)]定義為:
[fx=xxmax34," " " xlt;xmax1," " " " " " "x≥xmax] (2)
此時,文本形式的單詞[ti]轉變為詞向量[vi],目標實體也轉換為對應的向量表征[ve1]與[ve2]。由于需要對詞[ti]與目標實體[e1]、[e2]的相對位置進行表征,故將[p]維的位置向量[pti]嵌入詞向量表示,獲得完整的詞嵌入[vpti]為:
[vpti=vti;pti∈Rk+2p] (3)
可得到句包中每個句子的向量表征為[φi=vpt1,vpt2,…,vptn],其中[φi∈Rn×k+2p]。
得到GloVe模型輸出的詞嵌入序列后,以句子向量表征[φi]作為Bi?GRU編碼器的輸入,進一步捕捉長距離依賴關系和上下文語義信息。Bi?GRU編碼器模型的更新門[zgatei]和重置門[rgatei]狀態分別為:
[zgatei=sigmoidWzvpti+Uzhi-1+bz] (4)
[rgatei=sigmoidWrvpti+Urhi-1+br] (5)
式中:[zgatei]、[rgatei∈0,1φ];[W]、[U]、[b]皆為網絡參數;[hi-1]為上一層單元的輸出向量;更新門[zgatei]用來控制當前狀態需要從歷史狀態中保留的信息,以及需要從候選狀態[hi]中接收的更新信息;重置門[rgatei]用來控制候選狀態[hi]對上一層的狀態[hi]的依賴性。候選狀態可表示為:
[hi=tanhWhvpti+Uhri⊙hi-1+bh] (6)
最終得到Bi?GRU編碼器模型的狀態更新方式為:
[hi=zi⊙hi-1+1-zi⊙hi] (7)
經過Bi?GRU模型雙向編碼后,對其進行向量拼接得到融合長程依賴信息以及上下文語義信息的句子表征向量:
[φBi?GRUi=vBi?GRUt1,vBi?GRUt2,…,vBi?GRUtn]" (8)
1.3" 外部知識增強層
外部知識增強層引用已有的電力知識圖譜作為支撐,使用其中收集、歸納的電網實體類型與關系類型輔助配電網運行信息語料庫進行關系抽取。由于知識圖譜以結構化的三元組形式存儲實體、關系、屬性等信息,無法直接對其蘊含的信息與句子表征進行向量拼接,因此,需要利用圖卷積神經網絡對目標實體類型節點及其關聯節點進行編碼,獲取外部知識庫中更多的長尾關系信息,降低長尾分布帶來的噪聲影響[14?15]。
定義GCN的圖結構輸入為三元組[G=Eg,Rg,Sg],其中[Eg]為實體節點集合,[Rg]為關系節點集合,[Sg?Rg×Eg×Eg],代表邊的集合,實體節點與關系節點的集合可用[Ng=Eg?Rg]表示,將其與知識圖譜的三元組表現形式對齊后可得到圖中節點[ni]到節點[nj]的關系連接表示[ni,rij,nj]。由此可定義鄰接矩陣[Aij]為:
[Aij=1," " "ni,nj∈Eg0," " "other" " " " "] (9)
將鄰接矩陣[A]與目標實體[e1,e2]的向量表征[ve1]、[ve2]作為GCN的輸入,可得到模型第[l]層關于節點[ni]的計算表示:
[nli=ReLUj=1dgAijWlnl-1j+bl] (10)
式中:[dg]為圖結構的節點數目;[Wl]為第[l]層的權重矩陣;[bl]為偏置向量。重復該卷積操作可得到[L]層圖卷積神經網絡,其輸出向量表征可分為實體類型表征[VE=vE1,vE2,…,vEnE]與關系類型表征[VR=vR1,vR2,…,vRnR],[nE]與[nR]為實體類型數量以及關系類型數量。經過GCN編碼后,圖結構的實體、關系信息轉換為含有目標實體[e1,e2]類型信息與關系信息的向量表征,可用于輔助遠程監督關系抽取任務。
針對目標實體[e1,e2]的關系類別辨識任務,需將知識圖譜中抽取的與其關聯的關系信息和句包[S=S1,S2,…,Sm]中所有句子的向量表征進行拼接。此時,無論句子[Si]中是否包含目標實體[e1,e2],其均獲得了外部知識庫所能提供的所有與[e1]和[e2]可能存在的關系類別的向量信息。拼接后的句嵌入可表示為:
[φRi=φBi?GRUi;vRi] (11)
由于各句嵌入中存儲的目標實體關系特征占比不同,無法準確評估句子中關系信息的重要性。因此,利用句級注意力機制對句包進行處理,重點獲取與目標實體信息以及關系類型信息相關的重要特征,從而忽略其他無效特征。與句子[Si]對應的注意力分布[αi]定義為:
[αi=expsφRi,qj=1mexpsφRj,q] (12)
式中[q]為查詢向量,代表關系標簽特征。經過加權求和后可得到句包的向量表征[B]:
[B=i=1mαiφRi] (13)
1.4" 聚合分類層
為體現實體類型邊界信息,將GCN編碼得到的實體信息表征向量與句包向量表征[B]嵌入拼接以構成最終的句包向量表征[B]:
[B=B;vEe1;vEe2] (14)
最終將上述句包向量表征[B]作為Softmax分類器的輸入,計算其在關系標簽上的概率分布,計算公式如下:
[y=SoftmaxWBB+bB] (15)
式中:[WB]為權重矩陣;[bB]為偏置向量;[y]是模型輸出的概率分布,為每一個關系類別標簽提供置信度得分。
2" 基于知識增強的配電網運行信息關系抽取方法
配電網運行信息關系抽取流程如圖2所示,經外部知識增強后可有效識別語料庫中的關系類型,實現關系自動構建以擴充訓練數據集。
遠程監督關系抽取在配電網運行信息語料庫與電力知識圖譜間的作用機理如圖3所示。
3" 實驗分析
3.1" 數據集
為了驗證基于知識增強的遠程監督關系抽取方法的有效性,本文主要以配電網運行信息語料庫為數據集進行實驗,該數據集包含基于Selenium框架獲取的配電網運行相關技術文獻550余篇,配網運行報告100余篇以及電力規程文檔,共計50萬字以上。經過中文語法規則的歸納總結,其中訓練集包含4 410個實體對,測試集包含1 890個實體對,共定義6種關系類別標簽,如表1所示。
3.2" 評價指標
本文采用的評價指標包括精確率[P](Precision)、召回率[R](Recall)以及[P]@[N]指標。其中,精確率[P]表示分類器預測結果為正的樣本中真實正樣本的比例,召回率[R]表示樣本中真實正樣本被預測正確的比例。二者的計算公式如下:
[P=TPc TPc+FPc]" (16)
[R=TPc TPc+FNc] (17)
式中:[TPc]為真正例;[FPc]為假正例;[FNc]為假反例。在評估關系抽取模型的性能時,本文還選用主流的[P]@[N]評價指標,分別計算[P]@100、[P]@200、[P]@300的數值。
3.3" 實驗設置
本文實驗測試環境為:Intel[?] CoreTM i5?9300HCPU處理器、NVIDIA GeForce GTX 1660Ti顯卡以及Windows 11操作系統,編程環境為Python 3.7。選取交叉熵損失函數(Cross?Entropy Loss Function)與Adam優化器對模型參數進行學習更新,模型的超參數設置如表2所示。
3.4" 基線模型
1) CNN:一種基于卷積神經網絡的關系抽取模型[16]。
2) CNN+Attention:一種基于卷積神經網絡與注意力機制的關系抽取模型,其中句級注意力機制的使用有助于模型捕捉文本語句中的關鍵信息[17]。
3) PCNN:一種基于分段卷積神經網絡編碼器的遠程監督關系抽取模型。
4) PCNN+Attention:一種基于分段卷積神經網絡編碼器與句級注意力機制的遠程監督關系抽取模型。
5) BGWA:一種基于詞注意力的Bi?GRU模型。
3.5" 實驗結果分析
本節主要對比上述基線模型與本文所提方法在配電網運行信息語料庫中的表現,以驗證本文方法的有效性,結果如表3所示。同時,為了驗證本文方法的性能和通用性,也使用Riedel基準數據集對其和基線模型進行驗證,基準實驗中的外部知識引自FreeBase知識庫,其結果如表4所示。綜合上述實驗可以發現,本文方法通過使用外部知識庫提供的目標實體關聯知識以及關系信息,有效提升了關系類型特征的提取能力,注意力機制的引入使得模型具備更強的關鍵信息捕捉能力。由于遠程監督方法對語料庫標注樣本數量的擴充,極大地提升了模型的性能。
對于傳統的卷積神經網絡類基準模型,PCNN模型通過對句子分段池化并與上下文特征拼接后進行關系類型分類,實現上下文語義特征信息的充分利用,相較于CNN關系抽取模型精度提升較為明顯。但在配電網運行信息語料庫數據集中,注意力機制的引入并未如預期改善識別結果。顯然,在傳統的監督學習框架下,垂直領域語料庫數據集樣本不均衡問題導致句級注意力機制篩選分配權重時無法正確篩選重要信息。因此,CNN+Attention及PCNN+Attention模型在不同數據集上的表現差異較大。
不同于以上使用句級注意力機制的模型,BGWA模型通過對每一個詞加入詞級注意力,利用分配權重的方式對句子內部不同部分關鍵信息進行強調以獲取句子文本的最優向量表征,可顯著優化遠程監督關系抽取模型中編碼器的噪聲抑制能力,其在Riedel數據集上[P@N]指標表現可提升30%左右。顯然,句級注意力機制受限于顆粒度,默認句子中含有正確的關系分類標簽導致大量噪聲的引入,嚴重影響關系類型的識別精度。
本文與上述卷積神經網絡基準模型、句級注意力機制模型以及詞級注意力機制模型相比,在兩個數據集上各項精確率指標均提升明顯,主要原因在于外部知識圖譜的引入改善了文本離散特征的提取能力,利用知識圖譜中的實體類型信息與關系類型信息過濾無效的關系信息,通過引入先驗知識顯著提高模型性能。同時,由于外部信息可以排除語料庫數據集所構建的遠程監督樣本的干擾,過濾句級注意力機制引入的無效噪聲,更好地利用其權重分配的功能降低錯誤句子的權重數值,提升關系類型識別精確率。未來工作中考慮加入詞級注意力機制對本模型工作進行優化,使其在噪聲抑制、長尾分布問題上的表現更為優秀。
4" 結" 論
本文提出一種基于知識增強的配電網運行信息關系抽取模型,遠程監督學習框架通過樣本自動化標注解決了樣本質量較低和人工標注成本過高的難題。在配電網運行信息語料庫數據集與Riedel數據集中均取得了優異的關系抽取結果,相較于主流模型[P@N]分別提升6%與1%。
參考文獻
[1] 謝慶,蔡揚,謝軍,等.基于ALBERT的電力變壓器運維知識圖譜構建方法與應用研究[J].電工技術學報,2023,38(1):95?106.
[2] 王嘉寧,何怡,朱仁煜,等.基于遠程監督的關系抽取技術[J].華東師范大學學報(自然科學版),2020(5):113?130.
[3] 宋瑋瓊,韓柳,羨慧竹,等.基于GCN的配電網知識圖譜構建及應用[J].電子設計工程,2022,30(7):160?164.
[4] 王會勇,安康,張曉明.結合領域先驗詞匯的遠程監督關系抽取模型[J].計算機應用與軟件,2022,39(8):34?43.
[5] 尚蘭蘭.基于遠程監督的關系抽取研究綜述[J].河北省科學院學報,2022,39(6):1?8.
[6] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data [C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. [S.l.: s.n.], 2009: 1003?1011.
[7] 張水晶,陳建峽,吳歆韻.一種句袋注意力遠程監督關系抽取方法[J].計算機應用與軟件,2022,39(8):193?203.
[8] RIEDEL S, YAO L M, MCCALLUM A. Modeling relations and their mentions without labeled text [C]// European Conference on Machine Learning and Knowledge Discovery in Databases. Heidelberg: Springer, 2010: 148?163.
[9] ZENG D J, LIU K, CHEN Y B, et al. Distant supervision for relation extraction via piecewise convolutional neural networks [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2015: 1753?1762.
[10] LIN Y K, SHEN S Q, LIU Z Y, et al. Neural relation extraction with selective attention over instances [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2016: 2124?2133.
[11] JAT S, KHANDELWAL S, TALUKDAR P. Improving distantly supervised relation extraction using word and entity based attention [EB/OL]. [2018?04?19]. https://arxiv.org/abs/1804.06987.
[12] VASHISHTH S, JOSHI R, PRAYAGA S S, et al. Reside: Improving distantly?supervised neural relation extraction using side information [C]// Conference on Empirical Methods in Natural Language Processing. [S.l.: s.n.], 2018: 1257?1266.
[13] PENNINGTON J, SOCHER R, MANNING C D. Glove: Global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). [S.l.]: ACL, 2014: 1532?1543.
[14] KIPF T N, WELLING M. Semi?supervised classification with graph convolutional networks [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1609.02907.
[15] 曾碧卿,李硯龍,蔡劍.基于外部知識增強的遠程監督關系抽取模型[J].計算機系統應用,2023,32(5):253?261.
[16] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[17] WANG L, CAO Z, DE MELO G, et al. Relation classification via multi?level attention CNNs [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2016: 1298?1307.