







摘要: 針對小樣本關系抽取問題, 提出一種基于注意力機制的歸納網絡. 首先, 利用歸納網絡中的動態路由算法學習類別表示; 其次, 提出實例級別的注意力機制, 用于調整支持集, 并獲取支持集與查詢集樣本之間的高級信息, 進而獲得與查詢實例更相關的支持集樣本. 該模型很好地解決了訓練數據不足時如何進行關系抽取的問題. 在小樣本關系抽取數據集FewRel上進行實驗, 得到的實驗結果為: 5-way 5-shot情形下準確率為(88.38±0.27)%,5-way 10-shot情形下準確率為(89.91±0.33)%, 10-way 5-shot情形下準確率為(77.92±0.44)%, 10-way 10-shot情形下準確率為(81.21±0.39)%. 實驗結果表明, 該模型能適應任務并且優于其他對比模型, 在小樣本關系抽取中取得了優于對比模型的結果.
關鍵詞: 關系抽取; 小樣本學習; 歸納網絡; 自然語言處理; 長短期記憶網絡
中圖分類號: TP39 文獻標志碼: A 文章編號: 1671-5489(2023)04-0845-08
Few-Shot Relation Extraction Model Based onAttention Mechanism Induction Network
JI Bonan, ZHANG Yonggang
(College of Computer Science and Technology, Jilin University, Changchun 130012, China)
Abstract: Aiming at" the problem of few-shot relation extraction," we proposed an induction network based on attention mechanism. Firstly, we used" dynamic routing algorithm in induction network to learn the class representation. Secondly, we proposed instance-level attention mechanism to" adjust support set and obtain high-level information between support set and query set samples, thereby obtaining" the support set samples that were more relevant to the query instances. The proposed" model effectively solved "the problem of how to extract relationships when the training data was insufficient. The experiment was conducted" on the few-shot relation extraction FewRel dataset, and the experimental results showed an" accuracy rate of (88.38±0.27)% in the 5-way 5-shot case," (89.91±0.33)% in the 5-way 10-shot case, (77.92±0.44)% in the" 10-way 5-shot case," (81.21±0.39)% in the" 10-way 10-shot case. The" experimental" results show that the model can adapt to tasks and outperforms other comparative" models, achieving better results than comparative" models in few-shot relation extraction.
Keywords: relation extraction; few-shot learning; induction network; natural language processing; long short term memory network
作為自然語言處理中的一項重要任務, 關系抽取的目的是對文本中給定實體對之間的關系進行分類. 例如, 給定一個句子“[James Funck]e1 obtained a 1st class honour at [Liverpoor University]e2”, 則該句子中的實體對James Funck與Liverpoor University之間的關系為educated-at.
傳統的關系分類方法采用監督訓練[1-2], 需要高質量的大規模標記數據才能很好地泛化. 但人工標注數據耗時長, 限制了模型對新類的泛化能力. 為解決數據缺乏的問題, Mintz等[3]提出了遠程監督機制, 該方法通過大型語義數據庫自動獲取標記數據. 遠程監督將實例與知識庫(KB)對齊, 如果實例包含知識庫中存在的實體對, 則它們之間的關系將對應于知識庫中的實體表達關系. 雖然通過遠程監督獲得了大規模的標注數據, 但同時也導致了噪聲和長尾問題, 這些問題使得采用遠程監督的關系抽取模型無法進行準確分類." 同時, 當訓練數據不足時, 這些模型也不能很好地泛化.
為解決上述問題, 研究者們提出了小樣本學習問題, 小樣本學習任務旨在利用每個類中很少的訓練樣本識別新的類別, 由于小樣本學習任務可解決訓練數據匱乏的問題, 所以已引起了廣泛關注. 早期關于小樣本學習的研究主要集中在計算機視覺領域. Santoro等[4]和Munkhdalai等[5]提出的方法旨在通過模型結構快速更新少量樣本的參數, 并構建從輸入到預測值的映射函數. 在多數情況下, 由于參數量大, 在小樣本學習任務中訓練普通的神經網絡分類器幾乎都是過擬合的. 相反, 一些非參數方法(k-nearest neighbors, k-means)不需要優化參數, 因此可通過元學習構建小樣本學習中的端到端分類器. 基于度量的方法通過測量支持集實例與查詢實例之間的距離, 并利用最近鄰算法對它們進行分類. 孿生網絡(siamese network)[6]先通過監督學習訓練模型, 再利用網絡提取特征進行小樣本學習. 與孿生網絡相比, 匹配網絡(match network)[7]中的支持集與查詢集的編碼器不同, 它們將支持集樣本與查詢樣本之間帶有權重的預測值之和作為輸出. 原型網絡(prototype network)[8]認為每個類別都存在一個原型, 即每個類別的支持樣本的均值. 關系網絡(relation network)[9]將測量指標視為可學習的參數. 因此, 該模型訓練網絡學習距離度量.
盡管小樣本學習在計算機視覺領域發展迅速, 但將小樣本學習任務應用到自然語言處理任務中報道較少. 由于文本的多樣性和語義的復雜性, 自然語言處理領域中小樣本學習模型的性能不如計算機視覺領域. 但因為原型網絡的簡單性和有效性, 使得它在自然語言處理任務中得到廣泛應用." Han等[10]提出了一個用于小樣本關系分類任務的數據集, 采用原型網絡作為其基準模型, 并將數據集命名為FewRel. Gao等[11]使用混合注意力機制改進原型網絡處理帶有噪聲的訓練實例. 考慮到支持集實例與查詢實例之間的匹配信息, Ye等[12]提出了MLMAN模型以交互方式對支持與查詢實例進行編碼. 由于每個類別少數樣本之間的多樣性和差異性, 普通原型網絡很難獲得合適的類別表示, 所以Geng等[13]提出了基于動態路由算法的歸納網絡, 該模型可根據支持集更靈活地生成類表示. 但歸納網絡的關系模塊使用了神經張量層[14], 其中需要通過張量參數對實例進行分類, 導致當樣本的關系類型較大時, 模型無法獲得魯棒的泛化能力. 此外, 該模型未考慮支持實例與查詢實例之間的相關信息, 也忽略了它們之間的高級特征信息.
因此, 本文利用自注意力機制[15]改進歸納網絡. 與普通的歸納網絡類似, 首先, 本文模型也采用雙向長短期記憶(Bi-LSTM)對支持集實例和查詢實例進行編碼, 并通過自注意力機制生成所有實例的表示; 其次, 實例級別的注意力機制可選擇與查詢實例更相關的支持集實例, 從而可通過歸納模塊獲得具有查詢相關信息的類別表示. 最后, 通過計算類別表示與查詢集實例向量之間的余弦距離對查詢實例的實體對進行分類.
1 任務定義
本文將兩個數據集Dtrain和Dtest應用于小樣本關系抽取任務, 這兩個數據集彼此不相交且具有不同的標簽空間. 數據集中的數據都由一系列的實例{s,e1,e2,r}組成, 其中s是一個包含T個單詞的句子實例, e1,e2是句子s中的兩個實體, r是實體對在句子s中的關系.
數據集分為支撐集和查詢集兩部分. 小樣本學習中的N-way K-shot任務是指選擇N個關系類中的每個都包含K個支持實例. 一般地, N和K的值都很小, 本文設N=5, K=10.
用數據集Dtrain訓練本文模型并用Dtest進行測試. 在訓練迭代周期中, 從Dtrain數據集中隨機選擇N個類, 并從每個類中隨機選擇K個樣本形成支持集S={(sik,ei1k,ei2k,rik)i=1,2,…,N; k=1,2,…,K}. 類似地, 從選出N個類中的剩余數據中隨機選擇M個樣本構成查詢集Q={(qi,e1i,e2i,li)i=1,2,…,M}, 其中li是實例qi的標簽.
2 基于注意力機制的歸納網絡
模型主要由實例編碼模塊(instance encoder module)、 實例級別注意力模塊(instance-level module)、 歸納模塊(induction module)和分類器(classifier)四部分組成, 如圖1所示.
3 實驗及結果分析
3.1 基準模型
選擇以下模型作為一種基準模型與本文模型進行比較.
1) Meta Network[5]: 其為一種具有跨任務快速泛化的架構和訓練過程的模型, 基于SGD的傳統優化參數稱為慢權重, 損失梯度信息用于元信息以生成快速權重, 在元網絡中, 將慢速權重和快速權重相結合進行預測.
2) 圖神經網絡(GNN)[21]: 其為一種用于處理由節點和邊組成數據的網絡, 目標是學習每個節點的表示, 根據節點的特征、 連接到該節點的邊及其鄰居節點進行計算.
3) SNAIL[22]: 其為一種將元學習視為序列到序列問題的模型, 它結合了時間卷積和注意力機制, 對于元學習, 其可根據經驗快速預測具有相似分布的新樣本, 與傳統的循環神經網絡(RNN)(如LSTM或門控循環單元(GRU))相比, SNAIL的結構更容易訓練.
4) 原型網絡(prototypical network)[8]: 其利用卷積神經網絡(CNN)作為編碼器生成輸入的表示, 每個類別的表示是該類別中所有支持實例表示的平均值, 然后用距離函數對查詢實例進行分類.
5) Proto-HATT[11]: 其利用混合注意力改進了的原型網絡, 以處理小樣本關系分類嘈雜的訓練實例.
3.2 數據集及實驗設置
下面在一個新的小樣本關系分類數據集 FewRel[10]上評估本文模型在小樣本關系抽取任務中的性能. 在該數據集中, 先使用遠程監督將文本與知識庫對齊, 得到句子的關系類型, 然后通過人工標注過濾出標注正確的句子, 得到一個沒有噪聲的干凈數據集. 最終數據集有64個訓練關系、 16個驗證關系和20個測試關系, 每個關系包含700個實例. 數據集FewRel及其他關系抽取數據集的組成對比結果列于表1.
在實驗中, 使用N-way K-shot的4種小樣本學習設置, 進行兩組控制實驗評估本文模型: 將本文模型與其他對比模型進行比較, 并分析模型中模塊的影響.表2列出了本文模型的超參數設置. 利用GloVe得到的詞嵌入作為本文編碼器的輸入," 并將詞嵌入的維度設為50, 本文也利用了位置嵌入, 并且位置嵌入的維度設為5, 將句子的最大長度設為40. 最大相關距離是指每個單詞與實體的最大距離, 如果單詞在實體前面, 則相關距離為“-”, 如果單詞在實體后面則相關距離為“+”. 在編碼器中, 設置LSTM的隱藏層u大小為128, Dropout設為0.5, 動態路由算法中迭代次數的值為3. 本文使用SGD進行優化, 并設置初始學習率為0.1.
3.3 對比實驗
將本文模型與其他小樣本學習關系分類模型進行比較, 不同模型的準確度比較結果列于表3. Meta Network等模型最初用于計算機視覺領域, 通過改變它們的編碼器處理文本. Gao等[11]提出了具有混合注意力機制的模型Proto-HATT解決噪聲問題. 在這些距離度量學習方法中, 都專注于學習實例的表示并在樣本級別計算距離. 與這些模型相比, 本文模型利用基于自注意力機制的歸納網絡, 可根據不同的支持實例在每次訓練迭代期間調整耦合系數, 從而更自適應地關注類表示.
由表3可見, 通過在改進的歸納網絡上使用分層自注意力方案, 本文模型優于其他模型," 可以關注具有查詢相關信息的實例, 并自適應地調整類向量和查詢實例. 因為沒有可用的測試集, 所以表3中所有模型的結果都是在FewRel的訓練集上進行訓練, 并在驗證集上進行測試.
3.4 消融實驗
為進一步評估本文模型, 本文分析了模型各部分對性能的貢獻, 結果列于表4. 實驗去除了實例級別注意力機制, 并分別改變動態路由算法中的迭代次數值. 在5-way 5-shot和5-way 10-shot設置下進行實驗. 由表4可見, 3次迭代達到了最佳性能. 無論減少還是增加迭代次數, 精度都會降低. 這是因為當減少迭代次數時, 類向量不能很好地擬合支持實例. 如果迭代次數超過3次, 則類向量過擬合, 表明類向量無法擬合查詢實例. 其中, model-(ins_att)表示本文模型在去掉了實例級別注意力機制后所得結果. 表4中的結果還表明, 實例級別注意力機制可有效提高模型的性能. 實例級別注意力可以選擇與查詢實例更相關的支持集實例, 從而可以通過歸納模塊獲得具有查詢相關信息的類別表示.
圖2和圖3分別為在5-way 10-shot的設置下, 在添加實例級別注意力前后支持集實例的可視化圖像. 隨機選擇支持集和查詢集, 并獲得添加實例級別注意力前后的實例向量. 由圖2和圖3可見, 添加實例級別注意力后產生的類內實例向量得到了更好的聚合, 證明了本文模型的有效性.
綜上所述, 本文提出了一種基于注意力機制的歸納網絡, 用于小樣本關系抽取. 首先, 采用Bi-LSTM[KG*4]對實例進行編碼, 并在自注意力機制后生成所有實例的表示; 其次, 設計實例級注意力以選擇與查詢實例更相關的支持實例; 最后, 通過測量類向量與查詢實例嵌入之間的余弦距離對查詢實例的實體對進行分類. 實驗結果表明了本文模型的有效性和魯棒性.
參考文獻
[1]MOONEY R J, BUNESCU R C. Subsequence Kernels for Relation Extraction [J]. Advances in Neural Information Processing Systems, 2005, 18: 171-178.
[2]BUNESCU R C, MOONEY R J. A Shortest Path Dependency Kernel for Relation Extraction [C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. New York: ACM, 2005: 724-731.
[3]MINTZ M, BILLS S, SNOW R, et al. Distant Supervision for Relation Extraction without Labeled Data [C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. [S.l.]: The Association for Computational Linguistics, 2009: 1003-1011.
[4]SANTORO A, BARTUNOV S, BOTVINICK M, et al. Meta-Learning with Memory-Augmented Neural Networks [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2016: 1842-1850.
[5]MUNKHDALAI T, YU H. Meta Networks [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2017: 2554-2563.
[6]KOCH G, ZEMEL R, SALAKHUTDINOV R. Siamese Neural Networks for One-Shot Image Recognition [J]. ICML Deep Learning Workshop, 2015, 2: 1-8.
[7]VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching Networks for One Shot Learning [J]. Advances in Neural Information Processing Systems, 2016, 29: 3637-3645.
[8]SNELL J, SWERSKY K, ZEMEL R. Prototypical Networks for Few-Shot Learning [J]. Advances in Neural Information Processing Systems, 2017, 30: 4080-4090.
[9]SUNG F, YANG Y X, ZHANG L, et al. Learning to Compare: Relation Network for Few-Shot Learning [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Pisscataway, NJ: IEEE, 2018: 1199-1208.
[10]HAN X, ZHU H, YU P F, et al. Fewrel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation [EB/OL]. (2018-10-26)[2022-01-01]. https://arxiv.org/abs/1810.10147v2.
[11]GAO T Y, HAN X, LIU Z Y, et al. Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 6407-6414.
[12]YE Z X, LING Z H. Multi-level Matching and Aggregation Network for Few-Shot Relation Classification [EB/OL]. (2019-06-16)[2022-01-10]. https://arxiv.org/abs/1906.06678.
[13]GENG R Y, LI B H, LI Y B, et al. Induction Networks for Few-Shot Text Classification [EB/OL]. (2019-09-29)[2022-02-01]. https://arxiv.org/abs/1902.10482.
[14]SOCHER R, CHEN D, MANNING C D, et al. Reasoning with Neural Tensor Networks for Knowledge Base Completion [J]. Advances in Neural Information Processing Systems, 2013, 26: 926-934.
[15]VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need [J]. Advances in Neural Information Processing Systems, 2017, 30: 6000-6010.
[16]PENNINGTON J, SOCHER R, MANNING C D. Glove: Global Vectors for Word Representation [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). [S.l.]: The Association for Computational Linguistics, 2014: 1532-1543.
[17]ZENG D J, LIU K, CHEN Y B, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks [C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. [S.l.]: The Association for Computational Linguistics, 2015: 1753-1762.
[18]SABOUR S, FROSST N, HINTON G E. Dynamic Routing between Capsules [J]. Advances in Neural Information Processing Systems, 2017, 30: 3859-3869.
[19]GENG R Y, JIAN P, ZHANG Y X, et al. Implicit Discourse Relation Identification Based on Tree Structure Neural Network [C]//2017 International Conference on Asian Language Processing (IALP). Piscataway, NJ: IEEE, 2017: 334-337.
[20]WAN S X, LAN Y Y, GUO J F, et al. A Deep Architecture for Semantic Matching with Multiple Positional Sentence Representations [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2016: 2835-2841.
[21]GARCIA V, BRUNA J. Few-Shot Learning with Graph Neural Networks [EB/OL]. (2018-02-20)[2022-02-01]. https://arxiv.org/abs/1711.04043.
[22]MISHRA N, ROHANINEJAD M, CHEN X, et al. A Simple Neural Attentive Meta-Learner [EB/OL]. (2018-02-25)[2022-02-01]. https://arxiv.org/abs/1707.03141.
(責任編輯:" 韓 嘯)
收稿日期: 2022-03-03.
第一作者簡介: 季泊男(1997—), 女, 漢族, 碩士研究生, 從事自然語言處理的研究, E-mail: jibn19@ma
ils.jlu.edu.cn. 通信作者簡介: 張永剛(1975—), 男, 漢族, 博士, 教授, 博士生導師, 從事人工智能和約束求解與優化的研究, E-mail: zhangyg@jlu.edu.cn.
基金項目: 國家自然科學基金(批準號: 61373052; 61170314; 60773097)和吉林省青年科研基金(批準號: 20080107).