999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合多Prompt模板的零樣本關系抽取模型

2024-01-09 02:39:28許亮張春張寧田雪濤
計算機應用 2023年12期
關鍵詞:融合模型

許亮,張春,張寧,田雪濤

融合多Prompt模板的零樣本關系抽取模型

許亮*,張春,張寧,田雪濤

(北京交通大學 計算機與信息技術學院,北京 100044)(?通信作者電子郵箱20120467@bjtu.edu.cn)

Prompt范式被廣泛應用于零樣本的自然語言處理(NLP)任務中,但是現有基于Prompt范式的零樣本關系抽取(RE)模型存在答案空間映射難構造與模板選擇依賴人工的問題,無法取得較好的效果。針對這些問題,提出一種融合多Prompt模板的零樣本RE模型。首先,將零樣本RE任務定義為掩碼語言模型(MLM)任務,舍棄答案空間映射的構造,將模板輸出的詞與關系描述文本在詞向量空間中進行比較,以此判斷關系類別;其次,引入待抽取關系類別的描述文本的詞性作為特征,學習該特征與各個模板之間的權重;最后,利用該權重融合多個模板輸出的結果,以此減少人工選取的Prompt模板引起的性能損失。在FewRel(Few-shot Relation extraction dataset)和TACRED(Text Analysis Conference Relation Extraction Dataset)這兩個數據集上的實驗結果顯示,與目前最優的模型RelationPrompt相比,所提模型在不同數據資源設置下,F1值分別提升了1.48~19.84個百分點和15.27~15.75個百分點??梢?,所提模型在零樣本RE任務上取得了顯著的效果提升。

關系抽取;信息抽??;零樣本學習;Prompt范式;預訓練語言模型

0 引言

隨著互聯網技術的迅速發展,文本數據規模呈指數級增長。為了更好地使用這些數據,學術界和工業界涌現了很多新興的研究和應用。關系抽取(Relation Exaction, RE)是自然語言處理(Natural Language Processing, NLP)領域的一項重要的基礎工作,旨在從非結構化文本數據中提取實體對之間的關系,支撐了包括知識圖譜構建、智能問答和閱讀理解等多個下游任務[1]。目前,許多有效新穎的RE方法被提出,例如融合長短記憶(Long Short-Term Memory, LSTM)[2]的RE方法PFN(Partition Filter Network)[3]、基于令牌(token)對鏈接預測的RE模型TPLinker(Token Pair Linker)[4]、結合帶噪觀測模型與深度神經網絡的基于帶噪觀測的遠監督神經網絡RE模型[5]、結合卷積神經網絡(Convolutional Neural Network, CNN)與預訓練語言模型的全詞掩模的雙向變形編碼器CNN(Bidirectional Encoder Representation from Transformers and CNN based on whole word mask,BERT(wwm)-CNN)[6]等。這些方法擁有非常好的性能,但是在訓練過程中通常需要充足的標注數據;同時,它們只能識別在訓練過程中已知的關系類別。然而在現實世界中無法為所有的關系都收集好充足的訓練樣本,為了解決這一問題,零樣本學習(Zero-Shot Learning, ZSL)應運而生。

Lampert等[7]提出了ZSL的概念,核心思想是希望計算機模擬人類的推理方式,進而識別從未見過的新事物。在一般的有監督學習任務中,測試階段的類別必須存在于訓練階段,即所有類別可見;而在ZSL的任務中,訓練和測試階段中分別為可見類和不可見類,通過訓練階段的學習,需要識別測試階段的不可見類的樣本。盡管ZSL應用潛力巨大,但目前這一具有挑戰性的任務研究較少。為了使模型能夠預測不可見類,既有的研究聚焦任務的建模過程,通常的方法是將零樣本RE任務設計成不同的任務形式,例如:Levy等[8]將任務設計成問答的形式;Obamuyide等[9]將任務設計成文本蘊含問題。但是這種方法無法形成有效的關系語義表示空間,且任務之間存在較大差距,模型性能通常較差。近幾年,預訓練語言模型緩解了文本語義空間表示不充分的問題,NLP領域中ZSL任務的研究重心也逐漸轉移為更好地使用預訓練語言模型。

以基于Transformer的雙向編碼器技術BERT(Bidirectional Encoder Representations from Transformer)[10]為代表的預訓練語言模型使NLP領域進入了一個新的發展階段,NLP任務開始采用在下游任務中微調預訓練語言模型的范式。在該范式中,由于預訓練語言模型和下游任務的訓練目標不同,訓練過程存在一定的不穩定性。Prompt是一種通過給預訓練模型提示的方式激發模型處理下游任務所需隱藏知識的技術。通過將原始任務轉換成預訓練模型的訓練任務減小預訓練階段和下游任務階段這兩個階段的差距,以此在特定任務上部署預訓練語言模型。Razniewski等[11]通過完形填空的形式測試預訓練語言模型中蘊藏的知識,證明了預訓練模型可以有效地保存事實知識。類似地,Scao等[12]證明了Prompt范式在低資源環境中可以有效地提高樣本使用效率。但是,目前零樣本環境下Prompt模板的構建大部分為手動[13-14],費時費力。Zhao等[15]表明Prompt模板的選取是反直覺的。此外,Hu等[16]還提出手工設計和梯度下降得到的答案映射會帶來覆蓋范圍不全導致的高偏差和高方差的問題。綜上,傳統Prompt范式高效應用在零樣本RE任務上存在Prompt模板依賴手動選擇和難構造答案映射這兩個問題。

針對上述問題,本文提出了一種基于多Prompt模板的零樣本RE模型。該模型把零樣本RE任務轉化為關系的表示生成任務,直接舍棄傳統的答案空間映射,對齊詞向量空間和關系的表示空間。通過比較預訓練語言模型輸出的[MASK]詞向量和關系描述文本的詞向量的相似度判斷所屬的關系類別,從根本上解決不可見類的映射構造困難的問題。此外,針對不同模板生成的表示空間差異較大、模板選擇依賴人工選擇的問題,本文提出了一種多Prompt模板融合方法,根據關系描述文本的詞性賦予不同Prompt模板的權重,由這些權重融合多Prompt模板,以此提高模型RE能力。最后,在TACRED(Text Analysis Conference Relation Extraction Dataset)[17]和FewRel(Few-shot Relation extraction dataset)[18]這兩個數據集上進行驗證,實驗結果表明了本文模型的有效性。

1 相關工作

1.1 零樣本RE

ZSL的目標是在訓練集中可見類和測試集中不可見類的特征空間中建立一種可以連接彼此的中間語義。Levy等[8]首次闡明了ZSL在RE上的概念,將目標任務建模為問答問題,通過讓模型回答預定義的問題模板對不可見類進行歸類;然而,該方法對于新出現的類別需要手動創建額外的問題,即在測試時需要增加新出現的類別實例,偏離了ZSL的測試集不可見的前提。Obamuyide等[9]將目標任務建模為文本蘊涵任務,由于關系的描述通常是公開的,通過判斷輸入的句子是否蘊含對應的關系描述識別關系類別,契合ZSL的任務定義;然而,該模型無法建立一個有效的語義表示空間,難以實現關系之間的比較。隨著BERT[10]等預訓練語言模型的出現,文本的語義表示能力得到進一步發展。Chen等[19]分別對輸入文本和關系描述文本使用不同的投影函數,將二者轉換到同一語義空間,并基于此空間下的表示進行關系分類;該方法較好地建立了語義空間且實現了類間比較,但由于測試集不可見,該方法的投影函數對測試集中的關系類別的映射能力有限。

1.2 Prompt范式

Prompt范式的思想是將下游任務的輸入輸出形式轉換為預訓練任務中的形式,即掩碼語言模型(Masked Language Model, MLM)等任務,以降低模型與任務之間的差異。早在GPT-1(Generative Pre-trained Transformer 1)[20]中就開始在情感分析等任務上探索Prompt的應用。隨著GPT-3[21]的Prompt方法成果顯著,越來越多研究[22-24]嘗試將Prompt范式引入較小的語言模型。Prompt模板可以將輸入的普通文本轉化為滿足預訓練任務輸入的字符序列,例如在句子中加入[MASK]令牌([MASK]令牌表示BERT待預測位置的占位符,沒有實際含義)使輸入滿足MLM任務需要的數據形式。如圖1所示,根據預訓練語言模型和Prompt模板的使用方式,Prompt范式的訓練策略可以概括為4種不同情況。除了訓練策略的多變,Prompt范式中模板的構造與選擇也是主要的研究方向。Liu等[25]總結了相關研究。靈活的Prompt范式在信息抽取領域發展迅速,然而它在RE任務上的相關研究較少,特別是ZSL的特殊情況。

圖1 Prompt的不同使用形式

2 基于多Prompt模板的零樣本RE模型

2.1 問題定義與解決方案

2.2 基于單Prompt模板的RE模型

零樣本RE的核心目的是鏈接句子、主體和客體與對應的關系描述。由于測試集中的關系在訓練集中不存在,因此通常需要大量的數據或者復雜的模型獲得描述文本的表征能力;然而,零樣本的任務特性又無法提供充足的數據以有效支持模型訓練。針對上述問題,直接使用語言模型的詞向量空間能確保模型在有限的訓練樣本下建立較好的語義表征。本文利用Prompt范式生成關系的表示,以實現句子、主體和客體與對應的關系描述之間的鏈接。

2.2.1Prompt模板設計和MLM預測

圖2 基于Prompt范式的RE模型

2.2.2關系比較

值得注意的是,在零樣本RE任務中,關系對應的描述就是token序列,而完形填空生成的詞可以直接與關系描述在詞向量空間中進行比較。例如,在將關系類別“P177”中的句子實例以Prompt方式輸入預訓練語言模型中時,“[CLS]…Mississippi River bridge to replace the deteriorating Cape Girardeau Bridge. [SEP]The cape Girardeau bridge [MASK] the Mississippi River.[SEP]”模型輸出填充被掩蓋位置的詞是“crosses”,這與標簽關系類別的名稱完全重合,說明直接使用關系描述文本的詞向量空間也可以較好地充當類表示空間。綜上所述,為了盡可能減少RE下游任務和預訓練語言模型之間的差異,本文舍棄構造答案空間映射,直接將生成的詞向量作為關系表示,并將這個表示與關系描述經過預訓練語言模型后生成的詞向量進行比較。如式(4)所示,使用歐氏距離對MLM生成的詞向量與關系描述文本的詞向量進行比較:

2.3 基于詞性的多Prompt模板融合方法

實驗發現,將相同的實例輸入不同的Prompt模板后,模型的輸出存在差異,這種差異一般體現在模型對不同關系的抽取能力。Prompt模板的選擇對模型的表現起著非常關鍵的作用;然而,現有的自動模板選取算法需要一定的數據量,不適合零樣本任務,手動選取模板費時費力。為此,本文提出一種適合零樣本任務的多Prompt模板融合方法。如圖3所示,通過引入可見類與不可見類通用的詞性信息融合多個模板的輸出結果。

圖3 基于詞性的多Prompt模板融合方法

式(5)表示不同模板對不同關系類別的權重:

表1 NLTK庫中部分詞性及其縮寫的含義

3 實驗

3.1 數據集

FewRel數據集[18]包含80個關系,其中65個關系用于模型訓練,15個關系用于模型測試。每種關系具有700個遠程監督生成的樣本實例,這些實例中包含主體和客體構成的實體對。此外,每個關系的文本描述由關系名稱和關系描述構成。TACRED數據集[17]是一個擁有106 264個實例的大規模RE數據集,共有42個關系類別。該數據集中的數據樣本呈長尾分布,關系類別的樣本實例間差距達到10倍以上。該數據集缺少關系的文本描述,本文在實驗中使用了TAC-KBP(Text Analysis Conference Knowledge Base Population)關系本體指南中對這些關系的描述。

3.2 實驗設置

本文實驗采用Transformers庫[27],使用BERT-base和BERT-large預訓練語言模型進行模型實現。預訓練語言模型的token表示維度為768或1 024。FewRel和TACRED數據集中句子最大長度分別為110和250。模型訓練初始學習率為2×10-5,batch size大小為2,選用AdamW[28]作為優化器。實驗環境為RTX3090Ti顯卡。評估指標選取精確率(Precision, Prec)、召回率(Recall, Rec)和宏平均(Macro-F1, F1)。

3.3 基線模型

3.3.1有監督的RE模型

監督學習范式構建的RE模型通過不同方式從句子中提取特征進行預測,包括Att-Bi-LSTM(Attention-based Bidirectional LSTM)[29]和R-BERT(Relational model with Bidirectional Encoder Representations from Transformer)[30]。前者結合注意力機制和雙向長短記憶(Bi-directional LSTM, Bi-LSTM),是有監督RE中非常經典的算法,可以有效地在句子中抽取對應的關系與實體,本文將它應用到零樣本RE任務中,并作為基線進行比較;后者是針對零樣本RE任務優化后的有監督RE模型,它通過將模型最后的Softmax層轉換為具有tanh激活函數的全連接層,并利用最近鄰搜索找到關系描述的向量的方式,生成關系類別的預測。

3.3.2文本蘊含模型

將零樣本RE任務轉換為文本蘊涵任務,通過判斷句子和關系描述是否有語義蘊含的關系決定所屬關系類別。ESIM(Enhanced long Short-term memory Inference Model)[31]是一種使用Bi-LSTM 對輸入序列進行編碼并評估蘊含關系的模型。

3.3.3關系的表示生成模型

利用模型生成代表關系的句子表示,將句子的表示和類的表示進行距離比較,進而選出最合適的類別。ZS-BERT(Zero-Shot BERT)[19]通過學習投影函數,將句子與詞向量空間中的關系對齊,從而能夠預測在訓練階段未見的關系類。

3.3.4基于Prompt的模型

利用Prompt激活預訓練語言模型中的內部知識進行零樣本RE任務。RelationPromt(Relation label Prompt)[32]是基于GPT-2的文本生成模型與BART(Bidirectional and Auto-Regressive Transformer)[33]的RE模型組合而成的,前者結合文本生成模型和Prompt,生成不可見的關系類的訓練樣本;后者利用這些訓練樣本對抽取模型進行有監督的訓練。通過這種方式抽取未見的關系類。MFP(zero-shot relation extraction Method Fusing multiple templates based on Prompt)[34]是使用梯度回歸讓模型自己學習模板的詞性特征向量的方法。該方法在通過預訓練語言模型得到詞向量后,構建了一個新的映射輸出關系表示,并且模型由梯度回歸自動學習詞性的特征表示。

3.4 實驗結果與分析

3.4.1性能對比實驗

表2展示了在FewRel和TACRED數據集上的性能對比實驗結果,其中為測試集的不可見類別種類數,是訓練的數據量。本文在不同參數規模的BERT上進行了實驗。實驗結果直觀地展示了參數量越大的預訓練語言模型的性能表現越好。此外,與目前最優的模型RelationPrompt相比,本文模型在兩個數據集的不同訓練數據量設置中分別提高了1.48~19.84個百分點和15.27~15.75個百分點,說明了本文模型的有效性。一般地,數據量越充足,模型的效果越出色。但是從表2中可以看出,本文模型在低資源的數據量下也可以有很好的效果。

事實上,根據數據集的不同,本文模型在低數據資源的情況下甚至與其他對比模型在充足訓練數據(=all)下的效果更接近。具體地,在TACRED數據集中,本文模型在=100條件下相較于其他對比模型,F1指標至少提升了15.27個百分點;同時,在該資源條件下與其他對比模型在充足數據的條件下F1指標有只有3.30個百分點的性能差異。以上實驗結果驗證了Prompt范式確實可以提高數據的利用效率。RelationPrompt[32]通過將Prompt與文本生成模型相融合生成零樣本數據資源的方式也有不錯的性能表現;但是由于它的預訓練模型GPT-2與BART都是通過更多參數與更多訓練數據得到的,兩個預訓練模型的差異會造成較大的誤差傳遞。在TACRED中20的實驗設置下,RelationPrompt會出現無法生成需要的訓練數據的現象,從而無法訓練需要的不可見RE模型。值得注意的是,MFP通過梯度回歸學習關系描述文本的詞性特征的方法增大了需要學習的參數量,卻導致了模型表現的下降,特別是訓練樣本數減少時,表現更加明顯。這是因為額外的參數學習需要新的數據保證模型的表現,本質上,Prompt范式的使用就是為了最大限度不引入新的參數變量。本文使用了語言學的統計學的特征,一定程度上減少了模型的參數量,使模型更加適合零樣本RE任務。

表2 不同數據集和不同不可見關系種類數在不同訓練數據量下的性能對比 單位: %

本文對齊詞向量空間和語義關系的表示空間,緩解了上述MFP存在的問題。值得注意的是,本文模型召回率較高,精確度卻較低。這說明了本文模型對某些類特別敏感,可以很好識別該目標類,但同時也會導致將其他不屬于該類的實例識別成該類的問題。文獻[35-37]中提到預訓練語言模型有表示退化問題,模型更傾向輸出高頻詞,導致模型的詞嵌入空間呈圓錐分布。這種情況是普遍的,同樣也是進一步研究的方向。

3.4.2消融實驗

如表3所示,在TACRED和FewRel數據集上進行消融實驗以探究模型各個部分的影響。為了更關注模型的整體效果,消融實驗在充足的訓練數據(all)和使用BERT-base的條件下進行。首先探究各個模板對模型的影響。本文通過手工的方式設置了36個Prompt模板作為模板庫,表3隨機展示了5個不同的模板在單模板情況下的模型性能??梢钥吹皆诓煌0宓那闆r下,雖然模型性能不同,但是同條件下與表2中除RelationPrompt和MFP的其他基線模型性能相比,FewRel和TACRED數據集中F1指標分別至少提升了14.90個百分點和5.94個百分點。這說明了將[MASK]位置的詞向量空間與類表示空間對齊的方法是有效的。

圖4為不同模板中預測的[MASK]位置的詞性的統計(詞性縮寫含義見表1),其中Prompt模板是表3中的5個模板,軸的縮寫的解釋說明如表1所示,具體信息可以參考NLTK庫中的函數說明??梢钥闯鲈诓煌0逯?,預訓練語言模型預測的[MASK]位置的單詞的詞性有著特殊的規律。例如,在其他條件相同的情況下,模板4預測的詞的詞性集中在NN;類似地,模板1在預測[MASK]位置單詞的任務中,輸出了更多的VBN詞性的詞匯。這說明了Prompt模板與輸出單詞的詞性是相關的。不同模板的效果有差異,但是差異的變化范圍有限。實驗結果表明,不能通過簡單地修改手工設計的模板實現效果的巨大提升。

為了深入地探究基于詞性的融合方法的優勢,研究還比較了平均融合、加權融合和基于詞性梯度回歸的融合方法。平均融合是將多模板的參數進行均值處理,加權融合是利用梯度回歸讓模型自己學習各個模板的權重。

從實驗結果看,盡管在TACRED數據集中,不同的融合方法都比單獨使用一種模板模型的效果好,但是在FewRel數據集中,卻出現了模型效果下降的情況。這說明了多模板融合的方法會對不同數據集產生不同的影響,但是這種影響是不確定的,無法穩定地提高效果。此時,詞性作為橋梁的作用就得到了體現,相較于其他融合方法,即使數據集不同,基于詞性的融合方法都明顯優于其他方法。無論是單Prompt模板RE方法還是將多模板通過其他不同的方法融合的方法,效果都低于基于詞性的多Prompt模板融合方法。

表3TACRED和FewRel數據集上的消融實驗結果 單位: %

Tab.3 Ablation experimental results on TACRED and FewRel datasets unit: %

圖4 不同模板預測的詞的詞性部分統計

3.4.3交叉域研究實驗

為了深入研究模型的泛化性,本文還進行了交叉域的研究。本文將FewRel和TACRED數據集的訓練集與測試集進行了調換,用FewRel訓練集訓練的模型預測TACRED中的測試集和用TACRED訓練集訓練的模型預測FewRel的測試集,并將得到的結果與其他模型進行了比較,實驗結果如表4所示。顯然,本文模型的性能表現出色。在對比原訓練集時,RelationPrompt在兩個數據集上分別比原有的F1指標下降了28.36個百分點和12.5個百分點;而在相同條件下,本文模型的F1指標只下降了5.84個百分點和7.58個百分點,這說明了本文模型優秀的魯棒性。

3.4.4模板個數對模型性能的影響

本節研究模板數對多Prompt模板RE模型的實驗效果的影響。從模板庫中隨機抽取1~5個不同數的模板,并對基于詞性的多Prompt模板融合方法在不同模板數上進行性能評估。考慮到不同模板對實驗也有影響,因此本節實驗中采用重復5次實驗取平均值的實驗設置。圖5分別為在兩個數據集中的實驗結果。基于詞性的多Prompt模板融合方法需要一定數量的模板才能發揮較好的效果;但是它對模板數的需求有限,當模板數超過一定值時,模型的效果開始下降;同時,針對不同的數據集的最優模板數參數并不相同。值得注意的是,無論Prompt模板數為多少,本文模型的效果始終超過單Prompt模板,這說明基于詞性的多Prompt模板融合方法是穩定有效的。

表4交叉域實驗結果 單位: %

Tab.4 Results of cross domain experiments unit: %

圖5 不同模板數的性能比較

4 結語

在RE領域中,存在著無法為全部關系標注足量訓練數據的問題,因此ZSL在該任務上具有較大的研究價值?,F有基于Prompt范式的RE算法由于答案空間映射問題難構造與自動構建模板有一定的數據資源需求的問題,無法較好地應用在零樣本RE任務。本文提出了一種融合多Prompt模板的零樣本RE模型,該模型通過對齊類表示空間與詞向量空間和利用詞性融合多個Prompt模板解決上述問題,將Prompt范式引入零樣本RE任務。最后,在FewRel和TACRED數據集進行了多組實驗,驗證了本文模型的具有優秀的性能表現。目前Prompt在零樣本RE任務中還是具體表現為離散的單詞,未來將進一步研究如何自動化地構建連續且能夠高效激活預訓練語言模型的Prompt,進一步提高零樣本RE的性能。

[1] ZHANG F, YUAN N, LIAN D, et al. Collaborative knowledge base embedding for recommender systems [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York: ACM, 2016: 353-362.

[2] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[3] YAN Z, ZHANG C, FU J, et al. A partition filter network for joint entity and relation extraction [C]// Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Stroudsburg, PA: Association for Computational Linguistics, 2021: 185-197.

[4] WANG Y, YU B, ZHANG Y, et al. TPLinker: single-stage joint extraction of entities and relations through token pair linking [C]//Proceedings of the 28th International Conference on Computational Linguistics. Stroudsburg, PA: International Committee on Computational Linguistics, 2020: 1572-1582.

[5] 葉育鑫,薛環,王璐,等. 基于帶噪觀測的遠監督神經網絡關系抽?。跩].軟件學報,2020,31(4):1025-1038.(YE Y X,XUE H,WANG L, et al. Distant supervision neural network relation extraction base on noisy observation[J]. Journal of Software, 2020, 31(4): 1025-1038.)

[6] 武小平,張強,趙芳,等. 基于BERT的心血管醫療指南實體關系抽取方法[J]. 計算機應用, 2021, 41(1): 145-149.(WU X P, ZHANG Q, ZHAO F, et al. Entity relation extraction method for guidelines of cardiovascular disease based on bidirectional encoder representation from transformers [J]. Journal of Computer Applications, 2021, 41(1):145-149.)

[7] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer [C]// Proceedings of the 2009 Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 951-958.

[8] LEVY O, SEO M, CHOI E, et al. Zero-shot relation extraction via reading comprehension [C]// Proceedings of the 21st Conference on Computational Natural Language Learning, Stroudsburg, PA: Association for Computational Linguistics, 2017: 333-342.

[9] OBAMUYIDE A, VLACHOS A. Zero-shot relation classification as textual entailment [C]// Proceedings of the First Workshop on Fact Extraction and Verification, Stroudsburg, PA: Association for Computational Linguistics, 2018: 72-78.

[10] DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.

[11] RAZNIEWSKI S, YATES A, KASSNER N, et al. Language models as or for knowledge bases [EB/OL]. (2021-10-10)[2022-07-14]. https://arxiv.org/pdf/2110.04888.pdf.

[12] SCAO T L, RUSH A M. How many data points is a prompt worth?[EB/OL]. (2021-03-15)[2022-07-14]. https://arxiv.org/pdf/2103.08493.pdf.

[13] SAINZ O, DE LACALLE O L, LABAKA G, et al. Label verbalization and entailment for effective zero-and few-shot relation extraction [EB/OL]. (2021-09-08)[2022-07-14]. https://arxiv.org/pdf/2109.03659.pdf.

[14] LIU X, ZHENG Y, DU Z, et al. GPT understands, too [EB/OL]. (2021-03-18)[2022-07-14]. https://arxiv.org/pdf/2103.10385.pdf.

[15] ZHAO J, HU Y, XU N, et al. An exploration of prompt-based zero-shot relation extraction method [C]// Proceedings of the 21st Chinese National Conference on Computational Linguistic. Beijing: Chinese Information Processing Society of China, 2022: 786-797.

[16] HU S, DING N, WANG H, et al. Knowledgeable prompt-tuning: incorporating knowledge into prompt verbalizer for text classification [EB/OL]. (2021-08-04)[2022-07-14]. https://arxiv.org/pdf/2108.02035.pdf.

[17] ZHANG Y, ZHONG V, CHEN D, et al. Position-aware attention and supervised data improve slot filling [C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 35-45.

[18] HAN X, ZHU H, YU P, et al. FewRel: a large-scale supervised few-shot relation classification dataset with state-of-the-art evaluation [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 4803-4809.

[19] CHEN C-Y, LI C-T. ZS-BERT: towards zero-shot relation extraction with attribute representation learning [C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2021: 3470-3479.

[20] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training [EB/OL]. [2022-07-14]. https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.

[21] BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Red Hook:Curran Associates Inc., 2020: 1877-1901.

[22] SCHICK T, SCHüTZE H. Exploiting cloze questions for few shot text classification and natural language inference [C]// Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2021: 255-269.

[23] SCHICK T, SCHüTZE H. It’s not just size that matters: small language models are also few-shot learners [C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Stroudsburg, PA: Association for Computational Linguistics, 2021: 2339-2352.

[24] GAO T, FISCH A, CHEN D. Making pre-trained language models better few-shot learners [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2021: 3816-3830.

[25] LIU P, YUAN W, FU J, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing [EB/OL]. (2021-07-28)[2022-07-14]. https://arxiv.org/pdf/2107.13586.pdf.

[26] WAGNER W .Natural language processing with Python: analyzing text with the natural language Toolkit [J]. Language Resources and Evaluation, 2010, 44(4):421-424.

[27] LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization [EB/OL]. (2019-01-04)[2022-07-14]. https://arxiv.org/pdf/1711.05101.pdf.

[28] WOLF T, DEBUT L, SANH V, et al. Transformers: state-of-the-art natural language processing [C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2020: 38-45.

[29] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2016: 207-212.

[30] WU S, HE Y. Enriching pretrained language model with entity information for relation classification [C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 2361-2364.

[31] CHEN Q, ZHU X, LING Z, et al. Enhanced LSTM for natural language inference [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 1657-1668.

[32] CHIA Y K, BING L, PORIA S, et al. RelationPrompt: leveraging prompts to generate synthetic data for zero-shot relation triplet extraction [EB/OL]. (2022-03-17)[2022-07-14]. https://arxiv.org/pdf/2203.09101.pdf.

[33] LEWIS M, LIU Y, GOYAL N, et al. BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension [EB/OL]. (2019-10-29)[2022-07-14]. https://arxiv.org/pdf/1910.13461.pdf.

[34] 北京交通大學. 一種基于Prompt多模板融合的零樣本關系抽取方法: CN202211082703.4[P]. 2023-02-03.(Beijing Jiaotong University. A zero-shot relation extraction method fusing multiple templates based on Prompt: CN202211082703.4[P]. 2023-02-03.)

[35] WANG L, HUANG J, HUANG K, et al. Improving neural language generation with spectrum control [EB/OL]. (2022-03-11)[2022-07-14]. https://openreview.net/attachment?id=ByxY8CNtvr&name=original_pdf.

[36] GAO J, HE D, TAN X, et al. Representation degeneration problem in training natural language generation models [EB/OL]. (2019-07-28)[2022-07-14]. https://arxiv.org/pdf/1907.12009.pdf.

[37] LI B, ZHOU H, HE J, et al. On the sentence embeddings from pre-trained language models [EB/OL]. (2020-11-02)[2022-07-14]. https://arxiv.org/pdf/2011.05864.pdf.

Zero-shot relation extraction model via multi-template fusion in Prompt

XU Liang*, ZHANG Chun, ZHANG Ning, TIAN Xuetao

(,,100044,)

Prompt paradigm is widely used to zero-shot Natural Language Processing (NLP) tasks. However, the existing zero-shot Relation Extraction (RE) model based on Prompt paradigm suffers from the difficulty of constructing answer space mappings and dependence on manual template selection, which leads to suboptimal performance. To address these issues, a zero-shot RE model via multi-template fusion in Prompt was proposed. Firstly, the zero-shot RE task was defined as the Masked Language Model (MLM) task, where the construction of answer space mapping was abandoned. Instead, the words output by the template were compared with the relation description text in the word embedding space to determine the relation class. Then, the part of speech of the relation description text was introduced as a feature, and the weight between this feature and each template was learned. Finally, this weight was utilized to fuse the results output by multiple templates, thereby reducing the performance loss caused by the manual selection of Prompt templates. Experimental results on FewRel (Few-shot Relation extraction dataset) and TACRED (Text Analysis Conference Relation Extraction Dataset) show that, the proposed model significantly outperforms the current state-of-the-art model, RelationPrompt, in terms of F1 score under different data resource settings, with an increase of 1.48 to 19.84 percentage points and 15.27 to 15.75 percentage points, respectively. These results convincingly demonstrate the effectiveness of the proposed model for zero-shot RE tasks.

Relation Extraction (RE); information extraction; Zero-Shot Learning (ZSL); Prompt paradigm; pre-trained language model

This work is partially supported by the National Key Research and Development Program of China (2019YFB1405202).

XU Liang, born in 1997, M. S. candidate. His research interests include natural language processing.

ZHANG Chun,born in 1966, M. S., research fellow. Her research interests include railway information, intelligent information processing.

ZHANG Ning,born in 1958, Ph. D., research fellow. His research interests include railway information, intelligent information processing, embedded system.

TIAN Xuetao,born in 1995, Ph. D. His research interests include natural language processing.

TP391.1

A

1001-9081(2023)12-3668-08

10.11772/j.issn.1001-9081.2022121869

2022?12?22;

2023?03?27;

2023?03?28。

國家重點研發計劃項目(2019YFB1405202)。

許亮(1997—),男,安徽蕪湖人,碩士研究生,主要研究方向:自然語言處理;張春(1966—),女(滿族),北京人,研究員,博士生導師,碩士,主要研究方向:鐵路信息、智能信息處理;張寧(1958—),男,北京人,研究員,博士生導師,博士,主要研究方向:鐵路信息、智能信息處理、嵌入式系統;田雪濤(1995—),男(蒙古族),內蒙古通遼人,博士,主要研究方向:自然語言處理。

猜你喜歡
融合模型
一半模型
一次函數“四融合”
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
寬窄融合便攜箱IPFS500
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久久亚洲色| 欧美va亚洲va香蕉在线| 欧美不卡在线视频| 五月婷婷亚洲综合| 色国产视频| 欧美在线黄| 欧美区在线播放| 99热亚洲精品6码| 国产H片无码不卡在线视频| 亚洲天堂在线免费| 免费99精品国产自在现线| 亚洲欧美另类色图| 免费高清自慰一区二区三区| 亚洲成人黄色在线观看| 99在线免费播放| 在线人成精品免费视频| 99热这里只有精品2| 国产99在线观看| 黄片在线永久| 国产一区二区精品高清在线观看 | 国产一级裸网站| 国产嫖妓91东北老熟女久久一| 2020久久国产综合精品swag| 日韩精品一区二区三区免费在线观看| 亚洲另类国产欧美一区二区| 国产在线观看第二页| 亚洲中文在线看视频一区| 亚洲制服丝袜第一页| 亚洲精品无码高潮喷水A| 91口爆吞精国产对白第三集| 国产精品尤物在线| 欧美精品亚洲精品日韩专区va| 欧美笫一页| 奇米影视狠狠精品7777| 99尹人香蕉国产免费天天拍| 强奷白丝美女在线观看| 国产日韩欧美黄色片免费观看| 噜噜噜久久| 国产一区二区三区日韩精品| 伊人丁香五月天久久综合| 精品久久人人爽人人玩人人妻| 国产精品3p视频| 精品国产www| 欧美成人午夜影院| 精品国产成人三级在线观看| 欧美不卡二区| 免费Aⅴ片在线观看蜜芽Tⅴ | 麻豆精品在线| 毛片大全免费观看| 欧美在线伊人| 国产成人三级| 久久五月视频| 91蝌蚪视频在线观看| 亚洲国产成人麻豆精品| 国产天天射| 日韩黄色大片免费看| 久久久久亚洲精品成人网 | 久久www视频| 99精品在线视频观看| 国产免费一级精品视频| 欧洲高清无码在线| 久久黄色毛片| 无遮挡国产高潮视频免费观看| 国产网站免费观看| 欧美国产菊爆免费观看 | 亚洲国模精品一区| 毛片在线播放a| 国产91精品调教在线播放| 国产靠逼视频| 日韩毛片在线播放| 麻豆国产原创视频在线播放| 青青青国产视频| 国产乱子精品一区二区在线观看| 国产一区二区三区免费| 天天爽免费视频| 五月天久久综合国产一区二区| 波多野结衣久久高清免费| 天堂网亚洲系列亚洲系列| 国产美女叼嘿视频免费看| 久久精品一卡日本电影| 99热国产在线精品99| 日本91在线|