999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用提示調優實現兩階段模型復用的關系實體抽取方法

2022-12-31 00:00:00蘇杭胡亞豪謝藝菲潘志松
計算機應用研究 2022年12期

收稿日期:2022-05-20;修回日期:2022-07-18" 基金項目:國家自然科學基金資助項目

作者簡介:蘇杭(1992-),男,山東菏澤人,碩士研究生,主要研究方向為自然語言處理;胡亞豪(1995-),男,江蘇蘇州人,博士研究生,主要研究方向為自然語言處理;謝藝菲(1992-),女,江西南昌人,博士研究生,主要研究方向為自然語言處理;潘志松(1973-),男(通信作者),江蘇南京人,教授,博導,博士,主要研究方向為模式識別(panzhisong@aeu.edu.cn).

摘 要:

關系實體抽取旨在從非結構化文本中識別命名實體并抽取實體間語義關系,現有的兩階段關系實體抽取方法存在模型無法復用、調優參數量大等問題,不便于工程實現。利用提示調優對已有方法進行改進,提出兩階段模型復用的關系實體抽取方法REPT(a model-reused method of two-staged relations and entities extraction with prompt tuning)。首先微調預訓練語言模型進行關系分類,而后利用提示調優并復用前一階段微調的預訓練語言模型抽取實體。實驗結果表明,該方法在調優參數只占基線模型約50%的情況下,達到與SOTA模型相媲美的性能。

關鍵詞:關系實體抽取;模型復用;提示調優;預訓練語言模型

中圖分類號:TP391"" 文獻標志碼:A""" 文章編號:1001-3695(2022)12-011-3598-07

doi:" 10.19734/j.issn.1001-3695.2022.05.0245

Model-reused method of two-stage relations and entities extraction with prompt tuning

Su Hang, Hu Yahao, Xie Yifei, Pan Zhisong

(College of Command amp; Control Engineering, Army Engineering University of PLA, Nanjing 210007, China)

Abstract:

Extraction of entities and relations aims to identify named entities and extract semantic relationships between them from unstructured text. The existing two-stage relations and entities extraction methods are difficult to reuse models in different stages and need to tune large number of parameters which are not applicable to actual application scenarios. This paper used prompt tuning to improve existing method and proposed REPT(a model-reused method of two-staged relations and entities extraction with prompt tuning). The method used fine-tuned pretrained language model for relational classification and then extracted entities by prompt tuning based on pretrained language model fine-tuned in the first stage. Experimental results show that REPT can reuse the pretrained language model and achieve comparable performance with the SOTA model, while the tuning parameters are only 50% of the baseline models.

Key words:extraction of entities and relations; model-reused; prompt tuning; pretrained language model

0 引言

關系實體抽取是信息抽取的一項基礎任務,該任務是從給定的非結構化文本中提取結構化的事實知識,通常以“頭實體、關系、尾實體(h, r, t)”或“主體、關系、客體(s, r, o)”等形式表示,是自然語言處理(natural language processing,NLP)領域中一項重要任務,對知識圖譜構建及其下游應用起著支撐作用。

關系實體抽取通常被定義為有監督問題,需要利用大量高標準有標注的數據進行模型訓練。在實際應用中,通常采取遠程監督[1]方法自動獲取訓練所需數據,其核心思想是利用遠程知識庫中已有的關系三元組對原始語料進行自動標注,從而獲得大量有標簽的訓練數據。 例如,給定一個知識庫中已有的三元組〈s, r, o〉和原始語料。如果原始語料中的某個句子同時包含“s”和“o”,則該句子為有效樣本,并標注關系“r”,否則將句子標記為NA (not available) 。雖然這種方法節省了手工標注的人工成本,但會引入大量噪聲數據。如圖1所示,其中,TP(true positive)為正確標注,FP(1 positive)為錯誤標注,NA(R-FN)為未標注;E-PL(entity partial label)是指句子中實體僅部分匹配,但標注了關系;E-FN(entity 1 positive)表示由于知識庫中缺少實體信息,導致特定關系下的實體未標注。

對于標注錯誤(FP)問題,可通過人工校驗對錯誤標注進行修改,也有研究者提出了使用分段卷積(PCNN)[2]或引入注意力機制[3]等解決方法緩解錯誤標注帶來的影響。然而,人工構建的知識庫難以覆蓋領域內的所有關系和實體,標注缺失(FN)問題難以避免。標注缺失問題導致模型無法全面地學習到關系或實體表征,影響其泛化性能。此外,關系實體抽取數據集中正負標記分布嚴重不平衡,正例標記非常稀疏,同樣影響模型訓練效果。文獻[4]提出“關系分類+實體抽取”的兩階段方法能夠縮小算法判決空間,緩解FN問題和數據不平衡問題帶來的影響,但需要在兩階段分別微調預訓練語言模型,存在模型無法復用、調優參數量大等問題。

提示調優可以在不更新預訓練語言模型參數的情況下,通過設計提示“引導”預訓練語言模型完成下游任務,極大壓縮訓練中需要更新的參數量,并達到與微調相媲美的表現[5]。由于其優異的表現,越來越多的研究聚焦到提示調優上。本文基于現有兩階段模型提出一種利用提示調優實現兩階段模型復用的關系實體抽取方法,通過將關系標簽轉變為連續提示,在實體抽取階段復用關系分類階段的預訓練語言模型。在不同數據集上使用不同預訓練語言模型對該方法進行了測試,驗證了該方法的可行性。本文貢獻主要有:a)將提示調優的方法應用到實體抽取任務中,利用關系標簽和虛擬標記構建離散提示,而后經過格式化、嵌入、重參數化等步驟,形成可學習的連續提示;b)提出了兩階段模型復用的關系實體抽取模型REPT,第一個階段微調預訓練語言模型對句子包含的關系進行分類,第二階段利用提示調優并復用第一階段微調后的預訓練語言模型抽取相應實體。在NYT10-HRL、SKE21數據集上進行了大量實驗,REPT達到與SOTA模型相媲美的性能。與現有的基線模型相比,該模型結構簡單,且需要更新的參數量更少。

1 相關工作

1.1 關系實體抽取

關系實體抽取任務可以分為實體抽取和關系分類兩個任務,其中實體抽取主要是識別出文本中具有特定意義的實體,如人名、地名、時間、機構等,也稱為命名實體識別(named entities recognition,NER)。關系分類(relation classification,RC)主要是根據句子中包含的實體和其上下文判斷一對實體之間的關系,也稱為關系抽取(relation extraction,RE)。關系通常指代文本中實體之間的聯系,如語法關系、語義關系等[6]。由于兩個任務聯系緊密,越來越多的研究聚焦在同時完成兩項任務上。隨著深度學習技術的發展,卷積神經網絡[7]、循環神經網絡[8]、圖神經網絡[9]、預訓練語言模型[10]等被廣泛應用于實體抽取任務中。按照子任務完成方式不同可以分為聯合(joint)抽取方法和流水線(pipeline)方法。聯合抽取方法使用同一模型完成關系分類和實體抽取,如新型標注框架模型(NovelTagging)[11]、級聯二元標注框架模型(CasRel)[12]、“握手”標注策略模型(TPLinker)[13]、融合語義依存圖的圖注意力網絡(SDA-GAT)[14]等;流水線的方法一般分兩個階段完成關系分類和實體抽取任務,文獻[15~17]首先從句子中抽取實體,而后利用實體類別、上下文語義等信息,使用卷積神經網絡判別實體之間的關系。Zhong等人[18]認為聯合抽取模型參數共享的編碼方式會影響模型表現,提出基于跨度(span)的兩階段抽取模型PURE,使用預訓練語言模型為兩個子任務分別構造編碼器,先抽取全部實體,再確定每對實體的關系分類,該模型在多個數據集上的表現超過了聯合抽取模型。先分類關系后抽取實體的方法研究較少,Xie等人[4]對使用遠程監督方法構建的數據集進行研究,認為采用先關系分類后實體抽取的兩階段方法有四點主要優勢:a)先關系分類可以縮小第二階段實體抽取模型的搜索空間,提升預測精確率,減少模型復雜度,緩解正負類別數據分布不均衡對模型造成的影響;b)利用PU learning(positive unlabeled learning)[19]方法,緩解關系層面上的標注缺失問題;c)模型可以通過訓練,學習到樣本缺失的關系標注;d)關系類型變化后,只需調整關系分類器,實體抽取部分可以在線更新,避免重新修改模型結構。但現有的兩個階段流水線模型均需要針對兩個子任務微調預訓練語言模型,在實際應用中需要分別存儲和加載預訓練語言模型的兩個狀態,無法實現兩階段模型復用,造成資源浪費。

1.2 提示調優

預訓練語言模型利用大量無標簽語料進行訓練,能夠獲得詞語、句子更加全面的表示,通過微調能夠適用于不同的下游任務[20]。提示(prompt)是對不同NLP任務的一種補充描述,將不同的NLP任務轉變為填空(cloze)、補全(completion)等,使其類似于模型預訓練階段的任務,從而充分挖掘預訓練語言模型學習到的知識,使同一個預訓練語言模型可以應用于不同任務[21]。通過構造提示,預訓練語言模型在小樣本文本分類和條件文本生成任務上的表現優異[21,22]。提示調優(prompt tuning)是在凍結預訓練語言模型的情況下,通過訓練優化提示在嵌入空間中的表示,即連續提示(continuous prompts),使其更加符合特定任務,不僅能夠提升模型表現,還能減少搜索和設計提示的人工成本。該方法極大地減少了訓練時需要優化的參數量,使預訓練語言模型復用成為可能。近年來,圍繞如何有效地構造提示、優化提示逐步成為研究熱點。Li等人[23]提出前綴調優方法(prefix tuning),利用重參數化將虛擬標記(virtual tokens)轉變為特定任務的前綴,補充到真正輸入之前,以“引導”預訓練語言模型完成特定的文本生成任務。前綴擁有獨立于預訓練語言模型的可學習參數,在訓練中僅需對前綴參數進行調優。Lester等人[24]對前綴調優的方法進行簡化,使用與下游任務相關的詞匯或分類標簽初始化提示,由預訓練語言模型根據輸入的上下文更新提示的隱層表示,該方法較前綴調優需要更新的參數更少。Liu等人[25]針對自然語言理解任務,對前綴調優方法進行了優化和改進,提出了P-Tuning v2方法,并通過大量實驗驗證了該方法具有很強的泛化性。在關系分類領域,Han等人[26]對實體和關系之間的邏輯規則進行建模,將人工篩選的子模板組合成不同類型的提示模板,進而完成不同實體對之間的關系分類,并在模板中添加可學習的虛擬標記,增強提示模板的表示能力。Chen等人[27]提出了知識感知的提示調優方法(KnowPrompt)用于關系抽取,將三元組之間存在的結構約束融入到提示模板中,利用可學習的虛擬詞構建具有知識注入的提示,降低模板構建成本,提升模板對任務的感知能力。雖然兩種方法均利用了提示調優,但僅能完成關系分類任務。

本文提出REPT方法,將第一階段得到的關系標簽轉變為連續提示,然后利用提示調優復用第一階段微調后的預訓練語言模型抽取實體。與文獻[4]的方法不同,本文提出的方法在應用中僅需存儲和加載一個模型狀態,實現兩階段模型復用;與文獻[26,27]的方法不同,本文借鑒P-Tuning v2方法[25],同時完成關系分類和實體抽取兩個任務,且提示構造的方式更加便捷,模型結構更加簡單。

2 問題定義

給定一個取自訓練集Euclid Math OneDAp中的實例(ci,Ti),其中ci表示第i個句子,由N個標記(token)組成,ci=[c1,…,cN]。ci使用Ti標注,Ti表示ci的三元組集合。通過計算最大似然概率可得到模型參數θ。根據條件概率的定義,似然概率可分解為兩個分量,如式(1)所示。

∏|Euclid Math OneDAp|i=1Pr(Ti|ci;θ)=∏|Euclid Math OneDAp|i=1 ∏r∈TiPr(r|ci;θ)∏[s,o]∈Ti|rPr(s,o|r,ci;θ)(1)

其中:s、 r、 o分別表示句子三元組中的subject、relation、object,〈s,r,o〉表示Ti中的某一個三元組。r∈Ti表示該句子包含某一類關系r,Ti|r表示給定關系r下的三元組集合,是Ti的某個子集;〈s,o〉∈Ti|r表示〈s,o〉是給定關系r下的某實體對。

2.1 關系分類

關系分類是多分類任務,其似然概率如式(2)所示。

Pr(r|ci;θ)=∏|Euclid Math OneRAp|j=1(jrc)I(yjrc=1)(1-jrc)I(yjrc=0)(2)

其中:I為指示函數;jrc是當前句子ci包含第j類關系rj的概率估計;yjrc是樣本的真實標簽,yjrc=1指ci真正包含第j類關系rj;|Euclid Math OneRAp|為關系的類別總數。

2.2 實體抽取

句子中的實體為句子中連續的片段,實體抽取實質上是判斷每個詞是否屬于特定關系下頭、尾實體的開頭或結尾。定義K={sstart,send,ostart,oend}為標志符,對于由N個詞組成的句子ci,其在特定關系r下的似然概率如式(3)所示。

Pr(s,o|r,ci;θ)=∏k∈ K" ∏Nn=1(n,kee)I(yn,kee=1)(1-n,kee)I(yn,kee=0)(3)

其中:n,kee表示第n個詞是相應實體開始或結尾的概率估計值;yn,kee是真實標簽,若句子ci中的片段i到i+l為特定的關系r的主體s時,yi,sstartee=1,yi+l,sendee=1,其余位置均為0。最后設定閾值對每個位置上的概率估計進行分類,即可確定實體開始和結尾位置,完成實體抽取。

通過以上分析,關系實體抽取可轉變為關系分類和實體抽取兩個階段。其中,關系分類為句子級別的多分類任務,實體抽取為詞級別的多分類任務。

3 模型及方法

REPT模型采用先關系分類后實體抽取的兩階段方式進行建模。第一個階段微調預訓練語言模型,使用預訓練語言模型輸出的句子全局特征進行關系分類;第二個階段采用提示調優的方式,復用第一個階段微調后的預訓練語言模型,使用最后一個隱藏層輸出進行實體抽取。模型整體結構如圖2所示。

3.1 基于微調的關系分類

基于預訓練語言模型的文本分類任務通常先對輸入句子進行分詞,而后在其前后分別增加“[CLS]”“[SEP]”標記,使用“[CLS]”位置最終輸出的隱藏層向量代表整個句子,而后使用分類器進行分類,本文采用同樣的方法用于關系分類。模型輸入為序列ci,由句子中一系列的標記組成,輸出為當前輸入包含某種關系的概率估計值rc=[1rc,2rc,…,|Euclid Math OneRAp|rc]。

本文分別使用BERT[9]、RoBERTa[28]處理英文和中文語料,兩類模型均由多層雙向Transformer[29]組成。以BERT模型為例,模型輸入為Xi=[[CLS]ci[SEP]],而后對輸入進行詞嵌入(word embedding)。經過多層Transformer編碼,最終得到每個詞在關系分類階段最后一個隱藏層輸出Hrc∈Euclid ExtraaBp(N+2)×d,其中Hrc=BERT(Xi)表示BERT的隱藏層向量維度,過程如式(4)所示。

Hrc=BERT(Xi)(4)

使用“[CLS]”對應的最后一個隱藏層狀態H0rc作為整個句子i的表示,由式(5)計算句子分類概率估計向量rc。其中Wrc和brc為模型可學習參數,σ為sigmod激活函數。

rc=σ(WrcH0rc+brc)(5)

設定閾值γ,當ircgt;γ,i∈[0,|Euclid Math OneRAp|]時即判定該句子中包含關系ri,相應位置值為1,其他位置值為0,如式(6)所示。

Irc=1" ircgt;γ0" otherwise (6)

3.2 基于提示調優的實體抽取

第一階段關系分類完成后,將保存微調后BERT模型參數,在第二階段直接加載并凍結其全部參數,僅調優提示的參數,實現兩階段BERT模型復用。

將第一階段得到的Irc轉變為one-hot向量,可以得到輸入序列ci對應的每一個候選關系ri的標簽,如“/location/country/capital”。由于關系標簽中蘊涵實體類型、順序結構等信息,可以充分利用這些先驗知識,指導模型更好地完成下游任務。REPT模型第二階段將關系標簽轉變為連續提示,而后對提示進行調優,完成實體抽取任務。

3.2.1 提示編碼

對關系標簽進行格式化、嵌入、重參數化等操作,得到待優化的連續提示。與文獻[23]一致,本文將提示和原句子同時作為預訓練語言模型的輸入。使用模型最后一個隱藏層狀態Hee對每個詞進行分類,確定實體的起始和結束位置。如式(7)所示,其中P為輸入模型的連續提示,X為輸入模型的句子序列,θ為預訓練語言模型中的參數,θp為提示的參數。

Hee=BERTθ;θP(H|[P;X])(7)

a)格式化(format)。首先構建離散的提示Pdis,使用BERT分詞器將關系標簽進行WordPiece分詞[30],而后使用BERT模型中“[unused*]”標記將其填充至相同長度Lp,如式(8)所示。其中,xr為第一階段關系分類得到的關系r所對應的關系標簽,例如關系標簽“/people/nationality/person”經過格式化后轉變為“[CLS] people nationality person [SEP][unused1][unused2]… [SEP]”。

Pdis=[CLS]xr1xr2…[SEP][unused1][unused2]…[SEP](8)

b)嵌入(embedding)。使用詞嵌入將離散提示初始化為可訓練的連續提示。本文使用BERT中詞嵌入層的權重對REPT模型嵌入層初始化。通過嵌入得到初始化的連續提示E∈Euclid ExtraaBpLp×d,其中,Lp為Pdis的長度,d為預訓練語言模型的隱藏層維度。

c)重參數化(reparameterization)。使用多層感知機(MLP)對初始化的連續提示進行重參數化,并將得到的張量變形,得到連續提示P∈Euclid ExtraaBp2L×h×Lp×dh,其中L為BERT中Transformer層的層數,dh=d/h為BERT中Transformer層的注意力頭數,dh=d/h為每個頭的隱藏層向量維度。

提示P將作用到BERT模型各Transformer層上,如式(9)所示。其中H[l]i是BERT模型在第l層Transformer的第i位置上的隱藏層輸出,Pidx為提示的位置索引,P[l]i∈Euclid ExtraaBpLp×dh為提示在第l層i位置上的向量表示。

H[l]i=P[l]i""""""""""" i∈Pidx

Transformer-Blockθ(H[l-1]i) otherwise(9)

Transformer中的注意力計算如式(10)所示。

attention(Q,K,V)=softmax(QKTdk)V(10)

訓練中只更新提示P的參數,BERT模型中注意力權重矩陣保持不變。模型將連續提示與原key和value向量拼接得到Kp,Vp∈Euclid ExtraaBp(Lp+N)×dh,過程如式(11)(12)所示。

Kp=concat(P[l]i[0];K)(11)

Vp=concat(P[l]i[1];V)(12)

進而在保持BERT模型參數不變的情況下,改變其各層注意力的計算結果,如式(13)所示,其中Q∈Euclid ExtraaBpN×dh。

attention(Q,Kp,Vp)=softmax(QKTpdk)Vp(13)

3.2.2 抽取實體

利用BERT模型最后一層Transformer的隱藏層狀態Hee∈Euclid ExtraaBpN×d對輸入序列中每個詞屬于實體頭或尾的概率進行估計,得到kee=[0,1]N×4,如式(14)所示。該向量中的值為式(3)中的n,kee,其中k∈K={sstart,send,ostart,oend},Wkee和bkee為模型可學習參數,σ為sigmod激活函數:

kee=σ(WkeeHee+bkee)(14)

按照實體首尾配對的常用方法[11,12],將最近的sstart/ostart與send/oend進行配對,生成最終的subject/object范圍。如果在下一個subject出現之前出現了多個object,那么直到下一個subject出現前,所有后續的object都將與當前的subject構成實體對。

3.3 損失函數

在關系分類階段,模型經過大量數據訓練后,能夠得到樣本中未標注的缺失關系,所以不能直接把關系標注缺失(FN)的樣本作為負樣本處理。Xie等人[4]認為可以借鑒PU learning的思想將一部分負標簽轉變為未標注的正標簽,即容忍模型識別出樣本缺失關系所帶來的損失,以期模型能夠學到更豐富的關系表示。基于以上考慮,在第一階段,采用Xie等人[31]提出的cPU損失函數,如式(15)所示。

rc(,y)=-γrcln1|Euclid Math OneRAp|∑|Euclid Math OneRAp|i=1irc""""" yirc=1

-ln1-1|Euclid Math OneRAp|∑|Euclid Math OneRAp|i=1irc-μrcotherwise(15)

其中:γrc∈(0,1),用于降低正例判斷錯誤的懲罰權重;μrc=πrc(τrc+1)表示修正后數據集中具有關系類別正標簽的真實比例,超參數τrc≈1-#labeled positive#all positive為未標注的潛在正樣本(FN)的比例,πrc是類先驗E(∑yrc|Euclid Math OneRAp|),表示每個樣本包含關系個數的期望值;∑yrc是標簽為正例1的總數,|Euclid Math OneRAp|是關系類別的數量。由于πrc比較小且τrclt;1,所以μrc≈πrc。

實體抽取階段,本文使用BCE(binary cross entropy)損失函數,如式(16)所示。由于模型僅能學習到數據集中已標注關系類型對應的實體,使用BCE損失函數,旨在過濾掉不包含實體的候選關系,提高模型的表現。

ee(k,yk)=-yklog(k)-(1-yk)log(1-k)(16)

4 數據與實驗

4.1 實驗數據及評估指標

4.1.1 數據集

本文使用NYT10-HRL[4]和SKE21[4]數據集進行測試和評估,兩個數據集均通過遠程監督方法獲得,與實際應用場景相似。

NYT10-HRL數據集基于NYT[32]數據集構建。NYT數據集是從《紐約時報》各類文章中通過遠程監督方式獲取,該數據集中包含重復的樣本,且僅標注了實體的最后一個詞。文獻[32,33]對NYT數據集進行處理形成了NYT10-HRL數據集,該數據集中標注了實體所有的詞,并移除NYT數據集中標注為“NA”的句子。該數據集中包含69 988個訓練樣本,4 006個測試樣本,共29種關系標簽。SKE21數據集是文獻[4]在百度公司提供的SKE2019數據集的基礎上構建。該數據集中包含194 747個訓練樣本,1 150個測試樣本,共49種關系標簽。

4.1.2 評估指標

遵循文獻[4]的工作,只有當關系和相應實體對全部抽取并且實體全部單詞均正確時,提取的關系三元組才被認為是正確的。為了進行公平的比較,本文使用與基線方法一致的準確率、召回率和F1值作為評估指標。

4.2 參數設置

本文挑選在驗證集上表現最好的模型,然后在測試集上進行測試。本文所有實驗在一塊 Tesla V100 32 GB GPU上進行。實驗參數設置如表1所示,模型訓練使用AdamW[34]優化器。在中文數據集上使用“Chinese-RoBERTa-wwm-ext”[35]預訓練語言模型,即本文中的“RoBERTa”;英文數據集使用“BERT-base-uncased”[9]預訓練語言模型,即本文中的“BERT”。兩類預訓練語言模型的隱藏層向量維度(hidden_size)均為768維,隱藏層數量(num_hidden_layers)均為12層,注意力頭(num_attention_heads)個數均為12個。損失函數中潛在正樣本(FN)的比例τrc和類先驗πrc的值參照文獻[4]實驗中的設置,分別取0.05和0.04。

4.3 實驗結果與分析

4.3.1 基線模型

為進行公平的比較,本文選取的基線模型在其編碼階段均使用了預訓練語言模型,分別是CasRel模型[12]、TPLinker模型[13]、RERE模型[4]。文獻[4]對CasRel模型[12]、TPLinker模型[13]進行了復現,并在NYT10-HRL[4]和SKE21[4]數據集上進行了測試,給出了兩類模型在兩個數據集上抽取完整實體的實驗結果。三個基線模型的實驗結果來自文獻[4],本文引用其中精確匹配(exact match)結果用于對比。

a)CasRel模型。該模型為聯合抽取模型,首先將輸入句子使用編碼器進行編碼得到每個詞的向量表示,而后識別出句子中存在的頭實體,最后尋找每類關系下可能存在的尾實體。該模型能夠較好地解決重疊三元組問題,在NYT數據集和WebNLG數據集[36]上均取得了當時的最佳表現。

b)TPLinker模型。該模型為聯合抽取模型,首先通過“握手標注”的方法構建句子中每對詞之間的頭尾連接,并對句子進行編碼,而后通過解碼器得到每種關系下可能的實體對,使實體和關系共用一個解碼器,避免暴露偏差。該模型在NYT和WebNLG數據集上超越了CasRel模型。

c)RERE模型。該模型為流水線模型,其將關系實體抽取任務分解為關系分類和實體抽取兩個子任務,第一階段抽取句子中可能包含的關系類型,第二個階段為每個候選關系抽取頭、尾實體。該模型在NYT10-HRL和SKE21數據集上超越了CasRel和TPLinker,取得了最佳表現。

4.3.2 結果分析

1)兩階段模型復用可行性分析

本文對RoBERTa模型中的注意力權重進行可視化,以驗證復用第一階段微調預訓練模型的可行性。以SKE21數據集中的“位于北京市朝陽區三里屯路19號院的開放式購物街區三里屯太古里”為例,該句關系標簽為“所在城市”,兩個實體為“三里屯太古里”和“北京市”。選取Roberta模型微調前和微調后的某層Transformer中的12個頭的注意力權重進行可視化,結果如圖3所示,其中橫軸、縱軸為輸入的各詞在句子中的位置。

圖3(a)為RoBERTa微調前的注意力權重,(b)為RoBERTa微調后的注意力權重。可以看出,微調前RoBERTa模型各字間的注意力較為分散。模型微調后,實體“三里屯太古里” (圖中的右上角)和“北京”(圖中左下角)各字之間的注意力得到顯著提升,其他字之間的注意力仍然比較分散。該結果表明,經過第一階段微調后,模型學習到了實體的相關知識,可以被實體抽取任務復用。

2)不同提示長度和初始化方式對比分析

本文對不同提示長度和初始化方式下模型在實體抽取任務中的表現進行了對比。實驗中使用未微調的BERT模型,數據集為NYT10-HRL數據集,結果如圖4所示。其中,“隨機初始化”是指采取隨機初始化的方式對嵌入層參數進行初始化;“BERT詞嵌入權重初始化”是使用BERT模型詞嵌入層的權重對模型中的嵌入層進行初始化,即本文REPT使用的方式。

從圖4可以看出,提示長度達到32位時,模型在實體抽取任務上表現最好。經過對比分析,一方面,隨著提示位數增加,其對BERT內部注意力權重影響增大;當提示達到64位時,兩種方法表現相當。但“BERT詞嵌入權重初始化”方式較32位表現下降,表明隨著提示長度增加,提示中的關系語義信息所占比例減小,導致表現下降。另一方面,在提示長度較短的情況下,“BERT詞嵌入權重初始化”方式要優于“隨機初始化”方式,因為前者直接利用預訓練語言模型參數,生成的提示所包含的語義信息更豐富,在實體抽取時效果更好。

3)提示調優和模型微調方法對比分析

為驗證提示構造方法的有效性,本文對比分析了使用提示調優和模型微調方法在實體抽取上的表現(F1值)。模型末端的分類器結構相同,輸入的關系標簽均為測試集中所標注的關系標簽。實驗結果如表2所示,加粗為最好指標,下畫線為次優指標。

其中,PLM是使用未微調的預訓練語言模型直接進行實體抽取,PLM(1stage)是復用第一階段微調后的預訓練語言模型,這兩種方式均凍結預訓練語言模型參數,僅更新最后分類器的參數。PLM(FT)是根據下游任務對預訓練語言模型進行微調。“only”是不引入任何關系信息,直接對輸入句子進行實體抽取;“concat”是將關系標簽拼接在句子前作為模型輸入;“prompt”是使用本文中的提示調優的方法;“*”為本文對RERE模型實體抽取部分的復現,參數設置與文獻[4]保持一致。

本文實體抽取的方法為PLM(1stage)+prompt,即復用第一階段任務微調后的預訓練語言模型,利用提示調優進行關系抽取。作為對比的RERE模型結構為PLM(FT)+concat,即關系標簽與句子拼接后作為模型輸入,訓練中需要微調預訓練語言模型。

從表2實驗結果可以看出,PLM only和PLM(1stage) only兩種方法在實體抽取任務上F1值較低,說明僅使用預訓練語言模型難以有效完成實體抽取任務;PLM+concat和PLM(1stage)+concat方法雖然可以顯性地引入“關系”提升模型表現,但提升幅度較小,且在兩類數據集上表現存在差異;PLM+prompt和PLM(1stage)+prompt方法在兩類數據上均有大幅度提升,說明本文提出的提示調優方法是有效的。此外,采用PLM(1stage)+prompt方法能夠在參數量更新較少的情況下與基準模型使用的PLM(FT)+concat方法媲美,說明該方法具有一定的優勢。

表3給出了基線模型與REPT模型需要調優的參數量對比。TPLinker和CasRel模型總參數量來自文獻[12]。TPLinker和CasRel模型在訓練中均需要對BERT模型進行微調,本文以其總參數量作為訓練中需要調優的參數量;RERE模型需要在兩個階段分別微調預訓練模型部分層的參數;本文的REPT模型在關系分類階段與RERE模型更新參數保持一致,在實體抽取階段僅更新提示參數。可以看出,REPT模型在訓練中較基準模型需要調優的參數量更少。

表4給出了在NYT0-HRL和SKE21數據集上基線模型以及本文模型得到的精確率(prec)、召回率(rec)和F1分數。其中加粗為最優指標,下劃線為次優指標。

根據表3和4給出的實驗結果可以看出,REPT模型在調優參數量僅占基準模型一半的情況下仍然超過部分基準模型,取得與SOTA模型媲美的表現。但在SKE21數據集上REPT各指標距離SOTA (RERE)模型差距相對較大,因為中文數據集使用的RoBERTa模型參數量更小(102 M),而提示調優的方式更依賴于預訓練語言模型本身的參數,相對而言微調效果會更好。

5)提示調優可視化分析

本文可視化分析了提示調優對預訓練模型內部注意力權重的影響。以SKE21數據集中的“韓梅梅,170 cm,北京電影學院表演系畢業”為例,該句中包含兩個關系標簽,分別是“身高”和“畢業院校”。對RoBERTa模型某Transformer層12個頭的注意力權重分別進行可視化,如圖5所示,其中橫軸為提示中各標記的位置(共32位),縱軸為輸入句子中各字的位置。

圖5(a)是“身高”所對應的提示和輸入句子各字間的注意力,圖中方框中顏色較深(見電子版)的位置為“韓梅梅”和“170 cm”;圖5(b)是“畢業院校”所對應的提示和輸入句子各字間的注意力,方框中顏色較深的位置為“韓梅梅”和“北京電影學院”。從實驗結果可以看出,使用提示調優的方法能夠增強模型對特定關系下頭尾實體的注意力,提升模型在實體抽取任務中的表現。

6)案例分析

為了更直觀地展示REPT模型抽取實體關系三元組的能力,本文提供了NYT10-HRL中幾個簡單案例來展示不同測試案例下的三元組抽取結果,如表5所示。其中,Raw為訓練集中的句子,Tag為該句子真實標注的三元組,RC和EE分別為REPT模型關系分類和實體抽取兩個階段得到的結果。案例S1中標注的三元組數量為1;S2中標注的三元組數量為2,且關系類型不同;S3中標注的三元組數量為1,但關系類型存在標注缺失(FN)問題;S4中標注的三元組數量為4,包含4種關系類型,但實體存在標注缺失(FN)問題。

從案例S1的抽取結果可以看出,REPT模型在關系分類階段判斷該句子中包含兩類關系,其中一類關系判斷錯誤,但在實體抽取階段,模型在錯誤關系下未抽取到實體,避免了第一階段錯誤對最終抽取結果的影響。S2的抽取結果表明,先抽取關系后抽取實體的步驟能夠解決實體重疊問題。S3的抽取結果表明,REPT模型在關系分類階段能夠發現缺失標注的關系類型,并通過對其他句子的學習抽取相應實體,得到漏標的三元組。S4的抽取結果表明,REPT模型在實體抽取階段也能夠抽取漏標的實體。以上案例表明,本文所提出的 REPT模型在復雜句子中提取關系三元組的有效性,且能夠緩解FN問題和數據不平衡問題帶來的影響。

5 結束語

本文將提示調優的方法應用到實體抽取任務中,利用關系標簽和虛擬標記構建可學習的連續提示,并提出了兩階段模型復用的關系實體抽取模型REPT。該模型采用先關系分類后實體抽取的架構,利用提示調優實現兩個階段預訓練語言模型復用,壓縮了訓練更新的參數量。在NYT10-HRL和SKE21 數據集上評估了所提出的方法,實驗結果表明,在更新參數量僅占基線模型50%的情況下,達到與SOTA模型相媲美的性能。

由于實驗中對數據處理的形式、數據集中的特殊字符和句子結構等都會對實驗結果產生影響,本文提出的模型仍存在不足和尚可改進的地方。比如,本文僅考慮了在實際應用中最便捷的提示編碼方法,更好的提示編碼方法可能會帶來模型更好的表現,這些都將是今后改進和深入研究的問題。

參考文獻:

[1]Mintz M,Bills S,Snow R,et al. Distant supervision for relation extraction without labeled data [C]// Proc of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2009: 1003-1011.

[2]Zeng Daojian,Liu Kang,Chen Yubo,et al. Distant supervision for relation extraction via piecewise convolutional neural networks [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2015: 1753-1762.

[3]Jia Wei,Dai Dai,Xiao Xinyan,et al. ARNOR: attention regularization based noise reduction for distant supervision relation classification [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2019: 1399-1408.

[4]Xie Chenhao,Liang Jiaqing,Liu Jingping,et al. Revisiting the negative data of distantly supervised relation extraction [C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2021: 3572-3581.

[5]Liu Xiao,Zheng Yanan,Du Zhengxiao,et al. GPT understands,too [EB/OL].(2021-03-18). https://arxiv.org/pdf/2103.10385.pdf.

[6]李冬梅,張揚,李東遠,等. 實體關系抽取方法研究綜述 [J]. 計算機研究與發展,2020,57(7): 1424-1448. (Li Dongmei,Zhang Yang,Li Dongyuan,et al. Review of entity relation extraction methods [J]. Journal of Computer Research and Development,2020,57(7): 1424-1448.)

[7]LeCun Y,Bottou L,Bengio Y,et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE,1998,86(11): 2278-2324.

[8]Elman J L. Finding structure in time [J]. Cognitive Science,1990,14(2): 179-211.

[9]Kipf T N,Welling M. Semi-supervised classification with graph con-volutional networks [EB/OL]. (2017-02-22). https://arxiv.org/pdf/1609.02907.pdf.

[10]Devlin J,Chang M W,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2019: 4171-4186.

[11]Zheng Suncong,Wang Feng,Bao Hongyun,et al. Joint extraction of entities and relations based on a novel tagging scheme [C]// Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2017: 1227-1236.

[12]Wei Zhepei,Su Jianlin,Wang Yue,et al. A novel cascade binary tagging framework for relational triple extraction [C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2020: 1476-1488.

[13]Wang Yucheng,Yu Bowen,Zhang Yueyang,et al. TPLinker: single-stage joint extraction of entities and relations through token pair lin-king [C]// Proc of the 28th International Conference on Computatio-nal Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2020: 1572-1582.

[14]苗琳,張英俊,謝斌紅,等. 基于圖神經網絡的聯合實體關系抽取 [J]. 計算機應用研究,2022,39(2): 424-431. (Miao Lin,Zhang Yingjun,Xie Binhong,et al. Joint entity relation extraction based on graph neural network [J]. Application Research of Computers,2022,39(2): 424-431.)

[15]Chan Y S,Roth D. Exploiting syntactico-semantic structures for relation extraction [C]// Proc of the 49th Annual Meeting of the Asso-ciation for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2011: 551-560.

[16]Zeng Daojian,Liu Kang,Lai Siwei,et al. Relation classification via convolutional deep neural network [C]// Proc of the 25th International Conference on Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2014: 2335-2344.

[17]Dos Santos C N,Xiang Bing,Zhou Bowen. Classifying relations by ranking with convolutional neural networks [C]// Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Proces-sing. Stroudsburg,PA: Association for Computational Linguistics,2015: 626-634.

[18]Zhong Zexuan,Chen Danqi. A frustratingly easy approach for entity and relation extraction [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2021: 50-61.

[19]Liu Bing,Dai Yang,Li Xiaoli,et al. Building text classifiers using positive and unlabeled examples [C]// Proc of the 3rd IEEE International Conference on Data Mining. Piscataway,NJ: IEEE Press,2003: 179-186.

[20]Howard J,Ruder S. Universal language model fine-tuning for text classification [C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2018: 328-339.

[21]Brown T,Mann B,Ryder N,et al. Language models are few-shot learners [EB/OL]. (2020-07-22). https://arxiv.org/pdf/2005.14165v3.pdf.

[22]Schick T,Schütze H. It’s not just size that matters: small language models are also few-shot learners [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021: 2339-2352.

[23]Li X L,Liang P. Prefix-tuning: optimizing continuous prompts for generation [C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Confe-rence on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2021: 4582-4597.

[24]Lester B,Al-Rfou R,Constant N. The power of scale for parameter-efficient prompt tuning [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2021: 3045-3059.

[25]Liu Xiao,Ji Kaixuan,Fu Yicheng,et al. P-Tuning v2: prompt tuning can be comparable to fine-tuning universally across scales and tasks [EB/OL]. (2022-03-20). https://arxiv.org/pdf/2110.07602v2.pdf.

[26]Han Xu,Zhao Weilin,Ding Ning,et al. PTR: prompt tuning with rules for text classification [EB/OL]. (2021-09-15). https://arxiv.org/pdf/2105.11259v3.pdf.

[27]Chen Xiang,Zhang Ningyu,Xie Xin,et al. KnowPrompt: knowledge-aware prompt-tuning with synergistic optimization for relation extraction [C]// Proc of ACM Web Conference. New York: ACM Press,2022: 2778-2788.

[28]Liu Yinhan,Ott M,Goyal N,et al. RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. (2019-07-26). https://arxiv.org/pdf/1907.11692v1.pdf.

[29]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6000-6010.

[30]Schuster M,Nakajima K. Japanese and Korean voice search [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2012: 5149-5152.

[31]Xie Chenhao,Cheng Qiao,Liang Jiaqing,et al. Collective loss function for positive and unlabeled learning [EB/OL]. (2020-05-06). https://arxiv.org/pdf/2005.03228.pdf.

[32]Riedel S,Yao Limin,McCallum A. Modeling relations and their mentions without labeled text [C]// Proc of European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer,2010: 148-163.

[33]Takanobu R,Zhang Tianyang,Liu Jiexi,et al. A hierarchical framework for relation extraction with reinforcement learning [J]. Proceedings of the AAAI Conference on Artificial Intelligence,2019,33(1): 7072-7079.

[34]Loshchilov I,Hutter F. Decoupled weight decay regularization [EB/OL]. (2019-01-04). https://arxiv.org/pdf/1711.05101.pdf.

[35]Cui Yiming,Che Wanxiang,Liu Ting,et al. Revisiting pre-trained models for Chinese natural language processing [M]// Findings of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2020: 657-668.

[36]Zeng Xiangrong,Zeng Daojian,He Shizhu,et al. Extracting relational facts by an end-to-end neural model with copy mechanism [C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2018: 506-514.

主站蜘蛛池模板: 91福利一区二区三区| 欧美成人一区午夜福利在线| 久久免费视频播放| www.亚洲天堂| 欧美精品啪啪| 全裸无码专区| 国产高清又黄又嫩的免费视频网站| 国产精品丝袜在线| 日本影院一区| 国产一级毛片yw| 熟女成人国产精品视频| 日本AⅤ精品一区二区三区日| 亚洲黄网视频| 国产不卡国语在线| 国产午夜福利在线小视频| 国产成人综合日韩精品无码不卡| 热久久这里是精品6免费观看| 四虎国产在线观看| 国产一区二区三区免费观看| 亚洲日本中文字幕天堂网| 国产成人区在线观看视频| 亚洲人成亚洲精品| 亚洲欧美日韩另类在线一| 在线欧美a| 九九这里只有精品视频| 国产欧美专区在线观看| 999国产精品永久免费视频精品久久 | 欧美色综合网站| 女人18毛片久久| 日韩欧美国产区| 91人妻在线视频| 国产a网站| 啪啪啪亚洲无码| 欧美全免费aaaaaa特黄在线| 少妇精品网站| 69综合网| 国产欧美视频综合二区| 欧美精品一区在线看| 一本久道久久综合多人| 免费观看成人久久网免费观看| 69国产精品视频免费| 国产精品久久久久久久久kt| 亚洲成av人无码综合在线观看| 精品一区二区三区视频免费观看| 亚洲区视频在线观看| 91视频青青草| 六月婷婷精品视频在线观看 | 巨熟乳波霸若妻中文观看免费| 婷婷色一二三区波多野衣| 欧美性猛交xxxx乱大交极品| 亚洲男女在线| 国产成人精品亚洲日本对白优播| 日韩欧美色综合| 日韩无码黄色| 免费xxxxx在线观看网站| 日本手机在线视频| 亚洲中久无码永久在线观看软件| www.亚洲一区| 亚洲黄色高清| 国产美女无遮挡免费视频| 成人在线观看一区| 欧美日韩免费| 国产喷水视频| 男人的天堂久久精品激情| 欧美日韩久久综合| 91人妻日韩人妻无码专区精品| 伊人久久大线影院首页| 亚洲欧美不卡| 伊人成人在线视频| 老司机午夜精品视频你懂的| 精品欧美一区二区三区在线| 国产麻豆另类AV| 亚洲中文字幕久久精品无码一区| 亚洲va视频| 国产精品区网红主播在线观看| 九九热这里只有国产精品| 久久五月视频| 色婷婷在线播放| 夜夜高潮夜夜爽国产伦精品| 亚洲国产成人在线| 国产亚洲精| 高清亚洲欧美在线看|