999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

旅游領(lǐng)域?qū)嶓w和關(guān)系聯(lián)合抽取方法研究

2022-09-21 05:38:26古麗拉阿東別克馬雅靜
關(guān)鍵詞:實(shí)驗(yàn)信息模型

陳 赟,古麗拉·阿東別克,馬雅靜

1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊830017

2.新疆多語種信息技術(shù)實(shí)驗(yàn)室,烏魯木齊830017

知識圖譜(knowledge graph)是以圖的形式表現(xiàn)客觀世界中的實(shí)體(概念、人、事物)及其之間關(guān)系的知識庫[1]。知識圖譜于2012 年5 月17 日被Google 正式提出[2],其目的是優(yōu)化搜索引擎性能,提升用戶的搜索質(zhì)量以及搜索體驗(yàn)。國內(nèi)垂直領(lǐng)域的知識圖譜進(jìn)展較快的多為金融領(lǐng)域和醫(yī)療領(lǐng)域的項(xiàng)目,旅游領(lǐng)域涉及較少。通過構(gòu)建旅游領(lǐng)域的知識圖譜并結(jié)合智能問答、個(gè)性化推薦等上層應(yīng)用,可以促進(jìn)旅游行業(yè)智能信息服務(wù)技術(shù)的快速發(fā)展,從而帶來更高的經(jīng)濟(jì)效益。

知識圖譜中的數(shù)據(jù)通常以“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”的關(guān)系三元組存儲(chǔ),形成一個(gè)圖狀知識庫,因此從非結(jié)構(gòu)化文本信息中抽取關(guān)系三元組是構(gòu)建知識圖譜的關(guān)鍵任務(wù)。而旅游領(lǐng)域的文本信息中存在著大量的實(shí)體嵌套和關(guān)系重疊現(xiàn)象,例如表1文本中包含的以(subject,predicate,object)形式的關(guān)系三元組有[(杭州西湖風(fēng)景區(qū),所在城市,杭州),(杭州西湖風(fēng)景區(qū),著名景點(diǎn),蘇堤春曉),(蘇堤春曉,所屬景區(qū),杭州西湖風(fēng)景區(qū)),(蘇堤春曉,所在城市,杭州)]。

表1 旅游領(lǐng)域關(guān)系重疊樣例Table 1 Sample relation overlapping in tourism domain

在實(shí)體抽取過程中,其中作為景點(diǎn)名稱的實(shí)體“杭州西湖風(fēng)景區(qū)”中嵌套作為城市名稱的“杭州”,Luo 等人[3]提出基于注意力機(jī)制的Att-BiLSTM-CRF模型進(jìn)行化學(xué)領(lǐng)域命名實(shí)體識別,使用B/I/O 標(biāo)簽加實(shí)體類型來區(qū)分實(shí)體的開頭、中間和結(jié)尾或者判斷是否為實(shí)體。這種命名實(shí)體識別的方法無法將實(shí)體“杭州西湖風(fēng)景區(qū)”中的“杭”同時(shí)標(biāo)注為景點(diǎn)名稱的開頭和城市名稱的開頭,因而無法解決實(shí)體嵌套問題。

在關(guān)系抽取的過程中,表1 中文本包含EPO(entity pair overlap)和SEO(single entity overlap)兩種關(guān)系重疊形式。其中,EPO 是指句子中至少有兩個(gè)關(guān)系三元組,并且至少有兩個(gè)關(guān)系三元組以相同或者相反的順序共享一對實(shí)體;SEO 是指句子中有多個(gè)關(guān)系三元組,并且至少有兩個(gè)關(guān)系三元組共享一個(gè)相同的實(shí)體。由于管道抽取模型存在誤差積累和實(shí)體冗余會(huì)造成模型性能大幅下降,不能夠有效處理關(guān)系重疊問題。Zheng等人[4]提出的聯(lián)合抽取模型將問題轉(zhuǎn)化為序列標(biāo)注問題,生成標(biāo)注序列后將關(guān)系標(biāo)簽合并為實(shí)體三元組時(shí)采用就近組合的方法,雖然能夠從句子中抽取出多種關(guān)系,但并不能處理實(shí)體出現(xiàn)重疊的關(guān)系抽取問題。

由于目前聯(lián)合抽取的方法并不能有效地處理信息抽取任務(wù)中實(shí)體嵌套和關(guān)系重疊的問題,本文提出了BAMRel 模型(joint extraction model based on biaffine attention mechanism)。模型的主要特點(diǎn)是通過共享參數(shù)使用Biaffine 模型分別構(gòu)建邊界注意力矩陣和關(guān)系注意力矩陣來解決實(shí)體嵌套和關(guān)系重疊問題,同時(shí)將實(shí)體標(biāo)簽作為特征融入關(guān)系抽取部分,在構(gòu)建的旅游領(lǐng)域關(guān)系抽取數(shù)據(jù)集TFRED(tourism field relation extraction dataset)上和公開數(shù)據(jù)集上均取得了較好的實(shí)驗(yàn)結(jié)果。

綜上所述,本文的貢獻(xiàn)主要有以下三點(diǎn):

(1)基于遠(yuǎn)程監(jiān)督的思想,利用結(jié)構(gòu)化三元組進(jìn)行數(shù)據(jù)回標(biāo),構(gòu)建了包含近2萬個(gè)關(guān)系三元組的旅游領(lǐng)域關(guān)系抽取數(shù)據(jù)集TFRED。構(gòu)建流程和部分?jǐn)?shù)據(jù)開源在:https://github.com/chenyun-lh/TFRED,后續(xù)將持續(xù)對數(shù)據(jù)量進(jìn)行擴(kuò)充。

(2)提出BAMRel 模型,共享BERT 編碼參數(shù)的同時(shí),實(shí)體抽取和關(guān)系抽取部分共用Biaffine 模型來分別解決實(shí)體嵌套和關(guān)系重疊問題,降低了聯(lián)合抽取模型的復(fù)雜度,提供了一種不僅限于旅游領(lǐng)域的簡潔高效的模型方案。

(3)進(jìn)行實(shí)驗(yàn)嚴(yán)格論證了實(shí)體標(biāo)簽作為特征對關(guān)系抽取結(jié)果的影響,并量化了影響程度。

1 相關(guān)工作

目前關(guān)系三元組的抽取方法主要分為管道抽取方法和聯(lián)合抽取方法。管道抽取方法是將關(guān)系三元組的抽取作為實(shí)體識別和關(guān)系抽取兩個(gè)獨(dú)立的子任務(wù)進(jìn)行,本章將介紹管道抽取方法的兩個(gè)子任務(wù)和聯(lián)合抽取方法的相關(guān)工作。

1.1 命名實(shí)體識別方法

早期命名實(shí)體識別(named entity recognition,NER)方法主要是基于規(guī)則的方法。基于規(guī)則的系統(tǒng)依賴于手工制定的規(guī)則,無法轉(zhuǎn)移到其他領(lǐng)域。后來產(chǎn)生了基于機(jī)器學(xué)習(xí)的命名實(shí)體識別方法,NER任務(wù)被轉(zhuǎn)換為一個(gè)分類問題或序列標(biāo)注問題,這類方法降低了人工成本,但依賴于特征工程。近年來,基于深度學(xué)習(xí)的NER模型占據(jù)了主導(dǎo)地位,與基于機(jī)器學(xué)習(xí)的方法相比,深度學(xué)習(xí)有利于自動(dòng)發(fā)現(xiàn)隱藏的特征無需人工構(gòu)建特征。Dong 等人[5]提出使用BiLSTM-CRF 來進(jìn)行中文命名實(shí)體識別,在NER 任務(wù)中有很好的表現(xiàn)。2018 年谷歌提出BERT 預(yù)訓(xùn)練模型[6],通過微調(diào)的方法可以靈活應(yīng)用到各項(xiàng)NLP任務(wù)中,所以在實(shí)體識別任務(wù)中將BERT作為編碼層的模型會(huì)成為性能很強(qiáng)的基線模型[7-9]。

但是在中文NER 任務(wù)中,基于序列標(biāo)注框架并不能解決實(shí)體嵌套問題。針對實(shí)體嵌套的問題,Jia等人[10]提出通過動(dòng)態(tài)地堆疊基于序列標(biāo)注的實(shí)體識別層來識別嵌套實(shí)體,每一層的模型參數(shù)及其輸入是完全獨(dú)立的,因而嵌套實(shí)體識別過程不會(huì)受到其他層的干擾。Fu等人[11]提出部分觀察樹TreeCRF方法,將嵌套實(shí)體識別過程視為部分觀察樹的選區(qū)分析,用統(tǒng)一的方式對觀察樹中觀察實(shí)體和潛在實(shí)體聯(lián)合建模。Shen 等人[12]針對包含嵌套實(shí)體的長實(shí)體識別提出兩階段識別方法,首先對生成的可能實(shí)體邊界進(jìn)行過濾和邊界回歸,然后對邊界調(diào)整后的實(shí)體邊界標(biāo)注相應(yīng)的類別。指針網(wǎng)絡(luò)(PointerNet)最早應(yīng)用于機(jī)器閱讀理解(machine reading comprehension,MRC)中,Li 等人[13]基于該思想構(gòu)建問題指代所要抽取的實(shí)體類型,引入了先驗(yàn)語義知識,使用單層指針網(wǎng)絡(luò)來解決實(shí)體嵌套的問題。多標(biāo)簽指針網(wǎng)絡(luò)由單層指針網(wǎng)絡(luò)衍生而來,如圖1所示多標(biāo)簽指針網(wǎng)絡(luò)使用n個(gè)(n為實(shí)體類型數(shù)量)二元指針網(wǎng)絡(luò)進(jìn)行嵌套實(shí)體識別。Yu 等人[14]使用雙仿射變換構(gòu)建三維矩陣,把實(shí)體抽取任務(wù)看成為識別實(shí)體開始與結(jié)束位置索引的問題,同時(shí)對這個(gè)開始與結(jié)束位置形成的實(shí)體邊界(span)賦予類型。

圖1 多標(biāo)簽指針網(wǎng)絡(luò)嵌套實(shí)體識別Fig.1 Multi-label pointer network nested entity recognition

1.2 關(guān)系抽取方法

在管道抽取方法中,早期的關(guān)系抽取方法主要是基于模板匹配的方法,此類方法適用于小規(guī)模特定領(lǐng)域,召回率低、可移植性差。后來出現(xiàn)了半監(jiān)督學(xué)習(xí)的關(guān)系抽取方法,主要有bootstrapping和遠(yuǎn)程監(jiān)督方法。遠(yuǎn)程監(jiān)督方法基于一個(gè)很強(qiáng)的假設(shè),如果一個(gè)實(shí)體對滿足某種給定關(guān)系,包含該實(shí)體對的句子都在闡述該關(guān)系。但很多包含該實(shí)體對的句子并不代表此種關(guān)系,會(huì)引入大量噪聲。為了緩解這一問題,研究者采取了多示例學(xué)習(xí)[15-18]、強(qiáng)化學(xué)習(xí)[19]和預(yù)訓(xùn)練機(jī)制[20]等改進(jìn)策略。

目前主流監(jiān)督學(xué)習(xí)的關(guān)系抽取方法是基于深度學(xué)習(xí)的方法,Soares 等人[20]基于BERT 模型采用多種不同結(jié)構(gòu)來進(jìn)行實(shí)體對的特征提取進(jìn)行關(guān)系分類,但該方法會(huì)對同一個(gè)句子進(jìn)行重復(fù)編碼,耗費(fèi)計(jì)算資源。為了解決該問題Wang等人[21]將多次關(guān)系抽取轉(zhuǎn)化為同時(shí)抽取問題,將句子一次輸入進(jìn)行多個(gè)關(guān)系分類。Kong等人[22]針對在管道抽取方法中的歧義實(shí)體和詞典信息融入到字符信息丟失的問題提出一種在嵌入層自適應(yīng)地包含詞信息的方法,利用詞典將所有匹配每個(gè)字符的詞合并到一個(gè)基于字符輸入的模型中,以此來提高實(shí)體準(zhǔn)確率減少誤差傳播。Wang等人[23]提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取模型,該模型將上下文感知模型與以依賴樹為特征的加權(quán)圖卷積網(wǎng)絡(luò)模型相結(jié)合,融合了上下文和相關(guān)的結(jié)構(gòu)信息,并將剪枝策略應(yīng)用于輸入樹刪除冗余信息。

1.3 聯(lián)合抽取方法

為了解決實(shí)體識別的誤差傳遞問題,研究者提出聯(lián)合抽取的方法。早期出現(xiàn)了基于特征的聯(lián)合抽取方法[24-27],這種方法需要人工設(shè)計(jì)特征,因此需要大量工作對數(shù)據(jù)進(jìn)行預(yù)處理。Miwa等人[28]首次將神經(jīng)網(wǎng)絡(luò)模型用于解決實(shí)體關(guān)系聯(lián)合抽取任務(wù),通過共享參數(shù)的方法將兩個(gè)任務(wù)整合到同一個(gè)模型當(dāng)中,但兩個(gè)任務(wù)仍然是分離的過程,產(chǎn)生大量的冗余信息。為了解決該問題,Zheng 等人[4]設(shè)計(jì)了一種新穎的標(biāo)注方法,這種方法對實(shí)體和關(guān)系同時(shí)抽取,將抽取問題轉(zhuǎn)化成為了標(biāo)注任務(wù),通過使用神經(jīng)網(wǎng)絡(luò)來建模,避免了復(fù)雜的特征工程。目前,如何解決關(guān)系抽取任務(wù)中的關(guān)系重疊問題成為了研究熱點(diǎn),主要的方法有基于圖神經(jīng)網(wǎng)絡(luò)方法和注意力機(jī)制的方法。在基于圖神經(jīng)網(wǎng)絡(luò)的方法中,F(xiàn)u等人[29]提出了一種基于圖卷積網(wǎng)絡(luò)(GCN)的端到端聯(lián)合抽取模型GraphRel,該模型利用圖卷積網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)命名實(shí)體和關(guān)系。Fei等人[30]將復(fù)雜的重疊情抽取任務(wù)視為一個(gè)多重預(yù)測問題,使用圖注意模型對實(shí)體之間的關(guān)系圖進(jìn)行建模。Zhao 等人[31]提出了一種基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的表示迭代融合關(guān)系抽取方法,將關(guān)系和詞建模為圖上的節(jié)點(diǎn),并通過消息傳遞機(jī)制來得到更適合關(guān)系抽取任務(wù)的節(jié)點(diǎn)表示。在基于注意力機(jī)制的方法中,Liu等人[32]提出了一種基于注意力的聯(lián)合關(guān)系抽取模型,該模型設(shè)計(jì)了一種有監(jiān)督的多頭自注意機(jī)制作為關(guān)系檢測模塊,分別學(xué)習(xí)每種關(guān)系類型之間的關(guān)聯(lián)來識別重疊關(guān)系和關(guān)系類型。Lai等人[33]提出了一種基于序列標(biāo)注的聯(lián)合抽取模型,該模型在句子編碼信息之后添加多頭注意力層以獲得句子和關(guān)系的表征,并對句子表示進(jìn)行序列標(biāo)注來獲得實(shí)體對。Geng 等人[34]采用卷積運(yùn)算得到字級和詞級的嵌入,并傳遞給多頭注意機(jī)制。然后使用多頭注意機(jī)制對上下文語義和嵌入進(jìn)行編碼,得到最終的標(biāo)簽序列。Nguyen等人[35]使用BiLSTM對句子進(jìn)行編碼,在關(guān)系抽取部分使用雙仿射注意力機(jī)制來解決關(guān)系重疊問題,在CoNLL04 數(shù)據(jù)集上驗(yàn)證了雙仿射分類器比線性分類器的顯著優(yōu)勢,但該模型的標(biāo)注框架無法解決中文領(lǐng)域嵌套實(shí)體的關(guān)系抽取問題。

2 模型介紹

BAMRel 模型主要思路是共享BERT 編碼層,將編碼層信息共用于實(shí)體抽取和關(guān)系抽取部分。在實(shí)體抽取部分利用BERT 最后兩層編碼信息進(jìn)行全連接層降維來分別表示實(shí)體的頭部信息和尾部信息,然后使用雙仿射注意力機(jī)制進(jìn)行分類,形成對實(shí)體邊界span及標(biāo)簽類型type 的界定;在關(guān)系抽取部分,實(shí)體類型作為較強(qiáng)特征,對實(shí)體抽取部分得到的實(shí)體標(biāo)簽類型進(jìn)行嵌入,與BERT 最后兩層降維后的編碼信息進(jìn)行拼接分別表示分別關(guān)系三元組中主體subject和客體object信息,然后將編碼信息引入biaffine 模型構(gòu)建關(guān)系矩陣,最后利用實(shí)體邊界信息解碼形成對關(guān)系三元組(subject,predicate,object)的抽取。

本文提出的BAMRel 模型整體結(jié)構(gòu)圖如圖2 所示,模型從功能上可以分為句子編碼層、實(shí)體抽取層和關(guān)系抽取層三個(gè)部分。接下來將對這三個(gè)部分進(jìn)行介紹。

圖2 BAMRel模型的整體框架Fig.2 Overall framework of BAMRel model

2.1 句子編碼層

BERT(bidirectional encoder representation from transformers)[6]是一種自然語言處理預(yù)訓(xùn)練語言表征模型,通過預(yù)訓(xùn)練和微調(diào)可以解決多種NLP的任務(wù),推動(dòng)了自然語言處理的發(fā)展。BERT 的結(jié)構(gòu)是來自于Transformers模型的Encoder 部分,內(nèi)部結(jié)構(gòu)由Self-Attention Layer和Layer Normalization 堆疊而產(chǎn)生。針對傳統(tǒng)預(yù)訓(xùn)練模型無法并行處理句子編碼、一詞多義和預(yù)訓(xùn)練向量一成不變等問題,BERT 模型加入了位置編碼(positional encoding)和多頭自注意力機(jī)制(self-attention)來解決上述問題,使得預(yù)訓(xùn)練模型性能得到了極大的提升,并在多個(gè)任務(wù)中廣泛應(yīng)用。

如圖3 所示,BERT 模型輸入包括三個(gè)部分,分別為字或詞嵌入(token embedding)、片段嵌入(segment embedding)和位置編碼嵌入(position embedding)。由于片段嵌入是為了在需要判斷兩個(gè)句子之間關(guān)系的任務(wù)中區(qū)分兩個(gè)句子信息,故在關(guān)系抽取任務(wù)中不適用片段嵌入。將句子x通過分詞器得到分詞后的序列X,X=(x1,x2,…,xn),然后將X編碼成一個(gè)字嵌入矩陣We和位置嵌入矩陣Wp,將兩個(gè)向量相加得到輸入的向量E=(E1,E2,…,EN),如式(1)所示,然后將向量E通過第一層和第N層的Transformer網(wǎng)絡(luò)得到文本的向量表示H1和HN,分別如式(2)和式(3)所示:

圖3 BERT模型結(jié)構(gòu)圖Fig.3 Structural diagram of BERT model

其中,HN為句子經(jīng)過第N層Transformer 網(wǎng)絡(luò)進(jìn)行編碼后的輸出。本文將包含有不同語義信息的BERT 最后兩層編碼層作為共享編碼層,即HN-1和HN層。

2.2 實(shí)體抽取層

實(shí)體抽取層完成命名實(shí)體識別(NER)任務(wù),最常見的標(biāo)注方式是序列標(biāo)注,但在信息抽取任務(wù)中已經(jīng)無法解決實(shí)體嵌套、類型混淆等復(fù)雜抽取問題。旅游領(lǐng)域信息抽取實(shí)體嵌套標(biāo)注樣例如表2所示。

表2 旅游領(lǐng)域?qū)嶓w嵌套標(biāo)注樣例Table 2 Sample nested annotation of entities in travel domain

首先將BERT最后兩層編碼信息HN-1和HN進(jìn)行拼接得到包含有不同特征的句子表示x,然后使用兩個(gè)單獨(dú)的全連接神經(jīng)網(wǎng)絡(luò)對特征降維,分別創(chuàng)建span不同表示的起點(diǎn)hs和終點(diǎn)he。

其中,si和ei分別是實(shí)體i的span開始和結(jié)束的位置索引。與直接使用BERT模型的輸出相比,這樣處理得到的實(shí)體的開始和結(jié)束的上下文是不同的,為雙仿射變換提供了更準(zhǔn)確的信息。最后,在句子上使用雙仿射模型創(chuàng)建維度l×l×c評分函數(shù)rm,其中l(wèi)為句子長度,c為實(shí)體類型種類數(shù)+1(一種非實(shí)體類型),如式(7)所示:

其中,Um對hs(i)為頭he(i)為尾的實(shí)體類別后驗(yàn)概率建模,維度為d×c×d;Wm對hs(i)為頭或he(i)為尾的實(shí)體類別后驗(yàn)概率分別建模,維度為2d×c;bm為偏置,對類別為c的先驗(yàn)概率建模。

通過計(jì)算rm就可以得到在滿足si≤ei條件的所有實(shí)體所有可能的標(biāo)簽類型分?jǐn)?shù),并對任意實(shí)體span賦予分類標(biāo)簽y:

然后類別分?jǐn)?shù)rm對所有可能的span進(jìn)行降序排列。最后設(shè)定閾值,對第i種實(shí)體類別標(biāo)簽分?jǐn)?shù)y(i)大于閾值的位置進(jìn)行解碼。

此任務(wù)是一個(gè)多分類問題,在softmax 激活函數(shù)之后使用交叉熵?fù)p失函數(shù)對模型進(jìn)行優(yōu)化,實(shí)體抽取部分損失函數(shù)Lner如下:

2.3 關(guān)系抽取層

首先將共享編碼層x經(jīng)過兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)分別得到主體(subject)和客體(object)的特征表示s(i) 和o(j),目的是將高維度包含豐富信息的編碼層通過全連接神經(jīng)網(wǎng)絡(luò)降為只包含關(guān)系依賴信息的低維度的特征,這樣可以加速訓(xùn)練,同時(shí)防止過擬合。第i個(gè)主體和第j個(gè)客體向量表示為:

其中,si和oj分別是主體和客體位置索引。同時(shí)實(shí)體抽取部分得到的實(shí)體標(biāo)簽進(jìn)行標(biāo)簽嵌入轉(zhuǎn)化為特征向量ce,分別與s(i)和o(j)進(jìn)行concat連接,然后得到了包含關(guān)系依賴信息和實(shí)體標(biāo)簽信息的主體token 序列S(i)和客體token序列O(j)。實(shí)體標(biāo)簽融合后第i個(gè)主體和第j個(gè)客體向量表示為:

其中,ei和ej分別是實(shí)體和客體實(shí)體類型標(biāo)簽的位置索引。目標(biāo)是為主體S(i)每個(gè)tokenSi(i)識別出和每個(gè)客體Oj(j)的組合最可能對應(yīng)的關(guān)系標(biāo)簽rk,最后S(i)和O(j)的token序列進(jìn)行雙仿射變換后構(gòu)建出維度為l×l×r的Attention 矩陣,其中l(wèi)為句子長度,r為關(guān)系類型數(shù)。計(jì)算給定關(guān)系標(biāo)簽rk的tokenSi(i)和Oj(j)之間分?jǐn)?shù)的公式如式(15):

其中,Uk對Si(i)為主體Oj(j)為客體關(guān)系類別后驗(yàn)概率建模,維度為d×r×d;Wk對Si(i)為主體或Oj(j)為客體的關(guān)系類別后驗(yàn)概率建模,維度為2d×r;bk為偏置,對類別關(guān)系為r的先驗(yàn)概率建模。

使用sigmoid 激活函數(shù)對主體Si(i)選擇Oj(j)作為它們之間具有關(guān)系標(biāo)簽rk的客體的概率進(jìn)行計(jì)算,計(jì)算如公式(16):

然后設(shè)置閾值,對于在某種關(guān)系類型下概率值超出閾值的組合標(biāo)記為1,其他標(biāo)記為0。最后對標(biāo)記為1的位置進(jìn)行解碼。

使用交叉熵?fù)p失函數(shù)對關(guān)系抽取損失進(jìn)行計(jì)算,關(guān)系抽取部分損失函數(shù)Lrel如式(17):

對于聯(lián)合實(shí)體和關(guān)系的抽取任務(wù),最終的損失函數(shù)定義為:

2.4 解碼方式

實(shí)體抽取部分,設(shè)置閾值的為0.5。由2.2 節(jié)可知,圖2 中輸入文本使用雙仿射模型創(chuàng)建維度l×l×c評分函數(shù)rm,第一個(gè)維度l表示實(shí)體的開始位置,第二個(gè)維度l表示實(shí)體的結(jié)束位置,第三個(gè)維度c表示實(shí)體類型編號。經(jīng)過實(shí)體抽取層計(jì)算則有:在實(shí)體類型為“景點(diǎn)名稱”的標(biāo)簽上經(jīng)過降序排列后有rm(0,6,1)>0.5,rm(9,12,1)>0.5,即實(shí)體類型為“景點(diǎn)名稱”的實(shí)體有“杭州西湖風(fēng)景區(qū)”和“蘇堤春曉”;在實(shí)體類型為“城市名稱”的標(biāo)簽上經(jīng)過降序排列后有rm(0,1,2)>0.5,即實(shí)體類型為“城市名稱”的實(shí)體有“杭州”。通過解碼可得到實(shí)體列表[“杭州”“杭州西湖風(fēng)景區(qū)”“蘇堤春曉”]。圖4 為嵌套實(shí)體“杭州西湖風(fēng)景區(qū)”使用Biaffine機(jī)制構(gòu)造的Span矩陣。

圖4 Biaffine機(jī)制構(gòu)造的Span矩陣Fig.4 Span matrix constructed by Biaffine mechanism

關(guān)系抽取部分,設(shè)置閾值為0.5。由2.3節(jié)可知,圖2中輸入文本經(jīng)過實(shí)體抽取層將實(shí)體類型信息融入到共享的句子編碼信息中,然后使用雙仿射模型創(chuàng)建維度l×l×r評分函數(shù)rk,第一個(gè)維度l表示主體(subject)最后一個(gè)字符的位置,第二個(gè)維度l表示客體(object)最后一個(gè)字符的位置,第三個(gè)維度r表示關(guān)系類型編號。經(jīng)過關(guān)系抽取層計(jì)算則有:σ(rk(6,1,1))>0.5,σ(rk(6,12,2))>0.5,σ(rk(12,1,1))>0.5,σ(rk(12,6,3))>0.5,如圖2關(guān)系抽取部分所示,這些位置在對應(yīng)關(guān)系位置上均被標(biāo)注為1。

最后,結(jié)合實(shí)體列表和關(guān)系編號列表即可完成對含有嵌套實(shí)體的關(guān)系三元組[(杭州西湖風(fēng)景區(qū),所在城市,杭州),(杭州西湖風(fēng)景區(qū),著名景點(diǎn),蘇堤春曉),(蘇堤春曉,所在城市,杭州),(蘇堤春曉,所屬景區(qū),杭州西湖風(fēng)景區(qū))]的抽取。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集介紹

由于旅游領(lǐng)域暫無公開的實(shí)體和關(guān)系抽取聯(lián)合任務(wù)的數(shù)據(jù)集,本文綜合考慮結(jié)構(gòu)化關(guān)系三元組中景點(diǎn)信息缺失程度和旅游領(lǐng)域文本信息中出現(xiàn)頻次,定義了實(shí)體類型和關(guān)系類型。結(jié)構(gòu)化三元組和文本信息主要爬取自百度百科和去哪兒、攜程、馬蜂窩等垂直旅游網(wǎng)站,然后基于遠(yuǎn)程監(jiān)督的思想,利用結(jié)構(gòu)化三元組對文本信息進(jìn)行回標(biāo),輔助構(gòu)建數(shù)據(jù)集,最終構(gòu)建了旅游領(lǐng)域關(guān)系抽取數(shù)據(jù)集TFRED(tourism field relation extraction dataset),句子條數(shù)共計(jì)10 604 條,包含嵌套實(shí)體句子1 166 條,約占數(shù)據(jù)集11%。每條句子包含一種或多種關(guān)系,句子中的關(guān)系三元組共計(jì)18 480 個(gè)。訓(xùn)練集、驗(yàn)證集、測試集按照8∶1∶1 比例分割,數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)信息如表3所示。

表3 TFRED數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)Table 3 Detailed statistics of TFRED dataset

為了驗(yàn)證模型改進(jìn)策略的有效性和BAMRel 模型的魯棒性,在公開的中文關(guān)系抽取數(shù)據(jù)集DuIE[36]上進(jìn)行驗(yàn)證。DuIE數(shù)據(jù)集包含45萬個(gè)實(shí)例、49種常用關(guān)系類型、32 種實(shí)體類型、34 萬個(gè)關(guān)系三元組、21 萬條句子。該數(shù)據(jù)集包含大量重疊關(guān)系,因此基于該數(shù)據(jù)集可以對模型重疊關(guān)系抽取能力進(jìn)行評估。

3.2 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

本文模型使用的GPU 為GeForce RTX 2080Ti,編程語言為Python3.7,深度學(xué)習(xí)框架為tensorflow2.0。本文使用模型對句子長度進(jìn)行了限制,最大句子長度為128,訓(xùn)練過程中batch_size 大小為16,使用初始學(xué)習(xí)率為1E-5的Adam優(yōu)化器在訓(xùn)練集上學(xué)習(xí)100輪,在驗(yàn)證集上獲得最佳F1 值模型,并在測試集上得到實(shí)驗(yàn)結(jié)果。模型實(shí)體抽取部分和關(guān)系抽取部分共享編碼層后連接的前饋神經(jīng)網(wǎng)絡(luò)維度均為128,使用的激活函數(shù)均為relu。在關(guān)系抽取部分嵌入的實(shí)體標(biāo)簽維度為16,使用Dropout 大小為0.2 來加快訓(xùn)練速度和防止過擬合。實(shí)體抽取部分使用softmax 多分類交叉熵?fù)p失函數(shù),關(guān)系抽取部分使用sigmoid 二分類交叉熵?fù)p失函數(shù),兩部分閾值設(shè)置為0.5,該閾值通過實(shí)驗(yàn)進(jìn)行搜索得到。

3.3 對比模型介紹

為了驗(yàn)證BAMRel模型的有效性和魯棒性,本文選取了以下主流的聯(lián)合抽取模型和相關(guān)改進(jìn)模型進(jìn)行對比實(shí)驗(yàn)。

(1)Multi-head[37]:使用BiLSTM作為共享編碼器,在實(shí)體識別部分使用條件隨機(jī)場解碼,將實(shí)體類型信息融合到關(guān)系抽取過程中,并把關(guān)系抽取轉(zhuǎn)化為一個(gè)多頭選擇的問題。

(2)BERT+Multi-head:將Multi-head 中的BiLSTM替換為BERT編碼器。

(3)Multi-head(Ptr-Net):將Multi-head中的BiLSTM替換為BERT 編碼器,同時(shí)為了解決實(shí)體嵌套問題,將基于條件隨機(jī)場的解碼方式替換為多標(biāo)簽指針網(wǎng)絡(luò)。

(4)CasRel[38]:提出一種用于解決關(guān)系重疊問題的級聯(lián)式二元標(biāo)注框架,使用BERT 作為句子編碼器,將關(guān)系建模為將句子中的主語映射到賓語的函數(shù),使用多層關(guān)系標(biāo)簽的指針網(wǎng)絡(luò)進(jìn)行解碼。此方案中對于每組文本數(shù)據(jù),分別抽取其所有不同的S(Subject)以及其相關(guān)的PO組成多組數(shù)據(jù)進(jìn)行訓(xùn)練。

(5)CasRel*:將CasRel模型訓(xùn)練方式更改為每組文本數(shù)據(jù)僅隨機(jī)抽取一個(gè)S(Subject)以及其相關(guān)的PO構(gòu)建成一組數(shù)據(jù)的方式進(jìn)行訓(xùn)練。

(6)CopyMTL[39]:一種基于復(fù)制機(jī)制編碼器-解碼器結(jié)構(gòu)的聯(lián)合關(guān)系抽取模型,Encoder 部分使用BiLSTM建模句子上下文信息,Decoder 部分則結(jié)合復(fù)制機(jī)制生成多對三元組。

(7)WDec[40]:一個(gè)主要解決關(guān)系重疊問題提出的編碼器-解碼器結(jié)構(gòu)的聯(lián)合關(guān)系抽取模型,在實(shí)體識別的過程中使用掩碼機(jī)制,然后根據(jù)實(shí)體識別結(jié)果進(jìn)行字解碼。

(8)Seq2UMTree[41]:為了解決序列到序列模型在解碼過程中曝光偏差問題提出一種新的序列到無序多樹的聯(lián)合抽取模型,解碼器部分使用一個(gè)簡單的樹形結(jié)構(gòu)來生成三元組。

(9)FETI[42]:一種新的融合頭尾實(shí)體類型信息的聯(lián)合抽取模型,在解碼階段增加了頭尾實(shí)體類別的預(yù)測,并通過輔助損失函數(shù)進(jìn)行約束。

(10)Biaffine(NER):將Multi-head(Ptr-Net)實(shí)體抽取部分的多標(biāo)簽指針網(wǎng)絡(luò)替換為雙仿射分類器進(jìn)行嵌套實(shí)體識別,關(guān)系抽取部分使用多頭選擇機(jī)制進(jìn)行重疊關(guān)系抽取。

(11)Biaffine(RE):將Multi-head(Ptr-Net)關(guān)系抽取部分的多頭選擇機(jī)制替換為雙仿射分類器進(jìn)行重疊關(guān)系抽取,實(shí)體抽取部分使用多標(biāo)簽指針網(wǎng)絡(luò)進(jìn)行嵌套實(shí)體識別。

3.4 評價(jià)指標(biāo)

實(shí)體抽取部分和關(guān)系抽取部分評價(jià)指標(biāo)都使用準(zhǔn)確率(P),召回率(R)和F1 值,公式參數(shù)定義如下:TP為正確識別的個(gè)數(shù),F(xiàn)P 是識別出的不相關(guān)的個(gè)數(shù),F(xiàn)N是數(shù)據(jù)集中存在且未被識別出來的個(gè)數(shù)。

通常精確率和召回率的數(shù)值越高,代表實(shí)驗(yàn)的效果好,然而有時(shí)精確率越高,召回率越低。所以需要綜合考量加權(quán)調(diào)和平均值,也就是F1值,F(xiàn)1值定義如下:

在本實(shí)驗(yàn)中,采用嚴(yán)格的評價(jià)指標(biāo),即如果實(shí)體的邊界和類型都是正確的,則認(rèn)為該實(shí)體識別是正確的;當(dāng)關(guān)系的類別和頭尾實(shí)體都正確時(shí),則認(rèn)為抽取的關(guān)系是正確的。

3.5 實(shí)驗(yàn)分析

3.5.1 非嵌套實(shí)體聯(lián)合抽取對比實(shí)驗(yàn)

由于主流的聯(lián)合抽取模型無法解決包含嵌套實(shí)體的重疊關(guān)系抽取問題,故將TFRED 數(shù)據(jù)集篩選出不包含嵌套實(shí)體的句子進(jìn)行對比實(shí)驗(yàn)。為了驗(yàn)證模型的有效性魯棒性,同時(shí)也在不包含嵌套實(shí)體的百度DuIE 數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。

表4 非嵌套實(shí)體聯(lián)合抽取實(shí)驗(yàn)結(jié)果Table 4 Results of non-nested entity joint extraction experiments

實(shí)驗(yàn)結(jié)果顯示,BAMRel模型在自行構(gòu)建的TFRED數(shù)據(jù)集和公開數(shù)據(jù)集DuIE 數(shù)據(jù)集上的表現(xiàn)均優(yōu)于主流的聯(lián)合抽取模型,體現(xiàn)了模型在更加復(fù)雜場景中的魯棒性和有效性。其中基線模型CopyMTL、WDec、Seq2UMTree 實(shí)驗(yàn)結(jié)果均來自于文獻(xiàn)[41]中的結(jié)果,F(xiàn)ETI 選擇F1 值最高的解碼順序。從TFRED 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果來看,Multi-head 的多頭選擇機(jī)制在使用BERT 作為編碼器后關(guān)系抽取結(jié)果提升了0.053,而BAMRel 模型比BERT+Multi-head 模型實(shí)驗(yàn)結(jié)果高出0.012。這是由于使用雙仿射注意力機(jī)制構(gòu)建的分類矩陣擁有更多的參數(shù),且乘性方法相比于Multi-head的多頭選擇機(jī)制能捕捉到Subject 和Object 特征之間的交叉關(guān)系,而Multi-head 則是通過簡單的線性變化進(jìn)行組合。CasRel 模型由于設(shè)計(jì)原因?qū)τ诿拷M文本數(shù)據(jù)每次只能傳入一個(gè)S(Subject)和其相關(guān)的PO 進(jìn)行訓(xùn)練,而存在重疊關(guān)系的復(fù)雜句子中可能主語不同,因此對每條文本遍歷所有不同主語(S)的標(biāo)注樣本構(gòu)建訓(xùn)練集比隨機(jī)選擇S更能增加模型的魯棒性,因此CasRel比CasRel*的實(shí)驗(yàn)結(jié)果高了0.012。

從DuIE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果來看,CopyMTL、WDec、Multi-head 等模型的準(zhǔn)確率要高于召回率0.01~0.015,這是由于模型對句子包含多種關(guān)系三元組時(shí)抽取能力不足造成的,這類模型不適用于更加復(fù)雜的關(guān)系抽取場景。而Multi-head 改進(jìn)后的Multi-head(Ptr-Net)在緩解了高準(zhǔn)確率低召回率的情況下模型性能提升了近0.01,體現(xiàn)了預(yù)訓(xùn)練模型對模型性能提升產(chǎn)生的巨大影響。Seq2UMTree 和FETI 模型都是基于編碼器-解碼器的模型,但FETI在解碼過程中融合了實(shí)體類型信息,F(xiàn)1值比Seq2UMTree提升了0.015,說明了實(shí)體類型信息對關(guān)系抽取結(jié)果提升具有促進(jìn)作用,側(cè)面說明了BAMRel模型融合實(shí)體類型信息進(jìn)行關(guān)系抽取的合理性和有效性。CasRel 模型使用多層標(biāo)簽指針網(wǎng)絡(luò)巧妙地將關(guān)系的預(yù)測隱性的放在了尾實(shí)體的抽取過程中,結(jié)合預(yù)訓(xùn)練模型BERT 在兩個(gè)數(shù)據(jù)集上取得了較高的F1 值。忽略模型本身設(shè)計(jì)方面的差異,解碼時(shí)CasRel的多個(gè)二元指針網(wǎng)絡(luò)使用的是簡單的線性分類器,而本文BAMRel模型在實(shí)體抽取部分和關(guān)系抽取部分都使用雙仿射分類器。雙仿射分類器構(gòu)建的注意力矩陣能夠使實(shí)體識別過程中開始位置token和結(jié)束位置token產(chǎn)生信息交互,同時(shí)能夠捕捉到關(guān)系抽取時(shí)頭尾實(shí)體特征之間的交叉關(guān)系而提升實(shí)驗(yàn)結(jié)果,因而BAMRel 模型F1 值在TRFED數(shù)據(jù)集和DuIE 數(shù)據(jù)集上比CasRel 模型分別高出0.006和0.004。

3.5.2 嵌套實(shí)體聯(lián)合抽取對比實(shí)驗(yàn)

本文首先將Multi-head[37]聯(lián)合抽取模型應(yīng)用于中文關(guān)系抽取,并針對其無法對句子中包含嵌套實(shí)體的關(guān)系進(jìn)行抽取和抽取性能欠佳進(jìn)行了改進(jìn),表5為一系列改進(jìn)策略在包含嵌套實(shí)體的TRFED數(shù)據(jù)集上進(jìn)行的對比實(shí)驗(yàn)。在進(jìn)行實(shí)體標(biāo)簽類型嵌入時(shí)存在兩種方案。第一種方案是頭尾實(shí)體的所有token信息都與實(shí)體類型信息進(jìn)行拼接,第二種方案是只對頭尾實(shí)體最后一個(gè)字符的token信息與實(shí)體類型信息進(jìn)行拼接,其余的token實(shí)體類型都編碼為0,這兩種改進(jìn)方案分別對應(yīng)表5 第一組對比實(shí)驗(yàn)標(biāo)簽全部嵌入(All)和標(biāo)簽部分嵌入(Part)。從此實(shí)驗(yàn)結(jié)果來看,在實(shí)體識別結(jié)果差異不大的情況下,頭尾實(shí)體部分標(biāo)簽嵌入比全部標(biāo)簽嵌入F1 值高了0.007,顯然第二種方案更適合關(guān)系抽取方式,只對頭尾實(shí)體的最后一個(gè)字符傳入實(shí)體類型信息在不會(huì)造成信息丟失的情況下增加了實(shí)體內(nèi)token 信息的區(qū)分度,有利于頭尾實(shí)體之間關(guān)系的判斷。

表5 嵌套實(shí)體聯(lián)合抽取實(shí)驗(yàn)結(jié)果Table 5 Results of nested entity joint extraction experiments

Biaffine(NER)與Multi-head(Ptr-Net)相比,實(shí)體識別F1 值提升了0.009,同時(shí)關(guān)系抽取F1 值提升了0.005。Biaffine(RE)與Multi-head(Ptr-Net)相比,實(shí)體識別F1 值與Multi-head(Ptr-Net)模型保持不變的情況下,關(guān)系抽取F1 值提升了0.011。原因是雙仿射分類器比線性分類器擁有更多的參數(shù),且能捕捉到特征之間的交叉關(guān)系,從而提升實(shí)驗(yàn)結(jié)果。可以將表5中的第二組實(shí)驗(yàn)看作BAMRel模型對雙仿射注意力的消融實(shí)驗(yàn),在Multi-head(Ptr-Net)模型上驗(yàn)證了使用雙仿射注意力機(jī)制構(gòu)建分類矩陣的優(yōu)越性。BAMRel 模型在實(shí)體抽取部分和關(guān)系抽取部分共用Biaffine模型,最終在TFRED數(shù)據(jù)集上F1 值達(dá)到了91.8%,關(guān)系抽取F1 值比基礎(chǔ)模型提升了0.017。

3.5.3 BAMRel模型實(shí)體和關(guān)系抽取能力評估

為了進(jìn)一步驗(yàn)證BAMRel 模型從包含不同三元組數(shù)量的句子中對實(shí)體識別和關(guān)系抽取的能力,將TFRED數(shù)據(jù)集分成了5 類,表6 顯示了從不同三元組數(shù)量的句子中識別實(shí)體和關(guān)系抽取的能力。

表6 BAMRel模型實(shí)體和關(guān)系抽取能力評估結(jié)果Table 6 Evaluation results of BAMRel model entity and relation extraction capabilities

從表6中實(shí)體識別結(jié)果可以發(fā)現(xiàn),在包含不同關(guān)系數(shù)量的句子上實(shí)驗(yàn)結(jié)果表現(xiàn)出較大差異性。分析其原因是由于每個(gè)句子中都可能存在沒有預(yù)定義關(guān)系的實(shí)體,但在進(jìn)行實(shí)體識別時(shí)都將其識別了出來因而產(chǎn)生誤差。聯(lián)合抽取模型在數(shù)據(jù)標(biāo)注時(shí)只標(biāo)注了有預(yù)定義關(guān)系的頭尾實(shí)體,而句子中不同程度存在無關(guān)系實(shí)體,例如標(biāo)注樣例:{"text":"青島海軍博物館,東鄰魯迅公園、西接小島公園與棧橋隔水相望、南瀕一望無際的大海、北面是著名景點(diǎn)信號山公園,占地4 萬多平方米。","spo_list":[{"predicate":"所在城市","object":"青島","subject":"青島海軍博物館","object_type":"城市","subject_type":"景點(diǎn)"},{"predicate":"占地面積","object":"4萬多平方米","subject":"青島海軍博物館","object_type":"Number","sub-ject_type":"景點(diǎn)"}]}

在此樣例中標(biāo)注的實(shí)體只有“青島海軍博物館”“青島”“4萬多平方米”,其中城市“青島”為嵌套實(shí)體,而在句子中還存在未被標(biāo)注的“魯迅公園”“小島公園”“棧橋”和“信號山公園”無關(guān)系實(shí)體會(huì)被識別出來,因而會(huì)造成實(shí)體識別結(jié)果出現(xiàn)低準(zhǔn)確率高召回率的情況。每個(gè)測試句子中包含無關(guān)系實(shí)體不同的數(shù)量造成了實(shí)體識別結(jié)果的差異性。表6 中包含實(shí)體嵌套的命名實(shí)體識別F1 值均值為0.968,與表4 中不包含嵌套實(shí)體的F1值0.967 相差不大,說明BAMRel 較好地解決了實(shí)體嵌套的問題。

從表中關(guān)系抽取結(jié)果可以發(fā)現(xiàn),隨著句子中所包含的三元組的數(shù)量增加,模型的性能逐步降低。排除關(guān)系抽取難度最小(N=1)的情況,句子中關(guān)系數(shù)量從2增加到5 以上對關(guān)系抽取的F1 值僅降低了0.031,意味著模型受到輸入句子復(fù)雜性增加的影響較小,適合用于從復(fù)雜句子中抽取多個(gè)有重疊關(guān)系的三元組。

3.5.4 實(shí)體類型對關(guān)系抽取影響評估

本文提出的BAMRel模型和Multi-head[37]模型都將實(shí)體類型信息與共享的編碼信息融合進(jìn)行關(guān)系抽取。但是實(shí)體識別部分設(shè)計(jì)存在兩種方案,第一種是實(shí)體識別僅確定實(shí)體邊界,來減少誤差傳播。第二種方案是實(shí)體識別同時(shí)確定實(shí)體邊界和實(shí)體類型,更多的實(shí)體標(biāo)簽數(shù)量會(huì)增加識別難度傳播更多的誤差,但實(shí)體類型標(biāo)簽可作為特征融合到關(guān)系抽取過程中得到更好的實(shí)驗(yàn)結(jié)果。此時(shí)無法判斷兩種方案的優(yōu)劣和第二種方案中融合實(shí)體類型信息對關(guān)系抽取結(jié)果的影響程度。因此設(shè)計(jì)了表7 四組對比實(shí)驗(yàn)來評估兩種方案優(yōu)劣和實(shí)體類型對關(guān)系抽取部分的影響。

由于Multi-head 模型使用序列標(biāo)注方式,無法對嵌套實(shí)體進(jìn)行識別,故將TFRED 數(shù)據(jù)集篩選出不包含實(shí)體嵌套的句子進(jìn)行對比實(shí)驗(yàn)。表7 中對不同模型關(guān)系抽取過程中是否融合實(shí)體邊界信息(Span)和實(shí)體類型信息(Type)進(jìn)行了對比實(shí)驗(yàn)。從第一組實(shí)驗(yàn)結(jié)果中可以看出,實(shí)體識別任務(wù)同時(shí)確定實(shí)體邊界和實(shí)體類型信息的F1 值比只確定邊界信息的F1 值降低了0.12,但是在關(guān)系抽取的過程中融合實(shí)體類型信息的F1值比不融合實(shí)體類型信息的F1值高了0.018。圖5記錄了表7中第一組實(shí)驗(yàn)50 個(gè)epoch 實(shí)驗(yàn)結(jié)果(Ner_f1 和Re_f1 分別代表實(shí)驗(yàn)中未融合實(shí)體類型的實(shí)體識別F1值和關(guān)系抽取F1 值,Ner_t_f1 和Re_t_f1 分別代表實(shí)驗(yàn)中融合實(shí)體類型的實(shí)體識別F1值和關(guān)系抽取F1值),Ner_t_f1在50個(gè)epoch 的測試集上的表現(xiàn)一直低于Ner_f1,而趨于穩(wěn)定的Re_t_f1 卻比Re_f1 平均高0.02 左右,因此可以得到以下三點(diǎn)結(jié)論:

圖5 第一組對比實(shí)驗(yàn)結(jié)果Fig.5 Results of first set of comparative experiment

(1)在模型評估階段,實(shí)體識別任務(wù)在同時(shí)確定實(shí)體邊界和實(shí)體類型產(chǎn)生的誤差對關(guān)系抽取結(jié)果的不利影響遠(yuǎn)小于將實(shí)體類型信息將其融合到關(guān)系抽取部分對關(guān)系抽取結(jié)果的有利影響,因此值得犧牲實(shí)體識別部分性能確定實(shí)體類型信息將其融合到關(guān)系抽取部分。

(2)實(shí)體識別部分功能設(shè)計(jì)的兩種方案中,融合實(shí)體類型信息方案優(yōu)于另外一種。

(3)Multi-head模型使用BiLSTM作為編碼器,在關(guān)系抽取部分融合實(shí)體類型信息比不融合實(shí)體類型信息F1值提升了約0.02。

從表7中的第二組對比實(shí)驗(yàn)的結(jié)果可以看到,在使用預(yù)訓(xùn)練模型的情況下,實(shí)體識別任務(wù)同時(shí)確定實(shí)體邊界和實(shí)體類型信息的F1值比只確定邊界信息的F1值只降低了0.005,縮小了兩種識別方案的差距,但是在關(guān)系抽取的過程中融合實(shí)體類型信息的F1值比不融合實(shí)體類型信息的F1 值還是高了0.01 左右,同樣縮小了關(guān)系抽取結(jié)果的差距。結(jié)合圖6第二組對比實(shí)驗(yàn)50個(gè)epoch在測試集上的表現(xiàn),依舊滿足第一組實(shí)驗(yàn)的結(jié)論,實(shí)體類型信息對關(guān)系抽取的影響不可忽視,但是預(yù)訓(xùn)練模型弱化了實(shí)體類型對關(guān)系抽取結(jié)果的影響,Re_t_f1 比Re_f1平均高0.01左右。

圖6 第二組對比實(shí)驗(yàn)結(jié)果Fig.6 Results of second comparative experiment

表7 實(shí)體類型標(biāo)簽對關(guān)系抽取影響評估結(jié)果Table 7 Evaluation results of impact of entity type labels on relation extraction

第三組實(shí)驗(yàn)是對融合實(shí)體邊界信息和實(shí)體類型信息Multi-head和BERT+Multi-head進(jìn)行的消融實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果來看,在關(guān)系抽取過程中不融合實(shí)體邊界和實(shí)體類型信息得到的實(shí)驗(yàn)結(jié)果與只融合實(shí)體邊界信息得到的實(shí)驗(yàn)結(jié)果相差不大。圖7和圖8分別是兩個(gè)模型在50個(gè)epoch的測試集上的表現(xiàn)(Re_t_f1表示融合了實(shí)體邊界信息和實(shí)體類型信息的關(guān)系抽取F1值,Re_u_f1表示未融合實(shí)體邊界信息和實(shí)體類型信息的關(guān)系抽取F1值),由圖7 圖8 可知Multi-head 模型Re_t_f1 比Re_u_f1平均高0.02左右,Bert+Multi-head模型Re_t_f1比Re_u_f1平均高0.01 左右,可以得到結(jié)論,實(shí)體類型對關(guān)系抽取F1 值的影響范圍大致在0.01~0.02。最后,設(shè)置第四組實(shí)驗(yàn),在BAMRel 模型上驗(yàn)證該結(jié)論。從實(shí)驗(yàn)結(jié)果可知,BAMRel模型融合實(shí)體邊界和實(shí)體類型信息的關(guān)系抽取F1 值比高0.008,對模型性能的提升接近這個(gè)范圍,該結(jié)論成立。

圖7 Multi-head消融實(shí)驗(yàn)Fig.7 Multi-head ablation experiment

圖8 BERT Multi-head消融實(shí)驗(yàn)Fig.8 BERT Multi-head ablation experiment

綜上所述,在聯(lián)合抽取模型中,實(shí)體類型可作為關(guān)系抽取模型的重要特征輸入,對關(guān)系抽取模型F1 值的提升大致在0.01~0.02 的范圍內(nèi)。本文提出的BAMRel模型融合實(shí)體類型信息進(jìn)行關(guān)系抽取是合理有效的。

4 總結(jié)

本文提出一種基于雙仿射注意力機(jī)制的實(shí)體關(guān)系聯(lián)合抽取模型BAMRel,模型在自行構(gòu)建的TFRED 數(shù)據(jù)集和公開的DuIE 數(shù)據(jù)集上都達(dá)到了最佳的實(shí)驗(yàn)結(jié)果,證明了BAMRel模型可以有效解決實(shí)體嵌套和關(guān)系重疊的三元組抽取問題。同時(shí)實(shí)體抽取和關(guān)系抽取部分共用Biaffine 模型構(gòu)造分類矩陣,降低了聯(lián)合抽取模型的復(fù)雜度,使得模型具有良好的性能。

在實(shí)驗(yàn)過程中,BAMRel模型在訓(xùn)練階段使用實(shí)體真實(shí)標(biāo)簽,而在評估階段使用預(yù)測標(biāo)簽,訓(xùn)練階段過于依賴真實(shí)標(biāo)簽而產(chǎn)生曝光偏差,會(huì)導(dǎo)致誤差傳播,如何解決曝光偏差問題是接下來值得研究的問題。另外,基于雙仿射注意力機(jī)制構(gòu)建的分類矩陣存在標(biāo)簽不平衡問題,解決標(biāo)簽不平衡問題也是接下來模型改進(jìn)的方向。

猜你喜歡
實(shí)驗(yàn)信息模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長實(shí)驗(yàn)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
展會(huì)信息
主站蜘蛛池模板: 91久久精品日日躁夜夜躁欧美| 国产玖玖玖精品视频| 55夜色66夜色国产精品视频| 免费无码网站| 97青草最新免费精品视频| аⅴ资源中文在线天堂| 中文字幕永久在线看| 日本人妻丰满熟妇区| 久久精品国产亚洲麻豆| 国产精品免费入口视频| 九月婷婷亚洲综合在线| 亚洲黄色网站视频| 国产精品网拍在线| 国产在线精品99一区不卡| 国产高潮视频在线观看| 嫩草国产在线| 国产真实乱子伦视频播放| 国内精品久久人妻无码大片高| 精品欧美一区二区三区久久久| 久久久久久久久18禁秘| 91久久国产热精品免费| 免费在线一区| 国产精品太粉嫩高中在线观看| 91 九色视频丝袜| 精品人妻无码中字系列| 日本不卡在线播放| 亚洲日本在线免费观看| 毛片网站在线播放| 亚洲成人一区二区| 精品欧美视频| 亚洲日本精品一区二区| 亚洲天堂网在线视频| 九九视频免费在线观看| 国产色伊人| 尤物精品国产福利网站| 欧美日韩精品一区二区视频| 秋霞一区二区三区| 欧美区一区| 男人天堂亚洲天堂| 欧洲熟妇精品视频| 成人精品区| 久久综合五月婷婷| 狠狠色婷婷丁香综合久久韩国 | 色综合五月婷婷| 天堂亚洲网| 无码中字出轨中文人妻中文中| 四虎AV麻豆| 国产欧美亚洲精品第3页在线| 亚洲成AV人手机在线观看网站| 精品少妇人妻无码久久| 久久这里只有精品66| 色婷婷丁香| 成人综合在线观看| 中文字幕永久视频| 亚洲三级色| 在线国产91| 黑色丝袜高跟国产在线91| 国产爽爽视频| 狠狠做深爱婷婷久久一区| 欧美yw精品日本国产精品| 国产乱子伦一区二区=| 日本爱爱精品一区二区| 中文字幕在线看| 欧美另类视频一区二区三区| 国产微拍精品| 国产特级毛片aaaaaa| 日韩A∨精品日韩精品无码| 欧美亚洲日韩不卡在线在线观看| 婷婷亚洲天堂| 亚洲欧洲免费视频| 亚洲swag精品自拍一区| 欧美精品一区二区三区中文字幕| 成人中文字幕在线| 欧美亚洲日韩中文| 亚洲欧美成人影院| 97国产精品视频自在拍| a级毛片一区二区免费视频| 亚洲日韩久久综合中文字幕| 青青国产成人免费精品视频| 亚洲男女在线| 日韩精品亚洲人旧成在线| 欧美伦理一区|