999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合領域先驗詞匯的遠程監督關系抽取模型

2022-09-07 03:20:08王會勇張曉明
計算機應用與軟件 2022年8期
關鍵詞:詞匯文本模型

王會勇 安 康 張曉明

(河北科技大學信息科學與工程學院 河北 石家莊 050000)

0 引 言

在領域知識圖譜構建過程中,概念或實體間的關聯關系發現是構建領域知識圖譜的重要基礎。但是,由于特定領域知識適用范圍小、知識結構較復雜、專業性較強等領域因素,使得領域知識圖譜構建難度較高,存在很多挑戰,例如通用領域的關系抽取方法并不能完全適用于特定領域,數據標注過程人工參與程度較高。因此,針對特定領域的關系抽取研究具有重要的現實意義。

目前隨著關系抽取任務的研究,常采用深度學習方法通過對文本特征的判斷來進行關系分類,文本特征是關系抽取模型進行關系分類的重要特征。在關系抽取任務中,常通過改進模型來提取更多的特征信息,進而提高關系抽取效率,而且外部知識特征也逐漸被引入到關系抽取模型中輔助關系分類。例如Li等[1]提出了一種基于因果關系詞匯的因果關系抽取模型,模型會將表達因果關系的詞匯特征引入到卷積神經網絡模型來輔助關系抽取任務,有效地利用先驗詞匯判別實體間的因果關系類別。因此,在特定領域中,基于外部知識的關系抽取模型可以充分利用領域知識和專家經驗,為關系抽取提供豐富的先驗特征,提高特定領域關系抽取的效率。而且在關系抽取研究中,常采用Mintz等[2]提出的遠程監督方法,遠程監督方法的自動標注數據能力可以減少大量人工標注的代價,為特定領域缺少標注數據的困難提供了解決方案。

因此,本文基于Li等[1]的方法提出了基于先驗詞匯的分段池化卷積神經網絡模型K-PCNN,利用領域的關系先驗詞匯輔助關系分類任務,并在Li等提出的因果關系抽取模型的基礎上拓展為多關系抽取。針對缺少標注數據的問題,采用了遠程監督的方法進行關系數據自動標注。本文的主要貢獻如下:

(1) 提出一種基于先驗詞匯的分段池化卷積神經網絡模型K-PCNN。該模型在卷積神經網絡中引入各類關系的先驗詞匯知識特征,利用先驗詞匯特征幫助模型判別關系類型,加強關系分類能力,以提高關系抽取性能。

(2) 提出一種基于遠程監督的領域數據標注方法,利用領域三元組知識以及領域文本語料,基于遠程監督的自動標注方法進行領域數據集構建,并且以金屬材料領域為例,構建了金屬材料領域關系抽取數據集MMRE。所提出的構建數據集的方案也可以應用到其他缺乏關系標注數據的特定領域中,用于關系抽取模型的訓練和評估。

1 相關工作

1.1 關系抽取方法

關系抽取任務是構建知識圖譜的重要環節,通過發現文本中實體對間的語義關系,為知識圖譜提供關系特征。目前常用的關系抽取方法有監督學習方法、無監督學習方法和半監督學習方法。

監督學習方法采用了深度學習模型,將關系抽取任務作為關系分類任務,常用的模型如卷積神經網絡模型[3-5]和循環神經網絡模型[6-8]。無監督學習關系抽取方法是一種聚類方法,主要依據相同語義關系具有相同的上下文信息這一特征,通過上下文信息對實體關系進行聚類,例如Ma[9]采用了K-means聚類算法。半監督學習方法包含基于BootStrapping的方法和Mintz等[2]提出的遠程監督方法。其中基于BootStrapping的方法是依賴人工標注好的種子實例和模板,然后迭代抽取關系模板和更多實例,例如Gupta等[10]提出了基于高置信度評估的BootStrapping方法;遠程監督方法假設一個句子中若包含一類關系涉及的實體對,則該句可以作為此類關系的訓練正例,這種自動標注方法大大減少了標注數據的人工成本,增加了大量的訓練樣本。

由于深度學習模型對于訓練數據的依賴,關系抽取任務需要大量的關系標注數據。以上方法中,監督學習方法和基于BootStrapping的半監督方法均需要標注大量的數據;人工標注的方法會耗費大量人力,不能適用于專業性較強的特定領域;遠程監督方法可以適用于特定領域,快速標注大量的領域數據,為領域關系抽取模型提供訓練數據。

1.2 關系抽取模型

在關系抽取任務中,常通過對深度學習模型的改進來獲取更多的文本特征,例如,Zeng等[11]在卷積神經網絡模型的基礎上,提出了一種根據實體對位置進行分段式最大池化的方法,可以獲得更多的文本特征,而且Zeng等[12]通過增加實體的位置信息和其他相關詞匯特征來提高關系預測準確率。Yan等[13]將句子的詞性特征、依存關系特征和短語語法樹特征進行融合,得到句子的特征表示,充分利用句子的語義信息,提高Text-CNN模型的抽取效率。Jia等[14]通過注意力機制發現表達關系類別的關系模式,利用發現的關系模式來實現關系抽取任務。Jat等[15]利用多種詞級注意力模型的互補特性來增強較長文本的句子表示能力,從而提升關系抽取性能。

以上的研究大多在文本特征的基礎上,繼續挖掘文本中所包含的重要特征,進而提高模型的關系抽取效率。但隨著自然語言處理的研究,外部知識賦能的模型逐漸被應用于關系抽取任務。基于外部知識的關系抽取模型可以把額外的知識特征作為輔助特征來判斷文本中的關系類別。例如Li等[1]利用因果關系的同義詞、近義詞作為關系先驗詞匯,利用先驗詞匯特征實現關系類別判斷,增加關系抽取能力。Zhang等[16]提出了一種基于知識庫的知識感知模型,并將傳統的關系抽取任務建模為關系檢索任務進行關系抽取。Zeng等[17]提出了基于關系路徑的關系抽取模型,借助中間實體和關系路徑來進行關系抽取。Nathani等[18]提出基于圖注意力模型的特征嵌入方法,通過獲取實體對在知識庫中相鄰實體和關系特征來增強特征表示。Vashishth等[19]利用了知識庫中實體類型和關系別名作為模型的附加信息,將附加信息作為關系抽取的軟約束,從而提升關系抽取性能。在特定領域中,采用基于外部知識特征的關系抽取方法能夠充分利用領域知識和專家經驗,為關系抽取提供豐富的經驗知識,從而提高關系抽取效率。

基于以上研究思路,本文采用了基于先驗知識的關系抽取方法,充分利用能夠表達關系類別的外部詞匯知識輔助領域關系抽取任務,并選擇具有良好學習能力的卷積神經網絡模型作為特征提取模型。同時,利用遠程監督方法的自動標注數據能力解決特定領域缺少標注數據的問題。

2 問題描述和概念定義

2.1 問題描述

領域關系抽取任務可以為知識圖譜的構建擴充三元組的數量,是發現實體對之間關系類別的重要過程。領域關系抽取任務的進行離不開領域關系抽取模型以及領域標注數據。因此,本文要解決的核心問題是領域先驗詞匯的獲取,以及將先驗詞匯特征應用于領域關系抽取模型,并為模型的訓練評估標注領域數據。本文通過獲取并利用已有的關系先驗詞匯為抽取模型提供外部特征信息,從而提高領域關系抽取效率;而且,有效利用領域文本語料及三元組為模型創建領域數據集,進行模型訓練評估。

2.2 概念定義

在定義相關概念之前,首先介紹本文中所使用的符號:三元組集合表示為T={T1,T2,…,Tn},Ti=,i=1,2,…,n,其中:h為頭實體,r為關系類型,t為尾實體;關系類別標簽集合表示為R={r1,r2,…,rn},ri∈R;詞匯集合表示為W={w1,w2,…,wn},其中wi為一個詞匯。

定義1關系先驗詞匯知識。本文采用了能夠描述關系類別的詞匯作為關系先驗詞匯。關系先驗詞匯知識是判斷文本所含關系類別的重要特征。先驗詞匯知識主要是從已有的詞匯知識庫、包含關系類別的文本語料、三元組中獲取,例如表1所示的Founder關系的先驗詞匯知識來源。

表1 Founder關系的先驗詞匯知識獲取來源

定義2領域關系抽取數據集RE。領域關系抽取數據集可表示為RE={(S1,r1),(S2,r2),…,(Sn,rn)},其中(Si,ri)為一組標注數據。Si=(si,hi,ti),其中:Si為一條標注實體對hi和ti的文本;si為未標注實體對的純文本;hi為頭實體;ti為尾實體;ri為標注的關系類別。

3 基于先驗詞匯的分段池化卷積神經網絡模型

針對特定領域關系抽取任務,本文提出基于先驗詞匯的分段池化卷積神經網絡模型K-PCNN。K-PCNN的模型結構如圖1所示,該模型主要包含兩個核心部分:基于先驗詞匯的卷積層(Convolution Layer with Priori Words)和分段池化層(Piecewise Max Pooling)。其中:模型的輸入為文本語句;Embedding Layer為模型嵌入層。最后是實現關系抽取的分類器。

基于先驗詞匯的卷積層是將關系先驗詞匯特征作為卷積神經網絡的卷積核權重,利用關系先驗知識特征來識別文本中包含的關系類別。先驗詞匯知識特征是該模型進行關系分類的重要依據,且先驗詞匯特征是用預訓練的詞向量進行向量表示,不需要在模型訓練時重新訓練。本文的模型中池化層采用了Zeng等[11]提出的分段池化,可以獲取更多的文本特征,減少降維過程的特征損失。

圖1 基于先驗詞匯的分段池化卷積神經網絡模型

3.1 詞嵌入層

本文K-PCNN模型的輸入為一條帶有實體對的文本,例如圖1所示的輸入語句為:“Gold is found at Port_Phillip by a shepherd.”,其中:實體對是“Gold”和“Port_Phillip”;關系標簽為“FOUND”。K-PCNN模型的嵌入層是為了將模型的輸入文本嵌入到低維向量空間。本文采用了Word2vec模型,并利用領域數據集的文本進行預訓練,從而得到詞嵌入矩陣。根據詞嵌入矩陣,得到輸入文本的詞向量矩陣。例如,給定一個文本序列{w1,w2,…,wn},其中n為文本中單詞數量,根據詞嵌入矩陣,將文本序列轉換為詞向量序列{q1,q2,…,qn},qi∈Rd,d為詞向量維度,如式(1)所示。

qi=fWord2vec(wi)

(1)

式中:wi為文本序列中的單詞;qi為第i個單詞的詞向量表示;fWord2vec表示Word2vec模型函數。

3.2 基于先驗詞匯的卷積層

基于先驗詞匯的卷積層將關系先驗詞匯特征作為卷積核參數,即先驗詞匯的詞向量作為卷積核的權重參數,進行卷積運算。利用先驗詞匯特征來辨別文本中包含的關系類別。因此,本節主要介紹關系類別先驗詞匯知識的獲取與應用。

先驗詞匯特征是關系分類的重要特征,關系先驗知識的豐富性有助于關系類別的判斷。WordNet[20]和FrameNet[21]兩個詞匯知識庫包含了大量的詞匯知識,可以為關系抽取提供重要的詞匯知識。除此之外,在領域數據集的語料文本中已經包含了各個類別的文本信息,也是判斷關系類別的重要先驗知識。因此,本文利用詞匯知識庫和領域數據集來獲取相關詞匯知識,并通過專家對獲取的詞匯進行篩選,最終得到應用于模型的關系先驗詞匯。專家篩選是為了將表達關系類別的重要先驗詞匯篩選出來,領域專家掌握有大量領域知識及經驗,能夠快速判斷關系類別的相關先驗詞匯,用于關系類別的判別。關系先驗詞匯的獲取及篩選流程如圖2所示。

圖2 關系先驗詞匯的獲取流程

先驗詞匯知識的獲取過程如下:

Step1從WordNet和FrameNet中獲取關系先驗詞匯。WordNet和FrameNet作為兩個詞匯知識庫,其中包含了較為完整的詞匯知識,并分別利用同義詞集和詞匯框架將詞匯之間鏈接起來。給定要進行抽取的關系類別標簽r,將關系類別標簽作為查詢關鍵詞,在WordNet和FrameNet中進行同義詞和近義詞的提取,獲得詞匯集合WWN和WFN,分別表示為:

WWN=fWordNet(r)

(2)

WFN=fFrameNet(r)

(3)

式中:fWordNet和fFrameNet分別為WordNet、FrameNet同義詞、近義詞提取函數;WWN和WFN分別是從WordNet和FrameNet提取的關系類別r的相關詞匯集合。

Step2從領域數據集獲取關系先驗詞匯。領域數據集在本文中不僅作為關系抽取訓練集,也將用于抽取關系先驗詞匯。本文利用TF-IDF算法來提取數據集文本中的重要詞匯信息。給定數據集中該類關系的文本語句集合{s1,s2,…,sm},利用TF-IDF算法得到根據詞頻排序的語料詞匯集合WRE,表示為:

WRE=fTF-IDF({s1,s2,…,sm})

(4)

式中:fTF-IDF表示為TF-IDF算法函數;WRE為利用TF-IDF算法得到的語料詞匯集合。

Step3專家篩選關系先驗詞匯。關系類別的相關詞匯詞集WWN、WFN和WRE包含了關系類別的一些相關詞匯,但是詞集的詞匯數量繁多需要進行篩選,得到能夠充分描述關系類別的先驗詞匯。篩選過程采用了專家人工篩選的方法,可以更為準確地保留關系類別的重要先驗詞匯知識,有助于模型對關系類別的分類能力,公式表示為:

Wpriori=fExpert(WWN,WFN,WRE)

(5)

式中:fExpert表示為專家篩選先驗詞匯過程;Wpriori為得到的關系類別的先驗詞匯集集合。

經過以上方法得到先驗詞匯集Wpriori后,在進行模型分類前需要根據詞嵌入矩陣將先驗詞匯轉換為詞向量,得到先驗詞匯特征矩陣F,如式(6)所示。特征矩陣F將作為卷積層的卷積核權重進行模型訓練和分類。

F=fWord2vec(Wpriori)

(6)

式中:fWord2vec表示為Word2vec模型函數;F為先驗詞匯特征矩陣。

卷積層可以包含有多個卷積核,因此不同關系類別的先驗詞匯特征矩陣將作為不同的卷積核權重進行卷積,多卷積核的應用能夠獲取不同的特征。若模型輸入一條語句{w1,w2,…,wn},其中n為單詞個數;經過嵌入層后得到詞向量序列{q1,q2,…,qn},qi∈Rd,其中d為詞向量維度;卷積核長度為k,卷積核權重矩陣為F,F∈Rk×d,則嵌入層的第i行到第j行矩陣qi:j與F卷積計算過程如下:

cj=Fqj-k+1:j

(7)

式中:cj為卷積計算得到的特征值,j∈[1,n+k-1]。卷積完成后得到特征圖為c∈Rn+k-1。

3.3 分段池化層

在卷積神經網絡模型中,經過卷積后得到的特征圖會通過池化層來降低維度大小,防止過擬合,并且可以保留重要的特征信息。池化層常用的設置為最大池化,即取特征值中的最大值。為了獲取更多的文本特征,Zeng等[11]提出了分段池化設置。分段池化是把卷積后的特征圖矩陣根據實體對的位置切割為三段,再進行最大池化的方法,如圖1中Piecewise Max Pooling部分。相比于普通的最大池化只獲得了一個特征值,分段池化將三段分別求最大池化,可以保留更多的特征信息。

在關系抽取模型中,模型輸入為一個文本序列,轉換為詞向量序列后進入卷積層,經過卷積得到若干個特征圖{c1,c2,…,cm},ci∈Rn+k-1。若對其中一個個特征圖ci進行最大池化,得到池化后的結果僅為一個特征值pi,如式(8)所示。若把特征圖ci根據實體對位置進行分段處理,將ci分為三段{ci1,ci2,ci3},再分別對三段進行最大池化,便可得到三維向量pi=(pi1;pi2;pi3),如式(9)所示。

pi=max(ci)

(8)

pij=max(cij) 1≤i≤m,1≤j≤3

(9)

模型經過卷積層和池化層后,得到的特征矩陣繼續在分類器中實現關系的分類。經過卷積層和池化層后的特征矩陣包含了文本的重要特征以及關系類別特征,最終這些特征矩陣進入關系分類器利用Sigmoid函數實現關系分類。

4 基于遠程監督的領域數據標注方法

特定領域關系抽取模型的訓練和評估離不開大量的標注數據。在特定領域中,傳統的人工標注方法需要大量的人工參與。因此,本文根據關系抽取模型的訓練數據需求,提出基于遠程監督的數據標注方法,如圖3所示。該方法主要應用了遠程監督的自動標注能力,利用特定領域的三元組知識和語料文本進行數據集構建。

圖3 領域數據標注流程

遠程監督數據標注方法的具體實現是根據文本中是否存在實體對而進行關系標注的。因此,根據遠程監督方法進行數據標注需要獲取領域三元組及領域語料文本。本文將數據標注過程設置為三部分:獲取領域語料文本,獲取領域三元組知識和領域數據標注。其中:Part1為從Web網頁中爬取領域文本;Part2為從DBpedia等知識庫獲取領域三元組知識;Part3為數據標注過程。

4.1 基于DBpedia與Wikipedia的領域語料與三元組抽取方法

Wikipedia是一個跨學科跨領域的百科全書,其中包含了大量的語料文本,而DBpedia是一個開放知識圖譜,包含了大量來自Wikipedia的三元組知識,并且與Wikipedia的資源相關聯。因此,本文依據DBpedia知識圖譜結構,在Wikipedia和DBpedia中抽取領域文本與領域三元組知識。

本節以金屬材料領域為例,介紹基于DBpedia與Wikipedia的領域語料與三元組抽取方法,并采用了Zhang等[22]提出的逐步提取策略(Stepwise Extraction Strategy,SES)。領域文本與三元組的抽取過程主要包含創建候選類別實體集合、抽取DBpedia中的領域三元組、抽取Wikipedia中的語料文本、迭代擴充四個步驟,抽取流程如圖4所示。領域語料文本及三元組抽取的具體步驟如下:

圖4 領域語料及三元組抽取流程

Step1創建候選類別實體集合Edbc。DBpedia中實體可以分為兩類:一類為表示類別的類別實體edbc,例如“dbc:Metals”;另一類為表示資源的資源實體edbr,例如“dbr:Iron”。候選類別實體集合Edbc是由人工初始化的一些金屬材料類別實體組成。

Step2抽取DBpedia中的領域三元組。根據DBpedia中類別實體和資源實體之間的關系類別“dct:subject”,可以從DBpedia API中獲取類別實體對應的資源實體,例如圖4中類別實體“dbc:Metals”根據三元組得到資源實體“dbr:Metal_theft”。然后,再利用DBpedia API獲取到資源實體的三元組集合。

Step3抽取Wikipedia中的領域語料文本。已知DBpedia的三元組知識均源于Wikipedia,并且每一個資源實體都通過“foaf:isPrimaryTopicOf”關系鏈接到相應的Wikipedia網頁資源,例如。因此,可以通過資源實體的相應鏈接獲取Wikipedia的描述文本。

Step4迭代擴充實體集合與語料文本。在DBpedia中資源實體與類別實體存在關系“dct:subject”,而類別實體之間存在包含關系“skos:broader”。因此,根據這兩類關系可以對初步得到的類別實體集合進行擴充,從而得到更多的領域語料文本和三元組。

領域語料文本及三元組抽取方法的具體實現算法如算法1所示。算法的輸入是候選類別實體集合Edbc,迭代次數k,算法結束后,將返回領域文本集合D與領域三元組集合T。

算法1領域語料文本及三元組抽取算法

輸入:Edbc,k。

輸出:D,T。

1.Edbr=?,D=?,T=?,j=0

2.ForeachedbcinEdbc

3.Ifj>kdo

4.break

9.j=j+1

10.ForeachedbrinEdbr

11.doc=fisprimarytopicof(edbr)

12.D=D∪{doc}

13.{trii|i∈Z+}=fDBpedia(edbr)

14.T=T∪{trii|i∈Z+}

17.j=j+1

18.EndFor

19.EndFor

20.ReturnD,T

圖5所示為根據算法1實現的實體擴充實例。以“dbc:Metals”為候選類別實體,可以通過“dct:subject”和“is skos:broader of”兩種關系,經過兩次迭代即可獲得“dbc:Iron”等五種類別實體及其資源實體。

圖5 DBpedia領域實體迭代擴充示例

4.2 基于OpenIE與ReVerb的領域三元組擴充方法

經過對Wikipedia和DBpedia中領域文本和三元組的抽取,可以得到領域文本集合與領域三元組集合。但是,在抽取的語料文本中仍然存在著許多DBpedia未包含的三元組知識。因此,為了獲取更多的三元組知識,本文提出基于OpenIE與ReVerb的領域三元組擴充方法,利用開放信息抽取工具OpenIE[23]與ReVerb[24],繼續抽取領域文本中所包含的三元組知識,擴充領域三元組集合。OpenIE與ReVerb是兩個重要的開放信息抽取模型,使用之前不需要提前指定關系,即可從句子中抽取三元組。領域三元組擴充方法的步驟主要分為兩步,過程如下:

(1) 三元組抽取。該步驟主要利用OpenIE和ReVerb兩種工具對從Wikipedia獲取的領域文本進行三元組抽取。

(2) 三元組篩選。篩選過程主要利用置信度來篩選出高置信度的三元組。置信度篩選利用了OpenIE與ReVerb的置信度評分進行篩選三元組,選取置信度高于0.8的三元組。如表2所示,兩種抽取工具對同一文本的抽取結果及三元組置信度評分。最后將篩選的三元組擴充到領域三元組集合,用于數據標注過程。

表2 OpenIE與ReVerb抽取三元組示例

4.3 基于遠程監督的領域數據標注

基于上述方法,可以得到領域語料文本集合及三元組集合。利用得到的文本和三元組,就可以基于遠程監督方法進行數據標注,標注示例如圖6所示。在數據標注前,首先將文本語料進行數據清洗,指代消解、分句等預處理,最終得到一系列文本語句;然后將得到的文本語句及三元組根據遠程監督方法進行數據標注。遠程監督方法對文本的標注依據是文本序列中是否存在三元組的實體對,若文本中存在實體對,則進行關系標注,表示為:

(10)

式中:s={w1,w2,…,wn},s表示待標注的文本序列,wi表示s中的單詞;h、r、t分別是三元組中的頭實體、關系類別和尾實體;Tag表示文本序列s對應的標簽,若h和t同時存在于s中,則標記為關系類別r,否則,標記為0。

圖6所示是以金屬材料領域為例的領域數據標注示例。圖6中實例1文本中包含了三元組中的頭實體與尾實體,則實例1文本可以被標注為“USED”關系標簽,作為正例樣本。通過這種遠程監督的方法可以自動地將抽取的領域文本進行標注,得到可以用于模型訓練和評估的數據集MMRE(Metallic Material Relation Extraction)。

圖6 金屬材料領域數據標注示例

5 實 驗

5.1 實驗數據

由于領域缺少專有的關系抽取數據集,因此本文的實驗數據利用所提出的基于遠程監督的領域數據標注方法進行自動標注,構建了金屬材料領域關系抽取數據集MMRE。并且,通過對三元組關系的篩選,選擇了其中四類主要實體關系,共包含了7 000多條標注文本,具體關系類別如表3所示。

表3 MMRE數據集包含的關系類別

除了領域數據集,本文還采用了關系抽取任務中廣泛應用的NYT[25]數據集進行模型的評估。NYT數據集共包含53種關系類別,本文從中選擇了4類關系進行評估實驗,具體的關系類別如表4所示。

表4 NYT數據集中的4種關系類別

5.2 評價指標

本文的關系抽取實驗采用了內部自動評測方法來評價關系抽取模型的性能,以F1值為評價標準對關系抽取效果進行綜合評估。除此之外,為了能清楚地了解模型對每一類關系的抽取效果,采用ROC評估曲線的AUC值對各類關系的抽取效果進行詳細評估。

ROC評估曲線主要表現為一種真正率與假正率之間的權衡。AUC值即ROC曲線與橫軸之間的面積,AUC值的計算表示為:

(11)

式中:M為某類關系的正例樣本數量;N為非此類關系的負例樣本數量;PT為正例樣本的預測概率;PF為負例樣本的預測概率;(PT,PF)為樣本對,即一個正例樣本與一個負例樣本的組合;I(PT,PF)為所有樣本對中,正例樣本的預測概率大于負例樣本的預測概率的個數。

5.3 實驗方法

在對關系抽取任務的研究中,本文選用了卷積神經網絡作為關系抽取基礎模型。因此,為了提升模型泛化能力,防止過擬合現象,本文采用了模型正則化方法和數據擴增的方法,并且實驗過程中采用了K折交叉驗證的訓練方法。

在數據量有限、樣本不均衡等情況下,模型訓練會受到數據集的限制而不能達到最優。Wei等[26]提出了一種數據增強技術(Easy Data Augmentation,EDA),該技術為小數據集的訓練提供了數據優化方法,可以顯著提高模型性能并減少過擬合。同時,考慮到實驗標注數據中實體對位置不能隨意變換,不能隨機刪除或增加詞匯,因此,采用了EDA的同義詞替換和變換詞序的方法來增強MMRE數據集。

在MMRE數據集的基礎上,本文分別采用了EDA技術的同義詞替換和變換詞序方法,生成了兩個新的數據集:同義詞替換后的數據集MMRE_eda和原文本逆轉詞序后的數據集MMRE_rev。表5展示了增強后數據集樣本數量情況,其中:MMRE_ori是原始MMRE數據集;MMRE_all是MMRE_eda和MMRE_rev兩個數據集的集合。

表5 數據增強后的各個數據集情況

5.4 超參數設置

實驗過程中,為了提高模型的性能,本文以F1值為評價指標,從詞向量維度、文本序列長度方面判斷了兩種參數對實驗訓練過程F1值的影響。詞向量維度是模型將文本嵌入到向量空間時向量維度的大小,文本序列長度是指輸入文本轉換為詞向量序列時進行擴充或切割而得到的序列長度。

本文將詞向量維度范圍設置為100到400,數值間隔為50,文本序列長度范圍為200到500,數值間隔為50,利用網格搜索方法選取兩組參數中的最優組合。實驗如圖7所示。

圖7 不同詞向量維度與不同詞序列長度參數組合實驗

圖7中橫軸為不同的詞向量維度,每個詞向量維度對應7個不同的詞序列長度。根據圖7中縱軸F1值可知,當詞向量維度為300且詞序列長度為300時,F1值最大,為最佳參數組合。其中,不同詞向量維度和不同詞序列長度分別對模型F1值的影響如圖8、圖9所示。

圖8 不同詞向量維度對模型F1值的影響

圖9 不同詞序列長度對模型F1值的影響

如圖8所示,當詞序列長度為300時,經過7種不同詞向量維度的F1值對比可知,隨著詞向量維度增加,在300維時,F1值達到最高;并且在300維之后,隨著維度遞增,F1值逐漸減小。因此,最優詞向量維度為300維。

如圖9所示,當詞向量維度為300時,隨著詞序列長度的不斷增加,F1值不斷上升,并在數值為300時,F1值達到最高點,因此實驗中文本在輸入層是統一采用的序列長度為300。

本文的超參數設置如表6所示。

表6 實驗超參數設置

5.5 關系分類實驗

(1) 綜合性能F1值評估。為了評價本文提出的K-PCNN模型在關系抽取任務的性能效果,本文選擇Zeng等[11]提出的PCNN模型的改進模型PCNNwWLA進行對比實驗。對比實驗分別在領域數據集和公共數據集上進行。表7為K-PCNN模型與PCNNwWLA模型的測試集F1值對比。

表7 測試集F1值對比

表7所示實驗結果顯示,在領域數據集和公共數據集的對比實驗中,K-PCNN的F1值均達到80以上,且均略高于PCNNwWLA模型。實驗結果分析可知,領域先驗詞匯特征的應用有助于提高模型關系分類能力,且數據增強后的數據集也提高了模型的分類效果,使得K-PCNN模型關系抽取性能略高于PCNNwWLA模型。表8為本文模型對金屬材料領域語料的關系預測實例。

表8 K-PCNN模型關系預測實例

(2) 關系類別的AUC值評估。在經過數據增強方法得到的領域數據集上,K-PCNN模型對四類關系的預測能力以及四類關系的AUC平均值變化如圖10所示。

圖10 關系類別AUC的對比

可以看出,在MMRE_all數據集中四類關系的AUC均高于0.9,說明模型K-PCNN對各類關系都有較強的分類能力。并且,K-PCNN模型在增強后的數據集上對每類關系的分類性能均優于原數據集,實驗說明了數據增強技術有助于提高模型的性能。

6 結 語

本文在特定領域關系抽取任務中,針對領域關系抽取任務缺少適用模型及缺少領域標注數據的兩個挑戰,分別提出基于先驗詞匯的分段池化卷積神經網絡模型K-PCNN和基于遠程監督的領域數據標注方法。K-PCNN模型充分利用了關系先驗詞匯進行關系分類,將獲取的關系詞匯知識嵌入詞向量后,輸入到卷積神經網絡模型作為外部知識特征輔助關系分類。并且,本文以金屬材料領域為例,創建了金屬材料領域關系抽取數據集,對模型的性能進行了評估。實驗數據表明,該模型具有較高的關系抽取能力,說明本文提出的關系抽取模型以及數據標注方法能夠在一定程度上解決特定領域關系抽取任務的問題,具有一定的現實意義。

雖然本文提出的基于先驗詞匯的關系抽取模型達到了較高的關系抽取性能,但是模型僅僅引入了能夠表達關系類別的先驗詞匯知識,不能充分利用其他的外部知識或特征來輔助關系分類;而且,由于對先驗詞匯的依賴性,該模型只能抽取一些具有明顯關系特征的關系類別,可抽取的關系類別有一定限制。因此,未來的工作將嘗試把先驗知識的范圍進行拓展,例如實體類別等外部知識;并通過擴展更多的先驗知識來增加可以抽取的關系類別。

猜你喜歡
詞匯文本模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 2020最新国产精品视频| 91精品专区| 2022国产91精品久久久久久| 亚洲综合激情另类专区| 日韩av电影一区二区三区四区| 午夜啪啪福利| 国产男女免费视频| 日韩一区二区在线电影| 国产小视频网站| 沈阳少妇高潮在线| 综合色在线| 日本午夜影院| 色老头综合网| 国产丰满成熟女性性满足视频| 国产精品色婷婷在线观看| 人妻少妇乱子伦精品无码专区毛片| 青青热久麻豆精品视频在线观看| 亚洲欧美激情小说另类| 99精品免费在线| 免费毛片全部不收费的| 日韩 欧美 国产 精品 综合| 久久国产乱子伦视频无卡顿| 日本不卡视频在线| 色噜噜在线观看| 91福利片| 噜噜噜久久| 色婷婷电影网| 日本欧美中文字幕精品亚洲| 久久人体视频| 91无码网站| 久青草免费在线视频| 这里只有精品在线播放| 中文字幕首页系列人妻| 国产白丝av| 欧美精品啪啪一区二区三区| 久久久久免费精品国产| 亚洲侵犯无码网址在线观看| 亚洲69视频| 午夜日b视频| 黄色网在线| 最新无码专区超级碰碰碰| 国产真实乱人视频| 色婷婷国产精品视频| 老司机精品久久| 欧美综合在线观看| 青青草久久伊人| 国产亚洲精品无码专| 成人福利在线免费观看| 亚洲乱强伦| www.99在线观看| 成人一级免费视频| 亚洲欧洲日韩综合| 91小视频在线| 亚洲欧洲日韩久久狠狠爱| 国产网站一区二区三区| 国产成人精品一区二区秒拍1o| 久久无码免费束人妻| 九九久久精品免费观看| 中文字幕亚洲另类天堂| 国产精品香蕉| 免费人成网站在线观看欧美| 亚洲第一成人在线| 亚洲swag精品自拍一区| 91精品人妻一区二区| 亚洲一欧洲中文字幕在线| 久久综合久久鬼| 狠狠色成人综合首页| 无码又爽又刺激的高潮视频| 99国产精品国产| 永久在线精品免费视频观看| 国产乱子伦无码精品小说| 国产一区二区三区精品久久呦| 456亚洲人成高清在线| 国产精品欧美在线观看| 91免费国产在线观看尤物| 国产精品观看视频免费完整版| 久久青草精品一区二区三区| 国产精品视频导航| 超清无码熟妇人妻AV在线绿巨人| 国产噜噜噜| 亚洲永久色| 欧美日韩综合网|