楊振平,毛存禮,雷雄麗,黃于欣,張勇丙
(1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3. 昆明冶金高等專科學(xué)校,云南 昆明 650500)
跨境民族是指隨著社會(huì)歷史的發(fā)展,源于同一族系下的民族成員生活在不同國(guó)家的民族,例如,中國(guó)傣族、緬甸撣族、泰國(guó)泰族、老撾佬族以及越南泰族均屬于同一族系下的跨境民族群體,不同的民族進(jìn)行文化交流并逐漸形成了跨境民族文化。跨境民族文化領(lǐng)域?qū)嶓w關(guān)系抽取的任務(wù)是從非結(jié)構(gòu)化的跨境民族文化文本中抽取出飲食、文藝、建筑、節(jié)日實(shí)體和實(shí)體之間組成的關(guān)系。
目前,研究人員大多關(guān)注實(shí)體關(guān)系重疊問(wèn)題,利用聯(lián)合標(biāo)注的方法解決實(shí)體關(guān)系重疊問(wèn)題,例如Wei等人[1]提出了一種新型級(jí)聯(lián)二進(jìn)制標(biāo)注實(shí)體策略的聯(lián)合學(xué)習(xí)模型(A Novel Cascade Binary Tagging Framework for Relational Triple Extraction,CasRel),該框架預(yù)測(cè)句子中所有頭實(shí)體,通過(guò)預(yù)測(cè)的頭實(shí)體與對(duì)應(yīng)的關(guān)系類型進(jìn)行映射來(lái)預(yù)測(cè)尾實(shí)體,該模型較好地解決了實(shí)體關(guān)系抽取中的重疊實(shí)體關(guān)系問(wèn)題。以上方法在通用領(lǐng)域?qū)嶓w關(guān)系抽取任務(wù)上已經(jīng)取得了較好的效果,但是跨境民族文化領(lǐng)域的實(shí)體關(guān)系抽取任務(wù)相比通用領(lǐng)域還存在領(lǐng)域?qū)嶓w識(shí)別不準(zhǔn)確、領(lǐng)域信息缺失以及關(guān)系重疊問(wèn)題。
如表1所示,跨境民族文化文本中實(shí)體關(guān)系特征主要體現(xiàn)在單個(gè)實(shí)體重疊關(guān)系、實(shí)體對(duì)重疊關(guān)系以及多個(gè)實(shí)體對(duì)關(guān)系;文本中還存在大量的領(lǐng)域詞語(yǔ),如“浴佛節(jié)”“解夏節(jié)”“象腳鼓”等,這些詞語(yǔ)使得文本的語(yǔ)義信息提取困難。跨境民族文化文本結(jié)構(gòu)復(fù)雜,一段文本存在多個(gè)實(shí)體,實(shí)體對(duì)有多種不同的關(guān)系交叉互聯(lián)。通用領(lǐng)域?qū)嶓w關(guān)系抽取模型對(duì)多實(shí)體、多關(guān)系文本進(jìn)行抽取時(shí),很容易錯(cuò)誤匹配或者遺漏領(lǐng)域?qū)嶓w對(duì),從而輸出不完整的實(shí)體關(guān)系三元組,這也成為跨境民族文化實(shí)體關(guān)系抽取任務(wù)的挑戰(zhàn)。

表1 文本重疊實(shí)體關(guān)系示例分析
針對(duì)實(shí)體關(guān)系抽取模型缺少領(lǐng)域信息造成上下文語(yǔ)義缺失、實(shí)體對(duì)存在關(guān)系重疊等問(wèn)題,本文提出了基于指針標(biāo)注的跨境民族文化實(shí)體關(guān)系抽取方法。本文主要貢獻(xiàn)如下:
(1) 為了讓模型能夠?qū)W習(xí)到跨境民族文化領(lǐng)域特征表示,本文利用已構(gòu)建的領(lǐng)域詞典進(jìn)行詞向量訓(xùn)練,通過(guò)融入領(lǐng)域詞典提取文本中的領(lǐng)域知識(shí)表示,進(jìn)而增強(qiáng)文本領(lǐng)域特征。
(2) 通過(guò)Bi-LSTM[2]編碼特征提取上下文語(yǔ)義信息,提升指針網(wǎng)絡(luò)對(duì)底層實(shí)體預(yù)測(cè)的準(zhǔn)確性。
(3) 采用分層的指針網(wǎng)絡(luò)標(biāo)注所有關(guān)系類型中的尾實(shí)體,將所有標(biāo)注的頭實(shí)體作為先驗(yàn)條件,通過(guò)多層指針網(wǎng)絡(luò)依次對(duì)所有關(guān)系條件下標(biāo)注頭實(shí)體對(duì)應(yīng)的尾實(shí)體。
利用跨境民族文化領(lǐng)域?qū)嶓w關(guān)系抽取方法獲取領(lǐng)域信息,對(duì)于推動(dòng)跨境民族文化研究工作具有重要的價(jià)值,可以有效地補(bǔ)充結(jié)構(gòu)化的領(lǐng)域信息并發(fā)現(xiàn)一些關(guān)聯(lián)關(guān)系,對(duì)于領(lǐng)域知識(shí)庫(kù)的構(gòu)建、信息檢索等任務(wù)具有支撐作用。
近年來(lái),深度學(xué)習(xí)方法逐漸應(yīng)用在通用領(lǐng)域和特定領(lǐng)域的實(shí)體關(guān)系抽取任務(wù)中,當(dāng)前主流的方法是基于流水線和聯(lián)合學(xué)習(xí)的實(shí)體關(guān)系抽取方法。
Zhong等人[3]提出了簡(jiǎn)單的流水線模型學(xué)習(xí)實(shí)體和關(guān)系的不同上下文表示、融合關(guān)系模型中的實(shí)體信息和整合全局上下文的重要性,流水線模型復(fù)雜度低,但是會(huì)造成錯(cuò)誤傳播問(wèn)題。2016年Miwa等人[5]提出了一種端到端的實(shí)體關(guān)系聯(lián)合抽取模型,通過(guò)學(xué)習(xí)句法樹中不同節(jié)點(diǎn)之間的關(guān)系來(lái)進(jìn)行關(guān)系抽取,該模型忽略了標(biāo)簽之間的長(zhǎng)依賴關(guān)系問(wèn)題。2017年Zheng等人[5]提出用層次級(jí)神經(jīng)網(wǎng)絡(luò)模型抽取實(shí)體與關(guān)系,通過(guò)Bi-LSTM層對(duì)輸入共享詞嵌入層進(jìn)行編碼,模型在訓(xùn)練時(shí)會(huì)更新共享參數(shù)來(lái)實(shí)現(xiàn)實(shí)體和關(guān)系抽取任務(wù)之間的關(guān)聯(lián)。2017年Zheng等人[6]提出了基于聯(lián)合標(biāo)注策略的實(shí)體關(guān)系聯(lián)合抽取方法,把實(shí)體標(biāo)注和關(guān)系分類任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù),該模型不能夠?qū)χ丿B實(shí)體關(guān)系進(jìn)行抽取。2018年Zeng等人[7]提出采用copy機(jī)制的實(shí)體關(guān)系三元組抽取方法,該方法實(shí)現(xiàn)了參數(shù)共享,解決了句子中單個(gè)實(shí)體關(guān)系重疊問(wèn)題。實(shí)體關(guān)系聯(lián)合抽取有效地解決了流水線模型中錯(cuò)誤傳播問(wèn)題,但是在解決實(shí)體關(guān)系重疊問(wèn)題上有待提升。
表格填充方法[8-10]在聯(lián)合實(shí)體關(guān)系抽取任務(wù)中得到廣泛應(yīng)用,表格填充方法能夠更直接表達(dá)實(shí)體關(guān)系直接的聯(lián)系,有助于重疊實(shí)體關(guān)系的抽取。2019年Fu等人[11]提出了GraphRel模型用于解決實(shí)體關(guān)系重疊的問(wèn)題,該模型利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)[12]聯(lián)合學(xué)習(xí)實(shí)體和關(guān)系,通過(guò)關(guān)系加權(quán)GCN考慮實(shí)體和關(guān)系之間的交互以更好地提取關(guān)系類型。2020年Wang等人[13]提出了TPLinker模型,該模型通過(guò)階段聯(lián)合提取實(shí)體和重疊關(guān)系,引入了一種新的標(biāo)記方案對(duì)每種關(guān)系類型下的實(shí)體對(duì)的邊界進(jìn)行標(biāo)注并對(duì)齊,它彌合了訓(xùn)練和推理之間的差距。2021年Zheng等人[14]提出了PRGC模型,設(shè)計(jì)一個(gè)預(yù)測(cè)潛在關(guān)系的組件,將實(shí)體提取限制在預(yù)測(cè)的關(guān)系子集上,然后用特定關(guān)系的標(biāo)簽處理實(shí)體對(duì)之間的重疊問(wèn)題。
在跨境民族文化領(lǐng)域中,毛存禮等人[15]提出一種融合領(lǐng)域知識(shí)圖譜的跨境民族文化分類方法,利用人工構(gòu)建的領(lǐng)域知識(shí)庫(kù)進(jìn)行領(lǐng)域建模。在生物醫(yī)學(xué)領(lǐng)域,曹明宇等人[16]提出了一種基于神經(jīng)網(wǎng)絡(luò)的藥物實(shí)體與關(guān)系聯(lián)合抽取方法,將藥物實(shí)體及關(guān)系的聯(lián)合抽取轉(zhuǎn)化為端對(duì)端的序列標(biāo)注任務(wù)進(jìn)行藥物實(shí)體與關(guān)系聯(lián)合抽取,利用藥物與藥物之間的領(lǐng)域交互信息為模型提供領(lǐng)域知識(shí)。陸亮等人[17]在對(duì)話領(lǐng)域提出融入交互信息的實(shí)體關(guān)系抽取,使用交叉注意力機(jī)制來(lái)捕獲對(duì)話交互過(guò)程中的關(guān)聯(lián)信息。
以上的方法為解決跨境民族文化實(shí)體關(guān)系抽取任務(wù)中存在的實(shí)體關(guān)系重疊問(wèn)題和領(lǐng)域問(wèn)題提供了較好的思路,但是跨境民族文化領(lǐng)域文本中含有較多的領(lǐng)域詞匯,造成模型獲取文本語(yǔ)義信息困難。
針對(duì)跨境民族文化文本領(lǐng)域信息缺失的問(wèn)題,本文構(gòu)建了跨境民族文化領(lǐng)域詞典。通過(guò)預(yù)訓(xùn)練語(yǔ)言模型訓(xùn)練詞向量,本文一共收集了5 360個(gè)關(guān)于跨境民族文化的領(lǐng)域詞語(yǔ)。部分領(lǐng)域詞語(yǔ)如表2所示,這些領(lǐng)域詞語(yǔ)邊界模糊,導(dǎo)致現(xiàn)有的模型無(wú)法對(duì)領(lǐng)域信息做正確的語(yǔ)義表征。

表2 跨境民族文化領(lǐng)域詞語(yǔ)示例
基于切分的領(lǐng)域詞語(yǔ)通過(guò)統(tǒng)計(jì)多個(gè)字符組合得到的字符串的頻率, 并設(shè)置合適的閾值來(lái)對(duì)新詞進(jìn)行發(fā)現(xiàn),定義的凝固度計(jì)算如式(1)所示。
(1)
其中,a、b、c是語(yǔ)料中相鄰的字符,α表示預(yù)先設(shè)置的凝固度閾值;多個(gè)字符組成的詞語(yǔ)一般設(shè)置比較高的凝固度閾值,防止如“葫蘆笙”之類的詞被錯(cuò)誤切分為“葫蘆”和“笙”。
本文提出了基于指針標(biāo)注的跨境民族文化實(shí)體關(guān)系抽取方法,包含了四個(gè)部分: 領(lǐng)域詞典信息特征融合層、Bi-LSTM特征編碼層、基于指針網(wǎng)絡(luò)的頭實(shí)體預(yù)測(cè)層以及關(guān)系條件下的尾實(shí)體預(yù)測(cè)層,其模型架構(gòu)如圖1所示。
跨境民族文化領(lǐng)域中存在大量的領(lǐng)域詞匯,在沒(méi)有外部知識(shí)輔助的情況下,實(shí)體關(guān)系抽取模型無(wú)法有效獲取語(yǔ)義信息,因此本文將領(lǐng)域詞典信息融入模型中,對(duì)輸入文本和領(lǐng)域詞典進(jìn)行特征編碼表示,增強(qiáng)模型對(duì)跨境民族文化領(lǐng)域語(yǔ)義的表示能力。
字符特征編碼使用BERT[18]的預(yù)訓(xùn)練模型進(jìn)行字符向量表征,輸入文本序列X={x1,x2,…,xn},利用BERT模型中的多頭注意力機(jī)制計(jì)算更新字符向量矩陣,如式(2)所示。
G=BERT(X)
(2)
其中,G表示文本字符向量矩陣,BERT(·)為預(yù)訓(xùn)練語(yǔ)言模型。
采用CNN編碼器提取領(lǐng)域詞典信息特征編碼表示,其目的是提取領(lǐng)域詞典中詞語(yǔ)信息的語(yǔ)義知識(shí)。如圖2所示,利用領(lǐng)域詞典對(duì)文本進(jìn)行分詞,然后匹配預(yù)訓(xùn)練詞向量,得到領(lǐng)域詞向量矩陣E。

圖2 領(lǐng)域詞典信息特征編碼表示
通過(guò)CNN[19]網(wǎng)絡(luò)對(duì)詞向量進(jìn)行卷積操作,提取領(lǐng)域詞典信息特征,通過(guò)設(shè)置卷積核大小來(lái)提取文本的n-gram特征,如式(3)所示。
oi=W·E[i:i+h]
(3)
其中,E表示領(lǐng)域詞向量矩陣,W為權(quán)重矩陣。利用K個(gè)不同的卷積核獲取多個(gè)特征表示,獲得K維的n-gram特征向量矩陣,通過(guò)使用最大池化層匯聚,最后輸出最終的編碼表示,如式(4)所示。
(4)

將得到的字符向量表示和領(lǐng)域詞典信息表示進(jìn)行融合,得到融入詞典信息的文本表征,如式(5)所示。
D=[G;Z]
(5)
其中,G為式(2)中得到的字符向量表示,Z為式(4)得到的領(lǐng)域詞典信息表示。
為了提升模型預(yù)測(cè)頭實(shí)體的效果,本文采用Bi-LSTM網(wǎng)絡(luò)層提取上下文信息表征,如式(6)所示。
(6)
其中,σ(·)表示sigmoid激活函數(shù),Wi、Wf表示訓(xùn)練參數(shù)矩陣,bi、bf、bc表示偏置向量,tanh(·)表示非線性函數(shù)。將D={d1,d2,…,dn}輸入到Bi-LSTM中提取上下文特征,新的隱藏狀態(tài)hi由上一次的隱藏狀態(tài)hi-1和當(dāng)前的輸入di計(jì)算獲取,如式(7)所示。
(7)
本文采用指針網(wǎng)絡(luò)[20]對(duì)頭實(shí)體的位置進(jìn)行標(biāo)注,需要標(biāo)注文本中所有頭實(shí)體片段以確保后續(xù)在所有關(guān)系條件下的尾實(shí)體標(biāo)注的準(zhǔn)確性。
如圖1所示,將Bi-LSTM輸出的特征向量hi輸入到兩個(gè)指針網(wǎng)絡(luò)層中,預(yù)測(cè)跨境民族文化文本中所有頭實(shí)體的開始位置概率和結(jié)束位置概率,如式(8)、式(9)所示。

相鄰指針檢測(cè)需要符合開始位置在前、結(jié)束位置在后的原則,這樣的策略能夠保持實(shí)體標(biāo)注的完整性。如果句子中存在多個(gè)頭實(shí)體,只有滿足開始位置和結(jié)束位置自然連續(xù)性,才能被正確檢測(cè)為給定的句子中實(shí)體跨度,從輸入文本中標(biāo)注頭實(shí)體的概率如式(10)所示。
(10)
針對(duì)跨境民族文化實(shí)體關(guān)系抽取中存在的實(shí)體關(guān)系重疊問(wèn)題,本文采用多層指針網(wǎng)絡(luò)標(biāo)注來(lái)抽取實(shí)體關(guān)系三元組。如圖3所示,文本“泰族著名的香竹飯又稱竹筒飯。”中存在兩個(gè)實(shí)體關(guān)系重疊的三元組,模型在“特色飲食”關(guān)系類型下標(biāo)注尾實(shí)體“香竹飯”的開始位置和結(jié)尾位置;在“別名”關(guān)系類型下標(biāo)注尾實(shí)體“竹筒飯”的開始位置和結(jié)尾位置。

圖3 重疊實(shí)體關(guān)系抽取示例
通過(guò)頭實(shí)體對(duì)應(yīng)的特征向量融入到Bi-LSTM輸出的特征向量中以增強(qiáng)模型整體的依賴性,更好地標(biāo)注關(guān)系對(duì)應(yīng)的尾實(shí)體位置。輸入向量是融合了已標(biāo)注的頭實(shí)體向量,預(yù)測(cè)所有頭實(shí)體對(duì)應(yīng)關(guān)系下的尾實(shí)體開始位置概率和結(jié)束位置概率,如式(11)、式(12)所示。
(11)
(12)


(13)
本文根據(jù)領(lǐng)域特點(diǎn)定義了17種關(guān)系類型,包括跨境節(jié)日、民族歌舞、宗教信仰、建筑特色、民族樂(lè)器、跨境民族、包含、民族節(jié)日、活動(dòng)和別名等關(guān)系。如圖4所示,一共構(gòu)建了18 000條高質(zhì)量的實(shí)體關(guān)系數(shù)據(jù)集,統(tǒng)計(jì)了訓(xùn)練集、驗(yàn)證集和測(cè)試集中文本數(shù)量、實(shí)體關(guān)系三元組數(shù)量以及重疊實(shí)體關(guān)系的數(shù)量。

圖4 數(shù)據(jù)集統(tǒng)計(jì)
實(shí)驗(yàn)使用Adamax優(yōu)化器來(lái)優(yōu)化所有訓(xùn)練的參數(shù),實(shí)驗(yàn)具體參數(shù)設(shè)置如表3所示。

表3 模型參數(shù)的設(shè)置
本文的評(píng)價(jià)指標(biāo)是通過(guò)精確率(Precision)、召回率(Recall)和F1值來(lái)對(duì)模型進(jìn)行評(píng)估,如式(14)~式(16)所示。
其中,TP表示模型輸出的正確三元組數(shù)量,FP表示模型輸出的錯(cuò)誤三元組數(shù)量,FN表示模型未能預(yù)測(cè)的正確三元組數(shù)量。
為了驗(yàn)證本文方法有效性,設(shè)計(jì)了一組對(duì)比實(shí)驗(yàn);設(shè)計(jì)了兩組消融實(shí)驗(yàn),分別為模型中不同編碼層對(duì)模型效果的影響和卷積層數(shù)量對(duì)領(lǐng)域詞典信息抽取的影響。
實(shí)驗(yàn)一: 不同方法實(shí)驗(yàn)結(jié)果對(duì)比
為了驗(yàn)證本文方法的有效性,與基線方法進(jìn)行了對(duì)比,四種對(duì)比方法如下:
(1)GraphRel模型: 2019年Fu等人[11]提出了基于圖卷積網(wǎng)絡(luò)的實(shí)體關(guān)系抽取方法,它將實(shí)體對(duì)分割為幾個(gè)詞對(duì),考慮對(duì)所有的詞對(duì)進(jìn)行預(yù)測(cè)的實(shí)體關(guān)系抽取方法。
(2)TPLinker模型: 2020年Wang等人[13]利用實(shí)體與關(guān)系的交互信息和依賴關(guān)系,提取出不受偏差影響的各種重疊關(guān)系的聯(lián)合模型。
(3)PRGC模型: 2021年Zheng等人[14]設(shè)計(jì)的一個(gè)預(yù)測(cè)潛在關(guān)系的模塊,將實(shí)體提取限制在預(yù)測(cè)的關(guān)系子集上,然后用特定關(guān)系的標(biāo)簽處理實(shí)體對(duì)關(guān)系重疊的問(wèn)題。
(4)CasRel模型: 2020年Wei等人[1]提出了基于級(jí)聯(lián)二進(jìn)制標(biāo)注的實(shí)體關(guān)系三元組抽取方法,通過(guò)標(biāo)注頭實(shí)體及對(duì)應(yīng)關(guān)系類型下的尾實(shí)體實(shí)現(xiàn)實(shí)體關(guān)系抽取方法。
(5)本文方法: 首先基于BERT生成字符向量表征,通過(guò)CNN特征編碼器對(duì)領(lǐng)域詞向量進(jìn)行編碼,然后融入到字符向量表征中增強(qiáng)領(lǐng)域信息,通過(guò)LSTM對(duì)特征向量進(jìn)一步提取上下文特征,最后利用指針網(wǎng)絡(luò)標(biāo)注實(shí)體關(guān)系的方法。
如表4所示,本文方法F1值達(dá)到了82.50%,相較于其他三個(gè)對(duì)比模型都有一定的提升,本文方法在字符向量表征中融入了領(lǐng)域知識(shí),將領(lǐng)域信息表示更好地融合到了模型中。GraphRel模型將字符向量與詞性表征相融合后輸入到Bi-LSTM中提取信息,通過(guò)GCN對(duì)句法依賴樹編碼,實(shí)驗(yàn)效果取決于訓(xùn)練過(guò)程中依賴分詞的質(zhì)量和詞性標(biāo)注的質(zhì)量,在特定領(lǐng)域上的實(shí)體關(guān)系抽取效果相對(duì)較差。PRGC和TPLinker模型效果相對(duì)較好,為了避免偏差影響模型效果,使用了復(fù)雜的解碼器,導(dǎo)致稀疏的標(biāo)簽提取能力較弱。

表4 對(duì)比實(shí)驗(yàn)結(jié)果 (單位: %)
本文方法相比于CasRel模型效果提升了2.34%,CasRel模型通過(guò)BERT直接生成詞向量表征,然后通過(guò)二進(jìn)制標(biāo)注器進(jìn)行頭實(shí)體標(biāo)注,在預(yù)測(cè)所有頭實(shí)體時(shí)不準(zhǔn)確,使得融入頭實(shí)體向量帶來(lái)誤差傳播的問(wèn)題。本文方法效果優(yōu)于CaseRel模型的主要原因是本文方法在BERT生成字符向量的基礎(chǔ)上加入了CNN編碼器提取領(lǐng)域信息之后融入到了字符向量中增強(qiáng)領(lǐng)域信息,然后加入Bi-LSTM進(jìn)一步提取上下文語(yǔ)義信息,提升了指針網(wǎng)絡(luò)標(biāo)注頭實(shí)體位置的正確性。
實(shí)驗(yàn)二: 不同編碼層的實(shí)驗(yàn)結(jié)果對(duì)比
為了驗(yàn)證本文方法融合不同編碼層的有效性,設(shè)計(jì)了去除領(lǐng)域詞典融入層、去除CNN編碼層以及去除LSTM特征提取層的消融實(shí)驗(yàn),其他層保持不變進(jìn)行模型訓(xùn)練。
如圖5所示,去除領(lǐng)域詞典融入層的實(shí)驗(yàn)相較于本文方法F1值下降了2.29%,僅僅是字符層面的表征,沒(méi)有詞語(yǔ)層面的信息融合,模型在缺少領(lǐng)域詞典信息的表示后,會(huì)造成模型對(duì)文本中的領(lǐng)域詞匯編碼能力下降,不能有效地編碼領(lǐng)域特征表示。

圖5 不同編碼層實(shí)驗(yàn)結(jié)果
對(duì)于去除CNN編碼層的實(shí)驗(yàn),相較于本文方法實(shí)驗(yàn),F1值下降了0.81%,領(lǐng)域詞典信息表征未通過(guò)CNN編碼導(dǎo)致特征表示融合時(shí)無(wú)法融入重要的特征,使得模型無(wú)法有效地利用領(lǐng)域詞典信息,表明CNN對(duì)領(lǐng)域詞匯局部特征提取的有效性。對(duì)于去除LSTM特征提取層的實(shí)驗(yàn),相較于本文方法F1值下降了1.66%,表明Bi-LSTM能夠有效地提取特征表示中的長(zhǎng)短期時(shí)間步的依賴信息,即提取文本上下文的語(yǔ)義信息。本文方法將BERT預(yù)訓(xùn)練模型所表示的字符向量和領(lǐng)域詞典信息向量進(jìn)行融合, 通過(guò)CNN編碼器和Bi-LSTM特征提取層后得到的特征表示對(duì)模型效果有明顯的提升。
實(shí)驗(yàn)三: 卷積層數(shù)對(duì)領(lǐng)域詞典信息提取的影響
為了驗(yàn)證CNN卷積層數(shù)對(duì)領(lǐng)域詞典信息提取的影響,本文設(shè)計(jì)了卷積層數(shù)分別為2、3、4、5層進(jìn)行對(duì)比,選擇合適卷積層數(shù)得到集合的最優(yōu)組合,使得模型效果最佳。
如表5所示,當(dāng)卷積層數(shù)為2時(shí),卷積網(wǎng)絡(luò)提升感受野的能力不足,造成模型性能提升不大;卷積網(wǎng)絡(luò)在參數(shù)規(guī)模相同的情況下,卷積層越小,計(jì)算復(fù)雜度就越低。當(dāng)卷積網(wǎng)絡(luò)的層數(shù)為3時(shí),模型達(dá)到最佳效果;在第3層后,隨著層數(shù)的增加,模型的整體性能均有所下降。當(dāng)卷積層數(shù)為5層時(shí),準(zhǔn)確率有所提高,但是整體F1值比3層的效果差。

表5 卷積層數(shù)量對(duì)實(shí)驗(yàn)的影響 (單位: %)
為了驗(yàn)證本文方法在跨境民族文化實(shí)體關(guān)系抽取上的效果,在本節(jié)中選擇了兩個(gè)實(shí)例進(jìn)行分析,將基線CasRel模型方法和本文方法進(jìn)行了對(duì)比。
如表6所示,在第一個(gè)實(shí)例中,存在重疊的頭實(shí)體“傣族”,CasRel模型將三元組中對(duì)應(yīng)的尾實(shí)體錯(cuò)誤標(biāo)注為“旱傣和水傣”。在第二個(gè)實(shí)例中,將頭實(shí)體和對(duì)應(yīng)的關(guān)系都抽取錯(cuò)誤,這是由于基線模型在缺乏領(lǐng)域信息的輔助下將“潑水節(jié)”實(shí)體錯(cuò)誤標(biāo)注為“潑水”,導(dǎo)致實(shí)體關(guān)系抽取錯(cuò)誤。本文方法在融入領(lǐng)域詞典信息后能夠更準(zhǔn)確地標(biāo)注領(lǐng)域?qū)嶓w并正確輸出重疊實(shí)體關(guān)系三元組。

表6 實(shí)例分析
針對(duì)跨境民族文化實(shí)體關(guān)系抽取任務(wù)中存在的實(shí)體關(guān)系重疊和領(lǐng)域信息缺失問(wèn)題,本文提出了基于指針標(biāo)注的跨境民族文化實(shí)體關(guān)系抽取方法,在字符向量表示中加入領(lǐng)域信息增強(qiáng)上下文表征能力,利用多層指針網(wǎng)絡(luò)標(biāo)注方法提升重疊實(shí)體關(guān)系抽取的效果。實(shí)驗(yàn)表明,本文方法在跨境民族文化實(shí)體關(guān)系抽取任務(wù)上有一定的性能提升。