999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本化簡的實(shí)體屬性抽取方法

2020-11-10 07:10:30王朝坤王沐賢
關(guān)鍵詞:文本信息模型

吳 呈,王朝坤,王沐賢

1.清華大學(xué) 軟件學(xué)院,北京 100084

2.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,哈爾濱 150001

1 引言

隨著信息技術(shù)的發(fā)展,電子數(shù)據(jù)日益增多。為了更好地組織和維護(hù)信息,Google 在2012 年提出知識圖譜的概念。知識圖譜是知識庫的一種組織形式,具有很強(qiáng)的數(shù)據(jù)描述能力,尤其是在描述現(xiàn)實(shí)世界中的實(shí)體及實(shí)體間的關(guān)系上。

基于非結(jié)構(gòu)化文本構(gòu)建知識圖譜,需要從文本中抽取實(shí)體、實(shí)體屬性以及實(shí)體關(guān)系。目前,實(shí)體[1-2]和實(shí)體關(guān)系[3-6]抽取的研究工作已有很多,但實(shí)體屬性抽取則相對較少。雖然一些實(shí)體屬性可以以實(shí)體關(guān)系的形式體現(xiàn)(如出生地屬性可以表示為人物實(shí)體和地點(diǎn)實(shí)體間的關(guān)系),然而很多屬性是對實(shí)體的直接描述,不宜將對應(yīng)的屬性值視為實(shí)體(如人物的職位屬性和年齡屬性),因此需要專門研究針對實(shí)體屬性的抽取方法。

開放信息抽取[7]旨在基于文本的語法和語義信息,根據(jù)一定規(guī)則從開放領(lǐng)域文本中抽取關(guān)系三元組。本文嘗試采用類似想法進(jìn)行實(shí)體屬性抽取。不同之處在于,在抽取屬性時(shí),不僅關(guān)注文本中的動(dòng)詞,還考慮與實(shí)體相關(guān)的形容詞,這使得屬性的抽取規(guī)則更復(fù)雜。而且由于文本中長難句的存在和文本表述的多樣性,適用于某一場景的規(guī)則可能在另一種場景下并不適用。為了解決這個(gè)問題,本文引入文本化簡作為實(shí)體屬性抽取的預(yù)處理過程:對于待抽取信息的文本,先使用一個(gè)針對文本化簡設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)將其轉(zhuǎn)化為一系列的簡單句,再用簡潔的規(guī)則從簡單句中抽取實(shí)體的屬性信息。

本文的主要貢獻(xiàn)包括:

(1)針對實(shí)體屬性抽取問題提出先化簡后抽取的策略,并設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)新的基于遞歸神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器文本化簡模型。模型采用常用詞匯表、詞性標(biāo)注和化簡評分函數(shù)的優(yōu)化策略。

(2)針對化簡后的文本設(shè)計(jì)了信息元組抽取算法和實(shí)體屬性抽取算法。這兩個(gè)算法以簡潔的規(guī)則從文本中抽取信息。

(3)設(shè)計(jì)實(shí)驗(yàn)對所提文本化簡方法和信息抽取方法進(jìn)行評估。實(shí)驗(yàn)結(jié)果表明先化簡再抽取的流程能夠有效提升實(shí)體屬性的抽取效果。

2 相關(guān)工作

2.1 開放信息抽取

開放信息抽取(Open Information Extraction,Open IE)是一種面向開放領(lǐng)域的信息抽取方式。與傳統(tǒng)信息抽取方法不同,Open IE 無需預(yù)先指定詞典,僅利用文本的語法和語義信息,即可從不同領(lǐng)域的大量語料中抽取關(guān)系三元組[7]。

經(jīng)典的Open IE系統(tǒng)大多是圍繞英文設(shè)計(jì)的,包括TextRunner[8]、WOE[9]、Reverb[10]、DepIE[11]、OLLIE[12]、ClauseIE[13]等。因?yàn)橹杏⑽恼Z言模型存在差異,所以上述系統(tǒng)均無法直接用于中文信息抽取。

目前存在少量專門針對中文的Open IE 系統(tǒng)[14-15],然而這些系統(tǒng)所用方法適用范圍有限,在長難句和復(fù)雜句上的效果并不理想。

2.2 文本化簡

文本化簡(Text Simplification,TS)旨在通過長句拆分、句法刪簡和釋義轉(zhuǎn)換等方法對復(fù)雜難懂的文本進(jìn)行化簡。現(xiàn)有主流方法將TS建模為從復(fù)雜句到簡單句的單語言翻譯過程,并借用機(jī)器翻譯技術(shù)加以實(shí)現(xiàn)[16-17]。然而,由于缺乏中文TS數(shù)據(jù)集,尚未見這類方法用于中文文本化簡的報(bào)道。

目前已有個(gè)別針對中文文本拆分的研究工作,包括基于逗號的中文句子分割[18]和文言文斷句[19]。然而,還遠(yuǎn)遠(yuǎn)不能滿足中文文本化簡的需求。

2.3 序列到序列神經(jīng)網(wǎng)絡(luò)

序列到序列(sequence to sequence,seq2seq)神經(jīng)網(wǎng)絡(luò)模型用于將一種序列轉(zhuǎn)化為另一種序列。最經(jīng)典的seq2seq模型采用基于兩個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的編碼器-解碼器架構(gòu)[20]。為了克服RNN網(wǎng)絡(luò)無法并行訓(xùn)練的缺點(diǎn),文獻(xiàn)[21]和[22]分別提出基于CNN和注意力機(jī)制的編碼器-解碼器模型。相關(guān)實(shí)驗(yàn)結(jié)果表明這兩個(gè)模型在機(jī)器翻譯上的訓(xùn)練開銷及效果均優(yōu)于RNN網(wǎng)絡(luò)。

3 基本定義和處理流程

3.1 基本定義

定義1(信息元組)信息元組為一個(gè)三元組,形如“(s,v,o)”。其中s為主語項(xiàng),表示信息描述的主體;v為謂語項(xiàng),表示主體的動(dòng)作或狀態(tài);o為賓語項(xiàng),表示主體動(dòng)作的作用對象。

信息元組分為合規(guī)和噪聲兩種。合規(guī)的元組需滿足以下條件:

(1)元組的主語項(xiàng)和謂語項(xiàng)不能為空。

(2)元組的每一項(xiàng)(若存在)需是短語,不能為句子。

(3)元組每一項(xiàng)(若存在)的描述必須明確,不能含有指示代詞,也不能缺乏限定詞。

不滿足合規(guī)元組條件的信息元組即為噪聲元組。

合規(guī)元組舉例:“(秋田美術(shù)館,位于,日本秋田縣)”“(門德里西奧建筑師學(xué)院,于1996年在瑞士成立,)”。

噪聲元組舉例:①“(首都,是,羅馬)”不合規(guī),因?yàn)橹髡Z項(xiàng)不明確,缺乏限定詞;②“(,威廉·安德斯于1963年被選中,)”不合規(guī),其主語項(xiàng)為空,且謂語項(xiàng)不為短語。

定義2(實(shí)體屬性)實(shí)體E的屬性記為A(E)=(As(E),Ad(E))。其中,As(E)為E的表征屬性集合,即實(shí)體特征描述詞的集合;Ad(E) 為E的鍵值屬性集合。鍵值屬性形如“k→V”,k表示屬性的類別,V為一個(gè)集合,表示實(shí)體在類別k下的屬性值集合。

如信息元組主語“小學(xué)教師張三”中的“小學(xué)教師”即為“張三”的表征屬性。信息元組“(張三,1980年出生于,北京)”中,關(guān)于實(shí)體“張三”可以抽出“出生于”→“{1998年”,“北京”}的鍵值屬性。再如信息元組“(張三的國籍,是,中國)”中,可以抽出“張三”的鍵值屬性:“國籍”→ “{中國”}。

3.2 處理流程

基于文本化簡的實(shí)體和實(shí)體屬性抽取的處理流程如圖1所示。對于一段輸入的文本,先進(jìn)行文本化簡轉(zhuǎn)化為一系列的簡單句,再進(jìn)行信息元組抽取和實(shí)體及實(shí)體屬性抽取,得到一系列的實(shí)體及對應(yīng)的表征屬性集合與鍵值屬性集合。

圖1 處理流程

在圖1中,文本化簡和信息抽取是決定實(shí)體及屬性抽取效果的關(guān)鍵模塊。下面兩章分別闡述針對文本化簡模塊和信息抽取模塊的具體設(shè)計(jì)。

4 文本化簡

本文將文本化簡視為一個(gè)序列到序列的轉(zhuǎn)換過程,并使用一個(gè)基于RNN 的編碼器-解碼器模型來實(shí)現(xiàn)。此外,針對文本化簡任務(wù)的特點(diǎn),本文嘗試對該模型進(jìn)行不同層面的改進(jìn)。

4.1 基本模型

基于RNN編碼器-解碼器(seq2seq-RNN)模型[20],本文給出的文本化簡基本模型如圖2所示(相關(guān)符號說明見表1)。該模型主要包括編碼器、解碼器和預(yù)測器三個(gè)部分。

圖2 基本模型

表1 圖2相關(guān)符號說明

(1)編碼器。編碼器對輸入的詞序列{x1,x2,…,xn}進(jìn)行編碼。首先,構(gòu)造詞匯表對訓(xùn)練集和測試集中的詞進(jìn)行編號。為了限制詞匯表的規(guī)模,出現(xiàn)的詞按詞頻降序排序后保留前Nv個(gè),余下的統(tǒng)一編為特定序號,表示未知詞。每個(gè)詞有對應(yīng)的序號后,通過Embedding 層(詞向量矩陣)獲取對應(yīng)的詞向量。然后,將詞序列對應(yīng)的詞向量序列依次輸給遞歸神經(jīng)網(wǎng)絡(luò)(雙層LSTM 網(wǎng)絡(luò)),獲取對應(yīng)的輸出和隱藏狀態(tài)。

(2)解碼器。解碼器由LSTM網(wǎng)絡(luò)和注意力機(jī)制層組成。解碼器中的LSTM 網(wǎng)絡(luò)與編碼器中的基本類似。不同的是,解碼器中LSTM網(wǎng)絡(luò)的第k步輸入為當(dāng)前目標(biāo)詞的詞向量與解碼器第k-1 步輸出,連接后的向量(k為1 時(shí)與編碼器的輸出連接)。注意力機(jī)制層使用的是全局注意力機(jī)制[23]。

(3)預(yù)測器。預(yù)測器包括全連接層和LogSoftmax層。對解碼器的每一步輸出,預(yù)測器輸出詞匯表中每個(gè)詞作為輸出序列下一個(gè)詞的對數(shù)概率。

訓(xùn)練時(shí),輸入序列經(jīng)編碼器編碼后,由解碼器進(jìn)行解碼,再通過預(yù)測器計(jì)算對數(shù)概率,根據(jù)其與目標(biāo)序列的 NLL Loss(Negative Log Likelihood Loss[24])值,對模型進(jìn)行反饋調(diào)節(jié)。

化簡時(shí),輸入序列由編碼器編碼后(h3),與句子起始符號()一同傳給解碼器解碼,解碼結(jié)果輸給預(yù)測器得到第一個(gè)輸出詞(t1);而后t1與解碼器當(dāng)前隱藏狀態(tài)(h1′)一起輸?shù)浇獯a器,再由預(yù)測器預(yù)測下一個(gè)輸出詞(t2);如此遞歸直到預(yù)測出句子結(jié)束符號(),結(jié)束化簡過程。為了得到更好的化簡序列,采用集束搜索(BeamSearch[20])策略進(jìn)行序列預(yù)測。

此外,由于限定了詞匯量的大小,一些詞語會(huì)被識別為未知詞(unk)。于是,用輸出unk 時(shí)注意力最大的輸入詞替換unk,得到最后的輸出詞序列。

為使seq2seq-RNN 進(jìn)一步捕獲文本化簡中的句法轉(zhuǎn)換,第4.2、4.3、4.4 節(jié)分別引入常用詞匯表、詞性標(biāo)注和化簡評分函數(shù)。

4.2 預(yù)訓(xùn)練詞向量和常用詞匯表

預(yù)訓(xùn)練詞向量能夠有效提升模型的學(xué)習(xí)效果,因此本文在基本模型的基礎(chǔ)上引入詞向量模型。

為緩解特殊詞過擬合的現(xiàn)象,本文考慮從給定語料中抽取前N個(gè)詞形成常用詞匯表,并用于不同數(shù)據(jù)集的文本化簡。該語料包含100 萬個(gè)句子,詞匯量為932 597。對該語料中的詞按詞頻降序排序,得到的不同詞匯表規(guī)模及在中文WikiEdit 數(shù)據(jù)集(詳見6.1.1 節(jié))的覆蓋率如表2所示。其中,選擇前50 000個(gè)詞時(shí)即可達(dá)到90%以上的覆蓋率。于是,本文選這50 000個(gè)詞作為常用詞匯表。

表2 常用詞匯表的覆蓋率

使用常用詞匯表后,特殊詞均被映射為unk。因此,seq2seq-RNN主要學(xué)習(xí)常用詞間的映射關(guān)系,緩解了特殊詞過擬合的情況。然而序列中的unk詞也因此增加,且彼此間缺乏區(qū)分度,容易出現(xiàn)模型預(yù)測輸出一直為unk的情況。對此,本文提出如下解決方法:

(1)合并輸入詞序列中相鄰的unk 詞,確保序列中無連續(xù)的unk詞,防止出現(xiàn)unk預(yù)測unk的情況。

(2)引入位置編碼,使合并后的序列中不同的unk詞有區(qū)分度。編碼方式為詞向量與正弦函數(shù)及余弦函數(shù)相乘[21]。

4.3 詞性標(biāo)注的引入

為進(jìn)一步捕獲語法轉(zhuǎn)換信息,本節(jié)將詞性標(biāo)注引入到模型中。詞性標(biāo)注(Part-Of-Speech tagging,POS tagging)指識別序列中詞語的詞性,并進(jìn)行編碼標(biāo)注,如“a(形容詞)”“n(名詞)”“v(動(dòng)詞)”“vn(動(dòng)名詞)”等。中文文本的詞性可以通過pyhanlp 工具(https://github.com/hankcs/pyhanlp)獲得。

引入詞性標(biāo)注后的seq2seq-RNN 模型及相關(guān)符號分別見圖3 和表3。首先,對詞性序列進(jìn)行嵌入來獲得對應(yīng)的詞性向量,將其與詞向量連接后作為編碼器和解碼器的輸入,以使LSTM 網(wǎng)絡(luò)能夠捕獲詞性信息。然后,修改模型的預(yù)測器,使用兩個(gè)不同的LogSoftmax層分別用于輸出不同詞作為下一個(gè)輸出的對數(shù)概率,及該詞為不同詞性的概率(ti和qi分別表示概率最大的詞及對應(yīng)的詞性)。最后,使用NLL Loss[24]將詞性的預(yù)測差異反饋到網(wǎng)絡(luò)中。

圖3 引入詞性標(biāo)注的seq2seq-RNN模型

表3 圖3相關(guān)符號說明

針對化簡階段,本文提出詞性替換機(jī)制,即在獲取預(yù)測詞及對應(yīng)的詞性時(shí),若該詞在輸入序列中出現(xiàn),則用輸入序列中對應(yīng)的詞性替換預(yù)測的詞性。通過這種自引導(dǎo)方式進(jìn)行化簡,可在BLEU 指標(biāo)上獲得1.5 的提升(見6.4節(jié))。

4.4 化簡評分函數(shù)

為進(jìn)一步優(yōu)化文本化簡效果,本節(jié)提出化簡評分函數(shù)。該函數(shù)能對4.3節(jié)中seq2seq-RNN模型預(yù)測出的詞性序列的簡化程度進(jìn)行打分,并將復(fù)雜的序列以loss的形式反饋給化簡網(wǎng)絡(luò),以加速化簡網(wǎng)絡(luò)的收斂過程,使模型傾向于輸出更簡化的句子。

化簡評分函數(shù)采用一個(gè)二分類神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)現(xiàn)。該網(wǎng)絡(luò)接受一個(gè)詞性序列,輸出其為簡單句和復(fù)雜句的概率。本文將序列為復(fù)雜句的概率作為簡化程度的評分,分值越高,句子越復(fù)雜,對化簡網(wǎng)絡(luò)產(chǎn)生的loss越大。

分類網(wǎng)絡(luò)的結(jié)構(gòu)如圖4 所示(相關(guān)符號說明見表4)。輸入的詞性序列經(jīng)過embedding 層后轉(zhuǎn)換成對應(yīng)的詞性向量,再依次輸入到一個(gè)單層LSTM 中進(jìn)行編碼。編碼后的向量經(jīng)過兩個(gè)全連接層后,輸出一個(gè)長度為2 的向量。該向量經(jīng)sigmoid 函數(shù)激活后得到輸入序列為簡單句或復(fù)雜句的概率。最后,根據(jù)BCELoss(Binary Cross-Entropy Loss,二分類交叉熵?fù)p失函數(shù))用隨機(jī)梯度下降(SGD)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

圖4 化簡評分函數(shù)的網(wǎng)絡(luò)模型

表4 圖4相關(guān)符號說明

化簡評分函數(shù)的二分類網(wǎng)絡(luò)是獨(dú)立預(yù)先訓(xùn)練的,且訓(xùn)練好的分類器在不同的數(shù)據(jù)集之間可以復(fù)用。實(shí)驗(yàn)結(jié)果表明,化簡評分函數(shù)能正確找出部分復(fù)雜序列,并反饋給化簡網(wǎng)絡(luò)(見6.3節(jié)和6.4節(jié))。

5 信息抽取

5.1 信息元組抽取

經(jīng)典的開放信息抽取系統(tǒng)是基于語法和語義規(guī)則的。由于抽取的效果依賴于規(guī)則的完備性,這些系統(tǒng)往往具有龐大的規(guī)則庫。本節(jié)給出一個(gè)規(guī)則簡潔且有效的針對化簡文本的信息抽取算法。

算法1信息關(guān)系抽取

Input:待抽取的信息元組的句子sentence

Output:信息元組列表tuples

1.tuples=[]

2.dep_zh=pyhanlp.parseDependency(sentence)

3.verb_list=[dep_zh.核心詞]

4.i=0

5.while i

6.verb_list.extend(verb_list[i].并列關(guān)系詞列表)

7.i+=1

8.for v in verb_list://尋找主謂賓結(jié)構(gòu)

9.tuples.append((v.主語,v,v.賓語))

10.for t in tuples://處理共同主語

11.if t.主語為空and t有父節(jié)點(diǎn):

12.t.主語=t.父節(jié)點(diǎn).主語

13.return tuples

如算法1所示,信息抽取算法的步驟為:

(1)使用pyhanlp對文本進(jìn)行依存關(guān)系分析(第2行)。

(2)找到依存關(guān)系的核心詞(第3 行),并遞歸查找所有與核心詞并列的詞,構(gòu)成謂語列表(第4~7行)。

(3)對謂語列表中的每一個(gè)謂語,根據(jù)依存關(guān)系尋找其主語和賓語(若存在),構(gòu)成信息元組(第8~9行)。

(4)對于沒有主語的信息元組t,尋找與其謂語并列且存在主語的父級信息元組tf(由直接并列到間接并列遞歸尋找父級元組)。若tf存在,則將t的主語設(shè)為tf的主語(第10~12行);否則不做處理。

(5)結(jié)束抽取過程,返回抽取結(jié)果(第13行)。

上述算法抽取文本中的主謂賓結(jié)構(gòu),且處理了并列謂語的情形,適用于絕大多數(shù)文本的信息元組抽取。算法時(shí)間復(fù)雜度為O(ns),其中ns為句子長度。需要注意,雖然該算法存在抽取信息粒度較大,無法處理復(fù)雜句式的情況,但是考慮到本文信息抽取針對的是化簡后的文本,因此其足以滿足抽取需要。

5.2 實(shí)體屬性抽取

實(shí)體屬性是基于信息元組抽取的。在抽取屬性前,本文使用pyltp(語言技術(shù)平臺的python接口,由哈工大社會(huì)計(jì)算與信息檢索研究中心研發(fā))中的命名實(shí)體識別工具進(jìn)行實(shí)體抽取。Pyltp 能夠識別文本中的人物實(shí)體、地點(diǎn)實(shí)體及組織實(shí)體。本文用pyltp 從信息元組的主語中抽取人物實(shí)體(地點(diǎn)和組織實(shí)體類似,本文只關(guān)注人物實(shí)體),將人物實(shí)體及對應(yīng)的信息元組作為實(shí)體屬性抽取算法的輸入。

算法2實(shí)體屬性抽取

Input:實(shí)體e,信息元組(s,v,o)

Output:實(shí)體e的表征屬性集合args與鍵值屬性集合kwargs

1.args={}//即As(e)

2.kwargs={} //即Ad(e)

3.dep_s=pyhanlp.parseDependency(s)

4.if dep_s.核心詞==e:

5.args.extend(e.定語) //定語為表征屬性

6.dep_v=pyhanlp.parseDependency(v)

7.// 謂語與其狀語和賓語形成鍵值屬性

8.kwargs[dep_v.核心詞].extend(dep_v.核心詞.狀語列表)

9.kwargs[dep_v.核心詞].append(o)

10.else if e 為dep_s.核心詞k的形容詞:

11.// 主語核心詞與謂語賓語形成鍵值屬性

12.if v為“是”或“為”等:kwargs[k].append(o)

13.else:kwargs[k].append(v+o)

14.return args,kwargs

如算法2所示,實(shí)體屬性抽取算法的關(guān)鍵步驟為:

(1)用pyhanlp 對信息元組的主語進(jìn)行依存關(guān)系分析(第3行)。若輸入實(shí)體為核心詞,則跳轉(zhuǎn)到步驟2(第4~9行);若輸入實(shí)體為核心詞的形容詞,則跳轉(zhuǎn)到步驟4(第10~13行);否則結(jié)束抽取,返回空表征屬性集合和空鍵值屬性集合。

(2)檢查實(shí)體是否有定語。若有,則將其加入實(shí)體的表征屬性集合中(第5行)。然后跳轉(zhuǎn)到步驟3。

(3)對信息元組的謂語進(jìn)行依存關(guān)系分析(第6行)。將核心詞作為鍵值屬性的鍵,將核心詞的狀語(若存在)加入該鍵對應(yīng)的值的集合(第8行)。若信息元組的賓語存在,則將賓語也加入該鍵對應(yīng)的值的集合(第9行)。結(jié)束抽取過程,返回對應(yīng)的表征屬性集合和鍵值屬性集合。

(4)將信息元組主語的核心詞作為實(shí)體鍵值關(guān)系中的鍵。若信息元組的謂語不為簡單解釋詞(如“是”、“為”等),則將信息元組的謂語和賓語連接后加入該鍵的值集合(第12 行);否則將信息元組的賓語作為值加入該鍵的值集合(第13 行)。結(jié)束抽取過程,返回對應(yīng)的表征屬性結(jié)合和鍵值屬性集合。

上述算法的時(shí)間復(fù)雜度為O(nt),其中nt為信息元組主語和謂語的長度之和。

以上是從單個(gè)信息元組抽取實(shí)體及屬性的方法。針對一段文本(通常可抽出多個(gè)信息元組)抽取時(shí),需要將所有信息元組的實(shí)體及對應(yīng)的屬性進(jìn)行集合的“并”操作,以獲得所有的實(shí)體及屬性。

實(shí)踐中,由于文本表述的多樣性,實(shí)體對應(yīng)的形容詞與動(dòng)詞未必是實(shí)體的屬性,需進(jìn)行篩選或限定。如提取實(shí)體的出生地時(shí),僅關(guān)注“出生”和“誕生”之類的動(dòng)詞。

6 實(shí)驗(yàn)

6.1 實(shí)驗(yàn)配置

6.1.1 數(shù)據(jù)集

鑒于目前尚無中文文本化簡數(shù)據(jù)集,本文采用翻譯的方法進(jìn)行構(gòu)造。然而,現(xiàn)有英文文本化簡數(shù)據(jù)集(PWKP[25]、SWKP[26]、Newsela[27])側(cè)重于通過句法刪減和用詞簡化來提高句子的可讀性和易讀性,因此不宜用于信息抽取。考慮到信息抽取需盡可能多地保留句子中的有用信息,不能因化簡而丟失信息。于是,本文選擇兩個(gè)英文文本拆分的數(shù)據(jù)集作為原始數(shù)據(jù)集,利用百度翻譯的接口翻譯后獲得中文WikiEdit 數(shù)據(jù)集和中文SPRP數(shù)據(jù)集。

(1)中文WikiEdit 數(shù)據(jù)集。該數(shù)據(jù)集由Google 的WikiSplit 數(shù)據(jù)集[28]翻譯而來。原數(shù)據(jù)集根據(jù)維基百科公開的編輯歷史記錄自動(dòng)構(gòu)建形成。數(shù)據(jù)集中存在一些固有噪聲。

(2)中文SPRP數(shù)據(jù)集。該數(shù)據(jù)集由“Split and Rephrase”[29]論文中使用的基準(zhǔn)(benchmark)數(shù)據(jù)集翻譯而來。原數(shù)據(jù)集從WebNLG 挑戰(zhàn)(網(wǎng)頁自然語言生成挑戰(zhàn))的數(shù)據(jù)中提取形成,是一個(gè)較為理想的文本化簡數(shù)據(jù)集。然而,該數(shù)據(jù)集的規(guī)模較小,復(fù)雜句只有5 546句(一個(gè)復(fù)雜句對應(yīng)多個(gè)簡單句),且涉及的詞匯量只有4 107個(gè)。

兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表5 所示。其中“復(fù)雜句”表示不同的復(fù)雜句的數(shù)量。

表5 數(shù)據(jù)集的統(tǒng)計(jì)信息 103

6.1.2 評估指標(biāo)

針對文本化簡,實(shí)驗(yàn)使用精確率指標(biāo)和BLEU指標(biāo)進(jìn)行評估。其中,精確率指化簡句子中正確的詞語(即在目標(biāo)句子中出現(xiàn)的詞語)占化簡句子中所有詞語的百分比。精確率可以從用詞層面衡量文本化簡的效果,但無法評估化簡句子在句子長度、詞語順序關(guān)系和用詞完整性上的效果。BLEU[30]是IBM 于2002 年提出的機(jī)器翻譯評估指標(biāo),經(jīng)過多次改良升級后,其數(shù)值的高低能較為準(zhǔn)確地反映人類對翻譯效果評估的好壞。BLEU對序列到序列轉(zhuǎn)換過程中的用詞完整性,詞語順序及句子長度等進(jìn)行了綜合評估,能夠作為良好的文本化簡評估指標(biāo)。

針對信息抽取,采用人工評估的方式對信息元組抽取的數(shù)量及合規(guī)性進(jìn)行衡量。方法如下:

(1)選定測試句子,對原始句子和化簡句子分別進(jìn)行信息元組抽取。

(2)對所抽信息元組進(jìn)行人工評估,統(tǒng)計(jì)合規(guī)且表達(dá)意思不脫離原句的信息元組的數(shù)量。

(3)計(jì)算抽取的精確率,召回率和F1 值。

6.2 不同文本化簡模型的對比

本節(jié)對不同神經(jīng)機(jī)器翻譯(NMT)模型在文本化簡上的效果進(jìn)行對比。選用模型如下:

(1)Seq2seq-RNN:seq2seq-RNN基本模型(見第4.1節(jié))。

(2)Seq2seq-CNN:Facebook 于2017 年提出的基于CNN的編碼器-解碼器翻譯模型[21]。

(3)Seq2seq-ATTN:Google于2017年提出的基于注意力機(jī)制的Transformer模型[22]。

具體實(shí)驗(yàn)在中文WikiEdit數(shù)據(jù)集上進(jìn)行,結(jié)果如表6所示。得益于遞歸神經(jīng)網(wǎng)絡(luò)對序列長期依賴的捕獲能力,seq2seq-RNN 模型更好地捕捉了化簡中的句法變換,在兩個(gè)文本化簡指標(biāo)上均優(yōu)于其他兩個(gè)模型,化簡效果最好。同時(shí),該模型參數(shù)規(guī)模較小,訓(xùn)練時(shí)間也較短。這表明Seq2seq-RNN是一個(gè)良好的文本化簡模型。

表6 NMT模型在文本化簡上的實(shí)驗(yàn)結(jié)果

6.3 不同seq2seq-RNN模型的對比

本節(jié)嘗試對比以下不同改進(jìn)層面的seq2seq-RNN模型的化簡效果:

(1)Seq2seq-RNN:seq2seq-RNN基本模型(見4.1節(jié))。

(2)Seq2seq-RNN-P:seq2seq-RNN+詞性標(biāo)注。

(3)Seq2seq-RNN-PE:seq2seq-RNN-P+預(yù)訓(xùn)練詞向量和簡單詞匯表。

(4)Seq2seq-RNN-PES:seq2seq-RNN-PE+化簡評分函數(shù)。

不同模型在中文WikiEdit 數(shù)據(jù)集上進(jìn)行50 次迭代訓(xùn)練,其中詞向量維度和LSTM 的隱藏層大小均設(shè)為128。如表7所示,實(shí)驗(yàn)結(jié)果表明第4章中所提使用常用詞匯表、引入詞性標(biāo)注、設(shè)計(jì)化簡評分函數(shù)的文本化簡改進(jìn)思路能夠提升模型的化簡效果,且包含所有改進(jìn)的seq2seq-RNN-PES效果最好。此外,雖然改進(jìn)使得參數(shù)規(guī)模變大,但所有模型的訓(xùn)練時(shí)間均為8~10 s,這表明上述改進(jìn)沒有引入過多的時(shí)間開銷。

表7 不同seq2seq-RNN模型的實(shí)驗(yàn)結(jié)果

另外,對比表6 可見,參數(shù)規(guī)模減小會(huì)導(dǎo)致模型效果下降。因此,條件允許時(shí)可適當(dāng)增加詞向量維度及LSTM隱藏層大小來提升化簡效果。

6.4 化簡評分函數(shù)的效果

本節(jié)探索化簡評分函數(shù)在文本復(fù)雜度判定上的正確性。化簡評分函數(shù)的二分類神經(jīng)網(wǎng)絡(luò)使用中文SPRP數(shù)據(jù)集訓(xùn)練。數(shù)據(jù)集中的復(fù)雜句標(biāo)記為(1,0),簡單句標(biāo)記為(0,1),數(shù)值依次表示為復(fù)雜句和簡單句的概率。

充分訓(xùn)練后,二分類網(wǎng)絡(luò)在測試集上的分類結(jié)果如表8所示。數(shù)據(jù)表明,化簡評分函數(shù)對簡單句的召回率高達(dá)99.9%,說明化簡函數(shù)基本不會(huì)將簡單句誤判為復(fù)雜句。此外,其能識別出51.5%的復(fù)雜句。這表示化簡評分函數(shù)可以在不引入噪聲的前提下,改善模型的效果。

表8 化簡評分函數(shù)效果

6.5 優(yōu)化策略的作用

本節(jié)對比seq2seq-RNN、seq2seq-RNN-E(seq2seq-RNN+預(yù)訓(xùn)練詞向量)與seq2seq-RNN-P(seq2seq-RNN+詞性標(biāo)注)在中文SPRP數(shù)據(jù)集的化簡效果,以探索不同優(yōu)化策略的作用。

如表9 所示,在實(shí)驗(yàn)結(jié)果中,使用預(yù)訓(xùn)練詞向量的seq2seq-RNN-E的效果最好。此外,雖然seq2seq-RNN-P的精確率低于seq2seq-RNN,但其BLEU 高于seq2seq-RNN。這說明引入詞性標(biāo)注后,模型對詞語對應(yīng)關(guān)系的學(xué)習(xí)能力減弱,對句法轉(zhuǎn)換的學(xué)習(xí)能力增強(qiáng)。

表9 不同優(yōu)化策略的實(shí)驗(yàn)結(jié)果

為進(jìn)一步闡述不同優(yōu)化策略的作用,本文對部分模塊在seq2seq-CNN 和seq2seq-ATTN 上的優(yōu)化效果進(jìn)行評估。需注意,這兩個(gè)模型的設(shè)計(jì)初衷是去除文本長期依賴,所以它們的訓(xùn)練單位為詞語(token),而非文本(text)。在缺乏詞語順序的情況下,無法直接獲取模型對整個(gè)文本(token 序列)的輸出,化簡評分函數(shù)難以引入。因此,本文只對其余兩個(gè)優(yōu)化策略在seq2seq-CNN和seq2seq-ATTN上的效果進(jìn)行評估(分別記為seq2seq-CNN-PE和seq2seq-ATTN-PE)。

對比表10與表6可見,引入常用詞匯表與詞性標(biāo)注后,seq2seq-CNN和seq2seq-ATTN的文本化簡效果有所提升。這表明論文所提的優(yōu)化策略是有效的。

表10 Seq2seq-CNN和seq2seq-ATTN上的實(shí)驗(yàn)結(jié)果

6.6 信息抽取效果

本節(jié)對信息元組抽取算法(見5.1節(jié))在原始句子及化簡句子上的抽取效果進(jìn)行對比。實(shí)驗(yàn)在72個(gè)測試句子上進(jìn)行,人工評估后的結(jié)果如表11所示。易知,文本化簡能有效提升信息抽取的效果。

表11 信息抽取的實(shí)驗(yàn)結(jié)果

下面展示一個(gè)基于文本化簡的實(shí)體屬性抽取(見5.2節(jié))例子。

原句:1955年畢業(yè)于德州大學(xué)奧斯汀分校的美國試飛員艾倫·比恩1932年3月15日出生于德克薩斯州惠勒市:

化簡:艾倫·比恩的國籍是美國。飛行員艾倫·比恩出生于1932 年3 月15 日。艾倫·比恩的出生地是德克薩斯州惠勒。艾倫·比恩1955年畢業(yè)于德州大學(xué)奧斯汀分校。

信息元組:(艾倫·比恩的國籍,是,美國)、(飛行員艾倫·比恩,出生于,1932年3月15日)、(艾倫·比恩的出生地,是,德克薩斯州惠勒),(艾倫·比恩,1955 年畢業(yè)于德州大學(xué)奧斯汀分校,)

實(shí)體:艾倫·比恩

表征屬性:飛行員

鍵值屬性:

國籍:“美國”

出生于:“1932年3月15日”

出生地:“德克薩斯州惠勒”

畢業(yè):“1995年”,“德州大學(xué)奧斯汀分校”

上述例子表明論文所提方法能夠有效提取出文本中的實(shí)體及屬性信息。

7 結(jié)束語

為了在知識圖譜構(gòu)建過程中更好地抽取實(shí)體及屬性,本文提出一種基于文本化簡在中文文本上進(jìn)行實(shí)體屬性抽取的方法。本文工作只是相關(guān)研究的開始。在化簡文本上抽取信息時(shí),還可以考慮跳過信息元組抽取,而基于神經(jīng)網(wǎng)絡(luò)直接抽取實(shí)體及屬性的方法。這要求有對應(yīng)的高質(zhì)量中文數(shù)據(jù)集,且網(wǎng)絡(luò)本身的設(shè)計(jì)也是一個(gè)挑戰(zhàn)。

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會(huì)信息
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产真实自在自线免费精品| 最新国产你懂的在线网址| 日本AⅤ精品一区二区三区日| 日韩第一页在线| 精品成人免费自拍视频| 欧美人在线一区二区三区| 国产免费看久久久| 一级爱做片免费观看久久| 久无码久无码av无码| 国产69囗曝护士吞精在线视频| 伊人成人在线视频| www.91中文字幕| 日韩一级毛一欧美一国产| 亚洲侵犯无码网址在线观看| 日韩A∨精品日韩精品无码| 伊在人亚洲香蕉精品播放 | 日本午夜精品一本在线观看| 久久国产拍爱| 91麻豆国产精品91久久久| 中文字幕亚洲专区第19页| 又爽又黄又无遮挡网站| 国产av一码二码三码无码| 国国产a国产片免费麻豆| 国产成人亚洲欧美激情| 国产精品无码影视久久久久久久| 黄色国产在线| 在线国产资源| 久久久精品国产SM调教网站| 另类综合视频| 国产大片喷水在线在线视频 | 一级毛片基地| 久久精品aⅴ无码中文字幕 | 91原创视频在线| 欧美日韩在线亚洲国产人| 欧美亚洲第一页| 丁香综合在线| 国产网站一区二区三区| 亚洲Va中文字幕久久一区| 欧美区国产区| 一本大道无码日韩精品影视| 亚洲不卡影院| 天堂在线www网亚洲| 国产青榴视频| 国产成人精彩在线视频50| 91久久偷偷做嫩草影院精品| 欧美午夜一区| 国产精品美女免费视频大全| 国产成人无码Av在线播放无广告| 国产人成午夜免费看| 国产亚洲欧美日韩在线观看一区二区| 久草性视频| 伊人激情综合网| 亚洲欧美一区二区三区蜜芽| 欧美亚洲国产一区| 无码网站免费观看| 久久综合久久鬼| 国产美女丝袜高潮| 久久天天躁狠狠躁夜夜躁| 日韩欧美一区在线观看| 久草青青在线视频| 高清无码手机在线观看| 亚洲伊人天堂| 久久亚洲美女精品国产精品| 欧美精品成人| 在线看片中文字幕| 欧美在线精品一区二区三区| 91福利国产成人精品导航| 国产一区二区三区视频| 又猛又黄又爽无遮挡的视频网站| 一级在线毛片| 亚洲欧洲国产成人综合不卡| 人妻无码一区二区视频| 欧美日韩午夜| 一级爆乳无码av| 国产香蕉在线| 久久伊人操| 国产亚洲精品无码专| 国产精品开放后亚洲| 久久伊人操| 小蝌蚪亚洲精品国产| 狼友视频国产精品首页| 亚洲视频在线网|