999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于平行語(yǔ)料庫(kù)的雙語(yǔ)協(xié)同中文關(guān)系抽取

2017-06-27 08:10:42馮旭鵬劉利軍黃青松
計(jì)算機(jī)應(yīng)用 2017年4期
關(guān)鍵詞:英文特征

郭 勃,馮旭鵬,劉利軍,黃青松,3

1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500; 2.昆明理工大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心,昆明 650500;3.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),昆明 650500)(*通信作者電子郵箱kmustailab@hotmail.com)

基于平行語(yǔ)料庫(kù)的雙語(yǔ)協(xié)同中文關(guān)系抽取

郭 勃1,馮旭鵬2,劉利軍1,黃青松1,3*

1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500; 2.昆明理工大學(xué) 教育技術(shù)與網(wǎng)絡(luò)中心,昆明 650500;3.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),昆明 650500)(*通信作者電子郵箱kmustailab@hotmail.com)

針對(duì)在中文資源的關(guān)系抽取中,由于中文長(zhǎng)句句式復(fù)雜,句法特征提取難度大、準(zhǔn)確度低等問(wèn)題,提出了一種基于平行語(yǔ)料庫(kù)的雙語(yǔ)協(xié)同中文關(guān)系抽取方法。首先在中英雙語(yǔ)平行語(yǔ)料庫(kù)中的英文語(yǔ)料上利用英文成熟的句法分析工具,將得到依存句法特征用于英文關(guān)系抽取分類(lèi)器的訓(xùn)練,然后與利用適合中文的n-gram特征在中文語(yǔ)料上訓(xùn)練的中文關(guān)系抽取分類(lèi)器構(gòu)成雙語(yǔ)視圖,最后再依靠標(biāo)注映射后的平行語(yǔ)料庫(kù),將彼此高可靠性的語(yǔ)料加入對(duì)方訓(xùn)練語(yǔ)料進(jìn)行雙語(yǔ)協(xié)同訓(xùn)練,最終得到一個(gè)性能更好的中文關(guān)系抽取分類(lèi)模型。通過(guò)對(duì)中文測(cè)試語(yǔ)料進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法提高了基于弱監(jiān)督方法的中文關(guān)系抽取性能,其F值提高了3.9個(gè)百分點(diǎn)。

弱監(jiān)督學(xué)習(xí);關(guān)系抽取;n-gram;平行語(yǔ)料庫(kù);雙語(yǔ)協(xié)同訓(xùn)練

0 引言

隨著網(wǎng)絡(luò)數(shù)據(jù)的飛速增長(zhǎng),如何使人們更方便更快捷地準(zhǔn)確獲取到需要的信息也變得更加重要。由于網(wǎng)絡(luò)上的信息大部分屬于非結(jié)構(gòu)化和半結(jié)構(gòu)化的信息,信息抽取就是從這些異構(gòu)數(shù)據(jù)源中獲取結(jié)構(gòu)化知識(shí)的技術(shù),這項(xiàng)技術(shù)被用在了構(gòu)建知識(shí)圖譜[1]、自動(dòng)問(wèn)答系統(tǒng)、語(yǔ)義精準(zhǔn)搜索等多個(gè)領(lǐng)域。關(guān)系抽取屬于信息抽取的一個(gè)子任務(wù),當(dāng)實(shí)體抽取完成后,得到了一系列離散的命名實(shí)體,如何將這些實(shí)體關(guān)聯(lián)起來(lái),找出實(shí)體之間的語(yǔ)義關(guān)系就是關(guān)系抽取所要解決的問(wèn)題。

現(xiàn)有的關(guān)系抽取的方法可以分為基于模式匹配[2]的方法、基于詞典驅(qū)動(dòng)的方法[3]和基于機(jī)器學(xué)習(xí)的方法[4-5]等,其中基于機(jī)器學(xué)習(xí)的方法是目前主流的關(guān)系抽取方法。基于機(jī)器學(xué)習(xí)的方法又可以分為有監(jiān)督的方法、無(wú)監(jiān)督的方法和弱監(jiān)督的方法。有監(jiān)督的方法需要人工標(biāo)記大量的訓(xùn)練語(yǔ)料,費(fèi)事費(fèi)力且移植性差;而現(xiàn)階段無(wú)監(jiān)督的方法在準(zhǔn)確率和召回率都比較低。在這種情況下,人們提出了基于弱監(jiān)督的關(guān)系抽取方法[6],弱監(jiān)督的關(guān)系抽取方法在少量人工標(biāo)記語(yǔ)料的基礎(chǔ)上通過(guò)自舉(boostrapping)的學(xué)習(xí)方法,不斷自動(dòng)擴(kuò)充訓(xùn)練語(yǔ)料,有效減少了人工參與,并且獲得了不錯(cuò)的性能。

利用機(jī)器學(xué)習(xí)的方法進(jìn)行關(guān)系抽取時(shí),又可分為基于特征向量的方法[7-8]和基于核函數(shù)的方法[9]。核函數(shù)的方法在學(xué)習(xí)和訓(xùn)練的速度上都相對(duì)較慢[10],而基于特征向量的方法在各方面表現(xiàn)比較優(yōu)秀。基于特征向量的方法中特征項(xiàng)的選擇十分重要,首先特征項(xiàng)不僅需要能夠體現(xiàn)較多的語(yǔ)義信息,而且要能夠準(zhǔn)確區(qū)分不同的語(yǔ)義關(guān)系。特征項(xiàng)的好壞直接影響著關(guān)系抽取的性能高低。一般特征的選擇有詞法特征和語(yǔ)法特征。詞法特征為句子中的詞序列,單純基于詞法特征會(huì)導(dǎo)致數(shù)據(jù)的稀疏性,限制分類(lèi)性能。語(yǔ)法特征從句子的依存關(guān)系路徑中獲取,Miller等[11]研究表明,語(yǔ)法特征可以較好地體現(xiàn)句子中的語(yǔ)義關(guān)系,將語(yǔ)法特征作為關(guān)系抽取的特征向量,對(duì)實(shí)體關(guān)系抽取的性能有很大幫助。陳立瑋等[12]指出中文由于結(jié)構(gòu)復(fù)雜,特別是在對(duì)中長(zhǎng)句子的句法分析上,現(xiàn)有句法分析工具性能明顯下降。然而英文的句法分析工具經(jīng)過(guò)較長(zhǎng)時(shí)間發(fā)展,已經(jīng)比較成熟,基本可以完成英語(yǔ)句子的句法分析。本文使用了協(xié)同訓(xùn)練的方法[13],在中文視圖的特征選擇上面,n-gram特征相對(duì)來(lái)說(shuō)是一個(gè)較好的選擇,它不依賴(lài)句法分析工具,且不存在詞法特征的稀疏性問(wèn)題,同時(shí)還體現(xiàn)了相鄰詞語(yǔ)之間的序列關(guān)系,但它在英文上與句法特征相比處于劣勢(shì)[12]。

通過(guò)利用一種語(yǔ)言的優(yōu)勢(shì)去提升另一種語(yǔ)言的關(guān)系抽取性能是一個(gè)可行的辦法,Kim等[14]將英語(yǔ)豐富的語(yǔ)料作為源訓(xùn)練數(shù)據(jù)用來(lái)提升語(yǔ)料資源貧乏的韓語(yǔ)關(guān)系抽取性能上面。如今大量的弱監(jiān)督關(guān)系抽取主要集中在以英語(yǔ)為主的文本上面,現(xiàn)有的句法分析工具在中文長(zhǎng)句的分析效果上可能會(huì)出現(xiàn)較大波動(dòng),對(duì)關(guān)系抽取模型的分類(lèi)性能產(chǎn)生較大的影響。

本文提出一種基于平行語(yǔ)料庫(kù)的雙語(yǔ)協(xié)同訓(xùn)練方法,在中英平行語(yǔ)料庫(kù)中,利用英文的句法分析工具對(duì)英文進(jìn)行句法分析,對(duì)英文和中文語(yǔ)料使用適合各自語(yǔ)言的不同特征,同時(shí)訓(xùn)練中文分類(lèi)器和英文分類(lèi)器,采用自舉的學(xué)習(xí)方法,在中文分類(lèi)器和英文分類(lèi)器中提取出可靠度較高的關(guān)系實(shí)例,將一種語(yǔ)言中可靠度較高的關(guān)系實(shí)例通過(guò)標(biāo)注映射的平行語(yǔ)料庫(kù),找到平行語(yǔ)料庫(kù)中對(duì)應(yīng)的關(guān)系實(shí)例,加入到另一種語(yǔ)言的訓(xùn)練語(yǔ)料中,通過(guò)不斷的迭代,提升了訓(xùn)練語(yǔ)料的質(zhì)量,從而得到性能更佳的中文關(guān)系抽取分類(lèi)模型。實(shí)驗(yàn)結(jié)果表明,基于平行語(yǔ)料的雙語(yǔ)協(xié)同訓(xùn)練可以提升中文的關(guān)系抽取性能。

1 弱監(jiān)督關(guān)系抽取框架

1.1 自舉的弱監(jiān)督關(guān)系抽取方法

弱監(jiān)督關(guān)系抽取的方法最早出現(xiàn)在對(duì)文獻(xiàn)中蛋白質(zhì)和基因的關(guān)系抽取中,后來(lái)人們對(duì)其進(jìn)行了大量的改進(jìn)和優(yōu)化[15]。基于自舉方式的弱監(jiān)督關(guān)系抽取以少量的種子集合為基礎(chǔ),種子集合為已標(biāo)注的實(shí)例集,將種子集作為訓(xùn)練語(yǔ)料,利用種子集合訓(xùn)練出一個(gè)分類(lèi)器,然后對(duì)未標(biāo)注的大量可靠文本語(yǔ)料通過(guò)分類(lèi)器進(jìn)行分類(lèi),將可信度較高的候選實(shí)例結(jié)果加入到種子集合中再進(jìn)行訓(xùn)練。這樣一方面解決了初始訓(xùn)練語(yǔ)料不足的問(wèn)題,對(duì)訓(xùn)練語(yǔ)料進(jìn)行了優(yōu)化;另一方面減少了人工手工標(biāo)注的工作量。一般關(guān)系抽取使用的分類(lèi)模型有最大熵模型和支持向量機(jī)(Support Vector Machine,SVM)。研究表明[16],支持向量機(jī)略?xún)?yōu)于最大熵,所以本文使用支持向量機(jī)SVM作為分類(lèi)器。SVM可以輸出某一關(guān)系實(shí)例在各個(gè)關(guān)系類(lèi)別上的概率值,通過(guò)計(jì)算概率分布的熵值來(lái)判斷候選實(shí)例的可信度,熵值越小的候選實(shí)例其可信度越高。熵值的計(jì)算公式如下:

(1)

其中:K表示一共的關(guān)系類(lèi)別個(gè)數(shù);Pi表示關(guān)系實(shí)例屬于第i種關(guān)系類(lèi)別的概率值。

1.2 弱監(jiān)督關(guān)系抽取的特征選取

一個(gè)好的特征對(duì)于分類(lèi)器的效果影響十分重要,常用的特征有詞法特征、句法特征還有n-gram特征。詞法特征由詞序列和詞性序列構(gòu)成,單獨(dú)使用詞法特征會(huì)導(dǎo)致數(shù)據(jù)稀疏性的問(wèn)題,所以一般將詞法特征與其他特征相結(jié)合一起使用。句法特征一般從句子的句法依存路徑中獲取,基于英語(yǔ)的依存句法分析工具已比較成熟,可以準(zhǔn)確地得到句子的句法依存關(guān)系結(jié)果,而中文的依存句法分析工具在中長(zhǎng)句上效果較差。n-gram特征利用設(shè)定窗口大小去獲取文本中連續(xù)的詞組序列,一定程度上體現(xiàn)了語(yǔ)法關(guān)系,它的優(yōu)點(diǎn)是不需要依賴(lài)具體的現(xiàn)存在的工具,并且不存在數(shù)據(jù)稀疏的問(wèn)題,可用在中文句子語(yǔ)料上面。文獻(xiàn)[12]提出的一種新的n-gram特征,它是基于詞語(yǔ)和它的詞性標(biāo)注的n-gram特征。本文在英語(yǔ)訓(xùn)練語(yǔ)料上選擇可靠度較高分析工具的詞法特征加語(yǔ)法特征,中文訓(xùn)練語(yǔ)料上選擇比較適合中文句子的n-gram特征。詞法特征、句法特征和本文所用的基于詞語(yǔ)和詞性標(biāo)注的n-gram特征分別舉例如下:

詞法特征舉例:〈PER〉比爾蓋茨,出生于西雅圖〈ORG〉,PER NR PU VV P ORG NS。

句法特征舉例:〈PER〉 ->出生/VV<-于/P<-〈ORG〉。

n-gram特征舉例(詞語(yǔ)和詞性標(biāo)注組合):〈PER〉 出生/VV 于/P 〈ORG〉。

2 基于平行語(yǔ)料庫(kù)的雙語(yǔ)協(xié)同訓(xùn)練

2.1 雙語(yǔ)協(xié)同訓(xùn)練

協(xié)同訓(xùn)練是一種基于半監(jiān)督的學(xué)習(xí)框架,它也是一種基于boostrapping思想的半監(jiān)督學(xué)習(xí)框架。它使用兩種不同的獨(dú)立的特征下的視圖去訓(xùn)練兩個(gè)分類(lèi)器,兩個(gè)分類(lèi)器各自對(duì)自己的數(shù)據(jù)進(jìn)行分類(lèi),將各自分類(lèi)結(jié)果中置信度最高的前n個(gè)數(shù)據(jù)加入到對(duì)方的訓(xùn)練語(yǔ)料中去。

本文使用中英雙語(yǔ)平行語(yǔ)料庫(kù),利用小規(guī)模的標(biāo)注的雙語(yǔ)語(yǔ)料分別選擇詞法特征加句法特征和n-gram特征,分別對(duì)其中的具有語(yǔ)義關(guān)系的英語(yǔ)語(yǔ)料和中文語(yǔ)料進(jìn)行訓(xùn)練,得到兩個(gè)不同的分類(lèi)器,記為Me(英文分類(lèi)器)和Mc(中文分類(lèi)器)。再對(duì)未標(biāo)注的中英雙語(yǔ)平行語(yǔ)料進(jìn)行分類(lèi),得到新的英文和中文的帶標(biāo)簽的實(shí)例,通過(guò)標(biāo)注映射,找到平行語(yǔ)料庫(kù)中對(duì)應(yīng)的實(shí)例,分別加入到中文和英文分類(lèi)器的訓(xùn)練語(yǔ)料中,然后再繼續(xù)進(jìn)行訓(xùn)練,不斷迭代進(jìn)行,直到所有實(shí)例迭代完成為止,最后得到了兩個(gè)協(xié)同訓(xùn)練后的中文分類(lèi)器SVMc和英文分類(lèi)器SVMe。具體算法過(guò)程如下:

輸入:有標(biāo)注的英文訓(xùn)練數(shù)據(jù)集Le和中文訓(xùn)練數(shù)據(jù)集Lc,無(wú)標(biāo)注的英文數(shù)據(jù)集Ue和無(wú)標(biāo)注的中文數(shù)據(jù)集Uc。

輸出:訓(xùn)練后的中文關(guān)系抽取模型SMVc和英文關(guān)系抽取模型SVMe。

Step1 使用Le訓(xùn)練一個(gè)英文數(shù)據(jù)分類(lèi)器Me,使用Lc訓(xùn)練一個(gè)中文分類(lèi)器Mc。

Step2 迭代循環(huán)t次:

Step2.1 從Ue中取出部分?jǐn)?shù)據(jù)集記為Ue′,使用Me對(duì)Ue′中的數(shù)據(jù)進(jìn)行分類(lèi)。

Step2.2 將置信度較高的前n個(gè)實(shí)例記為Ee,在已經(jīng)標(biāo)注映射好的平行語(yǔ)料庫(kù)中找到它們對(duì)應(yīng)的實(shí)例記為Eec。

Step2.3 將Ee和Eec分別加入到Le和Lc中。

Step2.4 從Uc中取出部分?jǐn)?shù)據(jù)集記為Uc′,使用Mc對(duì)Uc′中的數(shù)據(jù)進(jìn)行分類(lèi)。

Step2.5 將置信度較高的前n個(gè)實(shí)例記為Ec,在已經(jīng)標(biāo)注映射好的平行語(yǔ)料庫(kù)中找到它們對(duì)應(yīng)的實(shí)例記為Ece。

Step2.6 將Ec和Ece分別加入到Lc和Le中。

Step2.7 從Ue′和Uc′中刪除已經(jīng)添加到訓(xùn)練集中的數(shù)據(jù),并且從Ue和Uc中再取出部分?jǐn)?shù)據(jù)集加入到Ue′和Uc′中。

整個(gè)流程框架如圖1所示。

圖1 協(xié)同訓(xùn)練框架圖

2.2 標(biāo)注

當(dāng)獲得中英文兩個(gè)分類(lèi)器中得出的可信度較高的關(guān)系實(shí)例后,在加入到彼此的訓(xùn)練語(yǔ)料中之前,首先需要通過(guò)對(duì)平行語(yǔ)料庫(kù)對(duì)其進(jìn)行標(biāo)注映射處理,以找到英文句子中的關(guān)系實(shí)例與中文句子中的關(guān)系實(shí)例的對(duì)應(yīng)關(guān)系。標(biāo)注映射的第一步就是標(biāo)注。首先通過(guò)命名實(shí)體識(shí)別技術(shù)在平行雙語(yǔ)文本的英文句子中找出存在的一系列實(shí)體,每?jī)蓚€(gè)實(shí)體組成一個(gè)實(shí)體對(duì),一般稱(chēng)為實(shí)例。然后對(duì)實(shí)例進(jìn)行標(biāo)注。接下來(lái)在每?jī)蓚€(gè)實(shí)體之間探測(cè)它們存在的語(yǔ)義上的關(guān)系,然后對(duì)實(shí)體之間存在的語(yǔ)義關(guān)系進(jìn)行標(biāo)注。以上工作主要利用現(xiàn)有的工具幫助檢測(cè)并標(biāo)注出在平行雙語(yǔ)文本中英語(yǔ)句子中的實(shí)例和實(shí)例之間的關(guān)系。標(biāo)注的結(jié)果如圖2所示,圖2中為中英雙語(yǔ)平行語(yǔ)料庫(kù)中的一對(duì)句子的標(biāo)注映射結(jié)果,微軟公司和比爾蓋茨兩個(gè)實(shí)體構(gòu)成了一個(gè)實(shí)例,表現(xiàn)了人名和組織機(jī)構(gòu)名之間的創(chuàng)建關(guān)系。

2.3 映射

在完成中英平行語(yǔ)料庫(kù)中英文句子的標(biāo)注任務(wù)后,需要將標(biāo)注的內(nèi)容映射到相對(duì)應(yīng)的另一種語(yǔ)言(中文)中,本文是從英文到中文進(jìn)行映射。本文使用單詞對(duì)齊的方法完成從英文到中文的標(biāo)注映射的任務(wù),單詞對(duì)齊就是在雙語(yǔ)文本中找到詞匯級(jí)的對(duì)譯關(guān)系,這樣就可以找到英文句子中實(shí)例和實(shí)例間關(guān)系在中文句子中對(duì)應(yīng)的詞。單詞對(duì)齊的算法有很多,比如Brown等[17]提出的IBM模型,這些算法已經(jīng)被成功地運(yùn)用在機(jī)器翻譯等自然語(yǔ)言處理任務(wù)方面。本文使用的單詞對(duì)齊工具為GIZA++,該工具在中英文上都可以使用,并已廣泛應(yīng)用于機(jī)器翻譯等領(lǐng)域,其單詞對(duì)齊效果可以滿(mǎn)足大多數(shù)情況下的需求。經(jīng)過(guò)單詞對(duì)齊之后,識(shí)別出中英雙語(yǔ)文本中具有平移關(guān)系的每個(gè)詞,由此形成了一個(gè)二分圖,圖中的無(wú)向邊將英文句子中代表實(shí)體和關(guān)系的詞和中文中對(duì)應(yīng)的詞連接起來(lái)。本文首先完成實(shí)體之間的映射,再完成實(shí)體之間關(guān)系的映射。經(jīng)過(guò)上面的步驟,使可以將實(shí)體和實(shí)體關(guān)系從英文句子中映射到漢語(yǔ)句子中。如圖2所示,“billgates”和“Microsoft”映射到了它們?cè)谥形木渥又袑?duì)應(yīng)的實(shí)例比爾蓋茨和微軟公司。

基于單詞對(duì)齊的實(shí)體和關(guān)系映射可能由于工具的原因產(chǎn)生一些錯(cuò)誤的映射,進(jìn)一步將影響實(shí)驗(yàn)的訓(xùn)練語(yǔ)料的質(zhì)量,因此需要制定一些啟發(fā)式的規(guī)則去提高實(shí)體映射的準(zhǔn)確度,盡量減少由錯(cuò)誤映射得到的關(guān)系實(shí)例加入到訓(xùn)練語(yǔ)料中去。本文定制的啟發(fā)式規(guī)則如下:

1)英文中每個(gè)實(shí)體指稱(chēng)只對(duì)應(yīng)中文中一個(gè)實(shí)體指稱(chēng)。

2)對(duì)于英文中連續(xù)多個(gè)詞構(gòu)成的實(shí)體指稱(chēng)在中文中也必須是連續(xù)多個(gè)詞構(gòu)成,中間不能有間隔。

3)對(duì)齊實(shí)體的詞性必須相同。

除以上的啟發(fā)式的方法外,本文還提出了一種基于翻譯工具的實(shí)體映射檢查策略。該策略如下:將在平行雙語(yǔ)語(yǔ)料中的英文句子中的實(shí)例通過(guò)翻譯工具進(jìn)行翻譯,得到多個(gè)近似的對(duì)應(yīng)的中文詞匯,然后在平行雙語(yǔ)語(yǔ)料中對(duì)應(yīng)的中文句子中匹配最大長(zhǎng)度相似的詞匯,如果找到相同的詞匯且只有一處,那么將英文句子中的實(shí)例映射到中文中找到的相同或相似的那個(gè)實(shí)例。

通過(guò)以上兩種方法,過(guò)濾了一些不合格的關(guān)系實(shí)例映射,使得標(biāo)注映射的準(zhǔn)確率得到了一定程度的提高。

圖2 中英平行語(yǔ)句標(biāo)注映射圖

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)設(shè)置

本文所使用的中英平行語(yǔ)料庫(kù)為哈爾濱工業(yè)大學(xué)信息檢索研究室的英漢雙語(yǔ)語(yǔ)料庫(kù),它包括10萬(wàn)對(duì)句子對(duì)齊的雙語(yǔ)句子對(duì)。本文選取其中的5萬(wàn)對(duì)平行句子對(duì)作為正式語(yǔ)料。首先對(duì)其中的英文句子進(jìn)行命名實(shí)體識(shí)別、依存關(guān)系分析等預(yù)處理操作,完成對(duì)英文句子的標(biāo)注任務(wù);然后通過(guò)文中上述方法對(duì)語(yǔ)料庫(kù)進(jìn)行標(biāo)注映射,最終有24 127個(gè)對(duì)齊的實(shí)例。在其中選取含有語(yǔ)義關(guān)系與不含語(yǔ)義關(guān)系的5 600個(gè)實(shí)例作為最后的實(shí)驗(yàn)語(yǔ)料集合。本實(shí)驗(yàn)選取其中1/6作為測(cè)試集,在剩余的實(shí)例中選取1/20作為已經(jīng)標(biāo)注的數(shù)據(jù)集,剩下的作為未標(biāo)注的數(shù)據(jù)集。由于基礎(chǔ)的SVM分類(lèi)器為2類(lèi)分類(lèi)器,所以本文選取改進(jìn)的SVMLIB作為本實(shí)驗(yàn)的分類(lèi)器。實(shí)驗(yàn)最后結(jié)果取平均值。實(shí)驗(yàn)結(jié)果的評(píng)價(jià)包括準(zhǔn)確率、召回率和F1指數(shù)。

中文的句法分析工具使用Mate Parser[18],英文句子的預(yù)處理工具使用斯坦福大學(xué)的自然語(yǔ)言處理工具[19-20]。

3.2 實(shí)驗(yàn)結(jié)果和分析

1)首先用不同的方法對(duì)中文測(cè)試語(yǔ)料進(jìn)行測(cè)試分析,選取的方法有未采取協(xié)同訓(xùn)練的弱監(jiān)督自舉SVM中文關(guān)系抽取,記為L(zhǎng)LS;單語(yǔ)(中文)協(xié)同訓(xùn)練方法,記為L(zhǎng)LCB;雙語(yǔ)(中英文)協(xié)同訓(xùn)練方法,記為DLCB。其中單語(yǔ)和雙語(yǔ)協(xié)同訓(xùn)練算法中每次選取實(shí)例數(shù)n為20,也就是SVMc和SVMe每次各加入20個(gè)實(shí)例。取最高性能為其實(shí)驗(yàn)結(jié)果值。

表1 不同算法性能比較 %

從表1可以看出雙語(yǔ)協(xié)同訓(xùn)練要比未采取協(xié)同訓(xùn)練的關(guān)系抽取方法在性能上得到了提升,而雙語(yǔ)協(xié)同訓(xùn)練又在單語(yǔ)協(xié)同訓(xùn)練的基礎(chǔ)上進(jìn)一步提升了性能。

2)雙語(yǔ)協(xié)同訓(xùn)練時(shí)英文的分類(lèi)特征為從依存語(yǔ)法中獲得的語(yǔ)法特征,中文使用的是基于詞語(yǔ)與詞性的n-gram特征。下面將比較雙語(yǔ)協(xié)同訓(xùn)練時(shí)中英文特征的選擇對(duì)關(guān)系抽取結(jié)果的影響。中英文的特征選取分別為詞法加語(yǔ)法特征(lex+syn)、詞法加n-gram特征(lex+ng),結(jié)果如表2所示。

表2 雙語(yǔ)協(xié)同訓(xùn)練不同特征選取性能比較 %

從表2可以看出,中英雙語(yǔ)協(xié)同訓(xùn)練時(shí)的特征選取對(duì)抽取結(jié)果產(chǎn)生了影響,其中英文選取詞法加句法特征,中文選取詞法加n-gram特征取得了最好的效果,在英文上選取n-gram特征沒(méi)有取得更好的效果,反而有略微下降,主要還是因?yàn)樵谥形拈L(zhǎng)難句的語(yǔ)法分析效果上沒(méi)有英文的好,而英文的語(yǔ)法分析工具已經(jīng)比較成熟。n-gram特征對(duì)中文的關(guān)系抽取提供了很好的補(bǔ)充,優(yōu)于傳統(tǒng)的語(yǔ)法特征。總體來(lái)看協(xié)同訓(xùn)練提高了關(guān)系抽取的性能,以英文的句法特征為特征向量的分類(lèi)器得到的實(shí)例很好地補(bǔ)充了中文關(guān)系抽取分類(lèi)器的訓(xùn)練語(yǔ)料集。

3)協(xié)同訓(xùn)練時(shí),不同的迭代次數(shù)會(huì)對(duì)最終分類(lèi)模型的性能造成不同的影響,接下來(lái)對(duì)不同迭代次數(shù)下協(xié)同訓(xùn)練的性能進(jìn)行比較。這次取n的值為100進(jìn)行迭代。如圖3所示。

圖3 DLCB算法迭代次數(shù)對(duì)F1值的影響

由圖3可以看出,隨著迭代次數(shù)的上升,一開(kāi)始模型性能呈現(xiàn)出上升的趨勢(shì),但是隨著迭代次數(shù)的繼續(xù)增加,其性能出現(xiàn)了下滑,據(jù)此可知,迭代次數(shù)在中間的一個(gè)合適值時(shí),模型的性能達(dá)到了最優(yōu)的狀態(tài)。其原因還是因?yàn)殡S著迭代次數(shù)的增加,由于標(biāo)注映射錯(cuò)誤等產(chǎn)生的一些低質(zhì)量訓(xùn)練語(yǔ)料被加入訓(xùn)練語(yǔ)料的概率增加,降低了關(guān)系抽取模型的性能。

3.3 算法性能分析

雙語(yǔ)協(xié)同訓(xùn)練時(shí),影響其性能的方面主要有訓(xùn)練語(yǔ)料的影響和協(xié)同訓(xùn)練策略的影響。除此之外,本文還計(jì)算了SVM分類(lèi)算法用于此關(guān)系抽取方法的時(shí)間復(fù)雜度。

由于本文采取的是簡(jiǎn)單的詞對(duì)齊的方法對(duì)中英文語(yǔ)料庫(kù)進(jìn)行映射,雖然采取了啟發(fā)式的方法和基于翻譯工具的實(shí)體映射檢查策略,但不能避免地會(huì)存在錯(cuò)誤映射的實(shí)例對(duì),在協(xié)同訓(xùn)練中,一旦錯(cuò)誤的映射被加入到可信的訓(xùn)練語(yǔ)料中去,這個(gè)錯(cuò)誤將被繼續(xù)學(xué)習(xí)和加強(qiáng),最終對(duì)關(guān)系抽取分類(lèi)器的性能造成極大的影響。在應(yīng)用級(jí)的大規(guī)模的語(yǔ)料中,很難人工檢查修正未正確映射的關(guān)系實(shí)體,因此需要對(duì)對(duì)齊率進(jìn)行評(píng)估,在側(cè)面將反映出協(xié)同訓(xùn)練最終得到中文關(guān)系抽取模型的好壞。本文隨機(jī)抽取1 000對(duì)經(jīng)過(guò)單詞對(duì)齊后的中英文,手動(dòng)計(jì)算關(guān)系實(shí)例對(duì)齊率。一共進(jìn)行5次計(jì)算,最后計(jì)算平均值,作為整體的對(duì)其率。經(jīng)過(guò)人工對(duì)比,發(fā)現(xiàn)對(duì)其率達(dá)到了78.4%,在一定程度上適用于雙語(yǔ)協(xié)同訓(xùn)練。

除了訓(xùn)練語(yǔ)料的影響,協(xié)同訓(xùn)練本身參數(shù)的設(shè)置也會(huì)對(duì)本文的關(guān)系抽取模型性能造成影響,本文在這里重點(diǎn)研究的參數(shù)為協(xié)同訓(xùn)練時(shí)特征的選取和迭代次數(shù)對(duì)其的影響。結(jié)果已經(jīng)在上面的實(shí)驗(yàn)中進(jìn)行了測(cè)試。

本文計(jì)算分析了利用SVM進(jìn)行自舉訓(xùn)練時(shí)的算法時(shí)間復(fù)雜度,其時(shí)間復(fù)雜度如下:O(n2*M2*d)。其中:M代表未標(biāo)注語(yǔ)料的大小;d為所取特征的維度,取所有詞中tf-idf最高的前10 000個(gè)詞作為分類(lèi)特征,這里選取詞法特征作為實(shí)驗(yàn);n為所分種類(lèi)數(shù)。M和n取不同值時(shí)算法執(zhí)行的時(shí)間如表3所示。

表3 算法執(zhí)行時(shí)間分析

通過(guò)對(duì)算法各個(gè)方面進(jìn)行的分析來(lái)看,由映射錯(cuò)誤和SVM效率等問(wèn)題,使得算法的性能遭受了一定的影響。

4 結(jié)語(yǔ)

本文提出了一種基于平行語(yǔ)料庫(kù)的雙語(yǔ)協(xié)同訓(xùn)練方法用于提升中文關(guān)系抽取的性能,針對(duì)中文關(guān)系抽取時(shí)依然句法分析工具,而長(zhǎng)難句句法分析準(zhǔn)確性會(huì)大幅下降的問(wèn)題,使用適合各自語(yǔ)言的特征在平行語(yǔ)料庫(kù)中的中英文同時(shí)進(jìn)行訓(xùn)練,將彼此可信度高的且標(biāo)注好的實(shí)例映射到彼此的訓(xùn)練語(yǔ)料中,提升了訓(xùn)練語(yǔ)料的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,選取英文的句法特征和中文的n-gram通過(guò)協(xié)同訓(xùn)練得到的中文分類(lèi)器很好地改善了中文的關(guān)系抽取性能,優(yōu)于基于弱監(jiān)督的純中文自舉訓(xùn)練的方法,這種方法適用于多語(yǔ)言的關(guān)系抽取,具有較強(qiáng)的魯棒性。

后續(xù)工作中:一方面將繼續(xù)對(duì)平行語(yǔ)料庫(kù)的標(biāo)注映射工作進(jìn)行優(yōu)化,使其更加準(zhǔn)確;另一方面,在現(xiàn)實(shí)應(yīng)用中,可以使用的雙語(yǔ)語(yǔ)料庫(kù)畢竟有限,且質(zhì)量不一定能滿(mǎn)足關(guān)系抽取的需求,因而尋找更加適合中文關(guān)系抽取的特征是今后深入研究的方向。

)

[1] 劉嶠, 李楊, 段宏.知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3):582-600.(LIUQ,LIY,DUANH.Knowledgegraphconstructiontechniques[J].JournalofComputerResearchandDevelopment, 2016, 53(3):582-600.)

[2]APPELTDE,HOBBSJR,BEARJ,etal.SRIinternationalFASTUSsystem:MUC-6testresultsandanalysis[C]//MUC6 1995:Proceedingsofthe6thConferenceonMessageUnderstanding.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 1995:237-248.

[3]AONEC,RAMOS-SANTAM.REES:alarge-scalerelationandeventextractionsystem[C]//ANLC2000:ProceedingsoftheSixthConferenceonAppliedNaturalLanguageProcessing.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000:76-83.

[4]ZHANGY,ZHOUJF.AtrainablemethodforextractingChineseentitynamesandtheirrelations[C]//CLPW2000:ProceedingsoftheSecondWorkshoponChineseLanguageProcessing:HeldinConjunctionwiththe38thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000, 12: 66-72.

[5]ZHANGZ.Weakly-supervisedrelationclassificationforinformationextraction[C]//CIKM2004:ProceedingsoftheThirteenthACMInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACM, 2004:581-588.

[6]CRAVENM,KUMLIENJ.Constructingbiologicalknowledgebasesbyextractinginformationfromtextsources[C]//ProceedingsoftheSeventhInternationalConferenceonIntelligentSystemsforMolecularBiology.MenloPark,CA:AAAIPress, 1999:77-86.

[7]ZHAOS,GRISHMANR.Extractingrelationswithintegratedinformationusingkernelmethods[C]//ACL2005:Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005: 419-426.

[8]ZHOUG,SUJ,ZHANGJ,etal.Exploringvariousknowledgeinrelationextraction[C]//ACL2005:Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005:427-434.

[9]ZELENCOD,AONEC,RICHARDELLAA.Kernelmethodsforrelationextraction[J].JournalofMachineLearningResearch, 2003, 3(6):1083-1106.

[10]SHAWE-TAYLORJ,CRISTIANININ.Kernelmethodsforpatternanalysis[M].NewYork:CambridgeUniversityPress, 2004:25-45.

[11]MILLERS,FOXH,RAMSHAWL,etal.Anoveluseofstatisticalparsingtoextractinformationfromtext[C]//NAACL2000:Proceedingsofthe1stNorthAmericanChapteroftheAssociationforComputationalLinguisticsConference.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2000:226-233.

[12] 陳立瑋, 馮巖松, 趙東巖.基于弱監(jiān)督學(xué)習(xí)的海量網(wǎng)絡(luò)數(shù)據(jù)關(guān)系抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9):1825-1835.(CHENLW,FENGYS,ZHAODY.ExtractingrelationsfromtheWebviaweaklysupervisedlearning[J].JournalofComputerResearchandDevelopment, 2013, 50(9):1825-1835.)

[13]BLUMA,MITCHELLT.Combininglabeledandunlabeleddatawithco-training[C]//COLT1998:ProceedingsoftheEleventhAnnualConferenceonComputationalLearningTheory.NewYork:ACM, 1998:92-100.

[14]KIMS,JEONGM,LEEJ,etal.Across-lingualannotationprojectionapproachforrelationdetection[C]//COLING2010:Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2010:564-571.

[15]RIEDELS,YAOL,MCCALLUMA.Modelingrelationsandtheirmentionswithoutlabeledtext[C]//ECMLPKDD2010:Proceedingsofthe2010EuropeanConferenceonMachineLearningandKnowledgeDiscoveryinDatabases,PartIII,LNCS6323.Berlin:Springer, 2010:148-163.

[16]WANGT,LIY,BONTOHEVAK,etal.Automaticextractionofhierarchicalrelationsfromtext[C]//ESWC2006:Proceedingsofthe3rdEuropeanConferenceontheSemanticWeb:ResearchandApplications.Berlin:Springer, 2006: 215-229.

[17]BROWNPF,PIETRAVJD,PIETRASAD,etal.Themathematicsofstatisticalmachinetranslation:parameterestimation[J].ComputationalLinguistics, 1993, 19(2):263-311.

[18]BOHNETB.Topaccuracyandfastdependencyparsingisnotacontradiction[C]//COLING2010:Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics, 2010:89-97.

[19]MAMEFFEM,MACCARTNEYB,MANNINGC.Generatingtypeddependencyparsesfromphrasestructureparses[EB/OL]. [2016- 03- 10].http://www.lrec-conf.org/proceedings/lrec2006/pdf/440_pdf.pdf.

[20]FINKELJR,GRENAGERT,MANNINGC.Incorporatingnon-localinformationintoinformationextractionsystemsbyGibbssampling[C]//ACL2005Proceedingsofthe43rdAnnualMeetingonAssociationforComputationalLinguistics.Stroudsburg,PA,USA:AssociationforComputationalLinguistics, 2005:363-370.

ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(81360230, 81560296).

GUO Bo, born in 1992, M. S. candidate. His research interests include machine learning, natural language processing.

FENG Xupeng, born in 1986, M. S., experimentalist. His research interests include information retrieval.

LIU Lijun, born in 1978,M. S., lecturer. His research interests include medical information service.

HUANG Qingsong, born in 1962, professor. His research interests include intelligent information system, information retrieval.

Bilingual collaborative Chinese relation extraction based on parallel corpus

GUO Bo1, FENG Xupeng2, LIU Lijun1, HUANG Qingsong1,3*

(1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming Yunnan 650500, China;2. Educational Technology and Network Center, Kunming University of Science and Technology, Kunming Yunnan 650500, China;3. Yunnan Provincial Key Laboratory of Computer Technology Applications (Kunming University of Science and Technology), Kunming Yunnan 650500, China)

In the relation extraction of Chinese resources, the long Chinese sentence style is complex, the syntactic feature extraction is very difficult, and its accuracy is low. A bilingual cooperative relation extraction method based on a parallel corpus was proposed to resolve these above problems. In a Chinese and English bilingual parallel corpus, the English relation extraction classification was trained by dependency syntactic features which obtained by mature syntax analytic tools of English, the Chinese relation extraction classification was trained by n-gram feature which is suitable for Chinese, then they constituted bilingual view. Finally, based on the annotated and mapped parallel corpus, the training corpus with high reliability of both classifications were added to each other for bilingual collaborative training, and a Chinese relation extraction classification model with better performance was acquired. Experimental results on Chinese test corpus show that the proposed method improves the performance of Chinese relation extraction method based on weak supervision, itsFvalue is increased by 3.9 percentage points.

weakly-supervised learning; relation extraction; n-gram; parallel corpus; bilingual collaborative training

2016- 09- 26;

2016- 12- 21。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(81360230,81560296)。

郭勃(1992—),男,山西晉城人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、自然語(yǔ)言處理; 馮旭鵬(1986—),男,河南鄭州人,實(shí)驗(yàn)師,碩士,主要研究方向:信息檢索; 劉利軍(1978—),男,河南新鄉(xiāng)人,講師,碩士,主要研究方向:醫(yī)療信息服務(wù); 黃青松(1962—),男,湖南長(zhǎng)沙人,教授,主要研究方向:智能信息系統(tǒng)、信息檢索。

1001- 9081(2017)04- 1051- 05

10.11772/j.issn.1001- 9081.2017.04.1051

TP391.1

A

猜你喜歡
英文特征
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
英文摘要
英文摘要
英文摘要
英文摘要
英文摘要
主站蜘蛛池模板: 亚洲无码视频一区二区三区| 亚洲欧美天堂网| 国产一线在线| 四虎成人免费毛片| 国产伦片中文免费观看| 一级片免费网站| 欧美日本激情| 美女被操91视频| 一本二本三本不卡无码| 国产精品成人久久| 中文字幕伦视频| 亚洲av片在线免费观看| 极品性荡少妇一区二区色欲| 55夜色66夜色国产精品视频| 国产天天射| 67194在线午夜亚洲| 香蕉eeww99国产在线观看| 欧美在线黄| 四虎成人精品| 久久先锋资源| 色婷婷在线影院| 欧美成人手机在线视频| 亚洲av色吊丝无码| 无码内射在线| 亚洲精品另类| 久热这里只有精品6| 久久青青草原亚洲av无码| 免费黄色国产视频| 波多野结衣一区二区三视频 | 欧美h在线观看| 国产精品一区二区国产主播| 亚洲 欧美 中文 AⅤ在线视频| 国产剧情国内精品原创| 国产欧美日韩精品综合在线| 成人在线观看一区| 欧美yw精品日本国产精品| 色播五月婷婷| 欧美高清视频一区二区三区| 亚洲嫩模喷白浆| 91香蕉国产亚洲一二三区 | 亚洲日韩精品欧美中文字幕| 精品国产一区91在线| 色综合网址| 久久综合AV免费观看| 91人妻日韩人妻无码专区精品| 97成人在线观看| 国产精品男人的天堂| 亚洲久悠悠色悠在线播放| aaa国产一级毛片| …亚洲 欧洲 另类 春色| 国产AV毛片| 99久久精品久久久久久婷婷| 波多野结衣AV无码久久一区| 国产一区三区二区中文在线| 99精品免费在线| 少妇被粗大的猛烈进出免费视频| 国产精品免费电影| 久久亚洲国产一区二区| 手机在线免费不卡一区二| 999精品在线视频| 国产精品无码久久久久久| 亚洲综合中文字幕国产精品欧美| 亚洲成人一区二区| 在线免费观看AV| 日本久久免费| 亚洲精品大秀视频| 国产麻豆永久视频| 国产成+人+综合+亚洲欧美| 午夜国产精品视频| 91精品视频网站| 综合人妻久久一区二区精品| 伊人精品成人久久综合| 国产精鲁鲁网在线视频| 国产精品性| 综合久久五月天| 在线国产91| 一本大道无码日韩精品影视| 亚洲综合狠狠| 伊人国产无码高清视频| a亚洲天堂| 午夜高清国产拍精品| 美女黄网十八禁免费看|