999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Tri-training與噪聲過濾的弱監(jiān)督關(guān)系抽取

2016-05-03 13:11:39冶忠林尹紅風(fēng)何大可
中文信息學(xué)報(bào) 2016年4期
關(guān)鍵詞:監(jiān)督方法

賈 真,冶忠林,尹紅風(fēng),何大可

(1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院, 四川 成都 610031;2. DOCOMO Innovations 公司,美國 帕羅奧圖 94304)

基于Tri-training與噪聲過濾的弱監(jiān)督關(guān)系抽取

賈 真1,冶忠林1,尹紅風(fēng)2,何大可1

(1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院, 四川 成都 610031;2.DOCOMOInnovations公司,美國 帕羅奧圖 94304)

弱監(jiān)督關(guān)系抽取利用已有關(guān)系實(shí)體對(duì)從文本集中自動(dòng)獲取訓(xùn)練數(shù)據(jù),有效解決了訓(xùn)練數(shù)據(jù)不足的問題。針對(duì)弱監(jiān)督訓(xùn)練數(shù)據(jù)存在噪聲、特征不足和不平衡,導(dǎo)致關(guān)系抽取性能不高的問題,文中提出NF-Tri-training(Tri-trainingwithNoiseFiltering)弱監(jiān)督關(guān)系抽取算法。它利用欠采樣解決樣本不平衡問題,基于Tri-training從未標(biāo)注數(shù)據(jù)中迭代學(xué)習(xí)新的樣本,提高分類器的泛化能力,采用數(shù)據(jù)編輯技術(shù)識(shí)別并移除初始訓(xùn)練數(shù)據(jù)和每次迭代產(chǎn)生的錯(cuò)標(biāo)樣本。在互動(dòng)百科采集數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果表明NF-Tri-training算法能夠有效提升關(guān)系分類器的性能。

關(guān)系抽取; 弱監(jiān)督學(xué)習(xí);Tri-training; 數(shù)據(jù)編輯

1 引言

關(guān)系抽取是信息抽取任務(wù)之一,其目的是從文本中找出實(shí)體對(duì)之間的語義關(guān)系類別。關(guān)系抽取在知識(shí)庫構(gòu)建、自動(dòng)問答、信息檢索等多個(gè)領(lǐng)域具有重要的應(yīng)用價(jià)值。傳統(tǒng)基于有監(jiān)督機(jī)器學(xué)習(xí)的關(guān)系抽取依賴于人工標(biāo)注的訓(xùn)練語料。然而,隨著關(guān)系抽取從限定關(guān)系類型轉(zhuǎn)向開放領(lǐng)域,數(shù)據(jù)源從標(biāo)準(zhǔn)語料庫轉(zhuǎn)向海量的網(wǎng)絡(luò)數(shù)據(jù),人工標(biāo)注幾乎是不可能的。基于弱監(jiān)督學(xué)習(xí)(weakly supervised learning)的關(guān)系抽取從知識(shí)庫中提取結(jié)構(gòu)化的關(guān)系實(shí)體對(duì),通過對(duì)文本集中的句子進(jìn)行回標(biāo)自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù),再利用機(jī)器學(xué)習(xí)算法訓(xùn)練分類器,對(duì)未標(biāo)注文本集中的實(shí)體對(duì)進(jìn)行關(guān)系預(yù)測(cè)。由于弱監(jiān)督關(guān)系抽取能夠在較少人工干預(yù)下自動(dòng)獲取訓(xùn)練數(shù)據(jù)而受到廣泛的關(guān)注。然而,與人工標(biāo)注的訓(xùn)練數(shù)據(jù)相比,弱監(jiān)督關(guān)系抽取的訓(xùn)練數(shù)據(jù)是基于實(shí)體對(duì)的共現(xiàn)自動(dòng)獲取的,其中含有大量的噪聲和錯(cuò)誤。此外,由于受到知識(shí)庫大小和文本集內(nèi)容的限制,訓(xùn)練數(shù)據(jù)還存在特征不足[1]和樣本不平衡的問題。訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)于分類器的性能至關(guān)重要,訓(xùn)練數(shù)據(jù)中含有噪聲將影響分類器的精度[2],訓(xùn)練數(shù)據(jù)特征不足將降低分類器的泛化能力,樣本不平衡使分類偏向多樣本類別,以上問題導(dǎo)致分類性能急劇下降。

相對(duì)于標(biāo)注數(shù)據(jù),未標(biāo)注數(shù)據(jù)較易獲得。半監(jiān)督學(xué)習(xí)方法能夠高效的利用少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)來提升分類器的性能。Tri-training[3]是一種Co-training模式的半監(jiān)督學(xué)習(xí)算法,該算法采用bootstrapping方式訓(xùn)練三個(gè)分類器并使它們協(xié)同工作,從未標(biāo)注數(shù)據(jù)中不斷引入新的樣本,擴(kuò)充訓(xùn)練集,從而得到具有良好性能的分類器。Tri-training算法將初始訓(xùn)練數(shù)據(jù)劃分為三個(gè)不同的樣本集,分別訓(xùn)練三個(gè)分類器作為基分類器。然而,由于弱監(jiān)督訓(xùn)練數(shù)據(jù)中含有噪聲,訓(xùn)練出來的基分類器是弱分類器,而且每次迭代引入的新數(shù)據(jù)中也含有噪聲,噪聲的累加最終會(huì)導(dǎo)致分類器性能下降。本文提出一種將噪聲過濾機(jī)制與Tri-training融合的弱監(jiān)督關(guān)系抽取算法NF-Tri-training(Tri-training with Noise Filtering),它使用數(shù)據(jù)編輯技術(shù)對(duì)初始訓(xùn)練數(shù)據(jù)和每輪迭代新加入的樣本進(jìn)行剪輯,去除數(shù)據(jù)中的噪聲;并采用基于聚類的欠采樣技術(shù)使初始訓(xùn)練數(shù)據(jù)中各類別的樣本數(shù)量均衡。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法能夠提高弱監(jiān)督訓(xùn)練數(shù)據(jù)的質(zhì)量,提升了弱監(jiān)督關(guān)系抽取的性能。

論文內(nèi)容安排如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)介紹方法原理;第四節(jié)介紹NF-Tri-training弱監(jiān)督關(guān)系抽取算法;第五節(jié)是實(shí)驗(yàn)與結(jié)果分析;最后進(jìn)行了總結(jié)。

2 相關(guān)工作

2.1 弱監(jiān)督學(xué)習(xí)關(guān)系抽取

基于弱監(jiān)督學(xué)習(xí)的關(guān)系抽取方法最早由Craven和Kumlien[4]提出,用于從學(xué)術(shù)文獻(xiàn)的摘要中抽取蛋白質(zhì)與基因之間的關(guān)系。Wu等[5]利用弱監(jiān)督學(xué)習(xí)方法從維基百科文本中抽取屬性值,對(duì)維基百科信息盒的內(nèi)容進(jìn)行補(bǔ)充。Bunescu等[6]分別將關(guān)系實(shí)體對(duì)正例和實(shí)體對(duì)反例作為查詢請(qǐng)求,從搜索引擎查詢結(jié)果中提取訓(xùn)練數(shù)據(jù)。Mintz等[7]利用Freebase*www.freebase.com獲取關(guān)系實(shí)體對(duì),從維基百科文本中獲取訓(xùn)練數(shù)據(jù)。Mintz的方法基于以下假設(shè): 如果兩個(gè)實(shí)體之間存在某種關(guān)系,那么所有含有實(shí)體對(duì)的句子都描述了這個(gè)關(guān)系。Yao等[8]對(duì)Mintz提出的方法進(jìn)行了改進(jìn),把關(guān)系抽取和實(shí)體的種類綜合考慮,利用實(shí)體的類別來過濾掉部分錯(cuò)誤的關(guān)系。Riedel等[2]將Mintz的假設(shè)放松為: 如果兩個(gè)實(shí)體之間存在某種關(guān)系,那么含有實(shí)體對(duì)的句子中至少有一個(gè)句子描述了該關(guān)系。Takamatsu等[9]提出了減少弱監(jiān)督數(shù)據(jù)錯(cuò)誤標(biāo)注的方法,該方法在標(biāo)注數(shù)據(jù)的時(shí)候,通過自身隱藏的變量去判斷賦予的標(biāo)注是錯(cuò)誤的還是正確的。Surdeanu等[10]基于弱監(jiān)督學(xué)習(xí)對(duì)TAC-KBP進(jìn)行屬性模板填充。楊宇飛等[11]從互動(dòng)百科信息盒中抽取<屬性,屬性值>二元組,從百科文本中提取訓(xùn)練數(shù)據(jù),采用自訓(xùn)練方法從未標(biāo)注數(shù)據(jù)中獲取新的訓(xùn)練數(shù)據(jù)。陳立瑋等[1]針對(duì)弱監(jiān)督學(xué)習(xí)訓(xùn)練數(shù)據(jù)質(zhì)量不高和特征不足問題,提出了利用協(xié)同訓(xùn)練方法來對(duì)弱監(jiān)督關(guān)系抽取模型進(jìn)行強(qiáng)化。然而,由于初始訓(xùn)練數(shù)據(jù)以及新添加數(shù)據(jù)中存在噪聲,該方法在迭代1~2次后,分類器性能就會(huì)下降。歐陽丹彤等[12]提出基于本體的樣本擴(kuò)充方法進(jìn)行弱監(jiān)督學(xué)習(xí)下的關(guān)系抽取任務(wù),解決弱監(jiān)督學(xué)習(xí)樣本匱乏的問題。

2.2 Tri-training與數(shù)據(jù)編輯

Tri-training是由Zhou等[3]人提出的基于協(xié)同訓(xùn)練模式的半監(jiān)督學(xué)習(xí)算法。協(xié)同訓(xùn)練 (Co-training)最早由Blum等提出[13],要求數(shù)據(jù)集有兩個(gè)充分冗余的視圖(view),在兩個(gè)視圖上分別訓(xùn)練兩個(gè)分類器,一個(gè)分類器產(chǎn)生的新標(biāo)記數(shù)據(jù)將會(huì)加入到另一分類器的下次迭代訓(xùn)練過程中。然而實(shí)際數(shù)據(jù)集往往難以滿足兩個(gè)充分冗余視圖的條件。為此,Goldman等[14]提出了一種不需要充分冗余視圖的協(xié)同訓(xùn)練算法。他們使用不同的決策樹算法,從同一個(gè)屬性集上訓(xùn)練出兩個(gè)不同的分類器,每個(gè)分類器都可以把示例空間劃分為若干個(gè)等價(jià)類。然后用交叉驗(yàn)證對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記,并用交叉驗(yàn)證綜合兩種學(xué)習(xí)方法形成最終預(yù)測(cè)。由于大量使用交叉驗(yàn)證,所以算法具有較高的時(shí)間復(fù)雜度。Tri-training算法[3]既不需要充分冗余視圖,也不需要使用不同的學(xué)習(xí)算法,通過在原始數(shù)據(jù)集上抽取出的有差異的數(shù)據(jù)子集上進(jìn)行訓(xùn)練來保證分類器之間的差異性。由于Tri-training 對(duì)屬性集和分類器所用學(xué)習(xí)算法都沒有約束, 而且不使用交叉驗(yàn)證,因此適用范圍更廣、效率更高。

半監(jiān)督學(xué)習(xí)算法由于迭代學(xué)習(xí)引入新的訓(xùn)練數(shù)據(jù)中含有錯(cuò)誤而損害分類器性能的提高[15-16]。數(shù)據(jù)編輯技術(shù)利用數(shù)據(jù)編輯規(guī)則或算法對(duì)錯(cuò)誤標(biāo)記的樣例進(jìn)行識(shí)別和消除,達(dá)到提高數(shù)據(jù)集質(zhì)量的目的。將數(shù)據(jù)剪輯機(jī)制集成到Co-training模式半監(jiān)督學(xué)習(xí)算法的研究也逐漸成為關(guān)注的焦點(diǎn)。Li 等[17]提出的SETRED算法就是在Co-training特例算法Self-training[18]的迭代訓(xùn)練過程中引入數(shù)據(jù)剪輯技術(shù)來過濾樣例中的噪聲。SETRED所用數(shù)據(jù)剪輯技術(shù)是基于Muhlenbach等[19]提出的鄰近圖的切割邊權(quán)重統(tǒng)計(jì)法來識(shí)別誤標(biāo)記樣例。鄧超等[20-21]提出將Tri-training與最近鄰規(guī)則數(shù)據(jù)編輯技術(shù)結(jié)合的DE-Tri-training半監(jiān)督聚類算法,并將其改進(jìn)為ADE-Tri-training算法,該算法采用自適應(yīng)策略來確定數(shù)據(jù)剪輯操作的恰當(dāng)時(shí)機(jī)。

3.方法原理

3.1 Tri-training

Tri-training方法大致步驟如下: 從訓(xùn)練集L中選擇數(shù)據(jù),劃分為三個(gè)訓(xùn)練集,即Li(i=1,2,3);三個(gè)訓(xùn)練集分別用來訓(xùn)練三個(gè)分類器Hi(i=1,2,3);從未標(biāo)注數(shù)據(jù)U中抽取出大小為P的數(shù)據(jù)集U’;使用三個(gè)分類器Hi(i=1,2,3)對(duì)U’中的任意樣本x進(jìn)行標(biāo)注,如果H2和H3對(duì)x的分類標(biāo)注H2(x)和H3(x)一致,則可將x標(biāo)注為H2(x)并加入H1的訓(xùn)練集L1’=L1∪{x|∈U’,H2(x)=H3(x)},同樣,H2和H3的訓(xùn)練集分別擴(kuò)充為L(zhǎng)2’和L3’;然后重新訓(xùn)練三個(gè)分類器,不斷迭代,直至沒有新的數(shù)據(jù)加入訓(xùn)練集,訓(xùn)練過程結(jié)束。

在訓(xùn)練集不斷擴(kuò)大過程中,H2和H3共同標(biāo)記x為H2(x),給H1作訓(xùn)練數(shù)據(jù)時(shí),如果準(zhǔn)確性足夠高,會(huì)優(yōu)化H1的訓(xùn)練結(jié)果;否則會(huì)在H1的訓(xùn)練集中加入噪聲,影響訓(xùn)練效果,降低分類性能。為此,Zhou 等[3]證明: 在PAC可學(xué)習(xí)框架下,如果新標(biāo)記的訓(xùn)練樣本足夠多且滿足式(1)定義的約束條件,則H1重新訓(xùn)練所得假設(shè)的分類性能會(huì)迭代提高。

(1)

(2)

3.2 基于鄰近圖切邊權(quán)重統(tǒng)計(jì)的數(shù)據(jù)編輯法

本文采用基于鄰近圖切邊權(quán)重統(tǒng)計(jì)的數(shù)據(jù)編輯方法。該方法利用數(shù)據(jù)集中的樣本構(gòu)造相對(duì)鄰近圖,通過分析圖中頂點(diǎn)擁有切邊的情況識(shí)別噪聲[19]。

定義1(相對(duì)鄰近圖)V為頂點(diǎn)集合,E為邊集合,當(dāng)兩個(gè)頂點(diǎn)滿足式(3)的條件時(shí),頂點(diǎn)之間存在邊。

(3)

其中,d(vi,vj)表示兩個(gè)頂點(diǎn)vi,vj之間的距離。

定義2(切邊)如果鄰近圖中一條邊的兩個(gè)頂點(diǎn)屬于不同的類別,該邊稱為切邊。

定義3(邊權(quán)重)邊權(quán)重定義為式(4)。

(4)

如果鄰近圖中的一個(gè)點(diǎn)有太多的切邊,這就意味著這個(gè)點(diǎn)很可能是異常點(diǎn),可見切邊數(shù)量是衡量噪聲數(shù)據(jù)的一個(gè)極重要的標(biāo)準(zhǔn)。假設(shè)ni是頂點(diǎn)i鄰居個(gè)數(shù),wij是連接兩個(gè)頂點(diǎn)i和j的邊權(quán)重,Ji為以i為頂點(diǎn)的切邊權(quán)重之和表示為式(5)。

(5)

其中:j表示i的鄰居;wij表示i和j兩頂點(diǎn)間邊的權(quán)重;Ii(j)是獨(dú)立同分布的隨機(jī)變量,且滿足參數(shù)為(1, 1-p) 的伯努利分布,其中p為類標(biāo)簽為yr(i)的概率。

為了找到異常點(diǎn),設(shè)H0為假設(shè)檢驗(yàn)命題,即在訓(xùn)練集中每個(gè)樣本的類標(biāo)簽都是獨(dú)立標(biāo)記的,并且滿足邊緣分布D(Y) ,對(duì)于任何樣本i,它的鄰居的類標(biāo)簽不是y(i)的概率不會(huì)超過H0。H0實(shí)際上是為j分配了一個(gè)類標(biāo)簽 ,在假設(shè)下的標(biāo)準(zhǔn)分布,這個(gè)分布的期望和方差可以通過式(6)和式(7)計(jì)算得到。

(6)

(7)

預(yù)先設(shè)定的檢驗(yàn)水準(zhǔn)記作α,統(tǒng)計(jì)方法采用Z檢驗(yàn),即利用服從正態(tài)分布的統(tǒng)計(jì)量Z進(jìn)行假設(shè)檢驗(yàn)。根據(jù)方差、期望等計(jì)算出Z的值,對(duì)于給定的檢驗(yàn)水準(zhǔn)α,查正態(tài)分布表得臨界值Zα/2,當(dāng)|Z|>|Zα/2|時(shí),拒絕原假設(shè),即這個(gè)樣本和假設(shè)檢驗(yàn)相沖突,也意味著這個(gè)樣本在鄰近圖中有較少的切邊,是一個(gè)好的樣本;反之則意味著這個(gè)樣本可能是噪聲,需要移除。

4. NF-Tri-training弱監(jiān)督關(guān)系抽取算法

NF-Tri-training弱監(jiān)督關(guān)系抽取算法框架如圖1所示。

圖1 NF-Tri-training弱監(jiān)督關(guān)系抽取框架

該框架主要包含以下四個(gè)因素。

(1) 知識(shí)庫和文本集: 該框架依賴于已有知識(shí)庫和文本集;

(2) 重采樣: 采用基于聚類的欠采樣方法從多樣本類別中采樣[22-23],使各類別樣本平衡;

(3)Tri-training: 使用Tri-training協(xié)同訓(xùn)練三個(gè)分類器,從未標(biāo)注數(shù)據(jù)中獲取新樣本擴(kuò)充訓(xùn)練集;

(4) 噪聲過濾: 采用基于切邊權(quán)重統(tǒng)計(jì)的數(shù)據(jù)編輯技術(shù)對(duì)初始樣本集和每輪迭代新添加樣本進(jìn)行剪輯。

NF-Tri-training弱監(jiān)督關(guān)系抽取分為三個(gè)階段。

(1) 訓(xùn)練數(shù)據(jù)集自動(dòng)獲?。?從已有知識(shí)庫中獲得關(guān)系三元組;從文本集中提取包含實(shí)體對(duì)的句子組成訓(xùn)練集。

(2) 初始樣本集獲?。?使用數(shù)據(jù)編輯技術(shù)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行剪輯,去除訓(xùn)練數(shù)據(jù)中的噪聲,然后采用基于聚類的欠采樣方法使各類別樣本平衡,再將數(shù)據(jù)集劃分為三個(gè)初始樣本集S1、S2、S3。

(3) 協(xié)同訓(xùn)練多個(gè)分類器: 使用帶噪聲過濾的Tri-training算法協(xié)同訓(xùn)練三個(gè)分類器。首先使用三個(gè)初始樣本集S1、S2、S3訓(xùn)練三個(gè)基分類器H1、H2、H3,對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)記,然后將兩個(gè)分類器標(biāo)記一致的樣本分別加入l1、l2和l3,在對(duì)l1、l2和l3進(jìn)行噪聲過濾后加入初始樣本集形成新的樣本集S1’、S2’、S3’,重新訓(xùn)練分類器,反復(fù)執(zhí)行此過程直到?jīng)]有新樣本產(chǎn)生。

NF-Tri-training弱監(jiān)督關(guān)系抽取算法步驟如下。

算法 NF-Tri-training弱監(jiān)督關(guān)系抽取算法

輸入: 知識(shí)庫K,文本集T

輸出: 關(guān)系實(shí)體對(duì)集

算法的執(zhí)行過程:

Step1 獲取訓(xùn)練數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集

(1) 從知識(shí)庫K中提取關(guān)系三元組 (1≤i≤n);

(2) 對(duì)文本集T進(jìn)行分句、分詞、詞性標(biāo)注、實(shí)體標(biāo)注以及去停用詞等自然語言預(yù)處理;

Step2 對(duì)訓(xùn)練集L進(jìn)行噪聲過濾L′←NoiseFilter(Ф,L)

Step4 將訓(xùn)練集L″劃分為三個(gè)初始訓(xùn)練集Sk,k=1,2,3

Step5 執(zhí)行帶噪聲過濾的Tri-training算法對(duì)初始訓(xùn)練集Sk進(jìn)行擴(kuò)充

(1) 使用三個(gè)訓(xùn)練集Sk,k=1,2,3訓(xùn)練得到三個(gè)分類器H1、H2、H3;

(2) 對(duì)每個(gè)Hi(i=1,2,3),重復(fù)以下步驟直到?jīng)]有新數(shù)據(jù)產(chǎn)生。

a.新加樣本集li為空

b.在L″上估計(jì)Hj和Hk的聯(lián)合錯(cuò)誤率ei

c.對(duì)每個(gè)x∈U,如果x的類別Hj(x)=Hk(x),則li←(x,Hj(x))

d.對(duì)li進(jìn)行噪聲過濾li←NoiseFilter(Si,li)

e.從li中采樣提取滿足式(2)判別條件的子集si

f.Si←Si∪si

Step6 用投票法判定每一個(gè)新加樣本的類別

Step7 從新加樣本集中抽取關(guān)系實(shí)體對(duì)

NoiseFilter(s,l)的功能是識(shí)別并過濾l中的噪聲數(shù)據(jù),具體步驟如下。

1. 計(jì)算樣本集s∪l中所有樣本之間的距離d(xi,xj)i,j=1, …,n,i≠j,距離采用余弦相似度;

4. 計(jì)算l中每個(gè)樣本的Z值,判斷|Z|是否大于|Zα/2|,若大于則保留,否則該樣本為噪聲。

Sampling(l,q)的功能是從樣本集l中提取q個(gè)樣本,具體步驟如下。

1. 對(duì)l中的樣本進(jìn)行層次聚類,樣本之間的相似度采用余弦相似度;

3. 從最大簇開始依次從每個(gè)簇中提取樣本,直到提取的樣本數(shù)量達(dá)到q為止。

在Tri-training算法中,判斷將新樣本添加至訓(xùn)練集的條件是需滿足式(2)的要求。由于未標(biāo)注數(shù)據(jù)的錯(cuò)誤率統(tǒng)計(jì)非常困難,基于未標(biāo)記數(shù)據(jù)集U和訓(xùn)練數(shù)據(jù)集L具有相同分布的假設(shè)[3],因此錯(cuò)誤率在L上被兩個(gè)分類器標(biāo)注一致的子集上進(jìn)行估計(jì)。

5.實(shí)驗(yàn)與結(jié)果分析

5.1 數(shù)據(jù)集與預(yù)處理

本文利用互動(dòng)百科構(gòu)建知識(shí)庫。互動(dòng)百科是由網(wǎng)絡(luò)用戶創(chuàng)建的,是最大的中文網(wǎng)絡(luò)百科之一,目前互動(dòng)百科條目數(shù)量超過700萬?;?dòng)百科一些人物條目頁面上具有人物關(guān)系編輯框,其中含有與該人物有關(guān)的其他人名和關(guān)系名稱,構(gòu)成結(jié)構(gòu)化的人物關(guān)系知識(shí)。我們從人物關(guān)系編輯框中抽取結(jié)構(gòu)化關(guān)系三元組<人名1,關(guān)系,人名2>作為知識(shí)庫。由于互動(dòng)百科人物關(guān)系是由網(wǎng)絡(luò)用戶編輯的,存在關(guān)系名稱眾多、用詞不統(tǒng)一、以及含有噪聲等問題。我們選擇出現(xiàn)頻次較高的關(guān)系名稱,并將相似的關(guān)系整合為一種關(guān)系,例如,將關(guān)系“父母”、“次子”、“兒子”、“女兒”、“長(zhǎng)子”、“子女”、“母親”等合并為“父母子女”關(guān)系,將“哥哥”、“弟弟”、“兄弟”、“妹妹”等合并為“兄弟姊妹”關(guān)系。最終確定“父母子女”、 “弟兄姊妹”、“配偶”、“師徒”四種關(guān)系進(jìn)行實(shí)驗(yàn)。

抽取出結(jié)構(gòu)化的關(guān)系三元組數(shù)量共有約15萬個(gè)。使用互動(dòng)百科條目文章作為文本集,利用關(guān)系三元組中的實(shí)體對(duì)在文本集中進(jìn)行回標(biāo),含有實(shí)體對(duì)的句子數(shù)量約為1萬個(gè)。我們從中人工標(biāo)注500個(gè)句子作為測(cè)試數(shù)據(jù)(每個(gè)類別100個(gè)句子,包括一個(gè)NULL類別,即含有人名實(shí)體對(duì)但沒有表達(dá)指定的關(guān)系)。其余數(shù)據(jù)按照2:1比例劃分為無標(biāo)記數(shù)據(jù)集U和訓(xùn)練數(shù)據(jù)集L。使用西南交通大學(xué)中文分詞平臺(tái)[24]進(jìn)行分詞、詞性標(biāo)注和實(shí)體標(biāo)注預(yù)處理。

我們?cè)O(shè)計(jì)了三個(gè)實(shí)驗(yàn)驗(yàn)證本文方法的有效性: 1)去噪前后分類器性能比較實(shí)驗(yàn);2)重采樣前后分類器性能比較實(shí)驗(yàn);3)不同協(xié)同訓(xùn)練算法下分類器性能比較實(shí)驗(yàn)。

5.2 去噪前后分類器性能比較實(shí)驗(yàn)

我們將訓(xùn)練數(shù)據(jù)L進(jìn)行剪輯、去除噪聲數(shù)據(jù)后,得到新的訓(xùn)練數(shù)據(jù)L′。樣本之間的相似性度量采用余弦相似度。通過比較樣本點(diǎn)之間的相似度構(gòu)造相對(duì)鄰近圖,然后計(jì)算邊權(quán)重和切邊權(quán)重和。判斷樣本是否為噪聲的假設(shè)檢驗(yàn)顯著水平值為0.01。識(shí)別為噪聲的句子示例如表1所示。

表1 噪聲示例

從表1中看出,數(shù)據(jù)編輯能夠識(shí)別某些未表達(dá)指定關(guān)系的句子。然而,某些正確的樣本也被識(shí)別為噪聲。例如,以下樣本被識(shí)別為噪聲。

“配偶”關(guān)系: “雖然閻文清對(duì)自己的家庭一直不愿多談,但他早和我省著名的特級(jí)象棋大師胡明組成了一個(gè)幸福的家庭?!?/p>

“弟兄姊妹”關(guān)系: “黃偉哲的家庭屬于深綠家庭,而其胞妹黃智賢卻是深藍(lán)的作家?!?/p>

雖然這兩個(gè)樣本表達(dá)了指定的關(guān)系,但由于與其他類別樣本之間的相似性較高,被識(shí)別為噪聲移除。通過實(shí)驗(yàn)發(fā)現(xiàn)比較長(zhǎng)的文本容易被識(shí)別為噪聲,原因在于長(zhǎng)文本含有的詞語較多,往往與其他類別的文本之間相似度較高。

我們用去噪前、后的訓(xùn)練集分別訓(xùn)練分類器,對(duì)測(cè)試數(shù)據(jù)進(jìn)行標(biāo)注,學(xué)習(xí)算法采用最大熵模型,采用詞袋特征。分類性能結(jié)果比較如表2所示。性能提高百分比I是去噪后F值較去噪前F值的提高比例。

從表2看出,去噪后四種關(guān)系的分類準(zhǔn)確率、召回率和F值均有提高。其中,父母子女關(guān)系的準(zhǔn)確率提升較大,弟兄姊妹和師徒關(guān)系的召回率提升較大。實(shí)驗(yàn)結(jié)果說明,噪聲去除能夠提升分類器的性能。盡管某些好樣本被誤判為噪聲,但是數(shù)據(jù)編輯仍對(duì)分類器性能提升起到了較大的作用。

表2 去噪前后分類器性能比較

5.3 重采樣前后分類器性能比較實(shí)驗(yàn)

去噪后的訓(xùn)練數(shù)據(jù)存在不平衡問題。樣本分布的不平衡往往會(huì)使傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法在分類過程中嚴(yán)重偏向多樣本類別,從而使分類的性能急劇下降[23]。為使不同關(guān)系的訓(xùn)練數(shù)據(jù)數(shù)量平衡,我們對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行重采樣。我們采用基于聚類的欠采樣方法分別從每種關(guān)系的訓(xùn)練數(shù)據(jù)中抽取300個(gè)樣本,每種類別重采樣前、后的樣本數(shù)量如表3所示。

為了驗(yàn)證樣本平衡有助于提高分類器的性能,我們分別使用重采樣前、后的訓(xùn)練數(shù)據(jù)訓(xùn)練關(guān)系分類器,并對(duì)測(cè)試數(shù)據(jù)進(jìn)行關(guān)系預(yù)測(cè)。分類器性能變化情況如表4所示。性能提高百分比I是重采樣后F值較重采樣前F值的提高比例。實(shí)驗(yàn)結(jié)果表明樣本平衡有助于提升分類器的性能。

表3 重采樣前后樣本數(shù)量

表4 重采樣前后分類器性能比較

5.4 不同協(xié)同訓(xùn)練算法下分類器性能比較實(shí)驗(yàn)

為了比較驗(yàn)證,我們使用四種方法進(jìn)行對(duì)比實(shí)驗(yàn)。方法1為本文提出的NF-Tri-training方法;方法2為基于Tri-training的方法;方法3為基于Co-training的方法;方法4為帶噪聲過濾的Co-training方法,該方法對(duì)每輪預(yù)測(cè)結(jié)果進(jìn)行去噪后再添加新樣本到訓(xùn)練集中。訓(xùn)練分類器的監(jiān)督學(xué)習(xí)算法采

用最大熵模型。四種方法采用的初始訓(xùn)練數(shù)據(jù)集相同,該數(shù)據(jù)集都經(jīng)過了去噪和重采樣處理。方法1和方法2將初始訓(xùn)練數(shù)據(jù)集劃分為三個(gè)初始樣本集S1、S2、S3,訓(xùn)練三個(gè)基分類器,分別用三個(gè)基分類器和迭代后訓(xùn)練的三個(gè)分類器對(duì)測(cè)試數(shù)據(jù)進(jìn)行標(biāo)注,樣本類別采用多數(shù)投票法確定(至少兩個(gè)分類器預(yù)測(cè)的關(guān)系類別一致為最終結(jié)果)。方法3和方法4采用詞和詞性兩種不同的特征作為兩個(gè)視圖訓(xùn)練兩個(gè)基分類器,分別用兩個(gè)基分類器和迭代后訓(xùn)練的兩個(gè)分類器對(duì)測(cè)試數(shù)據(jù)進(jìn)行標(biāo)注,樣本類別采用投票法確定(兩個(gè)分類器預(yù)測(cè)的關(guān)系類別一致為最終結(jié)果)。

Co-training方法需要確定三個(gè)參數(shù)[1]: 數(shù)據(jù)池大小p,每個(gè)視圖每次迭代新加樣本數(shù)量n和迭代次數(shù)t。本文參數(shù)確定方法如下: 從{500,1 000,1 500}中選取數(shù)據(jù)池大小p,從{20,40,60}中選取新加樣本的數(shù)量n,迭代次數(shù)t從1~20。通過實(shí)驗(yàn)發(fā)現(xiàn)方法3在迭代1~2次時(shí)F值達(dá)到最高,其中在p=500,n=20時(shí),t=1時(shí)F值最高(0.889);方法4在迭代2~15次時(shí)F值達(dá)到最高,其中在p=1 500,n=40時(shí),t=6時(shí)F值最高(0.893)。隨著迭代次數(shù)的增加,方法3和方法4分類器性能均呈無規(guī)律性波動(dòng)且逐漸下降,其中方法3在迭代20次時(shí)F值下降至0.78,方法4在迭代20次時(shí)F值下降至0.81。本文分別使用最優(yōu)參數(shù)下以及迭代后分類器性能與基于Tri-training的方法進(jìn)行比較,分類器性能變化情況如表5所示。性能提高百分比I是迭代終止后最終F值較初始F值的提高比例。

表5 不同方法分類器初始性能和最終性能比較

從表中看出,方法1(NF-Tri-training)迭代后準(zhǔn)確率和召回率均有提高,分類器總體性能F值提高了10.1%;方法2(Tri-training)迭代后準(zhǔn)確率略有下降,召回率提高,F(xiàn)值上升了8%;方法3(Co-training)和方法4(帶噪聲過濾的Co-training)在最優(yōu)參數(shù)下準(zhǔn)確率均有所下降,召回率上升,總體性能F值分別上升了7.2%和7.7%,在迭代20次后F值分別下降了5%和2%。實(shí)驗(yàn)結(jié)果說明,Tri-training和Co-training方法(最優(yōu)參數(shù)下)都能夠提升分類器的性能,與噪聲過濾融合后分類器性能提升更大。Co-training方法的初始分類器性能和最優(yōu)參數(shù)下分類器性能均優(yōu)于Tri-training方法,說明初始訓(xùn)練數(shù)據(jù)數(shù)量較多以及兩種視圖有助于提高分類器的性能(Co-training使用全部初始訓(xùn)練數(shù)據(jù)訓(xùn)練基分類器,Tri-training將初始訓(xùn)練數(shù)據(jù)劃分為三份訓(xùn)練基分類器)。然而,在迭代一定輪次后,Co-training方法的性能下降較大,這是由于Co-training每次迭代添加的樣本中含有噪聲,雖然噪聲過濾能夠緩解噪聲問題,但隨著迭代輪次的增加,錯(cuò)誤的關(guān)系實(shí)例仍會(huì)增加,損害分類器性能。Tri-training的方法分類器性能比較穩(wěn)定,且分類器性能提升更大。

6 結(jié)論

弱監(jiān)督關(guān)系抽取的訓(xùn)練數(shù)據(jù)是自動(dòng)獲取的,其中含有大量的噪聲,并存在不平衡、特征不足等問題。本文提出NF-Tri-training弱監(jiān)督關(guān)系抽取算法。它利用數(shù)據(jù)編輯和重采樣技術(shù)提高訓(xùn)練數(shù)據(jù)的質(zhì)量。此外,它基于Tri-training半監(jiān)督學(xué)習(xí)算法,利用未標(biāo)注數(shù)據(jù)擴(kuò)充訓(xùn)練集,提升分類器的泛化能力。由于Tri-training每次迭代對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)記的過程中可能會(huì)出現(xiàn)錯(cuò)標(biāo),若將錯(cuò)標(biāo)的樣本再次加到訓(xùn)練集中,在下一次迭代訓(xùn)練中將會(huì)使分類器的性能降低。本文利用數(shù)據(jù)編輯技術(shù)將每次迭代產(chǎn)生的新標(biāo)記數(shù)據(jù)進(jìn)行剪輯。實(shí)驗(yàn)結(jié)果說明,本文提出的方法能夠提高訓(xùn)練數(shù)據(jù)的質(zhì)量,提升分類器的性能。由于NF-Tri-Training算法要求不滿足樣本更新條件時(shí)迭代停止,通常在迭代4-5次后就會(huì)停止,導(dǎo)致獲取的新加樣本數(shù)量和關(guān)系實(shí)體對(duì)數(shù)量較少,因此本文下一步工作研究如何既能提高分類器的性能又能夠不斷從未標(biāo)注數(shù)據(jù)中獲取更多的新樣本和關(guān)系實(shí)例。

[1] 陳立瑋, 馮巖松, 趙東巖. 基于弱監(jiān)督學(xué)習(xí)的海量網(wǎng)絡(luò)數(shù)據(jù)關(guān)系抽取[J]. 計(jì)算機(jī)研究與發(fā)展. 2013, 50(9): 1825-1835.

[2] Riedel S, Yao Limin, Mccallum A. Modeling relations and their mentions without labeled text[J]. Machine Learning and Knowledge Discovery in Databases. 2010, 6323: 148-163.

[3] Zhou Z H, Li M. Tri-training: exploiting unlabeled data using three classifiers[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11):1529-1541.

[4] Craven M, Kumlien J. Constructing biological knowledgebases by extracting information from text sources[C]//Proceedings of the Seventh International Conference on Intelligent Systems for Molecular Biology (ISMB1999). Palo Alto, USA. 1999: 77-86.

[5] Wu F, Daniel Sw. Autonomously semantifying Wikipedia[C]//Proceedings of the Sixteenth ACM Conference on Information and Knowledge Management (CIKM2007). Lisbon, Portugal. 2007: 41-50.

[6] Bunescu R, Mooney R. Learning to extract relations from the Web using minimal supervision[C]//Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Stroudsburg (ACL2007), USA. 2007, 45(1): 567-583.

[7] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the 47thAnnual Meeting of the Association for Computational Linguistics (ACL2009). Singapore. 2009: 1003-1011.

[8] Yao L M, Riedel S, Mccallum A. Collective cross document relation extraction without labeled data[C]//Proceedings of 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010). Massachusetts, USA. 2010: 1013-1023.

[9] Takamatsu S, Sato I, Nakagawa H. Reducing wrong labels in distant supervision for relation extraction[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (ACL2012). Jeju Island, Korea. 2012: 721-729.

[10] Surdanu M, Mcclosky D, Tibshirani J, et al. A simple distant supervision approach for the TAC-KBP slot filling task [C]//Proceedings of the TAC-KBP 2010 Workshop, USA, 2010:1-5.

[11] 楊宇飛, 戴齊, 賈真,等. 基于弱監(jiān)督的屬性關(guān)系抽取方法[J]. 計(jì)算機(jī)應(yīng)用, 2014,34(1): 64-68.

[12] 歐陽丹彤, 瞿劍峰, 葉育鑫.關(guān)系抽取中基于本體的遠(yuǎn)監(jiān)督樣本擴(kuò)充[J]. 軟件學(xué)報(bào). 2014, 25(9): 2088-2101.

[13] Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the 11th annual conference on Computational Learning Theory(COLT1998).Wisconsin,USA,1998: 92-100.

[14] Goldman S, Zhou Y. Enhancing supervised learning with un-labeled data[C]//Proceedings of the 17th International Conference on Machine Learning(ICML2000). California, USA, 2000: 327-334.

[15] Nigam K, Mccallum Ak, Thrun S, et al. Text classification from labeled and unlabeled documents using EM[J].Machine Learning,2000, 39(223): 103-134.

[16] Blum A, Chawla S. Learning from labeled and unlabeled data using graph min cuts[C]//Proceedings of the 18th International Conference on Machine Learning(ICML2001). Williamstown, MA, 2001: 19-26.

[17] Li M, Zhou ZH. SETRED: Self-training with editing[C]//Proceedings of the 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining(PAKDD2005). Hanoi, Vietnam, 2005: 611-621

[18] Nigam K, Ghani R. Analyzing the effectiveness and applicability of co-training[C]//Proceedings of the ACM 9th Conference on Information and Knowledge Management(CIKM2000). Washington, DC, 2000: 86-93

[19] Muhlenbach F, Lallich S, Zighed Da. Identifying and handling mislabeled instances[J]. Journal of Intelligent Information Systems, 2004, 22(1) : 89-109.

[20] 鄧超, 郭茂祖. 基于Tri-Training 和數(shù)據(jù)剪輯的半監(jiān)督聚類算法[J]. 軟件學(xué)報(bào). 2008, 19(3): 663-673.

[21] 鄧超, 郭茂祖. 基于自適應(yīng)數(shù)據(jù)剪輯策略的Tri-training算法[J]. 計(jì)算機(jī)學(xué)報(bào). 2007, 30(8):1213-1226.

[22] Yen S, Lee Y. Cluster-based under-sampling approaches for imbalanced data distributions[J]. Expert Systems with Applications, 2009, 36: 5718-5727.

[23] 王中卿, 李壽山, 朱巧明, 等. 基于不平衡數(shù)據(jù)的中文情感分類[J]. 中文信息學(xué)報(bào). 2012, 26(3):33-37, 64.

[24] 尹紅風(fēng), 賈真, 李天瑞, 等. 西南交通大學(xué)中文分詞[OL]. http://ics.swjtu.edu.cn

Weakly Supervised Relation Extraction Based on Tri-training and Noise Filtering

JIA Zhen1, YE Zhonglin1, YIN Hongfeng2, HE Dake1

(1. School of Information and Science Technology, Southwest Jiaotong University, Chengdu, Sichuan 610031, China;2. DOCOMO Innovations Inc.,Palo Alto 94304, USA)

Weakly supervised relation extraction utilizes entity pairs to obtain training data from texts automatically, which can effectively deal with the problem of inadequate training data. However, there are many problems in the weakly supervised training data such as noise, inadequate features, and imbalance samples, leading to low performance of relation extraction. In this paper, a weakly supervised relation extraction algorithm named NF-Tri-training (Tri-training with Noise Filtering) is proposed. NF-Tri-training employs an under-sampling approach to solve the problem of imbalance samples, learns new samples iteratively from unlabeled data and uses a data editing technique to identify and discard possible mislabeled samples both in initial training data and in new samples generating at each iteration. The experiment on dataset of Hudong encyclopedia indicates the proposed method can improve the performance of relation classifiers.

relation extraction; weakly supervised learning; Tri-training; data editing

賈真(1975—),博士,講師,主要研究領(lǐng)域?yàn)樾畔⒊槿∨c知識(shí)獲取。E-mail:zjia@home.swjtu.edu.cn冶忠林(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與智能問答。E-mail:zhonglin_ye@foxmail.com尹紅風(fēng)(1964—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與智能問答。E-mail:hongfeng_yin@yahoo.com

1003-0077(2016)04-0142-08

2014-09-25 定稿日期: 2015-04-07

國家自然科學(xué)基金(61170111, 61202043, 61262058)

TP

A

猜你喜歡
監(jiān)督方法
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
學(xué)習(xí)方法
監(jiān)督見成效 舊貌換新顏
夯實(shí)監(jiān)督之基
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
績(jī)效監(jiān)督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
監(jiān)督宜“補(bǔ)”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 中文字幕色站| 日韩欧美国产成人| 性色在线视频精品| 91久久精品日日躁夜夜躁欧美| 毛片免费网址| 欧美成人免费午夜全| 天天躁夜夜躁狠狠躁图片| 91探花国产综合在线精品| 九九视频免费看| 亚洲精品高清视频| P尤物久久99国产综合精品| 国产91小视频在线观看| 欧洲亚洲欧美国产日本高清| 亚洲天堂免费| 老司机久久99久久精品播放| av天堂最新版在线| 亚洲综合婷婷激情| 国产尤物jk自慰制服喷水| 五月天综合婷婷| 欧美伦理一区| 亚洲成人动漫在线观看| 91视频精品| 国产无人区一区二区三区| 丁香综合在线| 高清国产在线| 99在线视频免费| 免费一级毛片在线播放傲雪网| 中国特黄美女一级视频| 在线高清亚洲精品二区| av色爱 天堂网| 亚洲无码视频一区二区三区 | 免费jjzz在在线播放国产| 97se亚洲综合| 国产主播福利在线观看| 91精品国产无线乱码在线| 99热这里只有精品免费国产| 亚洲成a人片77777在线播放| 久久免费观看视频| 日本不卡在线播放| 久久人搡人人玩人妻精品一| 日韩成人免费网站| 国产人妖视频一区在线观看| 99热最新在线| 久久婷婷国产综合尤物精品| www.精品国产| 亚洲国产日韩在线成人蜜芽| 乱人伦中文视频在线观看免费| 亚洲女同一区二区| 亚洲视频在线网| 国产美女在线免费观看| 亚洲永久精品ww47国产| 国产爽爽视频| 亚洲无线国产观看| 午夜国产精品视频黄| 久久精品中文无码资源站| 国产手机在线小视频免费观看| 亚洲视频一区| 日韩AV无码免费一二三区| 国产区91| jizz国产视频| 国产精品免费露脸视频| 在线观看91精品国产剧情免费| 久久久久人妻一区精品色奶水| 欧美亚洲另类在线观看| 国产日韩精品欧美一区喷| 欧美日韩导航| 九九视频免费看| 免费a级毛片18以上观看精品| 欧美午夜在线观看| 色悠久久久久久久综合网伊人| 亚洲三级色| 精品久久久久久成人AV| 久久国产精品无码hdav| 72种姿势欧美久久久大黄蕉| 亚洲资源站av无码网址| 亚洲精品国产综合99| 国产欧美专区在线观看| 国产欧美网站| 在线精品视频成人网| 亚洲中字无码AV电影在线观看| 国产浮力第一页永久地址| 无码福利视频|