999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于眾包標(biāo)注的中文微博命名實(shí)體識(shí)別

2019-04-01 09:10:10湯文兵桂海霞張順香
關(guān)鍵詞:方法能力

房 輝 湯文兵 桂海霞 張順香

1(安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 安徽 淮南 232001)2(安徽理工大學(xué)經(jīng)濟(jì)與管理學(xué)院 安徽 淮南 232001)

0 引 言

近年來微博發(fā)展迅速,微博社會(huì)群體日趨龐大并且社會(huì)影響力也越來越大。Q3微博財(cái)報(bào)數(shù)據(jù)顯示,截至2017年9月,微博月活躍用戶共3.76億,與2016年同期增加27%;日活躍用戶達(dá)到1.65億,較去年同期增加25%[1]。

命名實(shí)體識(shí)別的目的是識(shí)別出語料中的時(shí)間、地點(diǎn)、人名等命名實(shí)體[2-3]。針對(duì)微博命名實(shí)體識(shí)別,Van Cuong Tran等提出一種稱為TwiSNER的方法,通過結(jié)合條件隨機(jī)場(chǎng)模型、人工制定的規(guī)則以及圍繞實(shí)體特征詞的共現(xiàn)系數(shù)的半監(jiān)督學(xué)習(xí)方法,對(duì)微博中的命名實(shí)體進(jìn)行分類[4]。Diego Esteves則提出一種不依賴任何特定語言資源和編碼規(guī)則的新型多層體系結(jié)構(gòu),與傳統(tǒng)方法不同,他們使用從圖像和文本中提取的特征對(duì)命名實(shí)體進(jìn)行分類[5]。

上述方法針對(duì)微博文本短小、語言不規(guī)范以及噪聲多等特點(diǎn),取得了很好的命名實(shí)體識(shí)別效果。但中文微博語境更加復(fù)雜,使用機(jī)器進(jìn)行命名實(shí)體識(shí)別存在識(shí)別成本高以及識(shí)別速度慢等問題[6]。為了解決以上問題,本文提出了基于眾包標(biāo)注的中文微博命名實(shí)體識(shí)別方法,利用眾包平臺(tái)上大量的眾包者來對(duì)命名實(shí)體進(jìn)行高效的識(shí)別。首先在眾包過程中對(duì)眾包標(biāo)注者的能力進(jìn)行評(píng)估,確定每個(gè)標(biāo)注者的能力值;然后使用最大期望值算法對(duì)評(píng)估得到的眾包標(biāo)注者的能力值以及評(píng)估過程中產(chǎn)生的臨時(shí)標(biāo)簽進(jìn)行分析學(xué)習(xí),過濾掉其中的噪聲;最后根據(jù)優(yōu)化的眾包標(biāo)注者能力值對(duì)微博眾包標(biāo)記的結(jié)果進(jìn)行糾偏,從而確定最后的命名實(shí)體。

1 相關(guān)工作

1) 眾包標(biāo)注 目前,深度學(xué)習(xí)在解決不同領(lǐng)域的人工智能問題方面取得了重大發(fā)展,這種成功主要?dú)w因于其能發(fā)現(xiàn)高維數(shù)據(jù)中錯(cuò)綜復(fù)雜的結(jié)構(gòu)。然而,學(xué)習(xí)復(fù)雜高維數(shù)據(jù)的深層表示的關(guān)鍵需求是大量的標(biāo)記數(shù)據(jù),在許多情況下,這些數(shù)據(jù)并不容易獲得,需要人們手動(dòng)標(biāo)記大量的數(shù)據(jù)。

近年來,眾包已經(jīng)成為標(biāo)記大型數(shù)據(jù)集的可靠解決方案[7]。眾包標(biāo)注的過程就是眾包發(fā)起者在眾包平臺(tái)上向參與者分配眾包任務(wù),讓他們來完成標(biāo)注任務(wù),并且每一個(gè)標(biāo)注任務(wù)可以分配給不同的標(biāo)注者來完成以保證質(zhì)量,最后將標(biāo)注的結(jié)果收集起來。眾包標(biāo)注的具體流程圖如圖1所示。

圖1 眾包流程

2) 眾包數(shù)據(jù)分析與處理 Amazon Machaical Turk以及CrowdFlower等眾包平臺(tái)的成功已經(jīng)證明眾包是獲得標(biāo)簽數(shù)據(jù)有效、低成本的方式,但眾包數(shù)據(jù)的質(zhì)量并不能得到保證[8]。在眾包過程中,眾包標(biāo)注者的能力、工作態(tài)度以及眾包任務(wù)的難易程度都會(huì)對(duì)最后數(shù)據(jù)的質(zhì)量產(chǎn)生影響。雖然傳統(tǒng)的專家標(biāo)注方法得到的數(shù)據(jù)質(zhì)量問題不大,但是標(biāo)注成本高、速度慢,并不適用于龐大的數(shù)據(jù)集。

為了保證數(shù)據(jù)的質(zhì)量,對(duì)眾包平臺(tái)數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)具有重要意義。目前最常用的方法是通過重復(fù)標(biāo)記生成冗余的標(biāo)注數(shù)據(jù),然后使用機(jī)器學(xué)習(xí)算法過濾這些數(shù)據(jù)的噪聲以獲得高質(zhì)量的標(biāo)注數(shù)據(jù)。

2 眾包標(biāo)注者能力評(píng)估算法

眾包標(biāo)注者能力評(píng)估算法是對(duì)參與眾包任務(wù)的標(biāo)注者能力進(jìn)行評(píng)估,篩選掉能力值較低的標(biāo)注者,從而使得最后的標(biāo)注數(shù)據(jù)準(zhǔn)確性更高。由于參與眾包的標(biāo)注者的能力是未知的,因此,眾包標(biāo)注過程中最關(guān)鍵的部分就是對(duì)于眾包標(biāo)注者能力的評(píng)估[9-10]。

2.1 算法模型

該眾包標(biāo)注標(biāo)注者能力評(píng)估算法由標(biāo)注者的基礎(chǔ)能力值和業(yè)務(wù)能力值兩部分組成。算法的框架圖如圖2所示。

圖2 眾包標(biāo)注工作者能力評(píng)估算法框架圖

其中,標(biāo)注者的基礎(chǔ)能力值由申請(qǐng)眾包任務(wù)前的一系列測(cè)試所決定。測(cè)試包括技能測(cè)試以及心理測(cè)試。通過測(cè)試能淘汰掉一些綜合素質(zhì)較差的眾包申請(qǐng)者。此次測(cè)試能大致了解每個(gè)眾包標(biāo)注者的能力,確定每位符合標(biāo)準(zhǔn)的眾包標(biāo)注者的基礎(chǔ)能力值。

業(yè)務(wù)能力值由眾包標(biāo)注者在進(jìn)行微博命名實(shí)體識(shí)別時(shí)的準(zhǔn)確率以及標(biāo)注者間的一致性共同決定。如果眾包標(biāo)注者的識(shí)別準(zhǔn)確率越高,則說明該標(biāo)注者能力越高。一致性是指能力越高的標(biāo)注者之間的標(biāo)注結(jié)果通常是趨于一致的,如果該標(biāo)注者與其他標(biāo)注者的一致性越高,則說明該標(biāo)注者能力越強(qiáng)。

2.2 算法描述

眾包標(biāo)注者能力評(píng)估算法基于標(biāo)注者的基礎(chǔ)能力值和業(yè)務(wù)能力值對(duì)標(biāo)注者進(jìn)行能力評(píng)估。通過技能測(cè)試以及心理測(cè)試得到標(biāo)注者的基礎(chǔ)能力值。在業(yè)務(wù)能力值確定過程中,根據(jù)標(biāo)注結(jié)果不斷迭代更新標(biāo)注者的準(zhǔn)確率以及標(biāo)注者間的一致性,直到達(dá)到最大迭代次數(shù)。最后,得到標(biāo)注者的能力值。

2.2.1 算法相關(guān)定義

定義1(實(shí)體對(duì)象集合) 給定的中文微博眾包標(biāo)注任務(wù)中需要對(duì)n個(gè)實(shí)體對(duì)象進(jìn)行標(biāo)注,實(shí)體對(duì)象集合記為x={xi|i=1,2,…,n},其中xi表示第i個(gè)實(shí)體對(duì)象。

定義2(眾包標(biāo)注者集合) 通過一系列測(cè)試后符合眾包標(biāo)注任務(wù)標(biāo)準(zhǔn)的標(biāo)注者的集合為u={ur|r=1,2,…,m},共m個(gè)標(biāo)注者,其中ur表示第r個(gè)標(biāo)注者。

定義3(初始能力值) 每個(gè)標(biāo)注者的初始能力值集合為w={wr|r=1,2,…,m},其中wr表示第r個(gè)標(biāo)注者的初始能力值。

首先,對(duì)于第r個(gè)標(biāo)注者所完成的標(biāo)注準(zhǔn)確率Ar的計(jì)算就是求出該標(biāo)注者在本次中文微博實(shí)體標(biāo)注任務(wù)中所給出的標(biāo)注標(biāo)簽與所有實(shí)體對(duì)象正確標(biāo)注標(biāo)簽相同的比率。其中實(shí)體對(duì)象正確標(biāo)注標(biāo)簽就是根據(jù)眾包標(biāo)注標(biāo)簽最后生成的最終標(biāo)注標(biāo)簽。第r個(gè)標(biāo)注者所完成標(biāo)注的準(zhǔn)確率為:

(1)

(2)

(3)

(4)

2.2.2 算法流程

基本流程如算法1所示。

算法1眾包標(biāo)注者能力評(píng)估算法

輸入:收集到的眾包標(biāo)注集合yn,標(biāo)注者初始能力集合w,最大迭代次數(shù)max

輸出:標(biāo)注者的能力值集合

1)i=1,迭代計(jì)數(shù)器p=1;

2) while(i

3) 取第i個(gè)命名實(shí)體對(duì)象的所有標(biāo)注結(jié)果;

4) 計(jì)算標(biāo)注結(jié)果對(duì)應(yīng)于每類命名實(shí)體的支持率;

5) 取最大支持率或該類別能力值最大的標(biāo)注者的標(biāo)注結(jié)果確定為該命名實(shí)體對(duì)象的臨時(shí)標(biāo)簽li;

6)r=1;

7) while(r

10) 計(jì)算第r個(gè)標(biāo)注者在第i個(gè)實(shí)體對(duì)象上的標(biāo)注準(zhǔn)確率Ar;

12)r++;

13) endwhile;

14)i++;

15) endwhile;

17) 迭代計(jì)數(shù)器p的值加1,判斷是否達(dá)到最大迭代次數(shù)max,若是,則跳轉(zhuǎn)到步驟18,否則跳轉(zhuǎn)到步驟2;

18) 返回標(biāo)注者的能力值集合。

3 眾包質(zhì)量控制算法

3.1 期望最大值算法估計(jì)標(biāo)注者的能力值

眾包平臺(tái)上的每個(gè)眾包標(biāo)注者之間都是相互獨(dú)立進(jìn)行眾包標(biāo)注,并且在眾包標(biāo)注者能力評(píng)估算法中通過計(jì)算眾包標(biāo)注的支持率可知命名實(shí)體種類li,因此可得式(5):

(5)

式中:Θ表示眾包標(biāo)書進(jìn)行中文微博命名實(shí)體識(shí)別的能力:

(6)

式中:Ar由式(1)求得,代表每個(gè)標(biāo)注工作者的標(biāo)注準(zhǔn)確率。

基于式(5),可以導(dǎo)出一個(gè)期望最大值算法,用來學(xué)習(xí)眾包標(biāo)注工作者的能力Sr。期望最大值算法求解由式(7)給出:

Inp(D|Θ,{S1,S2,…,Sm})=

(7)

3.2 噪聲過濾和正確結(jié)果估計(jì)

EM算法充分考慮了眾包標(biāo)注者的能力值誤差因素,幫助眾包平臺(tái)排除能力值較低的工作者,具體步驟如下:

q(li=c)∝

(8)

(2) M-step 尋找能使E-step產(chǎn)生的最大似然期望最大化的參數(shù)值,將眾包標(biāo)注工作者的能力值更新為:

(9)

(10)

4 實(shí) 驗(yàn)

共進(jìn)行兩組實(shí)驗(yàn),都是進(jìn)行人名、地名、機(jī)構(gòu)名的識(shí)別。第一組實(shí)驗(yàn)的目的是驗(yàn)證眾包標(biāo)注方法識(shí)別中文微博命名實(shí)體的有效性,第二組實(shí)驗(yàn)是考察不同參數(shù)對(duì)于實(shí)驗(yàn)結(jié)果的影響。

第一組實(shí)驗(yàn)選用的是1998年1月的《人民日?qǐng)?bào)》(RMRB-98-1)語料庫中前80%共15 850句的數(shù)據(jù)以及2018年5月在新浪微博上(XLWB-18-5)收集的20 000條微博的前80%作為開發(fā)訓(xùn)練集,剩余部分作為開發(fā)驗(yàn)證集,數(shù)據(jù)集的詳細(xì)信息如表1所示。第二組實(shí)驗(yàn)的數(shù)據(jù)與第一組相同。由于微博更新速度快,為了避免在某一時(shí)間段內(nèi)由于某個(gè)熱門話題導(dǎo)致某些實(shí)體過度重復(fù)的問題,在5月的微博中,從時(shí)間上平均地選取了20 000條微博。

表1 數(shù)據(jù)集的詳細(xì)信息

實(shí)驗(yàn)采用Python編程,運(yùn)行服務(wù)器配置為2.80 GHz Intel(R) Core(TM) CPU和8 GB內(nèi)存,軟件使用的是Win10操作系統(tǒng)和PyCharm編譯器。實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)是準(zhǔn)確率P、召回率R以及調(diào)和平均數(shù)F值。

4.1 眾包標(biāo)注命名實(shí)體實(shí)驗(yàn)

本文使用RMRB-98-1和XLWB-18-5作為開發(fā)集,讓20位標(biāo)注者對(duì)開發(fā)集進(jìn)行標(biāo)注,目的是標(biāo)注出人名、地名、機(jī)構(gòu)名三類實(shí)體。在標(biāo)注過程不斷對(duì)標(biāo)注者能力進(jìn)行評(píng)估,然后使用EM算法過濾噪聲,得到最后的標(biāo)注結(jié)果。實(shí)驗(yàn)結(jié)果如表2所示。

表2 眾包標(biāo)注模型實(shí)驗(yàn)結(jié)果

由表2可以看出,相比訓(xùn)練集,測(cè)試集的識(shí)別效果均有所下降,這說明某一標(biāo)注者如果識(shí)別某一種命名實(shí)體的能力最高,但其標(biāo)注結(jié)果并不能保證完全正確,相反某些能力較低的標(biāo)注者的結(jié)果存在一定概率是正確的。

本文分別采用文獻(xiàn)[13-15]的方法與本文方法在新浪微博數(shù)據(jù)上進(jìn)行命名實(shí)體識(shí)別效果比較。人名、地名、機(jī)構(gòu)名3種命名實(shí)體的準(zhǔn)確率、召回率及其加權(quán)調(diào)和平均值F值分別如圖3-圖5所示。

圖3 人名實(shí)體識(shí)別的準(zhǔn)確率、召回率與F值

圖4 地名實(shí)體識(shí)別的準(zhǔn)確率、召回率與F值

圖5 機(jī)構(gòu)名實(shí)體識(shí)別的準(zhǔn)確率、召回率與F值

通過比較四種方法在中文微博數(shù)據(jù)上進(jìn)行命名實(shí)體識(shí)別的效果可以發(fā)現(xiàn),本文提出的眾包標(biāo)注方法識(shí)別效果最好,證明了本文方法的有效性。從圖3與圖4可以看出,與其他三種方法相比,人名和地名的識(shí)別效果大大提高,準(zhǔn)確率、召回率以及F值均達(dá)到了80%左右,識(shí)別效果十分可觀。因?yàn)橄啾葯C(jī)器識(shí)別,人們?cè)谌粘I钪袝?huì)接觸到大量的人名、地名,所以對(duì)這兩種命名實(shí)體十分敏感,并且微博語句中的人名、地名也十分明顯,但是識(shí)別效果依舊沒能達(dá)到預(yù)期的90%以上。通過分析標(biāo)注者的標(biāo)注結(jié)果可以看出,很多標(biāo)注者不能準(zhǔn)確識(shí)別人物別名(例如,明星謝娜的別名叫娜娜或娜姐,很多標(biāo)注者只能識(shí)別出謝娜,其他兩種別名并不能準(zhǔn)確識(shí)別)以及錯(cuò)誤識(shí)別地名(例如“我在草地上”,有的標(biāo)注者會(huì)將草地是識(shí)別成地名,準(zhǔn)確來講只能算作地理位置)。

由圖5可以看出,機(jī)構(gòu)名的識(shí)別效果雖然相比較文獻(xiàn)[13]和文獻(xiàn)[14]有了一定提升,但與人名、地名的識(shí)別效果相比存在很大的差距,準(zhǔn)確率只有62%左右,召回率不到50%。主要是因?yàn)闃?biāo)注者對(duì)于機(jī)構(gòu)名儲(chǔ)備知識(shí)不夠,因此通過培訓(xùn)眾包標(biāo)注者對(duì)于基礎(chǔ)知識(shí)的掌握能力,可以大大提高命名實(shí)體識(shí)別效果。

4.2 參數(shù)對(duì)結(jié)果的影響

主要考察標(biāo)注者能力值中的參數(shù)η。不同的η值會(huì)影響標(biāo)注者的標(biāo)注準(zhǔn)確率和標(biāo)注一致性對(duì)于業(yè)務(wù)能力值的貢獻(xiàn)比例,從而影響算法對(duì)標(biāo)注者能力值的評(píng)估,不同能力值的標(biāo)注者識(shí)別命名實(shí)體的準(zhǔn)確率存在很大誤差。圖6給出在λ=0.8,η取不同值時(shí),人名、地名、機(jī)構(gòu)名三種命名實(shí)體識(shí)別F值的平均值的情況。

圖6 η取不同值時(shí)命名實(shí)體識(shí)別F值的平均值

從圖中可以看出,隨著η取值的不斷增加,三種命名實(shí)體識(shí)別F值的平均值先不斷增加,然后減少,當(dāng)η=0.5時(shí)達(dá)到最大。其中η=0時(shí)的值明顯大于η=1的值,這是因?yàn)棣?0時(shí),眾包標(biāo)注者的能力值只取決于眾包標(biāo)注者間的一致性,而η=1時(shí),能力值則取決于標(biāo)注者的標(biāo)注準(zhǔn)確率,在計(jì)算標(biāo)注的準(zhǔn)確率時(shí),是以眾包標(biāo)注過程中產(chǎn)生的臨時(shí)標(biāo)簽作為評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行計(jì)算的,因此存在較大誤差。

5 結(jié) 語

本文針對(duì)微博更新速度快,語言不規(guī)范和噪聲多等特點(diǎn),提出采用眾包標(biāo)注方法識(shí)別中文微博命名實(shí)體。通過能力評(píng)估算法對(duì)眾包標(biāo)注者的能力值進(jìn)行初步評(píng)估,隨后通過EM算法對(duì)能力值進(jìn)一步優(yōu)化。實(shí)驗(yàn)驗(yàn)證了相比較傳統(tǒng)方法,眾包標(biāo)注方法有效提高了對(duì)于中文微博命名實(shí)體識(shí)別的效果,并且成本更低、速度更快。由于微博自身內(nèi)容的特殊性以及標(biāo)注者知識(shí)儲(chǔ)備的局限性,本文方法對(duì)機(jī)構(gòu)名的識(shí)別率還不夠理想,因此,接下來工作將是如何提高結(jié)構(gòu)名的識(shí)別效果。

猜你喜歡
方法能力
消防安全四個(gè)能力
幽默是一種能力
學(xué)習(xí)方法
大興學(xué)習(xí)之風(fēng) 提升履職能力
你的換位思考能力如何
努力拓展無人機(jī)飛行能力
無人機(jī)(2017年10期)2017-07-06 03:04:36
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
抄能力
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 亚洲综合第一区| 97视频免费在线观看| 中文字幕日韩丝袜一区| 中国特黄美女一级视频| 欧美日韩在线成人| 全部无卡免费的毛片在线看| 中文字幕在线日韩91| 日韩资源站| 日韩福利视频导航| 国产精品99一区不卡| 丁香五月激情图片| 免费 国产 无码久久久| 九一九色国产| 午夜日b视频| 久草性视频| 日韩高清一区 | 久久综合国产乱子免费| 精品第一国产综合精品Aⅴ| 久久精品中文字幕免费| 亚洲无码37.| 欧美成人精品高清在线下载| 亚洲狼网站狼狼鲁亚洲下载| 国产亚洲精品自在久久不卡| 国产性精品| 91久久夜色精品| 欧美精品aⅴ在线视频| 欧美不卡视频在线| 色欲色欲久久综合网| 99久久性生片| 国模视频一区二区| 精品久久高清| 在线精品视频成人网| 亚洲中文字幕av无码区| 九色视频线上播放| 波多野结衣视频一区二区| 中文字幕永久视频| 日韩123欧美字幕| 亚洲永久精品ww47国产| 久久精品女人天堂aaa| 国产毛片基地| 国产精品自在线天天看片| 久青草免费在线视频| 蜜臀AV在线播放| 亚洲 欧美 偷自乱 图片| 永久免费无码成人网站| 亚洲综合色区在线播放2019| 国产精品19p| 97影院午夜在线观看视频| 日韩黄色在线| 在线精品亚洲一区二区古装| 乱系列中文字幕在线视频| a毛片基地免费大全| 日韩一二三区视频精品| 亚洲国产91人成在线| AV无码一区二区三区四区| 久久香蕉国产线看观看精品蕉| 国产日韩av在线播放| Jizz国产色系免费| 免费中文字幕在在线不卡| 毛片免费网址| 日日噜噜夜夜狠狠视频| 女人av社区男人的天堂| 网友自拍视频精品区| 日韩午夜片| 无码啪啪精品天堂浪潮av| 精品偷拍一区二区| 国产精品任我爽爆在线播放6080| 国产成人AV男人的天堂| 午夜视频在线观看区二区| 人妻一区二区三区无码精品一区 | 999国产精品| 国产AV无码专区亚洲精品网站| 国产91高跟丝袜| 亚洲 日韩 激情 无码 中出| 好久久免费视频高清| 看国产毛片| 日韩精品无码不卡无码| 麻豆国产精品视频| 亚洲天堂777| 亚洲午夜天堂| 亚洲欧洲美色一区二区三区| 欧美日韩一区二区三区四区在线观看|