999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分詞提取重復(fù)串的未登錄詞遺漏量化模型

2011-06-28 02:18:24張海軍史樹(shù)敏丁溪源黃河燕
中文信息學(xué)報(bào) 2011年2期
關(guān)鍵詞:實(shí)驗(yàn)方法模型

張海軍,史樹(shù)敏,丁溪源,黃河燕

(1.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230027;2.中國(guó)科學(xué)院 計(jì)算機(jī)語(yǔ)言信息工程研究中心,北京 100097;3.北京理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100081)

1 引言

在自然語(yǔ)言處理過(guò)程中,詞是最小的語(yǔ)言單位。漢語(yǔ)在詞之間沒(méi)有特定標(biāo)記,所以在進(jìn)行中文自動(dòng)處理時(shí),首先要進(jìn)行的工作是分詞。未登錄詞識(shí)別(UWI)是中文分詞的重要階段,是影響分詞效果的技術(shù)瓶頸[1-2]。因漢語(yǔ)具有極強(qiáng)的構(gòu)詞能力,理論上任何兩個(gè)以上的漢字組合在一起都有成詞的可能性,這給中文未登錄詞識(shí)別帶來(lái)了巨大挑戰(zhàn)。

研究人員已經(jīng)開(kāi)發(fā)了很多模型和方法用于UWI,但識(shí)別效果都不是很理想。近年來(lái)基于重復(fù)串的未登錄詞識(shí)別技術(shù)受到了很多研究人員的重視,在這方面也取得一些研究成果?;谥貜?fù)串的未登錄詞識(shí)別,首先在大規(guī)模語(yǔ)料中提取頻繁出現(xiàn)的重復(fù)串構(gòu)成候選詞集合,然后根據(jù)規(guī)則或統(tǒng)計(jì)特征從候選詞集合中提取未登錄詞。重復(fù)串提取主要有兩類(lèi)策略,基于字符和基于預(yù)先分詞的重復(fù)串提取。前者以語(yǔ)料中的字符為基本單位提取重復(fù)串,而后者需要預(yù)先對(duì)語(yǔ)料分詞,然后基于切分結(jié)果進(jìn)行重復(fù)串提取。對(duì)于這兩類(lèi)重復(fù)串提取策略,哪個(gè)具有更好的未登錄詞檢測(cè)效果,目前研究都只停留在定性討論階段,尚無(wú)定量分析結(jié)論。對(duì)該問(wèn)題進(jìn)行深入研究和探討,將會(huì)有利地促進(jìn)未登錄詞識(shí)別技術(shù)發(fā)展。

本文針對(duì)兩類(lèi)基于重復(fù)串的未登錄詞識(shí)別方法,分別對(duì)相同語(yǔ)料提取重復(fù)串構(gòu)造候選詞集合,然后使用相同的統(tǒng)計(jì)模型檢測(cè)未登錄詞,并提出一種新穎的量化分析模型,通過(guò)對(duì)比實(shí)驗(yàn)和數(shù)據(jù)分析,得出可靠結(jié)論。

論文具體安排如下:第2節(jié)介紹目前常用的基于重復(fù)串的未登錄詞識(shí)別技術(shù);第3節(jié)介紹本文所采用的未登錄詞識(shí)別方法;第4節(jié)進(jìn)行對(duì)比實(shí)驗(yàn)及數(shù)據(jù)分析;第5節(jié)在分析基礎(chǔ)上提出了一種基于分詞方法的未登錄詞遺漏量化模型;論文最后一節(jié)給出模型分析結(jié)論,并提出后續(xù)的研究方向。

2 相關(guān)研究

對(duì)于未登錄詞識(shí)別,目前國(guó)內(nèi)開(kāi)展的許多工作都是基于重復(fù)串提取來(lái)進(jìn)行的。但由于不同研究所使用的實(shí)驗(yàn)語(yǔ)料種類(lèi)和規(guī)模不盡相同,所以產(chǎn)生的結(jié)果也不具可比性。下面只對(duì)一些典型的基于重復(fù)串的未登錄詞識(shí)別方法進(jìn)行介紹。

劉挺[3]使用滑動(dòng)窗口進(jìn)行基于字符的局部串頻統(tǒng)計(jì)來(lái)提取候選詞串,用經(jīng)驗(yàn)函數(shù)來(lái)計(jì)算候選串權(quán)值,權(quán)值高于閾值的作為新詞。該方法能夠有效地提高分詞系統(tǒng)的分詞效果,但因使用局部串頻統(tǒng)計(jì),會(huì)影響新詞召回率。

鄭家恒[4]等使用基于字符的n元遞增模型掃描文檔提取候選字串,然后使用通用構(gòu)詞規(guī)則、特殊構(gòu)詞規(guī)則以及互斥字串規(guī)則三類(lèi)規(guī)則對(duì)候選字串進(jìn)行過(guò)濾與召回,來(lái)獲得新詞,實(shí)驗(yàn)表明該方法可獲得較高的準(zhǔn)確率。

鄒綱[5]等基于預(yù)先分詞,統(tǒng)計(jì)按時(shí)間排序后的網(wǎng)頁(yè)中所有重復(fù)字串,頻率高于閾值的作為候選詞串;接著以某個(gè)時(shí)間點(diǎn)為界限,把候選字串劃分為前景集合與背景集合,取集合差作為新詞候選集合。最后使用過(guò)濾規(guī)則排除垃圾詞串。該方法優(yōu)點(diǎn)是可獲得某個(gè)時(shí)間點(diǎn)后出現(xiàn)的新詞,且集合差運(yùn)算后,能過(guò)濾掉部分垃圾詞串。該方法具有較高的新詞召回率,但準(zhǔn)確率較低。

崔世起[6]等在基于分詞提取重復(fù)串基礎(chǔ)上,先對(duì)詞的構(gòu)成模式進(jìn)行分類(lèi),然后采用針對(duì)性方法進(jìn)行過(guò)濾。此外,賀敏[7]和黃玉蘭[8]也基于預(yù)先分詞來(lái)提取重復(fù)串,然后再使用語(yǔ)言學(xué)規(guī)則和統(tǒng)計(jì)特征來(lái)檢測(cè)有意義串。

羅智勇[9]等使用PAT-Array算法基于字符提取重復(fù)串作為候選詞;使用SVM分類(lèi)模型剔除垃圾串,從而實(shí)現(xiàn)新詞檢測(cè)。由于使用高效的提取算法,重復(fù)串的獲取效率得到了很大提升。

從直觀上看,基于字符的重復(fù)串提取方法應(yīng)該具有更好的未登錄詞檢測(cè)效果。但許多研究者認(rèn)為,基于預(yù)先分詞提取重復(fù)串的未登錄詞識(shí)別方法,重復(fù)串提取速度快,垃圾字串少,隨著語(yǔ)料規(guī)模增長(zhǎng),未登錄詞識(shí)別效果應(yīng)該與基于字符方法相差不大。但目前尚無(wú)研究對(duì)這兩類(lèi)方法進(jìn)行系統(tǒng)地比較和分析,本文針對(duì)相同語(yǔ)料,分別使用基于字符和基于分詞的重復(fù)串提取策略,進(jìn)行未登錄詞檢測(cè)比較實(shí)驗(yàn),在此基礎(chǔ)上提出了候選詞遺漏量化模型用于量化討論,為后續(xù)研究提供理論支持。

3 重復(fù)串提取及未登錄詞檢測(cè)方法

3.1 重復(fù)串提取方法

重復(fù)串提取是未登錄詞識(shí)別的最基本步驟。對(duì)基于字符的重復(fù)串提取,使用逐層剪枝的n-gram模型,根據(jù)預(yù)設(shè)的頻率閾值,使用低頻字符過(guò)濾以及短串過(guò)濾長(zhǎng)串的逐層剪枝算法,用以減少低頻垃圾字串的產(chǎn)生,提高內(nèi)存利用效率;對(duì)基于預(yù)先分詞的重復(fù)串提取,雖然分詞后組合粒度變得沒(méi)有規(guī)律,但仍可將切分單元作為n-gram模型的遞增單位,實(shí)現(xiàn)候選詞集合的構(gòu)造。

3.2 未登錄詞檢測(cè)方法

在已取得了候選詞集合的前提下,未登錄詞檢測(cè)就轉(zhuǎn)化為判定候選字串是否是詞的問(wèn)題,這是一個(gè)二元分類(lèi)任務(wù),可使用統(tǒng)計(jì)標(biāo)注模型將之轉(zhuǎn)化為標(biāo)注問(wèn)題。目前,決策樹(shù)(DT)、支持向量機(jī)(SVM)以及最大熵模型(ME)都已經(jīng)在研究中被用于候選字串的類(lèi)別標(biāo)注,本文提出使用條件隨機(jī)域模型(CRF)作為標(biāo)注框架。

CRF是一種無(wú)向圖模型,對(duì)于指定的節(jié)點(diǎn)輸入值,它能夠計(jì)算指定的節(jié)點(diǎn)輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。線性鏈?zhǔn)荂RF中常見(jiàn)的特定圖結(jié)構(gòu)之一,它由指定的輸出節(jié)點(diǎn)順序鏈接而成。一個(gè)線性鏈與一個(gè)有限狀態(tài)機(jī)相對(duì)應(yīng),可用于解決序列數(shù)據(jù)的標(biāo)注問(wèn)題[10]。

同其他模型相比,CRF模型最重要的特點(diǎn)是,對(duì)特征沒(méi)有獨(dú)立性要求。因此,使用者無(wú)需考慮特征之間的關(guān)系,可將多個(gè)特征放到統(tǒng)一的框架中使用,以獲得更好的標(biāo)注效果。在本文模型中,使用CRF模型可以不用考慮各項(xiàng)特征之間的關(guān)聯(lián),直接用于未登錄詞標(biāo)注和識(shí)別。

3.3 特征選擇

為了充分發(fā)揮CRF模型的優(yōu)勢(shì),考慮綜合運(yùn)用候選字串的語(yǔ)言知識(shí)特征和統(tǒng)計(jì)特征來(lái)提高未登錄詞識(shí)別效果。語(yǔ)言知識(shí)特征包括:重復(fù)串的串長(zhǎng)、前綴、后綴、雙字后綴,統(tǒng)計(jì)特征選用經(jīng)試驗(yàn)證明識(shí)別效果顯著的特征[11]:共現(xiàn)頻率、互信息、Dice系數(shù)。

設(shè)語(yǔ)料規(guī)模為N,fx表示字符x的頻率,fy表示字符y的頻率,fxy為重復(fù)串xy的共現(xiàn)頻率,其出現(xiàn)概率為Pxy?;バ畔ⅰice系數(shù)的定義如下:

(1)

(2)

4 對(duì)比實(shí)驗(yàn)及數(shù)據(jù)分析

4.1 實(shí)驗(yàn)條件

實(shí)驗(yàn)所用的CRF工具包為CRF++0.52[12],為了進(jìn)行充分對(duì)比,分詞工具選用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的ICTCLAS和東北大學(xué)的Neucsp,訓(xùn)練語(yǔ)料使用北京大學(xué)1998年1月的《人民日?qǐng)?bào)》語(yǔ)料,測(cè)試語(yǔ)料使用蘭開(kāi)斯特大學(xué)平衡語(yǔ)料庫(kù)(Lcmc)。

為實(shí)現(xiàn)未登錄詞檢測(cè),需要確保訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料沒(méi)有交集。為此分別將上述兩個(gè)標(biāo)注語(yǔ)料中的詞抽取出來(lái)作為詞典,并使用訓(xùn)練語(yǔ)料詞典過(guò)濾測(cè)試語(yǔ)料的重復(fù)串集合,這樣做的目的是保證留在測(cè)試集合中的候選詞條沒(méi)有在訓(xùn)練語(yǔ)料中出現(xiàn)過(guò)。

在語(yǔ)料構(gòu)造時(shí),先將標(biāo)注語(yǔ)料轉(zhuǎn)換為不帶分詞標(biāo)記的普通文本,應(yīng)用基于字符的重復(fù)串提取工具提取基于未分詞的候選詞集合;然后使用分詞工具對(duì)普通文本進(jìn)行分詞,以此為基礎(chǔ)提取基于分詞的候選詞集合。根據(jù)3.3節(jié)中的特征集合,對(duì)候選詞集合中的條目提取特征,用于CRF模型的訓(xùn)練和解碼。最后依據(jù)語(yǔ)料自身提供的詞典,即可實(shí)現(xiàn)對(duì)未登錄詞檢測(cè)結(jié)果的評(píng)測(cè)。

實(shí)驗(yàn)所用的評(píng)價(jià)標(biāo)準(zhǔn)是未登錄詞檢測(cè)準(zhǔn)確率、召回率和F值,具體定義如下:

根據(jù)上述說(shuō)明,應(yīng)用基于字符、ICTCLAS分詞和Neucsp分詞方法,分別對(duì)語(yǔ)料提取重復(fù)串并構(gòu)造候選詞集合,進(jìn)行CRF標(biāo)注,實(shí)驗(yàn)結(jié)果見(jiàn)表1。

表1 三種方法對(duì)比實(shí)驗(yàn)結(jié)果

4.2 實(shí)驗(yàn)數(shù)據(jù)分析

從候選字串的數(shù)量來(lái)看,基于字符(未分詞)的重復(fù)串提取方法具有最大數(shù)量109 343,比基于ICT分詞和Neu分詞的分別多出53 404條和56 894條;對(duì)于未登錄詞識(shí)別準(zhǔn)確率,基于分詞方法的較高,分別比基于字符方法高出10.9%和11.6%;從召回率來(lái)看,基于字符方法最高,比基于分詞方法分別高出8.6%和10.2%。從F值來(lái)看,基于分詞方法較基于字符方法取得了更好的效果,主要原因是分詞工具已經(jīng)對(duì)未登錄詞識(shí)別做了大量前期工作,使準(zhǔn)確率和召回率更加協(xié)調(diào),從而導(dǎo)致較高的F值。

根據(jù)實(shí)驗(yàn)結(jié)果,可見(jiàn)采用基于字符的重復(fù)串提取方法進(jìn)行未登錄詞檢測(cè),可以檢測(cè)到更多的未登錄詞,具有較高的詞語(yǔ)召回性能,但準(zhǔn)確率較低;而基于分詞的方法,則恰好相反,準(zhǔn)確率高而召回率低。什么原因造成這種現(xiàn)象?從召回率來(lái)講,基于字符提取語(yǔ)料中的重復(fù)串,得到滿足頻率閾值的字串全體;而基于預(yù)先分詞提取重復(fù)串,提取結(jié)果要受限于分詞效果,當(dāng)分詞完全正確時(shí),會(huì)得到包含全部未登錄詞的重復(fù)串集合,但當(dāng)分詞存在誤差時(shí),取得的候選詞集合可能只是全體的一部分,造成詞語(yǔ)遺漏。目前中文分詞尚未做到100%準(zhǔn)確,據(jù)之所抽取的候選詞集合不可能覆蓋全部未登錄詞;從準(zhǔn)確率來(lái)講,畢竟分詞工具的準(zhǔn)確率都在90%以上,基于分詞的候選詞集合中有很大部分已經(jīng)是詞了,所以準(zhǔn)確率要明顯的高于基于字符的候選詞集合提取方法。

一些研究人員認(rèn)為隨著語(yǔ)料規(guī)模增長(zhǎng),基于字符和基于分詞方法的未登錄詞檢測(cè)效果的差異會(huì)逐漸縮小。為了檢驗(yàn)上述結(jié)論,進(jìn)行了基于遞增語(yǔ)料的未登錄詞檢測(cè)實(shí)驗(yàn),結(jié)果詳見(jiàn)表2所示。

表2 語(yǔ)料遞增未登錄詞識(shí)別對(duì)比實(shí)驗(yàn)

注:表中后三列數(shù)據(jù)表示不同策略正確識(shí)別的未登錄詞數(shù)量。

圖1 基于規(guī)模遞增語(yǔ)料的未登錄詞識(shí)別數(shù)量對(duì)比圖

表2的實(shí)驗(yàn)結(jié)果顯示,隨著語(yǔ)料規(guī)模增長(zhǎng),語(yǔ)料中未登錄詞數(shù)量在增長(zhǎng),三種方法所識(shí)別的未登錄詞數(shù)量都在增加;并且有一個(gè)明顯的趨勢(shì),基于字符方法比基于分詞方法所識(shí)別的未登錄詞要多,而且隨著語(yǔ)料規(guī)模增長(zhǎng),前者與后者識(shí)別數(shù)量差距在加大。圖1非常清晰地展現(xiàn)了這個(gè)結(jié)論。

5 基于分詞方法的未登錄詞遺漏量化模型

造成基于分詞重復(fù)串提取方法召回率相對(duì)較低的主要原因是中文分詞中存在錯(cuò)誤,而錯(cuò)誤出現(xiàn)恰恰是由于未登錄詞的大量存在。無(wú)論是基于規(guī)則還是基于統(tǒng)計(jì),中文分詞方法都需使用詞典,而詞典不可能覆蓋所有詞語(yǔ),所以對(duì)句子切分時(shí)不會(huì)超越詞典的局限。雖然分詞工具一般會(huì)根據(jù)上下文情況做出具體調(diào)整,但這些調(diào)整也僅限于分詞工具的已有知識(shí)和規(guī)則,不可能像人一樣根據(jù)復(fù)雜情況做出恰當(dāng)靈活處理。根據(jù)以上分析可知,無(wú)論語(yǔ)料大小相同句子的分詞結(jié)果是相同的,不同上下文相同字串的切分也是相對(duì)固定的;隨著語(yǔ)料規(guī)模的增長(zhǎng),分詞效果不可能會(huì)有所改觀,語(yǔ)料規(guī)模越大切分不當(dāng)?shù)那闆r會(huì)越多。

基于字符和基于分詞方法的未登錄詞檢測(cè)差異是否會(huì)隨著語(yǔ)料規(guī)模增長(zhǎng)而無(wú)限增大呢?基于分詞方法中未登錄詞遺漏問(wèn)題源于對(duì)未登錄詞的錯(cuò)誤切分,隨著語(yǔ)料增大,漢字組合將變得更為復(fù)雜,分詞后無(wú)法切分的散串會(huì)將遺漏的未登錄詞召回,可在一定程度上彌補(bǔ)錯(cuò)誤切分所造成的損失。錯(cuò)誤切分來(lái)源于分詞歧義,而交集歧義在分詞歧義中占有最大比重[13],也是分詞工具難以逾越的障礙,是造成未登錄詞遺漏的根源。

根據(jù)以上分析,使用Iverson約定*[.]表示函數(shù),p為真時(shí)[p]=1,p為假時(shí)[p]=0。,提出了如下基于分詞的未登錄詞遺漏量化模型:

上式中,ηo表示未登錄詞遺漏數(shù)量;Σ表示語(yǔ)料的全體字符集合;Γ表示各種可能切分結(jié)果集合;Ω表示分詞結(jié)果集合Γ中條目去掉尾字符所構(gòu)成的前綴集合;Ω′表示分詞結(jié)果集合Γ中條目的尾字符集合;Λ表示分詞結(jié)果集合Γ中條目去掉首字符所構(gòu)成的后綴集合;Λ′表示分詞結(jié)果集合Γ中條目的首字符集合;U表示未登錄詞集合;Ψ表示整個(gè)文本語(yǔ)料集合。xA,Ab,xAb,aB,By,aBy,Ac,xAc,dB,dBy表示重復(fù)串。函數(shù)f(?)表示字串的出現(xiàn)頻率,λ表示重復(fù)串頻率閾值。注意集合Ω和Λ中條目的串長(zhǎng)并不固定,而是包含了各種長(zhǎng)度的前綴和后綴。

公式(6)用于統(tǒng)計(jì)由錯(cuò)誤切分造成的候選詞損失數(shù)量,錯(cuò)誤切分的具體形式包括:形如xAb的串,本應(yīng)該切分成xA/b但卻錯(cuò)誤的切成x/Ab;形如aBy的串,本應(yīng)該切成a/By但卻切分成aB/y。而形如xAc及dBy的串,因?yàn)锳c及dB沒(méi)有被切分在一起,所以可召回xA及By,彌補(bǔ)錯(cuò)誤切分造成的損失。

例如:對(duì)于字串“非典型”與“是非典”,字符集{″非″,″典″,″型″,″是″}?Σ,{″典型″,″是非″}?Γ,{″典″,″是″}?Ω,{″型″,″非″}?Ω′,由于在分詞結(jié)果集合Γ中的元素都是二字詞,因此存在Λ′=Ω及Λ=Ω′,{″非典″}?U表示未登錄詞集合。由于在分詞結(jié)果中,“非典型”與“是非典”分別被切分成“非/典型”與“是非/典”,造成“非典”這個(gè)字串被遺漏。實(shí)際上,只有當(dāng)字串如“非典醫(yī)”或“防非典”的出現(xiàn)頻率高于重復(fù)串頻率閾值λ時(shí),才可將“非典”召回。因?yàn)檫@時(shí)“非典醫(yī)”與“防非典”中沒(méi)有子串出現(xiàn)在分詞的切分結(jié)果Γ中,因此它們被完全切分成單字散串“非/典/醫(yī)”與“防/非/典”,通過(guò)在重復(fù)串提取時(shí)字符組合可以將“非典”召回。

5.1 量化模型分析

因f(X)=|Ψ|×P(X),|Ψ|表示語(yǔ)料規(guī)模,P(X)表示字串X出現(xiàn)概率,對(duì)公式(6)做進(jìn)一步推導(dǎo),有:

根據(jù)語(yǔ)料規(guī)模|Ψ|進(jìn)行討論。當(dāng) |Ψ|<Θ(Θ表示語(yǔ)料規(guī)模閾值)時(shí),由于Ab∈Γ,Ac?Γ,加之分詞工具的廣泛覆蓋度和漢語(yǔ)相對(duì)固定的搭配習(xí)慣,Ab的共現(xiàn)概率要遠(yuǎn)遠(yuǎn)的大于Ac的共現(xiàn)概率,即P(Ab)?P(Ac),同理P(aB)?P(dB)存在?;谏鲜鰲l件,它們與其他字符x和y的搭配情況有兩種:一種是P(xAb)≤P(xAc)或P(aBy)≤P(dBy);另一種是P(xAb)>P(xAc)或P(aBy)>P(dBy)。由于前者不會(huì)造成未登錄詞遺漏,所以無(wú)需在公式中予以體現(xiàn),在具體分析時(shí)可以忽略;而后者會(huì)對(duì)未登錄詞遺漏造成影響,因此在具體分析時(shí)需要圍繞這種情況予以展開(kāi)。當(dāng)語(yǔ)料規(guī)模較小時(shí),雖然形如xAb和aBy的字串隨語(yǔ)料規(guī)模的增長(zhǎng)而大量增加,但形如xAc和dBy的字串出現(xiàn)不多甚至是不出現(xiàn)。導(dǎo)致公式(7)中遺漏的數(shù)量隨語(yǔ)料規(guī)模的增長(zhǎng)而增加,其結(jié)果是基于字符與基于分詞方法的召回?cái)?shù)量差異隨語(yǔ)料規(guī)模增長(zhǎng)逐漸加大,這一分析結(jié)論與圖1數(shù)據(jù)之間構(gòu)成了良好的相互驗(yàn)證關(guān)系。當(dāng)語(yǔ)料規(guī)模增至閾值Θ時(shí),基于字符與基于分詞方法的差異會(huì)達(dá)到最大值。

當(dāng) |Ψ|≥Θ時(shí),雖然P(Ab)?P(Ac)和P(aB)?P(dB),P(xAb)?P(xAc)和P(aBy)?P(dBy)依然得以保持,但隨著語(yǔ)料規(guī)模的增長(zhǎng),漢語(yǔ)字符間的各種搭配方式會(huì)相繼發(fā)生,導(dǎo)致形如xAc和dBy的字串越來(lái)越多的出現(xiàn),當(dāng)它們的出現(xiàn)頻率大于或等于λ時(shí),會(huì)彌補(bǔ)錯(cuò)誤切分所造成的未登錄詞遺漏。根據(jù)上述分析,可做出如下推論:當(dāng)語(yǔ)料規(guī)模大于閾值Θ以后,基于字符與基于分詞方法在未登錄詞召回?cái)?shù)量上的差異會(huì)逐漸縮小,當(dāng)語(yǔ)料規(guī)模達(dá)到另一更大閾值后,二者的差異將縮小為0,但這是一種極限狀況,需要極大規(guī)模的語(yǔ)料,一般難以實(shí)現(xiàn)。

5.2 大規(guī)模語(yǔ)料實(shí)驗(yàn)驗(yàn)證

通過(guò)前面的大量分析可知,因使用相同的未登錄詞檢測(cè)方法,造成兩類(lèi)策略召回差異的原因是它們所產(chǎn)生的候選詞集合不同。從候選詞集合來(lái)講,基于分詞策略所取得的只是基于字符策略的子集,前面的小規(guī)模實(shí)驗(yàn)中已經(jīng)證實(shí)了這一點(diǎn)。所以可將不同策略所獲得的候選詞集合作為模型驗(yàn)證的標(biāo)準(zhǔn),雖然其中存在非詞字符串的影響,但從總體上可對(duì)量化模型進(jìn)行檢驗(yàn)。

根據(jù)5.1節(jié)中的分析可知,基于分詞方法串長(zhǎng)越短造成未登錄詞遺漏的機(jī)會(huì)就越大。例如:“非典”的召回,只有在其前后都無(wú)法有效切分而被分割成單字串“非典”的時(shí)候才會(huì)被補(bǔ)召,而“社會(huì)主義”在切分成如下形式都可以補(bǔ)召回來(lái):“社會(huì)主義”、“社會(huì)主義”、“社會(huì)主義”、“社會(huì)主義”、“社會(huì)主義”、“社會(huì)主義”和“社會(huì)主義”。在前述的小規(guī)模實(shí)驗(yàn)中,基于分詞方法2字詞的遺漏數(shù)量占總數(shù)的90%以上(其中基于ICT分詞方法中2字詞遺漏占總數(shù)的96%,基于Neu分詞方法占92%),這個(gè)數(shù)據(jù)也充分證明了短串造成更大遺漏的論斷。為此本文以2字串作為考察對(duì)象進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)中使用遞增的大規(guī)模語(yǔ)料,對(duì)兩類(lèi)策略提取的候選詞集合進(jìn)行縱向比較,以期發(fā)現(xiàn)其中的規(guī)律。實(shí)驗(yàn)所用語(yǔ)料來(lái)自于搜狗實(shí)驗(yàn)室提供的大規(guī)模網(wǎng)絡(luò)語(yǔ)料,通過(guò)對(duì)大約720G網(wǎng)頁(yè)語(yǔ)料預(yù)處理得到32G純文本語(yǔ)料,實(shí)驗(yàn)中所用的重復(fù)串頻率閾值為6。實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表3所示。

表3 兩類(lèi)策略2字候選詞數(shù)量比較表

基于字符提取的重復(fù)串集合不存在候選詞遺漏,可作為候選詞全集,基于分詞方法所取得的候選詞集合只是這個(gè)全集的一個(gè)子集。從上表中可見(jiàn),隨著語(yǔ)料規(guī)模的增長(zhǎng),基于分詞方法比基于字符方法所取得的候選詞數(shù)量少得多,且隨著語(yǔ)料規(guī)模增長(zhǎng),兩類(lèi)方法的絕對(duì)差值在增大,這同前述模型分析結(jié)論是一致的。為更加清楚地觀察兩類(lèi)方法候選詞數(shù)量的變化趨勢(shì),將基于字符方法所得到的候選詞集合作為全集,研究基于分詞方法所取得的候選詞集合占全集的比例,參見(jiàn)圖2。

圖2 基于分詞方法2字候選詞集合占全集百分比圖

從上圖中可見(jiàn),隨著語(yǔ)料規(guī)模增長(zhǎng),基于分詞方法所提取的候選詞集合在全集中所占的比例在穩(wěn)步增加,這意味著隨著語(yǔ)料規(guī)模增長(zhǎng)基于分詞方法未登錄詞遺漏比例在逐漸降低,可以預(yù)見(jiàn),當(dāng)語(yǔ)料規(guī)模增長(zhǎng)到足夠大的閾值時(shí),基于分詞方法的未登錄詞遺漏量將減小至0。因詞語(yǔ)分布不盡相同,不同語(yǔ)料所需的閾值也不完全一致,但這個(gè)規(guī)模閾值是確定存在的,以上數(shù)據(jù)也進(jìn)一步實(shí)現(xiàn)了對(duì)量化模型在更大規(guī)模語(yǔ)料上的實(shí)驗(yàn)驗(yàn)證。

6 結(jié)論和進(jìn)一步工作

本文對(duì)基于重復(fù)串的未登錄詞識(shí)別方法進(jìn)行了探討,通過(guò)實(shí)驗(yàn)對(duì)重復(fù)串提取的兩種策略——基于字符和基于分詞方法的未登錄詞檢測(cè)效果進(jìn)行了比較。在此基礎(chǔ)上,提出了基于分詞重復(fù)串查找方法的未登錄詞遺漏量化模型,實(shí)驗(yàn)結(jié)果和模型結(jié)論之間具有很好的交互驗(yàn)證關(guān)系,從而證明了模型的有效性。根據(jù)對(duì)量化模型分析,當(dāng)文本語(yǔ)料規(guī)模不是特別大時(shí),基于字符比基于分詞方法具有更高的未登錄詞召回率,但后者比前者擁有更高的準(zhǔn)確率。依據(jù)模型推斷,隨著語(yǔ)料規(guī)模的增長(zhǎng),兩類(lèi)方法在未登錄詞召回?cái)?shù)量上的差距會(huì)逐漸加大,當(dāng)語(yǔ)料規(guī)模增至某一閾值時(shí)這個(gè)差距達(dá)到最大;之后二者的差距會(huì)隨語(yǔ)料規(guī)模的繼續(xù)增大而縮小,最終為0,但這需要極其巨大的語(yǔ)料容量,實(shí)際應(yīng)用中難以達(dá)到。因此,由于語(yǔ)料規(guī)模不可能無(wú)限大,使用基于字符方法會(huì)獲得更高的查全率;但如需更好的總體識(shí)別效果(F值),基于分詞的方法也值得考慮。

本文將工作重點(diǎn)放在了對(duì)兩種策略的比較研究和量化模型分析方面,對(duì)未登錄詞識(shí)別特征的研究還很不深入,未登錄詞識(shí)別效果還有很大的改進(jìn)空間。研究有效特征以提高未登錄詞識(shí)別效果,并進(jìn)一步提高識(shí)別效率,是本研究需要努力的方向。

致謝

研究中使用了北京大學(xué)、蘭開(kāi)斯特大學(xué)、中國(guó)科學(xué)院計(jì)算技術(shù)研究所、東北大學(xué)、搜狗實(shí)驗(yàn)室和日本的Taku Kudo教授所提供的開(kāi)放資源,在此表示感謝。

[1] 黃昌寧, 趙海. 中文分詞十年回顧[J]. 中文信息學(xué)報(bào),2007, 21(3): 8-19.

[2] Qiu L, Hu C, Zhao K. A Method for Automatic POS Guessing of Chinese Unknown Words[C]//Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008); 2008, 18-22 August; Manchester; 2008: 705-712.

[3] 劉挺, 吳巖, 王開(kāi)鑄. 串頻統(tǒng)計(jì)和詞形匹配相結(jié)合的漢語(yǔ)自動(dòng)分詞系統(tǒng)[J]. 中文信息學(xué)報(bào), 1998, 12(1): 17-25.

[4] 鄭家恒, 李文花. 基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動(dòng)識(shí)別初探[J]. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版), 2002, 25 (2): 115-119.

[5] 鄒綱, 劉洋, 劉群,等. 面向Internet的中文新詞語(yǔ)檢測(cè)[J]. 中文信息學(xué)報(bào), 2004, 18(6): 1-9.

[6] 崔世起, 劉群, 孟遙,等. 基于大規(guī)模語(yǔ)料庫(kù)的新詞檢測(cè)[J]. 計(jì)算機(jī)研究與發(fā)展,2006, 43(5): 927-932.

[7] 賀敏. 面向互聯(lián)網(wǎng)的中文有意義串挖掘[D]. 北京: 中國(guó)科學(xué)院研究生院; 2007.

[8] 黃玉蘭. 有意義串挖掘及其應(yīng)用[D]. 北京: 中國(guó)科學(xué)院研究生院; 2009.

[9] 羅智勇, 宋柔. 基于多特征的自適應(yīng)新詞識(shí)別[J]. 北京工業(yè)大學(xué)學(xué)報(bào),2007, 33(7): 718-725.

[10] Peng F, Feng F, McCallum A. Chinese Segmentation and New Word Detection using Conditional Random Fields[C]//Proceedings of The 20th International Conference on Computational Linguistics; 2004 August 23-27; University of Geneva, Switzerland; 2004: 562-568.

[11] Luo S, Sun M. Two-character Chinese word extraction based on hybrid of internal and contextual measures[C]//Proceedings of the second SIGHAN workshop on Chinese language; 2003; Sapporo, Japan; 2003.

[12] CRF++: Yet Another CRF toolkit[J/OL]. (Accessed 2009-5-1, at http://chasen.org/~taku/software/CRF++)

[13] 孫茂松, 鄒嘉彥. 漢語(yǔ)自動(dòng)分詞研究評(píng)述[J]. 當(dāng)代語(yǔ)言學(xué), 2001, 3(1): 22-32.

猜你喜歡
實(shí)驗(yàn)方法模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲丝袜中文字幕| 在线国产综合一区二区三区| 国产69囗曝护士吞精在线视频 | 美女无遮挡免费视频网站| 国产一级在线播放| 国产成人精品高清在线| 天天躁狠狠躁| 久久这里只有精品2| 亚洲欧美一级一级a| 国产爽歪歪免费视频在线观看 | 欧美日本二区| 在线观看亚洲精品福利片| 国产精品视频第一专区| 国产一区二区三区视频| 91精品伊人久久大香线蕉| 亚洲欧洲日产国码无码av喷潮| 亚洲第一极品精品无码| 免费99精品国产自在现线| 欧美一区精品| 亚洲综合日韩精品| 欧美在线导航| 午夜影院a级片| 欧美第二区| 麻豆精品国产自产在线| 亚洲无码久久久久| 免费在线看黄网址| 亚洲天堂777| 久久综合结合久久狠狠狠97色 | 欧美午夜一区| 亚洲国语自产一区第二页| 蝴蝶伊人久久中文娱乐网| 丁香六月激情综合| 久久精品国产免费观看频道| 欧美日韩国产精品综合| 中文字幕66页| 色综合五月婷婷| 欲色天天综合网| 日韩毛片免费观看| 青草精品视频| A级毛片高清免费视频就| 亚洲电影天堂在线国语对白| 日本伊人色综合网| 91欧洲国产日韩在线人成| 亚洲,国产,日韩,综合一区 | 日韩不卡高清视频| 日韩a级毛片| 亚洲欧美人成电影在线观看| 国产一区二区精品福利| 精品成人一区二区| 一区二区影院| 亚洲国产成熟视频在线多多| 青青青视频蜜桃一区二区| 精品视频在线一区| 97久久免费视频| 国产免费a级片| 免费毛片a| 日韩中文欧美| 国产JIZzJIzz视频全部免费| 无码精品国产dvd在线观看9久| 好吊色妇女免费视频免费| 2048国产精品原创综合在线| 欧美v在线| 亚洲啪啪网| 亚洲最猛黑人xxxx黑人猛交| 成·人免费午夜无码视频在线观看| 香蕉久久国产超碰青草| 人妻熟妇日韩AV在线播放| 亚洲精品爱草草视频在线| 成人亚洲视频| 亚洲色婷婷一区二区| 亚洲天堂精品在线| 亚洲最黄视频| 国产精品一区二区在线播放| 久久香蕉国产线看观看式| 精品欧美一区二区三区久久久| 成人在线不卡| 久久免费精品琪琪| 激情综合激情| 日韩专区欧美| 日本高清在线看免费观看| 午夜福利网址| 视频二区亚洲精品|