摘要:在自然語(yǔ)言處理系統(tǒng)的應(yīng)用過(guò)程中,很多系統(tǒng)允許用戶自由掛接一部或多部領(lǐng)域詞典。掛接領(lǐng)域詞典的方法不同,在分詞中引起二次分詞歧義的比率是不同的,因此,通過(guò)實(shí)驗(yàn),比較了兩種掛接領(lǐng)域詞典方法在分詞中引起二次分詞歧義現(xiàn)象的不同。
關(guān)鍵詞:二次分詞歧義;分詞;組合歧義;交集歧義
中圖分類號(hào):G250.7 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2010)20-0158-02
在自然語(yǔ)言處理系統(tǒng)的應(yīng)用過(guò)程中,為了方便用戶的使用,很多系統(tǒng)允許用戶自由掛接一部或多部領(lǐng)域詞典。在漢語(yǔ)分詞系統(tǒng)中為了能提高對(duì)于不同領(lǐng)域詞匯的識(shí)別,提高漢語(yǔ)分詞精度,通常會(huì)引入領(lǐng)域詞典。而一般來(lái)說(shuō),這些系統(tǒng)的漢語(yǔ)分詞模塊并不專門(mén)處理這一問(wèn)題,只是在分詞結(jié)果的基礎(chǔ)上,直接應(yīng)用用戶所指定的專業(yè)詞典,采用貪心策略(最大匹配)思想簡(jiǎn)單地識(shí)別專業(yè)詞典中的詞串。這樣,在劃分存在組合型或交集型歧義的字段時(shí),不能根據(jù)前后的語(yǔ)境來(lái)正確地選擇是何種劃分,以至于產(chǎn)生錯(cuò)誤的劃分。例如:“他/具有/非凡/的/才/ 能/。” “只有/他/才/能/舉起/這/個(gè)/重物/。”,如果用戶詞典中指定了“才能”這個(gè)詞,那么第二句話的劃分就會(huì)產(chǎn)生錯(cuò)誤。
本文針對(duì)在漢語(yǔ)分詞系統(tǒng)引入領(lǐng)域詞典的實(shí)際應(yīng)用,比較了兩種不同的掛接領(lǐng)域詞典的方法產(chǎn)生二次分詞歧義現(xiàn)象的不同。
一、二次分詞歧義的分布統(tǒng)計(jì)
本文中的二次分詞歧義是指在已經(jīng)進(jìn)行了分詞處理的結(jié)果基礎(chǔ)上,由于引入其他詞典(如專業(yè)詞典)而引起的類似分詞的詞典查找過(guò)程中產(chǎn)生的形如分詞歧義的問(wèn)題。簡(jiǎn)單地說(shuō),就是在分詞結(jié)果基礎(chǔ)上再引入另外的專業(yè)詞典進(jìn)行漢語(yǔ)詞匯單元識(shí)別而產(chǎn)生二次分詞歧義問(wèn)題。以下是對(duì)二次分詞歧義中組合歧義的分布統(tǒng)計(jì)。
利用一部包含199 857個(gè)詞的專業(yè)詞典pfDic.dic(包括心理學(xué)、商務(wù)、能源、農(nóng)業(yè)、物理、環(huán)境、汽車(chē)、電信、物理等領(lǐng)域的專業(yè)詞匯),從一個(gè)規(guī)模為7 286 870個(gè)詞的漢語(yǔ)語(yǔ)料庫(kù)RCorpus(北京大學(xué)-富士通聯(lián)合開(kāi)發(fā)的人民日?qǐng)?bào)98年上半年分詞詞性標(biāo)注語(yǔ)料庫(kù))中無(wú)一遺漏地抽取出其中所有的組合歧義切分字段。最終得到不同的組合歧義切分字段3 966個(gè)。這些字段在RCorpus中累計(jì)出現(xiàn)了59 661次,覆蓋了整個(gè)RCorpus的0.818%左右。
表1-1給出了二次分詞歧義中組合歧義字段的長(zhǎng)度分布情況。
為表述方便,這里引入兩個(gè)概念:歧義字段的靜態(tài)頻率和動(dòng)態(tài)頻率。
設(shè)歧義字段(段型)的全集為I={S1,…,Si,…,Sn},其中字段Si在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)為Freq(Si)。又,C是某些歧義字段(段型)組成的集合,C={Si1,…,Sim} ,則C關(guān)于I的靜態(tài)頻率和動(dòng)態(tài)頻率分別定義為:
靜態(tài)頻率=
動(dòng)態(tài)頻率=
其中|C|和|I|分別表示集合的大小。
由表1可見(jiàn),2、3、4字長(zhǎng)的組合歧義字段的靜態(tài)頻率和動(dòng)態(tài)頻率高達(dá)93.90%和89.35%,而2、3、4、5字長(zhǎng)的組合歧義字段的靜態(tài)頻率和動(dòng)態(tài)頻率更是高達(dá)97.86%和96.38%。顯然,這四種長(zhǎng)度的組合歧義字段應(yīng)成為我們加倍注意的重點(diǎn)。
利用上述專業(yè)詞典繼續(xù)對(duì)語(yǔ)料庫(kù)進(jìn)行組合歧義基礎(chǔ)上的交集歧義查找。在查找組合型歧義的基礎(chǔ)上,在遇到連續(xù)的兩個(gè)組合型歧義字段時(shí),即產(chǎn)生了交集型歧義。最后共得到不同的交集型歧義切分字段76個(gè)。這些字段在RCorpus中累計(jì)出現(xiàn)了168次,覆蓋了整個(gè)RCorpus的0.0022%左右。
表2中給出了二次分詞歧義中交集歧義字段的長(zhǎng)度分布情況。由表1-2可見(jiàn),3至6字長(zhǎng)的交集歧義字段的靜態(tài)頻率和動(dòng)態(tài)頻率高達(dá)96.04%和96.2%,而3和6字長(zhǎng)的交集歧義字段又占其中的顯著一大部分。顯然,這四種長(zhǎng)度的組合歧義字段應(yīng)成為我們加倍注意的重點(diǎn)。
綜上所述,在二次分詞所產(chǎn)生的所有歧義中,交集歧義的類型只有76種,累計(jì)出現(xiàn)158次;組合型歧義的類型共有3966種,累計(jì)出現(xiàn)59 661次。由此可見(jiàn),組合歧義占絕對(duì)比重,也將成為我們處理中要加倍注意的重點(diǎn)。
二、二次分詞歧義的處理
(一)引入領(lǐng)域詞典的兩種方法介紹
針對(duì)分詞詞典以外的領(lǐng)域詞典,一般有兩種處理方法:
方法一是目前各種系統(tǒng)中比較流行的做法:先進(jìn)行分詞處理,然后在分詞結(jié)果中采用貪心策略,利用最大匹配技術(shù)再次識(shí)別出其他詞典中所指出的詞。
方法二是將所有詞典在分詞處理時(shí)就統(tǒng)一考慮,根據(jù)一個(gè)所有詞典構(gòu)成的一張大詞表來(lái)進(jìn)行分詞處理。但是這種方法用于基于統(tǒng)計(jì)的分詞模型中(如HMM),一般要考慮那些分詞詞表以外的單詞的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行某些處理,如參數(shù)平滑等等。
(二)引入領(lǐng)域詞典的兩種方法的二次分詞歧義率實(shí)驗(yàn)
為了對(duì)比這兩種方法的優(yōu)劣,我們采用基于本實(shí)驗(yàn)室的漢語(yǔ)自動(dòng)分詞詞性標(biāo)注系統(tǒng)作為實(shí)驗(yàn)平臺(tái),從北京大學(xué)-富士通聯(lián)合開(kāi)發(fā)的人民日?qǐng)?bào)1998年1月份分詞詞性標(biāo)注語(yǔ)料庫(kù)抽取出的原始文本共19 485句作為測(cè)試語(yǔ)料。
在此實(shí)驗(yàn)平臺(tái)下,分別以上述兩種方法引入領(lǐng)域詞典的實(shí)驗(yàn)被描述為:
實(shí)驗(yàn)一:系統(tǒng)詞典分詞+領(lǐng)域詞典最大匹配法分詞;
實(shí)驗(yàn)二:系統(tǒng)詞典+專業(yè)詞典+分詞一體化。
二次歧義比率可如下計(jì)算:
二次歧義比率=*100%
實(shí)驗(yàn)結(jié)果如表3所示。
(三)引入領(lǐng)域詞典的兩種方法的實(shí)驗(yàn)結(jié)論
從表格3中可以看出采用實(shí)驗(yàn)一引入了較多的歧義現(xiàn)象。
另外,比較實(shí)驗(yàn)一和實(shí)驗(yàn)二產(chǎn)生的分詞結(jié)果時(shí)發(fā)現(xiàn)有2 874處不同,其中1 712句由于采用實(shí)驗(yàn)二未能正確識(shí)別出專業(yè)詞典中的詞而產(chǎn)生,占59.57%;由于實(shí)驗(yàn)一識(shí)別出專業(yè)詞典中的詞引入詞性不正確的比例是2.22%。
采用實(shí)驗(yàn)一可以減少二次分詞歧義的產(chǎn)生,但同時(shí)降低了識(shí)別專業(yè)詞典詞匯的能力。
采用實(shí)驗(yàn)二二次分詞歧義的比率大,但識(shí)別專業(yè)詞典詞匯的能力較強(qiáng)。
三、結(jié)論
漢語(yǔ)分詞是各種中文信息處理的基礎(chǔ),在中文信息處理系統(tǒng)中具有廣泛的應(yīng)用前景。本文全面深入地研究了漢語(yǔ)自動(dòng)分詞中存在的歧義問(wèn)題,并在統(tǒng)計(jì)框架下,通過(guò)一系列對(duì)比實(shí)驗(yàn),對(duì)基于隱馬爾可夫模型的漢語(yǔ)自動(dòng)分詞和詞性標(biāo)注模型的一體化算法和目前較流行的貪心算法進(jìn)行了比較。具體地講,本論文的貢獻(xiàn)主要表現(xiàn)在以下方面:
本文所研究的是漢語(yǔ)分詞中的二次分詞歧義的分布情況及解決方法。在一部二十多萬(wàn)詞數(shù)的領(lǐng)域詞典的基礎(chǔ)上對(duì)人民日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)進(jìn)行二次分詞歧義的查找,使我們對(duì)二次分詞歧義在語(yǔ)料庫(kù)中的分布情況上有了一定的了解,之后再引入一體化處理方法,對(duì)從語(yǔ)料庫(kù)中所得到的二次分詞歧義語(yǔ)段分別用一體化算法和貪心算法進(jìn)行重新分詞,比較兩者在二次分詞歧義上的處理能力,從實(shí)驗(yàn)結(jié)果上可以看出一體化算法在處理二次分詞歧義上的性能明顯高于貪心算法。但并不是說(shuō)一體化算法在處理二次分詞歧義時(shí)不出錯(cuò),而且并不是極少,所以仍須繼續(xù)改進(jìn)一體化算法。
參考文獻(xiàn):
[1] 俞士汶,朱學(xué)鋒,王惠,張蕓蕓.現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解[M].北京:清華大學(xué)出版社,1998.
[2] 朱學(xué)鋒,俞士汶,王惠.現(xiàn)代漢語(yǔ)5萬(wàn)詞語(yǔ)歸類的實(shí)踐[J].語(yǔ)言文字應(yīng)用,1997,(4):88-94.
[3] 周強(qiáng),張偉,俞士汶.樹(shù)庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),1997,(4):42-51.
[4] 黃昌寧.中文信息處理中的分詞問(wèn)題[J].語(yǔ)言文字應(yīng)用,1997,(1).
[5] 宋柔.分詞:漢語(yǔ)信息處理的基礎(chǔ)工程[J].計(jì)算機(jī)世界報(bào):技術(shù)專題版,1997,(48).
[6] 劉源,等.信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范及自動(dòng)分詞方法[M].北京:清華大學(xué)出版社,1994.
[7] 劉挺,吳巖,王開(kāi)鑄.串頻統(tǒng)計(jì)和詞形匹配相結(jié)合的漢語(yǔ)自動(dòng)分詞系統(tǒng)[J].中文信息學(xué)報(bào),1998,12(1).