999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

二次分詞歧義的解決方法

2010-12-31 00:00:00楊子臣
經(jīng)濟(jì)研究導(dǎo)刊 2010年20期

摘要:在自然語(yǔ)言處理系統(tǒng)的應(yīng)用過(guò)程中,很多系統(tǒng)允許用戶自由掛接一部或多部領(lǐng)域詞典。掛接領(lǐng)域詞典的方法不同,在分詞中引起二次分詞歧義的比率是不同的,因此,通過(guò)實(shí)驗(yàn),比較了兩種掛接領(lǐng)域詞典方法在分詞中引起二次分詞歧義現(xiàn)象的不同。

關(guān)鍵詞:二次分詞歧義;分詞;組合歧義;交集歧義

中圖分類號(hào):G250.7 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2010)20-0158-02

在自然語(yǔ)言處理系統(tǒng)的應(yīng)用過(guò)程中,為了方便用戶的使用,很多系統(tǒng)允許用戶自由掛接一部或多部領(lǐng)域詞典。在漢語(yǔ)分詞系統(tǒng)中為了能提高對(duì)于不同領(lǐng)域詞匯的識(shí)別,提高漢語(yǔ)分詞精度,通常會(huì)引入領(lǐng)域詞典。而一般來(lái)說(shuō),這些系統(tǒng)的漢語(yǔ)分詞模塊并不專門(mén)處理這一問(wèn)題,只是在分詞結(jié)果的基礎(chǔ)上,直接應(yīng)用用戶所指定的專業(yè)詞典,采用貪心策略(最大匹配)思想簡(jiǎn)單地識(shí)別專業(yè)詞典中的詞串。這樣,在劃分存在組合型或交集型歧義的字段時(shí),不能根據(jù)前后的語(yǔ)境來(lái)正確地選擇是何種劃分,以至于產(chǎn)生錯(cuò)誤的劃分。例如:“他/具有/非凡/的/才/ 能/。” “只有/他/才/能/舉起/這/個(gè)/重物/。”,如果用戶詞典中指定了“才能”這個(gè)詞,那么第二句話的劃分就會(huì)產(chǎn)生錯(cuò)誤。

本文針對(duì)在漢語(yǔ)分詞系統(tǒng)引入領(lǐng)域詞典的實(shí)際應(yīng)用,比較了兩種不同的掛接領(lǐng)域詞典的方法產(chǎn)生二次分詞歧義現(xiàn)象的不同。

一、二次分詞歧義的分布統(tǒng)計(jì)

本文中的二次分詞歧義是指在已經(jīng)進(jìn)行了分詞處理的結(jié)果基礎(chǔ)上,由于引入其他詞典(如專業(yè)詞典)而引起的類似分詞的詞典查找過(guò)程中產(chǎn)生的形如分詞歧義的問(wèn)題。簡(jiǎn)單地說(shuō),就是在分詞結(jié)果基礎(chǔ)上再引入另外的專業(yè)詞典進(jìn)行漢語(yǔ)詞匯單元識(shí)別而產(chǎn)生二次分詞歧義問(wèn)題。以下是對(duì)二次分詞歧義中組合歧義的分布統(tǒng)計(jì)。

利用一部包含199 857個(gè)詞的專業(yè)詞典pfDic.dic(包括心理學(xué)、商務(wù)、能源、農(nóng)業(yè)、物理、環(huán)境、汽車(chē)、電信、物理等領(lǐng)域的專業(yè)詞匯),從一個(gè)規(guī)模為7 286 870個(gè)詞的漢語(yǔ)語(yǔ)料庫(kù)RCorpus(北京大學(xué)-富士通聯(lián)合開(kāi)發(fā)的人民日?qǐng)?bào)98年上半年分詞詞性標(biāo)注語(yǔ)料庫(kù))中無(wú)一遺漏地抽取出其中所有的組合歧義切分字段。最終得到不同的組合歧義切分字段3 966個(gè)。這些字段在RCorpus中累計(jì)出現(xiàn)了59 661次,覆蓋了整個(gè)RCorpus的0.818%左右。

表1-1給出了二次分詞歧義中組合歧義字段的長(zhǎng)度分布情況。

為表述方便,這里引入兩個(gè)概念:歧義字段的靜態(tài)頻率和動(dòng)態(tài)頻率。

設(shè)歧義字段(段型)的全集為I={S1,…,Si,…,Sn},其中字段Si在語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)為Freq(Si)。又,C是某些歧義字段(段型)組成的集合,C={Si1,…,Sim} ,則C關(guān)于I的靜態(tài)頻率和動(dòng)態(tài)頻率分別定義為:

靜態(tài)頻率=

動(dòng)態(tài)頻率=

其中|C|和|I|分別表示集合的大小。

由表1可見(jiàn),2、3、4字長(zhǎng)的組合歧義字段的靜態(tài)頻率和動(dòng)態(tài)頻率高達(dá)93.90%和89.35%,而2、3、4、5字長(zhǎng)的組合歧義字段的靜態(tài)頻率和動(dòng)態(tài)頻率更是高達(dá)97.86%和96.38%。顯然,這四種長(zhǎng)度的組合歧義字段應(yīng)成為我們加倍注意的重點(diǎn)。

利用上述專業(yè)詞典繼續(xù)對(duì)語(yǔ)料庫(kù)進(jìn)行組合歧義基礎(chǔ)上的交集歧義查找。在查找組合型歧義的基礎(chǔ)上,在遇到連續(xù)的兩個(gè)組合型歧義字段時(shí),即產(chǎn)生了交集型歧義。最后共得到不同的交集型歧義切分字段76個(gè)。這些字段在RCorpus中累計(jì)出現(xiàn)了168次,覆蓋了整個(gè)RCorpus的0.0022%左右。

表2中給出了二次分詞歧義中交集歧義字段的長(zhǎng)度分布情況。由表1-2可見(jiàn),3至6字長(zhǎng)的交集歧義字段的靜態(tài)頻率和動(dòng)態(tài)頻率高達(dá)96.04%和96.2%,而3和6字長(zhǎng)的交集歧義字段又占其中的顯著一大部分。顯然,這四種長(zhǎng)度的組合歧義字段應(yīng)成為我們加倍注意的重點(diǎn)。

綜上所述,在二次分詞所產(chǎn)生的所有歧義中,交集歧義的類型只有76種,累計(jì)出現(xiàn)158次;組合型歧義的類型共有3966種,累計(jì)出現(xiàn)59 661次。由此可見(jiàn),組合歧義占絕對(duì)比重,也將成為我們處理中要加倍注意的重點(diǎn)。

二、二次分詞歧義的處理

(一)引入領(lǐng)域詞典的兩種方法介紹

針對(duì)分詞詞典以外的領(lǐng)域詞典,一般有兩種處理方法:

方法一是目前各種系統(tǒng)中比較流行的做法:先進(jìn)行分詞處理,然后在分詞結(jié)果中采用貪心策略,利用最大匹配技術(shù)再次識(shí)別出其他詞典中所指出的詞。

方法二是將所有詞典在分詞處理時(shí)就統(tǒng)一考慮,根據(jù)一個(gè)所有詞典構(gòu)成的一張大詞表來(lái)進(jìn)行分詞處理。但是這種方法用于基于統(tǒng)計(jì)的分詞模型中(如HMM),一般要考慮那些分詞詞表以外的單詞的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行某些處理,如參數(shù)平滑等等。

(二)引入領(lǐng)域詞典的兩種方法的二次分詞歧義率實(shí)驗(yàn)

為了對(duì)比這兩種方法的優(yōu)劣,我們采用基于本實(shí)驗(yàn)室的漢語(yǔ)自動(dòng)分詞詞性標(biāo)注系統(tǒng)作為實(shí)驗(yàn)平臺(tái),從北京大學(xué)-富士通聯(lián)合開(kāi)發(fā)的人民日?qǐng)?bào)1998年1月份分詞詞性標(biāo)注語(yǔ)料庫(kù)抽取出的原始文本共19 485句作為測(cè)試語(yǔ)料。

在此實(shí)驗(yàn)平臺(tái)下,分別以上述兩種方法引入領(lǐng)域詞典的實(shí)驗(yàn)被描述為:

實(shí)驗(yàn)一:系統(tǒng)詞典分詞+領(lǐng)域詞典最大匹配法分詞;

實(shí)驗(yàn)二:系統(tǒng)詞典+專業(yè)詞典+分詞一體化。

二次歧義比率可如下計(jì)算:

二次歧義比率=*100%

實(shí)驗(yàn)結(jié)果如表3所示。

(三)引入領(lǐng)域詞典的兩種方法的實(shí)驗(yàn)結(jié)論

從表格3中可以看出采用實(shí)驗(yàn)一引入了較多的歧義現(xiàn)象。

另外,比較實(shí)驗(yàn)一和實(shí)驗(yàn)二產(chǎn)生的分詞結(jié)果時(shí)發(fā)現(xiàn)有2 874處不同,其中1 712句由于采用實(shí)驗(yàn)二未能正確識(shí)別出專業(yè)詞典中的詞而產(chǎn)生,占59.57%;由于實(shí)驗(yàn)一識(shí)別出專業(yè)詞典中的詞引入詞性不正確的比例是2.22%。

采用實(shí)驗(yàn)一可以減少二次分詞歧義的產(chǎn)生,但同時(shí)降低了識(shí)別專業(yè)詞典詞匯的能力。

采用實(shí)驗(yàn)二二次分詞歧義的比率大,但識(shí)別專業(yè)詞典詞匯的能力較強(qiáng)。

三、結(jié)論

漢語(yǔ)分詞是各種中文信息處理的基礎(chǔ),在中文信息處理系統(tǒng)中具有廣泛的應(yīng)用前景。本文全面深入地研究了漢語(yǔ)自動(dòng)分詞中存在的歧義問(wèn)題,并在統(tǒng)計(jì)框架下,通過(guò)一系列對(duì)比實(shí)驗(yàn),對(duì)基于隱馬爾可夫模型的漢語(yǔ)自動(dòng)分詞和詞性標(biāo)注模型的一體化算法和目前較流行的貪心算法進(jìn)行了比較。具體地講,本論文的貢獻(xiàn)主要表現(xiàn)在以下方面:

本文所研究的是漢語(yǔ)分詞中的二次分詞歧義的分布情況及解決方法。在一部二十多萬(wàn)詞數(shù)的領(lǐng)域詞典的基礎(chǔ)上對(duì)人民日?qǐng)?bào)標(biāo)注語(yǔ)料庫(kù)進(jìn)行二次分詞歧義的查找,使我們對(duì)二次分詞歧義在語(yǔ)料庫(kù)中的分布情況上有了一定的了解,之后再引入一體化處理方法,對(duì)從語(yǔ)料庫(kù)中所得到的二次分詞歧義語(yǔ)段分別用一體化算法和貪心算法進(jìn)行重新分詞,比較兩者在二次分詞歧義上的處理能力,從實(shí)驗(yàn)結(jié)果上可以看出一體化算法在處理二次分詞歧義上的性能明顯高于貪心算法。但并不是說(shuō)一體化算法在處理二次分詞歧義時(shí)不出錯(cuò),而且并不是極少,所以仍須繼續(xù)改進(jìn)一體化算法。

參考文獻(xiàn):

[1] 俞士汶,朱學(xué)鋒,王惠,張蕓蕓.現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解[M].北京:清華大學(xué)出版社,1998.

[2] 朱學(xué)鋒,俞士汶,王惠.現(xiàn)代漢語(yǔ)5萬(wàn)詞語(yǔ)歸類的實(shí)踐[J].語(yǔ)言文字應(yīng)用,1997,(4):88-94.

[3] 周強(qiáng),張偉,俞士汶.樹(shù)庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),1997,(4):42-51.

[4] 黃昌寧.中文信息處理中的分詞問(wèn)題[J].語(yǔ)言文字應(yīng)用,1997,(1).

[5] 宋柔.分詞:漢語(yǔ)信息處理的基礎(chǔ)工程[J].計(jì)算機(jī)世界報(bào):技術(shù)專題版,1997,(48).

[6] 劉源,等.信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范及自動(dòng)分詞方法[M].北京:清華大學(xué)出版社,1994.

[7] 劉挺,吳巖,王開(kāi)鑄.串頻統(tǒng)計(jì)和詞形匹配相結(jié)合的漢語(yǔ)自動(dòng)分詞系統(tǒng)[J].中文信息學(xué)報(bào),1998,12(1).

主站蜘蛛池模板: 亚洲综合婷婷激情| 国产青榴视频在线观看网站| 伊人AV天堂| 亚洲天堂啪啪| 国产精品成人一区二区不卡 | 国产精品私拍99pans大尺度| 色男人的天堂久久综合| 91久久国产综合精品| 蝴蝶伊人久久中文娱乐网| 国产二级毛片| 欧美日韩在线成人| 亚洲h视频在线| 波多野结衣一区二区三区四区视频| 亚洲伊人久久精品影院| 91人人妻人人做人人爽男同| 91成人在线免费观看| 亚洲精品欧美重口| 日韩免费毛片| 91精品国产一区| 蜜桃臀无码内射一区二区三区 | 久精品色妇丰满人妻| 黄色福利在线| 日本高清成本人视频一区| 在线观看亚洲精品福利片| a级毛片一区二区免费视频| 91在线播放免费不卡无毒| 国产地址二永久伊甸园| 99福利视频导航| AV天堂资源福利在线观看| 91亚洲精选| 亚洲九九视频| 国产女人在线视频| 蜜桃视频一区二区| 中文国产成人精品久久| 日韩精品成人网页视频在线| 午夜精品久久久久久久99热下载| 欧美一级黄色影院| 亚洲另类色| 欧美性爱精品一区二区三区| 92午夜福利影院一区二区三区| 亚洲水蜜桃久久综合网站| 欧美精品影院| 国产精品久久自在自线观看| 国产午夜无码片在线观看网站| 色综合a怡红院怡红院首页| 国产另类视频| 不卡的在线视频免费观看| 无码人中文字幕| 国产91无码福利在线| 日韩欧美国产成人| 天天色天天综合| 激情五月婷婷综合网| 国产成人免费观看在线视频| 88国产经典欧美一区二区三区| 久久香蕉国产线看精品| 五月天在线网站| 免费无码AV片在线观看中文| 91青青视频| 伊人欧美在线| 国产精品嫩草影院视频| 真人高潮娇喘嗯啊在线观看| 91欧美亚洲国产五月天| 九九这里只有精品视频| 午夜免费视频网站| 国产人成乱码视频免费观看| 亚洲第一天堂无码专区| 亚洲成人黄色网址| 成年免费在线观看| 亚洲第一天堂无码专区| 色综合综合网| 91精品情国产情侣高潮对白蜜| 国产一区二区三区视频| 日韩乱码免费一区二区三区| 国产成人精品亚洲日本对白优播| 在线精品自拍| 免费毛片视频| 国产日韩精品一区在线不卡| 伊人蕉久影院| 久久这里只有精品国产99| 亚洲AⅤ无码国产精品| 一区二区偷拍美女撒尿视频| 国产白浆一区二区三区视频在线|