999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯分類器和條件隨機場模型的詞義消歧對比研究

2011-12-31 13:42:14屠明萍
文教資料 2011年36期
關(guān)鍵詞:模型

屠明萍

(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

詞義消歧就是在某個特定的上下文中,確定某個多義詞在該上下文中特定義項的過程[1]。詞義消歧作為一個中間任務(wù),對自然語言處理十分重要,很多應(yīng)用都需要經(jīng)過詞義消歧才能更好地發(fā)揮作用,比如機器翻譯、信息檢索、自然語言內(nèi)容語義分析、語法分析、語音識別和文語轉(zhuǎn)換等都需要詞義消歧的結(jié)果。詞義消歧是一種自然語言處理技術(shù),它根據(jù)知識獲取的方法可分為兩種:一是基于詞典的消歧方法,指把機讀詞典(語文詞典或義類詞典)作為外部知識源,它本質(zhì)上是一種基于規(guī)則的方法,有時也用到簡單的統(tǒng)計,但并非語言模型意義上的統(tǒng)計;二是基于統(tǒng)計的消歧方法,由研究者給出多義詞形的義項數(shù)并分義項提供訓(xùn)練用的例句,例如貝葉斯分類器(Naive Bayes Classifier,NBC)。

條件隨機場模型(Conditional Random Field,CRF)自從被引入自然語言處理以來,在詞性標注、專名識別和語義角色標注中都取得了很好的效果,而它在詞義消歧任務(wù)中的出色表現(xiàn)更是吸引了很多人的注意。本文通過“保守”一詞的詞義消歧實驗將貝葉斯分類器和條件隨機場模型的消歧效果進行了比較,進而根據(jù)實驗結(jié)果對比分析兩種模型的優(yōu)缺點。

1.兩種典型的詞義消歧模型概述

1.1貝葉斯分類器(NBC)

貝葉斯分類器是一種用于單點分類的概率模型,是貝葉斯公式的推廣,適合處理單點分類問題。所謂“單點分類”,是指序列中的一個符號對應(yīng)于什么狀態(tài),與序列中的其他符號對應(yīng)于什么狀態(tài)無關(guān)。它用來做詞義消歧時遵循的基本思路是考慮歧義詞周圍的其他詞的信息,把上下文(觀察窗口)看成詞的集合(詞袋),根據(jù)這些信息進行詞義消歧。對于詞義消岐來說意味著:窗口中的詞序和結(jié)構(gòu)不重要,窗口中的詞都是獨立地起作用,這就是樸素貝葉斯假設(shè)。貝葉斯分類器的消歧算法如下:

forallsensesskofw{score(sk) =logP(sk);forallwordsvjinthewindowc score(sk) +=logP(vj|sk);}chooses’=argmaxskscore(sk);

這類似于一個投票過程:k個詞義,好比k個候選人。每個詞義的選票數(shù)相同。每個詞義本身的費用,是一張保底的選票。Baseline消岐算法只看這一張選票。其余選票數(shù)(線索詞個數(shù))不大于窗口寬度,可能是贊成票(正數(shù)),也可能是反對票(負數(shù))。投票結(jié)束時,累計費用最小的詞義“當選”,即為消岐結(jié)果。

1.2條件隨機場模型(CRF)

1.2.1條件隨機場概述

條件隨機場是一個在給定輸入節(jié)點(觀察值)條件下計算輸出節(jié)點(標記)的條件概率的無向圖模型,特別擅長處理序列標記問題。(2)其公式表示為:

pλ(Y|X)是求在λ參數(shù)制約下類別向量Y的條件概率

Z(x)是歸一化因子。n是序列長度,m是特征函數(shù)個數(shù)。特征函數(shù)fi有兩種:一是狀態(tài)特征函數(shù),二是轉(zhuǎn)移特征函數(shù)。

1.2.2CRF訓(xùn)練和標注的相關(guān)文件及格式

用條件隨機場模型進行訓(xùn)練有兩個輸入文件,一是訓(xùn)練語料,二是特征模板。訓(xùn)練語料有特定的格式要求,它由若干行組成,每行的列數(shù)必須相同,第一列是待分類的token,最后一列是類別標記。若干個連續(xù)的tokens組成一個sentence,每個sentence后面有一個空行,文件結(jié)束時再加一個空行。表1是本文所用到的條件隨機場訓(xùn)練文件的一部分。其中第一列是詞,第二列是詞性,第三列中只對歧義詞進行詞義標記,其它詞的詞義都用none標記(如左圖表1)。

?

特征模板是訓(xùn)練出模型必不可少的條件,它的基本格式是%x[row,col],其中row表示與當前token的相對行數(shù),col表示列的絕對位置。特征可分為原子特征,一元復(fù)合特征和二元特征。表2是一個CRF特征模板樣本及其意義解釋。

?

CRF訓(xùn)練有一個輸出文件,即模型文件。CRF標注同樣有兩個輸入文件和一個輸出文件。輸入文件包括測試語料和模型文件,測試語料的格式與訓(xùn)練語料大致相同,但可以沒有標記。本文的測試語料是有標記的,這是為了便于評測正確率。測試所用的模型文件就是訓(xùn)練得到的模型文件。標注的輸出文件就是標注好的語料,其結(jié)果是在測試語料增加一列類別標記。

2.實驗過程

2.1實驗前的準備

本文是為了比較兩個模型在詞義消歧任務(wù)上的優(yōu)劣,所以實驗分為兩部分,一是基于貝葉斯分類器的詞義消歧實驗,二是基于條件隨機場模型的詞義消歧實驗。本次實驗的操作平臺為Windows7系統(tǒng)?;跅l件隨機場的訓(xùn)練和測試采用TakuKudo編寫的工具包“CRF++0.47”。(下載地址:http://crfpp.sourceforge.net/)。

兩個實驗所用的語料都是來自1998年上半年《人民日報》的1356句包括“保守”一詞的句子,因為“保守”是一個典型的多義詞,一個意思是“嚴守”,另一個意思是“守舊”。其中,用1260句作為訓(xùn)練語料,另外96句作為測試語料。訓(xùn)練語料和測試語料都經(jīng)過分詞和詞性標注。

2.2貝葉斯分類器詞義消歧

用貝葉斯分類器做詞義消歧的實驗分為三個步驟:訓(xùn)練、分類和評測。

訓(xùn)練階段,設(shè)定訓(xùn)練文件的上下文窗口為5,在每個句子前人工標注該句中“保守”的正確意義。訓(xùn)練得到模型,即線索詞及其詞頻信息。分類階段,加載訓(xùn)練得到的模型,輸出詞義消歧的結(jié)果。評測階段,制作測試文件的標準答案,并對消歧結(jié)果計算其召回率。

2.3條件隨機場模型詞義消歧

基于條件隨機場模型的詞義消歧實驗同樣分為三個步驟:訓(xùn)練、標注和評測。

訓(xùn)練階段,首先要用轉(zhuǎn)換程序?qū)⑵胀ㄎ谋靖袷降挠?xùn)練語料轉(zhuǎn)換為條件隨機場模型特定的訓(xùn)練文件格式。然后,也是最重要的一步,就是特征模板的確定。多義詞的一個顯著特點是,意義與詞性之間存在密切聯(lián)系,詞性不同,往往意義也不同。根據(jù)這一特點,此次實驗采用的7個模板有6個加入了詞性特征,只有1個未加詞性特征,以觀察詞性特征對詞義消歧的貢獻。這7個模板及其解釋如表3所示。(表中的“∪”表示取并集)

?

訓(xùn)練時添加特征模板、訓(xùn)練文件及一個空的模型文件,再進行一些參數(shù)的設(shè)置,即得到了模型文件。標注階段,在標注窗口添加模型文件、已轉(zhuǎn)換成相應(yīng)格式的測試文件以及一個空的標注結(jié)果文件(用于輸出)。評測階段,用CRF評測程序?qū)俗⒔Y(jié)果進行評測,得出詞和句子的標注正確率。

3.實驗結(jié)果及分析

3.1CRF詞義消歧結(jié)果分析

基于條件隨機場的消歧實驗使用了7個不同的特征模板,所以有7個消歧結(jié)果,并且每個結(jié)果都有封閉測試和開放測試結(jié)果,而封閉測試和開放測試都有其詞正確率和句子正確率。關(guān)于實驗結(jié)果的評價指標,本文采用召回率(R),其計算公式如下:

召回率(R)=正確標注的個數(shù)/待標注多義詞的個數(shù)

具體數(shù)據(jù)如表4所示。

?

結(jié)合表5我們可以更清晰地看出各個消歧正確率的對比。7個模板的封閉測試詞正確率和句子正確率都在99%以上,且詞正確率和句子正確率差距很小,這是因為此次實驗只針對每個句子中的一個多義詞進行消歧,其他詞都標注為none。但是封閉測試并不能說明多大問題,主要是看開放測試正確率。讓人驚喜的是,本次實驗開放測試正確率也相當高,詞正確率依然在99%以上,句子正確率也達到了97%以上。再看各個模板開放測試的結(jié)果。T1到T2窗口長度由1變?yōu)?,詞正確率和句子正確率都提高了。T2到T4雖然窗口長度由2逐漸拓寬到4,但詞正確率和句子正確率反而下降了,這說明窗口長度在2時達到最佳消歧效果,再加大窗口長度只會增加噪聲,不利于消歧。T5由T2再加上上下文窗口為1的詞和詞性的一元復(fù)合特征,正確率并沒有提高。這說明在本次實驗中一元復(fù)合特征對消歧結(jié)果并無影響,但是不排除在其他實驗中有作用,至于是積極作用還是消極作用有待于以后更深入的研究。T6是在T5基礎(chǔ)上增加了二元特征,但結(jié)果表明消歧正確率并未因此而提高。T7和T2相比少了詞性特征,正確率降低了不少,特別是句子正確率,是所有模板中正確率最低的。這說明詞性特征對詞義消歧作用是非常積極的。這根漢語多義詞的特點有關(guān),很多多義詞由于詞性不同意義也會不同,例如本次試驗中的“保守”作為嚴守義是動詞,而作為守舊義是形容詞。

表5

3.2CRF與NBC詞義消歧結(jié)果對比分析

貝葉斯分類器的結(jié)果只有一個,而條件隨機場模型詞義消歧的結(jié)果有若干個,究竟取哪個與貝葉斯分類器作比較呢?我們發(fā)現(xiàn),條件隨機場模型消歧實驗開放測試結(jié)果中的句子正確率其實就是我們所要使用的評價指標(召回率),因為它反映了詞義標注的實際結(jié)果。為了更公平地比較兩者的消歧效果,我們用條件隨機場實驗的句子正確率的平均值與貝葉斯分類器的召回率作比較。具體數(shù)據(jù)見表6。

?

顯然,條件隨機場模型的消歧效果要優(yōu)于貝葉斯分類器的消歧效果,在本次實驗中前者比后者要高出1.8個百分點。條件隨機場模型能出色地完成詞義消歧任務(wù)與該模型的特性是分不開的。CRF模型較好地克服了輸出獨立性假設(shè)和馬爾科夫性假設(shè)的局限性,能從上下文中任意地選擇所需要的特征,并且有很強的特征組合能力。特別是在本次實驗中,詞性特征顯示出極為重要的作用,正是因為這一點,條件隨機場模型在詞義消歧任務(wù)上要明顯勝于貝葉斯分類器。

然而不得不提的是,貝葉斯分類器雖然在最終消歧結(jié)果上不及條件隨機場模型,但是它的訓(xùn)練簡單省時,而條件隨機場模型需要在訓(xùn)練之前準備好特征模板,而且參數(shù)過大,訓(xùn)練時間較長。在這一點上貝葉斯分類器又有其優(yōu)勢。

4.結(jié)語

本文采用貝葉斯分類器和條件隨機場模型分別在同等規(guī)模的訓(xùn)練集和測試集上進行了詞義消歧的對比實驗。在理論上條件隨機場模型能從上下文中任意地選擇所需要的特征,而且有很強的特征組合能力,而貝葉斯分類器只對上下文的詞形做訓(xùn)練,所以消歧結(jié)果應(yīng)該是條件隨機場模型優(yōu)于貝葉斯分類器,而實驗結(jié)果也證明了這一點。但是在訓(xùn)練復(fù)雜度上,條件隨機場模型要比貝葉斯分類器更為復(fù)雜一些。本文的實驗還有一些不足的地方,比如條件隨機場模型的特征選擇,除了詞和詞性以外應(yīng)該還可以增加其他特征以提高消歧正確率,這就需要更深入的研究了。

[1]黃昌寧,夏瑩.語言信息處理專論[M].北京:清華大學(xué)出版社,1996:78-101.

[2]丁德鑫,曲維光,徐濤,董宇.基于CRF模型的組合型歧義消解研究[J].南京師范大學(xué)學(xué)報(工程技術(shù)版),2008,8,(4):73-76.

[3]苗雪雷.基于條件隨機場的漢語詞義消歧方法研究[D].[碩士學(xué)位論文].沈陽:沈陽航空工業(yè)學(xué)院,2007.

[4]王達,張坤.貝葉斯模型在詞義消歧中的應(yīng)用[J].計算機時代,2009,(7).

[5]于麗麗,丁德鑫,曲維光,陳小荷,李惠.基于條件隨機場的古漢語詞義消歧研究[J].微電子學(xué)與計算機,2009,(10).

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 毛片久久久| 国产十八禁在线观看免费| 东京热高清无码精品| 亚洲AⅤ波多系列中文字幕| 欧美色伊人| 亚洲男人的天堂网| 亚洲AV无码不卡无码| 国产精品精品视频| 亚洲精品成人福利在线电影| 在线亚洲精品自拍| 国产第一页第二页| 亚卅精品无码久久毛片乌克兰 | 欧美性精品| 亚洲热线99精品视频| 欧美全免费aaaaaa特黄在线| 国产麻豆精品手机在线观看| 亚洲AⅤ综合在线欧美一区| 久久精品国产免费观看频道| 国产一区二区三区在线观看视频| 思思热在线视频精品| 色网站在线视频| 91久久国产热精品免费| 亚洲第一香蕉视频| 在线五月婷婷| 成人在线不卡| 免费国产不卡午夜福在线观看| 亚洲91在线精品| 亚洲视频一区在线| 欧美一区二区三区不卡免费| 久久人人妻人人爽人人卡片av| 亚洲精品另类| 国产久操视频| 无码一区二区波多野结衣播放搜索| 宅男噜噜噜66国产在线观看| 91在线一9|永久视频在线| 日本三区视频| 五月婷婷精品| 亚洲成人一区二区| 亚洲成在线观看 | 99免费视频观看| 制服丝袜一区二区三区在线| 一级一毛片a级毛片| 亚洲人成影院午夜网站| 久久精品女人天堂aaa| 欧美专区日韩专区| 狠狠久久综合伊人不卡| yjizz国产在线视频网| 夜色爽爽影院18禁妓女影院| 精品国产网站| 九九九久久国产精品| 色偷偷综合网| 韩日免费小视频| 久久久噜噜噜久久中文字幕色伊伊 | 国产成人一二三| 欧美亚洲一区二区三区导航| 亚洲综合色吧| 亚洲高清中文字幕| 人妻精品全国免费视频| 日韩一区二区三免费高清| 日韩欧美成人高清在线观看| 国产亚洲视频中文字幕视频| A级毛片高清免费视频就| 91丝袜乱伦| 国产精品第一区| 日本欧美精品| av一区二区无码在线| 99热这里只有精品5| 久久中文字幕不卡一二区| 欧美一区精品| 国产精品久线在线观看| 一级高清毛片免费a级高清毛片| 国产美女视频黄a视频全免费网站| 亚洲三级色| 欧美人与性动交a欧美精品| 亚州AV秘 一区二区三区| 久久公开视频| 国产h视频在线观看视频| 国产精品漂亮美女在线观看| 国产精品自在自线免费观看| 日韩人妻精品一区| 亚洲黄网在线| 久久99国产精品成人欧美|