999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統(tǒng)計(jì)和規(guī)則相結(jié)合的并列結(jié)構(gòu)自動(dòng)識(shí)別

2009-12-31 00:00:00苗艷軍李軍輝周國(guó)棟

摘 要:并列結(jié)構(gòu)的自動(dòng)識(shí)別是語(yǔ)言信息處理中的難點(diǎn),采用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法對(duì)并列結(jié)構(gòu)的邊界進(jìn)行了識(shí)別。首先,根據(jù)連接詞的位置,使用最大熵模型分別從左和從右識(shí)別出并列結(jié)構(gòu)的左邊界和右邊界;接著,根據(jù)并列結(jié)構(gòu)的特性對(duì)自動(dòng)識(shí)別的左右邊界使用預(yù)定義的規(guī)則進(jìn)行后處理,得到最終左右邊界。實(shí)驗(yàn)的訓(xùn)練集和測(cè)試分別包含12 396和1 219個(gè)并列結(jié)構(gòu)。實(shí)驗(yàn)表明,該方法性能達(dá)到了78.1%,其中后處理加入規(guī)則的使用提高了3.4%。

關(guān)鍵詞:并列結(jié)構(gòu); 并列成分; 最大熵模型

中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2009)09-3403-04

doi:10.3969/j.issn.1001-3695.2009.09.057

Automatic identification of coordinate structure based on statistics and rules

MIAO Yan-jun, LI Jun-hui, ZHOU Guo-dong

(School of Computer Science Technology, Soochow University, Suzhou Jiangsu215006, China)

Abstract:Automatic identification of coordinate structure is a challenging task for sentence analysis in natural language processing. The paper combined a statistical model and several novel rules to automatically identify boundaries of coordinate structures. Firstly, applied maximum entropy model to identify the left and right boundaries respectively. Then, according to specialties of coordinate structures, generated and used several novel rules to optimize the identifying results. The experiments were trained and tested on 12 396 and 1 219 coordinate structures. The results show that the combination of maximum entropy model and rules achieve performance 78.1% in F1, and that the rules bring 3.4% improvement in F1.

Key words:coordinate structure; conjunct; maximum entropy model

0 引言

并列結(jié)構(gòu)(coordinate structure,CS)是自動(dòng)句法分析、機(jī)器翻譯中的難點(diǎn),它是指下列形式的語(yǔ)言結(jié)構(gòu)[1]:

a)必須認(rèn)真【貫徹執(zhí)行】。

b)實(shí)現(xiàn)黨的“十五大”提出的宏偉目標(biāo),必須依靠【工人階級(jí)和全體人民】的長(zhǎng)期奮斗。

c)國(guó)務(wù)院于1992年先后批準(zhǔn)了【黑河、憑祥、琿春、伊寧、瑞麗等】十四個(gè)邊境城市為對(duì)外開放城市。

其中,a)是無(wú)標(biāo)記形式的CS,它的特點(diǎn)是沒有并列連詞,如“、”“和”等;b)c) 是有標(biāo)記形式的CS。本文著重研究有標(biāo)記形式的CS。

CS的自動(dòng)識(shí)別是句法分析最容易出錯(cuò)的地方之一。通過(guò)對(duì)原型句法分析系統(tǒng)的錯(cuò)誤分析,有相當(dāng)一部分錯(cuò)誤源自CS或者與CS有關(guān)。而且CS的數(shù)量大,分布非常廣泛,在Penn Chinese Treebank(CTB)的1~1 151段中,有4 860個(gè)句子含有CS,占句子總數(shù)(18 782)的25.9%。由此可見,CS自動(dòng)識(shí)別性能的提高對(duì)句法分析具有重要的意義。

目前有很多人對(duì)CS識(shí)別進(jìn)行了研究。D. Hogan[2]利用并列成分之間的對(duì)稱特性和并列成分中心詞之間的互相依賴性對(duì)句法樹中的名詞CS進(jìn)行消歧,使得其對(duì)名詞CS識(shí)別的F值從69.9%提高到了73.8%。中文方面,周強(qiáng)[3]對(duì)CS的自動(dòng)識(shí)別提出這樣的方法:首先通過(guò)形式標(biāo)記檢索和成分模糊匹配處理,發(fā)現(xiàn)句子中所有可能的并列成分中界位置及其最大邊界,形成一組可能的并列短語(yǔ)描述向量;通過(guò)對(duì)這些描述向量進(jìn)行一系列計(jì)算形成一個(gè)CS描述向量;然后對(duì)CS描述向量進(jìn)行邊界調(diào)整和成分合并操作,以形成完整的CS,據(jù)此可以設(shè)定并列短語(yǔ)和它的并列成分的邊界位置。但是實(shí)驗(yàn)結(jié)果表明,此方法并未帶來(lái)很好的效果。孫宏林[4]也談到過(guò)CS的處理,方法是利用并列成分之間的對(duì)稱性,通過(guò)一個(gè)簡(jiǎn)單的概率模型來(lái)識(shí)別CS的邊界,使組塊的效率提高了3%。吳云芳[5]以中文信息處理為出發(fā)點(diǎn),全面考察了現(xiàn)代漢語(yǔ)中的CS。此外,也有很多人對(duì)中文CS的語(yǔ)言學(xué)特點(diǎn)進(jìn)行了歸納和總結(jié)。

基于上述分析,本文提出了一種統(tǒng)計(jì)和規(guī)則相結(jié)合的CS邊界識(shí)別方法。該方法先從含有CS的句子中學(xué)習(xí)一個(gè)概率模型,然后以此概率模型為基礎(chǔ)對(duì)句子中的每個(gè)詞進(jìn)行邊界預(yù)測(cè),從而得到一個(gè)邊界預(yù)測(cè)序列。由于CS有它自己的特點(diǎn),本文根據(jù)這些特點(diǎn)建立了規(guī)則庫(kù),用這些規(guī)則對(duì)邊界預(yù)測(cè)序列進(jìn)行再處理,得到最終的CS邊界。實(shí)驗(yàn)表明,用統(tǒng)計(jì)和規(guī)則的方法性能達(dá)到了78.1%。

1 問(wèn)題描述

在本文所用的語(yǔ)料庫(kù)中,主要存在下面幾種CS:

a)名詞CS(NCS),即并列成分的中心詞為名詞的結(jié)構(gòu),如進(jìn)行/VV 【工程/NN 總/JJ 承包/NN 或/CC 工程/NN 分包/NN】 。/PU

b)形容詞CS(JCS), 即并列成分的中心詞為形容詞的結(jié)構(gòu),如【主/JJ 、/PU 副/JJ】 六十多/CD 個(gè)/M 險(xiǎn)種/NN 。/PU

c)副詞CS(ACS),即并列成分的中心詞為副詞的結(jié)構(gòu),如【積極/AD 、/PU 及時(shí)/AD】 地/DEV

d)數(shù)量詞CS(MCS),即并列成分的中心詞為數(shù)量詞的結(jié)構(gòu),如增長(zhǎng)/VV 【百分之十一/CD 至/CC 十二/CD】

e)動(dòng)詞CS(VCS),即并列成分的中心詞為動(dòng)詞,且這個(gè)動(dòng)詞沒有主語(yǔ)和賓語(yǔ)的結(jié)構(gòu),如對(duì)/P 外/NN 【貿(mào)易/VV 及/CC 合作/VV】

f)子句CS(ICS),即并列成分的中心詞為動(dòng)詞且這個(gè)動(dòng)詞有主語(yǔ)或賓語(yǔ)的結(jié)構(gòu),如包括/VV 有關(guān)/JJ 【降低/VV 進(jìn)口/NN 產(chǎn)品/NN 關(guān)稅/NN 和/CC 外資/NN 企業(yè)/NN 出口/NN 產(chǎn)品/NN 退稅/VV 】

在上述例子中,“【 】”中的內(nèi)容為CS。前五類結(jié)構(gòu)有一個(gè)共同點(diǎn)就是每一個(gè)并列成分的最后一個(gè)詞被看做它們的中心詞。最常見的是NCS,占到了所有并列結(jié)構(gòu)的60%以上;識(shí)別最困難的是子句并列結(jié)構(gòu),因?yàn)樗婕暗某煞直容^多,跨度比較大;也有其他數(shù)量很少的一些CS,本文不對(duì)它們進(jìn)行單獨(dú)分類。

CS的識(shí)別是以已分詞和詞性標(biāo)注的句子為輸入,設(shè)句子S=w1/p1,w2/p2,…,wn/pn(n為詞數(shù),wi表示第i個(gè)詞,pi為相應(yīng)的詞性標(biāo)記,1≤i≤n)。CS的任務(wù)是找到一個(gè)與之相對(duì)應(yīng)的標(biāo)注序列T=t1t2…tn,滿足T=arg maxT p(T|S)。其中:ti∈{B,I,E,O},B代表當(dāng)前詞為CS的首詞,E代表當(dāng)前詞為CS的尾詞,I(xiàn)代表當(dāng)前詞屬于CS(除首尾詞外),O代表當(dāng)前詞不屬于CS。此外,本文將標(biāo)記為B的詞wi稱為左邊界,左邊界前一個(gè)詞稱為左邊界特征詞(如果wi為句子第一個(gè)詞,則為1);將標(biāo)記為E的詞wj稱為右邊界,右邊界后一個(gè)詞稱為右邊界特征詞(如果wj為句子最后一個(gè)詞,則為1)。

本文對(duì)CS的識(shí)別是圍繞連詞來(lái)進(jìn)行的。在語(yǔ)料庫(kù)中,有這樣一些連接詞:“、(頓號(hào))”“和”“與”“及”“以及”“并”“并且”“或”“而”“而且”“至”“到”“不僅”等。其中,“而”“而且”“并”“并且”“不僅”這五個(gè)連接詞經(jīng)常連接子句,為了降低難度,本文不對(duì)含有這些連詞的CS進(jìn)行識(shí)別。

2 邊界識(shí)別

圖1為統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語(yǔ)CS識(shí)別系統(tǒng)流程,該系統(tǒng)可分為以下兩部分:

a)基于最大熵的CS自動(dòng)識(shí)別器;

b)基于規(guī)則的后處理模塊。

首先,系統(tǒng)在訓(xùn)練語(yǔ)料上建立最大熵統(tǒng)計(jì)模型,采用2.3節(jié)所述的識(shí)別流程對(duì)測(cè)試集進(jìn)行并列成分左右邊界自動(dòng)識(shí)別;然后采用基于規(guī)則的方法對(duì)識(shí)別結(jié)果進(jìn)行后優(yōu)化,得到最終結(jié)果。

2.1 最大熵原理

最大熵模型是一個(gè)比較成熟的統(tǒng)計(jì)模型,其基本思想是,給定一已知事件集,在已知事件集上挖掘出潛在的約束條件;選擇一種模型,這個(gè)模型必須滿足已知的約束條件,同時(shí)對(duì)未知事件,盡可能使其分布均勻。在進(jìn)行CS識(shí)別時(shí),把對(duì)每個(gè)詞的標(biāo)注作為一個(gè)事件。假設(shè)有一個(gè)事件樣本集合為{(d1,c1),(d2,c2),(d3,c3),…,(dn,cn)}。其中,di(1≤i≤N)表示句中的某個(gè)詞及其上下文構(gòu)成的特征向量;ci(1≤i≤N)表示該詞被標(biāo)注的結(jié)果。那么,如何表示從事件集上得到的約束條件呢?研究者引入了特征函數(shù)(有時(shí)簡(jiǎn)稱為特征)的概念。特征函數(shù)一般為二值函數(shù),對(duì)于CS識(shí)別問(wèn)題,可選擇特征―類別對(duì)作為一個(gè)特征函數(shù),比如對(duì)于特征w和類別c′,它的特征函數(shù)如下所示:

fw,c′(d,c)=1 c=c′ d cotains w

0 otherwise

利用最大熵模型得出在特征限制條件限制下具有最優(yōu)的概率分布,即概率值p(c|d)。根據(jù)最大熵原理,概率值p(c|d)的取值符合下面的指數(shù)模型:

pλ(c|d)=1zλ(d)exp(∑iλifi(d,c))

zλ(d)=∑cexp(∑iλifi(d,c))

其中:fi為特征函數(shù),λi表示特征函數(shù)fi的權(quán)值。根據(jù)最大熵原理可知,求最優(yōu)的概率分布模型轉(zhuǎn)換為求參數(shù)λi。在最大熵模型中,估算參數(shù)λi常采用的方法是通用迭代縮放算法(generalized iterative scaling, GIS),本文所使用的工具包原型為maxent-2.4.0。

2.2 特征模板的制訂和特征的選取

最大熵模型的關(guān)鍵在于如何針對(duì)特定的任務(wù)為模型選取合適的特征集合。對(duì)于CS識(shí)別問(wèn)題,邊界分布信息和內(nèi)部結(jié)構(gòu)組合知識(shí)能夠?yàn)镃S的識(shí)別提供強(qiáng)有力的支持。本文在制訂特征模板時(shí)主要考慮了兩方面因素:

a)如何用盡量少的特征表達(dá)盡量充分的上下文信息;

b)這些特征模板在測(cè)試集中也可以使用。

為此,本文選擇的特征窗口長(zhǎng)度為5,使用的特征可歸類為單項(xiàng)特征和組合特征。單項(xiàng)特征僅考慮某個(gè)詞的信息,定義為

word(i)(-2≤i≤2),距離當(dāng)前詞距離為i的詞;

POS(i)(-2≤i≤2),詞word(i)的詞性;

action(i)(i=-1或-2),前面第一個(gè)或第二個(gè)詞的標(biāo)記(O、B、I、E);

action(i)(i=1或2),后面第一個(gè)或第二個(gè)詞的標(biāo)記;

firstChunk,是否在第一個(gè)并列成分中(值為Y or N);

isCCWord,是否為并列連詞(值為Y or N)。

此外,本文定義如表1所示的特征函數(shù),并根據(jù)特征函數(shù)制訂如下的組合特征:

cons(0,1),cons(0,1) ,cons(0,1) ,cons(0,1),cons(-1,0) ,cons(-1,0), cons(-1,0), cons(-1,0),cons(-2,-1), cons(-2,-1) ,cons(1,2) ,cons(1,2)

表1 組合特征函數(shù)

函數(shù)條件特征組合

firstChunk==Y

cons(n)

cons(n)

n≤0word(n),POS(n),firstChunk,isCCWord

n>0word(n),POS(n),action(n),firstChunk,isCCWord

n≤0POS(n),firstChunk,isCCWord

n>0POS(n),action(n),firstChunk,isCCWord

firstChunk==N

cons(n)

cons(n)

n<0word(n),POS(n),action(n),firstChunk,isCCWord

n≥0word(n),POS(n),firstChunk,isCCWord

n<0POS(n),action(n),firstChunk,isCCWord

n≥0POS(n),firstChunk,isCCWord

由于CS結(jié)構(gòu)僅為句子中的子片斷,為了減少占句子大部分的非CS結(jié)構(gòu)帶來(lái)的噪聲數(shù)據(jù),本文只針對(duì)CS結(jié)構(gòu)內(nèi)部的詞提取特征。因此,識(shí)別的過(guò)程是以連詞為中心,分別向左和向右識(shí)別左右邊界,即當(dāng)向左識(shí)別到左邊界的時(shí)候即停止轉(zhuǎn)而向連詞的右側(cè)識(shí)別直到識(shí)別到右邊界。本文不對(duì)結(jié)構(gòu)外的詞抽取訓(xùn)練樣例,所以訓(xùn)練語(yǔ)料中不存在類標(biāo)記類別為O的樣例。

2.3 用最大熵對(duì)CS識(shí)別的流程

一般情況下,組塊識(shí)別的過(guò)程都是從左向右,即先預(yù)測(cè)句子中的第一個(gè)詞,然后順次往后進(jìn)行預(yù)測(cè),直到句尾。但是如果對(duì)并列結(jié)構(gòu)也用這種方法進(jìn)行預(yù)測(cè),則存在一個(gè)很大的弊端,因?yàn)樗荒軌驅(qū)⑦吔缧畔⒑蛢?nèi)部結(jié)構(gòu)有效地結(jié)合起來(lái)。本文從第一個(gè)連接詞開始,先順次向左進(jìn)行預(yù)測(cè),直到左邊界,然后從第一個(gè)連接詞的下一個(gè)詞開始向右進(jìn)行預(yù)測(cè)直到右邊界。圖2是CS的識(shí)別流程圖。

如果向左一直識(shí)別到句首或者上一個(gè)CS的右邊界也沒有出現(xiàn)B,則將句首或上一個(gè)CS右邊界的下一個(gè)詞強(qiáng)制設(shè)置為B;同樣,到句尾也沒有出現(xiàn)E,則強(qiáng)制將句尾設(shè)置為E。對(duì)于CS之外的詞,本文一律將它們標(biāo)志為O。經(jīng)過(guò)這一輪的識(shí)別,就得到了一個(gè)由O、B、I、E標(biāo)記構(gòu)成的結(jié)果序列。

2.4 用規(guī)則進(jìn)行后處理

并列結(jié)構(gòu)有一個(gè)很重要的特點(diǎn),就是結(jié)構(gòu)的平行性。吳云芳[6,7]對(duì)《人民日?qǐng)?bào)》1998年1月1~10日的語(yǔ)料進(jìn)行了考察,發(fā)現(xiàn)92%的并列結(jié)構(gòu)在數(shù)量定語(yǔ)的分布上是平行的,91%的并列結(jié)構(gòu)在“的”字定語(yǔ)的分布上是平行的。這也就暗示著,如果用規(guī)則對(duì)最大熵識(shí)別的結(jié)果進(jìn)行修正將會(huì)起到一個(gè)比較好的效果。

設(shè)詞/詞性序列…wi/pi…w1/p1w0/p0w-1/p-1…w-j/p-j…。其中,w0、p0為連接詞、詞性;wi、pi為連接詞左邊的第i個(gè)詞、詞性;w-j、p-j為連接詞右邊的第j個(gè)詞、詞性。定義下列函數(shù):

a)結(jié)論函數(shù)

isLBoundary(wi),詞wi為左邊界;

isRBoundary(wj),詞wj為右邊界。

b)條件函數(shù)

LBoundary(),返回左邊界詞;

RBoundary(),返回右邊界詞;

RTOLEqual(wi,wj),返回詞wi和wj從右向左計(jì)算相同字的個(gè)數(shù),如果返回1則表明wi和wj最后一個(gè)字相同;

numWord(i),第i個(gè)并列成分包含詞的個(gè)數(shù);

numconjunction,CS包含的并列成分的個(gè)數(shù);

in(i,w),在第i個(gè)并列成分中包含詞w則返回真,否則返回假。

根據(jù)制訂的條件和結(jié)論函數(shù),定義左邊界規(guī)則:

規(guī)則1 pi+1∈{P,AS,LC,AD,BA,PN}(pi==N || pi==JJ)→isLBoundary(wi);

規(guī)則2 wi+1∈{涉及,包括,形成,其中,是} pi==N →isLBoundary(wi)

規(guī)則3 (p-1==CD pi==CD) || (p-1==JJ pi==JJ) →isLBoundary(wi);

規(guī)則4 pi+1==M (pi==N1 p-1==N || pi==JJ)→isLBoundary(wi);

規(guī)則5 pi+1==DEG (pi==N p-1==N numWord(2)==1) →isLBoundary(wi);

規(guī)則6 wi==w-1 pi==p-1→isLBoundary(wi);

規(guī)則 7 RBoundary()==″ in(numconjunction,″)==1 pi==″→isLBoundary(wi);

定義右邊界規(guī)則:

規(guī)則1 w-j==“等”→isRBoundary(w-j);

規(guī)則2 p-j==N p-(j+1)∈{P,AS,LC,AD,CD,MSP} p1

瘙 綋 {P,AS,LC,AD,CD,MSP}→isRBoundary(w-j);

規(guī)則3 (w1==w-j|| RTOLEqual(w1,w-j)==1) p1==p-j→isRBoundary(w-j);

規(guī)則4 LBoundary()==″ in(1,″)==1 pi==″→isRBoundary(w-j)。

CS中的并列成分可能不止兩個(gè),當(dāng)大于兩個(gè)時(shí),在制訂左邊界規(guī)則時(shí),w0指CS中的第一個(gè)連詞,在制訂右邊界規(guī)則時(shí)w0指CS中的最后一個(gè)連詞。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)準(zhǔn)備

本實(shí)驗(yàn)所使用的語(yǔ)料由兩部分構(gòu)成。第一部分來(lái)自CTB語(yǔ)料,將從CTB的400~1 151段中抽取出3 446個(gè)句子,共包含5 181個(gè)CS的語(yǔ)料作為初始訓(xùn)練集,將從001~300段中抽取的774個(gè)句子,共包含1 219個(gè)CS的語(yǔ)料作為測(cè)試集。為了減少數(shù)據(jù)稀疏,提高系統(tǒng)性能,本文另外從北大清華語(yǔ)料中提取6 357個(gè)生句子,通過(guò)機(jī)器自動(dòng)切分、詞性標(biāo)注(詞性集采用CTB標(biāo)準(zhǔn))以及人工校對(duì),以保證切分和詞性標(biāo)注的正確性;然后對(duì)這些句子中的CS進(jìn)行手工標(biāo)注,總共有7 215個(gè)CS。本文將這些經(jīng)過(guò)標(biāo)注的句子作為輔助訓(xùn)練集。

對(duì)于CS識(shí)別性能的評(píng)價(jià)沿用自然語(yǔ)言處理中常見的評(píng)價(jià)方法:

準(zhǔn)確率 P=C3/C2;

召回率 R=C3/C1;

F值 F1=2PR/(P+R)。

其中:C1為語(yǔ)料中實(shí)際的CS數(shù)量;C2為系統(tǒng)識(shí)別出的CS數(shù)量;C3為系統(tǒng)正確識(shí)別出的CS數(shù)量。

3.2 實(shí)驗(yàn)結(jié)果

用最大熵和規(guī)則相結(jié)合的方法識(shí)別CS,實(shí)驗(yàn)結(jié)果如表2所示。

表2 最大熵和規(guī)則相結(jié)合的CS識(shí)別效果

方法C1C2C3P/%R/%F/%

最大熵1 2191 16789176.373.174.7

最大熵+規(guī)則1 2191 17193479.876.678.1

從測(cè)試結(jié)果來(lái)看,在僅用最大熵模型時(shí),CS識(shí)別的正確率和召回率分別為76.3%和73.1%;經(jīng)過(guò)使用規(guī)則進(jìn)行后處理后,CS識(shí)別正確率和召回率分別為79.8%和76.6%,較僅使用最大熵模型的F值提高了3.4%,表明系統(tǒng)在后期加入規(guī)則進(jìn)行輔助修正的方法是有效的。

對(duì)語(yǔ)料庫(kù)中各類并列結(jié)構(gòu)(NCS、JCS、ACS、MCS、VCS和ICS)采用最大熵和規(guī)則相結(jié)合的方法得到的性能如表3所示。

從表3可以看出,識(shí)別效果最好的是JCS、ACS、MCS和VCS四類,性能分別達(dá)到了97.6%、94.1%、89%和86.7%。這是因?yàn)檫@四種結(jié)構(gòu)比較簡(jiǎn)單,它們中的每個(gè)并列成分長(zhǎng)度一般不會(huì)超過(guò)三個(gè)詞,而且?guī)缀跛胁⒘谐煞侄汲蕦?duì)稱特性,所以識(shí)別相對(duì)容易。

數(shù)量最多的CS為NCS,占到了總數(shù)的62.7%,但性能卻低于系統(tǒng)總體性能。NCS識(shí)別錯(cuò)誤種類呈現(xiàn)多樣,主要表現(xiàn)如下:

a)當(dāng)邊界特征詞為名詞時(shí),如短語(yǔ):現(xiàn)代化【經(jīng)濟(jì)、貿(mào)易、金融】中心,系統(tǒng)識(shí)別成【現(xiàn)代化經(jīng)濟(jì)、貿(mào)易、金融中心】;

b)定語(yǔ)的修飾范圍,如常規(guī)的【運(yùn)輸保險(xiǎn)、資產(chǎn)保險(xiǎn)、汽車保險(xiǎn)等】,定語(yǔ)“常規(guī)的”修飾整個(gè)CS,但系統(tǒng)將它識(shí)別為只修飾第一個(gè)并列成分;

c)當(dāng)?shù)谝粋€(gè)并列成分的定語(yǔ)很長(zhǎng)時(shí);

d)嵌套CS結(jié)構(gòu)。

如何提高NCS識(shí)別的性能是本文以后工作的重點(diǎn)。

識(shí)別性能最差的是ICS,這主要是因?yàn)樽泳洳⒘谐煞忠话愣急容^長(zhǎng),而且結(jié)構(gòu)不固定,有的沒有主語(yǔ),有的沒有賓語(yǔ)。在沒有進(jìn)行底層組塊識(shí)別的基礎(chǔ)上識(shí)別子句是比較困難的,所以改進(jìn)ICS識(shí)別的性能也是筆者接下來(lái)的主要工作之一。

4 結(jié)束語(yǔ)

CS的自動(dòng)識(shí)別作為一項(xiàng)重要的基礎(chǔ)研究,不僅有助于淺層句法分析,而且對(duì)自然語(yǔ)言處理領(lǐng)域中的許多應(yīng)用研究如機(jī)器翻譯、信息抽取等都有重要的實(shí)際意義。本文使用了統(tǒng)計(jì)和規(guī)則相結(jié)合的方法對(duì)CS左右邊界進(jìn)行了識(shí)別。在使用統(tǒng)計(jì)方法識(shí)別的時(shí)候,打破了傳統(tǒng)的從左到右識(shí)別的思維定勢(shì),采用了從CS結(jié)構(gòu)由里向外識(shí)別的方法。實(shí)驗(yàn)結(jié)果表明,使用本文所提出的方法能夠較好地識(shí)別各類CS結(jié)果。在今后的研究當(dāng)中,將主要解決名詞邊界詞歧義性錯(cuò)誤、定語(yǔ)修飾錯(cuò)誤和嵌套結(jié)構(gòu)識(shí)別錯(cuò)誤這幾個(gè)問(wèn)題。

參考文獻(xiàn):

[1]吳云芳.并列結(jié)構(gòu)的外部句法特征:A集[C]//機(jī)器翻譯研究進(jìn)展——2002年全國(guó)機(jī)器翻譯研討會(huì)論文集.北京:電子工業(yè)出版社,2002.

[2]HOGAN D. Coordinate noun phrase disambiguation in a generative parsing model[C]//Proc of the 45th Annual Meeting of the Association of Computational Linguistics.2007:680-687.

[3]周強(qiáng).漢語(yǔ)語(yǔ)料庫(kù)的短語(yǔ)自動(dòng)劃分和標(biāo)注研究[D].北京:北京大學(xué), 2002:37,40.

[4]孫宏林.現(xiàn)代漢語(yǔ)非受限文本的實(shí)語(yǔ)塊分析[D].北京:北京大學(xué), 2001.

[5]吳云芳.面向中文信息處理的現(xiàn)代漢語(yǔ)并列結(jié)構(gòu)研究[D].北京:北京大學(xué),2003:2,61-62,107,126.

[6]吳云芳.并列成分中心詞語(yǔ)義相似性考察[J].當(dāng)代語(yǔ)言學(xué),2005,7(4):305-315.

[7]吳云芳.動(dòng)詞性并列結(jié)構(gòu)的結(jié)構(gòu)平行[J].語(yǔ)言科學(xué),2004,3(6):57-56.

[8]周強(qiáng),孫茂松,黃昌寧.漢語(yǔ)最長(zhǎng)名詞短語(yǔ)的自動(dòng)識(shí)別[J].軟件學(xué)報(bào),2000,11(2):195-201.

[9]吳云芳.“和”“與”“并”“而”連接謂詞性成分時(shí)的區(qū)別[J].語(yǔ)文研究,2005,26(1):13-16.

[10]吳云芳.V+V形成的并列結(jié)構(gòu)[J].語(yǔ)言研究,2004,24(3):45-51.

主站蜘蛛池模板: 91久久国产成人免费观看| 精品国产中文一级毛片在线看| 久久香蕉欧美精品| 真人免费一级毛片一区二区| 99国产精品免费观看视频| 亚洲欧美日韩成人高清在线一区| 国产精品精品视频| 国产黄网永久免费| 日本AⅤ精品一区二区三区日| 成·人免费午夜无码视频在线观看| 无码一区二区三区视频在线播放| 日韩麻豆小视频| 乱人伦99久久| 精品无码人妻一区二区| 狠狠色婷婷丁香综合久久韩国| 中文字幕久久精品波多野结| 免费一级无码在线网站| 国产AV毛片| 88国产经典欧美一区二区三区| 狼友视频一区二区三区| 亚洲愉拍一区二区精品| 国产精品永久在线| 久久先锋资源| 亚洲国产综合精品一区| 久久这里只有精品66| 无码精品一区二区久久久| 国产视频一区二区在线观看 | 国产毛片基地| 九九视频免费在线观看| 欧美一级色视频| 国产自产视频一区二区三区| 亚洲欧美成aⅴ人在线观看 | 午夜日韩久久影院| 囯产av无码片毛片一级| 欧美日韩中文字幕在线| 综合成人国产| 欧美日韩中文字幕在线| 久久久噜噜噜久久中文字幕色伊伊 | 美女被操黄色视频网站| 91久久国产综合精品女同我| 国产流白浆视频| 亚洲国产黄色| 国产熟女一级毛片| 成人欧美在线观看| 亚洲欧美日韩中文字幕一区二区三区| 婷婷六月在线| 欧美日韩福利| 99re这里只有国产中文精品国产精品| 免费在线色| 国产成人无码播放| 制服丝袜一区二区三区在线| 亚洲成在人线av品善网好看| 国产成人艳妇AA视频在线| 日韩高清无码免费| 日本精品影院| 成人午夜网址| 久久精品免费看一| 欧洲成人免费视频| 亚洲国产一区在线观看| 99久久精品国产综合婷婷| 国产精品亚洲一区二区三区z | 国产污视频在线观看| 欧美在线一二区| 成人无码区免费视频网站蜜臀| 99视频在线精品免费观看6| 国产杨幂丝袜av在线播放| 欧美精品导航| 99re热精品视频国产免费| 成年人视频一区二区| 亚洲伊人天堂| 国产精品亚洲一区二区三区在线观看| 四虎免费视频网站| 高清久久精品亚洲日韩Av| 色综合色国产热无码一| 国产精品一区二区国产主播| 一级做a爰片久久毛片毛片| 亚洲日韩图片专区第1页| 综合亚洲网| 国产成人凹凸视频在线| 一区二区三区精品视频在线观看| 波多野衣结在线精品二区| 在线观看视频一区二区|