999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

最長名詞短語識別研究

2009-04-29 00:00:00錢小飛
現(xiàn)代語文 2009年7期

摘 要:本文分析了最長名詞短語的內(nèi)部構(gòu)成特征,提出了一種基于基本名詞短語中心歸約的最長名詞短語識別方法,并使用條件隨機場模型識別了最長名詞短語。實驗取得了87.58%的正確率和88.31%的召回率。

關(guān)鍵詞:最長名詞短語 基本名詞短語 條件隨機場 中心規(guī)約

一、引言

最長名詞短語(MNP)的識別能夠顯著地改善句法分析等系統(tǒng)的性能。如對于句法分析而言,最長名詞短語在句子中主要充當(dāng)主語和賓語,其內(nèi)部結(jié)構(gòu)復(fù)雜多樣。正確地識別出這些結(jié)構(gòu),可以大大降低句法分析過程中的淺層歧義,提高句法分析器的性能。

最長名詞短語的識別研究涉及自然語言處理中常見的統(tǒng)計和規(guī)則方法。李文捷等(1995)使用邊界分布信息構(gòu)造概率模型識別MNP;周強、孫茂松等(2000)提出兩種不同的識別算法,其中基于內(nèi)部結(jié)構(gòu)組合的算法通過基本組合成分向左迭代組合,形成新的最長名詞短語,取得了良好效果;代翠等(2008)則使用了條件隨機場模型識別最長名詞短語,并針對識別錯誤使用后繼規(guī)則進行修正。

總的來說,隨著一些新的統(tǒng)計模型和新方法的應(yīng)用,漢語最長名詞短語的識別效果逐步提高,但由于MNP自身構(gòu)造的復(fù)雜性,MNP識別問題還有待進一步的研究。在前人研究的基礎(chǔ)上,本文提出了一種基于基本名詞短語中心壓縮的最長名詞短語的方法,并基于條件隨機場模型實現(xiàn)了該方法,實驗證實了這種方法的有效性。

二、最長名詞短語及其構(gòu)成

中文信息處理學(xué)界所說的“名詞短語”與本體語言學(xué)的定義大體一致,是“名詞性短語”“體詞性短語”的意思。周強、孫茂松等(2000)從組成結(jié)構(gòu)上將名詞短語分為最短名詞短語(MNP)、最長名詞短語(MNP)、一般名詞短語(GNP)三類,其中,最長名詞短語的定義沿承了Kuang-hua Chen (1994)關(guān)于英語MNP的定義,指“不被其他名詞短語所包含的名詞短語”。我們把最長名詞短語定義為不被其他任何名詞短語所包含的名詞短語,最長名詞短語是句子級的短語單位,其上層結(jié)構(gòu)即為句子根節(jié)點S。本文定義的最長名詞短語包含單詞短語,下面的句子用括號標(biāo)注了MNP:

(1)[羅馬/nS 時代/n]也/d 有/v[“/“想象/v 比/p 模仿/v 是/vC 更為/dD 巧妙/a 的/u 一/m 位/qN 藝術(shù)家/n ”/” 的/u 評說/vN]。/。

(2)[電荷/n 周圍/s]伴有/v [電場/n],/,[電場/n]對/p [電荷/n]產(chǎn)生/v [力/n 的/u 作用/n]。/。

從內(nèi)部結(jié)構(gòu)看,可以把最長名詞短語分為后附式結(jié)構(gòu)、定中式結(jié)構(gòu)和聯(lián)合式結(jié)構(gòu)。通常后附式結(jié)構(gòu)內(nèi)部較為復(fù)雜,以“的”字結(jié)構(gòu)、“者”字結(jié)構(gòu)等最為典型:

(3)[它/rN]是/vC 【以/p 情報/n 技術(shù)/n 的/u 發(fā)展/vN 與/c 聯(lián)機/b 情報/n 系統(tǒng)/n 的/u 建立/vN 為/vC 特征/n 的/u】。/。

(4)“/“ 在/p [學(xué)術(shù)/n 研究/vN]上/f 有/v [創(chuàng)新/n]才/d 能/vM 有/v [建樹/n],/,凡/d [自己/rN]在/p [學(xué)術(shù)/n]上/f 提出/v [新說/n],/,一旦/d 發(fā)現(xiàn)/v [其/rN]有/v 【與/p 別人/rN 偶同/a、/、而/c 別人/rN 確/d 已/d 發(fā)布/v 在/p 先/f 者/k】,/,則/c 盡行/d 削去/v 。/。”/”

此外,后附式結(jié)構(gòu)還包括一些簡單的構(gòu)形結(jié)構(gòu):

(5)[我/rN]最/dD 不/dN 習(xí)慣/v 也/d 最/dD 討厭/v 【男人/n 們/k】 指/v 著/u [自己/rN 的/u 鼻尖/n]數(shù)落/v “/“ [你們/rN 女人/n]……/…… ”/”[女人/n]怎么/rV 啦/y 。/。

定中式結(jié)構(gòu)是最長名詞短語最主要的結(jié)構(gòu)類型,其中包括含“的”的定中式結(jié)構(gòu)和不含“的”的定中式結(jié)構(gòu)。正如“的”字結(jié)構(gòu)一樣,含“的”的定中式結(jié)構(gòu)內(nèi)部比較復(fù)雜,可以是簡單結(jié)構(gòu),如“形容詞+的+名詞”的模式,也可以是復(fù)雜的“動詞短語+的+名詞短語”模式:

(6)不/dN 在/p【想/vM 哭/v 的/u 時候/n】佯裝/v [笑臉/n],/, 也/d 不/dN 會/vM 在/p【高興/a 的/u 時候/n】收斂/v【自己/rN 的/u 情緒/n】。/。

不含“的”的最長名詞短語以簡單結(jié)構(gòu)居多,如例(4)中的“學(xué)術(shù)/n 研究/vN”,但也存在極少數(shù)復(fù)雜結(jié)構(gòu),如“動詞短語+名詞”構(gòu)成的MNP:

(7)“/“ [偉大/a 的/u 理論/n]指導(dǎo)/v [偉大/a 的/u 實踐/vN],/, 【建設(shè)/v 有/v 中國/nS 特色/n 社會主義/n 理論/n】 為/p [中華/nR 民族/n]指出/v 了/u [騰飛/v 之/u 路/n]。/。 ”/”

聯(lián)合式MNP也可以分為簡單聯(lián)合結(jié)構(gòu)和復(fù)雜聯(lián)合結(jié)構(gòu),簡單聯(lián)合結(jié)構(gòu)由不含“的”的簡單定中式結(jié)構(gòu)聯(lián)合而成,復(fù)雜聯(lián)合結(jié)構(gòu)由簡單MNP與復(fù)雜MNP、復(fù)雜MNP與復(fù)雜MNP、甚至復(fù)雜MNP與謂詞性短語聯(lián)合而成,下面是一個復(fù)雜聯(lián)合結(jié)構(gòu)的例子:

(8)可是/c,/,在/p[目前/t 經(jīng)濟/n 體制/n 轉(zhuǎn)型/v 時期/n],/, 由于/p【法律/n 法規(guī)/n 的/u 不/dN 健全/a 以及/c 監(jiān)督/vN 機制/n 的/u 薄弱/a】,/, 由于/p [利己主義/n 、/、拜金主義/n 的/u 影響/vN],/,[一些/m 人/n][社會/n 責(zé)任感/n 和/c 社會/n 道德/n 觀念/n]淡薄/a ,/,[有的/rN 人/n]甚至/d 擾亂/v [社會/n 秩序/n],/,敗壞/v [社會/n 風(fēng)氣/n]。/。

可以看出,相對于組塊分析中的基本名詞短語,最長名詞短語長度較大,內(nèi)部結(jié)構(gòu)較為復(fù)雜。我們的想法是先識別基本名詞短語,對基本名詞短語進行規(guī)約,再識別最長名詞短語。這在一定程度上可以化解底層歧義,縮短結(jié)構(gòu)長度,提高識別效率。

三、條件隨機場模型

條件隨機場是Lafferty在2001年提出的一個序列切分和標(biāo)注模型。令X表示一個待標(biāo)記數(shù)據(jù)序列的隨機變量,Y表示相應(yīng)的標(biāo)記的序列,則條件隨機場(X,Y)是以X為全局條件的無向圖模型。條件隨機場的定義如下:

令G=(V,E)是一個無向圖,Y=(Yv),那么,Y以G的頂點為索引。如果當(dāng)以X為條件,隨機變量Yv遵從圖的馬爾科夫?qū)傩?=,其中,w~v表示w和v是圖中相鄰的結(jié)點,那么(X,Y)就是一個條件隨機場。

常見的圖G是一個簡單的鏈結(jié)構(gòu)。比如,序列X=(X1,X2,…,Xn)和Y=(Y1,Y2,…,Yn)。這樣,在給定x的情況下,標(biāo)記序列y的聯(lián)合分布具有以下形式:

其中,x表示觀察數(shù)據(jù),y表示一個標(biāo)記序列,和是特征函數(shù)。和分別是它們的權(quán)值。是歸一化函數(shù)。

最長名詞短語識別可以看作是文本中詞語序列、詞性標(biāo)記序列等特征選擇邊界標(biāo)記的過程,因此,可以采用適當(dāng)?shù)淖R別策略,利用CRF進行邊界識別。

四、基于基本名詞短語中心規(guī)約的最長名詞短語識別

(一) 基本名詞短語的識別

趙軍(1998)針對漢語動詞可以充當(dāng)定語的特點,從基本名詞短語內(nèi)部結(jié)構(gòu)的角度提出了漢語基本名詞短語的定義:

baseNP#61664;baseNP+baseNP

baseNP#61664;baseNP+名詞|名動詞

baseNP #61664;限定性定語+baseNP

baseNP#61664;限定性定語+名詞|名動詞

限定性定語#61664;形容詞 | 區(qū)別詞 | 動詞 | 名詞 | 處所詞 | 西文字串 | 數(shù)量詞

本文的研究針對最長名詞短語識別,將基本名詞短語定義為以名詞性成分為中心,同時不包括謂詞性結(jié)構(gòu)的最大名詞性短語。如:

(9)對/p 企業(yè)/n ,/, 保證/v 其/rN 實現(xiàn)/v [生產(chǎn)/vN 計劃/n 任務(wù)/n]和/c [流通/vN 計劃/n 任務(wù)/n]所/u 需要/v 的/u [資金/n 供給/vN];/; 對/p [整個/b 經(jīng)濟/n],/, 保證/v 實現(xiàn)/v [生產(chǎn)/vN 資料/n]和/c [消費/vN 資料/n]進行/v [計劃/vN 流轉(zhuǎn)/vN]所/u 必需/v 的/u [貨幣/n 供給/vN]。/。

我們使用CRF模型,選擇前后3個詞和詞性作為簡單特征,語料格式如下:

表1:基本名詞短語標(biāo)注格式樣例

詞語詞性baseNP標(biāo)記

多數(shù)mB

人nI

持vO

肯定aB

意見nI

,,O

(二)最長名詞短語的識別

首先基于基本名詞短語的識別結(jié)果進行規(guī)約,以中心詞替代基本名詞短語本身,使用上文的例子,過程如下所示:

基本名詞短語識別結(jié)果:[多數(shù)/m 人/n]持/v[肯定/a 意見/n],/,

基本名詞短語規(guī)約結(jié)果:[人/n]持/v[意見/n],/,

同時,我們記錄了中心規(guī)約過程中的基本名詞短語結(jié)構(gòu)長度,是否中心詞等信息,單詞基本名詞短語的結(jié)構(gòu)長度規(guī)定為0,是否中心詞為“否”。新的模型選擇前后3個詞及詞性,以及當(dāng)前詞是否為中心詞、當(dāng)前基本名詞短語的長度作為特征。語料格式如下:

表2:中心規(guī)約實驗標(biāo)注格式樣例

詞語詞性是否中心詞baseNP長度 MNP標(biāo)記

人nHead2B

持vNo0O

意見nHead2B

,,No0O

五、實驗結(jié)果及分析

實驗從清華大學(xué)TCT樹庫中隨機抽取10000個無重復(fù)的段落,其中9000段用作訓(xùn)練語料,另外1000句用作測試語料。

(一)基本名詞短語實驗

基本名詞短語的實驗語料及其比例與上文劃分的最長名詞短語實驗語料相同,以其中9000段用作訓(xùn)練語料,另外1000句用作測試語料。實驗結(jié)果如下:

表3:基本名詞短語識別實驗結(jié)果

測試類型SCRCCCPRF

封閉測試17261172621726099.9999.9999.99

開放測試18921915172289.9291.0190.46

其中,SC、RC、CC分別表示結(jié)構(gòu)數(shù)、識別數(shù)和正確數(shù),P表示正確率,R表示召回率,F(xiàn)表示調(diào)和平均值。可以看出,開放測試中,由于基本名詞短語內(nèi)部結(jié)構(gòu)相對簡單,實驗取得了較好的效果,基本名詞短語識別的F值達到90.46%,為最長名詞短語的識別奠定了一定的基礎(chǔ)。

(二)最長名詞短語實驗

我們選擇不同的窗口長度,以及中心規(guī)約特征構(gòu)成不同的特征模板觀察特征對于MNP識別結(jié)果的影響。評測結(jié)果是將中心規(guī)約的語料還原為原始標(biāo)注語料后進行的。表4報告了開放測試的實驗結(jié)果。

表4:中心規(guī)約的特征模板測試

模板窗口中心規(guī)約特征SCRCCCPRF

1[-1,1]中心詞41224146355885.8286.3286.07

2[-2,2]中心詞41224141361187.2087.6087.40

3[-3,3]中心詞41224156314087.5888.3187.94

4[-3,3]中心詞+長度41224154363687.5388.2187.87

5[-3,3]長度41224155363787.5388.2387.88

6[-3,3]-41224152362787.3688.0087.68

7--41224164360386.5387.4186.97

其中,模板7對應(yīng)了不采用基本名詞短語中心規(guī)約的簡單實驗。可以看出,基于基本名詞短語中心規(guī)約的方法優(yōu)于簡單實驗方法。其中,模板3和模板5,即在3元詞、詞性加中心規(guī)約的復(fù)雜特征取得了比較好的效果。

六、結(jié)語

最長名詞短語識別是中文信息處理的一個重要課題。本文分析了最長名詞短語的內(nèi)部構(gòu)成特征,提出了一種基于基本名詞短語中心規(guī)約的最長名詞短語識別方法,并使用條件隨機場模型識別了最長名詞短語。實驗取得了87.58%的正確率和88.31%的召回率,對比實驗表明該方法優(yōu)于基于線性特征的方法。

本文所使用的TCT語料庫由清華大學(xué)周強老師提供,在此表示真摯的感謝。

本文收稿時間:2009年5月26日。

參考文獻:

[1]Chen Kuang-hua,Chen Hsin-hsi.Extracting noun phrases

from large-scale texts:a hybrid approach and its automatice-valuation[A].In:Proceedings of the 32nd Annual Meeting of Association of Computational Linguistics[C].New York:Association for Computational Linguistics,1994.

[2]代翠.統(tǒng)計和規(guī)則相結(jié)合的漢語最長名詞短語自動識別[C].中文

信息學(xué)報,2008,(6).

[3]李文捷,周明.基于語料庫的中文最長名詞短語的自動提取[A].

陳力為,袁琦.計算語言學(xué)進展與應(yīng)用[C].北京:清華大學(xué)出版社,1995.

[4]周強,孫茂松,黃昌寧.漢語最長名詞短語的自動識別[J].軟件

學(xué)報,2000,(2).

(錢小飛 北京 中國傳媒大學(xué)文學(xué)院 100024)

主站蜘蛛池模板: 日韩精品亚洲人旧成在线| 亚洲成人动漫在线| 国产激情在线视频| 欧美日韩在线成人| 这里只有精品在线播放| 色偷偷男人的天堂亚洲av| 亚洲天堂成人| a级毛片免费网站| 香蕉精品在线| 久久精品视频一| 久久a级片| 亚洲精品爱草草视频在线| 色呦呦手机在线精品| 亚洲精品无码成人片在线观看| 天堂亚洲网| 一级毛片免费播放视频| 99热这里只有精品在线观看| 天天摸夜夜操| 国产SUV精品一区二区6| 黄色不卡视频| 日韩高清在线观看不卡一区二区| 国产无码在线调教| 午夜毛片免费看| 人妻丰满熟妇AV无码区| 国产成人高清在线精品| 97久久超碰极品视觉盛宴| 亚洲女同欧美在线| 国产成人凹凸视频在线| 992Tv视频国产精品| 波多野结衣视频网站| 国产黄色免费看| 日韩a级片视频| 久久精品亚洲专区| 69国产精品视频免费| 91视频国产高清| 色屁屁一区二区三区视频国产| 国产精品手机在线播放| 黄片一区二区三区| 8090午夜无码专区| 91青青草视频| 国产精品免费电影| 欧美另类一区| 国产乱人伦偷精品视频AAA| 91po国产在线精品免费观看| 久久99精品久久久久纯品| 国产精品美女网站| 日本精品一在线观看视频| 国产无人区一区二区三区| 国产va欧美va在线观看| 欧美性爱精品一区二区三区| 国产成人91精品| 亚洲欧洲日韩久久狠狠爱| 国产粉嫩粉嫩的18在线播放91| 亚洲天堂成人| 国产精品无码一二三视频| 欧类av怡春院| 国产00高中生在线播放| 精品国产一二三区| 精品综合久久久久久97| 亚洲综合亚洲国产尤物| 日韩av高清无码一区二区三区| 在线日韩日本国产亚洲| 一区二区三区成人| 中文字幕在线日本| 少妇精品久久久一区二区三区| 高清久久精品亚洲日韩Av| 夜夜爽免费视频| 成人午夜视频在线| 欧美日韩在线亚洲国产人| 亚洲成人动漫在线观看| 中国国产高清免费AV片| 亚洲男人的天堂视频| 毛片久久网站小视频| 无码人中文字幕| 香蕉久人久人青草青草| 国产导航在线| 国产无码制服丝袜| 91精品啪在线观看国产91九色| jizz在线免费播放| 在线精品亚洲一区二区古装| 91麻豆国产视频| 亚洲人在线|