999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

從句法分析看詞性標(biāo)注

2009-04-29 00:00:00牛雅嫻劉丙麗萬紅雅
現(xiàn)代語文 2009年12期

摘 要:詞性標(biāo)注是語言研究者進行句法分析和其他研究的基礎(chǔ),其劃分是否得當(dāng)直接影響著語料庫的下一步建設(shè)。本文從句法分析實際操作的角度對國內(nèi)幾個常用分詞系統(tǒng)的詞性標(biāo)記問題進行了對比分析,著重探討了其中一些標(biāo)記給句法標(biāo)注帶來的問題,如習(xí)用語和簡稱、前接成分和后接成分。針對這些問題,本文從實用的角度,在參考多方建議的基礎(chǔ)上,提出了相應(yīng)的標(biāo)注策略。

關(guān)鍵詞:詞性標(biāo)注 句法分析 習(xí)用語 詞綴 語素字

一、引言

對語料進行詞性標(biāo)注,只是語料庫建設(shè)的初期階段,也是進行下一步句法標(biāo)注的基礎(chǔ)。我們在對語料進行句法標(biāo)注的過程中發(fā)現(xiàn),分詞系統(tǒng)中一些不恰當(dāng)?shù)脑~類標(biāo)記不僅影響到句法標(biāo)注的效率,也影響到標(biāo)注的準(zhǔn)確性和一致性。因此,本著節(jié)省人力、物力的原則,在綜合考慮詞類標(biāo)記對句法層面的影響之后,本文力圖在詞性標(biāo)注這一問題上提出更加科學(xué)的可行性建議,以促進基于語料庫的進一步的語言研究。

首先,分詞類別(或POS標(biāo)記)應(yīng)該在句法上有功能意義,例如名詞、動詞等。不是從句法層面劃分出來的標(biāo)記即使標(biāo)示出來也無法在句法分析中進行處理。

其次,在有意義的基礎(chǔ)上,需要把握一個度。在語料庫的標(biāo)注過程中,詞類劃分不宜過多或過少。詞類過少,對句法分析的深度和精度不夠,詞類過多,又會使語言分析和處理的過程太復(fù)雜,代價太高。那么,到底劃分多少詞類才能在句法層面達(dá)到自足呢?通過對世界上13種語言依存句法的考察表明,在進行自動句法分析時,一種語言所劃分出的詞類數(shù)量一般應(yīng)當(dāng)控制在10~20之間。

本文針對兩個與句法有關(guān)的詞性標(biāo)注問題即習(xí)用語和簡稱、前接成分后接成分和語素字,對比了當(dāng)前國內(nèi)的幾個分詞標(biāo)注系統(tǒng)①,經(jīng)過綜合分析探討之后,提出了一些具有可行性的建議。

二、習(xí)用語和簡稱

關(guān)于習(xí)用語(也就是熟語)的界定,學(xué)術(shù)界的看法并不統(tǒng)一。黃伯榮的《現(xiàn)代漢語》對其做了界定:“熟語結(jié)構(gòu)上比較固定,功能上相當(dāng)于一個詞,包括成語、慣用語、歇后語等”。周薦則認(rèn)為習(xí)用語在功能上大于等于詞,它既指成語、慣用語、歇后語等詞匯單位,又指諺語、格言、警句等非詞匯單位。

簡稱和略語,國家語委的《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》中將其定義為“專有名詞或常用語的簡略表達(dá)形式”,并提到“簡稱和略語通常起名詞或區(qū)別詞的作用,少數(shù)有動詞的作用”。

對比國內(nèi)現(xiàn)在通用的幾個分詞系統(tǒng)后,我們發(fā)現(xiàn),各系統(tǒng)在對習(xí)用語和簡稱標(biāo)記的處理上存在一定的差異。有幾個系統(tǒng)將習(xí)用語i(或慣用語l)和簡稱j下面分出了小類,標(biāo)記出了詞性,如分出了名詞性、動詞性習(xí)用語,標(biāo)記為in、iv等;有的系統(tǒng)將成語和習(xí)用語分開,各給出一個標(biāo)記,但沒有再細(xì)分出詞性;有的則只分出習(xí)用語i(或慣用語l)和簡稱j兩類。

從語言信息處理的角度來看,分詞系統(tǒng)分出來的單位,應(yīng)該都在詞匯層面,這樣才能有利于進一步的句法分析。如果分詞的結(jié)果既有用法與詞相當(dāng)?shù)膯挝唬钟胁蛔魅魏尉渥映煞侄鳛楠毩⒄Z句出現(xiàn)的單位,這樣無論是在短語結(jié)構(gòu)語法下還是在依存句法下,都難以處理。因此,從自然語言信息處理的實用性原則出發(fā),可以認(rèn)為習(xí)用語包含兩部分,一部分是詞匯單位,其用法相當(dāng)于一個詞,如“葉公好龍”“簡而言之”這樣的成語或慣用語等,可按詞匯的方法來處理,內(nèi)部不再分析,另一部分是非詞匯單位,如格言、警句等,應(yīng)當(dāng)對其內(nèi)部單位進行標(biāo)注,像普通句子一樣處理,而不應(yīng)將其整體劃為一個單位。

關(guān)于簡稱,從定義來看,它大體和習(xí)用語中的詞匯單位相當(dāng),這兩部分應(yīng)該做同樣的處理。習(xí)用語i、簡稱j這類標(biāo)記并不是按照語法功能劃分出來的,那么這種標(biāo)記對于進一步的句法分析有什么影響呢?我們對哈工大信息檢索室的依存樹庫中習(xí)用語i的句法關(guān)系分布情況,進行了統(tǒng)計,結(jié)果如表1:

表1:依存樹庫中習(xí)用語i的句法關(guān)系分布

習(xí)用語做支配詞習(xí)用語從屬詞

句法關(guān)系出現(xiàn)次數(shù)占總數(shù)百分比句法關(guān)系出現(xiàn)次數(shù)占總數(shù)百分比

adv狀中結(jié)構(gòu)1828.93%sbv主謂關(guān)系38415.90%

att定中關(guān)系1648.05%vv連謂結(jié)構(gòu)1837.58%

coo并列關(guān)系1457.12%att定中關(guān)系24610.23%

de“的”字結(jié)構(gòu)33816.59%adv狀中結(jié)構(gòu)46519.25%

di“地”字結(jié)構(gòu)773.78%coo并列關(guān)系1375.67%

ic獨立分句1145.60%cnj關(guān)聯(lián)結(jié)構(gòu)構(gòu)321.33%

pob介賓關(guān)系502.45%ic獨立分句963.98%

sbv主謂關(guān)系1055.15%lad前附加關(guān)系311.28%

vob動賓關(guān)系42120.67%其他84134.82%

vv連謂結(jié)構(gòu)1758.59%

cmp動補結(jié)構(gòu)7<1%

dei“得”字結(jié)構(gòu)16<1%

is獨立結(jié)構(gòu)281.40%

其他21510.55%

由上表可以看出,習(xí)用語i展現(xiàn)出非常分散的句法關(guān)系分布,說明在句法層面不能籠統(tǒng)地將其視為一種詞類標(biāo)記,而應(yīng)根據(jù)語法功能進行細(xì)分,給出功能性小類標(biāo)記(如in、iv等),否則,習(xí)用語的這種功能上的多樣性,會導(dǎo)致句法剖析器精度的下降,也不方便句法標(biāo)注者進行標(biāo)注。

同樣,簡稱j也存在類似的問題,雖然簡稱大部分是名詞性的,句法關(guān)系上的分布相對習(xí)用語來說比較集中,但是鑒于簡稱j同樣不是句法層面的標(biāo)記,同樣會對標(biāo)注、研究工作造成一定的影響,我們建議簡稱和習(xí)用語一樣,按照句法功能進行細(xì)分(如jn、jv)。

當(dāng)然,in、iv的細(xì)分造成了標(biāo)記的增加,雖然有利于語言學(xué)的研究,卻不利于機器學(xué)習(xí)和使用。因此,我們需根據(jù)研究目的來進行取舍。對于這個問題,可以將這樣的詞進行雙層標(biāo)記,即先給出詞性標(biāo)記(如n、v、a等)為下一步句法標(biāo)注做準(zhǔn)備,進而再給出詞匯范疇標(biāo)記(如習(xí)用語i、簡稱j等)以滿足多層次語言研究的需要(如“畢恭畢敬/a/i”),這樣不失為一種好的解決方案。

三、前接成分后接成分和語素字

前接成分、后接成分,即前綴、后綴。在黃伯榮、廖序東的《現(xiàn)代漢語》中,對詞綴下了定義:“有一類不成詞語素同別的語素組合成詞時,位置是固定的,只表示一些附加的意義,又叫詞綴。”

《中學(xué)教學(xué)語法系統(tǒng)提要(試用)》認(rèn)為:“語素是小的語音語義結(jié)合體,是最小的語法單位。”這是一個集眾家意見,能為最大多數(shù)人接受的語素定義。

在對國內(nèi)現(xiàn)在幾個分詞系統(tǒng)作對比后,我們發(fā)現(xiàn),有的系統(tǒng)將語素字非語素字列入標(biāo)記集,有的系統(tǒng)則沒有,還有的系統(tǒng)在語素字大類下劃分名詞性語素、動詞性語素、形容詞性語素、時語素、副語素等小類。多數(shù)系統(tǒng)作了前接成分(前綴)、后接成分(后綴)的劃分,還有的進一步在大類下區(qū)分名前接成分、數(shù)前接成分、名后接成分、動后接成分。

從定義可知,語素字非語素字和前接成分后接成分這些概念,并不是按照語法功能劃分出來的,不屬于詞層面,而是屬于構(gòu)詞法層面。如果在詞層面的集合中摻雜了語素成分,則不利于進一步的句法分析。

那么各大系統(tǒng)將語素字非語素字作為切分單位的原因是什么呢?我們發(fā)現(xiàn),在系統(tǒng)自動分詞的處理過程中,將語素和非語素字作為切分單位,主要包含兩種情況:一,某些雙音節(jié)離合詞分開使用時;二,單字名詞或名詞性語素后接單純方位詞。其中,第二種情況的劃分,實質(zhì)未在最終切分結(jié)果中體現(xiàn)語素字,只是將語素字的標(biāo)記作為合成處所詞或時間詞的一個中間步驟,不會對句法分析造成影響。而第一種情況,則因為在最終切分結(jié)果中包含語素字這個非詞單位,給句法分析造成了困擾。

那么如何處理涉及離合詞標(biāo)注的語素字問題?目前主要有兩種做法:其一,也是目前有些系統(tǒng)采用的方法,即進行小類區(qū)分,將語素字分為名詞性語素、動詞性語素、形容詞性語素等;其二,對離合詞進行標(biāo)注。

對于第一種處理方法,靳光瑾等提出:“所以必須按照語法功能進行細(xì)分,給出功能性小類標(biāo)記,以方便后續(xù)的自動句法分析。基于這種想法,我們采納了專家們的意見,對縮略語、習(xí)用語、語素字等都給出了小類標(biāo)記。”

王春霞主張在自然語言處理中標(biāo)注離合詞。認(rèn)為許多語素孤立地來看是多義的,但在離合詞里其意義是確定的,而且常常需要從整體上來理解離合詞的意義。在王春霞的研究中,封閉測試和開放測試的結(jié)果顯示,標(biāo)注召回率達(dá)到98.27%,正確率達(dá)到81.74%,這說明,離合詞的標(biāo)注是有可行性的。對比以上兩種做法,我們傾向于對離合詞進行標(biāo)注,這樣可以不必增加標(biāo)記數(shù)量,更利于句法分析。

在處理前接成分后接成分時,以A系統(tǒng)為例,是以與前后接成分結(jié)合的成分的長短為標(biāo)準(zhǔn)來決定是否獨立劃分前后接成分的。前接成分以“非”為例,當(dāng)“非”管轄的范圍在一個詞內(nèi)的時候,按具體情況組成名詞、專有名詞等,而一旦“非”所管轄的范圍超過一個詞,則仍然切分開,如“非國家工作人員”被處理成“非/h國家/n工作/vn人員/n”,這里的“非”作為前接成分標(biāo)記為“h”。后接成分以“者”為例,當(dāng)“者”前面為較短的詞或短語時,它和前面的詞一起合成一個切分單位,標(biāo)注為n,“者”前面為較長的短語或句子時,分開來,標(biāo)注為k,如“經(jīng)過苦苦追求而獲得幸福者”被處理為“經(jīng)過/p苦苦/d追求/v而/c獲得/v幸福/a者/k”,這里的“者”作為后接成分標(biāo)記為“k”。

當(dāng)前后接成分所附著的成分超過兩個,確實可以劃分開時,能夠進行句法分析,只是如上切分出來的“h”和“k”,只是構(gòu)詞成分,并不屬于詞層面,無法進行句法分析,所以應(yīng)該另尋一種處理方式。從信息分析處理的角度看,可以提升“非”“者”等前后接成分的地位,將其切分為形容詞或名詞,如把“非國家工作人員”處理為“非/a國家/n工作/vn人員/n”,“經(jīng)過苦苦追求而獲得幸福者”處理為“經(jīng)過/p苦苦/d追求/v而/c獲得/v幸福/a者/n”。

四、結(jié)語

本文從句法分析實際操作的角度對分詞系統(tǒng)進行了分析探討,并提出了一些意見和解決方案,希望能對語料庫的建設(shè)有所幫助。首先,從句法分析的可操作角度講,分詞結(jié)果必須是從句法層面劃分出來的單位。因此,我們建議將習(xí)用語中的詞匯單位和簡稱按句法功能細(xì)分,給出in、iv、jn、jv之類的小類。習(xí)用語中的非詞匯單位按普通句子處理。前接成分、后接成分我們建議將其和中心成分劃為一個整體單位,在中心詞可以分析的時候?qū)⑶昂蠼映煞值匚惶嵘丛~性標(biāo)注。去掉語素字和非語素字的標(biāo)記,在出現(xiàn)離合詞的時候?qū)㈦x合詞單獨標(biāo)記,而不再標(biāo)出語素。第二,從語料庫工程建設(shè)的角度講,我們堅持經(jīng)濟省力原則,對于不必要的詞類標(biāo)記建議能簡則簡。對于兼類詞,除少數(shù)名詞活用之外,應(yīng)嚴(yán)格按功能區(qū)分詞性,將其劃到各個詞類之中。而對于區(qū)別詞、狀態(tài)詞,我們建議不再和形容詞區(qū)分開來。

(本文受中國傳媒大學(xué)“211工程”三期重點學(xué)科建設(shè)項目支持,項目名稱為“漢語有聲媒體語言依存句法樹庫構(gòu)建與應(yīng)用研究。”)

注 釋:

①A系統(tǒng):北京大學(xué)現(xiàn)代漢語語料庫加工規(guī)范,中文信息學(xué)報,16

卷第5期;B系統(tǒng):國家語言文字應(yīng)用研究所計算語言學(xué)研究室,信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范,語言文字應(yīng)用,2001年8月(3);C系統(tǒng):哈工大信息檢索研究室漢語依存樹庫;D系統(tǒng):中科院計算所漢語詞性標(biāo)記集

參考文獻:

[1]郭銳.現(xiàn)代漢語詞類研究[M].北京:商務(wù)印書館,2002.

[2]Liu, Haitao Huang, Wei. A Chinese Dependency Syntax

for Treebanking. Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation[Z].Beijing: Tsinghua University Press,2006.

[3]黃伯榮,廖序東.現(xiàn)代漢語[M].北京:高等教育出版社,2002.

[4]周薦.熟語的典型性與非典型性[J].語文研究,1994,(3).

[5]安娜,劉海濤,侯敏.語料庫中熟語的標(biāo)記問題[J].中文信息學(xué)

報,2004,(1).

[6]謝承志.語素定義中的偏頗[J].上海師范大學(xué)學(xué)報,1997,(4).

[7]靳光瑾,郭曙綸,肖航,章云帆.語料庫加工中的規(guī)范問題——

談《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》[J].語言文字應(yīng)用,2003,(4).

[8]王春霞.基于語料庫的離合詞研究[D].北京:北京語言大學(xué),2001.

(牛雅嫻 劉丙麗 萬紅雅 董藝 北京 中國傳媒大學(xué)應(yīng)用語言學(xué)研究所 100024)

主站蜘蛛池模板: 欧洲精品视频在线观看| 国产嫖妓91东北老熟女久久一| 日韩黄色大片免费看| 国产电话自拍伊人| 国产xx在线观看| 午夜毛片福利| 午夜福利网址| 国产欧美高清| 中文天堂在线视频| 亚洲精品天堂自在久久77| 欧洲亚洲欧美国产日本高清| 亚洲成在线观看| 人妻无码一区二区视频| 九九视频免费在线观看| 欧美亚洲国产日韩电影在线| 久久久久无码精品| 中文字幕人成乱码熟女免费| 国产亚洲成AⅤ人片在线观看| 亚洲日韩AV无码一区二区三区人| 亚洲国产欧美中日韩成人综合视频| 99久久国产精品无码| 18禁黄无遮挡网站| 成人看片欧美一区二区| 波多野结衣在线se| 亚洲久悠悠色悠在线播放| 极品av一区二区| 伦伦影院精品一区| 国产黄色视频综合| 中文字幕人妻av一区二区| 呦系列视频一区二区三区| 亚洲第一区精品日韩在线播放| 欧美在线中文字幕| 日本高清免费不卡视频| 国产xx在线观看| 婷婷开心中文字幕| 国内a级毛片| 嫩草影院在线观看精品视频| 亚洲成a人片| 色香蕉影院| 国产女人在线视频| 亚洲永久精品ww47国产| 亚洲欧美日韩综合二区三区| 欧美日韩成人| 亚洲黄色网站视频| 国产专区综合另类日韩一区| 成人免费一区二区三区| 天天摸天天操免费播放小视频| 热这里只有精品国产热门精品| 最新国产成人剧情在线播放| 国产午夜无码专区喷水| 国产欧美视频综合二区| 久久99精品久久久大学生| 狠狠色丁婷婷综合久久| 波多野结衣在线se| 青青极品在线| 成人免费视频一区| 亚洲第一香蕉视频| 亚洲天堂视频网站| 青青草原偷拍视频| 日韩人妻无码制服丝袜视频| 国产精品流白浆在线观看| 真人高潮娇喘嗯啊在线观看| 四虎国产永久在线观看| 欧美黄网站免费观看| 狠狠色成人综合首页| 99精品免费在线| 亚洲成AV人手机在线观看网站| 日韩性网站| 美女毛片在线| 欧洲高清无码在线| 美女国产在线| 国产精品任我爽爆在线播放6080 | 91成人在线观看| 国产手机在线ΑⅤ片无码观看| 国产18在线播放| 欧美成人怡春院在线激情| 精品综合久久久久久97超人该| 亚洲人成影院午夜网站| 91精品在线视频观看| 久青草国产高清在线视频| 欧美日韩在线成人| 极品av一区二区|