999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向自動句法分析的名詞再分類研究

2013-04-29 20:26:15徐艷華
現(xiàn)代語文 2013年3期

摘 要:詞類劃分是為句法分析服務(wù)的,名詞的再分類也必須遵循這一原則。但就現(xiàn)有的名詞細(xì)類看,由于在分類時為句法分析考慮得不夠充分,所以劃出的小類對自動句法分析難以起到應(yīng)有的作用。鑒于此,本文一改過去那種為了把某詞放到合適的詞類中而找“特點”的做法,按照詞的句法分布,詳細(xì)描述每個詞的句法功能。按照句法功能總和相同即為一類的標(biāo)準(zhǔn)為名詞進行再分類,以期為自動句法分析提供客觀依據(jù)。

關(guān)鍵詞:句法結(jié)構(gòu) 句法分析 句法功能 詞類

一、引言

自動句法分析是自然語言處理中的一個重要課題,其任務(wù)是將句子中的詞之間的線性序列轉(zhuǎn)換成具有結(jié)構(gòu)的分析樹。一般來說,自動句法分析的操作對象是句子或短語的詞類標(biāo)記序列,要想使計算機能夠準(zhǔn)確地分析詞類標(biāo)記序列的內(nèi)部關(guān)系,必須為它提供完備的語法知識。對于簡單的NP+VP→S這種模式的詞類標(biāo)記序列,現(xiàn)有的詞類知識能夠很好地為自動句法分析服務(wù),但對于嵌套的名詞結(jié)構(gòu)如“經(jīng)濟體制改革”或者是在句法結(jié)構(gòu)上存在遠(yuǎn)距離依存關(guān)系的短語等具有多層次較復(fù)雜的情況來說,必須為它提供更多的詞類知識。但遺憾的是,現(xiàn)有的語法知識中的詞類知識是粗糙的和不完備的,難以支持自動句法分析。以現(xiàn)有的名詞細(xì)類為例,具體地說有以下幾個問題:名詞究竟有哪些語法功能并不清楚,一般語法書只列舉幾條“語法特點”,例如,說名詞可受數(shù)量結(jié)構(gòu)修飾,不受副詞修飾,可以作主語、賓語等等。但即便是這幾條語法特點,往往也缺乏普遍性;都標(biāo)記為“N”的名詞,有的詞相互間的語法功能卻相差很大,一般的名詞可以作主語、賓語、定語、體詞性偏正結(jié)構(gòu)的中心語等,而“年間”“時”等只具有上述的最后一種功能;缺乏詞的各種語法功能的定量描寫,上述問題都給計算機進行自動句法分析帶來一定的困難。鑒于這種情況,我們主張“按照詞的句法分布,根據(jù)其充當(dāng)句法成分的功能來對名詞進行分類,語法功能總和相同即為一類。說一個詞能充當(dāng)主語,等于說它能在主謂結(jié)構(gòu)里作第一個直接成分;說一個詞能充當(dāng)賓語,等于說它能在述賓結(jié)構(gòu)里作第二個直接成分。這樣,我們就是用句法結(jié)構(gòu)來作為名詞歸類的測試環(huán)境,換言之,是從句法結(jié)構(gòu)推導(dǎo)出詞類。這種做法能使詞類劃分更直接地為句法分析服務(wù)。”①

二、名詞句法功能信息庫的構(gòu)建與實現(xiàn)

(一)名詞句法功能信息庫屬性字段的確立

名詞句法功能信息庫旨在考察每一個名詞具體的句法功能,然后根據(jù)句法功能的總和來確定詞類的總數(shù)。也就是說,只要句法功能的總和相同,這樣的詞就歸為一類。既然是從句法結(jié)構(gòu)推導(dǎo)出詞類,我們首先就要確定句法結(jié)構(gòu)的種類以便統(tǒng)計列出句法成分的清單,然后詳細(xì)考察每一個詞。只要能充當(dāng)所列清單中的成分,我們就標(biāo)記為“1”,如果不具備某項功能,就標(biāo)為“0”。我們?yōu)槊~分類而采用的句法結(jié)構(gòu)共8種,句法成分共21種,具體如下表:

1.并列結(jié)構(gòu)跟句法分析沒有多大關(guān)系,即便是強調(diào)它也作句法成分,其功能已經(jīng)包含在上述八種結(jié)構(gòu)中,所以沒有必要列出。

2.中心語用下標(biāo)作區(qū)別的意義在于考察名詞是否能直接受其他詞的修飾。

3.對定語用下標(biāo)作區(qū)分的意義在于考察名詞是否能直接作定語,狀1、狀2也屬于類似的情況,只不過句法成分是狀語而已。

4.在“定‘的中結(jié)構(gòu)”里作第一直接成分的,絕大多數(shù)情況下也能在“的”字結(jié)構(gòu)里作第一直接成分,所以沒有列出“的”字結(jié)構(gòu)這一項。

(二)句法功能統(tǒng)計的原則

要確定這么細(xì)致的句法成分,對于一些復(fù)雜情況的定類必須遵循一定的原則:

1.主謂結(jié)構(gòu)作賓語時,只統(tǒng)計結(jié)構(gòu)內(nèi)部各成分的功能,不考慮整個結(jié)構(gòu)的外部功能。如“我們聽說學(xué)校開除了兩名夜不歸宿的學(xué)生”這句中的“學(xué)校”看作主語,不考慮它在整個句子中的句法功能。

2.兼語記入賓語,如“這件事情讓公司處理吧”,這里的“公司”看作賓語。

3.聯(lián)合結(jié)構(gòu)、同位語結(jié)構(gòu)中的成分按其整體功能標(biāo)記,如“老師學(xué)生同臺演出”中的“學(xué)生”看作句子的主語;“在一架鉗工工作臺前,一位穿藍(lán)大褂的中年人注視著孩子們,他是教師塔吉耶夫。”這里的“教師”看作句子的賓語。

4.方位結(jié)構(gòu)一律按定中結(jié)構(gòu)處理,如“從電視上學(xué)到不少東西”中的“電視”看作“上”的定語。

5.“的”字結(jié)構(gòu)作主語或者賓語的,按定語處理。如“個人的利益要服從集體的”中的“集體”看作定語。

三、 基于語料庫統(tǒng)計的名詞細(xì)分類及其對句法分析的作用

(一)名詞的細(xì)分類

我們隨機抽取了1998年《人民日報》語料中的高頻名詞100個,每個名詞隨機抽取100個例句進行句法分析,根據(jù)分析結(jié)果構(gòu)建了一個小規(guī)模的語料庫,下面略舉幾例以便說明

從上表的統(tǒng)計結(jié)果可以看出,名詞的句法功能是復(fù)雜多樣的,但并非如有些學(xué)者所想象的那樣一詞一類。按照句法功能總和相同即可歸為一類的原則,通過分析統(tǒng)計,這100個詞分屬于73類。這個數(shù)目,對于我們?nèi)藖碚f是太大了,掌握起來比較困難,但卻給計算機自動句法分析帶來了方便。因為屬于同一詞類的詞,其語法功能是完全相同的。原有的名詞細(xì)類的確在數(shù)量上要遠(yuǎn)遠(yuǎn)少于這種分類方法的結(jié)果,但是我們通過分析發(fā)現(xiàn),原來歸為不同小類的名詞,其語法功能是完全相同的,我們不妨通過分類結(jié)果來剖析這個問題,句法功能完全相同的14類列舉如下:

按以前的標(biāo)準(zhǔn),上述14類中有些功能相同的卻分屬不同的小類,而功能不同的卻歸為相同的類。比如上面的第5小類中的5個名詞,按彭睿先生的劃分標(biāo)準(zhǔn)要分屬三類:“群眾、軍隊、專家”屬于群體類的;“區(qū)域”屬于地域類的;“產(chǎn)品”屬于實體類的。這本該是句法功能完全相同的一類卻分成三類,勢必對句法分析帶來困難,背離了詞類為句法分析服務(wù)的宗旨。

100個詞73類,對于人來說,分得是過于細(xì)致了,但對于機器來說分得越細(xì)提供的句法功能信息就越多,越有利于句法分析。這73類并不是不可歸并的,如果只是粗略地按照五大成分(謂語除外)來劃分的話,這73個小類可以歸并為5大類:

1.能作主語、賓語、定語的名詞(占81%),如:政府、設(shè)施、水平。

2.能作主語、定語的名詞(占1%),如:金融。

3.能作主語、賓語、定語和補語的名詞(占9%),如:地區(qū)、醫(yī)院、市場。

4.能作主語、賓語、定語和狀語的名詞(占8%),如:集體、電話、重點。

5.能作定語和狀語的名詞(占1%),如:電子。

(二)名詞細(xì)類對句法分析的作用

在談劃分出的名詞細(xì)類對句法分析的作用之前,我們先看看利用原有的名詞細(xì)類進行句法分析存在哪些困難。

前面已經(jīng)提到,自動句法分析的操作對象是句子或短語的詞類標(biāo)記序列。如果詞類標(biāo)記序列比較單一的話,傳統(tǒng)的分類方法是能夠很好地為句法分析服務(wù)的。如:“我喜歡音樂”這樣一個線性序列,機器能夠準(zhǔn)確地把它轉(zhuǎn)換成下面的分析樹:

但對于嵌套的名詞結(jié)構(gòu)如前面所舉的“經(jīng)濟體制改革”或者是在句法結(jié)構(gòu)上存在遠(yuǎn)距離依存關(guān)系的短語、有歧義的結(jié)構(gòu)等具有多層次較復(fù)雜的情況來說,僅有簡單的詞類標(biāo)記序列機器是很難分析出正確的結(jié)構(gòu)關(guān)系的。如“經(jīng)濟體制改革”,僅憑“N+N+N”這樣的標(biāo)記序列,計算機很難確定究竟是第一個名詞修飾后兩個名詞還是前兩個先結(jié)合然后修飾第三個,因此它可能給出兩種分析結(jié)果:“經(jīng)濟/體制改革”或者是“經(jīng)濟體制/改革”。而我們的名詞細(xì)類,因為詳細(xì)考察了每個詞的語法功能,所以它可以解決原有的詞類知識無法解決的問題,具體表現(xiàn)在以下幾個方面:

1.可以正確分析多層嵌套的名詞結(jié)構(gòu)

漢語句子中,有許多名詞嵌套的情況,連續(xù)的幾個名詞之間究竟是并列關(guān)系還是修飾關(guān)系,究竟是前一個修飾后幾個,還是前幾個修飾后一個,僅憑詞性標(biāo)記序列,系統(tǒng)很難作出正確地判斷。但我們的細(xì)類因為是在詳細(xì)地考察了每個成員全部的句法功能后確定的,它給系統(tǒng)提供的不再是籠統(tǒng)的一個詞類標(biāo)記,而是每個詞所有的句法功能,所以系統(tǒng)會根據(jù)每個詞的具體功能以及前后詞的句法功能信息進行正確地分析。比如“學(xué)校生活豐富多彩”,其中的“學(xué)校生活”,人們一看就知道是定中結(jié)構(gòu)的,但只給機器提供詞類標(biāo)記,它很難確定究竟是并列還是偏正,有了每個詞的句法功能信息后就大不一樣了。首先,它會比對上表中有關(guān)“學(xué)校”的句法功能,發(fā)現(xiàn)它具有“中1定1”的功能,也就是說它可以直接修飾名詞,然后再根據(jù)“生活”的句法功能信息進行選擇,“生活”有“中1主”的功能,就是說它要求前面的一個詞能作定語,它充當(dāng)這個定語的中心語后作主語,利用這樣一個互信息,我們就可以確定兩者的關(guān)系是定中而不是其他的。

2.能夠有效地分析句法上的歧義結(jié)構(gòu)

我們知道,“N+V→NP”和“V+N→VP”這兩條句法規(guī)則都可以有兩種句法結(jié)構(gòu),前者可以是主謂結(jié)構(gòu)和定中結(jié)構(gòu),后者可以是動賓結(jié)構(gòu)和定中結(jié)構(gòu)。單純地看詞性標(biāo)記序列,很難確定一句話中這樣的規(guī)則究竟是什么結(jié)構(gòu)關(guān)系,但是我們提供的名詞細(xì)類,既給出了每一個詞的所有的句法功能,也對每項句法功能進行了定量的描寫。有了這樣的定量描寫。機器就可以根據(jù)具體詞每一項句法功能的概率來確定其最終的句法關(guān)系,從而作出正確的句法分析。例如“工程改造已經(jīng)結(jié)束”中的“工程改造”,“工程”單獨作主語的幾率只有1%,而作定語的幾率是7%,根據(jù)這個比率,我們會優(yōu)先確定該結(jié)構(gòu)是定中結(jié)構(gòu)的而不是主謂結(jié)構(gòu)。如果量的分析還不能使其作出正確分析,再考慮其后的“改造”具有哪些功能,根據(jù)上面所說的利用前后詞的句法功能的相互限制最終作出正確的分析。

3.對在句法結(jié)構(gòu)上存在著遠(yuǎn)距離依存關(guān)系的句法成分能夠進行有效地分析

在漢語句子中,有一些離中心詞較遠(yuǎn)但又跟中心成分存在依存關(guān)系的成分,這樣的成分,單靠詞性標(biāo)記序列,機器是難以作出正確的分析的。如“這一舉措具有十分深遠(yuǎn)的,不可磨滅的偉大的歷史意義”這里的“意義”受四層修飾語的限制,它的詞性標(biāo)記序列為“r+m+n+v+d+a+u+d+v+u+a+u+n+n”,如果我們不看上面的原句,單看這一串詞性序列,是很難對該句進行正確地句法分析的,更不用說缺少語法知識的機器了。但是如果知道了“意義”具有“中1賓1”這項功能,我們就很容易地能分析出它在句中作賓語。越長的句子,其相互限制的條件就越多,其結(jié)構(gòu)的可選擇性就越小,分析結(jié)果的正確率就越高。

四、結(jié)語

由于時間倉促,我們構(gòu)建的語料庫規(guī)模比較小,盡管如此,我們發(fā)現(xiàn)按這種方法劃分詞類是可行的,具有一定的可操作性。雖然這100個詞中有59個詞是獨成一類,但畢竟規(guī)模太小。如果語料足夠大,相信這種情況會大大減少,會做到“詞有定類,類有定職”,這必將為句法分析帶來很大的方便。只有這種真正意義上的以句法功能為標(biāo)準(zhǔn)劃分出的細(xì)類才能為句法分析服務(wù)。這只是我們工作的開始,在后續(xù)的工作中,我們將遵照這種原則和方法,為自動句法分析重建詞類體系,只要句法功能總和相同,不管是所謂的名詞還是所謂的動詞,都可以歸為一類。漢語的詞類劃分和詞的歸類問題,是中文信息處理領(lǐng)域的基礎(chǔ)性研究問題,希望通過我們的工作,能對自動句法分析提供一定的依據(jù)。

(本文得到教育部人文社科基金項目“基于語法功能匹配的自動句法分析研究[11YJA740118]”的資助。)

注 釋:

①陳小荷.從自動句法分析角度看漢語詞類問題[J].語言教學(xué)與研究,1999,(3).

參考文獻(xiàn):

[1]郭銳.現(xiàn)代漢語詞類研究[M].北京:商務(wù)印書館,2003.

[2]胡明揚.詞類問題考察[M].北京:北京語言學(xué)院出版社,1996.

[3]胡明揚.語言學(xué)論文集[M].北京:商務(wù)印書館,2003.

[4]劉順.現(xiàn)代漢語名詞的多視角研究[M].上海:學(xué)林出版社,2003.

[5]羅振聲,袁毓林.計算機時代的漢語和漢字研究[M].北京:清華大學(xué)出版社,1996.

[6]莫彭齡,單青.三大類實詞句法功能的統(tǒng)計分析[J].南京師大學(xué)報(社會科學(xué)版),1985,(3).

[7]彭睿.名詞和名詞的再分類[A].詞類問題考察[C].北京:北京語言學(xué)院出版社,1996.

[8]史存直.句本位語法論集[M].上海:上海教育出版社,1996.

[9]張斌.漢語語法學(xué)[M].上海:上海教育出版社,2003.

[10]朱德熙.語法講義[M].北京:商務(wù)印書館,1982.

(徐艷華 山東煙臺 魯東大學(xué)文學(xué)院 264025)

主站蜘蛛池模板: 呦女亚洲一区精品| 久久青草精品一区二区三区 | 亚洲人成影院午夜网站| 欧美日韩一区二区三区四区在线观看| 久久特级毛片| 麻豆精品在线| 国产va在线| 国产一区二区人大臿蕉香蕉| 天天综合网亚洲网站| 极品尤物av美乳在线观看| 久久久久久久久18禁秘| 亚洲青涩在线| 四虎国产成人免费观看| 中文字幕乱妇无码AV在线| 无码免费的亚洲视频| 2021亚洲精品不卡a| 试看120秒男女啪啪免费| 久久久久久久久久国产精品| 在线观看国产网址你懂的| 在线看片中文字幕| 99久久人妻精品免费二区| 69av免费视频| 欧美第九页| 91美女在线| 激情综合网激情综合| 精品免费在线视频| 一级一毛片a级毛片| 日韩在线视频网站| 99精品久久精品| 2020国产精品视频| 天天做天天爱夜夜爽毛片毛片| 午夜电影在线观看国产1区| 精品久久国产综合精麻豆| 欧美精品啪啪一区二区三区| 香蕉精品在线| 热久久综合这里只有精品电影| 日韩精品资源| 全色黄大色大片免费久久老太| 国产成人无码Av在线播放无广告| 丁香五月激情图片| 亚欧成人无码AV在线播放| 五月婷婷丁香综合| 亚洲色成人www在线观看| 第一页亚洲| 夜夜高潮夜夜爽国产伦精品| 凹凸国产熟女精品视频| 国产真实二区一区在线亚洲| 久久黄色毛片| 欧美国产成人在线| 91免费精品国偷自产在线在线| 在线免费观看AV| 亚洲综合极品香蕉久久网| 日韩精品久久无码中文字幕色欲| 性视频久久| 一本大道AV人久久综合| 国产99视频精品免费视频7| 亚洲精品视频在线观看视频| 久久香蕉国产线| 国产福利一区二区在线观看| 一级香蕉人体视频| 亚洲制服中文字幕一区二区| 免费国产福利| 欧美亚洲国产精品第一页| 伊人福利视频| 国产欧美日韩精品综合在线| 欧美成人h精品网站| 看看一级毛片| 国产色婷婷视频在线观看| 91福利免费| 99久久精品国产综合婷婷| 免费人成黄页在线观看国产| av手机版在线播放| 国产后式a一视频| 久久一日本道色综合久久| 国产精品成人观看视频国产| 欧美在线伊人| 久久精品丝袜| 在线观看视频99| 91无码视频在线观看| 成人韩免费网站| 玖玖精品在线| 亚洲无码91视频|