面向識別任務的漢語名詞短語本體研究綜述

2017-03-31 02:08:15錢小飛

現代語文 2017年2期

錢小飛

摘要：名詞短語識別是漢語句法分析中的難點，挖掘和利用語言學知識是提高名詞短語識別效率的關鍵。文章對漢語名詞短語識別相關的本體研究進行了綜述，討論了名詞短語的界定、分類、性質判定、結構關系和功能等問題，這些研究對于定義名詞短語，抓取識別特征具有啟發意義。

關鍵詞：面向識別任務漢語名詞短語本體研究綜述

一、中文信息處理與名詞短語研究

在中文信息處理的基礎研究中，名詞短語的識別是一個重要問題，也是進一步作句法和語義處理的基礎。研究漢語名詞短語的專著較少，史錫堯（1990）對名詞短語的內部結構、定語構成、中心語構成以及定語順序進行了較詳細的描寫。王玨（2001）涉及到名詞的句法功能、語義關系、定語類型以及定語順序等問題。其他論述多散見于單篇文獻。從結構內容上劃分，我們將面向識別任務的名詞短語本體研究歸納為三個方面：（1）“的”的同一性；（2）含“的”名詞短語研究；（3）不含“的”名詞短語研究。這些研究涉及到名詞短語的界定問題，以及潛在可用的識別資源和策略問題。本文通過對這些研究的整理分析，梳理和辨識對名詞短語識別有用的語言學知識。

二、“的”的同一性

“的”的同一性問題涉及到名詞短語界定。哪些“的”字短語是名詞性的，存在爭議。以De表示廣義的“的”①，弱化其形式區分，同一性研究即如何對De進行更合理的分類。字面上，“的”是一種文字形式。但語料中存在少量De字同形，如“的1”和“的3”同形，“的2”和“的3”同形，以前者為例，不應包含在名詞短語的結構助詞中。盡管漢語書面形式約定“的”“地”“得”分別是定語、狀語、補語的標識，但實際語料中存在不合約定的用法，并且含“的”短語也并不完全對應著名詞短語。

De的同一性研究包括四分說、二分說、三分說和同一說四種觀點。

（一）四分說

黎錦熙（1924）把De分為“特別介詞”“語尾”“聯接代名詞”和“確定語態的助詞”四類，涉及到De字研究的一些重要問題，如De作為語氣詞、副詞性語尾，引導補語，表領屬關系以及構成“的”字短語等問題。這一分類初步區分了副詞性語尾“地”和補語標志“得”。

（二）二分說

呂叔湘（1942）論述了部分De表示語氣的現象，提出把De分為關系詞和語氣詞兩類。關系詞表示加語與端語的組合關系；語氣詞表示確認的語氣。二分說把表示語氣和修飾關系放在對立面上，區分了句末或動賓之間表語氣的De和偏正結構中的De，引起了學術界對于語氣詞“的”的關注。

（三）三分說

朱德熙（1961）應用功能分布理論系統地研究了De的性質和分類問題，將“X的”語法功能的不同歸結為De的不同功用，從而把De區分為三個語素：“的1”“的2”和“的3”，分別是副詞性語法單位、形容詞性語法單位、名詞性語法單位的后附成分。這一分類在語法學界引發了關于De的性質和分類問題的大討論，問題涉及分類方法、分類內容等多個方面。以下兩個問題特別值得我們注意。

1.是否存在語氣詞De。朱德熙（1961、1966）使用“是……的”框架，論證了“我會寫的”中的“的”是“的3”，同時也指出作為語氣詞的De和“的3”的界限“實在不容易劃清楚”，承認語氣詞De與否都會遇到困難。

2.是否存在時間助詞De。宋玉柱（1981）論證了表示時間的De，指出這些De指明動作發生于過去，去掉De會改變動作時間，造成語義矛盾，如“他昨天晚上什么時候回來的？”。它們不能用于表示將來時的句子中，如“你明天什么時候回來的？”。

我們認為De表示語氣和時間的情況是客觀存在的，但上述論述只有建立在De字功能單一的假設上才能成立，在“我昨天買的是這本書”中，“的”是時間助詞還是“的3”，亦或同時實現了兩種功能呢？僅看作時間助詞至少是不全面的。

（四）同一說

隨著研究的深入，學術界越來越傾向于De字功能同一的觀點。石毓智（2000）從認知的角度，認為De的功能是用來確立認知域中的成員。功能同一性的論證多在認知層面進行，這種抽象的解釋形式難以用來解決句法功能分類問題。

對于計算機而言，三分說系統地考察了“的1”“的2”和“的3”的分布位置，有較好的可操作性。首先，“的1”對應于形式“地”，不可能作為名詞短語；其次，清楚地描述了“的2”和“的3”的分布差異，可以較明確地分辨名詞性和形容詞性“的”字短語。

三、含“的”名詞短語研究

構造名詞短語的De，可以是“的2”或“的3”。一方面，De的問題受到廣泛關注；另一方面，語言學家觀察得到De的參與是形成復雜名詞短語的重要因素。按照是否含有結構助詞De，名詞短語分為含De名詞短語和不含De名詞短語。

（一）“的”字短語研究

關于名詞性“的”字短語的研究主要討論了“的”的性質，“的”字短語的自指、轉指和成分提取等方面的問題。

1.“的”的性質

早期以黎錦熙（1924）等為代表的學者認為，“的”字短語是由含“的”偏正結構省略中心語而來，往往可以將省略成分補充出來，其中“的”是修飾語的標記。但在許多情況下，中心語無法補出，中心詞省略說也就失去了解釋力，如“醬油和醋一樣打五分錢的”。

朱德熙（1966）反對修飾語標記省略的觀點，采用功能分布理論區分了三個De，認為“S的”是一個自足的名詞性成分，其后并沒有省略什么，“的”是名詞性成分的標記。根據該理論，“相對程度副詞+形容詞+的”是謂詞性的，其中“的”是形容詞性單位的后附成分，但是這樣的格式卻能夠出現在主語的位置上用于指稱，如“更重要的是今年的高考”。

郭銳（2000）區分了表述功能的詞匯層面和句法層面，把“的”看成是詞匯層面的“飾詞標記”，認為“開車的跑了”中“開車的”與“急性好治”中的“急性”一樣，都是飾詞性成分在句法層面的指稱化。endprint

名詞短語識別作為一項較為基礎的研究，宜采用較為寬泛的定義，我們主張以朱德熙的觀點為主，部分采納郭銳關于飾詞性成分指稱化的觀點，將主語位置上的謂詞性“X+的2”短語也納入名詞短語的范疇。

2.“的”字短語的指代和成分提取

朱德熙（1978）研究了由動詞性結構組成的“的”字短語（DJ的）以及由該類“的”字短語組成的判斷句，分析了“DJ的”與“DJ的+M”的關系，認為“DJ的”中關于動詞存在主謂和述賓兩種句法關系，“DJ的”總是優先指代未出現的關系成分，因而可以指代三種對象：潛主語、潛賓語和其他成分。指代前兩者的“DJ的”，對應了同格成分“M”；并且隨著動詞向的不同，“DJ的”在句中可能出現0個或多個潛在關系成分，因而“DJ的”可能產生指代歧義。“DJ的”結構指代潛主語、潛賓語和其他成分的不同之處在于，指代潛主語的“DJ的”語義上能夠離開“M”而獨立，而指代潛賓語的則不能。袁毓林（1994）修正了朱德熙關于“的”字短語歧義指數的計算方法，認為句法成分的提取不僅與動詞的價有關，也與名詞的配價有關。

沈家煊（1999）提出了一個轉喻/轉指的認知模型，在認知框架內將指代目標和替代項分辨為兩個不同的對象，替代項能夠激活指代目標，并且替代項的顯著度高于指代目標。認知框架與配價結構有時是一致的，有時卻不一致，這樣更好地解釋了“的”字短語的自指和轉指問題。如“毒蛇咬的（傷口）”并不在配價結構內，但卻在“施事—動作—結果”這一認知框架內，替代項“毒蛇咬”這一動作比指代目標“傷口”內涵更多，顯著度更高。

指代和成分提取研究表明，“的”字短語內部存在精巧的句法語義構造。根據朱德熙的觀點，多數包含動詞的含“的”偏正結構可以看作是“De字短語+中心語”形式。這樣，在“[NP1]+V+[NP2]+De+[NP3]”格式中，NP1、NP2、NP3與動詞“V”都存在句法語義關系，這些關系可以參與短語邊界識別，如判斷“V”是否“NP2+De+NP3”的左邊界，而這正是最長名詞短語識別的難點。

“的”字短語的構造規則還提供了挖掘句法語義關系的方法。絕大部分動詞是二價動詞，“VP的”多提取主語和賓語，最常見的是提取賓語，可以利用轉指規則自動獲取搭配。但風險也可以預見：對二價動詞，提取的結果可能是<動詞，結果>，如“毒蛇咬的（傷口）”中的<咬，傷口>；對一價動詞，可能提取出<動詞，施事>，如從“游泳的人”中提取出<游泳，人>；或定中搭配對，如<游泳，健將>。

（二）含“的”偏正結構研究

含“的”偏正結構是以助詞“的”為標記的偏正結構。研究主要涉及三個方面：含“的”偏正結構的屬性；“N1的N2”內部關系；“N的V”結構與功能。

關于結構屬性的研究主要從語法和認知兩個角度進行，探討了無標記偏正結構和含“的”偏正結構的異同。

“N1的N2”內部關系研究涉及到了其內部的語法、語義、語用等層面，集中討論了其中的領屬關系問題（沈陽，1995）。領屬關系知識能夠給識別工作提供消歧知識。例如，“修理汽車的輪子”對于計算機來說是一個歧義結構，當檢測到“汽車”和“輪子”具有很強的領屬關系時，基本可以排除“修理”和“汽車”在該句中作為動賓搭配的可能性。

“N的V”結構是名詞性的還是動詞性的存在爭議。學術界就其歷史演變、內部結構、外部功能等進行了多角度的研究。爭論的焦點是“N的V”的內部結構關系和“V”的名物化問題。

1.內部結構關系

從內部結構的研究來看，主要有主謂關系說、偏正關系說，后者得到了語法學界的廣泛承認，大多數語法學家都持有這一觀點。

張伯江（1993）細致地考察了“N的V”的內部結構語義關系，特別是“V”可能實現的語法性質，發現表示時間意義的語法手段最受限制，表情態的次之，而動詞自身的補充成分（賓語）和修飾性成分（狀語）比較自由。常見修飾性成分有：專職動詞前加詞，如“全速、大力”；副詞，如“不”；表否定意義的助動詞，如“未能、不肯”。“V”后出現賓語的情況較普遍，但不容易出現補語和動態助詞“了、著、過”。從語義關系看，大多數情況下“N”是施事，但作受事也不少見。

沈家煊等（2000）從認知角度研究了“N”和“V”的句法語義關系，根據“N”能否作“V”的主賓語，分析了構成“N的V”的四種情形，四種情況形成各自的動詞聚類，并認為“N的V”是“參照體—目標”構式，“N”是參照體，“V”是目標，人們通過參照體獲得對目標的認知，因此進入“N的V”的“N”必然是與“V”聯系的凸現度或可及度較高的名詞。

2.動詞名物化

內部結構的一個重要問題是“V”是否名物化。黎錦熙（1924）在其構建的“依句辨品”的語法體系中，將詞類和句法成分一一對應，認為主語和賓語位置上的“V”轉化成了名詞。朱德熙反對“名物化”的觀點，認為動詞作主語時受定語修飾是動詞固有的用法，而“這本書的出版”之所以是名詞性的，并非因為該結構出現在主語或賓語的位置上，而是因為“這個結構本身是名詞性的：既不能作謂語，也不能受副詞修飾”。

張伯江（1993）沒有對“V”的性質作出定論，但認為“V”的名詞性增強，動詞性減弱；王冬梅（2002）采用及物性理論中的八項及物性判定特征對“V”進行測試，得出同樣的結論，發現及物性越高的動詞越不容易出現在該結構中。

3.外部句法功能

由于對“N的V”的結構關系、結構核心認識不同，對它的外部功能也存在不同見解。基本分為兩種觀點，一種認為“N的V”是名詞性的，持名物化說、偏正關系說及“參照體—目標”構式說的學者大都持此觀點。

張伯江（1993）根據語料統計指出，“N的V”格式作主語和賓語的幾率大約各占一半，并且作賓語時更傾向于作介詞賓語；當“V”為光桿動詞時，作主語或賓語都十分常見，“V”前后帶附加成分時，作主語的傾向則十分明顯。endprint