錢小飛
摘 要:名詞短語識別是漢語句法分析中的難點,挖掘和利用語言學知識是提高名詞短語識別效率的關鍵。文章對漢語名詞短語識別相關的本體研究進行了綜述,討論了名詞短語的界定、分類、性質判定、結構關系和功能等問題,這些研究對于定義名詞短語,抓取識別特征具有啟發意義。
關鍵詞:面向識別任務 漢語名詞短語 本體研究 綜述
一、中文信息處理與名詞短語研究
在中文信息處理的基礎研究中,名詞短語的識別是一個重要問題,也是進一步作句法和語義處理的基礎。研究漢語名詞短語的專著較少,史錫堯(1990)對名詞短語的內部結構、定語構成、中心語構成以及定語順序進行了較詳細的描寫。王玨(2001)涉及到名詞的句法功能、語義關系、定語類型以及定語順序等問題。其他論述多散見于單篇文獻。從結構內容上劃分,我們將面向識別任務的名詞短語本體研究歸納為三個方面:(1)“的”的同一性;(2)含“的”名詞短語研究;(3)不含“的”名詞短語研究。這些研究涉及到名詞短語的界定問題,以及潛在可用的識別資源和策略問題。本文通過對這些研究的整理分析,梳理和辨識對名詞短語識別有用的語言學知識。
二、“的”的同一性
“的”的同一性問題涉及到名詞短語界定。哪些“的”字短語是名詞性的,存在爭議。以De表示廣義的“的”①,弱化其形式區分,同一性研究即如何對De進行更合理的分類。字面上,“的”是一種文字形式。但語料中存在少量De字同形,如“的1”和“的3”同形,“的2”和“的3”同形,以前者為例,不應包含在名詞短語的結構助詞中。盡管漢語書面形式約定“的”“地”“得”分別是定語、狀語、補語的標識,但實際語料中存在不合約定的用法,并且含“的”短語也并不完全對應著名詞短語。
De的同一性研究包括四分說、二分說、三分說和同一說四種觀點。
(一)四分說
黎錦熙(1924)把De分為“特別介詞”“語尾”“聯接代名詞”和“確定語態的助詞”四類,涉及到De字研究的一些重要問題,如De作為語氣詞、副詞性語尾,引導補語,表領屬關系以及構成“的”字短語等問題。這一分類初步區分了副詞性語尾“地”和補語標志“得”。
(二)二分說
呂叔湘(1942)論述了部分De表示語氣的現象,提出把De分為關系詞和語氣詞兩類。關系詞表示加語與端語的組合關系;語氣詞表示確認的語氣。二分說把表示語氣和修飾關系放在對立面上,區分了句末或動賓之間表語氣的De和偏正結構中的De,引起了學術界對于語氣詞“的”的關注。
(三)三分說
朱德熙(1961)應用功能分布理論系統地研究了De的性質和分類問題,將“X的”語法功能的不同歸結為De的不同功用,從而把De區分為三個語素:“的1”“的2”和“的3”,分別是副詞性語法單位、形容詞性語法單位、名詞性語法單位的后附成分。這一分類在語法學界引發了關于De的性質和分類問題的大討論,問題涉及分類方法、分類內容等多個方面。以下兩個問題特別值得我們注意。
1.是否存在語氣詞De。朱德熙(1961、1966)使用“是……的”框架,論證了“我會寫的”中的“的”是“的3”,同時也指出作為語氣詞的De和“的3”的界限“實在不容易劃清楚”,承認語氣詞De與否都會遇到困難。
2.是否存在時間助詞De。宋玉柱(1981)論證了表示時間的De,指出這些De指明動作發生于過去,去掉De會改變動作時間,造成語義矛盾,如“他昨天晚上什么時候回來的?”。它們不能用于表示將來時的句子中,如“你明天什么時候回來的?”。
我們認為De表示語氣和時間的情況是客觀存在的,但上述論述只有建立在De字功能單一的假設上才能成立,在“我昨天買的是這本書”中,“的”是時間助詞還是“的3”,亦或同時實現了兩種功能呢?僅看作時間助詞至少是不全面的。
(四)同一說
隨著研究的深入,學術界越來越傾向于De字功能同一的觀點。石毓智(2000)從認知的角度,認為De的功能是用來確立認知域中的成員。功能同一性的論證多在認知層面進行,這種抽象的解釋形式難以用來解決句法功能分類問題。
對于計算機而言,三分說系統地考察了“的1”“的2”和“的3”的分布位置,有較好的可操作性。首先,“的1”對應于形式“地”,不可能作為名詞短語;其次,清楚地描述了“的2”和“的3”的分布差異,可以較明確地分辨名詞性和形容詞性“的”字短語。
三、含“的”名詞短語研究
構造名詞短語的De,可以是“的2”或“的3”。一方面,De的問題受到廣泛關注;另一方面,語言學家觀察得到De的參與是形成復雜名詞短語的重要因素。按照是否含有結構助詞De,名詞短語分為含De名詞短語和不含De名詞短語。
(一)“的”字短語研究
關于名詞性“的”字短語的研究主要討論了“的”的性質,“的”字短語的自指、轉指和成分提取等方面的問題。
1.“的”的性質
早期以黎錦熙(1924)等為代表的學者認為,“的”字短語是由含“的”偏正結構省略中心語而來,往往可以將省略成分補充出來,其中“的”是修飾語的標記。但在許多情況下,中心語無法補出,中心詞省略說也就失去了解釋力,如“醬油和醋一樣打五分錢的”。
朱德熙(1966)反對修飾語標記省略的觀點,采用功能分布理論區分了三個De,認為“S的”是一個自足的名詞性成分,其后并沒有省略什么,“的”是名詞性成分的標記。根據該理論,“相對程度副詞+形容詞+的”是謂詞性的,其中“的”是形容詞性單位的后附成分,但是這樣的格式卻能夠出現在主語的位置上用于指稱,如“更重要的是今年的高考”。
郭銳(2000)區分了表述功能的詞匯層面和句法層面,把“的”看成是詞匯層面的“飾詞標記”,認為“開車的跑了”中“開車的”與“急性好治”中的“急性”一樣,都是飾詞性成分在句法層面的指稱化。endprint
名詞短語識別作為一項較為基礎的研究,宜采用較為寬泛的定義,我們主張以朱德熙的觀點為主,部分采納郭銳關于飾詞性成分指稱化的觀點,將主語位置上的謂詞性“X+的2”短語也納入名詞短語的范疇。
2.“的”字短語的指代和成分提取
朱德熙(1978)研究了由動詞性結構組成的“的”字短語(DJ的)以及由該類“的”字短語組成的判斷句,分析了“DJ的”與“DJ的+M”的關系,認為“DJ的”中關于動詞存在主謂和述賓兩種句法關系,“DJ的”總是優先指代未出現的關系成分,因而可以指代三種對象:潛主語、潛賓語和其他成分。指代前兩者的“DJ的”,對應了同格成分“M”;并且隨著動詞向的不同,“DJ的”在句中可能出現0個或多個潛在關系成分,因而“DJ的”可能產生指代歧義。“DJ的”結構指代潛主語、潛賓語和其他成分的不同之處在于,指代潛主語的“DJ的”語義上能夠離開“M”而獨立,而指代潛賓語的則不能。袁毓林(1994)修正了朱德熙關于“的”字短語歧義指數的計算方法,認為句法成分的提取不僅與動詞的價有關,也與名詞的配價有關。
沈家煊(1999)提出了一個轉喻/轉指的認知模型,在認知框架內將指代目標和替代項分辨為兩個不同的對象,替代項能夠激活指代目標,并且替代項的顯著度高于指代目標。認知框架與配價結構有時是一致的,有時卻不一致,這樣更好地解釋了“的”字短語的自指和轉指問題。如“毒蛇咬的(傷口)”并不在配價結構內,但卻在“施事—動作—結果”這一認知框架內,替代項“毒蛇咬”這一動作比指代目標“傷口”內涵更多,顯著度更高。
指代和成分提取研究表明,“的”字短語內部存在精巧的句法語義構造。根據朱德熙的觀點,多數包含動詞的含“的”偏正結構可以看作是“De字短語+中心語”形式。這樣,在“[NP1]+V+[NP2]+De+[NP3]”格式中,NP1、NP2、NP3與動詞“V”都存在句法語義關系,這些關系可以參與短語邊界識別,如判斷“V”是否“NP2+De+NP3”的左邊界,而這正是最長名詞短語識別的難點。
“的”字短語的構造規則還提供了挖掘句法語義關系的方法。絕大部分動詞是二價動詞,“VP的”多提取主語和賓語,最常見的是提取賓語,可以利用轉指規則自動獲取搭配。但風險也可以預見:對二價動詞,提取的結果可能是<動詞,結果>,如“毒蛇咬的(傷口)”中的<咬,傷口>;對一價動詞,可能提取出<動詞,施事>,如從“游泳的人”中提取出<游泳,人>;或定中搭配對,如<游泳,健將>。
(二)含“的”偏正結構研究
含“的”偏正結構是以助詞“的”為標記的偏正結構。研究主要涉及三個方面:含“的”偏正結構的屬性;“N1的N2”內部關系;“N的V”結構與功能。
關于結構屬性的研究主要從語法和認知兩個角度進行,探討了無標記偏正結構和含“的”偏正結構的異同。
“N1的N2”內部關系研究涉及到了其內部的語法、語義、語用等層面,集中討論了其中的領屬關系問題(沈陽,1995)。領屬關系知識能夠給識別工作提供消歧知識。例如,“修理汽車的輪子”對于計算機來說是一個歧義結構,當檢測到“汽車”和“輪子”具有很強的領屬關系時,基本可以排除“修理”和“汽車”在該句中作為動賓搭配的可能性。
“N的V”結構是名詞性的還是動詞性的存在爭議。學術界就其歷史演變、內部結構、外部功能等進行了多角度的研究。爭論的焦點是“N的V”的內部結構關系和“V”的名物化問題。
1.內部結構關系
從內部結構的研究來看,主要有主謂關系說、偏正關系說,后者得到了語法學界的廣泛承認,大多數語法學家都持有這一觀點。
張伯江(1993)細致地考察了“N的V”的內部結構語義關系,特別是“V”可能實現的語法性質,發現表示時間意義的語法手段最受限制,表情態的次之,而動詞自身的補充成分(賓語)和修飾性成分(狀語)比較自由。常見修飾性成分有:專職動詞前加詞,如“全速、大力”;副詞,如“不”;表否定意義的助動詞,如“未能、不肯”。“V”后出現賓語的情況較普遍,但不容易出現補語和動態助詞“了、著、過”。從語義關系看,大多數情況下“N”是施事,但作受事也不少見。
沈家煊等(2000)從認知角度研究了“N”和“V”的句法語義關系,根據“N”能否作“V”的主賓語,分析了構成“N的V”的四種情形,四種情況形成各自的動詞聚類,并認為“N的V”是“參照體—目標”構式,“N”是參照體,“V”是目標,人們通過參照體獲得對目標的認知,因此進入“N的V”的“N”必然是與“V”聯系的凸現度或可及度較高的名詞。
2.動詞名物化
內部結構的一個重要問題是“V”是否名物化。黎錦熙(1924)在其構建的“依句辨品”的語法體系中,將詞類和句法成分一一對應,認為主語和賓語位置上的“V”轉化成了名詞。朱德熙反對“名物化”的觀點,認為動詞作主語時受定語修飾是動詞固有的用法,而“這本書的出版”之所以是名詞性的,并非因為該結構出現在主語或賓語的位置上,而是因為“這個結構本身是名詞性的:既不能作謂語,也不能受副詞修飾”。
張伯江(1993)沒有對“V”的性質作出定論,但認為“V”的名詞性增強,動詞性減弱;王冬梅(2002)采用及物性理論中的八項及物性判定特征對“V”進行測試,得出同樣的結論,發現及物性越高的動詞越不容易出現在該結構中。
3.外部句法功能
由于對“N的V”的結構關系、結構核心認識不同,對它的外部功能也存在不同見解。基本分為兩種觀點,一種認為“N的V”是名詞性的,持名物化說、偏正關系說及“參照體—目標”構式說的學者大都持此觀點。
張伯江(1993)根據語料統計指出,“N的V”格式作主語和賓語的幾率大約各占一半,并且作賓語時更傾向于作介詞賓語;當“V”為光桿動詞時,作主語或賓語都十分常見,“V”前后帶附加成分時,作主語的傾向則十分明顯。endprint