宋作艷,趙青青,亢世勇
(1. 北京師范大學 文學院,北京 100875;2. 魯東大學 文學院 山東省語言資源開發與應用重點實驗室,山東 煙臺 264025)
?
漢語復合名詞語義信息標注詞庫:基于生成詞庫理論
宋作艷1,趙青青1,亢世勇2
(1. 北京師范大學 文學院,北京 100875;2. 魯東大學 文學院 山東省語言資源開發與應用重點實驗室,山東 煙臺 264025)
復合名詞分析一直是語言研究和自然語言信息處理中的一個重要問題,涉及未登錄詞的識別、自動釋義以及詞典編纂等。生成詞庫理論是目前較新的一種語義學理論,我們擬利用該理論對漢語復合名詞進行語義信息標注,建立一個詞庫。該文首先介紹了這一詞庫的標注框架,然后通過對“紙”、“石”構成的復合詞的對比分析,展示了這一詞庫在復合名詞構詞、語義研究中的應用。研究結果顯示,物性角色、自然類和人造類是非常重要的語義信息,能揭示復合名詞構詞和語義的一些模式和規律。
語義信息標注詞庫;復合名詞;生成詞庫理論;物性結構;語義類型
復合名詞是復合詞中最能產的格式,是新詞語、新術語的主要來源之一。因此,復合名詞一直是語言理論研究的重要內容,也是自然語言處理中的一個難題。研究的重點主要在復合名詞內部復雜的語義結構、語義模式、釋義等方面,如文獻[1-3]。
生成詞庫理論是目前較新的語義學理論。Johnson 和Busa[4]較早在復合名詞(短語)的研究中系統引入了這一理論,建議用物性修飾(qualia modification)來刻畫偏正式名名復合詞內部的語義關系,并據此分析了英語和意大利語中名名復合詞的語義模式。例如,bread knife、lemon juice、glass door中的bread、lemon、glass分別修飾中心名詞物性結構(qualia structure)中的功用角色(telic role)、施成角色(agentive role)和構成角色(constitutive role),即說明中心名詞所指事物的功用、來源和材料。這三種物性修飾關系在意大利語中分別對應不同的介詞,說明物性角色是非常重要的語義信息,具有語言學價值。自此,很多學者開始在多種語言的復合名詞研究中引入了物性結構。漢語方面,黃潔[5]、王洪君[6]分別在隱轉喻復合名詞(如“扇貝”、“雪花”)、含“鍋”、“碗”的復合名詞的分析中利用了物性結構。Lee et al.[7]從跨語言的角度例舉了名名復合詞中的四種物性修飾關系: 形式(Formal)、構成、功用、施成。宋作艷[8]利用物性結構揭示了類詞綴詞(如“鋼琴家”、“豆漿機”)中隱含的謂詞,為其釋義做出了新的解釋。Song和Qiu[9]考察了含有動詞性成分的名詞性復合詞(如“剪刀”、“叫聲”),發現其中的動詞性成分可以通過不同的方式顯示復合名詞的功用角色或施成角色,其中功用角色最為常見。
不過,基于生成詞庫理論的漢語復合名詞研究還不夠深入和系統,表現在主要借鑒其物性結構,并未涉及其語義類型體系;研究僅限于舉例式,并未進行大規模的統計分析;多關注名名復合詞,尚未涉及形名等復合名詞。我們擬基于此理論中的物性結構和語義類型體系,對漢語中的各種復合名詞進行標注,建立詞庫,在此基礎上進行構詞、語義分析。建立此詞庫的目的主要有兩個,一是希望能從物性信息、自然類與人造類的角度揭示漢語復合名詞的構詞、語義特點,找出能產的構詞、釋義模式,以期用于中文信息處理中未登錄詞、術語等的自動識別和自動釋義,以及詞典編纂;二是希望在此基礎上進而建立基于生成詞庫理論的漢語語義類型體系(知識體系)。利用生成詞庫理論進行語義標注的想法最早源于Pustejovsky et al.[10],他們提出了系統的生成詞庫標注語言(GLML: A Generative Lexicon Markup Language),其中包括復合名詞物性關系的標注。Bouillon et al.[11]則設計了一套方案在上下文中標注意大利語和法語復合詞中的物性關系。與這兩種標注框架不同,我們不僅要標注物性信息,還要標注語義類型;不僅標注名名復合名詞,還標注形名、動名、名動等復合名詞;而且我們的標注在詞庫中進行。
下文首先簡單介紹生成詞庫理論,然后描述復合名詞詞庫的語義標注框架,在此基礎上以“紙”、“石”構成的復合詞為例,說明這一詞庫在復合名詞構詞、語義研究中的應用。
生成詞庫理論是基于計算和認知的自然語言意義模型,關注詞義的形式化和計算。該理論的核心思想是,詞的意義是相對穩定的,但詞與詞在組合中,可能會通過一些語義生成機制(組合機制)獲得延伸意義,可以通過豐富詞項的詞匯特征(Lexical representation)和語義生成機制來解釋詞的不同用法以及在上下文中的創新性用法。其理論框架主要包括兩大部分: 詞項的詞匯表征和語義生成機制。這里重點介紹前者,關于這一理論的詳細介紹參見文獻[12]。
詞項的詞匯表征包括四個層面[13]: 論元結構(argument structure)、事件結構(event structure)、物性結構(qualia structure)和詞匯類型結構(lexical typing structure)。物性結構是詞庫生成性特征(generative feature)的核心,包括四種物性角色: 構成角色(constitutive role)、形式角色(formal role)、功用角色(telic role)和施成角色(agentive role)。構成角色描寫事物與其組成部分之間的關系,包括材料、重量、部分和組成成分等;形式角色描寫事物在更大的認知域內區別于其他事物的屬性,包括方位、大小、形狀和維度等;功用角色描寫事物的目的(purpose)和功能(function);施成角色描寫事物是怎樣形成或產生的。以“書”為例,它的構成角色包括封面、封底、章節等,形式角色包括書的大小、形狀等,施成角色和功用角色分別是“寫”和“讀”。需要說明的是,每個角色的賦值可能不止一個。例如,“出版”也可以看成“書”的施成角色。除了上述四種角色,最近,自然功用角色(natural telic role)和規約化屬性(conventionalized attributes)也開始被納入廣義的物性結構[14-15]。自然功用表示事物的天然功能,與意圖和目的無關。如“抽壓血液”是“心臟”的自然功用。規約化屬性指事物的典型特征,包括自然物的典型用途、與事物相關的常規活動等。例如,“叫”是“狗”的規約化屬性,“消化”是“食物”的規約化屬性。
根據物性角色,名詞可以分為三類[16-17]。
1) 自然類(natural types): 只與形式角色和構成角色相關的概念。例如,兔子、石頭、樹、水、老虎、女人。
2) 人造類(artifactual types): 與功用角色和/或施成角色相關的概念。與自然美之間最大的區別是有“意向性”(intentionality)。例如,刀、啤酒、醫生、老師。
3) 合成類(complex types): 至少由兩個類型組成的概念。如“午飯”既可以指事件,也可以指食物。
動詞、形容詞根據其與名詞語義類的對應(搭配)關系也相應地分為三大類,如rabbit(兔子)是自然類,die(死)就是自然類,因為可以說 The rabbit dies。圖1是三大范疇的上層分類,最上層概念被結構化成實體、事件和性質三個域,每一個域又被結構化成自然類、人造類和合成類,由簡單到復雜。

圖1 三分的概念網格(Tripartite Concept Lattice)
與傳統的以動詞為中心的理論模型不同,生成詞庫理論強調名詞在語義組合中的重要性,因此,像刻畫動詞一樣對名詞的語義進行了詳細的刻畫。尤其是物性結構的引入,把與語言相關的日常知識引入到名詞的語義描寫中,說明了與一個事物相關的事物、事件和關系,表達了一個名詞中典型的謂詞和關系。物性關系是一種語義關系,而自然類與人造類的區分也體現了認知語義、概念體系中非常根本的分類。
我們標注的復合名詞主要來源于HowNet詞典(2000版)和《現代漢語詞典》(第6版),少部分是通過內省的方式補充的,包括名-名、動-名、名-動、動-動、形-名等復合名詞,多是二音節、三音節名詞。具體說來,主要標注以下信息(圖2)。

圖2 復合名詞詞庫標注樣例
1) 構詞成分的詞性: 形容詞(a)、動詞(v)、名詞(n)等。
2) 構詞成分的語義類: 自然類(N)、人造類(A)、不確定(U)。
3) 復合名詞的語義類: 自然類(N)、人造類(A)、不確定(U)。
4) 復合名詞的結構關系: 偏正、主謂、述賓、并列等。
5) 構詞成分與復合名詞之間的物性關系*我們把物性修飾關系改成了物性關系,因為前者只適用于偏正結構,關注的是修飾成分與中心名詞之間的語義關系,即修飾成分修飾了中心名詞的哪種物性角色,如“白”修飾的是“紙”的形式角色(顏色)。后者適用于各種結構的復合名詞, 關注構詞成分與復合名詞之間的語義關系,即構詞成分顯示了復合名詞的哪種物性角色信息,如“白”是“白紙”的形式角色,動詞“編輯”是名詞“編輯”的功用角色,“刷牙”是“牙刷”的功用角色。: 包括構成、形式、功用、施成、規約化屬性五種。有些還需要細分小類,如構成角色分為材料、成分、部分-整體關系等;形式角色分為顏色、形狀等,功用角色分為自然功用和人為功用;施成角色也分為自然和人為兩類。例如,“膠”與“膠紙”之間是構成關系,“白”與“白紙”之間是形式關系,“吸墨”與“吸墨紙”之間是功用關系、“剪”和“紙”與“剪紙”之間是施成關系。
6) 詞義變化: 隱喻(前隱喻、后隱喻、整體隱喻)、轉喻、轉類等。
7) 英語對應詞或釋義。標注自然類、人造類的目的是想檢驗這種分類對于構詞和詞義是否有系統性影響,有的話表現在哪些方面。標注物性關系是為了揭示構詞成分之間,以及構詞成分與復合詞之間的語義關系。
需要說明的是,這一標注框架只適合處理那些語義透明度(semantic transparency)比較高的詞,或者說語義組合性(semantic compositionality)比較強的詞,即復合詞的詞義全部或部分由其構詞成分的意義組合而成的詞。根據李晉霞[18]的統計分析,現代漢語中絕大多數詞是比較透明和完全透明的。而且根據我們的初步考察,語義透明的詞更易形成能產的模式。因此,這一標注框架的覆蓋面、適用面是足夠廣的。
利用標注的詞庫,我們可以對復合名詞的構詞、語義關系、語義類、語義模式以及它們之間的相關性做定性和定量分析,也可以對特定語素構成的復合詞進行定量和定性分析。下文將以“石”、“紙”構成的復合詞為例說明。之所以選這兩個語素,是因為二者所指的事物常常被用作材料,但卻分別代表了典型的自然類和人造類,適合做比較分析。
本節首先分析了含“紙”的復合名詞,然后與含“石”的復合名詞做了比較,接著分析了兩類復合名詞中的隱喻詞,最后概括了構詞成分的語義類與復合名詞語義類之間的推導關系。
4.1 含語素“紙”的復合名詞
圖3和圖4分別呈現了“紙X”和“X紙”的分析結果。除了“剪紙”,“紙”構成的復合詞都是偏正結構,都是人造類名詞?!凹圶”只涉及兩種物性關系: 構成和功用。其中,表材料的構成關系最多,即“紙”通常說明復合名詞所指事物的材料。中心名詞可以是人造類、自然類。例如,“紙盒”指紙做的盒子,“紙魚”指紙做的魚狀的東西,涉及隱喻。修飾類別不確定的形狀名詞時,有兩種釋義,例如,“紙條”可以理解為“紙做的條狀物”, 也可以理解為“條狀的紙”。表功用時說明復合名詞所指事物的功用, 中心名詞只能是人造類。如“紙廠”是用來造紙的工廠,“紙簍”是用來裝廢紙的簍子。

圖3 “紙X”的物性信息和語義類

圖4 “X紙”的物性信息和語義類
“X紙”涉及四種物性關系,其中表功用的最多,然后是形式、施成和構成。修飾成分X既可以是人造類,也可以是自然類。表功用時,X可以是名詞、動詞和形容詞。“N紙”表功用時,需要在釋義時恢復隱含的謂詞。例如,“信紙”是用來寫信的,“寫”是“信”的施成角色;“打印紙”是用來打印的;“廢紙”是失去使用價值的紙,是就“紙”的功用而言的。表形式時,修飾成分也可以是名詞、動詞和形容詞。例如,“玻璃紙”是像玻璃一樣透明的紙;“感光”體現了“紙”的特性;“白紙”、“薄紙”,是就紙的顏色、厚薄而言的(可與“廢紙”比較)。修飾成分是名詞時大都涉及隱喻。表施成時,往往涉及原料、來源。例如,“竹紙”是用竹子造的紙*竹紙造成后基本上看不出原料,不能說竹紙里含有竹子,所以“竹”并非“紙”的材料,而是原料,因此體現的是施成關系,而不是構成關系(可與“紙盒”比較)。,“竹子”是紙的原料;“道林”是最早生產道林紙的公司,體現了這種紙的來源?!凹艏垺北容^特別,是動賓結構,轉指剪紙后生成的東西。表構成時,通常說明紙上有某種東西,例如,“字紙”是上面有字的紙;“圖紙”是上面有圖的紙,而不是用來畫圖的紙。
不同物性關系反映了不同的構詞、語義模式,有些模式非常能產。如“紙X”幾乎都表材料,釋義模式是“用紙做的X”。26例“V紙”中,24例表功用,因此,表功用的“V紙”也是非常能產的模式。如果在文本中發現新的“V紙”,幾乎可以斷定其中的V就是表功用的,可以對這個詞自動釋義為“用來V的紙”。
4.2 比較: “石”、“紙”構成的復合名詞
我們對含“石”的復合名詞做了類似分析, 并與含“紙”的復合名詞做了對比。結果發現,二者構成的復合名詞幾乎都是偏正結構,但在物性信息和語義類型方面不盡相同。如表1所示,“石”、“紙”做修飾成分時差別不大,體現的最主要的是構成關系。也就是說,“石”、“紙”都用來說明復合名詞所指事物的材料,只是一個指天然材料,一個指人造材料。這類復合名詞的釋義模式是“用N1做的N2”。例如,“石碑”是用石頭做的碑,“紙杯”是用紙做的杯子。當然,有些復合名詞的語義透明度沒那么高,內部語義結構比較復雜,釋義沒有那么直接,需要進行細節調整。例如,“石獅”釋義為“石頭做的獅子”還不夠準確,應該是“石頭做的獅子狀的東西”,涉及隱喻。“紙包子”簡單理解為“紙做的包子”也不太準確,這里的紙不是一般的紙,而是做紙箱的紙,做的不是包子皮而是餡兒。所以更精確的釋義是“用紙箱做餡兒的包子”。不過,我們重點關注構詞、釋義的模式。“石X”還體現了形式、施成和功用關系。例如,“石油”通常聚集在巖石的空隙中,“石灰”是石頭煅燒而產生的,“石匠”是開鑿石料和用石料制作器物的工人,“石”分別說明了復合名詞所指事物的位置、來源和功用?!凹圶”則沒有形式和施成角色修飾關系?!凹圶”都是人造類名詞,“石X”大部分都是人造類名詞。這是因為絕大多數“石X”都體現構成關系,而構成關系中絕大部分又是表材料的。準確地說,表材料時通常都涉及施成,因為材料和成品之間是制造關系,如“石舫”、“石筆”等?!笆S”、“石鐘乳”是天然形成的,雖然也是構成關系,但不表材料,可以看作組成成分,是自然類。理解為“筍狀的石頭”、“鐘乳狀的石頭”可能更合適。

表1 比較“石”、“紙”構成的復合詞
“石”、“紙”做中心成分時差別比較大,“X石”中涉及的物性關系依次是: 形式、施成、規約化屬性、功用和構成。例如,“滑石”指光滑的石頭;“碎石”是粉碎來的,“大理石”是大理產的;“吸鐵”是“吸鐵石”的規約化屬性;“界石”是用來標志地界的石頭;“礁石”主要是“礁體”組成的。值得注意的是,“X石”中的施成關系通常與人為無關,例如,“隕石”、“化石”、
“結石”都是自然形成的?!癤紙”中最主要的物性關系則是功用,然后才是形式、施成和構成?!癤紙”都是人造類名詞,但“X石”絕大部分都是自然類名詞?!笆薄ⅰ凹垺钡纳鲜霾町愺w現了自然類、人造類名詞在語義和構詞上的差別: 以自然類為中心的復合名詞多是自然類,主要體現形式關系;以人造類為中心的復合名詞通常是人造類,主要體現功用關系。
特定構詞語素的構詞、語義分析能幫助我們更好地理解它所表達的概念。例如,紙是人造物,通常用作材料,經常按用途分類。石頭是自然物,通常用做天然材料,經常按性質分類。
4.3 隱喻式名名復合詞
含“石”、“紙”的名名復合名詞很多是隱喻構詞。隱喻基于事物之間的相似性,這種相似性表現為復合名詞與其中的喻體名詞具有相同的某種物性角色。例如,“石獅”與“獅(子)”的形式角色相同,因為它們所指事物的外形相似。隱喻式“石X”、“紙X”表構成(材料)都是后喻式復合詞,即后面的名詞是隱喻用法,多利用中心名詞的形式角色(外形)。中心名詞X如果是類型不確定的名詞和自然類名詞,一定存在隱喻,如“石板”、“紙條”、“石獅”、“紙花”。形狀名詞最初其實也指具體事物,如“板”的本義是“片狀的木頭”,只是隱喻引申成了形狀像木板的物體,而且這個義項成了中心意義?!凹埨匣ⅰ背撕箅[喻,還存在整體隱喻。X如果是人造類,大部分不存在隱喻,如“石碑”、“紙盒”。少部分是后喻式復合詞,如“紙船”、“紙巾”,有些不僅涉及外形上的相似性,還涉及功用上的相似性。如“紙巾”不只是外形上像毛巾,而且功能上也像,可以用來擦拭、清潔。這些隱喻式復合詞如果指人造物,釋義模式是“石頭/紙做的X”;如果指自然物,釋義模式是“X狀的石頭或紙”。如“石筍”通常釋義為“筍狀的石頭”,而“紙花”通常釋義為“紙做的花”“石板”可能是天然形成的,也可能是人為了某種目的專門造的,意思分別是“板狀的石頭”、“石頭造的板子”。這說明人造類、自然類的區分影響釋義模式。
1) 石/紙+U: 石板、紙條、紙屑、紙帶、紙片[后喻式: 外形]
2) 石/紙+N: 石筍、石獅、石林、紙花、紙魚、紙鳶、紙鶴、紙人、紙老虎[后喻式: 外形]
3) 石/紙+A: 石鐘乳、石鎖、紙船[后喻式: 外形]紙巾、紙錢[后喻式: 外形和功用]
與其它復合名詞不同,后喻式復合名詞能體現兩種物性關系,因為定語名詞和中心語名詞都能激活復合名詞的物性角色。如“紙鶴”中“紙”說明了紙鶴的材料(構成角色),而“鶴”說明了紙鶴的樣子(形式角色)。個別“石X” 是前喻式名名復合詞,即前面的名詞是隱喻用法。如“石煤”、“石女”。
“X石”、“X紙”中多是前喻式名名復合詞,主要與定語名詞的形式角色有關,但與“石X”、“紙X”不同,不只是利用了名詞形式角色中的外形特征,而且還涉及顏色、特性等。如“鵝卵石”形狀像鵝卵,“雞冠石”顏色和形狀如雞冠,“螢石”可以像螢火蟲一樣發光。如果定語名詞是人造類名詞“紙”,可能還涉及功用。如“玻璃紙”、“塑料紙”有時可以代替玻璃、塑料的部分功能。
1) N/A+石: 鵝卵石、雞冠石、白云石、卵石、螢石、油石、鐘乳石 [前喻式: 外形、顏色、性質等]
2) N/A+紙: 馬糞紙、牛皮紙、綿紙、糯米紙、瓦楞紙 [前喻式: 外形、顏色性質等]玻璃紙、塑料紙[前喻式: 顏色、性質、功用等]
有意思的是,“鐘乳石”和“石鐘乳”指同一種事物,但命名方式不一樣,字面意思也不一樣。一個是前喻式,意思是“鐘乳狀的石頭”;一個是后喻式,意思是“組成成分為石頭的鐘乳狀的東西”。
總而言之,后喻式通常涉及物體外形的相似性,前喻式不僅涉及外形,還涉及顏色、性質等。人造類名詞做喻體,無論在前在后,都可能會涉及事物之間功用的相似性。
4.4 語義類的推導關系
根據構詞成分的語義類型,復合詞有四種可能的組合: 自然類+自然類(N+N)、人造類+人造類(A+A)、自然類+人造類(N+A)、人造類+自然類(A+N)。復合詞的類型能否從構詞成分的類推導出呢?我們研究發現偏正復合名詞有兩條規律:
1) 如果中心名詞是人造類,復合名詞一定是人造類,不受物性關系的影響。例如,
N+A=A: 石碑、石雕、面紙、彩紙
A +A=A: 紙箱、紙簍、紙船
有兩個例外,“鐘乳”、“柱”都是人造類,但“石鐘乳”、“石柱”指自然物,這是因為“鐘乳”、“柱”是隱喻用法,并不指鐘乳和柱子,而是外形像鐘乳和柱子的東西,實際上是自然物。
2) 如果中心名詞是自然類,復合名詞的類受物性關系的影響: 如果修飾成分表形式、規約化屬性和自然施成,復合名詞是自然類;如果修飾成分表構成(材料)、人為功用或人為施成,復合名詞是人造類。如:
N+N=N: 卵石、滑石、石筍(形式);試金石、吸鐵石*“吸鐵石”可以用來吸鐵,這是它的自然屬性,與人的意愿無關。因此“吸鐵”看作規約化屬性,而不是功用角色。(規約化屬性);結石(自然施成)
N+N=A: 石林、石獅、石羊(構成)
A + N=A: 界石、柱石、紙鶴、紙花(人為功用);電石(人為施成)
本文介紹了基于生成詞庫理論的復合名詞語義信息標注詞庫,主要標注四種物性信息(構成、形式、功用和施成)和兩種語義類型(自然類、人造類)。“紙”、“石”構成的復合詞的對比分析顯示: 1)物性關系是一種語義關系,不同的物性關系體現了不同的構詞、語義模式,這些模式可以用于復合名詞的釋義。2)不同物性關系與人造類名詞和自然類名詞的相關度不一樣;3)物性信息和兩種語義類型可以用于隱喻復合詞的解釋;4)構詞成分的類與復合名詞的類之間存在推導關系??傊?,物性信息、自然類和人造類是非常重要的語義信息,能揭示復合名詞構詞和語義的一些模式和規律。
詞庫的建設才剛剛起步,目前標注了4 000多個復合詞,接下來需要進一步擴大規模,細化要標注的語義信息,實現部分自動標注;列出構詞、釋義模式;把復合名詞的分析方法進一步擴展應用到粘合式名詞短語的語義分析中(如“愛情故事”、“電影公司”[19]“網易養豬場”、“瘦肉精羊”[20]);并進一步開發其在詞匯研究和中文信息處理中的應用,包括未登錄詞的自動識別、自動釋義、詞典編纂等。
[1] 董秀芳. 漢語的詞庫與詞法[M].北京: 北京大學出版社, 2004.
[2] 邱立坤.單音節名詞(綴)的釋義模式與三音節名詞的語義結構關系[C].內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集, 2007: 203-208.
[3] 譚景春.名名偏正結構的語義關系及其在詞典釋義中的作用[J]. 中國語文, 2010, 4: 342-355.
[4] Johnston M, F Busa. Qualia Structure and the Compositional Interpretation of Compounds[C]//Proceedings of E. Viegas. Breadth and Depth of Semantics Lexicons. Dordrecht: Kluwer, 1999:167-187.
[5] 黃潔.漢英隱轉喻名名復合詞語義的認知研究[J].外語教學, 2008,4: 25-29.
[6] 王洪君.從兩個同級義場代表單字的搭配異同看語義特征和語義層級——以“鍋”和“碗”為例[J]. 世界漢語教學, 2010, 2:147-157.
[7] Lee, Chih-yao, Chia-hao Chang, et al. Qualia Modification in Noun-Noun Compounds: A Cross-Language Survey[C]//Proceedings of the 22nd Conference on Computational Linguistics and Speech Processing (ROCLING-2010), 2010: 379-390.
[8] 宋作艷.類詞綴與事件強迫[J]. 世界漢語教學, 2010,4:446-458.
[9] Song, Zuoyan, Likun Qiu. Qualia Relations in Chinese Nominal Compounds Containing Verbal Elements[J]. International Journal of Knowledge and Language Processing, 2013, 4(1):1-15.
[10] Pustejovsky J, A Rumshisky, J L Moszkowicz, et al. GLML: A Generative Lexicon Markup Language[C]//Proceedings of the Generative Lexicon Workshop, Instituto di Linguistica Computazionale (CNR), Pisa, Italy, September 2008.
[11] Bouillon P, E Jezek, C Melloni, et al. Annotating Qualia Relations in Italian and French Complex Nominals[C]//Proceedings of the LREC-2012 Workshop on “Challenges in the Management of Large Corpora”(CMLC), 2012:1527-1532.
[12] 宋作艷.生成詞庫理論的最新發展[J]. 語言學論叢, 2011, 44: 202-221.
[13] Pustejovsky J. The Generative Lexicon[M]. Cambridge: The MIT Press, 1995.
[14] Pustejovsky J, E Jezek. Semantic Coercion in Language: Beyond Distributional Analysis[J].Special Issue of Italian Journal of Linguistics, 2008, 20(1): 181-214.
[15] Jezek E. Acquiring Typed Predicate-Argument Structures from Corpora[C]//Proceedings of the Eighth Joint ISO-ACL SIGSEM Workshop on Interoperable Semantic Annotation. 2012:28-33.
[16] Pustejovsky J. Type Construction and the Logic of Concepts[M]. The Syntax of Word Meanings. Cambridge: Cambridge University Press, 2001: 91-123.
[17] Pustejovsky J. Type Theory and Lexical Decomposition[J]. Journal of Cognitive Science, 2006, 6: 39-76.
[18] 李晉霞.《現代漢語詞典》的詞義透明度考察[J].漢語學報, 2011, 3:54-62.
[19] 王萌,黃居仁,俞士汶,等.基于動詞的漢語復合名詞短語釋義研究[J].中文信息學報,2010,6:3-9.
[20] 魏雪,袁毓林.基于語義類和物性角色建構名名組合的釋義模板[J].世界漢語教學,2013(2):172-181.
A Lexicon of Chinese Compound Nouns with Semantic Annotation: Generative Lexicon Theory Approach
SONG Zuoyan1, ZHAO Qingqing1, KANG Shiyong2
(1. School of Chinese Language and Literature, Beijing Normal University, Beijing 100875,China; 2. Key Laboratory of Language Resource Development and Application of Shandong Province, School of Chinese Language and Literature, Ludong University, Yantai, Shandong 264025, China)
The analysis of compound nouns is always an important topic in linguistic study and natural language processing, which is involved with the recognition and automatic interpretation of Unknown Words (UWs), and dictionary compiling. With the up-to-date semantic theory named Generative Lexicon Theory, this paper builds a lexicon of compound nouns with semantic annotation. In addition to the annotation scheme, this paper also demonstrates its potential application in the word-forming and semantic analysis of compound nouns via a comparative analysis of compound nouns containing zhi(紙)and shi(石). It is revealed that qualia roles, natural types and artifactual types are important semantic information to disclose some patterns and rules of the formation and semantics of compound nouns.
lexicon with semantic annotation; generative lexicon theory; compound nouns; qualia structure; semantic type

宋作艷(1978—),副教授,主要研究領域為詞匯語義、句法語義接口和中文信息處理。E?mail:meszy@163.com趙青青(1989—),博士研究生,主要研究領域為詞匯語義學和計算語言學。E?mail:zhaoqingqing0611@163.com亢世勇(1964—),通訊作者,教授,主要研究領域為現代漢語詞匯、語法、辭書編纂、語言信息處理。E?mail:kangsy64@163.com
1003-0077(2015)03-0027-07
2013-04-08 定稿日期: 2013-07-28
國家社會科學基金(10CYY032、12BYY123);北京高等學校青年英才計劃項目(Beijing Higher Education Young Elite Teacher Project)(YETP0271);中央高?;究蒲袠I務費專項資金;山東省語言資源開發與應用重點實驗室開放基金;國家社科基金重大項目(12&ZD227)
TP391
A