999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語謂詞組合范疇語法詞庫的自動構建研究

2016-05-04 01:15:53周強
中文信息學報 2016年3期
關鍵詞:語義資源

周強

(清華大學 信息技術研究院語音和語言技術中心 北京 100084)

漢語謂詞組合范疇語法詞庫的自動構建研究

周強

(清華大學 信息技術研究院語音和語言技術中心 北京 100084)

謂詞詞庫是深層語法模型分析和理解的核心資源。近年來的常規方法是人工構建或從標注語料庫中自動獲取,標注規模和信息容量的擴大受制于巨大的人工投入量和標注庫體系設計。該文提出了一種多資源融合自動構建漢語謂詞組合范疇語法(CCG)詞庫的新方法。從知網、北大語法信息詞典和大規模事件句式實例中提取漢語謂詞的不同句法語義分布特征,融合形成CCG原型范疇表示,將它們指派給各資源信息完全重合的謂詞形成核心詞庫。然后通過自動分類和隸屬度分析相結合方法對其他謂詞的CCG范疇進行預測,并對兩者結果進行融合得到擴展詞庫,最終合并形成包含約15,000個詞條的漢語謂詞CCG詞庫。通過在隨機均勻抽樣的1000個謂詞上通過多人獨立標注形成的標準測試庫上進行不同角度的性能分析實驗,表明該詞庫的預期準確率達到了96.3%。

組合范疇語法;漢語謂詞詞庫;多資源融合

1 引言

對文本內容的深度理解一直是自然語言處理研究的核心課題。在句子分析層面,隨著一些淺層句法分析(如層次結構樹和依存樹)和淺層語義分析(如語義角色標注)方法的不斷發展和完善,近年來的研究工作開始轉向深層語法理論和相關資源研究方面。

深層語法理論的主要特點是可以內置謂詞-論元(Predicate-Argument,PA)關系描述和分析機制,從而可以方便地解決句子語義分析中的句法語義鏈接(Syntactic Semantic Linking)問題。理想情況下,一個基于深層語法理論的自動分析器可以同時得到句子的淺層句法結構樹或依存樹表示和淺層語義角色標注信息,從而為自動提取句子的深層語義表示打下很好的基礎。

深層語法理論的描述核心是融合句法語義鏈接關系描述的詞匯知識庫(詞庫Lexicon)和相應的詞匯組合規則體系。早期的研究人員一般手工構建詞庫和規則庫,不僅耗時費力,而且很難完全覆蓋真實文本中的各種復雜語言現象。近年來的主流方法是利用現有標注語料庫自動轉換生成針對不同深層語法理論的大規模標注庫,再從中提取得到覆蓋面更廣的深層語法詞庫和規則庫。這大大提高了詞庫構建的靈活性和適用性,但前期資源標注仍需要投入大量的人工。

本文則希望探索一種能自動構建出準確全面的深層語法詞庫的有效方法。其核心是融合多個語言資源提供的豐富句法語義分布信息來預測詞庫標記。為此,我們選擇了組合范疇語法(CCG)描述體系,其簡潔的范疇描述形式可以方便地融合不同資源信息。然后,我們設計了一套有效的多資源融合算法,通過融合從知網中獲取的動詞義原的事件框架和語義角色信息、從北大語法信息詞典中提取的動詞句法分布表和從大規模真實文本中自動提取的典型事件句式分布,可以自動預測大部分漢語謂詞的CCG范疇,并建立起CCG范疇中的核心論元與知網事件框架語義角色和典型事件分布實例之間的內在聯系,為進一步進行各個核心論元語義限制的自動獲取打下了很好的基礎。

在下面幾節中,第二節分析前人的相關工作以及存在的問題;第三節介紹多資源融合方法的基本思路;第四節給出具體實現算法的描述;第五節通過實驗評價驗證了該方法的可行性和有效性;第六節進行總結和展望。

2 相關工作

深層語法理論主要包括樹鄰接文法(LTAG)[1]、詞匯功能語法(LFG)[2]、中心詞驅動短語結構語法(HPSG)[3]和組合范疇語法(CCG)等。LTAG由句法組合以及語法推導樹集合組成。通常包含一個或者多個鄰接樹。M Candito[4]指出,LTAG難以準確地展現,同時擴展和維護更令人頭痛。LFG展示了結構樹之間的關系,能夠總結形成一般化語言學處理方法。但M Dalrymple[5]指出LFG需要龐大的信息庫或特征集、統一的語法單元,難以通過人工的方法構建,而自動方法又難以保證其準確性。HPSG是一種基于特征的語法標注框架,W D Meurers[6]的工作生成了一個語法體系集合,其中仍然存在類似LFG的問題。

而CCG語法卻是一種表達明確同時能夠高效處理的語法描述體系。M Steedman[7]提到CCG可以通過簡練的描述形式表現出句子中各成分的句法語義關系。英語方面的初步實驗[8-9]顯示CCG具有很強的分析效率。因此本文選擇了CCG描述體系進行漢語謂詞詞庫的自動構建研究。

構建謂詞詞庫通常有兩種方法: 人工標注和通過語料庫轉換生成。K K Schuler[10]以人工方式對WordNet的謂詞分類信息進行處理,篩選出WordNet分類中符合謂詞論元組合規律的謂詞及其語義角色信息生成VerbNet詞庫。SA Boxwell[11]人工篩選出ProbBank里能夠對應到論元的語義角色信息,進而歸納出謂詞的CCG范疇詞庫。J Hockenmaier[12]提出了一種自動提取Penn樹庫中謂詞同論元組合分布信息轉換生成CCG范疇構建詞庫的算法。

近年來漢語方面詞庫構建也進行了探索,比較有代表性的是袁毓林老師的漢語配價語法研究[13]。通過定義謂詞配價,即謂詞能夠支配的名詞性成分的數量,明確表示謂詞的句法特性以及語義關系。語言學家通過人工方式推斷出動詞的價,最終可以匯總得到漢語謂詞知識詞庫。

同時袁老師還分析了語義角色標注對于構建漢語詞庫資源的作用[14-15],提出語義角色的信息能夠很好地幫助描述詞庫中謂詞的語義層面的組合信息,這樣有助于詞庫對于語義理解信息方面的提升。

上述工作的主要問題在于人工處理過于依賴主觀知識背景,不同標注人員差異較大,同時人工篩選效率過低無法應用于大規模詞庫構建。自動方法通過單一語料庫作為處理輸入無法獲取到謂詞同論元間豐富的語義角色關系。因此本文希望探索能融合不同資源自動構建出含有不同維度語義、句法信息的、客觀全面的漢語謂詞詞庫的有效方法。

3 問題描述

CCG體系下的漢語謂詞描述范疇大多是復雜范疇,由原子范疇(如: S,NP,SP,PP等)通過左斜杠“/”和右斜杠“”兩種不同方向的組合操作得到。它們隱含了這樣的信息: 1) 一個謂詞可以控制的核心論元數目;2) 它們在淺層句法形式上的典型組合順序。表1列出了我們目前總結的幾種典型CCG范疇形式,它們覆蓋了漢語中絕大部分的謂詞分布情況。

表1 典型漢語謂詞的CCG范疇表示

漢語謂詞CCG詞庫的構建目標,是為每個謂詞,選擇確定合適的CCG范疇標記。考慮到多義謂詞在真實語境中的不同分布特點,一個謂詞可能會指派多個CCG范疇標記。同時,為便于后續的分析應用,對于每個謂詞在CCG范疇中控制的核心論元,我們還希望能給出合適的語義角色標記,并收集一定規模的典型搭配詞語,便于進行后續的語義限制約束的自動挖掘研究。

為此,我們選擇了以下語言資源:

1) 知網(HowNet)語義詞典[16](以下稱HowNet)

這是人工編撰的漢語詞語概念描述詞典。我們從中選擇了全部的事件類概念描述,包括其中每個謂詞義項的概念定義(DEF)、事件框架和語義角色描述。它們反映了詞典編撰者對某類事件語義的典型認知圖式的判斷和把握,可以為CCG范疇的核心論元確定和語義角色選擇提供重要參考信息。

2) 北大語法信息詞典[17](以下簡稱PKU_GD)

對漢語常用詞語的語法分布特征信息進行了詳細描述。我們從中選擇了漢語動詞的主要句法分析特征,提取形成以下特征動詞表: 不及物動詞表(vi)、體賓及物動詞表(vtn)、謂賓及物動詞表(vtv)、雙賓動詞表(dobj)和兼語動詞表(comp)。它們反映了詞典編撰者從母語語感中提煉出的不同動詞的句法分布特點,可以為相應動詞的CCG范疇選擇確定提供參考。

3) 真實文本的事件句式描述實例

它們記錄了漢語真實小句的主、謂、賓、狀、補等句法骨架分析信息。我們從中選擇了五種基本事件句式: 主謂(SP)、主謂賓(SPO)、主狀謂(SDP)(介詞短語pp.作狀語D)、主謂賓賓(SPOO)、主謂賓補(SPJC)。在大多數情況下,它們可以與表1中列出的幾個CCG范疇之間建立一一對應關系,從而可以為不同謂詞的CCG范疇預測提供重要的客觀分析數據支持。目前,我們主要使用了以下兩種事件句式描述實例。

A. 從TCT樹庫中自動提取的事件句式實例(以下稱TCT_EC)

由于利用了樹庫中的人工校對句法樹,因此相應事件句式的準確度很高,但數據規模較小,對漢語謂詞的覆蓋率較小;

B. 從北大人民日報標注庫中利用現有的事件句式分析器[18]自動分析得到的事件句式實例(以下稱RMRB_EC)

可以達到很大的數據規模和謂詞覆蓋率,但自動分析結果存在一些錯誤噪聲。

表 2顯示了這些資源的基本統計數據。如果我們把CCG范疇標記作為描述漢語謂詞的句法語義鏈接關系的原型范式,這些資源則分別從不同角度提供了對這個原型范式的句法語義分布判據。這里的直觀假設是: 如果這些資源提供的句法語義分布信息的重合度越高,則相應謂詞的CCG范疇的原型性越強,從而確定該CCG范疇標記的可靠性就越高。據此,我們形成了通過不同語言資源融合來構建漢語謂詞CCG詞庫的基本設想: 選擇不同資源描述重合部分構建CCG核心詞庫,從中挖掘不同資源對核心詞庫的特征貢獻,以此為基礎,探索漢語謂詞CCG范疇的自動預測方法,構建其他CCG擴展詞庫。

表2 不同語言資源的基本信息統計

4 算法設計

圖1顯示了這種融合方法的總體框架。其中輸入資源為知網(HowNet)、北大語法信息詞典(PKU_GD)和事件句式實例,通過融合各資源特征形成每個謂詞的句法語義描述向量,從中提取各資源信息完全重合的謂詞形成核心詞庫,其他謂詞作為待確定詞庫。對核心詞庫,按照CCG范疇原型假設,為其中的每個謂詞指派合適的CCG范疇標記。將它們與各自的特征描述向量相結合,形成初始的訓練知識庫;對待確定詞庫中的每個謂詞,則通過CCG范疇的自動預測方法獲得合適的CCG范疇指派而形成擴展詞庫,最終合并兩個庫形成最終完整的謂詞詞庫。

圖1 算法框架圖

4.1 資源融合和核心詞庫生成

三個資源均無法單獨確定謂詞的CCG范疇,因此通過提取三類資源的對應特征,相互作用能夠更好地應用于后續的核心詞庫建立以及擴展詞庫預測。從三類資源中可以提取出一個37維的特征向量,各個資源提供特征內容如下。

HowNet核心語義角色可以提供特征信息: 核心語義角色數量,根據HowNet語義角色含義預估其可能對應CCG的論元位置得到論元對應的核心語義角色數量,根據核心語義角色計算出CCG含有各論元的概率,共形成15維特征。

PKU_GD謂詞所屬類別可以作為特征信息,為了計算方便特征統一為二元特征,利用8維特征分別表示謂詞是否屬于一個或多個類別。

事件句式提供謂詞事件句式類型的分布信息,這些分布信息以及相互交叉得到的二元信息形成14維特征。

按照論文基本假設對于三類資源重疊部分提取出謂詞的CCG范疇,配合HowNet語義角色對應CCG論元的預估得到各論元對應的語義角色,再添加事件句式提供的搭配實例形成核心詞庫。資源重疊的判斷方法如表3所示。不符合表3內容的謂詞作為待確定詞庫通過自動預測方法進行CCG范疇指派。

表3 資源特征對齊原則

4.2 待確定詞庫的CCG范疇預測

這部分主要通過自動分類和隸屬度分析兩種方法分別預測CCG范疇,然后通過結果融合最終確定出待確定詞庫謂詞的CCG范疇形成擴展詞庫。

4.2.1 CCG范疇自動分類

以核心詞庫作為訓練集合,CCG范疇特征量作為分類特征量,通過目前常用的SVM分類方法進行待確定詞庫的自動分類將謂詞映射到不同的CCG范疇。

資源融合時產生的37維特征向量可以體現謂詞的語義句法信息,利用該特征向量進行SVM訓練及分類能夠充分利用謂詞的各類信息區分出不同謂詞特點,對待確定詞庫CCG進行指派。

4.2.2 隸屬度分析

很多謂詞缺少HowNet和PKU_GD詞典提供的特征信息,而且自動分類的訓練集主要來自于核心詞庫,因此自動分類器可能存在訓練不充分問題。另一方面,從大規模真實文本中獲取的事件句式分布實例已經能夠提供非常豐富的謂詞句法意義分布特征,因此不妨忽略前兩個資源提供的語義和句法信息,而提出繪制謂詞隸屬度圖譜確定CCG范疇的方法。所謂的隸屬度就是事件句式類型頻率分布。

根據核心詞庫中不同CCG范疇下所有謂詞的隸屬度計算平均值作為該CCG范疇的核心隸屬度,這樣定詞庫中每個謂詞根據隸屬度向量可以計算出該謂詞同各個CCG范疇標準隸屬度的歐氏距離,選取距離最近的CCG范疇作為該謂詞的隸屬度分析結果CCG。

4.2.3 結果融合

通過自動分類和隸屬度分析分別得到了待確定詞庫中謂詞的CCG范疇。自動分類利用不同資源的統計信息提取CCG范疇卻忽略了真實文本中使用的變形、省略等情況,隸屬度分析基于事件句式實例的分布趨勢,卻無法區分出相同詞形不同詞義的情況。兩者融合可以使得最終結果更加準確客觀。基本方法是: 當兩者預測結果相同時,選擇該CCG范疇指派給謂詞;當兩者預測結果不同時,則通過分析發現不同差異特點選擇合適的CCG范疇。

根據兩種結果的不同差異情況具體分析能夠總結出不同結果的融合情況。如自動分類結果為“(SNP)/NP”,隸屬度分析結果為“SNP”的情況是由于謂詞在實際使用中會根據前文省略賓語,例如 “我-完成-任務”省略為“我-完成了”,最終CCG范疇應為“(SNP)/NP”;自動分類結果為“(SNP)/NP”,隸屬度分析結果為“(SNP)PP”的情況產生于賓語用介詞引導作為狀語修飾謂詞,例如 “我-關閉-電腦”,表現為“我-將-電腦-關閉”,最終CCG范疇應為“(SNP)/NP”;

通過兩種獨立的自動分析方法確定出擴展謂詞庫中謂詞的CCG范疇,通過融合的方法得到最終的CCG范疇。根據CCG范疇確定出HowNet語義角色同CCG范疇各論元的對應關系形成擴展謂詞庫。核心詞庫和擴展詞庫合并整體上作為最終的漢語謂詞CCG詞庫。

5 實驗分析

5.1 總體融合數據分析

最終該方法得到了15 468個謂詞義項CCG范疇結果,表4從不同角度分析了核心和擴展兩部分詞庫的分布特點。

表4 謂詞庫規模統計

首先,按照謂詞被指派的CCG范疇數目分出單類和多類兩類謂詞;其次通過統計謂詞在現有事件句式庫中包含的基本事件句式總數,分出如下的高中低頻三類謂詞: 事件句式數量小于5的謂詞屬于低頻,大于20的屬于高頻,中間部分屬于中頻。表格中每個結果包含“token/type” 兩個頻度值。

對比核心詞庫和擴展詞庫,三類資源能夠完全重疊的核心詞庫數量明顯較少,表明待確定詞庫的CCG范疇自動預測方法是必要的;對比單類和多類數量結果,大部分謂詞CCG范疇均較為固定,即使謂詞本身存在多種含義,但是其CCG范疇的性質都是近似的,例如,謂詞“滋生”本身具有“{ResultIn|導致}”和“{reproduce|生殖}”兩種含義,但是其CCG范疇都是“(SNP)/NP”;對比高中低頻的謂詞數量,漢語謂詞在真實本文中的使用存在較為明顯的長尾效應,較少的高頻謂詞會重復使用,剩余大量謂詞很少出現。

表5列出了詞庫中不同CCG范疇的分布特點。由于多類詞具有多個CCG范疇,按CCG范疇分類統計type頻度會產生分歧,因此每個表格單元僅包含對應的token頻度。

通過這一結果可以發現大部分CCG結果為 (SNP)/NP和SNP。這與人們所知的常識是一致的,即在實際句子中SPO和SP類型的句子是最為常見的。

表5 不同CCG范疇token數量統計

詞庫中近900個(SNP)PP類型謂詞較為特殊,下面進行具體實例單獨分析。表6列出部分(SNP)PP類型謂詞,可以看出這類詞語通常具有兩個核心論元,但是并不能直接形成SPO的形式,而是以“和”,“與”等詞語引導的介詞結構狀語如表中“比較”“操心”或通過聯合主語如表中“協商”來表達完整含義。

表6 (SNP)PP類型謂詞實例

5.2 CCG范疇預測準確性分析5.2.1 標注數據集合構建

為了能夠有效地對謂詞結果準確性進行評價,需要構建出一個標準的評測集。

從所有謂詞中按照上述不同頻度不同類型的分布隨機均勻選取1 000個謂詞詞條作為評測集合。評測集合token分布如表7所示。

表7 標準集合規模統計

安排兩個標注人員獨立對評測集的謂詞進行標注,對每個謂詞分別按照五種不同的CCG類型構造事件句式,判斷構造出的句式是否滿足特定條件[19],滿足條件的事件句式對應的CCG為該謂詞的正確指派,否則不是。對比兩個標注人員的結果,選擇一致結果作為標準集合的結果,對于不一致的結果通過第三個標注者進行進一步確認以保證標準集合數據的客觀性和可靠性最終形成評測集合。表8列出部分人工標注結果樣例,其中兩位標注者分別給出謂詞對應CCG以及構造出的事件句式實例,由第三名標注者對前兩名標注者不同結果進行修正,如表中前三詞分別為不同CCG謂詞標注結果一致情況,“訂婚”為標注結果不一致通過第三名標注者確定的情況,“繁殖”為標注結果不同,最終合并為多類詞的情況。

表8 標準集合人工標注樣例

為評價評測集合的質量,本文采用J Cohen[20]提出的Kappa系數作為評價指標。在不告知兩位標注者構造句式判定條件的情況下進行獨立標注,計算出兩名標注者的理論一致率Pe為0.4230,在進行標注指導后標注者再次進行標注,計算出實際一致率Po為0.9940,根據式(1)。

(1)

最終得到了測試集的Kappa值為0.9896,符合評測要求。

5.2.2 準確率評價

評測使用的準確率具體計算公式為式(2)。

(2)

其中P是傳統準確率,R為自動CCG結果同人工標注CCG結果完全一致token總數,對于多類詞分別統計每個CCG結果同人工結果是否一致,計算出一致的token數,S為評價集合結果token總數。

表9展示出了不同類型謂詞的準確率評價結果。

表9 不同謂詞準確率

核心詞庫的準確率均要高于擴展詞庫,說明三類資源重疊部分得到的CCG原型范疇更為準確,第三節提出的直觀假設成立。同時單類詞準確率高于多類詞,這是因為組合單一的謂詞更容易從不同資源中提取準確CCG范疇。事件句式實例頻度同準確率成正比,因為更豐富的組合實例為CCG范疇確定提供更準確的句法組合信息。

上方評價是考慮詞庫整體得到的,下面對比CCG自動預測中不同方法準確率結果。具體結果如表10所示。

表10 不同方法準確率

整體上結果融合的表現均高于單獨的處理方法,表明該處理方法中結果融合方法的正確性及必要性。但是數據中多類情況較為特殊,其隸屬度結果較差,這是由于基于事件句式分布得到的隸屬度分析結果不能區分多類詞范疇,通過自動分類結果的彌補有效地保證了結果準確性。

目前方法仍然存在一些缺陷: 1) 由于事件句式實例無法區分相同謂詞的不同CCG,導致多類詞處理存在偏差,如“提升”有SNP和(SNP)/NP兩種CCG,例如“水平-提升”和“隊伍-提升-水平”,但句式分布僅表明兩類句式比例都很高,無法表明謂詞確實存在兩種CCG還是由于變形導致;2) 低頻謂詞無法提供詳細準確的事件句式信息,使得這部分謂詞準確率偏低,如“擴招”句式實例中僅出現一次為省略賓語形式“學校-擴招”,但是該謂詞CCG應為(SNP)/NP。因此未來需要進一步探索改進事件句式的處理方式。

6 總結

本文通過融合不同漢語語言資源,提取對應特征信息,將資源特征重疊的謂詞根據CCG原型假設指派對應CCG范疇,形成比較可靠的核心詞庫。以特征信息和核心詞庫為基礎通過CCG自動分類、隸屬度分析等不同方法對其他謂詞的CCG范疇進行自動預測,并融合不同方法結果得到擴展詞庫,合并兩個詞庫得到希望的謂詞詞庫。通過詞庫規模以及準確性的評價分析,表明前文提出的直觀假設成立,不同CCG預測方法有效,詞庫準確率滿足使用要求。最終形成一個完整可靠的漢語謂詞CCG詞庫。

論文后續工作可以從以下方面入手: 1)根據詞庫配合事件句式實例的搭配詞匯自動提取出謂詞CCG論元的語義約束限制,提升現有詞庫的使用范圍;2)加強對短語動詞如述補式結構的CCG范疇獲取研究,分析其事件復合特點;3)開發實現針對本謂詞詞庫的相關支撐平臺;4)同目前漢語的其他大規模人工編撰詞庫如袁毓林老師的動詞配價庫的性能對比分析。

致謝

感謝董振東先生提供知網2008版的研究許可,感謝北大計算語言所提供語法信息詞典1998版和人民日報2000年全年標注庫的研究許可,感謝碩士研究生烏蘭、張遠洋提供評測集合標注幫助。

[1] K V Shanker,Y Schabes. Structure sharing in lexicalized tree-adjoining grammars[C]//Proceedings of the 14th conference on Computational linguistics(COLING ’92),1992,1: 205-211.

[2] R M Kaplan,J Bresnan. Lexical-functional grammar: A formal system for grammatical representation[J]. Formal Issues in Lexical-Functional Grammar,1982: 29-130.

[3] C Pollard,I A Sag. Head-driven phrase structure grammar[M]. Chicago: University of Chicago Press and Stanford: CSLI Publications,1994.

[4] M H Candito. A principle-based hierarchical representation of LTAGs[C]//Proceedings of the 16th conference on Computational linguistics,1996,1: 194-199.

[5] M Dalrymple. Formal Issues in Lexical-functional Grammar[M]. New York: Center for the Study of Language & Information,1995.

[6] W D Meurers,G Minnen. A computational treatment of lexical rules in HPSG as covariation in lexical entries[J]. Computational Linguistics Archive,1997,23: 543-568.

[7] Steedman M,Baldridge J. Combinatory categorial grammar[J]. Non-Transformational Syntax Oxford: Blackwell,2011,181-224.

[8] M McConville. Inheritance and the CCG Lexicon[C]//Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics,2006: 1-8.

[9] S Clark. Large-scale syntactic processing: Parsing the web[J]. Final Report of the 2009 JHU CLSP Workshop,2009.

[10] K K Schuler. VerbNet: A broad-coverage,comprehensive verb lexicon[D]. Ph.D. thesis: University. of Pennsylvania ,2005.

[11] S Boxwell,M White. Projecting propbank roles onto the ccgbank[C]//Proceedings of the International Conference on Language Resources and Evaluation,2008.

[12] J Hockenmaier,M Steedman. CCGbank: a corpus of CCG derivations and dependency structures extracted from the Penn Treebank[J]. Computational Linguistics,2007,33: 355-396.

[13] 袁毓林. 漢語配價語法研究[M]. 北京: 商務印書館,2010.

[14] 袁毓林. 語義角色的精細等級及其在信息處理中的應用[J]. 中文信息學報,2007,21(4): 10-20.

[15] 袁毓林. 語義資源建設的最新趨勢和長遠目標——通過影射對比、走向統一聯合、實現自動推理[J]. 中文信息學報,2008,22(3): 3-15.

[16] 董振東,董強. 知網[DB/OL].http: //www.keenage.com/zhiwang/c_zhiwang.html.2003.

[17] 北大計算語言學研究所. 現代漢語語法信息詞典規格說明書[DB/OL].http: //icl.pku.edu.cn/icl_groups/syntac-dictn.asp. 2000.

[18] 陳麗歐. 漢語事件內容分析系統研究與實現[D]. 清華大學,2012.

[19] 邱晗. 漢語動詞CCG范疇人工標注規范[R]. 清華大學: 信息技術研究院語音和語言技術中心,2011.

[20] J Cohen. A coefficient of agreement for nominalscales[J]. Educational and Psychological Measurement,1960,20(1): 37-46.

Automatic Construction of Chinese Predicate Lexicon for Combinatory Category Grammar

ZHOU Qiang

(Speech and Language Technologies R&D Center.Research Institute of Information Technology,Tsinghua University,Beijing 100084,China)

Predicate lexicon is the core resource of analyzing deep grammar. In contrast to the exsisting manual construction methods,this paper proposes a new method of generating the predicate lexicon for Combinatory Category Grammar (CCG) from multi-resources. This method extracts semantic and syntactic features from HowNet,PKU_GD and large scale Event Patterns,generating CCG prototype and then assigning it to part of predicate whose all features and information are overlaped. Then an expanded predicate lexicon is generated by merging the result of classification and membership analysis. For the finally achieved predicate lexicon with 15 thousands predicates,the evaluation on a standard set annotated independently by multiple humans with 1000 homogeneous distributed predicates shows that its precision can achceve 96.3%.

combinatory category grammar;Chinese predicate lexicon;multi-resources integration

周強(1967—),研究員,主要研究領域為自然語言理解、詞匯語義學、語料庫語言學。E?mail:29_lxd@mail.fsinghua.edu.cn

2014-01-20 定稿日期: 2014-05-23

國家重點基礎研究發展計劃(2013CB329304),國家自然科學基金(61373075)

1003-0077(2016)03-0196-08

TP391

A

猜你喜歡
語義資源
讓有限的“資源”更有效
基礎教育資源展示
一樣的資源,不一樣的收獲
語言與語義
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲日本精品一区二区| 刘亦菲一区二区在线观看| 国产农村妇女精品一二区| 亚洲欧美日韩成人高清在线一区| 日韩在线播放中文字幕| 亚洲日韩精品伊甸| 欧美日韩一区二区在线播放| 成人国内精品久久久久影院| 中文字幕久久波多野结衣| 久热精品免费| 国产成人精彩在线视频50| 综合成人国产| 国产成人精品一区二区不卡| 日韩久草视频| 国产美女人喷水在线观看| 毛片免费在线| 欧美亚洲综合免费精品高清在线观看 | 特黄日韩免费一区二区三区| 日本黄色不卡视频| 一级毛片免费的| 综合五月天网| 成人国产一区二区三区| 国产成人精品2021欧美日韩| 国产精品99r8在线观看| 欧美a√在线| 亚洲天堂在线免费| 欧美激情视频一区二区三区免费| 狠狠色综合久久狠狠色综合| 91精品亚洲| 亚洲欧美一区二区三区图片| 亚洲视频无码| 19国产精品麻豆免费观看| 尤物精品视频一区二区三区| 午夜精品影院| 久久国产精品夜色| 国产精品视频导航| 国产欧美日韩精品综合在线| 免费高清a毛片| 国产激情在线视频| 中文字幕亚洲第一| 伊人色在线视频| 日韩免费中文字幕| 亚洲国产精品一区二区高清无码久久| 国产高清免费午夜在线视频| 色老头综合网| 国产欧美视频在线| 一级全免费视频播放| 久久人与动人物A级毛片| 国产午夜一级淫片| 无码免费的亚洲视频| 波多野结衣一区二区三区四区视频 | 又粗又硬又大又爽免费视频播放| 久久亚洲日本不卡一区二区| 91无码人妻精品一区二区蜜桃| 国产成人亚洲欧美激情| 国产区福利小视频在线观看尤物| 制服丝袜 91视频| 亚洲中文字幕无码mv| 国产精欧美一区二区三区| 少妇人妻无码首页| 久久久久久久蜜桃| 高潮毛片无遮挡高清视频播放| 9啪在线视频| 无码精品国产dvd在线观看9久| 久久国产精品嫖妓| 国产成人欧美| 国产97色在线| 国产欧美在线观看精品一区污| 亚洲精品天堂在线观看| 一级毛片在线免费视频| 日韩成人午夜| 色综合久久无码网| 91精品啪在线观看国产91九色| 久久久亚洲色| 国产精品久久精品| 国产精品视频系列专区| 午夜电影在线观看国产1区 | 亚洲经典在线中文字幕| 欧美亚洲香蕉| 无码日韩精品91超碰| 97se亚洲| 国产欧美日韩资源在线观看|