摘要 :多義詞的識別與消歧是一個自然語言處理的焦點環節,詞匯語義知識是解決這個問題的基礎資源。而詞語之間的搭配知識是支持詞義排歧的基礎資源。該文研究在大規模語料庫中進行名詞和動詞(NV)搭配對的提取方法,即建立一個包含名詞詞義、名詞、名詞對應的動詞及動詞相應的詞義等內容的數據庫,即NVEF義對標識庫,以供詞義排歧使用。
關鍵詞:NV搭配對;NVEF 義對;詞義知識;詞義排歧
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)35-8068-02
自然語言處理(Natural Language Processing, NLP)系統必須依靠強而有力的詞匯語義知識支持, NLP所涉及到的諸多問題中,多義詞的識別與消歧是一個焦點環節,解決這個問題的基礎資源——詞匯語義知識,更是一個瓶頸問題。是否擁有詞匯語義知識及擁有該知識的程度,從本質上決定了一個NLP系統的處理能力及處理質量 。在語言學中,動詞問題一直是語法,語義學界關注的重要課題之一。動詞和名詞分別是客觀世界中運動和物質的反映,由物質和運動的辯證關系可知,在語言學中,名詞和動詞是互相依賴,互相制約的,因而在語言系統中具有同樣重要的作用。而對大規模語料中NV搭配對的提取方法的研究是進行多義詞的識別和消歧的一個關鍵環節,通過對它的實現,可以完成名詞和動詞詞對的搭配,并統計出詞對在語料庫中出現的次數,這樣就可以非常方便的完成多義詞的識別和消岐。
1 研究目標
研究中所用到的《知網》(HowNet)字典中的29719個名詞,16652個動詞和16242個詞義(包括了9893個名詞詞義和4440個動詞詞義)。……