基于語義規則的詞義消歧方法的研究

2017-03-28 09:40:54張婷婷遼寧錦州渤海大學信息科學與技術學院

數碼世界 2017年3期

張婷婷遼寧錦州渤海大學信息科學與技術學院

基于語義規則的詞義消歧方法的研究

張婷婷遼寧錦州渤海大學信息科學與技術學院

本文基于WordNet現存的詞義結構以及詞義對用的上下文語義關系，詞義消歧之后通過語義選擇完成消歧工作。本文最后使用Senseval-3中的全英文文段作為該算法的實驗測試集，詞義消歧算法使得測試集中的選擇多義詞最佳語義結果較好，本文的消歧方法經過與其他詞義消歧算法進行數據比對分析，能夠有效完成全英文文段單詞的詞義消歧任務。

WordNet 語義規則多義詞詞義消歧 Senseval-3

1 引言

WordNet作為最常用的英文知識庫，在WordNet知識庫中，在單詞與單詞之間、詞語與語義之間存在一定的關聯規則，它作為可以計算英文知識庫，在英文知識庫中將單詞或者詞語分為五大類：名詞或者短語(n)、動詞或者短語（v）、介詞或者短語、形容詞（adj）和副詞。WordNet知識庫中單詞與單詞之間的語義關系和詞匯關系。

2 詞義消歧算法

目前，存在多種比較優秀的詞義消歧方法，詞義消歧方法優先選擇基于知識結構的詞義消歧方法。釋義重疊法在文獻中是查找多義詞詞義重疊釋義，選擇重疊詞義數最多的幾個釋義作為多義詞具體語義。基于WordNet的語義關系對多義詞上下文的釋義進行擴展，針對多義詞的詞義消歧準確率由20.1%上升到35.2%。在文獻中提出基于語義相似度的五種詞義消歧方法，通過語義相似度的詞義消歧算法獲取消歧結果比較明顯，但是，獲取的詞匯分類數據非常有限，詞匯的分類數據受限必定會影響詞義消歧效果。文獻提出了基于WordNet構建語義關系圖實現多義詞的詞義消歧，在此文獻中提出基于無監督的詞義消歧方法。

3 基于語義規則的詞義消歧方法

3.1 詞義消歧的語義規則

根據WordNet知識庫中多義詞的語義關系和詞的結構，再根據多義詞所在文段的前后的語境關系，判斷多義詞的詞性再選擇正確的語義關系，可以實現基于語義規則的詞義消歧方法。

3.1.1 語義關系中的謂詞定義

在WordNet英文知識庫中，在詞與詞之間、詞語與語義之間存在一定的規則，它是可計算英文知識庫，本文將給出單詞與單詞之間的語義關系定義，假定存在兩種互不相同的語義關系為X和Y，并且X和Y的語義關系不等價，X和Y的語義之間的關系包括下面幾種：

①部分與整體語義關系Part Of Whole(X,Y)：存在X∈Y的語義關系，稱為語義X和Y是部分整體關系；

②全同語義關系Same Of Whole(X,Y)：存在X=Y的語義關系，稱為語義X和Y是全同關系；

③并列語義關系And Of Whole(X,Y)：當幾種語義關系完全獨立的關系，稱為語義X和Y是并列關系；

④繼承語義關系Extend Of Whole(X,Y)：當幾種語義關系為子類繼承父類的屬性或者方法，稱為語義X和Y是繼承語義關系；

⑤相似語義關系Similarity Of Whole(X,Y)：當幾種語義關系相似度值在[0-1.0]之間小數部分，稱為語義X和Y是相似的語義關系；

⑥屬性與值的語義關系Attribute Of Whole(X,Y)：存在XY兩種語義關系屬性與鍵值一一對應的關系，稱為語義X和Y是屬性與值的語義關系；

⑦交叉語義關系Intersection Of Whole(X,Y)：存在XY有共同數值，稱為語義X和Y是交叉的語義關系；

3.1.2 詞義消歧的語義規則定義

定義多義詞消歧的語義規則，根據本文提供詞義消歧的語義規則，詞義消需要將名詞、動詞、副詞、形容詞進行語義規則定義，假定存在多義詞Si，該多義詞的詞義消歧如下：

①名詞的詞義消歧的語義規則定義如下：

Part OF Whole(Si,Si(WordNet))→Si(w)；Same Of Whole(Si,Si(WordNet))→Si(w)；

Extend OF Whole(Si,Si(WordNet))→Si(w)；Attribute OF Whole(Si,Si(WordNet))→Si(w)；

②形容詞的詞義消歧需要定義的語義規則定義如下：

Attribute OF Whole(Si,Si(WordNet))→Si(w)；Similarity OF Whole(Si,Si(WordNet))→Si(w)；

③動詞的詞義消歧需要定義的語義規則定義如下：

Intersection OF Whole(Si,Si(WordNet))→Si(w)；And Of Whole(Si,Si(WordNet))→Si(w)；

其中，該多義詞的詞義消歧語義規則中，Si表示歧義詞，Si(WordNet)表示WordNet中的對應的多種語義關系。

3.2 基于語義規則的詞義消歧方法描述

根據前文所述，該算法的具體思路是根據多義詞在WordNet知識庫中的語義關系，判斷該多義詞屬于哪種定義語義消岐規則，該算法描述的詞義消歧算法步驟如下所示：

①存在有限文檔數據集合，該文檔數據集合表示為D，對文檔數據集合D進行預處理操作；

②識別多義詞的詞性類別，判斷多義詞的詞義是否在WordNet中，如果存在唯一的一個詞性的語義，則直接返回該多義詞在WordNet中的語義，否則跳轉到4；

③多義詞的詞性消歧處理，詞性判斷為多義詞消歧的重要處理過程，詞性識別是下一步語義規則選擇的重要依據，判斷該多義詞是否具有唯一的詞性，是否需要進行詞性標注操作，如果不需要跳轉到4；

④根據多義詞在本文中定義的語義規則和詞性規則進行判斷，將該語義關系定義語義消岐規則；

⑤確定屬于哪種語義規則進行語義判斷，根據該多義詞在本文段中的語境進行語義選擇，選擇符合語境的最佳語義，并輸出多義詞的語義。

3.3 本文算法的詞義消歧實現過程

結合上文的詞義消歧的步驟：算法A描述是如何獲取多義詞所在WordNet中的多種語義關系，算法B是如何根據已經定義的語義消歧規則。基于語義規則的詞義消歧方法的實現如下描述所示，其中算法A是獲取多義詞的詞性和在WordNet中關聯數據的偽代碼片段，其中：Wi表示在文段中第i個多義詞，pos表示該多義詞的詞性（名詞、動詞或者形容詞等），算法A的描述如下。

算法B將多義詞實現詞義消歧方法，算法中輸入參數為：Wi是多義詞，pos表示該詞的詞性，C表示該多義詞在WordNet中的語義關系，算法2的作用根據語義規則的進行詞義消歧，然后在WordNet中選擇符合語境多義詞的語義輸出。

4 實驗結果及分析

4.1 試驗測試數據

本文提出基于語義規則的詞義消歧方法的研究，本文詞義消歧數據集采用Senseval-3中全英文文段作為語義規則的詞義消歧算法的實驗測試集，實驗過程中識別文段中的多義詞，通過詞義消歧算法實驗結果數據進行比較分析結論。

4.2 試驗結果分析

在本文中使用的詞義消歧評價指標包括：覆蓋率C、準確率A和召回率R評估基于語義規則的詞義消歧算法性能，本文提出方法與其他的詞義消歧算法進行比較，表1不同算法實驗數據處理結果。

表1 不同算法實驗數據處理結果

由表1實驗消歧數據處理結果可知，不同算法實驗數據處理結果分析可見，通過表1的實驗數據比對結果很明顯，該算法在實驗數據集上測試的效果獲取的數據準確率有所提高。

5 結論與未來研究方向

針對于文章中出現的一詞多義現象很多，詞義模糊使得文章語義不清，對文章的理解造成困難。WordNet作為最常用的英文知識庫，在WordNet知識庫中，在詞與詞之間、詞語與語義之間存在一定的規則，它是可計算英文知識庫，通過上文的實驗結果驗證。

[1]王瑞琴,孔繁勝,潘俊.基于WordNet的無導詞義消歧方法[J].浙江大學學報(Journal of Zhejiang University (Engineering Science)),2010,44(4):1068-1073

[2]車超,知識自動獲取的詞義消歧義方法[D].博士學位論文,大連理工大學,2010

[3]S.Dongen.Graph clustering by flow simulation[D:Ph. D.].Utreeht,The Netherlands:Unlversity of Utrecht,2000

[4]J.Veonis.HyPerlex:lexical cartography for information retrieval[J].Computer Speeeh&Language,2004,18(3):223-252