999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知網的中文詞語相似度計算

2015-04-29 23:57:57李國佳
智能計算機與應用 2015年3期

李國佳

摘 要:針對中文詞語相似度計算的問題,根據信息論中兩個事物相似度計算的思想,提出一種基于知網義原信息量和義原及其角色關系的中文詞語相似度計算方法,利用知網分類體系計算出詞語義原信息量,根據義原信息量計算出詞語概念間主類義原的相似度,結合詞語概念中義原及其角色關系相似度及義原結點相似度來綜合計算詞語的相似度,與劉群、知網在線的方法及人工判斷的相似度值進行了比較,實驗結果顯示該方法與人的判斷更接近。

關鍵詞:義原信息量;義原及其角色關系;詞語相似度;知網

中圖分類號: TP391 文獻標志碼: A 文章編號:2095-2163(2015)03-

Chinese Words Similarity Computation based on HowNet

LI Guojia

(Department of Software,North China University of Water Resources and Electric Power,Zhengzhou 450045,China)

Abstract:In view of the problems of Chinese words similarity computation, according to the ideology of information theory on the similarity of two objects, this paper presents a new computing Chinese words similarity method based on information content of HowNet sememe and sememe and event role. The method uses HowNet lexical taxonomy to calculate the sememe information content, and uses the similarity of main sememe, the similarity of sememe and event role, similarity of the sememe node to compute Chinese word similarity. The experimental results that have been compared with Liu-qun and HowNets conclusion demonstrate that the method is similar to human judgment.

Keywords: Sememe Information Content; Sememe and Event Role; Word Similarity; HowNet

0 引 言

詞語相似度計算在信息檢索、文本分類、信息抽取、機器翻譯等領域有廣泛的應用[1]。詞語相似度的計算主要有兩類方法:一類是世界知識(Ontology)或者分類體系(Taxonomy)的方法,如基于WordNet中詞語結點的距離來計算英語詞語的語義相似度[2],基于知網(HowNet)義原間的距離或者深度等信息來計算中文詞語的語義相似度[3-4]。另一類是基于語料統計的方法[5-8],這類方法假設凡是語義相近的詞,其上下文也應該相似,利用上下文中詞語概率的分布來計算詞語相似度。

知網(HowNet)是國內外自然語言處理中使用較為廣泛的中文語義資源平臺,自1999年發布以來受到越來越多研究人員的關注[9]。基于知網計算中文詞語的相似度研究也陸續推出了很多方法。王小林等采用變系數對各類義原加權計算,并認為不同詞性對詞語相似度的貢獻度不同,引入詞性相似度來綜合計算詞語相似度[10-11];林麗等將部分義原劃為弱義原,這類義原在參與相似度計算時賦予較低權重值[12];張敏等考慮詞性的作用,并減少了抽象義原在詞語相似度計算中貢獻[13],范弘屹等在相似度計算中綜合考慮義原的距離、深度、密度等信息[14];張亮等利用知網構建語義樹,將詞語相似分析計算轉化為語義樹的相似分析[15]。這些方法通常根據意義分解的思想,將詞語分解為更小單位(義原)參與相似度計算,再按照權重比例綜合計算詞語整體相似度,計算結果依賴于公式的設計和參數的選取,不能充分反應出詞語語義的相似性。劉青磊等通過詞語義原集合的共有信息和差異信息來綜合計算詞語相似度[16];游彬等將知網作為統計語料庫計算詞語所包含的義原信息量,然后來估計兩個詞語的語義相似度[17],基于語料統計的方法比較依賴于統計所用的語料庫,計算過程復雜,語料庫建設存在較多的困難。

本文給出一種基于知網義原特征的中文詞語相似度的計算方法,利用知網的分類體系(Taxonomy),將義原及其角色關系作為詞語相似度計算的基本單位,保留描述詞語概念的各個義原間的關系,并依據信息論中計算兩個事物相似度的思想,從概念的主類義原相似度、義原及其角色關系的相似度以及義原結點相似度來綜合計算詞語的相似度。

1 義原信息量

1.1義原信息量

Philip Resnik在文獻[5]中提出基于信息量來計算詞語語義相似度,在WordNet中,對于概念c,其信息量(Information Content)表示為在某給定語料庫中c出現的概率p(c)的負對數函數[5]。根據Resnik的思想,對知網中的一個義原A,其信息量大小 為:

(1)

其中, 表示義原A在某個語料庫樣本空間中出現的概率。

計算語料庫樣本空間中某個義原出現的概率是很困難的。知網作為一個以各類概念及關系為描述對象的知識系統,其分類體系本身可以看作是各個義原出現的一個樣本空間,僅依賴知網分類體系本身而不需其他語料庫,作為計算義原出現概率的樣本空間也是合理的。研究認為,分支結點義原包含的子孫結點越多,其信息量越小。葉子結點是最小的分類,所有葉子結點的信息量是相同的。

設 是某類義原樹上的一個義原結點,將義原 及其包含的子孫義原的數量作為該義原在樣本空間中出現的次數,根據知網的分類體系,義原 的信息量 計算方法為:

(2)

其中, 是義原 包含的子孫義原的數量, 是樣本空間中所有義原的數量,研究取知網中實體類、事件類、屬性類、屬性值類、次要特征所包含的2 216個義原作為計算某顆義原樹上義原出現概率的樣本空間。

1.2義原相似度

Dekang Lin 在文獻[6]中提出,任何兩個事物的相似度取決于其共性(Commonality)和個性(Differences),從信息論的角度給出任意兩個事物間相似度計算的通用公式[6]:

(3)

其中,分子表示描述事物A和B的共性所需要的信息量,分母表示完整描述出事物A和B所需要的信息量。

在一棵義原樹上,假設義原 是義原 和義原 最近的祖先結點,那么義原 就是包含義原 和義原 的最小分類,該最小分類 就是義原 和 的最具體的通用抽象(the Most Specific Common Abstraction)[6],也就是義原 和 的共性,設義原 的信息量為 ,根據公式(3),給出義原 和 的相似度計算公式:

(4)

以“entity|實體”為根結點的義原樹上的葉子義原“牲畜|livestock”和“走獸|beast”間的相似度計算為例,兩者最近的祖先結點義原是“獸|animal”,其子孫結點個數為5,根據公式(2)和公式(4)計算得到二者的相似度為0.384。研究規定,不在同一棵義原樹上的兩個義原間相似度為0,兩個相同義原的相似度為1。

2義原及其角色關系

2.1 概念描述

在知網的知識詞典中,每個詞語由DEF來描述其概念,在此將DEF分為兩部分:主類義原和特性描述部分。

定義1:主類義原

把描述詞語概念的DEF中的最左邊的第一個義原稱為主類義原。

定義2:義原及其角色關系

在詞語DEF的特性描述部分中,把義原及動態角色與特征(Event Role and Features)[18]的層次結構的組合稱為義原及其角色關系。

定義3:義原及其角色關系的層次

DEF中為了進一步解釋或說明詞語概念采用了“{}”這種形式的結構,研究將這種結構按照包含關系分為不同的層次,義原及其角色關系的層次即為這種包含關系在“{}”結構中所處層次。

定義4:最小不可分割的義原及其角色關系

本層義原及其動態角色稱為最小不可分割的義原及其角色關系。

例如:例如詞語“病菌”的一個概念:DEF={bacteria|微生物:domain={medical|醫},modifier={able|能:scope={ResultIn|導致:result={disease|疾病}}}}。“bacteria|微生物”是主類義原,其它部分是特性描述部分。把“domain={medical|醫}”、“modifier={able|能:scope={ResultIn|導致:result={disease|疾病}}}”稱為DEF的第一層義原及其角色關系,包含兩個本層義原“medical|醫”和“able|能”,把“scope={ResultIn|導致:result={disease|疾病}}”稱為第二層義原及其角色關系,包含一個本層義原“ResultIn|導致”。“domain={medical|醫}”、“scope={ResultIn|導致}”、“result={disease|疾病}”都是最小不可分割的義原及其角色關系,在DEF中所處層次分別定義為1、2、3。

2.2 義原及其角色關系的信息量

在計算義原及其角色關系的信息量時,用本層義原的信息量與下一層義原及其角色關系的信息量來加權計算。研究規定,最小不可分割的義原及其角色關系的信息量就等于其所包含的義原信息量,設定第一層義原及其角色關系中本層義原的權重為 ,第二層義原及其角色關系中本層義原的權重為 ,依次類推,第 層義原及其角色關系中本層義原的權重為 。用 表示DEF中特性描述部分的義原及其角色關系, 表示 的信息量,其計算公式為:

(5)

其中, 表示 包含的最大層次, 表示 中第 層義原及其角色關中本層義原的信息量, 表示 中第 層義原及其角色關系中本層義原的總個數, 表示第i個義原, 表示義原 的信息量。研究規定,一個沒有概念描述的具體詞,設定信息量為一個常數,大小等于葉子結點義原的信息量3.346。

3 詞語相似度

3.1 概念相似度

詞語概念間相似度基于概念的DEF來進行計算,每個概念的DEF是由主類義原及若干個義原及其角色關系組成,文中通過概念的主類義原間相似度 、義原及其角色關系相似度 以及義原結點相似度 來綜合計算兩個概念的相似度,兩個概念 和 的相似度計算公式為:

(6)

其中, , , 分別為 , , 的權重系數,有 。

兩個概念的主類義原 和 的相似度 計算與公式(4)計算義原相似度方法相同,這里不再贅述。

3.2義原及其角色關系相似度

基于Dekang Lin計算兩個事物相似度的思想,研究把兩個概念的義原及其角色關系的相似度 表示為:兩個概念共有的義原及其角色關系的信息量與兩個概念所有的義原及其角色關系的信息量的比值。共有義原及其角色關系為兩個概念中完全相同的義原及其角色關系,在此用 表示兩個概念 和 共有的義原及其角色關系集合, 表示該集合的信息量, 計算公式為:

(7)

其中, 為概念 特性描述部分的義原及其角色關系信息量, 為概念 特性描述部分的義原及其角色關系信息量。如果共有義原及其角色關系在兩個DEF中的層次不同,以其所處的最深層次的信息量作為共有的信息量。

3.3 結點相似度

研究通過兩個概念中共有義原結點數和總的義原結點數的比值來綜合計算義原結點相似度 ,計算公式為:

(8)

其中, 表示兩個概念中共有義原結點數 , 表示兩個概念總的結點數, 和 分別表示概念 和 各自的義原結點數。

3.4 詞語相似度

在知網中,有的詞語有多個概念,每一個概念表示一種語義,如果兩個詞語各自只有一個概念,那么詞語語義的相似度計算實質上就是兩個概念間的相似度計算,對于具有多個概念的詞語,通常根據詞語出現的語境進行詞義消歧后再計算概念間的相似度,效果更好。劉群在文獻 [1]提出的詞語相似度計算中,認為兩個孤立詞語(不在一定的上下文背景中)的語義相似度是其所有概念之間相似度的最大值,本文采用劉群的做法,將兩個詞語概念間的最大相似度值作為詞語的整體相似度。兩個詞語 和 的相似度計算公式為:

(9)

其中, 表示詞語 的一個概念, 表示詞語 的一個概念, 表示概念 和 的相似度。研究規定,如果兩個詞語為同義詞,相似度為1。如果兩個詞語為同類詞,相似度為0.95,如果兩個詞語為反義或對義詞,相似度為0。

4 實驗結果及分析

目前還沒有專門的評估中文詞語語義相似度算法質量的專用數據集,本文隨機選取一些常用詞語和漢語詞典中以“病”開頭的一些相關詞語作為實驗對象,與劉群方法[1]、知網在線[19]的詞語相似度計算方法及人工判斷的相似度值進行比較。

知網在線算法將主類義原相似度分為 和 兩部分,權重都是0.1,本文主類義原相似度 的權重取知網在線算法中 和 的和,即 的權重為0.2。本文認為詞語概念特性描述部分是對詞語間相似性及差異性更詳細的描述,因此 的權重應該等于反映詞語相似性的主類義原間相似度 與義原結點相似度 之和,所以 的權重為0.5,則 的權重為0.3。本文 , , 含義與劉群和知網在線方法是不同的。劉群方法、知網在線和本文方法的實驗參數如表1所示。

表1 實驗參數列表

Tab.1 Experimental parameter lists

劉群方法 1.6 0.5 0.2 0.17 0.13 0.20 0.20

知網在線 1.6 0.1 0.1 0.7 0.1 — —

本文方法 — 0.2 0.5 0.3 — — —

本文選取50位漢語文學類專業的老師和學生作為人工判斷詞語相似度的專家,每位專家給出表2和表3中兩組詞語的人工相似度值,每組分別去掉五個最高和最低的相似度值,而后將剩余的40組有效數據通過加權計算得到人工判斷的相似度值。常用詞語相似度實驗結果如表2所示。

表2 詞語相似度實驗結果

Tab.2 The experimental results of word similarity

編號 詞語1 詞語2 劉群

方法 知網

在線 人工相似度值 本文

方法

1 得病 得救 0.211 0.021 0.079 0.062

2 道路 道上 0.100 0.115 0.186 0.235

3 病人 醫生 0.665 0.303 0.403 0.649

4 電話 電視 0.896 0.340 0.201 0.32

5 北京 城市 0.641 0.433 0.192 0.300

城市 地區 0.600 0.7670 0.418 0.400

地區 北京 0.600 0.580 0.214 0.32

6 出兵 出征 0.105 0.014 0.343 0.383

7 搬家 拆遷 0.872 0.700 0.311 0.645

8 陳設 擺設 0.579 0.720 0.546 0.636

9 盜賊 盜墓 0.044 0.001 0.094 0.046

10 病故 病危 0.160 0.021 0.174 0.339

從表2中本文方法與劉群方法、知網在線及人工判斷相似度值相比較,可以看到:劉群方法是基于義原距離來計算詞語相似度,當義原處在同一類義原樹中,詞語的相似度偏大,例如第1、4、7組詞語相似度結果比本文及知網在線方法的結果都偏大,與人的判斷差異也很大。知網在線方法在計算計算詞語的相似性時,更加細化,將詞語的義原結構分解為多個部分,賦予各部分不同的權重然后加權計算得到整體間的相似度,實際上進一步割裂了描述詞語的各個義原之間的關系,例如第5、6、7組詞語,詞語相似度計算的結果不夠合理。另外,知網在線方法對詞語特性描述部分計算比較復雜,計算量也較大。

再有,選取了漢語詞典中以“病”開頭的一類詞語作為實驗對象,把同義詞作為一個集合,且以每個集合的第一個詞語參與計算,將詞性相同詞語(詞語1和詞語2)進行比較,計算詞性相同的相關詞語間的相似度,相關詞語相似度計算結果如表3所示。

表3相關詞語相似度計算

Tab.3 Computation of related word similarity

編號 詞語1 詞語2 劉群

方法 知網

在線 人工相似度值 本文

方法

1 病人(病員,病號,病軀,病夫,病體) 病友 0.669 0.327 0.359 0.309

病魔 0.448 0.062 0.126 0.104

病菌(病毒) 0.209 0.035 0.144 0.279

病例 0.124 0.019 0.218 0.285

2 病倒 病故(病逝,病死,病歿) 0.242 0.124 0.385 0.262

病危 0.186 0.119 0.414 0.174

病愈 0.145 0.124 0.062 0.132

3 病因(病原,病源) 病史 0.444 0.078 0.225 0.418

病狀 0.347 0.078 0.317 0.355

病害 0.257 0.035 0.218 0.134

病理 0.200 0.024 0.307 0.335

病案(病歷) 0.167 0.019 0.265 0.325

4 病房(病室) 病床(病榻) 0.242 0.029 0.385 0.306

病院 0.167 0.017 0.363 0.532

5 病變 病殘 0.209 0.101 0.22 0.201

在表3中,第1組中的3對詞語,第2組中的1對詞語,第3組中3對詞語,第4組中的1對詞語及第5組詞語、總計9對詞語的相似度,本文方法計算結果都更接近于人的判斷。

將表2和表3中27組詞語相似度按照人工判斷的相似度值升序排列,劉群方法、知網在線和本文方法的三種相似度計算結果與人工判斷值進行相似度比較的折線圖如圖1所示。

圖1 四種方法的詞語相似度比較

Fig.1 Comparison of word similarity with four methods

從圖1中可以看出,與劉群方法和知網在線相比,在所有27組詞語比較中,本文方法計算的17組詞語相似度值更接近于人工判斷值(三角標識),整體上也更趨近于人工判斷值的折線。綜合來看,本文方法的結果更加合理,與人的判斷也比較一致。

5 結束語

根據信息論中兩個事物相似度計算的思想,本文提出基于知網義原信息量和義原及其角色關系計算中文詞語相似度,從保留義原間關系的角度出發,結合主類義原相似度、義原及其角色關系相似度以及結點相似度來綜合計算詞語的相似度,更能全面地反應出詞語語義的相似性和差異,計算量也較少,計算結果合理可行。

參考文獻:

[1] 劉群,李素建.基于《知網》的詞匯語義相似度的計算[C] //臺北: 第三屆漢語詞匯語義學研討會,2002,7(2):59-76.

[2] AGIRRE E, RIGAU G. A proposal for Word Sense Disambiguation using conceptual distance[C]// Proceedings of the First International Conference on Recent Advanced in NLP. Bulgaria:ACL,1995:258-264.

[3] 夏天.漢語詞語語義相似度計算研究[J].計算機工程,2007, 33(6):191-194.

[4] 江敏,肖詩斌,王弘蔚等.一種改進的基于《知網》的詞語語義相似度計算[J].中文信息學報,2008,22(5):84-89.

[5] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy[C]// Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, Canada:ACM, 1995:448-453.

[6] LIN Dekang. An information-theoretic definition of similarity [C]// Proceedings of the Fifteenth International Conference on Machine Learning. Wisconsin(USA):ACM,1998:296-304.

[7] RESNIK P. Semantic similarity in a taxonomy: An information-based Measure and its application to problems of ambiguity in natural language[J].Journal of Artificial Intelligence Research,1999,11:95-130.

[8] 李峰,李芳.中文詞語語義相似度計算—基于《知網》2000 [J]. 中文信息學報, 2007, 21(3):99-105.

[9] 董振東,董強,郝長伶.《知網》的理論發現[J].中文信息學報,2007,21(4):3-9.

[10] 王小林,王義.改進的基于知網的詞語相似度算法[J].計算機應用,2011,31(11): 75-90.

[11] 王小林,楊林,王東.基于知網的新詞語相似度算法研究[J].情報科學,2015,33(2):67-71.

[12] 林麗,薛方,任仲晟.一種改進的基于《知網》的詞語相似度計算方法[J].計算機應用,2009,29(11):217-230.

[13] 張敏,王振輝,王艷麗.一種基于《知網》知識描述語言結構的詞語相似度計算方法[J].計算機應用與軟件,2013,30(7):265-267.

[14] 范弘屹,張仰森.一種基于HowNet的詞語語義相似度計算方法[J].北京信息科技大學學報.2014,29(4):42-45.

[15] 張亮,尹存燕,陳家駿.基于語義樹的中文詞語相似度計算與分析[J].中文信息學報,2010,24(6):23-30.

[16] 劉青磊,顧小豐.基于《知網》的詞語相似度算法研究[J].中文信息學報,2010,24(6):31-36.

[17] 游彬,嚴岳松,孫英閣等.基于HowNet的信息量計算語義相似度算法[J].計算機系統應用,2013,22(1):129-133.

[18] 董振東,董強.HowNet Knowledge Database[EB/OL]. [2015-02-29]. http://www.keenage.com/.

主站蜘蛛池模板: 亚洲一级毛片免费观看| 男女猛烈无遮挡午夜视频| 久久黄色视频影| 亚洲日本一本dvd高清| 大香网伊人久久综合网2020| 2021亚洲精品不卡a| 日韩色图区| 亚洲香蕉伊综合在人在线| 国产真实乱人视频| 日韩毛片在线视频| 国产精品免费电影| 麻豆国产精品| 久99久热只有精品国产15| 欧美在线视频不卡第一页| 国产精品视频3p| 在线视频一区二区三区不卡| 亚洲Av综合日韩精品久久久| 午夜精品久久久久久久99热下载 | 国产性生交xxxxx免费| 欧美成人看片一区二区三区 | 久热99这里只有精品视频6| 久久99精品久久久大学生| 日韩成人在线一区二区| 国产精品手机视频一区二区| 国产精品视频观看裸模| 国产一区二区网站| 老司国产精品视频91| 香蕉视频国产精品人| 国产av剧情无码精品色午夜| 88国产经典欧美一区二区三区| 国产精品区网红主播在线观看| 精品人妻一区二区三区蜜桃AⅤ| 色婷婷国产精品视频| 天天激情综合| 性喷潮久久久久久久久| 国产精品亚洲五月天高清| 日韩精品专区免费无码aⅴ | 欧美一级高清片久久99| 国产一级α片| 国产波多野结衣中文在线播放| 国产欧美日韩在线一区| 黄色网在线免费观看| 日韩毛片免费| 国内精品自在自线视频香蕉 | 高清乱码精品福利在线视频| 六月婷婷激情综合| 国产久草视频| 国产一级二级三级毛片| 亚洲精品图区| 亚洲成年人片| 黄色成年视频| 九色视频一区| 波多野结衣一级毛片| 久久狠狠色噜噜狠狠狠狠97视色| 狠狠综合久久| 亚洲色大成网站www国产| 四虎永久免费在线| 青青热久免费精品视频6| 狠狠色噜噜狠狠狠狠奇米777| 九色综合伊人久久富二代| 美女无遮挡被啪啪到高潮免费| 57pao国产成视频免费播放| 国产91色在线| 在线观看免费国产| 国产精品一线天| 国产人成乱码视频免费观看| 亚洲国产av无码综合原创国产| 日本成人精品视频| 波多野结衣的av一区二区三区| 国产一区二区三区在线精品专区| 情侣午夜国产在线一区无码| 欧美精品xx| 国外欧美一区另类中文字幕| 亚洲三级色| 国产91精品久久| 亚洲国产日韩在线成人蜜芽| 欧美久久网| 国产精品刺激对白在线| 欧美日韩在线亚洲国产人| 日韩欧美中文在线| 欧美一级高清片欧美国产欧美| 五月天丁香婷婷综合久久|