基于知網與詞林的詞語語義相似度計算

2016-05-03 12:59:51朱新華馬潤聰陳宏朝

中文信息學報 2016年4期

關鍵詞：語義方法

朱新華，馬潤聰，孫柳，陳宏朝

(廣西師范大學計算機科學與信息工程學院，廣西桂林 541004)

基于知網與詞林的詞語語義相似度計算

朱新華，馬潤聰，孫柳，陳宏朝

(廣西師范大學計算機科學與信息工程學院，廣西桂林 541004)

該文提出了一種綜合知網與同義詞詞林的詞語語義相似度計算方法。知網部分根據義原層次結構的特征，采用了頂部平緩而底部陡峭的曲線單調遞減的邊權重策略，改進了現有的義原相似度算法；詞林部分采用以詞語距離為主要因素、分支節點數和分支間隔為微調節參數的方法，改進了現有的詞林詞語相似度算法。然后再根據詞語的分布情況，采用綜合考慮知網與同義詞林的動態加權策略計算出最終的詞語語義相似度。該方法充分利用了詞語在知網與詞林中的語義信息，極大地擴充了可計算詞語的范圍，同時也提高了詞語相似度計算的準確率。

語義相似度;知網;同義詞詞林;語義距離

1 引言

詞語語義相似度的計算在信息檢索、文本聚類、機器翻譯、詞義消歧和智能教學等領域有著廣泛的應用。當前詞匯語義相似度計算方法大致可分為兩類: 一類利用大規模語料庫進行統計，依據詞匯上下文信息的概率分布進行計算；另一類基于某種世界知識來計算，通常是基于某個知識完備的語義詞典中的層次結構關系進行計算[1]。無論是基于本體知識還是基于大規模語料庫都有自己的優劣，具體要看應用環境才能選出最佳方案。基于世界知識的方法簡單有效，無需用語料庫進行訓練，也比較直觀，易于理解，但這種方法得到的結果受人的主觀意識影響較大，有時并不能準確反映客觀事實[2]。基于語料庫的方法比較客觀，綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是，這種方法比較依賴于訓練所用的語料庫，計算量大，計算方法復雜，另外，受資料稀疏和資料噪聲的干擾較大[2]。在信息檢索和文本聚類中一般用語料庫的方法，機器翻譯以及智能教學中一般采用基于世界知識的方法。

1.1 知網簡介

知網是董振東先生花了數十年時間建設的一個漢語常識庫，其設計目標是通過漢語詞語意義的描述實現中英文機器翻譯，目前仍在發展更新中。《知網》中與詞語意義相關的概念有：義原、義項、語義表達式。義原是描述“概念”的基本單位[2]，也可以說是原子概念，其作用是用來對其他非義原“概念”進行描述。一個詞語的一項解釋叫作義項，一般的詞語都會有多個義項，義項也可以叫作“概念”。在知網中每個漢語詞語的一個義項由一個四元組構成[3]:。

DEF(語義表達式)是義項的主體，它由一個個結合知識描述符號的基本義原組成，每個義原用逗號隔開，例如，義項“雇員”的DEF=“human|人,$employ|雇用”，其含義為“可以被他人雇用的人稱為雇員”。知網建設的初衷是為了解決機器翻譯這一難題，因此義原的基本形式為“英語單詞|漢語詞”。義原在知網中分為事件、實體、屬性、屬性值、數量、數量值、次要特征、語法、動態角色與動態屬性等十大類，共計1 500多個(2000版)，義原根據上下位關系構建出樹狀結構，如圖1所示[4]。

圖1 義原的樹狀層次結構

知網的建設還在不斷的進行中，本文所說的知網無特殊說明，均指目前可在知網官方網站下載到的免費版本，主要部分是2000年版。

1.2 同義詞詞林簡介

同義詞詞林是由梅家駒[5]等人于1983年編撰的可計算漢語詞庫，其設計目標是實現漢語同義詞和同類詞的劃分和歸類。同義詞詞林經哈爾濱工業大學信息檢索研究室的擴展后，目前共有七萬多個詞語，這些詞語被分為了12個大類，94個中類，1 428個小類，小類下方進一步劃分為詞群和原子詞群兩級[6]。這樣，同義詞詞林的擴展版就具備了五層的樹狀結構。與知網中的樹形結構不同，知網中每一個節點都是一個義原，同義詞詞林中上面四層的節點都代表抽象的類別，只有最底層的葉子節點才是一個個的詞條，也有研究者稱之為義項[7]，同一個詞條可能在不同的類別中同時存在，也就是說詞條的編碼不是唯一的。第一至三大類多屬名詞，數詞和量詞在第四大類中，第五類多屬形容詞，第六至十類多是動詞，十一類多屬虛詞，十二類是難以被分到上述類別中的一些詞語。大類和中類的排序遵照從具體概念到抽象概念的原則[5]。

關于詞條的編碼如表1所示。第八位編碼只有三種情況，“=”代表“相等”、“同義”。“#”代表“不等”、“同類”，屬于相關詞語。“@”代表“自我封閉”、“獨立”，它在詞典中既沒有同義詞也沒有相關詞[5]。前七位編碼就可以唯一確定一條編碼，即不存在這種情況：前七位編碼相同而第八位不相同的多條編碼同時存在。當前七位編碼確定以后，第八位就是固定的，要么是“=”，要么是“#”，要么是“@”。例如，(導體，半導體，超導體)這一組同義詞在詞林中的編碼為“Ba01B10#”。

表1 詞林中詞語的編碼結構

本文所使用的同義詞詞林來源于《哈工大信息檢索研究室同義詞詞林擴展版》的 1.0 版本。

2 詞語語義相似度的計算

2.1 改進的知網義原相似度計算

基于知網的詞語相似度計算的是對兩個詞語的意義進行比較，其總體方法為：將詞語相似度的計算轉換為對詞語義項語義表達式(DEF)的相似度計算，而義項DEF相似度的計算又可轉換為對其中的義原進行相似度計算[2]，因此義原相似度是詞語相似度計算的基礎。

在義原樹中影響義原相似度的因素有：義原距離、節點層次、節點密度等語義信息。義原距離和節點層次與義原相似度成反比，而節點密度與相似度成正比，即二個義原距離越大相似度越低；在路徑長度相同的情況下，節點對所處層次越高，差異性越大，相似度也就越低；密度越大的地方說明分類越細，其同距離路徑的語義距離也就越小[1]。

劉群等[2]提出了將義原距離轉化為相似度的計算如式(1)所示。

(1)

其中s1和s2代表兩個義原，dis(s1,s2)為s1和s2的語義距離，其值等于s1和s2在義原層次體系中的路徑長度，α為相似度約為0.5時的義原距離，在文獻[2]中α取值為1.6。在式(1)中，連接所有層次的邊的權重都設為1，因此沒有考慮節點的層次與密度對相似度的影響。

為提高義原距離計算的合理性，文獻[1]在義原距離的計算公式中引入了一個隨層數遞增而單調遞減的邊權重函數，但該函數采用的是線性遞減策略，頂部邊權重衰減過快，造成義原距離的計算結果與文獻[2]的偏離過大，同時也不符合知網層次結構的特點。

在知網的義原層次結構中，頂部層都為大類且節點密度都相對低，而底部層都為小類且節點密度都相對高。根據該層次結構的特征，本文在加權距離算法中采用了頂部平滑而底部陡峭的曲線單調遞減的邊權重函數，如式(2)、式(3)所示。

(2)

在式(2)中，設s1和s2的最短可達路徑上共有n條邊，level(k)代表第k條邊上父節點在樹形結構中的層次編號，并設根節點的層次編號為0。

本文在邊權重函數中，引入了一個正弦三角函數來修正文獻[1]中頂部邊權重隨層數遞增而衰減過快的現象，如式(3)所示。

(3)

其中，m代表樹的層次數，在知網中m=14，即義原樹層高為14；θ為一個與層高m成反比的調節參數，在不同的層高下，θ的取值必須在不同的范圍之內，以確保邊權重函數的單調遞減性，經測試，當m=14時，θ取4比較理想；i為一個正整數，代表節點的層次編號，0≤i≤m-2；π為圓周率。weight(i)代表的是第i層節點與第i+1層節點連接邊的權重。

經實驗對比，使用上式可以得到比文獻[1]中頂部衰減更為平緩的邊權重單調遞減，如表2所示。

表2 式(3)與文獻1的對比(m=14, θ=4,結果取二位有效數)

注：表2所列的邊權重是指在同一顆義原大類樹中連接不同層次節點的邊的權重，當兩個義原不在一顆大類子樹中時，本文直接將兩個義原的距離處理為20。

2.2 基于知網的詞語相似度計算

根據文獻[2]的思想與方法，在知網中詞語相似度的計算可以轉換為對詞語語義表達式(DEF)的相似度計算。劉群[2]將義項的語義表達式DEF劃分為四個部分。排在最前面的是義項的第一基本義原，它刻畫的是義項的本質屬性。以符號如“～！@#$%&*”等開頭的是關系符號義原描述式。包含“=”號的是關系義原描述式。剩余的就是其他基本義原構成的描述式集合。江敏[8]把第一基本義原和其他基本義原合并在一起稱為獨立義原，本文借用該思想，將義項相似度的計算轉化成對獨立義原集合、關系義原特征結構與關系符號義原特征結構的相似度計算，具體方法為：

(1) 獨立義原構成集合，其相似度的計算以2.1中所描述的義原相似度算法為基礎，利用文獻[1]和文獻[9]中的二部圖最大權匹配方法，算出其相似度。本部分記為sim1(C1,C2)。

(2) 關系義原是特征結構[2]，其計算的核心思想是先按一定規則配對，然后分別算出配對義原的相似度，再求平均值。關系義原以等號左邊英文單詞相同的進行配對，最后剩余的未配對義原都虛擬一個空值與之配對。關系義原特征結構相似度記為sim2(C1,C2)。

(3) 關系符號義原也是特征結構[2]，其計算的核心思想也是先按一定規則配對，然后分別算出配對義原的相似度，再求平均值。關系符號義原以相同符號開頭的進行配對，最后剩余的未配對義原都虛擬一個空值與之配對。關系符號特征結構相似度記為sim3(C1,C2)。

義原或者具體詞與空值的相似度都處理為一個較小的常數δ。具體詞指的是知網中尚未給出定義的詞條，在DEF中一般用括號括起來。具體詞與義原的相似度均處理為另一個較小的常數γ。具體詞與具體詞間相同相似度處理為1，不相同則處理為0。

將DEF的上述三部分相似度組合起來就可以得到義項的相似度，計算公式如式(4)所示[1-2,8]。

(4)

其中，參數βi(1≤i≤3)是可調節的，且滿足：β1+β2+β3=1,β1≥β2≥β3。本文的實驗中β1取0.7，β2取0.17，β3取0.13。式(4)采用多個sim連乘的目的，主要是為了使用前面主要部分的相似度值來抑制后面次要部分的相似度所起的作用，從而避免出現當主要部分的相似度值過低時，因次要部分的相似度太高而導致整體相似度過高的不合理現象的出現[2]。

考慮到有的詞語會有多個義項，兩個詞語的最終相似度取所有義項組合中相似度最大的值為有效值，公式如式(5)所示[2]。

(5)

2.3 改進的同義詞詞林詞語相似度計算

同義詞詞林的整體構造是一個五層樹形結構(圖2)，因此兩個詞語在詞林樹中的連接路徑是影響詞語相似度的主要因素。詞林的第一層是大類，本文將不屬于同一個大類的詞語間的距離都處理為18，同時按從底層到高層的順序，將連接上、下兩層的四類邊分別賦予一個權重Wi(1≤i≤4),且滿足： 0.5≤W1≤W2≤W3≤W4≤5, W1+W2+W3+W4≤10，如圖2所示。在本文實驗中，這四類邊的權重分別取0.5、1、2.5、2.5，由于詞語編碼均在第五層葉子節點上(圖2中的實心節點)，于是詞語編碼距離d可取1、3、8、13、18這幾個離散值。

將2015年6月—2018年6月來我院治療的早期急性心肌梗死患者共計60例作為研究對象，男性和女性分別為32例和28例；年齡42～73歲，平均年齡（60.6±4.7）歲；包括下壁心肌梗死18例、前壁心肌梗死16例和廣泛性前壁心肌梗死26例。本次研究獲得了我院倫理委員會的批準。

圖2 同義詞詞林的5層樹形結構

在詞林中，影響詞語相似度的還有兩個次要因素：兩個詞語最近公共父節點的直接孩子的個數，也叫分支層節點總數n，以及在最近公共父節點中，兩個詞語所在分支的間隔距離k，比如“人”編碼Aa01A01和“每人”編碼Aa01A08這兩個詞語的n=9，k=7。分支層節點總數n反映了公共父節點的密度，因此與詞語相似度成正比。在同一層中，詞林是按一定的語義順序對詞語進行分類與排列的，因此分支間隔k與相似度成反比關系。

文獻[10]提出了一個基于層分支的詞林義項相似度計算公式，該公式是以分支節點數n和分支間隔k為主要考慮因素，因此會出現許多距離近的詞語因分支間隔遠而算出相似度過低的不合理現象。為解決這一問題，本文提出了一個以詞語距離d為主要影響因素、分支節點數n和分支間隔k為調節參數的同義詞詞林詞語相似度計算公式，如式(6)所示。

(6)

其中，dis(C1,C2)是詞語編碼C1和C2在樹狀結構中的距離函數，等于詞語對的連接路徑中各邊的權重之和，可取值2 *W1、2*(W1+W2)、2*(W1+W2+W3)、2*(W1+W2+W3+W4)。

式(6)設計的基本思路為：首先為詞語對的相似度賦予一個根據詞語距離計算出的初值；然后再根據詞語對的最近公共父節點的密度n與詞語對所在分支的間距k，對該初值進行向下修正，且要求該修正只能是微調，修正幅度不能超過25%。式(6)中，將n和k的表達式作為e的負指數，以及對其開平方，都是為了降低公式對n和k這二個參數的敏感度，避免出現修正幅度過大的現象。

當兩個詞語在編碼的同一個“=”后面時，相似度處理為1；在編碼的同一個“#”后面時相似度處理為0.5。當兩個詞語不在一個大類中時詞語間的距離都處理為18。當一個詞語對應多個編碼時，與知網中詞語對應多個義項的處理方法類似，計算出所有的編碼組合的相似度，取最大的相似度作為詞語的相似度。

2.4 綜合知網和詞林的詞語相似度計算

綜合考慮知網和詞林的詞語相似度計算的總體思想為：對于任意兩個詞語W1和W2，根據它們在知網和詞林中的分布情況，按照一定的策略綜合利用知網和同義詞詞林分別計算出詞語的兩個相似度，記作s1和s2，同時為這兩個相似度分別賦予權重λ1和λ2，且滿足：λ1+λ2=1，然后按照式(7)計算出綜合知網和詞林的詞語語義相似度。

(7)

詞語在知網和詞林中的分布情況分類如圖3所示。I代表所有的詞語構成的全集；A代表知網中特有的詞語，即知網中收錄，詞林中未收錄的詞語，共有19 296個[7]；B代表詞林中特有的詞語，即詞林中收錄，知網中未收錄的詞語，共有21 330個[7]；C代表知網和詞林中同時收錄的詞語，共有 30 926個[7]。由于知網與詞林都在不斷建設中，上述數據也在不斷變化。

圖3 詞語在知網與詞林中的分布圖

(1) 當W1∈C，W2∈C時，同時使用知網和詞林分別計算W1和W2的相似度，分別記作s1和s2。在不同的具體應用中，λ1和λ2可以任意調節，本文實驗中取λ1=0.5，λ2=0.5。

(2) 當W1∈A，W2∈A或者W1∈B，W2∈B中時，單獨對W1和W2進行基于知網或基于詞林的相似度計算，記作s1或s2。此時，λ1和λ2一個為1，另一個為0。

(3) 當W1∈A，W2∈B時，在詞林中查找W2的同義詞集合，依次與W1進行基于知網的相似度計算，取其中的最大值作為兩個詞語的相似度，記作s1；如果W2在詞林中無同義詞，則取s1=0.2。此時取λ1=1，λ2=0。

(4) 當W1∈A，W2∈C時，首先對W1和W2進行基于知網的相似度計算，結果記作s1；然后在

詞林中查找W2的同義詞集合，依次與W1進行基于知網的相似度計算，取其中的最大值作為s2；如果W2在詞林中無同義詞，則取s2=s1。此時要求λ1>λ2，本文實驗中取λ1=0.6，λ2=0.4。

(5) 當W1∈B，W2∈C時，首先對W1和W2進行基于詞林的相似度計算，結果記作s2；然后在詞林中查找W1的同義詞集合，依次與W2進行基于知網的相似度計算，取其中的最大值作為s1；如果W1在詞林中無同義詞，則取s1=s2。此時要求λ2>λ1，本文實驗中取λ1=0.4，λ2=0.6。

對于一個詞語的所有同義詞在知網中都不存在的情況暫不予考慮，對于知網和同義詞同時未收錄的詞語目前使用本文的方法還不能計算。

3 實驗與分析

3.1 對比實驗

目前國際上對詞語相似度算法的評價標準普遍采用Miller&Charles發布的英語詞對集的人工判定值[11]。該詞對集由十對高度相關、十對中度相關、十對低度相關共30個英語詞對組成，然后讓38個受試者對這30對進行語義相關度判斷，最后取他們的平均值作為人工判定標準[12]。本文采用Miller&Charles發布的詞對集及其人工判定值作為標準，通過計算各種方法與其的皮爾森相關系數(Pearsoncorrelationcoefficient)，將本文提出的方法分別與劉群[2]和田久樂[10]的方法進行對比。首先，將這30個英語詞對按照同詞性、意義最接近的原則翻譯成對應的中文詞對，然后采用各種方法對詞對計算相似度(表3)，最后計算出不同方法的結果與miller人工值的皮爾森相關系數(表4)。為增加結果的可比性，表4還列出了四種英文方法的皮爾森相關系數。

表3 不同方法對Miller詞對集的計算結果

續表

表4 不同方法與miller人工值的皮爾森相關系數

續表

3.2 擴展計算實例

根據圖3，可以得出基于知網的詞語相似度的可計算詞語范圍為： A∪C=50 222個，基于詞林的詞語相似度的可計算詞語范圍為： B∪C=52 256個，本文提出的綜合知網與詞林的詞語相似度方法的可計算詞語范圍為： A∪B∪C=71 552個。該綜合方法對知網方法的可計算詞語范圍擴展了： B/(A∪C)=42.47%，對詞林方法的可計算詞語范圍擴展了： A/(B∪C)= 36.93%。表5給出了幾個典型的擴展計算實例，其中不帶括號的詞語表示被知網和詞林同時收錄，帶圓括號的詞語表示僅被知網收錄而未被詞林收錄，帶方括號的詞語表示僅在詞林中收錄而未被知網收錄。

表5 擴展計算實例

3.3 結果分析

通過上述實驗與計算實例，可以得出以下結論：

(1) 從上述對比實驗可以看出：效果最好的是本文綜合知網和詞林的詞語相似度計算，該方法詞語計算范圍廣，與miller人工值的皮爾森相關系數最高，達到了0.888 4，與國外相關算法相較也是優秀的；其次的是本文改進的分別基于詞林與基于知網的兩種詞語相似度計算，與miller人工值的皮爾森相關系數都有一定程度的提高，其值都超過了0.8，達到了實用水平；田久樂[10]實現的基于詞林的詞語相似度計算，與miller人工值的皮爾森相關系數只有0.530 1，效果最差。

(2) 從表3的結果還可以看出，在知網2000版中，由于知識描述語言的局限性，有一些詞語的定義比較粗糙，在計算詞語相似度時，無論在算法上如何改進，其相似度計算總是會出現不盡人意的地方，引入詞林計算模塊以后正好修正了這些粗糙點。詞林編碼中同一個“#”后面的詞語相似度全部處理為0.5，這樣會使得有些詞語間的相似度偏低，知網計算模塊可以改善這一點。

(3) 目前，國際上對英文詞語的相似度計算，普遍是基于WordNet[17]語義詞典，主要是利用詞節點

之間上下位關系構成的最短路徑來計算英文詞語之間的相似度，并同時考慮兩個詞的公共祖先節點的最大信息量、概念層次樹的深度與區域密等信息來調節詞語相似度[13-16]，與本文改進的基于同義詞詞林的中文詞語相似度算法的思想與效果基本相同。

(4) 田久樂的詞林方法在計算“轎車”與“汽車”、“男孩子”與“小伙子”兩個詞對的相似度時，值都偏低，這主要是由于在這兩對詞語中分支間隔k與分支節點數n的比值都較大，而在其計算公式中，該比值與相似度是線性負相關的，因此，計算結果對該比值過于敏感，造成相似度偏差較大；而在本文改進的詞林方法中，該比值與相似度是曲線負相關的，從而降低了對該比值的敏感度，提高了詞語相似度的準確度。

(5) 表3中，所有方法在計算“食物”與“水果”詞對的相似度時與miller人工值相比都偏低，這主要是在同義詞詞林分類結構中，將“食物”歸為第二大類“物”的“糧食”中類而將“水果”歸為“物”的“草木”中類，造成二者的共同父節點的層次過高；同樣在知網中的義原分類結構中，二者的共同父節點為第三層的“物質”(“食物”為“無生物物質”、“水果”為“生物物質”)，共同父節點的層次也很高。詞林與知網對于這二個詞的分類法是否正確，還有待商榷。

4 結束語

本文所提出的詞語語義相似度計算方法，結合了知網與同義詞詞林兩個知識庫，充分利用了詞語在不同知識庫中的語義信息，得到的相似度更為準確與合理。在實驗中我們也發現有一些詞語無論用那種方法在兩個知識庫中的計算結果均不理想，這種情況一般是義項定義不合理，或者詞語在詞林中的分類不合理造成的。因此，利用相似度的計算可以反過來檢驗詞語的定義以及分類，修正知識庫中的不合理之處。基于樹形結構的詞語相似度的計算，在算法方面基本已經考慮到了所有可利用信息。詞語相似度的計算進一步工作還可以將詞語的語用信息結合進來，這樣得到的相似度具有更好地可靠性。

[1] 葛斌,李芳芳,郭絲路,湯大權.基于知網的詞匯語義相似度計算方法研究[J].計算機應用研究,2010,09:3329-3333 .

[2] 劉群,李素建.基于《知網》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義研討會,臺北,2002.

[3] 董振東,董強.知網[DB/OL],http://www.keenage.com/zhiwang/c_zhiwang.html.

[4] 賈玉祥, 俞士汶.基于詞典的名詞性隱喻識別[J].中文信息學報,2011,25(03): 99-102.

[5] 梅家駒等編. 同義詞詞林[M]. 上海：上海辭書出版社, 1996.

[6] 劉丹丹,彭成,錢龍華,周國棟. 《同義詞詞林》在中文實體關系抽取中的作用[J]. 中文信息學報,2014,28(02):91-99.

[7] 梅立軍,周強,臧路,陳祖舜.知網與同義詞詞林的信息融合研究[J].中文信息學報,2005,19(01): 63-70.

[8] 江敏,肖詩斌,王弘蔚,施水才. 一種改進的基于《知網》的詞語語義相似度計算[J]. 中文信息學報,2008,22(05):84-89.

[9] 朱征宇,孫俊華.改進的基于《知網》的詞匯語義相似度計算[J].計算機應用,2013,08:2276-2279,2288.

[10] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報(信息科學版),2010,06:602-608.

[11] G A Miller, W G Charles. Contextual correlates of semantic similarity[J]. Language and Cognitive Processes,1991，6(1): 1-28.

[12] 劉宏哲.文本語義相似度計算方法研究 [D].北京交通大學博士學位論文, 2012.

[13] P Resnik.Semantic Similarity in Taxonomy:An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language[J]. Journal of Articial Intelligence Research,1999,11:95-130.

[14] J W Kim,K S Candan.CP/CV:concept similarity mining without frequency information from domain describing taxonomies[C]//Proceedings of the 15th International Conference on Information and Knowledge Management,2006: 483-492.

[15] S Bin,F Liying,Y Jianzhuo,W Pu,Z Zhongcheng.Ontology-Based Measure of Semantic Similarity between Concepts[C]//Proceedings of the World Congress on Software Engineering,2009,2:109-112.

[16] A H T Mohamed, B A Mohamed, A B Hamadou. Ontology-based approach for measuring semantic similarity[J]. Journal of Engineering Applications of Artificial Intelligence, 2014, 36:238-261.

[17] Princeton University. WordNet [DB/OL], http://wordnet.princeton.edu/.

Word Semantic Similarity Computation Based on HowNet and CiLin

ZHU Xinhua，MA Runcong，SUN Liu,CHEN Hongchao

(College of Computer Science & Information Technology,Guangxi Normal University, Guilin, Guangxi 541004, China)

A word semantic similarity computation method based on the HowNet and CiLin is proposed in this paper. First, according to the characteristics of sememe hierarchical structure, an edge weighting strategy of monotonic decreasing curve with flat top and steep bottom is used in the HowNet part. In the CiLin part, a special method of taking the distance between words as the main factor and the branch node quantity and branch interval as micro-adjustable parameters is used. Then, according to the distribution of words, a dynamic weighting strategy of considering both HowNet and CiLin is used to calculate the final similarity, which greatly expands the computable range of words and improves the computation accuracy of word similarity.

semantic similarity; HowNet; CiLin; semantic distance

朱新華(1965-),教授,研究生導師,主要研究領域為自然語言處理、信息抽取。E-mail:zxh429@263.net馬潤聰(1989-),碩士研究生,主要研究領域為自然語言處理、信息抽取。E-mail:maruncong@163.com孫柳(1988-),碩士研究生,主要研究領域為自然語言處理、信息抽取。E-mail:515718167@qq.com

1003-0077(2016)04-0029-08

2014-06-25 定稿日期： 2014-10-27

國家自然科學基金(61363036)

TP391