吳星同 翁 燕 朱 婷 陳中育
(浙江師范大學數理與信息工程學院,浙江 金華 321004)
目前,語義相似度的計算被廣泛的應用于信息檢索、語義Web、自然語言處理等領域。本體在語義相似度的計算中發揮著非常重要的作用。傳統的基于本體的概念相似度的計算方法有3種[1-3]:一種是基于語義距離的方法,該方法的基本思想是利用本體結構層次的特點,通過概念之間的距離來量化,這種相似度計算方法比較簡單、直觀,但是它十分依賴本體的層次結構,本體層次結構構建的好壞直接影響到概念相似度的準確性[4];另外一種是基于信息論的方法,該方法是利用兩個概念間最近的共同概念祖先的信息量來衡量語義相似度,在理論上更具有說服力一些,但是這個方法只能粗略地量化概念之間的語義相似度,不能更加細致地區分各個概念語義相似度值[5];最后一種方法是基于屬性的方法,該方法就是通過判斷兩個概念之間的屬性集來計算概念相似度的,并且要求對每個概念的屬性進行詳細而全面的描述,但是這樣做的難度相當大。本文綜合考慮了上述三種方法的優缺點,并且結合了本體所具有的特質,提出了一種改進的本體概念相似度計算方法,該計算方法在本體層次樹結構的基礎上,不僅考慮了語義距離、節點深度和節點密度,而且還把概念的有向邊類型權重因素考慮進去,使得本體概念之間的語義相似度更加全面,計算結果也更加精確。
本體(Ontology)最先是在描述事物的本質的時候出現的,但是隨著計算機在人工智能領域的不斷發展,就被賦予了一個新的意義。在1998年Studer對本體的定義反映了本體的本質,并且得到了廣泛的認可:共享概念模型的明確的形式化規范說明[6]。
一個簡單的本體可以使用層次結構表示如圖1:

圖1 一個簡單的本體圖
圖1中的每個小圓圈代表的就是一個節點概念,每兩個小圓圈節點之間的連線就代表著語義關系。自頂向下,概念的劃分從大到小,每一層都是對上一層詳細的劃分,越往下,節點之間的相似度越大。
概念相似度一般來說有著兩層意思,一種意思是代表概念之間的相關性,另外一種意思是代表了概念之間具有相似的性質。例如,概念“人工智能”與概念“機器人”的相似性非常高,但是“計算機軟件”和“編程語言”,它們雖然沒有很高的相似度,相關性卻很高。概念相似性反映了概念之間的聚合的特點,而概念相關性反映了概念之間的組合特點[7]。在1998年,lin在信息學的基礎上,詳細地闡述了廣泛意義上的概念相似性的定義,提出了四個相似性直覺,具體描述為:第一,兩個概念之間的相似性與他們的共同點有關,如果它們具有較多的共同點,它們就具有較大的相似度;第二,如果兩個概念之間顯示出很大的差異性的話,那么就表明它們之間具有較小的相似性;第三,如果兩個概念不存在差異點,換句話說就是如果兩個概念相同的話,則具有最大的相似性;最后,兩個概念之間也有可能只存在差異點,而不存在共同點,這樣就表示兩個概念屬于互斥的概念,它們之間的相似性也比較小。
當兩個概念元素具有某些共同特征時,則定義它們是相似的,用sim(x,y)表示概念x,y之間的相似度,在形式上,相似度計算滿足[8]:
(1)相似度的值為[0,1]區間中的一個實數,即sim(x,y)∈[0,1].
(2)如果兩個對象是完全相似的,則相似度為1,即sim(x,y)=1當且僅當x=y.
(3)如果兩個對象沒有任何共同特征,那么相似度為0,即sim(x,y)=0.
(4)相似關系是對稱的,即sim(x,y)=sim(y,x).
本體結構可以用層次樹來表示,本文從語義距離、節點深度、節點的密度和有向邊的類型這四個方面來全面具體地對概念相似度進行計算。
3.2.1 語義距離
設A和B是本體層次樹中的兩個概念,則這兩個概念節點之間的最短距離定義為語義距離,記做:

其中,weighti表示連接概念節點A和B的最短路徑上的第i條邊的權值。在語言學研究的領域認為,兩個概念節點的語義距離越大,它們之間的相似度就越??;相反,兩個概念節點的語義距離越小,其相似度越大??紤]到語義距離對語義相似度的影響,以概念A和B為例,在得到語義距離以后,將語義距離轉化為概念語義相似度:

3.2.2 節點深度
節點深度指的是概念節點與樹根的最短路徑所包括的邊數,在本體的樹狀層次中,每一層都是對上層概念的細化,越到下層,概念的含義越具體。由此可見,在語義距離一樣的情況下,兩個節點的深度和越大,概念之間的相似度越大,反之亦然。概念節點深度對語義相似度的影響因子為:

其中,depth(a)和depth(b)分別為概念a和b的節點深度。
3.2.3 節點的密度
在本體的層次結構中,概念的分類一般是從粗到細,從大到小的過程,越往下層本體樹中的概念分類則越來越細。節點密度指的是兩個概念公共節點的所有子節點的個數(包括孩子節點和孫子節點),一般來說,某個節點的直接子節點的數目越多,密度就越大,表明了概念被細化得越具體,其相似度越大,反之亦然。概念的節點密度對語義相似度的影響為:

其中,degree(Aanc)為2個概念節點最近祖先節點的度,即最近祖先節點的直接子節點的數量;degree(O)為本體樹O的度,即本體樹O中各節點度的最大值。
3.2.4 有向邊的關系類型
在本體中,概念之間不是只有一種類型的關系,關系具有多樣性,而在本文中我們只考慮繼承關系、實例關系和同義關系著三種最主要的關系。而且不同類型之間的關系就決定了它們之間的概念相似度具有差異性。同義關系有向邊兩端的概念表示意思相同,即可以理解為兩個概念是相同的,繼承關系有向邊的兩端的概念是一個對另一個的細化,子概念雖包含了父概念的所有信息,但是子概念擁有自己不一樣的信息,與父概念是不一樣的。從以上分析來看,我們不能簡單地將本體內的概念間有向關系邊視為一樣,同義關系的有向邊應該比繼承關系的邊權重更大。關于有向邊類型和權重的關系,可以表示如下:

其中Value(c,p)表示由子節點c和它的父節點p所構成的有向邊的權重,該計算公式將不同的邊類型轉換為對應的數值。
如果在樹狀結構中兩個概念的節點通過n條邊連接,根據上述公式轉化為對應數值后為v1,v2,…,vn,則連接這兩個概
在傳統的基于距離、基于信息內容和基于屬性的基礎上增加了節點深度、節點密度和有向邊類型等對概念相似度影響結果的因素,使得計算結果更加準確,從而得出改進后的概念相似度計算方法:念節點之間的邊的邊類型對其相似度的貢獻為

其中,α、β、γ、μ分別表示語義距離、節點深度、節點密度和有向邊的關系類型對概念語義相似度影響的權重,且α+β+γ+μ=1。其中語義距離對概念語義相似度的計算結果影響比較大,所以α賦值要大一些,節點深度、密度和有向邊類型的影響相對于語義距離要小一些,所以β、γ和μ的賦值比較小。
本文構造了一個“計算機科學本體”來進行實驗,結合上述介紹的相似度的計算方法,最后通過java編程來實現概念相似度的計算。因為概念相似度的計算和其它的計算有所不同,所以現在還沒有一個規范的專家系統級平臺和規范的評估工具。評判一個相似度計算方法的有效性是通過觀察實驗所得出的概念相似度計算結果和人類的主觀判斷的吻合程度來實現的。如果吻合程度越高的話,就表明這種計算方法的效率就越高。“計算機科學”的部分領域本體圖如圖2所示:

圖2 “計算機科學本體”領域的部分本體圖
本文采集了30個(相關領域的學者和研究生)關于這些概念相似度的主觀判斷的數據,通過求這30個數據的平均值,表1中顯示的是計算所得出的結果和人們主觀判斷的結果比較的表格(表1):

表1 實驗結果表(部分)
基于上述表格得出的結論,我們可以通過引入兼容度(compact)這個概念,把計算結果和專家的主觀判斷對比,從而得出兼容度的值。如果計算結果所得的compact比較大(接近1,0<compact<1),表明和專家判斷所得出的吻合度比較高,反之亦然。最后得出二者的兼容度為86.6%,由此可以看出本文計算所得出的兩個概念的相似度和人類主觀判斷的吻合度較高,該方法是行之有效的。
本文在傳統的基于本體的概念語義相似度算法的基礎上,把傳統的基于信息論算法和基于語義距離的算法的優點進行了集成,這樣的好處是既解決了信息論方法語義不確定性的問題,又使得基于語義距離的計算結果更加精確。同時把節點密度、節點深度和有向邊的類型這幾個影響因素考慮進去,進一步改善了概念相似度算法。從上述的實驗結果可以看出,本文的算法和專家主觀的經驗判斷吻合度比較高,使得搜索引擎的查全率和準確度有了一定的提升。
[1]Olivier Steichen,Christel Daniel-Le Bozec.Computation of SemanticSimilarity Within an Ontology of Breast Pathology to Assist Inter- observerConsensus[J].Computers in Biology and Medicine,2005(4):1-21.
[2]Gan K W,Wong P W.Annotation Information Structures in ChineseTexts Using How Net[C]//Second Chinese Language Processing Workshop.Hong Kong: [s.n.], 2000:85-92.
[3]Budan Itsky A,Hirst G.Evaluating Word Net- based Measures ofLexical Semantic Relatedness[J].Computational Linguistics,2004(1):1-49.
[4]Cross V.Fuzzy Semantic Distance Measures Between Onto LogicalConcepts[C]//Processing NAFIPS'04: IEEE Annual Meeting of the FuzzyInformation. Washington DC: IEEE Press, 2004:635-640.
[5]Dela Escalera A, Moreno L E,Sal Ichsm A. Road Traffic Sign Detectionand Classification[J].IEEE Transactions on Indus-trial Electronics,1997,44(6):848-859.
[6]Grnber T R.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition: 1993, 5(2):199-220.
[7]李鵬,陶蘭,王弼佐.一種改進的本體語義相似度計算及其應用[J].計算機工程與設計,2007,28,(01):227-229.
[8]李玲.面向流程診斷的企業知識相似度匹配工具研究與開發[D].哈爾濱:哈爾濱工業大學,2006.
[9]楊立,左春,王裕國.基于語義距離的K-最近鄰分類方法[J].軟件學報,2005,16,(12):2054-2062.