999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

上位本體中語義相似度的計算及其實現

2007-01-01 00:00:00徐德智C.Onyango王懷民
計算技術與自動化 2007年2期

摘 要:基于SUMO(Suggested Upper Merged Ontology)[1],提出一種計算兩概念語義相似度的語義距離方法#65377;根據該方法實現一個計算平臺,將計算結果同人類的主觀判斷進行比較,驗證概念語義相似度計算方法的有效性#65377;研究成果擬在正在研發的語義數據庫中本體集成部分得到應用,也可以為本體的其它相關研究提供一定的技術方法基礎#65377;

關鍵詞:SUMO;語義距離;語義相似度;主觀判斷

中圖分類號:TP391文獻標識碼:A

1 引 言

目前的Web信息是機器所不能理解和自動處理的,這就無法實現語義的互操作#65377;Tim Berners-Lee于2000年12月18日在國際XML2000的會議上提出了語義Web的構想[2]#65377;在語義Web中,概念的語義相似度計算對實現本體集成和信息的語義檢索起著重要的作用#65377;語義Web中數據的語義是用本體來描述的,因此,基于本體的概念的語義相似程度計算方法對于在語義Web中需要定量處理概念的語義的各種應用就有了實際意義#65377;

對于概念的語義相似度計算,國外許多研究者利用了語義詞典Word Net中的同義詞集組成的樹狀層次體系結構[3, 4],對于上述方法,實驗驗證都得到了與人的直觀判斷比較符合的結果#65377;但是,我們發現,上述工作只是針對較簡單的術語的本體,缺乏支持邏輯推理本文基于SUMO樹中節點的最短路徑距離,通過計算路徑上各條邊的權值,得到兩概念間的語義距離,最后將其轉化為語義相似度的方法來計算概念間的語義相似度,得到了合理的結果#65377;

2 語義距離與語義相似度

和語義相似度一樣,語義距離也是語言學中經常提到的一個概念,它指兩個概念的相近程度#65377;一般說來,兩個概念間的語義距離越小,它們的語義越相近,反之越遠#65377;在信息檢索領域中,語義距離的值越小,說明文本跟用戶查詢請求越接近,當距離為零時,文本完全符合用戶的請求,當距離大于某個值時,文本跟用戶查詢無關聯,不能作為結果集返回#65377;對于返回的結果集,完全是由用戶自己主觀判斷結果集合中的任一結果是否滿足他的請求#65377;所以,本文的研究及實驗都是以人類的主觀判斷為標準進行的#65377;

3 語義距離的計算

SUMO層次樹結構決定了利用兩個概念在樹中的最短路徑距離來表示它們的語義距離是一種自然的度量方法#65377;兩對概念的語義距離相等表明它們的語義相似度是一樣的#65377;但是,在SUMO層次樹中,自頂向下,概念的分類是由大到小,大類間的概念相似度一般要小于小類間的#65377;因此,在同等語義距離(按照上文的定義)的情況下,處于層次樹中離根較遠的概念間的相似度要比離根近的概念間相似度大#65377;由此可見,概念在樹中所處的深度是一個需要考慮的因素,即:處于樹中不同深度的邊應該賦予不同的權值#65377;另外,概念的父節點分類細致程度也是計算語義距離時應考慮的一個因素,通過對SUMO樹中概念的深度和寬度等一系列因素對概念間語義相似度的影響,本文得到了計算方法#65377;

4 語義相似度的計算

根據上面對語義距離的定義可知,對于SUMO中任意兩個概念C1和C2,它們之間的語義距離范圍是Dist(C1,C2)∈(0,αα-1),而它們間相似度取值范圍是sim(C1,C2)∈(0,1),再慮及兩者應是減函數的關系以及概念間的語義相似度具有不對稱性,本文給出如下定義進行語義距離到語義相似度的轉換:

Wid(C)為概念C的寬度,即:其孩子節點的數目,pɑrent(C)是C的雙親節點,t和α是可調節的參數,α≥2,β=Dep(C2)Dep(C1)+Dep(C2))#65377;

計算技術與自動化2007年6月第26卷第2期徐德智等:上位本體中語義相似度的計算及其實現5 實驗及結果

本文以IEEE提供的以SUO-KIF描述的SUMO為資源,開發了一個計算平臺——語義相似度計算器,它不僅能計算本文的概念間語義相似度,而且,容易被擴展為其它各種算法的語義相似度比較器#65377;本文將各種不同的機器運算結果與人類的主觀判斷結果進行了比較,找出能得到最佳結果(在有限的實驗數據范圍內)的參數設置,同時驗證了提出的方法的有效性#65377;

評估一種相似度度量標準的好壞一般有三種方法:理論檢驗#65380;人類主觀判斷和特定領域中的應用#65377;本文采取了第二種方法#65377;

本節實現了語義相似度的計算平臺,該平臺不僅能計算本文相似度算法下的概念間語義相似度,而且,容易被擴展為各種算法的語義相似度比較器#65377;

我們從SUMO中隨機選擇了五十對概念,對于本文提出的相似度計算公式中的參數和,利用所實現的計算平臺,選擇了多個值進行實驗#65377;本文將其所有計算結果與人類判斷結果相比的偏差繪制成了五十對概念在其上的分布圖如圖1所示#65377;

圖1(a)-(d)分別表示對于相似度計算公式的參數進行調節的不同結果,圖中橫坐標表示相似度計算公式計算結果同人類判斷結果相比的偏差,縱坐標表示在某偏差范圍概念對的分布點數#65377;這樣,分布越散的(偏差范圍越大的)說明越差,分布越集中(偏差范圍越小的)#65380;中間峰越銳利的(偏差為0左右的概念對越多的)說明越好#65377;按照這樣的標準,可以大致看出,圖1(d)的結果較好#65377;圖1(d)中,在偏差為0的附近分布點數高達15,雖然其總體偏差分布較散:-0.25~0.2,但我們發現,在-0.15以及0.15附近,分布點已相當的少,所以總的來說,其結果較好#65377;

圖1 偏差點數分布圖[JZ)]

6 結束語

本文首先闡述了語義距離與語義相似度的關系,然后基于樹中節點的最短路徑距離,通過計算路徑上各條邊的權值,得到兩概念間的語義距離,最后將其轉化為語義相似度#65377;同語義相似度一樣,語義距離也是語言學中經常提到的一個概念,它指兩個概念的相近程度#65377;兩個概念間的語義距離越小,它們的語義越相近,反之越遠#65377;在信息檢索領域中,語義距離的值越小,說明文本跟用戶查詢請求越接近,當距離為零時,文本完全符合用戶的請求,當距離大于某個值時,文本跟用戶查詢無關聯,不能作為結果集返回#65377;對于返回的結果集,完全是由用戶自己主觀判斷集合中的任一結果是否滿足他的請求#65377;所以,本文的研究及實驗都是以人類的主觀判斷為標準進行的#65377;通過實驗比較所獲得的不同結果,得到了最優參數設置,此時,算法運算的結果同人類判斷的結果較為吻合,證明了本文提出的算法是有效的#65377;

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 免费激情网站| 精品少妇人妻一区二区| 国产精品一区在线观看你懂的| 亚洲最大福利视频网| 午夜丁香婷婷| 精品免费在线视频| 伊人蕉久影院| 国产精品免费久久久久影院无码| 97久久精品人人做人人爽| 狼友视频国产精品首页| 在线看片国产| 欧美日韩专区| 久久国产成人精品国产成人亚洲| 亚洲精品免费网站| 亚洲国产看片基地久久1024| 欧美成人二区| 丁香婷婷激情综合激情| 丰满少妇αⅴ无码区| 中文字幕 91| 日本在线国产| 国产麻豆福利av在线播放| 日本少妇又色又爽又高潮| 一本大道东京热无码av| 亚洲色偷偷偷鲁综合| 久久久受www免费人成| 欧美国产在线看| 成人无码区免费视频网站蜜臀| 亚洲国产黄色| 成人午夜久久| 欧美日一级片| 91最新精品视频发布页| 久久精品只有这里有| 国产成人精品男人的天堂下载| 99久久这里只精品麻豆| аⅴ资源中文在线天堂| 免费在线a视频| 国产精品亚洲一区二区三区在线观看| 午夜福利亚洲精品| 亚洲女同一区二区| 欧美笫一页| 中文字幕永久视频| 亚洲综合极品香蕉久久网| 成人日韩精品| 国产亚洲精品无码专| 国产在线日本| 91麻豆精品国产高清在线| 91蜜芽尤物福利在线观看| 亚洲欧美在线综合一区二区三区| 免费jizz在线播放| 国产激爽爽爽大片在线观看| 亚洲欧美日韩动漫| 中日韩欧亚无码视频| 亚洲最大福利网站| 国产超薄肉色丝袜网站| 亚洲男人天堂久久| 波多野结衣中文字幕一区二区| 69视频国产| 丁香婷婷激情综合激情| 99色亚洲国产精品11p| 久久毛片基地| 亚洲系列无码专区偷窥无码| 亚洲swag精品自拍一区| 国产成人超碰无码| 久久香蕉国产线看观看精品蕉| 亚洲欧美国产视频| 国产精品久久久久久影院| 久久免费精品琪琪| 综合色亚洲| 美女毛片在线| 99久久无色码中文字幕| 国产精品黄色片| 又粗又硬又大又爽免费视频播放| 亚洲欧美激情小说另类| 日本伊人色综合网| 亚洲欧美日韩另类在线一| 国产精品99在线观看| 日本精品αv中文字幕| 国内精品免费| 免费无码AV片在线观看国产| 在线精品视频成人网| 成年av福利永久免费观看| 亚洲丝袜第一页|