999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種信息檢索中語義相似度的計算方法

2016-08-12 01:12:28時慧琨
池州學院學報 2016年3期
關鍵詞:信息檢索語義概念

時慧琨

(淮南師范學院 計算機學院,安徽 淮南 232038)

一種信息檢索中語義相似度的計算方法

時慧琨

(淮南師范學院 計算機學院,安徽 淮南 232038)

語義相似度計算在自然語言處理及信息檢索領域有著廣泛的應用。在總結已有相似度計算方法基礎上,考慮信息檢索中語義擴展的不對稱現象,結合不對稱語義計算模型提出了一種信息檢索中非對稱語義相似度計算方法,先計算本體中每對上下位概念之間的相似度,并基于距離的相似度計算模型計算出任意概念之間的相似度。實驗表明可以用于信息檢索中語義擴展,為概念間相似度的衡量提供更準確的結果。

信息檢索;語義擴展;語義相似度;本體

語義相似度計算在信息檢索、信息推薦和過濾、機器翻譯、本體學習、文本分類和聚類等領域都有著極為廣泛的應用,在信息檢索領域,語義相似度計算可以用于對信息查詢進行語義擴展[1]。在這個過程中,如何計算擴展詞和用戶輸入詞的相似程度是關鍵所在。計算依據的信息來源以及如何計算相似度是不同語義擴展技術的主要區別。常見語義擴展依賴的信息來源主要有詞典(如Word-Net、知網)、語料庫、網絡百科全書(如Wikipedia、百度百科)、本體等形式。其中,本體作為一種“共享概念的明確的形式化規范說明”,能夠明確、形式化地表達領域內的各種概念及相互關系,提供該領域知識的共同理解,在語言研究及應用方面發揮著重要作用,基于本體的語義相似度計算方法也已成為語義信息檢索技術的重要研究內容[2]。

本文針對傳統語義相似度計算方法的優缺點,結合信息檢索對相似度計算的特定要求,提出了一種檢索應用下的不對稱語義相似度計算方法。在本體中綜合方向、信息內容及本體結構等特性計算上下位概念間的距離,并在基于距離的相似度計算模型基礎上求解本體中任意概念之間的距離及相似度。計算的結果全面考慮了相似度的影響因素,計算結果更加合理,也更適應信息檢索應用的需求。

1 本體及基于本體的語義相似度計算

從結構上看,本體是一個有明顯層次特征的圖狀結構,圖中結點表示本體中的概念或者實例,結點之間的邊表示關系,常見的關系包括同義、繼承、部分整體、概念實例關系等。兩個概念的相似度通常在[0,1]之間。在計算本體中概念間相似度時,主要基于概念本身的性質及概念之間的關系,這些性質或關系通常被表示成因子,按照因子的來源可以將其分成基于結點的因子和基于邊的因子兩大類。

基于結點的因子根據概念自身的特性計算得出,常見的因子有:

(1)屬性因子:概念的屬性描述了概念的特征,這些屬性即構成了屬性因子。如果兩個概念的很多屬性相同,則這兩個概念也比較相似。

(2)語義深度因子:語義深度因子與概念在本體圖中所在的層次有關。本體中的下層概念是對上層概念的細化,因此,概念層次越高,對應語義范疇越大,同層結點之間的距離也越大,相似度就越小。越往下層,概念之間距離就越小,相似度就越大。

(3)語義重合度因子:該因子和兩個概念結點的共同祖先有關。認為兩個概念的共同祖先代表了兩個概念中相同的內容,共同祖先的信息量越大,則兩個概念就越相似。信息量常按照信息論的觀點,通過概念出現的頻率來進行計算。

(4)結點密度因子。該因子和結點的度有關,反映了結點所在局部的性質。結點的度越大,表明結點在此處的分化越多,子結點之間的距離就越小,節點之間越相似。

本體中的邊代表了概念之間的關系,反映了概念之間的聯系,概念間的相似度也可以通過概念間關系計算得出。常見基于邊的因子有:

(1)類型因子。本體中常見的關系類型包括同義、繼承、整體部分及概念實例關系等,不同關系對應的相似程度是不同的,同義概念可以認為其相似度等于1,但是其他關系的相似度一般小于1。對類型因子的確定常采用專家指定的方式。

(2)距離因子。將本體看成一個連通圖,通過計算概念間的距離來衡量相似度,距離越長,相似度越小。

(3)深度因子。該因子考慮了邊在本體層次圖中所在的層次。邊的層次越低,邊關聯的兩個概念間距離越近,就越相似。

(4)密度因子。密度因子考慮了子概念對父概念的細化程度,結點的度越大,則細化程度越大,密度因子值就越大。

(5)有向邊的方向。通常認為概念間相似度具有對稱性,即對于概念A和B,sim(A,B)=sim(B,A)。但有些研究注意到相似度之間的方向性,認為由于子概念具有父概念的全部特征,但父概念不一定具有子概念的特征,因此,父結點相對于子結點的相似度小于子結點相對于父結點的相似度。在此基礎上出現了不對稱的語義相似度計算方法[3]。

由于本體中的邊依附于頂點,因此,基于結點的因子和基于邊定義的因子間具有一定的相關性,例如:結點的語義深度因子和邊的深度因子之間、結點的密度因子和邊的密度因子之間都是相關的。在計算概念之間語義相似度時,需要合理選擇因子,一方面可以降低計算的復雜度,另一方面也降低了在對各種因子綜合時加權因子確定的難度。

在計算語義相似度因子的基礎上,計算概念之間的相似度。按照選取的因子及計算方法的不同,常見的相似度計算模型有三種:

(1)基于距離的計算模型[4]。該模型認為兩個概念的相似性和兩者間距離有關,距離越近則越相似。最簡單的概念間距離就是本體圖中概念間最短路徑的長度。這種計算認為本體中每條邊對應的距離或權重相等,更復雜的方法是基于其它因子設置每條邊的權重,然后再計算距離及相似度。

(2)基于內容的計算模型[5]。該模型在計算每個概念信息量的基礎上,基于語義重合度因子計算概念間的相似度。

(3)基于屬性的計算模型[6]。該模型基于概念的屬性因子,通過概念的相同屬性來計算概念間的相似度。

在這些計算模型中,基于距離的計算模型主要利用了基于邊定義的因子,基于內容和基于屬性的模型則利用了基于結點定義的因子。由于因子只是反映了概念或關系在某個方面的特性,因此計算出的相似度往往并不能全面衡量概念間相似度,改進的途徑就是在計算相似度時綜合考慮各方面的因素,出現了各種加權的方法[7]。但目前選擇哪些因子、因子權重的設置并沒有統一的標準,計算結果的主觀性較大。這一方面是因為相似性衡量本身就帶有較大的主觀性,相似度計算也缺乏客觀公認的評價標準,另一方面也說明相似度計算仍然需要進一步的研究。

2 面向信息檢索的非對稱語義相似度計算方法

語義擴展時需要考慮概念之間的相似性,將語義擴展技術應用到信息檢索時,相似性主要表現為擴展概念滿足用戶查詢需求的能力。從這一點上來說,同義關系的詞之間能夠100%滿足用戶需求,其相似度為1,其它關系對應的相似度在[0,1]之間。

在本體常見關系中,同義關系是對稱關系,但其它的如繼承關系、整體部分關系、概念實例關系都不是對稱的,關系的不對稱性從根本上導致了相似度衡量時的不對稱性。在對非同義關系的概念的相似度進行計算時,得到的相似度也不應該相同。以本體中最常見的繼承關系為例,假設概念A 和B是一對上下位概念,通常B是對概念A進行細化的結果,即按照某種屬性對A進行了劃分得到了B及其它下位概念。因此在檢索中,如果用A去擴展B,則由于A的范疇更大,查詢結果中會包含用戶不需要的信息,但是用B去擴展A時,由于B是下位概念,是A的一種,因此,返回結果仍然屬于A的概念范疇。從這一點上來說,用B擴展A的相似度要大于用A去擴展B的相似度。定義sim(x,y)表示用x去擴展y時需要考慮的相似度,若A是B的上位概念,則sim(A,B)<sim(B,A)。例如在數據結構本體中,對概念對(數據結構,樹),用“數據結構”去擴展“樹”的相似度要小于用“樹”去擴展“數據結構”時的相似度,即sim(數據結構,樹)<sim(樹,數據結構)。

考慮如上概念相似度不對稱的情況,在基于距離的相似度計算模型[8]基礎上,提出相似度計算方法如下:

(1)依據本體結構,計算本體中每對上下位概念之間的距離。計算過程如下:

1)基于概念出現的頻率,計算每個概念的信息量。由于上位概念的語義范疇包含了其所有的下位概念,因此其出現的頻率應包含其所有下位概念的出現頻率,對概念,定義其信息量,其中

2)計算概念間的內容因子。兩個概念共享的信息量越多,則兩個概念越相似。對于上下位概念來說,上位概念的信息量是兩者共有的信息量,下位概念的信息量是全部的信息量。在相似度計算時,使用擴展概念與原有概念信息量的比值表示擴展概念對原概念的語義覆蓋能力,因此定義內容因子。定義上下位概念分別為和,當使用概念去擴展概念時,,當使用去擴展時,由于下位概念中包含了上位概念的全部信息,因此。

3)內容因子主要考慮了概念自身的特性,而概念之間相似度還和概念在本體中的位置有關。為此,引入了邊的深度因子和密度因子。分別表示本體中垂直和水平方向上對概念間相似度的影響因素。對概念和概念來說,定義:深度因子

4)綜合內容因子、深度因子和密度因子,計算本體中每一條有向邊的權重。概念替換時的權重,概念替換時的權重,其中為各因子的權重系數,

(2)計算本體中任意兩個概念之間的距離。

將本體看成一個概念層次網絡,根據基于距離的相似度計算模型,在本體中尋找從起點到終點的最短路徑,并將最短路徑上各條有向邊的距離因子加起來,作為到的距離。

(3)計算概念間的語義相似度定義

3 實驗驗證及結果

實驗中定義的本體如圖1所示,

圖1 數據結構本體

按照以上列出的計算方法,取a=0.7,b=0.1,c=0.2,α=0.5,θ=10。選取本體中的典型概念計算其相似度,結果如下:

(1)sim(單向鏈表,無向圖)=0.08,sim(單向鏈表,圖)=0.11。由于前兩者的路徑長度要大于后兩者的路徑長度,從計算結果可以看出,路徑越短,計算得到的相似度值越大,兩個概念間越相似。

(2)sim(樹,線性結構)=0.27,sim(隊列,棧)= 0.62??紤]概念所在的深度,深度越低,兄弟結點間相似度越大。但這個相似度與深度的對應關系越往下層越不明顯,甚至有可能小于上層結點的相似度。因為兩個概念間的相似度不僅受深度影響,還有概念內容,密度等因素制約。

(3)sim(數據結構,線性結構)=0.37,sim(線性結構,數據結構)=0.88。這一對計算結果反映了相似度之間的不對稱性,由于數據結構相對于線性結構來說概念的范疇進行了擴大,因此得到的相似度要小于反方向上的相似度。

(4)sim(數據結構,線性表)=0.23,sim(線性表,數據結構)=0.67。這一對計算結果也反映了相似度之間的不對稱性。把它和(3)的計算結果對應起來可以看出,由于數據結構和線性表間的深度差異要大于和線性結構之間的深度差異,因此無論是哪個方向上的相似度均比(3)的計算結果要小。這樣的計算結果更符合人們的主觀感受。

4 結論

本文在總結基于本體的語義相似度計算因子及計算模型的基礎上,分析了信息檢索過程中語義擴展時擴展詞與查詢詞之間的關系,基于非對稱語義模型和基于距離的相似度計算模型提出了一種非對稱的語義相似度計算方法。該方法綜合考慮了概念的內容及本體的結構,計算結果能夠更好的符合人們的主觀認識。計算方法中主要考慮了概念間的繼承關系,綜合考慮各種關系基礎上進行計算是下一步繼續研究的內容。

[1]黃名選,嚴小衛,張師超.查詢擴展技術進展與展望[J].計算機應用與軟件,2007,24(11):1-4.

[2]劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-13.

[3]張蘭芳.一種基于本體的自然語言語義相似度算法[J].桂林理工大學學報,2012,32(2):253-258.

[4]Leacock C,Chodorow M.Combining Local Context and Word-Net Similarity for Word Sense Identification[M]//WordNet:An Electronic Lexical Database.Cambridge,MA:MIT Press,1998:265-283.

[5]Lin D.An Information Theoretic Definition of Similarity[C]//Proceedings of the International Conference on Machine Learning,1998:296-304.

[6]Tervsky.Feature of Similarity[J].Psychological Review,1977,84 (4):327-352.

[7]曹叡,吳玲達.一種改進的領域本體語義相似度計算方法[J].微電子學與計算機,2014,31(8):109-114.

[8]黃果,周竹榮.基于領域本體的概念語義相似度計算研究[J].計算機工程與設計,2007,28(10):2460-2463.

[責任編輯:桂傳友]

Semantic Similarity Computation of an Information Retrieval

Shi Huikun
(College of Computer Science,Huainan Normal University,Huainan Anhui 232038)

Semantic similarity computation is widely used in natural language processing and information retriev?al.Asymmetric semantic similarity computation of information retrieval is put forward based on the existed similar?ity computation and asymmetry of semantic extension in information retrieval and asymmetric semantic computing models,which firstly computes the similarity between ontology and the concept of superordination and subordina?tion,and then computes the similarity of arbitrary concepts based on distance similarity computing models.The experiment shows the computation can be applied to semantic extension of information retrieval and provides pre?cise results for evaluation of concept similarity.

Information Retrieval;Semantic Extension;Semantic Similarity;Ontology

TP391

A

1674-1102(2016)03-0026-04

10.13420/j.cnki.jczu.2016.03.006

2015-12-05

安徽省高校省級自然科學研究項目(KJ2012Z375)。

時慧琨(1975-),男,安徽淮南人,淮南師范學院計算機學院講師,碩士,研究方向為信息處理,人工智能。

猜你喜歡
信息檢索語義概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于神經網絡的個性化信息檢索模型研究
認知范疇模糊與語義模糊
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 精品少妇人妻无码久久| 一级一级一片免费| 露脸国产精品自产在线播| 国产永久无码观看在线| 久久久久久国产精品mv| 国产成熟女人性满足视频| 亚洲精品少妇熟女| 国产JIZzJIzz视频全部免费| 亚洲成人精品| 深夜福利视频一区二区| 波多野结衣一区二区三区AV| 中文字幕 91| 伊人福利视频| 国产成人综合日韩精品无码不卡| 韩国自拍偷自拍亚洲精品| 看国产一级毛片| 天堂在线亚洲| 色老头综合网| 欧美日韩国产成人高清视频| 国产午夜人做人免费视频中文| 国产第一页亚洲| 色有码无码视频| 2018日日摸夜夜添狠狠躁| 久久综合色播五月男人的天堂| 久久香蕉国产线看观| 欧美亚洲一区二区三区导航| 亚洲欧洲AV一区二区三区| 午夜毛片福利| 国产主播一区二区三区| 香蕉视频在线观看www| 天堂成人av| 香蕉eeww99国产精选播放| 无码免费视频| 国产精品成人AⅤ在线一二三四| 色窝窝免费一区二区三区| 日本不卡视频在线| 日韩欧美国产三级| 国产精品久久久久久久久久98| 国产农村妇女精品一二区| 国产成人精品亚洲77美色| 一级一级特黄女人精品毛片| 中文字幕有乳无码| 一级毛片免费不卡在线| 亚洲AV成人一区国产精品| 欧美成人午夜视频| 亚洲天堂.com| 久久精品人人做人人综合试看| 澳门av无码| 亚洲欧美日韩视频一区| 成人午夜精品一级毛片| 中文字幕在线播放不卡| 国产av无码日韩av无码网站| 国产69囗曝护士吞精在线视频| 国产Av无码精品色午夜| 一级毛片a女人刺激视频免费| 午夜精品区| 77777亚洲午夜久久多人| 国产va在线| 国产av色站网站| 日韩免费毛片| 91年精品国产福利线观看久久| 欧美日韩亚洲综合在线观看 | 午夜福利无码一区二区| 久久国语对白| 91高清在线视频| 中文国产成人精品久久一| 国产白浆视频| 成人精品在线观看| 日韩黄色大片免费看| 午夜福利亚洲精品| 亚洲精品视频免费| 亚洲精品无码高潮喷水A| 精品成人一区二区| 中文无码精品A∨在线观看不卡| 欧美日韩va| 天天综合网色| 东京热高清无码精品| www.91在线播放| 中国一级特黄视频| JIZZ亚洲国产| 波多野结衣视频一区二区| 制服丝袜一区二区三区在线|