999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

館藏資源本體模型的語義相似度算法研究*

2015-05-10 08:41:14邱均平
圖書館研究 2015年3期
關鍵詞:語義概念資源

邱均平 ,許 暢

(1.武漢大學中國科學評價研究中心,湖北 武漢 430072;2.武漢大學信息管理學院,湖北 武漢 430072)

1 前言

1.1 館藏資源本體概述

起源于哲學的本體論(ontology),近年來受到了信息科學領域的廣泛關注,本體的重要性也已在許多方面表現出來,并得到了廣泛的認同。現今本體被細分為知識表示本體、通用本體、領域本體、術語本體、任務本體等類型[1]。按照學科層次逐層構建本體的方法被廣泛應用。國內已在醫學、農學、地理學、工學、軍事、經濟學、教育學等學科成功構建了大型本體。但是這種層次明顯的本體劃分方法很難適用于人文社科類的本體構建。特別是隨著圖書館館藏資源的數字化,對多領域、多語言異構的信息進行高效開發利用的需求日益增長,單純劃分學科層次的方法很難適用。在文獻[2]中,邱均平和余凡結合語義網相關技術和計量學相關分析方法,構建了館藏資源語義化的理論模型,并在模型中首次使用了資源本體的概念,之所以沒有使用領域本體這個詞,是因為兩者存在差異:領域本體會把范圍限制在某一個領域,資源本體的數據沒有領域之分,包括所有學科館藏資源的元數據。文中借用本體的定義,把資源本體定義為館藏資源共享概念模型的明確的形式化規范說明。由此,誕生了一種新的基于概念間的關系本體方案——資源本體。資源本體是以語義的基本理論為基礎,引入信息計量領域的相關分析方法,對語義體系進行擴展,進一步構建而成的基于資源特征本身的本體,是館藏資源共享概念模型及關系明確的形式化規范說明[3]。資源本體除了具有本體本身的特點之外,還具有其特殊的含義。首先,現今階段資源本體的研究對象是“館藏資源”;其次,資源本體的相關概念及其關系的定義使用的是信息計量的相關方法。在資源本體模型中,更加強調概念與概念之間的語義關系。傳統本體的相似度計算方法多從屬性、結構等方面因素考慮,缺乏對語義特征、距離、層次的綜合考慮以及對相似度算法準確性和高適用性的優化。因此本文綜合上述因素,對適用于館藏資源本體模型特點的語義相似度算法進行進一步的研究。

1.2 幾種常用的相似度算法

1.2.1 基于距離的語義相似度計算

基于距離的語義相似度計算的基本思想是通過兩個概念詞在本體樹狀分類體系中的路徑長度量化它們之間的語義距離[4]。其中,最簡單的算法就是把本體中的所有路徑都看成距離為1的有向邊,這樣兩個概念的距離就為它們所對應的節點在本體結構中的最短距離的有向邊數量。由此,基于距離的語義相似度算法為[5]:

其中,H為該本體的最大深度,L為概念w1和概念w2之間的有向邊數量。

這種算法能夠簡單地反映出兩個概念的距離大小。若距離越近,則他們的語義相似度越大;反之,則越小。

1.2.2 基于內容的語義相似度計算

基于內容的語義相似度計算方法的基本原理是:兩個概念詞共享的信息越多,它們之間的語義相似度越大;反之,共享的信息越少,相似度也越小[6]。在一個本體中,每個概念子節點都可以被認為是對其祖先節點的細化,因此,概念間的語義相似度能夠通過比較與之最近的父節點所包含的信息內容來進行計算。

文獻[6]給出了關于層次網絡中量化每一個概念結點信息量的計算公式:

其中,P(w)表示概念w在訓練資料中出現的概率;IC(w)表示概念w所擁有的信息量。

這樣,依據上面概念信息的量化公式,層次網絡中任意兩個概念之間的語義相似度計算模型為[7]:

其中Anc(w1,w2)表示概念結點w1和w2在層次網絡中的最近共同祖先結點。

1.2.3 基于屬性的語義相似度計算

事物之間的關聯程度和其屬性是相關的。如果兩個事物的很多屬性相同,則它們是很相似的;反之,則不相似。基于屬性的語義相似度計算方法就是通過判斷兩個概念的公共屬性項的相似程度。

Tversky提出了一種基于屬性的計算概念語義相似度的方法[8]:其中,w1∩w2表示概念w1和w2所共同擁有的屬性集,w1-w2表示概念w1擁有而概念w2沒有的屬性集,w2-w1表示概念w2擁有而概念w1沒有的屬性集。

2 館藏資源本體中語義相似度計算

2.1 相似度計算的原則

在進行相似度計算時,為了使結果更加準確,應遵循幾個基本的原則。首先是量化原則,相似度是一個數值,取值范圍應在[0,1]之間。其次,在計算相似度時,應盡量降低運算的復雜度,保證簡單性原則。再次,應充分利用本體的特征,本文主要討論的是館藏資源本體中的相似度計算,應考慮館藏資源的相關特性。除此之外,由于概念的相似度計算主觀性很強,因此對于不同的概念類型,其相似度也不同,可通過設定某些參數,來保證相似度計算的可調節性。最后,概念的相似度計算應保證對稱性,即Sim(w1,w2)=Sim(w2,w1)。

2.2 影響相似度的因素

根據上述的基本原則,可以進一步歸納出館藏資源本體中相似度計算應該考慮的幾個因素:

1)語義共現。共現指的是相同或不同類型特征共同出現的現象。例如多篇論文之間共同出現的主題、共同出現的合作者、共同出現的機構以及作者與期刊共同出現、作者與關鍵詞共同出現、論文與關鍵詞共同出現等。在計量研究中,共同出現的特征項之間一定存在著某種關聯,關聯的程度可以通過共現頻次來測度。在館藏資源本體中,每一個類目下的實例都有可能和同類目下或者其他類目下的實例形成語義共現。例如,w1、w2、w3同屬于作者類,經過相關數據的處理,得到w1和w2這兩位作者共同出現的次數為5,w1和w3這兩位作者共同出現的次數為2,則w1∩w2=5,w1∩w3=2。可以看出,作者共現的頻次越大,兩位作者的語義相似度也越大,因此w1與w2之間的相似度,大于其與w3之間的相似度。

2)語義距離。兩個概念之間的語義距離,是指在本體圖中連接這二個節點的通路中的最短路徑所跨的邊數[9]。語義距離是決定相似度的另一個基本的因素。上文中也對基于距離的語義相似度計算方法進行了簡單的介紹。一般來說,兩個概念的距離越小,相似度越大;距離越大,相似度越小。這兩個概念能通過距離的大小建立對應關系。需要注意的是,兩個詞語的距離為0時,相似度應為1。同樣,它們的距離為無窮大時,相似度為0。在這里我們舉一個簡單的例子:如圖1所示,w5和w10的距離可記為Distance(w5,w10)=5。在館藏資源本體中,同類目下的實例之間的距離比不同的類目下的實例之間的距離要小,語義相似度更高。比如在某個館藏資源本題中,兩個作者之間的語義距離要小于某個作者與某種期刊的語義距離,作者之間的相似度也更高。

圖1一個簡單的本體

3)概念層次。在一個本體中,層次越深,對應的節點也就更加的細分和具體化。同樣距離的兩個詞語,詞語相似度隨著他們所處層次的總和的增加而增加,隨著他們之間層次差的增加而減小[10]。例如,圖1中w7和w8之間的語義相似度,要高于w4與w5之間的語義相似度。因此,在計算館藏資源本體中的語義相似度時,必須要考慮概念的層次深度這個因素。

4)調節因子。調節因子是指根據系統的需求,通過它來判定概念所在本體中各種影響因素,從而確定概念之間的相似度。上文已經論述過,在進行語義相似度計算時,需要保證可調節性原則。調節因子正是根據這種需要來設定。本文中,使用α、β、γ來表示調節因子。在計算語義相似度時,可以通過調節α、β、

第45卷 第3期 總第187期·2015年5月γ的值來確定所需要的結果,提高相似度數據的準確性。

2.3 館藏資源本體中語義相似度計算的方法

綜合考慮以上因素,提出館藏資源本體中語義相似度計算方法,初始公式為:

其中,Sim共現度(x,y)為概念x和y的語義共現度;Sim距離度(x,y)為概念x與y的語義距離度;Sim層次度(x,y)為概念 x與 y的概念層次度。α、β、γ 為調節因子,且 α+β+γ=1。

由于共現度的計算和兩個概念的共同屬性是相關的,所以我們可以采用Tversky提出的基于屬性的語義相似度計算方法公式(5)來計算共現度。我們將參數進行簡化,若α=β=l,則Tversky指數則成為Tanimoto系數;若α=β=0.5,則Tversky指數則成為Dice系數[3]。由于在館藏資源本體中概念詞之間的關系是可逆的,具有對稱性,所以取α=β=0.5,即Dice系數,公式為:

在信息檢索中,給定關鍵詞集合X和Y,相似度定義為兩倍的共同信息(重疊部分)除以基數的總和[11]。根據這個概念,我們可以推導出概念x和y的共現度公式為:

在館藏資源本體中,同一類目下的實例間的語義距離均為1,不同的類目下的實例間語義距離為大于1的整數,我們可以簡單地將兩個概念間的距離度記為:

兩個概念的層次差可以用作計算層次度,可得層次度公式:

綜上所述,可得出館藏資源本體中語義相似度公式為:

其中,α、β、γ為調節因子,且α+β+γ=1,其各項取值大小視各因素對語義相似度影響大小而定。

2.4 館藏資源本體中語義相似度計算的流程

通過上述相似度方法的相關分析,館藏資源本題中語義相似度計算的流程為:1)初始化概念,并設定調節因子數值;2)計算概念間的共現度;3)計算概念間的距離度;4)計算概念間的層次度;5)計算概念間的相似度;6)得出結果并按需求進行下一步處理。

3 實例分析——以競爭情報資源本體為例

期刊資源是館藏資源的代表,并包含作者合作、共被引文獻、關鍵詞共現等計量關系,因此筆者以期刊資源為研究對象,并在CSSCI上獲取近十年的期刊數據,進行處理后,利用本體開發軟件Protégé構建了以競爭情報為范疇的館藏資源本體。競爭情報資源本體的類目體系如圖2所示。

圖2競爭情報資源本體類目體系

我們以標引詞、作者和機構三個類目下的實例為分析對象,分別用文獻[3]中的傳統算法和本文算法對同一類目以及不同類目下的實例進行語義相似度的計算實驗。首先計算同一類目的標引詞之間的相似度,需要確定調節因子的數值。由于標引詞之間的關系主要取決于詞語的屬性,也就是詞語共現的情況,語義距離和語義層次對其的影響比較小。又α、β、γ為小數次方,所以影響越大的因素其對應的數值應越小。因此,參考二八原則,取α=0.2,β=γ=0.4,來進行計算。其次計算不同類目下標引詞與作者、機構之間的相似度。由于計算的是不同類目下實例的相似度,三個因素的影響比較均衡,因此取α=β=γ=1/3。實驗結果如表1所示。

表1實驗結果

圖3語義相似度計算結果對比分析圖

通過分析實驗結果可知:1)本文算法具備傳統算法在語義相似度計算中所考慮的影響因素,因此,如圖3所示,兩種算法的相似度值走向趨勢是大致相似的。2)本文算法得到的語義相似度值覆蓋區間較大,數值更加精確。實驗中本文算法得到的語義相似度最大值為sim(競爭情報、企業)=0.516 42,語義相似度最小值為sim(競爭情報、張玉峰)=0.145 11,語義相似度值覆蓋區間為[0.145 11,0.516 42];同理,可得傳統算法的語義相似度值覆蓋區間為[0.036 454,0.146 919]。對于同樣的數據標準,若語義相似度值覆蓋區間較小,則說明區間內的概念實例相對較多,會導致語義擴展精度的降低。在應用語義相似度解決實際問題時,大的數值覆蓋區間會帶來較高的精度[12]。3)本文算法得到的語義相似度值數值較高,更符合語義相似度計算中的歸一量化原則,所得結果更接近標量。傳統算法得到的語義相似度計算值偏小,缺乏準確度,不太利于后續館藏資源本體中實例間相關性的判斷。

以上分析說明:本文算法考慮了傳統算法在計算語義相似度時所用到的各種因素,并通過對傳統算法的改進,得到的結果在精確性和準確度上都有所提高,且符合人類的主觀判斷。雖然本文算法綜合考慮的因素較多,在一定程度上提高了相似度計算過程的復雜程度,但隨著現今技術的發展,這種程度的運算問題已可以解決,應更多考慮運算時的準確度和合理性。

4 結束語

概念間的相似度量化表示是館藏資源本體中智能檢索、分析和推理的重要基礎。本文針對館藏資源本體的特點,提出了一種綜合的館藏資源本體模型的語義相似度算法。該算法考慮了館藏資源本體中實例概念間的語義共現、語義距離、概念層次因素,并引入了調節因子,能根據系統的不同需要,得到不同的計算和擴展結果。實例中得到的結果也比較合理。本文的研究只是一個開始,許多問題還有待進一步研究,例如本文的算法只針對在一個館藏資源本體內部的概念,并沒有涉及不同館藏資源本體間的語義相似度計算。在后續工作中,將進一步擴展相似度計算的廣度,并將新算法應用于館藏資源本體的構建中以提高效率和效果。

[1]李健康,張春輝.本體研究及其應用進展[J].圖書館論壇,2004(6):80-86.

[2]邱均平,余凡.基于計量分析的館藏資源語義化理論研究[J].中國圖書館學報,2012(4):71-78.

[3]邱均平,樓雯.基于CSSCI的情報學資源本體構建[J].情報資料工作,2013(3):57-63.

[4]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].現代圖書情報技術,2010(1):51-56.

[5]張德.萬維網信息聚類研究[D].南京:東南大學計算機系,2002.

[6]LIN D.An Information-Theoretic Definition of Similarity[C]//Proc of the Int’l Conf on Machine Learning San Francisco:Morgan Kaufmann Publishers Inc.1998:296-304.

[7]黃果,周竹榮.基于領域本體的概念語義相似度計算研究[J].計算機工程與設計,2007(10):2460-2463.

[8]TERVSKY.Features of Similarity[J].Psychological Review,1977(4):327-352.

[9]張忠平,趙海亮,張志惠.基于本體的概念相似度計算[J].計算機工程,2009(7):17-19.

[10]吳健.基于本體論和詞匯語義相似度的Web服務發現[J].計算機學報,2005(4):595-602.

[11]C.J.Van Rijsbergen.Information Retrieval[M].London:Butterworths,1979.

[12]曹叡,吳玲達.一種改進的領域本體語義相似度計算方法[J].微電子學與計算機,2014(8):109-114.

猜你喜歡
語義概念資源
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
基礎教育資源展示
一樣的資源,不一樣的收獲
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
資源回收
學習集合概念『四步走』
聚焦集合的概念及應用
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 精品视频一区在线观看| 欧美h在线观看| 亚洲天堂2014| 亚洲女同一区二区| 久久人体视频| 为你提供最新久久精品久久综合| 国产精品欧美日本韩免费一区二区三区不卡 | 欧美日韩国产高清一区二区三区| 亚洲浓毛av| 亚洲欧美日韩成人在线| 蜜桃视频一区二区三区| 久久这里只精品国产99热8| 国产精品成人观看视频国产 | 制服丝袜无码每日更新| 国产福利微拍精品一区二区| 久久国产精品麻豆系列| 国产美女自慰在线观看| 欧美一区二区福利视频| 亚洲无码免费黄色网址| 波多野结衣在线一区二区| 亚洲一级毛片在线观播放| 老熟妇喷水一区二区三区| AV无码国产在线看岛国岛| 国产正在播放| 国产激爽大片在线播放| 亚洲国产一区在线观看| 日韩视频精品在线| 福利在线不卡一区| 特级毛片8级毛片免费观看| 自拍中文字幕| 国产免费久久精品99re丫丫一| 亚洲天堂精品视频| 国产亚洲视频中文字幕视频| 美女无遮挡被啪啪到高潮免费| 黄网站欧美内射| h网址在线观看| 亚洲av成人无码网站在线观看| 亚洲伊人天堂| 国产不卡一级毛片视频| 国产91小视频在线观看| 蜜桃视频一区二区| 国产精品分类视频分类一区| 毛片最新网址| 成年人国产视频| 99免费视频观看| 国产亚洲精品无码专| 国产成人AV综合久久| 国产精品久久久免费视频| 免费毛片a| 欧美区国产区| 在线视频亚洲色图| 99er这里只有精品| 91探花在线观看国产最新| 高清国产va日韩亚洲免费午夜电影| 国产精品亚洲а∨天堂免下载| 亚洲最新在线| 99热这里只有成人精品国产| 午夜国产在线观看| 波多野结衣中文字幕一区| 日韩 欧美 小说 综合网 另类| 久久久久亚洲精品无码网站| 国国产a国产片免费麻豆| 喷潮白浆直流在线播放| 韩日午夜在线资源一区二区| 黄色一级视频欧美| 亚洲va精品中文字幕| 色妞www精品视频一级下载| 亚洲国产日韩一区| 久视频免费精品6| 欧美日本视频在线观看| 在线精品欧美日韩| 欧美一级高清片久久99| 熟妇人妻无乱码中文字幕真矢织江| 色综合久久综合网| 欧美三级视频在线播放| 亚洲一区二区成人| 手机精品福利在线观看| 国内毛片视频| 国产在线麻豆波多野结衣| 青青国产视频| 激情综合图区| 九色国产在线|