999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

引文相似性測量模型

2017-08-07 15:01:15陳衛(wèi)玲袁乖寧重慶科創(chuàng)職業(yè)學(xué)院
大陸橋視野 2017年12期
關(guān)鍵詞:語義測量模型

陳衛(wèi)玲 袁乖寧 王 華 / 重慶科創(chuàng)職業(yè)學(xué)院

引文相似性測量模型

陳衛(wèi)玲 袁乖寧 王 華 / 重慶科創(chuàng)職業(yè)學(xué)院

CSLN 是引文語義鏈網(wǎng)絡(luò)。傳統(tǒng)相似度計算不能準(zhǔn)確的測量CSLN中引文間的相似性。本文在對引文的特征進(jìn)行分析后,提出了引文相似性測量模型,該模型能夠提高引文相似性測量的準(zhǔn)確性。

引文;CSLN;相似性

1.引言

引文網(wǎng)絡(luò)是指被引文獻(xiàn)與引用文獻(xiàn)之間因引用關(guān)系而形成的一種網(wǎng)絡(luò)。語義鏈網(wǎng)絡(luò)(SLN)是一個用于管理Web資源的語義數(shù)據(jù)模型[1]。一個典型的語義鏈網(wǎng)絡(luò)包含語義節(jié)點,語義鏈以及語義鏈推理規(guī)則。其中,語義節(jié)點可以是任意類型的資源、抽象概念或者是另外一個語義鏈網(wǎng)絡(luò)。語義鏈?zhǔn)菍Τ溄拥臄U(kuò)展,并為之添加語義關(guān)系。語義鏈繼承了超鏈接的易用性,使之具有推理能力,并且具有語義自組織性:任意節(jié)點可以連接到其他語義相關(guān)的節(jié)點。利用語義鏈推理規(guī)則可以推導(dǎo)出更多的語義鏈[2]。

在這篇文章中,我們首先介紹了傳統(tǒng)相似度計算模型,接著對引文的特征進(jìn)行深入的分析后,最后提出引文相似性測量模型,該模型能夠提高引文相似性測量的準(zhǔn)確性。

2.傳統(tǒng)相似度計算模型

當(dāng)我們進(jìn)行引文相似度計算時,最常用的方法是采用數(shù)學(xué)工具把引文表示成一個數(shù)學(xué)模型,然后在這個模型上進(jìn)行引文相似度運算。傳統(tǒng)的相似度計算模型有向量空間模型和集合運算模型等。

2. 1向量空間模型

向量空間模型VSM是六十年代末由Salton等人提出來的。VSM是一種代數(shù)的模型,目前已經(jīng)被廣泛的應(yīng)用于信息檢索等領(lǐng)域而且已經(jīng)取得了很好的效果。VSM的表示方法是它最與眾不同的優(yōu)點,VSM是通過把文本以向量的形式定義到實數(shù)域來對自然語言的文本進(jìn)行表示。這種對自然語言文本的表示方法極大的提高了文本的可操作性和可計算性。而模式識別和其它領(lǐng)域中的計算方法也采用了VSM這種對文本的表示方法[3]。

向量空間模型VSM的基本思想是:我們用向量來表示文檔,并且假設(shè)詞與詞之間是不相關(guān)的,這樣就可以簡化文檔中關(guān)鍵詞之間的復(fù)雜關(guān)系,從而使得向量空間模型VSM具備了可計算性。而在向量空間模型VSM中,把文檔看成是由相互獨立的詞條組 (T1,T2,T3,……,Tn) 所構(gòu)成,并且對于每一個詞條Ti根據(jù)這個詞條在文檔中的重要程度賦以該詞條一定的權(quán)值Wi。如果將這些相互獨立的詞條組(T1,T2,T3,……,Tn)看作是一個n維坐標(biāo)系中的坐標(biāo)軸,那么這些詞條的權(quán)重(W1,W2,W3,……,Wn)就這些坐標(biāo)軸所對應(yīng)的坐標(biāo)值。所以由這些詞條組(T1,T2,T3,……,Tn) 分解得到的正交詞條矢量組就構(gòu)成了一個文檔向量空間。

2. 2集合運算模型

集合運算模型中用的最多的是Jaccard系數(shù)方法:

其中, dj、dk是引文,引文是關(guān)鍵詞的集合。Sim(dj, dk)是引文dj和dk的相似度。

3.引文相似性測量模型

一篇引文是由標(biāo)題、關(guān)鍵字、正文等多個部分組成。因為引文的各個部分的重要程度不一樣,所以在計算兩個引文之間的相似性時我們應(yīng)當(dāng)把引文的各個部分分開當(dāng)作多個對象來分析,而不能把一篇引文當(dāng)作一個對象來分析。例如,引文的正文部分有大量的文字而且關(guān)鍵詞很分散,所以我們應(yīng)當(dāng)采用統(tǒng)計詞頻的方法來計算兩個引文之間的相似程度。而對于標(biāo)題和關(guān)鍵字,因為關(guān)鍵字是整個文章中非常重要的一部分,所占權(quán)重也非常大,因此這一部分我們必須要重點考慮。所以我們在計算引文相似性時應(yīng)該對關(guān)鍵字這一部分進(jìn)行單獨處理。

通過上述分析,本文提出了引文相似性測量模型,我們首先把一篇引文的各個部分分開來進(jìn)行相似性測量,然后再把各個部分綜合起來以此來計算兩篇引文之間的相似性。本文采用的相似性計算方法如下:

A.正文

引文的正文部分文字量通常都很大,所以我們在計算兩篇引文之間相似性時,首先將引文分解成一系列的句子序列,然后統(tǒng)計出兩篇引文中相同句子的數(shù)量和兩篇引文中共有的句子數(shù)量,最后用以下公式計算兩篇引文之間的相似性,引文相似度計算公式如下所示:

其中,d1和d2分別代表兩篇引文。

B.關(guān)鍵詞

一般來說,引文中都會有關(guān)鍵詞,關(guān)鍵字是對引文內(nèi)容的高度概括,是整篇引文最重要的部分。我們通常可以通過計算兩個引文的關(guān)鍵詞集合來求出兩個引文之間的相似程度。假設(shè)引文d1和引文d2的關(guān)鍵詞集合分別是S(d1) 和S(d2),其中S(d1) = (t1,t2, ……,tm),S(d2) = (t1,t2, ……, tn),那么兩篇引文之間相似度計算公式如下:

其中,引文d1的關(guān)鍵詞集合的個數(shù)m≥0 并且引文d2的關(guān)鍵詞集合的個數(shù)n ≥0。

C.引文相似性測量模型

因為引文的重點內(nèi)容分布在引文的不同部分,所以我們首先分別對這些部分進(jìn)行單獨的相似度計算,然后在這些相似度計算的基礎(chǔ)上得出引文相似性測量模型。

引文相似性測量模型如下:

其中,d1和 d2分別代表兩篇引文,sim(d1,d2)為兩引文之間的相似性。

4.總結(jié)

計算兩個引文之間的相似性有多種方法,因為CSLN中的引文是許多對象的集合。單個對象的相似度計算顯然不能準(zhǔn)確的測量引文間的相似性。因此,有必要針對引文的不同部分使用不同的相似度計算方法。本文首先介紹了傳統(tǒng)相似度計算模型,然后在對引文各部分的特點進(jìn)行深入分析后,提出了引文相似性測量模型,該模型能夠提高引文相似性測量的準(zhǔn)確性。

[1]H. Zhuge, Y. Sun, and J. Zhang, “Schema theory for semantic link network,” in Proc. Fourth Int. Conf. Semantics, Knowledge and Grid SKG ’08, 2008, pp. 189-196.

[2]H. Zhuge, “Communities and emerging semantics in semantic link network: Discovery and learning,” IEEE Trans. Knowl. Data Eng.,vol. 21, no. 6, pp. 785-799, 2009.

[3]侯海燕. 基于知識圖譜的科學(xué)計量學(xué)進(jìn)展研究[博士學(xué)位論文].大連:大連理工大學(xué),2006.

猜你喜歡
語義測量模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
語言與語義
把握四個“三” 測量變簡單
滑動摩擦力的測量和計算
滑動摩擦力的測量與計算
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
測量
主站蜘蛛池模板: 免费jjzz在在线播放国产| 丁香婷婷综合激情| 国产精品自在在线午夜| 国产区精品高清在线观看| 午夜毛片福利| 免费高清毛片| 人妻中文久热无码丝袜| 亚洲成肉网| 国产精品极品美女自在线网站| 制服丝袜一区| 亚洲永久视频| 国产欧美日韩在线在线不卡视频| 欧美午夜在线视频| yy6080理论大片一级久久| 一级毛片高清| 老色鬼欧美精品| 2024av在线无码中文最新| 性色一区| 亚洲永久色| 亚洲中久无码永久在线观看软件| 不卡无码h在线观看| 啊嗯不日本网站| 久久综合色天堂av| 无码精品国产dvd在线观看9久 | 国产精品久久久久无码网站| 亚洲欧洲日韩久久狠狠爱| 国产尤物在线播放| 国产精品美女免费视频大全| 国产玖玖玖精品视频| 免费无码网站| 女人18毛片水真多国产| 亚洲一区网站| 亚洲色无码专线精品观看| 五月婷婷导航| 日韩无码视频专区| 国产香蕉97碰碰视频VA碰碰看| 国产福利微拍精品一区二区| 影音先锋丝袜制服| 久久这里只有精品66| 久久青青草原亚洲av无码| 国产亚洲男人的天堂在线观看| 亚洲精品国产成人7777| 国产精品主播| 重口调教一区二区视频| 91精品人妻互换| 一区二区日韩国产精久久| 成年人国产网站| 91视频日本| 在线永久免费观看的毛片| 欧美色综合网站| 丁香婷婷在线视频| 久久国产精品夜色| 国产精品区视频中文字幕| 成人福利在线免费观看| 国产黄色免费看| 日韩天堂视频| 中国国语毛片免费观看视频| 四虎国产精品永久一区| 亚洲欧美日韩中文字幕在线| 狠狠做深爱婷婷综合一区| 国产精品久久久久久久久| 亚洲欧洲日韩久久狠狠爱| 99偷拍视频精品一区二区| 亚洲欧美日韩中文字幕在线| 久久综合AV免费观看| 日本在线国产| 久久人人97超碰人人澡爱香蕉| 波多野结衣一区二区三区88| 国产永久在线视频| h网站在线播放| 午夜不卡视频| 国产一区二区三区夜色| 国产美女精品一区二区| 丁香婷婷久久| 免费在线观看av| 高清无码手机在线观看| 国产成人综合久久精品下载| 欧美人与牲动交a欧美精品| 日韩欧美综合在线制服| 高潮毛片免费观看| 欧美日本视频在线观看| 欧美va亚洲va香蕉在线|