999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于維基百科的語義相關度算法研究綜述

2015-09-21 01:29:56景雪芹徐建良
網絡安全與數據管理 2015年14期
關鍵詞:頁面語義詞匯

景雪芹,徐建良

(中國海洋大學 信息科學與工程學院,山東 青島 266100)

0 引言

相關度是指事物之間相關聯的程度,而語義相關度是指概念之間相關聯的程度。計算語義相關度是非常復雜的,因為它需要用到豐富的語義知識,也要對不同的關系給出不同的權重值。在語義信息處理的相關研究中,很多研究者利用語料庫的相關統計信息獲取語義相關度信息,也有研究者利用WordNet等語義網絡來衡量詞或者概念之間的語義相關度。近年來,很多研究都證明維基百科是計算語義相關度的一個好資源。

最先利用維基百科進行語義相關度研究的是STRUBLE M和 PONZETTO S P[1],他們把應用在 Word-Net上效果比較好的一些經典算法應用到維基百科中,實驗結果表明,在大數據集上,在維基百科的效果要好于在 WordNet的效果。隨后,ZESCH J和 GUREVYC I[2]對維基百科的分類圖和文檔圖進行了圖論分析并與GermaNet進行了比較,同樣證明了維基百科可以作為一種語義知識資源代替一些傳統的語義網絡,將自然語言處理的一些經典算法應用到維基百科中是可行的。

本文對維基百科進行了研究,對利用維基百科計算語義相關度的算法進行了調研,最后總結了幾種典型算法的特點并進行了分類。

1 維基百科

維基百科于2001年被發起,現在,它涵蓋了藝術、地理、歷史、自然科學等領域,包括了200多種語言的版本,注冊用戶達5000多萬。它作為互聯網上最大的最廣泛使用的免費的百科全書,擁有超過百萬的解釋頁面,更新速度快。本文從以下兩方面對維基百科進行系統的介紹。

1.1 維基百科中的條目

條目,即頁面,是維基百科基本的組成單位。為了提高一致性,條目的編輯需遵循一系列的編輯規則,其主要的規則有以下6條[3]:

(1)一個條目只描述一個概念,一個概念只有一個條目與之對應;

(2)條目的標題是簡潔的短語,類似于傳統敘詞表中敘詞;

(3)同義詞通過重定向鏈接連接;

(4)消歧義條目為用戶提供可選擇的多種語義;

(5)條目的開始是對主題的簡單介紹,第一句定義了概念及其類型;

(6)條目中有超鏈接,這些超鏈接表示了該條目與其他條目之間的關系。

根據這些編輯規則,將維基百科中的條目分為:分類條目、重定向條目、消歧義條目以及解釋條目。其中分類條目是維基百科中的分類索引,重定向條目和消歧義條目對應規則(3)和(4),解釋條目對應編輯規則(1)。

1.2 維基百科中的超鏈接

普通的語料庫和網絡語料最大的不同點就是網絡語料庫具有超鏈接,而超鏈接提供了一個頁面跳轉到另一個頁面的功能。維基百科就是典型的網絡語料庫。維基百科鏈接結構密集,平均每個條目擁有20個超鏈接,而且超鏈接還蘊含了豐富的語義信息。一般按照超鏈接的方向把超鏈接分為兩大類:一類是前向鏈接,另一類是后向鏈接。如圖1所示,前向鏈接是指源頁面連接另外一個頁面的鏈接,后向鏈接是指一個頁面連接源頁面的鏈接。

圖1 前向鏈接和后向鏈接

除此之外,也可以根據超鏈接所連接的頁面類型進行分類,分別為語言間的鏈接(Interlanguage Links)、分類與子類之間的鏈接(Category to Subcategory)、分類與解釋頁面之間的鏈接(Category to Article)、重定向頁面(Redirect to Article)與解釋頁面之間的鏈接 (Article to Article)。根據這種分類可以初步判斷錨文本之間的關系(錨文本是超鏈接的文本部分,用戶通過點擊這個文本就可到達目標頁面)。

2 基于維基百科的語義相關度算法

2.1 基于統計學的語義相關度算法

2.1.1 詞匯共現法

詞匯共現法是基于統計學的方法來計算語義相關度的經典方法。由于詞匯共現在敘詞表構建的研究中已經被廣泛地證明是有效的,因此把它應用到維基百科中可能也是可行的。兩個詞匯的詞匯同現率可以用下面的公式進行粗略的定義:

其中,Dt1是包含t1的文檔的集合。為了度量兩個詞的相關度,該方法使用了包含這兩個詞的文檔數。具體的比較經典的方法有共現文檔數方法 (SD)[4]、文字覆蓋法(TO)。

共現文檔數就是在一個較大的語料庫中利用詞出現的文檔數,如Jaccard公式:

其中,dc(i)、dc(j)分別表示包含鏈接 i、j的文檔數,dc(i&j)表示既包含 i也包含 j的文檔數。

文字覆蓋法就是通過在2個詞各自的定義文本中共同出現的文本來計算相關度。比較經典的算法有Lesk算法[5]。在維基百科中,可以尋找在解釋文檔中的共現詞并利用式(3)來計算:

其中,n表示文檔ta和 tb中都出現的文本片段 (可能是一個詞或連續的多個詞),mn表示每個片段的詞數,length(ta)和 length(tb)表示兩個文檔的總詞數。

2.1.2 鏈接共現法

盡管上文中的詞匯共現法已被證明是有效的,但是由于語義分析的復雜性,自然語言處理仍然存在很多準確性的問題。所以有人提出了鏈接共現的方法,這種方法只使用語義網絡中的鏈接來避免自然語言處理中的準確率的問題。因為語義網絡是一個概念與鏈接的集合,所以使用鏈接同現法是有意義的。具體的公式和詞匯共現的公式的道理是一樣的,不同點只是使用文檔的鏈接代替詞匯。

比較經典的鏈接共現的方法是GABRILOVICH E[6]提出的TF-IDF的方法。TF-IDF使用了兩個度量值:TF(Term Frequency)詞匯頻率和IDF (InverseDocument Frequency)后向文檔頻率。這種方法是通過計算維基百科頁面中鏈接的權值得到相應概念的向量,然后通過比較概念向量來計算兩個概念的相關度。一個文檔中鏈接的權值的計算公式如下:

其中,tf(l,d)表示在文檔 d 中鏈接 l出現的次數,N 表示維基百科中文檔的數量,df(l)是包含鏈接l的文檔的數量。簡單來說,權值隨著文檔d中鏈接出現的頻率遞增。但是總的來說,因為每個維基百科的頁面都有自己的URL而且都對應了一個概念,所以計算兩個鏈接的相關度等同于計算兩個概念的相關度。

2.2 基于維基百科路徑的語義相關度算法

維基百科網絡詞匯集,是一個由條目和超鏈接組成的集合,它的結構是一個有循環的圖,概念就是圖的節點,超鏈接就是圖的邊,所以它就可以用一個圖的形式來表示:G={V,E}(V:維基百科中的條目/概念集合,E:維基百科中超鏈接的集合)。在考慮如何計算任意一個條目對vi和vj之間的相關度時,NAKAYAMA K等人[7]假設影響它們之間相關度主要有以下兩個因素:

(1)從條目 vi到條目 vj的路徑的數量;

(2)每一條從條目 vi到條目 vj的路徑長度。

如果有很多路徑可以從條目vi到達條目vj,那么它們之間的相關度相對較強。另外,兩個條目之間的相關度還受路徑長短的影響。換句話說,如果在圖G中從條目vi到達條目vj的路徑相對較短,那么它們之間的相關度要高于相對較長的。因此,如果從條目vi到達條目vj的所有路徑為P={p1,p2,...,pn},NAKAYAMA K將它們之間的 PF(Path Frequency)定義為:

其中,d(lenpk)是一個以路徑pk的長度為變量的單調遞增函數,例如對數函數的單調遞增函數都可用作函數d(lenpk)。

而且根據統計發現,在計算相關度時必須考慮維基百科的鏈接結構的分布特征,例如這樣一種條目,有很多條目都擁有到達該條目的超鏈接。如果只是用PF的方法,那么這類條目會與很多條目具有較強的相關度。然而通常情況下該類條目對應的概念是普通的比較綜合的大眾的概念。因此,必須考慮這類條目的后向鏈接,NAKAYAMA K定義了 IBF(Inversed Backward Frequency),IBF與 PF組合形成了 PF-IBF方法:

其中,N表示所有的條目數,bf(vj)表示條目 vj的后向鏈接數。從上文的PF-IBF公式可以看出,如果條目vi和vj條目通過前向或后向鏈接相連并且vj沒有后向鏈接,則相應的pfibf值就會很高,概念之間的相關度相對較大。

3 結論

維基百科作為世界上最大的在線百科全書,蘊含了豐富的語義知識。本文總結了利用維基百科完成復雜的語義相關度計算的方法,使用這些算法可以更容易地完成對維基百科的知識挖掘和完成文本分類等工作。但目前,無論是對維基百科使用的研究,還是維基百科相關算法研究,我國都遠遠少于國外。今后,隨著維基百科的優勢顯現,相信會有更多的國內專家關注維基百科,維基百科的相關技術也會更加成熟。

[1]STRUBE M,PONZETTO S P.WikiRelate! Computing semantic relatednessusing Wikipedia [C].AAAI,2006,6:1419-1424.

[2]ZESCH T,GUREVYCH I.Analysis of the Wikipedia category graph for NLP applications[C].Proceedingsofthe TextGraphs-2 Workshop (NAACL-HLT 2007),2007:1-8.

[3]MEDELYAN O,MILNE D,LEGG C,et al.Mining meaning from Wikipedia[J].International Journal of Human-Computer Studies,2009,67(9):716-754.

[4]BANERJEE S,PEDERSEN T.Extended gloss overlaps as a measure of semantic relatedness[C].IJCAI,2003,3:805-810.

[5]LESK M.Automaticsensedisambiguation usingmachine readable dictionaries:how to tell a pine cone from an ice cream cone[C].Proceedings of the 5th Annual International Conference on Systems Documentation,ACM,1986:24-26.

[6]GABRILOVICH E,MARKOVITCH S.Computing semantic relatedness using Wikipedia-based explicit semantic analysis[C].JCAI,2007,7:1606-1611.

[7]NAKAYAMA K,HARA T,NISHIO S.Wikipedia mining for an association Web thesaurus construction[M].Web Information Systems Engineering-WISE 2007,Springer Berlin Heidelberg,2007: 322-334.

猜你喜歡
頁面語義詞匯
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
本刊一些常用詞匯可直接用縮寫
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 国产av无码日韩av无码网站| 欧美性猛交一区二区三区| 国产精品久久精品| 国产成年无码AⅤ片在线| 亚洲无线视频| 欧美在线中文字幕| v天堂中文在线| 亚洲AV无码精品无码久久蜜桃| 成人一区在线| 欧美日韩国产综合视频在线观看| 国产v精品成人免费视频71pao| 国产AV无码专区亚洲A∨毛片| 国产成人亚洲欧美激情| 久久久久久午夜精品| 日韩精品中文字幕一区三区| 成人日韩欧美| 亚洲国模精品一区| 高清色本在线www| 亚洲欧美国产高清va在线播放| 91娇喘视频| 97久久精品人人做人人爽| 亚洲三级a| 国产乱人伦精品一区二区| 国产精品福利一区二区久久| 亚洲午夜久久久精品电影院| 在线五月婷婷| 热久久这里是精品6免费观看| 亚洲国产精品VA在线看黑人| 婷婷亚洲天堂| 在线欧美日韩国产| 欧美高清日韩| 永久免费AⅤ无码网站在线观看| 热伊人99re久久精品最新地| 色婷婷综合激情视频免费看 | 欧美高清国产| 日本国产精品| 亚洲国产亚综合在线区| 精品国产Av电影无码久久久| 国产午夜看片| 伊人久久青草青青综合| 一级一毛片a级毛片| 欧美天堂在线| 国产人成在线观看| 久久精品女人天堂aaa| 国产精品亚洲日韩AⅤ在线观看| 日韩成人午夜| 免费一极毛片| 萌白酱国产一区二区| 国产成年女人特黄特色大片免费| 亚洲高清国产拍精品26u| 国产精品香蕉在线观看不卡| 午夜在线不卡| 国产精品所毛片视频| 国内熟女少妇一线天| 99精品伊人久久久大香线蕉| 国产另类乱子伦精品免费女| 国产91丝袜在线播放动漫| 国产精品黄色片| 久草热视频在线| 99久久这里只精品麻豆| 综合五月天网| 亚洲第一网站男人都懂| 亚洲 成人国产| 国产乱子伦精品视频| 69av免费视频| 日韩二区三区无| 99精品视频在线观看免费播放| 国产亚洲精品91| 国产欧美性爱网| 一级毛片免费不卡在线| 日韩精品一区二区三区免费| 一区二区三区精品视频在线观看| 国产真实乱子伦视频播放| 国产成人无码AV在线播放动漫| 欧美亚洲综合免费精品高清在线观看| 国产伦精品一区二区三区视频优播 | 99伊人精品| 免费看av在线网站网址| 九九这里只有精品视频| 亚洲国产日韩一区| 色妞www精品视频一级下载| 一本大道视频精品人妻 |