汪志偉 朱福喜 劉世超
(武漢大學(xué)計(jì)算機(jī)學(xué)院 湖北 武漢 430072)
?
一種基于Wikipedia的詞匯語(yǔ)義關(guān)聯(lián)度計(jì)算方法
汪志偉朱福喜劉世超
(武漢大學(xué)計(jì)算機(jī)學(xué)院湖北 武漢 430072)
詞匯語(yǔ)義關(guān)聯(lián)度計(jì)算是信息檢索和自然語(yǔ)言處理的關(guān)鍵問(wèn)題之一。針對(duì)該問(wèn)題提出一種改進(jìn)的基于Wikipedia語(yǔ)義關(guān)聯(lián)度計(jì)算方法WGR。該方法使用Wikipedia數(shù)據(jù)集作為背景知識(shí)庫(kù),在傳統(tǒng)方法的基礎(chǔ)上融合維基文章中的布局信息,并對(duì)維基概念的入鏈和出鏈?zhǔn)褂貌煌姆椒ㄟM(jìn)行處理;引入Google搜索資源,經(jīng)分類篩選后使用LDA建模計(jì)算關(guān)聯(lián)度;最后綜合兩個(gè)數(shù)據(jù)集的結(jié)果得到WGR語(yǔ)義關(guān)聯(lián)度。通過(guò)實(shí)驗(yàn)分析,WGR在與現(xiàn)有算法比較時(shí),取得了更好的準(zhǔn)確率。
語(yǔ)義關(guān)聯(lián)度文章網(wǎng)絡(luò)布局信息維基百科隱含狄利克雷分布谷歌
語(yǔ)義關(guān)聯(lián)度研究是信息檢索、人工智能等領(lǐng)域的基礎(chǔ)性研究課題之一,有著重要的研究?jī)r(jià)值。
傳統(tǒng)的語(yǔ)義關(guān)聯(lián)度計(jì)算方法包括單純的對(duì)大型語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)分析,不涉及到相關(guān)的背景知識(shí)[1,2],或者使用人工構(gòu)建的帶有少量外部知識(shí)的詞典資源[3,4]。近年來(lái)出現(xiàn)了很多利用Wikipedia計(jì)算語(yǔ)義關(guān)聯(lián)度的方法。維基文章間豐富的鏈接關(guān)系構(gòu)成的文章網(wǎng)絡(luò)及文本內(nèi)容能提供大量明確定義的語(yǔ)義知識(shí)。雖然Wikipedia是數(shù)以百萬(wàn)計(jì)的用戶協(xié)作編寫(xiě)的百科全書(shū),內(nèi)容覆蓋廣泛,有研究表明,其內(nèi)容的準(zhǔn)確性與由專家寫(xiě)成的大英百科全書(shū)相差無(wú)幾[5]。與傳統(tǒng)背景知識(shí)庫(kù)相比,Wikipedia內(nèi)容的結(jié)構(gòu)化和準(zhǔn)確性使其成為更好的語(yǔ)義關(guān)聯(lián)度計(jì)算背景知識(shí)庫(kù)。但現(xiàn)有的基于Wikipedia計(jì)算語(yǔ)義關(guān)聯(lián)度的方法還存在著一些不足:1) 著重于鏈接網(wǎng)絡(luò)和維基分類樹(shù)而忽視文本內(nèi)容;2) 沒(méi)有考慮Wikipedia存在的缺陷,如更新滯后、覆蓋度有限等,沒(méi)有引入相應(yīng)的內(nèi)容進(jìn)行補(bǔ)充。
針對(duì)這些缺陷,本文提出了一種改進(jìn)的基于Wikipedia詞匯語(yǔ)義關(guān)聯(lián)度計(jì)算方法WGR,主要貢獻(xiàn)如下:
(1) 引入了維基文章頁(yè)面布局信息,在使用Wikipedia計(jì)算關(guān)聯(lián)度時(shí)可以更準(zhǔn)確地描述詞語(yǔ)-文章的關(guān)聯(lián)性。
(2) 對(duì)維基概念的輸入鏈接(Backward Links)和輸出鏈接(Forward Links)分別應(yīng)用不同的處理方法,從而在Wikipedia內(nèi)容處理中既應(yīng)用了維基文章的文本內(nèi)容,又考慮了多層輸出鏈接。
(3) 引入Google搜索資源,經(jīng)過(guò)分類器篩選后進(jìn)行LDA建模從而計(jì)算關(guān)聯(lián)度,最后綜合Wikipedia和Google資源的結(jié)果得到WGR語(yǔ)義關(guān)聯(lián)度。
現(xiàn)有的語(yǔ)義關(guān)聯(lián)度計(jì)算方法主要區(qū)別在于利用了不同的背景知識(shí)。較早的基于人工語(yǔ)義詞典如WordNet和Roget的方法[6],其準(zhǔn)確性受限于人工詞典的容量和更新情況。其后出現(xiàn)的基于語(yǔ)料庫(kù)的方法,通過(guò)對(duì)大量文本集合進(jìn)行統(tǒng)計(jì)分析得到比較全面的背景知識(shí)庫(kù),其中LSA算法[7]是準(zhǔn)確率較高的算法之一,但其需要對(duì)語(yǔ)料庫(kù)進(jìn)行大量預(yù)處理。
Strube和Ponzetto[8]首先開(kāi)始利用Wikipedia計(jì)算語(yǔ)義關(guān)聯(lián)度,所提出的WikiRelate算法將基于Wordnet的方法進(jìn)行修改后應(yīng)用到Wikipedia上,取得了和基于Wordnet相近的準(zhǔn)確度。Gabrilovich和Markovitch[9]提出的ESA算法是目前準(zhǔn)確率最高的語(yǔ)義關(guān)聯(lián)度計(jì)算方法之一,該方法采用向量空間模型對(duì)維基文章進(jìn)行建模,不僅可以比較詞匯的語(yǔ)義關(guān)聯(lián)度,還可以比較文本內(nèi)容之間的語(yǔ)義關(guān)聯(lián)度。Milne和Witten[10]提出的WLM算法,采用向量空間模型處理Wikipedia文章網(wǎng)絡(luò)鏈接,結(jié)合NGD距離(Normalized Google Distance)[11],算法開(kāi)銷低于ESA,且取得了較高的準(zhǔn)確率。孫琛琛等[12]提出的WSR算法,引入帶權(quán)重的鏈接,并借鑒TF-IDF定義鏈接權(quán)重,從而分析文章網(wǎng)絡(luò)的多層次結(jié)構(gòu),最后結(jié)合維基分類樹(shù)計(jì)算關(guān)聯(lián)度,算法開(kāi)銷遠(yuǎn)小于ESA,也取得了較高的準(zhǔn)確度。李赟等[13]利用中文維基百科進(jìn)行語(yǔ)義相關(guān)詞的獲取及其相關(guān)度分析。
Radinsky等[14]提出的TSA算法將Wikipedia資源和紐約時(shí)報(bào)的文章結(jié)合使用。使用了紐約時(shí)報(bào)從1863年至2004年的文章存檔,先將每個(gè)詞轉(zhuǎn)換為一系列包含這個(gè)詞的維基文章的集合,通過(guò)維基概念在紐約時(shí)報(bào)文章中分布的相似性計(jì)算原始詞的語(yǔ)義關(guān)聯(lián)性。
文獻(xiàn)[15]使用LDA對(duì)Wikipedia數(shù)據(jù)集進(jìn)行建模,將詞語(yǔ)描述成高維向量,向量由兩部分組成:詞語(yǔ)與上下文臨近詞的關(guān)聯(lián)度組成的向量,LDA模型輸出的對(duì)詞語(yǔ)的主題表達(dá)向量,通過(guò)計(jì)算高維向量的余弦距離得出語(yǔ)義關(guān)聯(lián)度,也取得了較好的準(zhǔn)確度。
本文提出的WGR語(yǔ)義關(guān)聯(lián)度計(jì)算方法整體流程如圖1所示。該算法主要包括兩個(gè)部分:首先是利用Wikipedia數(shù)據(jù)集的語(yǔ)義關(guān)聯(lián)度計(jì)算WikiRel,將待計(jì)算語(yǔ)義關(guān)聯(lián)度的詞語(yǔ)映射成維基概念后,對(duì)每個(gè)維基概念所處文章網(wǎng)絡(luò)中的輸入鏈接和輸出鏈接采用不同的方法計(jì)算,計(jì)算過(guò)程中結(jié)合維基文章的頁(yè)面布局信息,更精確地描述詞語(yǔ)-文章關(guān)聯(lián)性。其次是利用Google搜索結(jié)果的語(yǔ)義關(guān)聯(lián)度計(jì)算GooRel,取得每個(gè)待計(jì)算關(guān)聯(lián)度的詞語(yǔ)在Google搜索中的結(jié)果集,使用分類器篩選后進(jìn)行LDA建模,計(jì)算詞語(yǔ)各自主題向量的余弦距離。最后綜合兩個(gè)部分得到WGR算法。

圖1 算法整體流程
2.1基于Wikipedia數(shù)據(jù)集關(guān)聯(lián)度計(jì)算WikiRel
已有的基于Wikipedia的關(guān)聯(lián)度算法[8-13]大多只考慮文本內(nèi)容或文章網(wǎng)絡(luò)。為了綜合考慮文章網(wǎng)絡(luò)和文本內(nèi)容,本文采用不同的方法對(duì)入鏈和出鏈進(jìn)行處理,其中入鏈(Backward Links)即目標(biāo)概念出現(xiàn)在某個(gè)維基概念的描述文章中;出鏈(Forward Links)即目標(biāo)概念的描述文章中出現(xiàn)了某個(gè)維基概念。最終取二者的加權(quán)和得到WikiRel關(guān)聯(lián)度。
2.1.1維基頁(yè)面布局信息
圖2為維基文章頁(yè)面示例,維基文章中的首段通常是對(duì)該文章所描述維基概念的概要說(shuō)明;在維基頁(yè)面中顯示為藍(lán)色字體的即錨文本;文章中被加粗為黑體或斜體表示強(qiáng)調(diào)說(shuō)明,如圖中的”Apple Computer, Inc”和”Fortune”;此外,Wikipedia編輯過(guò)程中,會(huì)附加相關(guān)的圖片資源進(jìn)行輔助說(shuō)明,如圖2中圖片下方文字說(shuō)明。

圖2 維基文章頁(yè)面示例
2.1.2維基頁(yè)面間的鏈接信息
Wikipedia中存在著多種鏈接,不同的鏈接所能體現(xiàn)的概念間語(yǔ)義關(guān)聯(lián)是不一樣的。本文對(duì)不同鏈接使用經(jīng)驗(yàn)初始權(quán)值如表1所示。

表1 不同類型鏈接的初始權(quán)值
2.1.3使用目標(biāo)概念入鏈改進(jìn)的ESA算法BLRel
ESA算法[9]包括三個(gè)步驟:把詞語(yǔ)轉(zhuǎn)換為概念向量;計(jì)算向量中每個(gè)元素的相關(guān)性權(quán)重;計(jì)算兩個(gè)概念向量的余弦距離。考慮到在維基文章中很多詞語(yǔ)只起到輔助描述、組成句子的作用,并不能反映其與對(duì)應(yīng)的維基概念有語(yǔ)義關(guān)系,本文只對(duì)出現(xiàn)了目標(biāo)概念作為錨文本的維基文章計(jì)算相關(guān)性向量。在取得所有包含以目標(biāo)概念為錨文本的維基文章后,去掉分類、消歧等不需要的功能頁(yè)面,以及正文內(nèi)容過(guò)短的文章,然后進(jìn)行文本預(yù)處理。
本文在ESA算法的第二步進(jìn)行改進(jìn),將TF-IDF與維基頁(yè)面的布局信息相結(jié)合,詞語(yǔ)-維基概念相關(guān)性計(jì)算如下:
Relevance=β0+β1×isBold+β2×isItalic+β2×isAnchor+
β3×isImage+β4×isFirstPara+β5×TFIDF
(1)
其中isBold、isItalic、isAnchor、isImage、isFirstPara分別代表詞語(yǔ)是否在頁(yè)面中為黑體、斜體、錨文本、位于圖片描述中、處于第一段,若是則取值為1,否則取為0。
對(duì)于式(1)中的參數(shù)設(shè)定本文通過(guò)回歸分析進(jìn)行擬合。將式(1)作為擬合方程,本文使用了最小二乘法(OLS)、次序?qū)?shù)回歸(OLR)和支持向量回歸(SVR)三種分析方法,以對(duì)比擬合結(jié)果對(duì)語(yǔ)義關(guān)聯(lián)度計(jì)算結(jié)果的影響。具體訓(xùn)練集通過(guò)人工標(biāo)注獲得,從Wikipedia數(shù)據(jù)庫(kù)中隨機(jī)抽取100篇文章,這些文章至少都包含一個(gè)黑體詞語(yǔ)、三個(gè)以上可以正確鏈接到其他維基頁(yè)面的錨文本、至少三個(gè)字的圖片描述文字、一個(gè)以上的文章段落。然后再?gòu)拿科恼轮羞x出30個(gè)詞語(yǔ)進(jìn)行人工相關(guān)性標(biāo)注,選擇的過(guò)程要覆蓋到所有的布局信息,人工標(biāo)注由三個(gè)人分別獨(dú)立完成,取三個(gè)人的標(biāo)注結(jié)果平均值作為最終結(jié)果。對(duì)于標(biāo)注結(jié)果存在歧義或無(wú)法給出標(biāo)注結(jié)果的詞語(yǔ)全部剔除,最終得到了1 750個(gè)詞語(yǔ)。
2.1.4使用目標(biāo)概念出鏈的關(guān)聯(lián)度計(jì)算FLRel
本文借鑒pfibf[16],結(jié)合布局信息定義了維基概念間鏈接權(quán)值。對(duì)于目標(biāo)概念的輸出鏈接,計(jì)算三層輸出鏈接向量的余弦距離得到FLRel關(guān)聯(lián)度。
(1) 鏈接權(quán)值設(shè)置
設(shè)a、b為源概念和目標(biāo)概念,a→b的權(quán)值:
(2)

(2) 語(yǔ)義關(guān)聯(lián)度計(jì)算
結(jié)合式(1),鏈接的初始權(quán)值定義如下:
w(a→b)0=Relevance×表1中的經(jīng)驗(yàn)權(quán)值
(3)

圖3 三層輸出鏈接示例
將式(3)代入式(2),再對(duì)源概念的所有輸出鏈接計(jì)算權(quán)重,概念輸出鏈接如圖3所示,a、b為源概念結(jié)點(diǎn),輸出至c、d的為第一層,輸出至e為第二層,至f為第三層。根據(jù)源概念結(jié)點(diǎn)構(gòu)建出每層輸出鏈接向量,最后計(jì)算每層向量余弦距離。
在計(jì)算第二層鏈接矩陣時(shí),a→e的權(quán)重為w(a→c)×w(c→e)×0.9,0.9為關(guān)聯(lián)性傳遞衰減系數(shù),第三級(jí)鏈接以此類推。對(duì)其中某層鏈接而言,源概念的語(yǔ)義關(guān)聯(lián)度描述為:
(4)
其中,M(a)、M(b)分別為源概念a,b的輸出鏈接權(quán)重向量。最終FLRel關(guān)聯(lián)度計(jì)算為:
FLRel(a,b)=α×Similarity1+β×Similarity2+
γ×Similarity3
(5)
其中,Similarity1、Similarity2、Similarity3分別為1、2、3層鏈接的余弦距離,α、β、γ為對(duì)應(yīng)的權(quán)重系數(shù),且α+β+γ=1,其具體值通過(guò)實(shí)驗(yàn)多組不同的權(quán)值,在α=0.67,β=0.21,γ=0.12時(shí),F(xiàn)LRel取得了最高的準(zhǔn)確率。
2.1.5WikiRel關(guān)聯(lián)度計(jì)算
綜合BLRel和FLRel,使用Wikipedia數(shù)據(jù)集計(jì)算得到WikiRel關(guān)聯(lián)度為:
WikiRel=δ×BLRel+ε×FLRel
(6)
其中δ+ε=1,本文δ=0.55,ε=0.45。
2.2基于Google資源的關(guān)聯(lián)度計(jì)算GooRel
本文將Google搜索資源作為Wikipedia之外的擴(kuò)充背景知識(shí)庫(kù)。對(duì)于一組待計(jì)算語(yǔ)義關(guān)聯(lián)度的詞,首先取得各自在擴(kuò)充知識(shí)庫(kù)中的網(wǎng)頁(yè)結(jié)果集,再使用分類器過(guò)濾主題不相關(guān)的結(jié)果,接著對(duì)網(wǎng)頁(yè)內(nèi)容使用LDA進(jìn)行建模,最后通過(guò)計(jì)算兩個(gè)詞語(yǔ)-主題分布向量的余弦距離得到GooRel關(guān)聯(lián)度。
2.2.1Google外部資源
雖然Wikipedia是目前規(guī)模最大的在線百科全書(shū),但也存在缺陷:首先,其還在不斷完善各種新詞條,已有內(nèi)容也保持著更新維護(hù),內(nèi)容覆蓋度有限;其次,由于其需要保證內(nèi)容的公正客觀準(zhǔn)確性,維基文章中不能涉及過(guò)多的時(shí)事信息,且其內(nèi)容的更新存在滯后性。針對(duì)這些缺陷,本文利用Google搜索對(duì)背景知識(shí)庫(kù)進(jìn)行擴(kuò)充,Google資源的優(yōu)勢(shì)包括能在技術(shù)上盡可能快的找到新出現(xiàn)的網(wǎng)頁(yè),由PageRank計(jì)算出網(wǎng)頁(yè)排名,根據(jù)與搜索請(qǐng)求關(guān)聯(lián)性的高低給出搜索結(jié)果。
2.2.2擴(kuò)充背景知識(shí)庫(kù)構(gòu)建
由于對(duì)每個(gè)詞都單獨(dú)取實(shí)時(shí)搜索結(jié)果會(huì)導(dǎo)致關(guān)聯(lián)度計(jì)算的時(shí)間開(kāi)銷太大,本文通過(guò)結(jié)合Wikipedia分類結(jié)構(gòu)和Google搜索構(gòu)建離線擴(kuò)充背景知識(shí)庫(kù)。Wikipedia中主要的主題分類包括Agriculture、Arts、Culture、Environment、Geography、Health、History、Humanities、Humans、Language、Law、Mathematics、Medicine、Nature、People、Politics、Professional studies、Science、Sports、Technology,使用Google搜索獲得與這些主題相關(guān)的排名最靠前的50個(gè)網(wǎng)站(不包括僅為單個(gè)網(wǎng)頁(yè)的搜索結(jié)果),繼而去抓取這些網(wǎng)站中最新的文章,最后按照其所屬的分類進(jìn)行存儲(chǔ),即構(gòu)成GooRel計(jì)算的背景知識(shí)庫(kù)。
2.2.3LDA主題模型

圖4 LDA模型圖示
LDA[17]是一種主題概率模型,可以得到文檔集中每篇文檔的隱含主題概率分布。LDA概率圖模型如圖4所示,其中α和β表示語(yǔ)料級(jí)別的超參數(shù),θ表示文檔主題的概率分布,φ表示特定主題下詞的概率分布,M表示文檔集的文本數(shù),K表示文檔集的主題數(shù),N表示每篇文檔包含的特征詞數(shù)。

(7)
其中,k為隱含主題的數(shù)目。
本文采用Gibbs采樣估計(jì)當(dāng)前采樣詞wi的主題tj的后驗(yàn)分布,迭代完成輸出主題-詞參數(shù)矩陣φ和文檔-主題矩陣θ。
2.2.4GooRel關(guān)聯(lián)度計(jì)算
對(duì)于一組待計(jì)算語(yǔ)義關(guān)聯(lián)度的詞,首先將其分別映射到擴(kuò)充知識(shí)庫(kù)的分類上,取出各自對(duì)應(yīng)的結(jié)果集;其次,因?yàn)閷?duì)應(yīng)的分類結(jié)果集中可能包含主題不相關(guān)的網(wǎng)頁(yè),采用樸素貝葉斯分類器進(jìn)行篩選,其中訓(xùn)練集通過(guò)Wikipedia獲取,使用主題詞對(duì)應(yīng)維基文章以及文章中所鏈接的相關(guān)維基概念,以及See Also鏈接文章,構(gòu)建出每個(gè)詞的分類訓(xùn)練文本集,去掉主題不符的網(wǎng)頁(yè)。如果某個(gè)詞對(duì)應(yīng)的結(jié)果集在篩選后網(wǎng)頁(yè)數(shù)量少于3000個(gè),通過(guò)取對(duì)應(yīng)詞在Google中的實(shí)時(shí)搜索結(jié)果進(jìn)行擴(kuò)充,同時(shí)將這些搜索結(jié)果也添加到擴(kuò)充知識(shí)庫(kù)對(duì)應(yīng)的類別中。
最后,對(duì)上述消歧完畢的網(wǎng)頁(yè)文本內(nèi)容使用LDA進(jìn)行主題建模,建模過(guò)程中的參數(shù)估計(jì)采用Gibbs采樣,迭代次數(shù)為1000次,其中主題數(shù)量K從10,20,…,一直迭代到200,取得到最優(yōu)結(jié)果的情況;其中α=50/K,β=0.01。最后,對(duì)待計(jì)算語(yǔ)義關(guān)聯(lián)度的詞語(yǔ)ωi和ωj的所有網(wǎng)頁(yè)數(shù)據(jù)通過(guò)LDA計(jì)算出分布tr(ωi)和tr(ωj)(參見(jiàn)式7),計(jì)算余弦相似度得到這對(duì)詞語(yǔ)的語(yǔ)義關(guān)聯(lián)度:
(8)
2.3WGR語(yǔ)義關(guān)聯(lián)度計(jì)算
WGR關(guān)聯(lián)度計(jì)算綜合WikiRel和GooRel兩種方法,對(duì)于給定詞對(duì)ωi和ωj,二者的語(yǔ)義關(guān)聯(lián)度計(jì)算如下,其中λ=0.66,μ=0.34。
WGR(wi,wj)=λ×WikiRel+μ×GooRel
(9)
3.1實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
本文實(shí)驗(yàn)環(huán)境如下:Windows Server 2003系統(tǒng),配置雙核3.5 GHz CPU和32 GB內(nèi)存。
實(shí)驗(yàn)所用的Wikipedia數(shù)據(jù)來(lái)自其官方網(wǎng)站下載的數(shù)據(jù)集,數(shù)據(jù)集是2013年5月3日進(jìn)行的備份。實(shí)驗(yàn)所使用的Google擴(kuò)充背景知識(shí)庫(kù)通過(guò)Java編寫(xiě)的爬蟲(chóng)軟件抓取搜索結(jié)果及網(wǎng)頁(yè),平均每個(gè)類別收集了接近10 000個(gè)網(wǎng)頁(yè),對(duì)每個(gè)網(wǎng)頁(yè)的預(yù)處理包括取出網(wǎng)頁(yè)body主體文本內(nèi)容,剔除特殊符號(hào)、HTML標(biāo)簽、停用詞以及出現(xiàn)頻率極低的詞后進(jìn)行存儲(chǔ)。
本文選擇最常用的WordSimilarity-353測(cè)試集[18]作為語(yǔ)義關(guān)聯(lián)準(zhǔn)確率評(píng)測(cè)數(shù)據(jù)集。
3.2實(shí)驗(yàn)結(jié)果及分析
在測(cè)試集上對(duì)本文提出的算法(WikiRel、GooRel、WGR)進(jìn)行實(shí)驗(yàn),采用Spearman等級(jí)相關(guān)系數(shù)評(píng)估語(yǔ)義關(guān)聯(lián)度計(jì)算準(zhǔn)確度,實(shí)驗(yàn)結(jié)果及分析如下。
3.2.1WikiRel參數(shù)分析
WikiRel關(guān)聯(lián)度計(jì)算中,計(jì)算詞語(yǔ)-維基概念相關(guān)性時(shí)實(shí)驗(yàn)了三種方法OLS、OLR和SVR對(duì)式(1)中的參數(shù)進(jìn)行擬合,三種擬合方法對(duì)應(yīng)得到的WikiRel計(jì)算結(jié)果如表2所示。

表2 WikiRel實(shí)驗(yàn)結(jié)果
從表2可以看到,使用最小二乘法(OLS)取得了最好的計(jì)算結(jié)果。支持向量回歸(SVR)結(jié)果稍差,而使用次序?qū)?shù)回歸(OLR)結(jié)果最差,因?yàn)槠鋵?duì)式(1)中參數(shù)的返回值導(dǎo)致很多詞語(yǔ)-維基概念相關(guān)性結(jié)果為0。最小二乘法(OLS)對(duì)式(1)的參數(shù)分析結(jié)果如表3所示。

表3 OLS分析結(jié)果
從表3可以看到,TFIDF、isBold、isItalic 、isAnchor、isImage是顯著屬性,TFIDF值的權(quán)重最高,isBold黑體、isItalic斜體表示強(qiáng)調(diào),體現(xiàn)著一定的關(guān)聯(lián)性。isImage(圖片描述)和isAnchor(錨文本)所能體現(xiàn)的關(guān)聯(lián)性較弱,部分維基文章中的圖片和概念主題并不相關(guān),錨文本也是如此,部分鏈接的添加只是起到引導(dǎo)作用,并沒(méi)有實(shí)際的語(yǔ)義關(guān)聯(lián)。而段落結(jié)構(gòu)(isFirstPara)的權(quán)重最低,其對(duì)詞語(yǔ)-維基概念相關(guān)性的影響要弱于文字樣式。
3.2.2WGR算法評(píng)測(cè)
WGR算法關(guān)聯(lián)度評(píng)測(cè)結(jié)果如表4所示。

表4 WGR評(píng)測(cè)結(jié)果
(1) WGR與傳統(tǒng)方法對(duì)比
如圖5所示與傳統(tǒng)使用人工語(yǔ)義詞典的方法相比,WGR采用Wikipedia作為背景知識(shí)庫(kù),同時(shí)借助Google結(jié)果資源,準(zhǔn)確性取得了較大提高。

圖5 與傳統(tǒng)方法結(jié)果對(duì)比
(2) WGR與現(xiàn)有使用Wikipedia的方法對(duì)比
圖6為WGR與WikiRelate、ESA、WLM的對(duì)比,也取得了更好的準(zhǔn)確率。WikiRelate把在傳統(tǒng)詞典知識(shí)集上使用的方法應(yīng)用到Wikipedia的層次分類樹(shù)上;WLM利用Wikipedia文章網(wǎng)絡(luò),但其沒(méi)有區(qū)別對(duì)待各種鏈接,并且只考慮與源概念結(jié)點(diǎn)直接相連的鏈接,雖然WLM算法也應(yīng)用了Google資源,但僅僅是考慮詞語(yǔ)的共現(xiàn)頻率。ESA算法利用了所有維基文章的文本內(nèi)容,但僅以TF-IDF值作為詞語(yǔ)-概念相關(guān)性權(quán)值,而且要對(duì)幾乎所有的維基文章進(jìn)行預(yù)處理來(lái)計(jì)算詞語(yǔ)-概念相關(guān)性的倒排索引,計(jì)算量非常大。

圖6 與現(xiàn)有基于Wikipedia方法結(jié)果對(duì)比
圖7中LDA所指代的方法為文獻(xiàn)[13]提出的使用LDA對(duì)Wikipedia文章集進(jìn)行建模,結(jié)合輸出的矩陣計(jì)算語(yǔ)義關(guān)聯(lián)度,取得了較好的準(zhǔn)確度,驗(yàn)證了使用LDA模型處理文檔集合計(jì)算語(yǔ)義關(guān)聯(lián)度的可行性。本文中提出的GooRel方法,對(duì)每個(gè)詞所使用的文本資源集合覆蓋度和時(shí)效性更好,取得了和文獻(xiàn)[13]方法相近的結(jié)果。雖然TSA算法的準(zhǔn)確度比WGR稍高一點(diǎn),但其采用1863年至2004年,超過(guò)130年的紐約時(shí)報(bào)文章存檔作為外部資源,這些資源根本無(wú)法通過(guò)常規(guī)途徑獲取到。

圖7 與現(xiàn)有其他方法結(jié)果對(duì)比
(3) GooRel結(jié)果分析
圖8中橫坐標(biāo)為每個(gè)待計(jì)算關(guān)聯(lián)度的詞對(duì)應(yīng)的搜索結(jié)果中參與LDA建模的網(wǎng)頁(yè)數(shù)量。為了驗(yàn)證外部資源對(duì)GooRel語(yǔ)義關(guān)聯(lián)度計(jì)算的影響,實(shí)驗(yàn)中,在清除掉歧義結(jié)果頁(yè)面后,對(duì)每個(gè)詞分別取前500,1000,…,直到5000個(gè)結(jié)果網(wǎng)頁(yè)進(jìn)行建模。每個(gè)詞所采用的網(wǎng)頁(yè)數(shù)量對(duì)結(jié)果的影響如圖8所示,隨著參與主題建模的網(wǎng)頁(yè)數(shù)量的增加,準(zhǔn)確度不斷提升,但在網(wǎng)頁(yè)數(shù)量到達(dá)3500時(shí),提升效果漸趨穩(wěn)定。

圖8 參與建模網(wǎng)頁(yè)數(shù)量對(duì)GooRel影響
本文在使用Wikipedia數(shù)據(jù)集作為背景知識(shí)庫(kù)的基礎(chǔ)上,結(jié)合Google搜索資源計(jì)算語(yǔ)義關(guān)聯(lián)度,并通過(guò)實(shí)驗(yàn)驗(yàn)證了方法的有效性。Wikipedia是目前規(guī)模最大的知識(shí)庫(kù),其中還有大量的指向維基以外的鏈接引用,利用好這些外部資源,也可能會(huì)提高計(jì)算結(jié)果的準(zhǔn)確度。而且Wikipedia提供的多語(yǔ)言版本也可能對(duì)提高結(jié)果的可靠性有輔助作用,這都將是在以后的工作中需要考慮研究的。
[1] Baezayates R,Ribeironeto B.Modern information retrieval[M].New York:ACM press,1999.
[2] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JASIS,1990,41(6):391-407.
[3] Budanitsky A,Hirst G.Evaluating wordnet-based measures of lexical semantic relatedness[J].Computational Linguistics,2006,32(1):13-47.
[4] Jarmasz M.Roget′s thesaurus as a lexical resource for natural language processing[D].University of Ottawa,2003.
[5] Giles J.Internet encyclopaedias go head to head[J].Nature,2005,438(7070):900-901.
[6] McHale M.A comparison of WordNet and Roget’s taxonomy for measuring semantic similarity[C]//Proceedings of COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems,1998:115-120.
[7] Landauer T K,Foltz P W,Laham D.An introduction to latent semantic analysis[J].Discourse processes,1998,25(2-3):259-284.
[8] Strube M,Ponzetto S P.WikiRelate! Computing semantic relatedness using Wikipedia[C]//AAAI.2006:1419-1424.
[9] Gabrilovich E,Markovitch S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C]//IJCAI.2007:1606-1611.
[10] Witten I,Milne D.An effective,low-cost measure of semantic relatedness obtained from Wikipedia links[C]//Proceedings of AAAI Workshop on Wikipedia and Artificial Intelligence:an Evolving Synergy,AAAI Press,Chicago,USA.2008:25-30.
[11] Cilibrasi R L,Vitanyi P M B.The google similarity distance[J].Knowledge and Data Engineering,IEEE Transactions on,2007,19(3):370-383.
[12] 孫琛琛,申德榮,單菁,等.WSR:一種基于維基百科結(jié)構(gòu)信息的語(yǔ)義關(guān)聯(lián)度計(jì)算算法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(11):2361-2370.
[13] 李赟,黃開(kāi)妍,任福繼,等.維基百科的中文語(yǔ)義相關(guān)詞獲取及相關(guān)度分析計(jì)算[J].北京郵電大學(xué)學(xué)報(bào),2009,32(3):109-112.
[14] Radinsky K,Agichtein E,Gabrilovich E,et al.A word at a time:computing word relatedness using temporal semantic analysis[C]//Proceedings of the 20th international conference on World wide web.ACM,2011:337-346.
[15] Huynh D,Tran D,Ma W.Combination Features for Semantic Similarity Measure[C]//Proceedings of the International MultiConference of Engineers and Computer Scientists,2014:324-327.
[16] Nakayama K,Hara T,Nishio S.Wikipedia mining for an association web thesaurus construction[M].Web Information Systems Engineering-WISE 2007.Springer Berlin Heidelberg,2007:322-334.
[17] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003:993-1022.
[18] Finkelstein L,Gabrilovich E,Matias Y,et al.Placing search in context:The concept revisited[C]//Proceedings of the 10th international conference on World Wide Web.ACM,2001:406-414.
A WIKIPEDIA-BASED LEXICAL SEMANTIC RELATEDNESS CALCULATION METHOD
Wang ZhiweiZhu FuxiLiu Shichao
(SchoolofComputer,WuhanUniversity,Wuhan430072,Hubei,China)
Calculating the semantic relatedness between words is one of the key issues of information retrieval and natural language processing, for this issue, we presented WGR, an improved semantic relatedness calculation method based on Wikipedia. The method uses Wikipedia dataset as the background knowledge base, integrates on the basis of traditional method the layout information in Wikipedia articles, and processes the backward link and forward link of Wiki concepts with different methods. Besides, it introduces the resources of Google search, after classification and sieving, it uses LDA modelling to calculate the semantic relatedness, and finally integrates the results from two datasets to get WGR semantic relatedness. Through experimental analysis, WGR achieves better accuracy in comparison with existing algorithms.
Semantic relatednessArticle referenced networkLayout informationWikipediaLatent Dirichlet allocation (LDA)Google
2014-07-07。國(guó)家自然科學(xué)基金項(xiàng)目(61272277)。汪志偉,碩士,主研領(lǐng)域:Web數(shù)據(jù)挖掘。朱福喜,教授。劉世超,博士。
TP391
A
10.3969/j.issn.1000-386x.2016.03.009
頁(yè)面布局信息可以使用正則表達(dá)式從維基中提取。例如,在維基
中,被兩個(gè)單引號(hào)、三個(gè)單引號(hào)包起來(lái)的分別渲染成黑體、斜體;附圖描述為‘[[Image: