999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合《知網》和搜索引擎的詞匯語義相似度計算

2017-06-27 08:10:42張碩望歐陽純萍陽小華劉永彬劉志明
計算機應用 2017年4期
關鍵詞:搜索引擎頁面語義

張碩望,歐陽純萍,陽小華,劉永彬,劉志明

南華大學 計算機科學與技術學院,湖南 衡陽 421001)(*通信作者電子郵箱ouyangcp@126.com)

融合《知網》和搜索引擎的詞匯語義相似度計算

張碩望,歐陽純萍*,陽小華,劉永彬,劉志明

南華大學 計算機科學與技術學院,湖南 衡陽 421001)(*通信作者電子郵箱ouyangcp@126.com)

針對當前《知網》的詞語語義描述與人們對詞匯的主觀認知之間存在諸多不匹配的問題,在充分利用豐富的網絡知識的背景下,提出了一種融合《知網》和搜索引擎的詞匯語義相似度計算方法。首先,考慮了詞語與詞語義原之間的包含關系,利用改進的概念相似度計算方法得到初步的詞語語義相似度結果;然后,利用基于搜索引擎的相關性雙重檢測算法和點互信息法得出進一步的語義相似度結果;最后,設計了擬合函數并利用批量梯度下降法學習權值參數,融合前兩步的相似度計算結果。實驗結果表明,與單純的基于《知網》和基于搜索引擎的改進方法相比,融合方法的斯皮爾曼系數和皮爾遜系數均提升了5%,同時提升了具體詞語義描述與人們對詞匯的主觀認知之間的匹配度,驗證了將網絡知識背景融入到概念相似度計算方法中能有效提高中文詞匯語義相似度的計算性能。

語義相似度;知網;搜索引擎;權重;網絡

0 引言

詞匯語義相似度計算是自然語言處理的一項基本內容,被應用在眾多重要的領域當中。詞匯語義相似度計算方法可以分為兩類: 一類是基于大型語料庫的方法,這類方法通過統計文檔中詞語之間的共現情況來計算詞語之間的相關性; 另一類則是基于某種世界知識與分類體系的詞匯語義相似度計算方法,根據語義詞典的語義層次關系和知識結構來計算詞匯的相關度。《知網》(HowNet)[1]系統基于英語和漢語,是一種以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識性網狀知識庫,也是很多學者在詞匯語義研究中的首要工具,并且幫助他們取得了很好的效果。主流的基于《知網》的詞匯相似度研究方法都是根據詞語的語義距離加權計算得出相似度,其中具有代表性的有劉群等[2]提出的依據義原間的距離進行計算的方法,以及王小林等[3]提出的變系數方法等;文獻[4]針對《知網》中存在未登錄詞的問題提出了基于概念切分和語義自動生成的解決方法,該文利用逆向最大匹配法將未登錄詞切分成多個登錄詞,再將登錄詞的義原表達式進行組合,從而獲得未登錄詞的義原表達式,達到對未登錄詞進行相似度計算的目的;文獻[5]提出了基于《知網》的對概念語義相似度的改進方法,該文采用圖論的二部圖最大權匹配算法來計算其他基本義原描述式的相似度,提高了計算結果的精度;文獻[6]綜合了《知網》和《同義詞詞林》的相似度計算方法,依據詞對在兩個知識庫的收錄情況決定融合權值。

除了上述方法外,也有學者另辟蹊徑。如文獻[7]利用貝葉斯估計來計算概念語義相似度,文獻[8]利用中文維基百科的結構化信息抽取來進行詞語相似度計算,文獻[9-13]則使用網絡搜索引擎算法來計算詞語相似度。

基于網絡搜索引擎的語義相似度算法普遍采用基于查詢返回頁面數和基于查詢結果片段的方法來進行語義相似度的計算。文獻[9]使用基于搜索結果片段的相關性雙重檢測(Co-Ocurrence Double Check, CODC)算法進行語義相似度計算,該算法對相關性較高的詞對能得出較好的計算結果,但是對相關度較低的詞對的計算結果為0,單獨依靠語義搜索片段計算相似度得出的結果存在片面性。文獻[10] 使用基于詞匯搜索頁面數的點互信息(Pointwise Mutual Information, PMI)法計算語義相似度,該方法無法避免噪聲和冗余數據對計算結果的影響,同樣具有片面性。文獻[11]同時分析了CODC和PMI兩種方法,提出根據不同情況,使用不同的算法。如果兩個詞的語義相關性較強則使用CODC算法,否則使用PMI算法,這在一定程度上減輕了CODC和PMI兩種算法各自的局限性,增加了結果的可信度,相比單一的方法,相似度計算效果有了一定的提升,但是相關系數依舊不及《知網》的結果。文獻[12]利用Google搜索引擎獨有的去除冗余的辦法修改PMI算法,效果提升比較顯著,但是該方法主要針對英文詞匯語義相似度計算,中英文之間的差異和搜索引擎算法之間的差異使得該方法不適用于漢語詞匯語義相似度計算。

基于搜索引擎的算法采用了大量的背景知識庫,召回率較高,但是由于網絡中的信息雜亂而繁多,噪聲信息對實驗結果產生影響難以避免。本文在分析和總結了傳統方法的基礎下,提出了融合《知網》和搜索引擎的詞匯語義相似度算法,通過利用知網系統的層級結構和搜索引擎的搜索庫,使詞匯語義相似度結果相比傳統方法更加符合人們的主觀判斷。

1 《知網》詞匯語義相似度計算方法

基于《知網》的語義相似度計算方法主要包括了三個步驟。

步驟1 義原相似度計算。義原的相似度計算主要是利用《知網》中的詞語的義原層次的語義距離來計算相似度,李峰等[14]在劉群等[2]提出的依據義原間的距離進行計算的方法的基礎上,提出了一種即考慮義原距離又考慮義原層次深度的改進算法,是目前普遍認為的改進算法中效果較好的。

步驟2 概念相似度計算。文獻[2]提出實詞概念按義項表達式細分為第一獨立義原表達式、其他獨立義原表達式、關系義原表達式和符號義原表達式,并且使用固定大小的參數來定義4種表達式的權重,最后其概念語義相似度的計算公式為:

β1+β2+β3+β4=1,β1≥β2≥β3≥β4

其中:βi為可調節參數。該公式確保主要部分概念重要度大于次要部分概念,參數確定后不再變化,適用于所有類型的詞匯概念相似度計算。文獻[3]在前文的算法基礎上提出了變系數的概念相似度計算方法,該文認為第一義原表達式的概括性太強,不適合給定較大的權值,并且《知網》對于第一義原的選取有主觀性因素,然后該文提出將各類型義原集合中所包含的個數作為參數權值的選取標準,其具體公式如下:

其中:ki代表兩個概念劃分后第i類義原描述式集合的元素個數之和;m和n為兩個概念表達式的表達式個數;權重系數βi經過計算,其值與義項表達式數量有關。對比文獻[2]和文獻[3]的兩種方法可看出,文獻[3]方法更加靈活,對不同的詞匯相似度也更加準確,適用于大部分的詞匯語義相似度比較;但是該方法對于某類字面和現實意義都很相關的詞匯來說,其計算結果不夠準確,例如“阿拉伯”和“阿拉伯人”的相似度結果就不夠合理。

步驟3 詞語相似度計算。Lin[15]認為任何事物的相似度取決于它們之間的共性與個性,文獻[2]認為詞語之間的相似度即是兩個詞匯在不同的上下文環境中可以互相替換而不改變其句法結構的程度;文獻[2]還認為實詞與虛詞之間得到相似度為0,實詞與實詞的相似度則取義項所有組合中相似度的最大值,考慮到所用對比詞匯并非從具體的語境中提取,所以使用該方法計算詞語的相似度是合理的。

2 本文算法

本文方法分為兩個步驟:首先計算基于《知網》的詞匯語義相似度,且沿用傳統的三個步驟并采用文獻[4]方法計算未登錄詞的相似度,由于《知網》在計算某類特定詞匯的概念相似度時與人們的主觀看法之間存在偏差,所以在此部分中對概念語義相似度進行了改進;然后,在基于《知網》的詞匯語義相似度結果的基礎上,引入搜索引擎算法,對詞匯語義相似度計算結果進行修正。

2.1 基于《知網》的詞匯語義相似度算法改進

目前對詞匯語義相似度結果的評價沒有公認的標準,主要依賴人工評測。《知網》目前主要由人工編寫,部分詞語的相似度計算結果與人們的主觀判斷偏差較大。其中,本文發現詞語“阿拉伯人”和“阿拉伯”,“玻利維亞”和“玻利維亞諾”的相似度結果偏低,原因在于兩對詞語的第一義原表達式相似度較低,阿拉伯人是人,阿拉伯是地名,玻利維亞是國家地名,玻利維亞諾是當地通用的貨幣,所以傳統《知網》的方法得出的相似度很低,其中“阿拉伯人”與“阿拉伯”的相似度為0.270,“玻利維亞”和“玻利維亞諾”的相似度為0.275,這是不合理的;2016年NLPCC評測會議給出了一組測試用例,它選擇20位研究生對詞對的相似度進行主觀判斷并給出一個1~10的分數,最終結果取他們的平均值,其中他們對詞對“阿拉伯人”和“阿拉伯”的相似度判斷為7.2,轉換成0~1的數值就是0.72,遠高于《知網》給出的0.27。通過分析發現,計算詞語間的相似度時,如果詞對中的一個詞完整地出現在另一個詞的義原解釋當中,那么兩個詞應該具有較高的相似度,所以,本文在計算概念相似度時添加一條規則。

規則1 如果詞對中某詞完整地出現在另一個詞的義原解釋中,則二詞的概念義原相似度結果提高;如果詞對中某詞只是字面上出現在另一個詞語的組成結構中,則概念語義相似度結果不產生變化,如詞對“阿拉伯”和“阿拉伯人”,“太平”和“太平洋”,它們在《知網》中的義原解釋如表1所示。

表1 詞對義原描述

詞語“阿拉伯人”不僅在字面上包含了詞語“阿拉伯”,而且在其義原解釋項中也包含了詞語“阿拉伯”;而詞對“太平洋”和“太平”中,詞語“太平洋”僅在字面上包含了詞語“太平”,在義原解釋項中并沒有包含完整的詞語“太平”,因此在計算相似度時不予以添加相似度。基于上述考慮,在原有概念相似度公式基礎上,加入詞語義原數量與被包含詞之間的比例關系,用于揭示被包含詞在相似度計算中的重要度。例如,一個詞有8個義原解釋,其中包含了一個計算對象詞,那么可見這個計算對象詞對基于義原的相似度計算結果影響不大;反之,如果一個詞只有1個義原解釋,而這個義原又恰好是計算對象詞,那么兩者之間的相似度必然很高。

因此改進的概念相似度計算公式如下:

(1)

其中:sj表示s1和s2中義原里包含了另一詞的詞(j取1或2),Num(sj)為詞sj所包含的義原數。改進后對于某些詞對得出的相似度結果如表2。

表2 兩種方法詞語相似度結果

從結果上看,第1、2組詞的相似度有一定提高,而第3、4組詞的相似度沒有提高,原因在于兩個詞對都只在字面上相似,不滿足規則1的條件,相似度沒有增加,證明了規則1的合理性。

2.2 基于搜索引擎的詞匯語義相似度算法改進

在網絡文化發展過程中,很多詞匯有了新含義,如“神馬”表示“什么”的意思。傳統《知網》知識庫的更新速度無法趕上網絡知識增長的速度,而網絡搜索引擎則可以實時反映網絡中新增的知識,所以利用搜索引擎修正《知網》的計算結果是合理的。

本文基于查詢頁數和頁面片段信息結合的搜索引擎方法進行詞匯語義相似度計算,查詢頁數指查詢包含詞匯或詞對的網頁數目。文獻[12]使用Google搜索引擎,而本文所研究的是中文詞匯語義相似度計算,所以選擇最大的中文搜索引擎百度搜索引擎。

常用的基于查詢頁面的語義相似度計算方法有Jaccard、Overlap、Dice、PMI四種算法,且PMI的算法相對效果最好,PMI算法如下:

其中:N=1011,為Google的索引頁面數。本文嘗試了PMI算法計算中文語義相似度,效果不理想,究其原因,Google搜索引擎與百度搜索引擎在搜索結果上存在一定的差異,如Google搜索引擎的搜索頁面數沒有上限,百度查詢頁面數上限為108條,在Google上搜索“dog”有14.3億條頁面記錄,搜索“狗”則有5億條,而百度上搜索“狗”結果為上限1億條。所以本文對該算法進行修改,使得該公式更適合于中文詞匯相似度計算,修改如下:

谷歌搜索頁面數沒有上限,則變相的其頁面上限數就是索引頁面數N,所以公式中使用參數Nb等于百度查詢頁面上限數108來代替N,由于查詢“a和b”與查詢“b和a”的頁面結果數有一個比較小的差異,這和搜索關鍵字算法有關,為了計算結果準確性,Nb(a,b)取查詢“a和b”和查詢“b和a”的結果數的平均值。

文獻[9]提出了基于頁面片段信息的雙重檢測算法CODC,其對于語義相關性比較強的詞預測準確度比較高,計算公式如下:

2.3 融合《知網》與搜索引擎的詞匯語義相似度計算

基于《知網》的詞匯語義相似度計算方法考慮詞對的語義信息,忽略了詞對之間的關聯關系;基于搜索引擎的詞匯語義相似度計算算法考慮詞對之間的關聯關系,忽略了詞對之間的底層語義;而融合兩者的詞匯語義相似度計算結果可以提高最終結果的精度。本文研究發現搜索關鍵字后查詢返回的頁面結果數越多,則該關鍵字的義原描述越接近義原層次體系樹的根節點,如:“時間”“空間”等,該類詞在搜索引擎中的搜索頁面結果數為上限108條,其在《知網》中的義原定義穩定,語義不會偏移,《知網》計算該類詞的語義相似度的準確度較高。為證明以上猜想,遂構造回歸模型求取融合權值,具體如下:

Sim(a,b)=(1-w1)×SimZ(a,b)+w1×SimS(a,b);w1=sigmod(w2×lgn1+w3×lgn2)

SimS(a,b)=sigmod(w4)×CODCB(a,b)+ (1-sigmod(w4))×PMIB(a,b)

其中:w1表示搜索引擎計算結果的權重參數,它由詞對的頁面結果數和其相關系數w2與w3決定;sigmod函數保證了權值結果的值域在0~1;L(y,w)是均方誤差(Mean Squared Error, MSE),表示相似度結果的損失函數;m代表樣例數。本次實驗使用批量梯度下降算法學習權值參數,實驗中設定步長為0.05。本文選取了2016NLPCC會議提供的中文詞匯語義相似度樣本數據40條,以及實驗數據10 000條中NLPCC會議提取并標注人工評測結果的500條作為本次實驗數據,從中隨機選取了270條作為訓練數據進行實驗。

訓練結果顯示,均方誤差為1.46時收斂,此時CODC方法權重參數w4為0.37,搜索引擎權重的參數w2為-0.15,w3為-0.14。實驗結果表明搜索引擎相似度計算結果的權值與搜索返回頁面數呈負相關,驗證了本文觀點。

3 實驗與分析

本次實驗采用基于《知網》的中文詞匯語義相似度計算方法,以及基于搜索引擎的中文詞匯語義相似度算法修正算法。為驗證方法的有效性,實驗選取了NLPCC會議提供的540條數據。該樣本數據和實驗數據的標準語義相似度由20名會議人員人工標注并取其平均值得出,可靠性較高。隨機抽取了270條作為權值訓練數據,將剩下的270條作為測試數據。一共選取了三種相似度算法,分別是文獻[5]的改進《知網》算法、文獻[13]的利用搜索引擎的算法以及本文算法,分別對270條測試數據進行詞匯語義相似度計算,然后使用斯皮爾曼(Spearman)系數和皮爾遜(Pearson)系數評價其準確性,結果如表3,可以看出本文方法得出的結果相對其他算法更好。

表3 相關系數

由于篇幅有限,本文選取了樣本數據40條中的前20條進行具體分析,結果如表4所示。

表4 抽樣詞語的相似度結果

實驗結果分析:

比較NLPCC評測的人工評測結果和文獻[5]對《知網》的改進計算,在很多詞對上二者的相似度結果差異依舊較大,文獻[5]的算法中第11行,第12行結果為1,偏大,第13行結果為0,偏小,本文認為原因是《知網》中對11,12行的二詞義原解釋定義完全相同,以及其對于實詞和虛詞的相似度結果直接判定為0,文獻[5]對概念語義相似度的計算作出了改進,但是依然無法保證該類詞對的相似度的準確度。

比較《知網》和PMI算法結果與NLPCC評測最佳結果之間的差異,傳統的PMI算法對于中文的詞語計算語義相似度整體結果較高,其算法原理與《知網》不同,二者結果分歧較大,例如第1行的詞對,《知網》從底層語義的角度考慮,給出了一個較低的相似度,搜索引擎則從二詞的相關度和聯系性考慮,給出的相似度結果較高;PMI算法在某些詞匯上的結果不合理,如第3行,第13行的結果過大,本文認為,其原因主要是:“垂涎”和“尊敬”的網頁結果多出自一篇新聞的兩個分標題,屬于噪聲信息,“活該”和“應該”在網上經常出現在一句話里,并出現在各種微博和短文中,因此PMI給計算結果很高。最后從整體上看,知網給出的部分結果偏低,PMI算法給出的部分結果偏高。

綜合3種方法結果進行比較,本文總體上結果比《知網》和搜索引擎算法結果更加符合NLPCC給出的人工評測結果。第11行的結果從知網給出的1.0降到0.8,與NLPCC給出的0.68更為接近;第5行的結果升高到0.43與會議給出的結果一致;第16行的相似度從0.06提高到了0.64,與會議給出的0.36還是有部分差距;第14行,第18行的結果相比過高,本文認為原因在于二詞雖然相似度不高,但存在較強的聯系性使得人們經常將二詞放在一起使用或搜索,從而提高了搜索引擎對二詞的相似度的判斷。作者將在下一個階段對該類問題進行研究。

4 結語

本文充分考慮《知網》的算法特點,提出一種利用搜索引擎搜索詞匯結果片段和網頁數修正《知網》計算結果的算法,提出了利用回歸函數訓練融合權值的方法,并對某詞的義原中包含另一個詞的詞對的《知網》概念相似度算法進行改進。從實驗數據來看,本文提出的改進算法計算結果相對《知網》和搜索引擎的算法得到的準確性更高,更加符合人們的直觀感受。接下來,將深入研究搜索引擎對詞匯相似度的計算機制,并利用搜索引擎完善知網的未登錄詞問題,從而進一步改善詞匯語義相似度的計算合理性。

)

[1] 董強, 董振東.知網簡介[EB/OL]. [2013- 01- 29].http://www.keenage.com/zhiwang/c_zhiwang.html.(DONGQ,DONGZD.HowNetknowledgedatabase[EB/OL]. [2013- 01- 29].http://www.keenage.com/zhiwang/c_zhiwang.html.)

[2] 劉群, 李素建.基于《知網》的詞匯語義相似度的計算[EB/OL]. [2015- 01- 12].http://www.nlp.org.cn/Admin/kindeditor/attached/file/20130508/20130508094157_16839.pdf.(LIUQ,LISJ.WordsimilaritycomputingbasedonHowNet[EB/OL]. [2015- 01- 12].http://www.nlp.org.cn/Admin/kindeditor/attached/file/20130508/20130508094157_16839.pdf.)

[3] 王小林, 王義.改進的基于知網的詞語相似度算法[J]. 計算機應用, 2011, 31(11):3075-3077.(WANGXL,WANGY.ImprovedwordsimilarityalgorithmbasedonHowNet[J].JournalofComputerApplications, 2011, 31(11): 3075-3077.)

濾波是將信號中特定波段頻率濾出的操作,是抑制和防止干擾的一項重要措施。在計算機視覺中,常常利用濾波如高斯濾波來對圖像進行處理,當然,為了提升運算速度,也會直接使用奇數階的方陣以用于對圖像進行卷積運算。具體的操作就是對于圖像的每一個像素點,計算他的鄰域像素和濾波器矩陣的對應元素的乘積,之后加起來即可,作為該像素點的值。通過這一操作,將灰度圖像執行了平滑在操作,如圖1所示。

[4] 夏天.漢語詞語語義相似度計算研究[J]. 計算機工程, 2007, 33(6):191-194.(XIAT.StudyonChinesewordssemanticsimilaritycomputation[J].ComputerEngineering, 2007, 33(6): 191-194.)

[5] 朱征宇, 孫俊華.改進的基于《知網》的詞匯語義相似度計算[J]. 計算機應用, 2013, 33(8):2276-2279.(ZHUZY,SUNJH.ImprovedvocabularysemanticsimilaritycalculationbasedonHowNet[J].JournalofComputerApplications, 2013, 33(8): 2276-2279.)

[6] 朱新華, 馬潤聰, 孫柳, 等.基于知網與詞林的詞語語義相似度計算[J]. 中文信息學報, 2016, 30(4):29-36.(ZHUXH,MARC,SUNL,etal.WordsemanticsimilaritycomputationbasedonHowNetandCiLin[J].JournalofChineseInformationProcessing, 2016, 30(4): 29-36.)

[7] 吳奎, 周獻中, 王建宇, 等.基于貝葉斯估計的概念語義相似度算法[J]. 中文信息學報, 2010, 24(2):52-57.(WUK,ZHOUXZ,WANGJY,etal.AconceptsemanticsimilarityalgorithmbasedonBayesianestimation[J].JournalofChineseInformationProcessing, 2010, 24(2): 52-57.)

[8] 張春紅.中文維基百科的結構化信息抽取及詞語相關度計算[D]. 武漢:華中師范大學, 2011.(ZHANGCH.ExtractingstructuredinformationfromtheChineseWikipediaandmeasuringrelatednessbetweenwords[D].Wuhan:CentralChinaNormalUniversity, 2011.)

[9]CHENHH,LINMS,WEIYC.NovelassociationmeasuresusingWebsearchwithdoublechecking[C]//Proceedingsofthe21stInternationalConferenceonComputationalLinguisticsandthe44thAnnualMeetingoftheAssociationforComputationalLinguistics.Stroudsburg,PA:AssociationforComputationalLinguistics, 2006: 1009-1016.

[10]CILIBRASIRL,VITANYIPMB.TheGooglesimilaritydistance[J].IEEETransactionsonKnowledgeandDataEngineering, 2007, 19(3): 370-383.

[12] 陳海燕.基于搜索引擎的詞匯語義相似度計算方法[J]. 計算機科學, 2015, 42(1):261-267.(CHENHY.MeasuringsemanticsimilaritybetweenwordsusingWebsearchengines[J].ComputerScience, 2015, 42(1):261-267.)

[13]BOLLEGALAD,MATSUOY,ISHIZUKAM.AWebsearchengine-basedapproachtomeasuresemanticsimilaritybetweenwords[J].IEEETransactionsonKnowledgeandDataEngineering, 2011, 23(7): 977-990.

[14] 李峰, 李芳.中文詞語語義相似度計算——基于《知網》2000[J]. 中文信息學報, 2007, 21(3):99-105.(LIF,LIF.AnnewapproachmeasuringsemanticsimilarityinHowNet2000 [J].JournalofChineseInformationProcessing, 2007, 21(3): 99-105.)

[15]LIND.AninformationtheoreticdefinitionofsimilaritysemanticdistanceinWordNet[C]//ICML1998:Proceedingsofthe15thInternationalConferenceonMachineLearning.SanFrancisco,CA:MorganKaufmann, 1998: 296-304.

[16]FIRTHJR.Asynopsisoflinguistictheory1930—1955 [J].StudiesinLinguisticAnalysis(SpecialVolumeofthePhilologicalSociety), 1957, 41(4): 1-32.

ThisworkispartiallysupportedbyNationalNaturalScienceFoundationofChina(61402220, 61502221),theScientificResearchProjectofHunanProvincialEducationDepartment(16C1378, 14B153, 15C1186),thePhilosophyandSocialScienceFoundationofHunanProvince(14YBA335).

ZHANG Shuowang, born in 1993, M. S. candidate. His research interests include natural language processing.

OUYANG Chunping, born in 1979, Ph. D., associate professor. Her research interests include semantic Web, emotion analysis.

YANG Xiaohua, born in 1963, Ph. D., professor. His research interests include information retrieval, public opinion analysis.

LIU Yongbin, born in 1978, Ph. D., lecturer. His research interests include knowledge graph, natural language processing.

LIU Zhiming, born in 1972, Ph. D., professor. His research interests include information retrieval, big data analysis.

Word semantic similarity computation based on integrating HowNet and search engines

ZHANG Shuowang, OUYANG Chunping*, YANG Xiaohua, LIU Yongbin, LIU Zhiming

(College of Computer Science and Technology, University of South China, Hengyang Hunan 421001, China)

According to mismatch between word semantic description of “HowNet” and subjective cognition of vocabulary, in the context of making full use of rich network knowledge, a word semantic similarity calculation method combining “HowNet” and search engine was proposed. Firstly, considering the inclusion relation between word and word sememes, the preliminary semantic similarity results were obtained by using improved concept similarity calculation method. Then the further semantic similarity results were obtained by using double correlation detection algorithm and point mutual information method based on search engines. Finally, the fitting function was designed and the weights were calculated by using batch gradient descent method, and the similarity calculation results of the first two steps were fused. The experimental results show that compared with the method simply based on “HowNet” or search engines, the Spearman coefficient and Pearson coefficient of the fusion method are both improved by 5%. Meanwhile, the match degree of the semantic description of the specific word and subjective cognition of vocabulary is improved. It is proved that it is effective to integrate network knowledge background into concept similarity calculation for computing Chinese word semantic similarity.

semantic similarity; HowNet; search engine; weight; network

2016- 09- 23;

2016- 10- 26。 基金項目:國家自然科學基金資助項目(61402220,61502221);湖南省教育廳科研項目(16C1378,14B153,15C1186);湖南省哲學社會科學基金資助項目(14YBA335)。

張碩望(1993—),男,湖南湘潭人,碩士研究生,主要研究方向:自然語言處理; 歐陽純萍(1979—),女,湖南衡陽人,副教授,博士,CCF會員,主要研究方向:語義Web、情感分析; 陽小華(1963—),男,湖南衡陽人,教授,博士,CCF會員,主要研究方向:信息檢索、輿情分析; 劉永彬(1978—),男,河北邯鄲人,講師,博士,CCF會員,主要研究方向:知識圖譜、自然語言處理; 劉志明(1972—),男,湖南瀏陽人,教授,博士,CCF會員,主要研究方向:信息檢索、大數據分析。

1001- 9081(2017)04- 1056- 05

10.11772/j.issn.1001- 9081.2017.04.1056

TP391.1

A

猜你喜歡
搜索引擎頁面語義
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
語言與語義
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
認知范疇模糊與語義模糊
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
同一Word文檔 縱橫頁面并存
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 麻豆精品在线视频| 国产精品对白刺激| 欧美区一区二区三| 亚洲毛片一级带毛片基地| 久久国产成人精品国产成人亚洲 | 色天天综合久久久久综合片| 国产在线观看成人91| 国产00高中生在线播放| 国产第一页免费浮力影院| 黄色网站在线观看无码| 久久综合九色综合97网| 18禁黄无遮挡免费动漫网站| 亚洲精品人成网线在线| 免费视频在线2021入口| 国产成人区在线观看视频| 久久精品只有这里有| 欧美三级不卡在线观看视频| 亚洲人成网站色7799在线播放| 女人毛片a级大学毛片免费| 超碰91免费人妻| 四虎国产永久在线观看| 中文字幕资源站| 午夜日本永久乱码免费播放片| 欧美高清国产| 91精品视频播放| 国产精品真实对白精彩久久| 欧美午夜久久| 日本不卡在线| 国产精品综合色区在线观看| 97超爽成人免费视频在线播放| 久久久久久久蜜桃| 国产一区在线观看无码| 亚洲乱强伦| 亚洲AⅤ无码国产精品| 国产综合无码一区二区色蜜蜜| 国产视频自拍一区| 国产成人精品一区二区不卡| 日本欧美视频在线观看| 亚洲精品天堂在线观看| 亚洲综合色婷婷中文字幕| 一级毛片在线播放免费观看| 日韩精品免费一线在线观看| 91成人精品视频| 日韩成人午夜| 国产福利小视频高清在线观看| 老司机精品99在线播放| 久久精品视频亚洲| 国产色婷婷视频在线观看| 亚洲AV无码精品无码久久蜜桃| 四虎国产成人免费观看| 国产精品55夜色66夜色| 最新无码专区超级碰碰碰| 国产欧美日本在线观看| 日韩一区精品视频一区二区| 色天天综合| 亚洲色图欧美激情| 毛片视频网址| 日韩欧美一区在线观看| 亚洲日本www| 亚洲视频三级| 日本黄色不卡视频| 精品在线免费播放| 婷婷激情亚洲| 色妞www精品视频一级下载| 国产国拍精品视频免费看| 国产免费观看av大片的网站| 日韩123欧美字幕| 欧美亚洲一二三区| 国产成人精品无码一区二| 亚洲综合18p| 久久人体视频| 三上悠亚在线精品二区| 午夜啪啪福利| 久久人搡人人玩人妻精品 | 欧美性猛交一区二区三区| 99久久精品国产精品亚洲| 国产日本一线在线观看免费| 亚洲国产理论片在线播放| 男女猛烈无遮挡午夜视频| 99久久精品国产综合婷婷| 97国产成人无码精品久久久| 久久综合丝袜长腿丝袜|