999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

相異性在語義相似度計算中的應用

2022-06-22 07:24:32馬天宇王廣偉
沈陽化工大學學報 2022年2期
關鍵詞:語義概念策略

關 慧,馬天宇,王廣偉

(1.沈陽化工大學 計算機科學與技術學院, 遼寧 沈陽 110142; 2.沈陽化工大學 遼寧省化工過程工業(yè)智能化技術重點實驗室, 遼寧 沈陽 110142)

隨著互聯網技術的飛速發(fā)展,海量信息在互聯網中不斷涌現.文本作為信息最重要的載體,其規(guī)模不斷增長.與此同時,文本處理也面臨著更多的挑戰(zhàn),如自動文本理解、詞匯錯誤檢測和糾正[1]等.為了解決這些問題,語義相似度計算技術被提出,用以解決不僅僅局限于表面的,還有深層次的概念的相似度[2].語義相似度計算方法已從最初僅使用“上下位”關系[3-5]統計概念之間的路徑長度、概念本身的信息量和深度,發(fā)展到結合多種概念之間的關系進行相似度計算[6-11].

相較于基于語料庫的度量方法對語料庫的高度依賴和計算復雜度,基于知識庫的度量方法更適合于解決相似度計算問題.大多數先進的方法都是基于詞匯知識數據庫WordNet[8]來度量概念之間的語義相似性[4-5,7,9].WordNet是一部大型英語語義詞典,其中的名詞、動詞、形容詞和副詞被分為認知同義詞集(synset),每個同義詞集表達一個不同的概念.句法集通過概念語義和詞匯關系相互聯系.

最初,研究人員在計算概念相似度時只考慮了“is-a”關系,并由“is-a”關系衍生出了3種計算因子:路徑距離[3-4,10-15]、信息量[16-20]和特征[21-23],隨后也出現了考慮多因子的基于多重關系的度量[24-26],以及現在與深度學習相結合的度量[27-29],每種計算因子代表一種相似度計算策略.

根據參考文獻[30]的研究,目前基于WordNet的相似度計算的研究在WordNet的結構方面考慮的還不是很全面,特別是對于反義關系的利用只局限于概念之間存在的直接反義關系上.當待比較概念不存在直接反義關系時反義關系就會被忽略,這往往會導致相似度計算方法忽視概念之間的相異性對語義相似度的影響,進而導致一些相似度結果過高的情況.因此,本研究的主要動機是找到一個合理的結構,充分利用表示語義相異性的反義關系,糾正目前已有方法在概念相似度計算中存在的過度相似的問題.主要假設是詞與詞之間的反義詞存在對概念的語義相似度的負面影響.這就像在計算boy和num之間的相似性時,應該考慮boy和girl之間的相似性一樣.

本文提出一種將語義之間的相異性加入到語義相似度計算的方法.該方法通過WordNet特有的層次結構深度挖掘概念之間的反義關系,然后用反義關系代表相異性與已有的方法相結合得到最終的語義相似度結果.

1 相關工作

在本節(jié)中,筆者將對已有的基于WordNet的相似度計算方法進行詳細介紹與優(yōu)劣分析.

1.1 基于“is-a”關系的方法

“Is-a”關系占WordNet鏈接類型的80%左右,體現了語法集之間的形合關系.所以在相似度計算過程中,它通常是第一選擇,甚至是唯一的選擇.根據使用這種關系的不同方式,基于“is-a”關系的方法可以分為基于路徑距離的方法、基于信息內容的方法和基于特征的方法.

1.1.1 基于路徑距離

基于路徑距離的方法認為概念之間的相似度大小取決于它們之間路徑的長度和概念在所在知識庫中的相對位置.Rada等[3]提出本體論可以被視為一個有向圖,由多個語義關系如分類“is-a”鏈接的概念組成.因此,對于給定的兩個概念ci和cj,它們的語義相似度主要取決于它們之間最短路徑上所有邊之和的語義距離,即從ci到cj的“is-a”鏈接數.然而,Rada的方法存在一個缺陷,即所有擁有相同語義距離的兩個概念的相似度都相等.在某些情況下,從Rada的方法中得到的上述推論并不符合人類的判斷,這是基于路徑距離的方法的局限性.Wu等[10]通過引入概念的深度和概念的最近公共祖先(LCA)改進了Rada的工作.基于ci和cj的相對位置和它們的最近公共祖先(LCA)的深度,可以得到整個最近公共祖先結構在本體中的相對位置,進而可以得到更加精準的概念之間的相似度.深度可以看作是路徑距離的另一種形式,等于從概念到根節(jié)點的“is-a”鏈接的數量.通過路徑距離,Li等[4]又利用了概念的兩個結構因子,即局部密度和LCA深度來計算語義相似度,通過對這兩個結構因子的多種組合得到了多個公式.對訓練數據集進行參數整定,得到包含路徑距離和LCA深度的非線性公式.訓練集的結果類似于人類的判斷.此外,Hao等[31]通過模仿人類的思維過程提出了一種新的模型,將生命周期評價的路徑距離和深度結合起來.雖然基于路徑的度量方法又發(fā)展了兩個因素:深度和密度,但它們的缺點是忽略了WordNet的大部分結構,因此,它們可能產生不可靠的結果.

1.1.2 基于信息內容

初始信息內容(IC)度量由Resnik[16]提出,其中LCA的IC表示兩個概念共享的信息.Resnik認為概念的IC值主要受其在語料庫中出現頻率的影響.根據Resnik的公式,隨著概念在語料庫中出現次數的增加,概念所包含的信息量也隨之增加,這表明概念越抽象,概念所包含的信息量就越少.然而,基于語料庫的計算依賴于語料庫的可用性和語料庫的大小.當語料庫規(guī)模足夠大時,每個概念的IC趨于相同,需要人工判斷才能消除詞義歧義.然而,Resink的方法有兩個缺陷:一是所有擁有相同最近公共祖先的詞匯對相似度都相等;二是概念與概念本身的相似性不等于1.

Lin[18]改進了Resnik的方法,利用概念之間的共性比率及其所需的全部信息作為概念之間的相似度得分.在Lin方法的基礎上,Meng等[5]提出了一種以Lin度量結果為指數的非線性相似模型來進行相似性計算.

Seco等[32]提出了一種IC內在方法,利用本體的內在性來度量概念的IC.在他們的方法中,WordNet中下義詞的數量被用作給定概念的出現次數.Meng等[5]將概念的深度引入到基于IC的相似度度量中,提出了一種結合概念的上下位詞的IC計算公式.實驗結果表明引入深度后的基于信息量的相似度計算方法得到的實驗結果更符合人類判斷.

1.1.3 基于特征

基于特征的方法是利用本體的屬性來獲取概念之間的相似性.一個概念可以用一組表示其性質或特征的詞匯來描述,詞匯包括概念的注釋、相關術語等等.當兩個詞匯存在越多的共同特征,它們就越相似.Tversky[22]認為概念之間的相似度是非對稱的,通常概念的父類和子類的特征的作用會比反向比較時的作用更大.而Wasti等[23]通過在鏈接數據中結合基于特征和信息內容的方法,提出了加權語義相似度度量,并且使用不同于WordNet的語料庫,如維基百科語料庫,從而提升相似度計算結果.然而,大多數算法忽略了“is-a”關系的作用,導致相似性結果不準確.

1.2 基于多重關系的度量

Hirst和St-Onge[33]通過上下義和反義詞等語義關系,利用概念之間的路徑距離來確定關聯性.Saif等[26]將一個概念的語義表示視為一組概念,這些概念是從語義分類法中的同名概念中提取出來的,然后他們提出了4種權重機制,通過使用語義分類法中的拓撲參數(邊、深度、后代和密度)來衡量特征的相關性.

基于多重關系的語義相似度度量是未來計算語義相似度的方法之一.因為它不僅計算過程模擬了人的思維過程,并且還考慮各種概念之間的關系.然而,很少有基于多重關系的度量引入反義關系來考察相似度計算效果,或者僅僅只是對待比較的兩個概念存在的反義關系進行了簡單應用.WordNet中概念的直接反義詞相比“is-a”關系少很多,這將導致不準確的結果.本文旨在探討反義詞在相似度計算中的潛在應用,提出了一種挖掘潛在反義詞的方法,并將其應用于現有的相似度度量中,以提高其計算精度.

1.3 基于深度學習

近年來,深度學習方法不僅在各個識別領域有著很大的進展[34],而且在詞匯相似性任務中的應用也取得了良好的效果.在這種背景下,深度學習在自然語言處理方面一個主要的應用就是用低維向量表示單詞或概念,稱為詞嵌入,其主要思想是從大量的文本語料庫中構建一個基于上下文的單詞嵌入模型.最廣泛使用的單詞嵌入模型有Word2Vec[27]、Global Vectors[28]和FastText[29].Pennington等[28]認為Word2Vec模型只考慮目標詞的局部上下文,沒有利用詞共現的全局統計信息.因此,他們提出了一種通過語料庫構建單詞的共現矩陣,并對詞向量進行訓練,從而預測詞的共現率.事實上,該模型結合了全局矩陣分解和局部上下文窗口方法的優(yōu)點.Bojanowski等[29]認為,通過對每個單詞使用不同的向量表示,可以免于考慮單詞的內部結構.他們提出了一種新的基于Skip-Gram模型的深度學習方法,將每個單詞表示為一個n-gram字符包.

已有研究顯示:在計算語義相似度的時候人們往往考慮的是概念間的相關性,同時使用WordNet的固有結構來計算它們之間的相似程度,例如概念的領域、范疇和種類等.然而,這種相關性考慮往往會造成過高的相似度結果.因此,筆者提出了一個反義相似模型來度量概念的相似性,即探討反義關系在計算概念表面下的語義相似度的有效性.在現有的基于路徑距離的相似度計算方法[4,10,31,35-36]的基礎上,在相似度計算中引入一種新的計算因子,稱為反義系數(AC),作為概念之間相異性的表示.與其他多種基于語義關系的度量[32]只是簡單地應用概念的直接反義詞不同,筆者提出了一個模型,命名為結點到最近公共祖先反義路徑(NLAP).它考慮了概念祖先反義詞的負面影響和概念祖先的積極影響.為了量化引入的反義系數AC,該模型計算了概念與NLAP上結點之間的相似性.基于AC,可以得到更準確的結果,且結果更接近人類的判斷.

2 反義關系語義相似性度量

WordNet在自然語言工具包(NLTK)中只提供了概念的詞條的反義詞,所以如果想要使用NLTK查詢一個概念的反義詞只能先查詢概念的詞條的反義詞條,再追溯反義詞條的所屬概念作為被查詢概念的反義詞.假設在WordNet中給定概念c的詞條為lemma,函數antonyms()用于計算一個詞條的反義詞條集合,則概念c的反義詞條集合可以表示為anto(c),如公式(1)所示.

anto(c)={antonyms(lemma)|lemma∈c}.

(1)

對于ai∈anto(c),函數synsets()用于計算反義詞條所屬的概念.令anti(c)表示概念c的反義詞集合,則anti(c)可表示為

anti(c)={synsets(ai)|ai∈anto(c)}.

(2)

概念的反義詞是本模型的基礎,提出的反義系數就來自于概念之間的反義關系.反義系數是通過計算某一概念與另一待對比概念的反義詞的相似度來獲得的.它被用來代表概念之間的相異性,也因此在相似度計算過程中,它可以起到矯正其他方法中概念過度相似的作用.通過將反義系數與現有的基于路徑的方法的結果線性結合,并以此來代表概念之間的相似度.基于引入反義系數AC的不同方式,提出了計算概念之間相似性的4種策略.

策略1:直接反義詞法

使用待比較概念的直接反義詞來計算AC,以探討反義詞對語義相似度計算的影響.在這種情況下,AC作為一個負因素與現有的相似度計算方法相結合,公式為

Sims1(ci,cj)=Simexist(ci,cj)-

β×Antisim(ci,cj).

(3)

其中:Simexist(ci,cj)代表用來計算ci和cj之間的已有的基于路徑距離的相似度方法;β是用來調節(jié)AC的矯正作用的參數;Antisim(ci,cj)是用來計算ci與cj之間反義系數的函數,它的具體細節(jié)為

Antisim(ci,cj)=Simexist[ci,anti(cj)]+

Simexist[anti(ci),cj].

(4)

其中anti(ci)和anti(cj)分別指ci和cj的反義詞集.需要指出的是有些概念在WordNet中有許多反義詞,例如WordNet中的boy這個概念有兩個反義詞:female_child和daughter.然而,由于反義詞與被比較概念之間可能存在多個相似度值,而存在多個相似度值的時候就說明肯定有一個詞有多個含義,但是有時候一個詞的多個含義往往大相徑庭,取均值的話反義關系可能會被完全無關的詞義中和掉,因此采用取最大相似度值的策略.例如,使用Wu[10]的方法計算Antisim(boy,lad)的細節(jié)為Antisim(boy,lad)=Simwu[boy,anti(lad)]+Simwu[anti(boy),lad]=0+max{Simwu(female_child,lad),Simwu(daughter,lad)}=0+max{0.74,0.78}=0.78.

使用MC30[37]以及RG65[38]基準作為測試數據集.數據集RG65包含了65對普通的英語單詞,并且在1965年由51個大學生為這65對詞匯對進行打分,分值的范圍從0到4代表詞匯對從完全不相關到非常一致.MC30中的詞匯來自于RG65,且詞匯對之間的相似度由人類評分員在RG65發(fā)表之后25年重新評分.數據集MC30包含30對來自數據集RG65的詞匯對,被分成了3組相似度層次(10對基本不相似詞匯對、10對有關聯的詞匯對、10對相似詞匯對),分值范圍也是從0到4.在RG65、MC30等數據集中出現反義詞的概念只有兩個,而且反義詞是相同的,這兩個概念是boy和brother.WordNet中概念的反義詞很少,這意味著如果沒有反義詞做概念對比,則策略1中的AC不起作用.表1為數據集RG65和MC30中反義詞對的細節(jié),ACWu表示采用Wu[10]的方法計算AC的結果,SimWu表示Wu方法的相似度結果,AntisimWu指模型組合策略1與Wu方法結合的相似度結果,MC30和RG65分別表示待比較概念對在兩個數據集上由人類判斷其相似度的結果.以待比較詞匯對(boy,rooster)為例,boy的反義詞有兩個,分別是female_child和daughter,利用ACWu、SimWu和AntisimWu分別計算boy的兩個反義詞與rooster的相似度,然后取較大者為最后計算結果.從表1可以看出:Wu方法中的brother和lad之間的相似度為0.78,高于基于MC30數據集的人類判斷值0.41和其于RG65數據集的人類判斷值0.60.經過策略1的改進之后,這對概念的相似度從0.78下降到0.71(范圍從0到1),更接近人類的判斷.另外,對于其他4組直接反義詞對,策略1均表現出不同程度的修正效果.

策略2:結點到最近公共祖先反義路徑(NLAP)法

正如在策略1中所討論的,WordNet有直接反義詞的概念較少.為了探討反義詞對相似性度量的有效性,需要深度挖掘概念間隱含的反義關系,因此提出了一種稱為結點到最近公共祖先反義路徑(NLAP)的結構來表示兩個概念的隱藏反義詞.

表1 MC30和RG65中的直接反義詞Table 1 Direct antonyms in MC30 and RG65

Resnik[16]方法的關鍵思想是:判斷兩個概念之間相似度的大小的一個標準是“概念之間共享的信息量的程度”,可以通過檢查包含它們在“is-a”分類法中最特定概念的相對位置來確定.基于Resnik的方法,最近公共祖先(LCA)被用來表示待比較的概念語義的公共延伸,并被用來探索概念之間的隱藏反義關系.圖1為在WordNet中的“is-a”關系分類片段.在圖1中,school boy#1#1(0)和monk#1#2(3)的LCA是person#1#3(402).

圖1 在WordNet中的“is-a”關系分類片段Fig.1 “Is-a” relation taxonomy fragment in WordNet

假設path(ci,LCA)是概念ci與其最近公共祖先之間所有可能路徑中的最長路徑,該路徑上所有節(jié)點的反義詞組成的集合被定義為最近公共祖先反義路徑,其公式為

NLAP(ci)={anti(n)|n∈path(ci,LCA)}.

(5)

在WordNet的詞匯層次結構中,這些概念通過“is-a”關系從祖先那里繼承了部分屬性.作為待比較的兩個概念祖先結點的重疊部分,LCA可以用來限制祖先結點的范圍,即兩個待比較概念的所有祖先結點中,凡是深度大于LCA的(在WordNet中比LCA更接近兩個概念之一)可以視為兩個概念的延伸,也就可以用來探究兩個概念之間的反義關系.根據它們的隸屬關系,選擇的祖先可以分為path(ci,LCA)和path(cj,LCA).path(ci,LCA)和path(cj,LCA)中結點的反義詞被用來表示ci和cj中隱藏的反義詞,它們被表示為集合NLAP(ci)和NLAP(cj).例如:在圖1中,當計算school boy#1#1(0)和monk#1#2(3)之間的相似度時,首先可知它們的LCA結點為person#1#3(402),針對school boy概念在結點中概念的延伸有male#2#6(11)和male child#1#1(11),而它們分別對應反義詞為female#2#5(6)和female child#1#1(6).所以NLAP[school boy#1#1(0)]上的結點是female#2#5(6)和female child#1#1(6).

當NLAP用于計算AC時,將現有基于路徑距離的方法的相似性結果線性擬合,此時NLAP的相似性度量公式為

Sims2(ci,cj)=Simexist(ci,cj)-α×

Antisim(ci,cj).

(6)

其中:α表示AC的加權參數;Antisim(ci,cj)是表示ci和cj的AC的函數,定義為

(7)

其中:N表示兩個NLAP上的結點數;e和f分別表示NLAP(ci)和NLAP(cj)上的結點.概念之間的反義系數等于待比較概念與另一概念的NLAP上所有結點相似度的均值.實驗結果表明用更精確的現有模型計算的AC在相關值上表現更好.表2為策略2中使用不同方法計算AC的比較.在表2中,strategy2-Wu(Wu)表示在策略2中使用Wu的方法計算反義系數之后再與Wu的相似度計算結果相結合的數據與人類判斷對比之后得到Pearson相關系數,該Pearson相關系數為0.780,這比使用Hao的方法[31]計算反義系數之后再與相同相似度計算結果結合的數據strategy2-Wu(Hao)得到的Pearson相關系數0.805要低,是因為Hao的方法本身在Pearson相關系數的表現上比Wu的方法要好.

表2 策略2中使用不同方法計算AC的比較Table 2 Comparison of different methods to compute AC in strategy 2

策略3:策略2的迭代法

策略2可以得出兩個結論:NLAP是一種有效的結構來表示比較概念中隱藏的反義詞;使用更精確的模型來計算AC可能在相關值上表現得更好.在此基礎上,提出了另一種策略,稱為策略3.在策略3中,策略2被視為一個更接近人類判斷的模型,用于計算AC,然后對策略2進行迭代以達到對策略2的優(yōu)化,即所提出的策略3可以看作是策略2的一個迭代.策略3的公式為

Sims3(ci,cj)=Sims2(ci,cj)-β×

Antisims2(ci,cj).

(8)

其中:β為AC的加權參數;Sims2(ci,cj)表示策略2的相似結果;Sims3(ci,cj)表示策略3的相似結果;Antisims2(ci,cj)表示使用策略2代替公式(8)中已有方法的AC計算模型.作為公式(8)的結果,策略2作為自身的一個迭代得到了改進.

策略4:結點到最近公共祖先集合的反義詞法

策略2考慮了概念祖先對相似度結果的負面影響,但是忽略了概念的祖先集合之間的相似性的影響.因此策略4在計算反義系數的過程中引入了最近公共祖先反義路徑相似度這一新的計算因子來對策略2進行另一種方式的優(yōu)化.

假設NLAP(ci)和NLAP(cj)分別是概念ci和cj的最近公共祖先反義路徑,兩個路徑之間的相似度表示為

NLAPSim(ci,cj)=

(9)

其中:N表示計算NLAPSim過程中結點間相似度度量的計算次數;e和f表示ci和cj的NLAP上的結點;NLAPSim(ci,cj)為每個比較概念的NLAP上的結點之間的相似度的平均值.

由于NLAPSim是在計算AC的過程中引入的,因此概念的祖先也從多種角度被引入到相似度計算過程中.策略4中的AC通過NLAPSim和NLAP的組合來計算,然后將策略2改進為

Sims4(ci,cj)=Simexist(ci,cj)-

α×[Antisim(ci,cj)-NLAPSim(ci,cj)].

(10)

其中:α表示AC的加權參數,由NLAPSim(ci,cj)和Antisim(ci,cj)組成;Sims4(ci,cj)表示策略4的相似結果;Antisim(ci,cj)已在式(7)中被定義.

3 評價標準

3.1 數據集

從現有研究中廣泛使用的數據集中選擇單詞進行實驗,并將實驗結果與在相同環(huán)境下進行的人類評分進行比較.目前,許多相關方法[4,9-10,17,31,35-36]都使用了MC30以及RG65基準作為測試數據集.大多數的語義相似度計算分析中,結果取值區(qū)間為0到1,為了便于比較和分析,后續(xù)實驗中所有相似度的計算結果的取值范圍均統一為0到1,其中包括將MC30與RG65這兩組數據集的人類評分標準的相似度評分范圍也統一為0到1.

3.2 實驗過程

采用WordNet 3.0中的名詞分類法作為MC30和RG65數據集的分類本體.WordNet在WordNet 3.0中使用自然語言工具箱(NLTK)接口來獲取數據.WordNet結構的最大深度和最大結點數分別為20和82 115.采用提出的策略3和策略4為例進行實驗.

首先,找到概念與其LCA之間的路徑;其次,查詢上述路徑上所有結點的反義詞,并將它們劃分為兩個NLAP;再利用已有的概念相似度計算方法,基于概念對的最近公共祖先反義路徑將計算結果命名為Simexist,公式(7)和公式(9)分別用于計算NLAP相似度和反義相似度;最后,使用公式(10)將Simexist、Antisim和NLAPSim結合起來,得到策略4的相似性結果.

對于實驗中部分概念存在一詞多義情況的實驗處理以及實驗使用的評判標準說明如下:

(1) 將MC30和RG65數據集中詞匯對中的每個詞作為一個索引詞來查詢WordNet 3.0,因為索引的數據為同義詞集,其中的詞匯是索引概念的多個含義,所以使用公式(11)解決多含義情況.

(11)

其中:(wi,wj)指要在MC30或RG65數據集上進行比較的詞對;sense(wi)和sense(wj)分別代表由索引概念wi和wj查詢得到的同義詞集合.使用兩個同義詞集中能達到的最大相似度值作為兩個索引概念的相似度值.

(2) 用AC計算詞之間的相似度時,由于一個詞的多種意義,它可能有多個反義詞,在這種情況下,實驗中使用了能獲得最大相似度的意義和反義詞.

(3) 使用Pearson相關系數比較方法的相似度結果集合與人類判斷的相似度結果集合,得到的Pearson相關系數范圍為從0到1,值越接近1就說明該方法模型得到的相似度結果越接近人類判斷.其中皮爾遜相關系數計算公式為

(12)

3.3 實驗結果與分析

3.3.1 策略3和策略4與現有基于路徑方法的對比分析

筆者復現了已有的使用路徑距離、深度和密度等計算因子的方法,并用來以相同的方式與本文反義系數模型結合,在相同測試數據集集上比較測試結果接近人類判斷的程度.實驗表明:提出的反義模型與已有的基于上下位關系的方法相結合時,所提出的模型可以使已有方法相似度結果更接近人類判斷.表3為策略3和策略4與現有基于路徑的方法的比較結果.從表3可知所提出的模型可以顯著提高WordNet上部分基于路徑距離的Pearson相關系數,包括只基于路徑距離的方法[3],基于路徑距離和深度的方法[4,10],以及結合路徑距離、深度、密度來重新加權路徑長度的方法[9].與策略4相結合后,上述已有的基于路徑的相似度方法在MC30上普遍提高了5%左右的相關性,在RG65上普遍提高了0.5%左右的相關性.在原有的方法中,原有的Pearson相關系數越高,Pearson相關系數的提升效果越低.WordNet在MC30和RG65上的最佳相關性分別達到0.887和0.857.在與策略3結合之后,已有的基于路徑距離的方法的Pearson相關系數也均有所提升,在數據集MC30上平均提升了約7%,在RG65上提高了1.5%左右,但漲幅與策略4一樣隨著方法原有的Pearson相關系數的升高而降低.在MC30和RG65上,WordNet的最佳相關性分別達到0.883和0.864.所提出模型的相關性在MC30數據集上基于計算機的相似性度量中得到廣泛認可和重復,并且與Resnik復制Miller和Charles實驗[16]中報告的人類判斷得到的平均Pearson相關系數(0.901 5)非常接近.

表3 與現有基于路徑的方法的比較結果Table 3 Comparison results with existing path-based methods

圖2是通過策略4改進的5種現有基于路徑距離的方法的比較,其中:α范圍設置為0到1.0;不同的線型表示不同模型結合策略4后α從0變?yōu)?.0時的Pearson相關值.由式(10)可知:AC等于0,α等于0,此時的相關值等于原方法的相關值.由圖2可知:Li[4]、Hao[31]、Liu[36]與策略4結合后的Pearson相關系數在0<α<0.99時均有提高,并且各模型相關值在達到極值后均有所下降,例如Wu[10]、Leacock[35]在與策略4結合之后,它們的Pearson相關值與原方法對比是先有一定程度提高,然后分別在α>0.6和α>0.85時有所下降并低于其原有Pearson相關值.這說明反義系數的修正效果并不會在參數取任何值時都會對Pearson相關值有所改進.當Pearson相關值低于該方法原有的Pearson相關值時,說明此時的反義系數過大,對原有方法無改進作用.

圖2 通過策略4改進的5種現有基于路徑距離的方法比較Fig.2 Comparison of five existing path-distance based methods improved by strategy 4

圖3是 Li[4]的模型與策略3相結合的結果,設置了α和β取值范圍為從0到5.

圖3 Li[4]的模型與策略3相結合的結果Fig.3 Results of combined Li′s[4] method with strategy3

在圖3(a)、圖3(b)中,參數α和β取值位于黃色部分區(qū)域時,其對應的Pearson相關值高于原有Li[4]方法的相關值,即當α和β取值在黃色區(qū)域中時,反義系數的修正作用是有效的.由圖3(c)可見:黃色區(qū)域關于直線y=x對稱,此時將α和β的值交換也同樣會有促進效果.當α和β的值出現在圖3(c)中的黃色區(qū)域時,策略3獲得更高的相關值.該方法與標準基準具有很高的相關性.MC30和RG65的相關系數分別為0.887和0.864.以上分析可以看出:該方法可以改進其他基于路徑的方法,并與標準基準實現更高的相關性(如策略4與MC30數據集的相關性最高,為0.887;與RG65數據集的相關性最高,為0.857.對于策略3,相應的值分別為0.883和0.864).

3.3.2 策略4與其他已有算法的對比分析

本節(jié)將策略4的結果與目前已有的相似性算法(基于信息內容的方法、基于特征的方法、混合方法和基于深度學習的方法)進行比較,以評估所提模型的有效性.

表4為策略4與現有算法的實驗結果的對比,列出了不同方法與人類評分之間的相關值.從表4可以觀察到考慮更多相關因素的方法以及組合多種相似度計算方法所得到的相似度計算結果[4,24,26,36]比傳統方法相關值更高.而單一計算因素,如Leacock[35],只考慮路徑距離所得到的相關值表明:在計算概念相似度的過程中,因素的組合起著重要的作用.同時實驗結果證實了以下說法:

(1) 在相似性度量過程中考慮更多有效計算因子,得到的相似度結果會更接近人類判斷.

(2) 在計算相似度過程中考慮到相同計算因子的前提下,更優(yōu)的計算因子的結合方式也會讓方法的結果更接近人類判斷.

由此可知在計算過程中考慮到更多的計算因子并使用有效的方法將計算因子結合會對模型的相似度結果有較大提升.在所提模型中,反義系數作為一個新的計算因素,將概念之間的相異性作為計算因子引入到相似度計算過程中.與直接考慮反義關系的其他算法[31]不同,筆者從概念祖先的角度探討了反義詞的作用,并進一步考慮了反義詞在NLAP結構中的作用.

表4 策略4與現有算法的實驗結果對比Table 4 Comparison of experimental results with strategy 4 and existing methods

3.3.3 反義關系對低相似度概念的影響結果分析

為全面分析AC對概念相似度的影響,對語義相似度本來不高的兩個概念是否會受到AC的影響用策略1進行實驗并加以分析,表5為低相似度概念受AC影響的結果.本實驗選取在數據集MC30和RG65中公共的30對概念對中評分標準均低于0.8的5對概念進行了實驗.從表5可以看出大多數低相似度概念對會受到AC的影響,從而對相似度起到一定程度的矯正作用.例如Li[4]方法中noon和string之間的相似性為0.09,高于MC30中的人類判斷值0.02和RG65中的0.01,經過策略1的改進之后從0.09下降到0.02,更接近人類的判斷,有一定的矯正效果.但是也存在部分并未受到影響的概念對,如cord和smile,產生此結果的原因可能與所用的WordNet結構有關.相似度不高的概念對有些是沒有潛在的反義關系的,當本身概念對不是反義詞,且不存在潛在反義關系時,語義相似度本來不高的兩個概念就不一定受到AC的影響.

表5 低相似度概念受AC影響的結果Table 5 Results of low similarity concept affected by AC

4 結 論

本文提出了一種基于WordNet反義詞的概念相似度計算模型,適用于改進其他基于路徑距離的概念間語義相似度計算方法.與現有的基于“is-a”關系的方法相比,該模型在相似度計算過程中引入一種反義系數(AC)用于表示概念之間的相異性,使得相似度計算結果更加精確.與現有的基于多重關系的度量方法相比,該模型引入的NLAP模型充分利用了潛在的反義關系,可以矯正現有基于路徑距離模型的過度相似情況.采用4個不同的策略由淺入深地發(fā)掘和運用反義關系,對已有方法進行復現,并對反義關系與已有方法的結合分別做了相應實驗.實驗結果表明:所提的模型在數據集MC30和RG65上的相關性都是較高的,分別為0.887和0.864,相較于對比方法其相關性分別提高了1.6%~15%和1.3%~9%.

在今后的工作中,可以研究一種更有效的將AC與其他相似性結果或其他因素相結合的方法.此外,在概念相似度的應用上,可以考慮將本文提出的基于概念相異性的相似度計算方法與字符串按詞性適當結合用以計算句子的相似度.

猜你喜歡
語義概念策略
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
例談未知角三角函數值的求解策略
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
我說你做講策略
學習集合概念『四步走』
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产精品青青| 丁香婷婷久久| 亚洲日韩第九十九页| 国产爽歪歪免费视频在线观看 | 欧美福利在线观看| 亚洲人成日本在线观看| 一级在线毛片| 亚洲天堂视频在线播放| 国产成人精品无码一区二| 精品国产乱码久久久久久一区二区| 夜夜拍夜夜爽| 在线观看国产小视频| 亚洲激情区| 波多野结衣亚洲一区| 99这里只有精品在线| 午夜视频免费试看| 国产欧美视频在线观看| 成人在线不卡视频| 午夜国产在线观看| 欧美亚洲综合免费精品高清在线观看| 久久6免费视频| 国产本道久久一区二区三区| 亚洲综合经典在线一区二区| 免费无码AV片在线观看中文| 青草精品视频| 国产成人三级| 18禁黄无遮挡免费动漫网站| 国产精品无码一区二区桃花视频| 在线欧美日韩| 国产屁屁影院| 狠狠亚洲婷婷综合色香| 一级做a爰片久久免费| 欧美日在线观看| AV无码无在线观看免费| 国产美女无遮挡免费视频网站| 99热这里只有精品5| 国产精品刺激对白在线| 欧美日本不卡| 无码精品国产VA在线观看DVD| 午夜免费小视频| 亚洲男人的天堂在线观看| 亚洲综合色在线| 性色一区| 欧美无专区| 亚洲无码视频一区二区三区| 亚洲天堂.com| 日本欧美中文字幕精品亚洲| 欧美性爱精品一区二区三区| 国产黄在线观看| 久久一级电影| 国产精品永久不卡免费视频| 婷婷丁香色| 毛片免费在线| 国产成人亚洲精品蜜芽影院| 日韩 欧美 小说 综合网 另类| 激情五月婷婷综合网| 久久这里只精品热免费99| 国产极品美女在线播放| 免费人成黄页在线观看国产| 视频一区视频二区日韩专区| 综合色亚洲| 最新无码专区超级碰碰碰| 成人国产一区二区三区| 国产福利在线观看精品| 在线观看亚洲精品福利片| 久久国产精品电影| 国产成人1024精品| 欧美成人免费一区在线播放| 国产91小视频在线观看| 久99久热只有精品国产15| 国产情侣一区| 亚洲中文无码h在线观看 | 日韩精品无码一级毛片免费| 成人在线观看不卡| 国产午夜看片| 人妻丰满熟妇αv无码| 亚洲欧洲日韩综合| 久久青草视频| 久久免费看片| 欧美成人怡春院在线激情| 中国黄色一级视频| 国产精品自在自线免费观看|