999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多重檢驗(yàn)加權(quán)融合的短文本相似度計(jì)算方法

2021-02-05 03:03:02石彩霞李書(shū)琴
計(jì)算機(jī)工程 2021年2期
關(guān)鍵詞:語(yǔ)義文本融合

石彩霞,李書(shū)琴,劉 斌

(西北農(nóng)林科技大學(xué)信息工程學(xué)院,陜西楊凌 712100)

0 概述

文本相似度計(jì)算是文本處理領(lǐng)域的關(guān)鍵性技術(shù),廣泛應(yīng)用于自然語(yǔ)言處理(Natural Language Processing,NLP)的信息檢索、文本分類、自動(dòng)問(wèn)答和文本重復(fù)性檢測(cè)等多種任務(wù)中[1]。近年來(lái),文本相似度計(jì)算在電子商務(wù)、新聞推送、推薦系統(tǒng)等熱門(mén)領(lǐng)域也受到極大關(guān)注[2]。

目前,文本相似度計(jì)算方法主要分為三類,一是基于字符串的計(jì)算方法,如通過(guò)統(tǒng)計(jì)文本共有字詞數(shù)量計(jì)算相似度的N-gram[3]和Jaccard[4]算法,二是基于語(yǔ)料庫(kù)的計(jì)算方法,如忽略詞序、句法結(jié)構(gòu)等關(guān)鍵性要素利用詞向量[5]基于詞袋模型計(jì)算相似度的VSM[6]和LSA[7]等,三是基于深度學(xué)習(xí)的計(jì)算方法,如基于深度學(xué)習(xí)語(yǔ)義匹配模型的DSSM[8]、通過(guò)神經(jīng)網(wǎng)絡(luò)生成詞向量以計(jì)算相似度的Word2vec[9]和Glove[10]等。文獻(xiàn)[11]基于CNN并引入多注意力機(jī)制,通過(guò)關(guān)注詞匯間和句子間的語(yǔ)義信息來(lái)計(jì)算句子相似度。文獻(xiàn)[12]提出一種Siamese LSTM方法,其利用記憶單元使LSTM能夠存儲(chǔ)長(zhǎng)序列信息,從而解決RNN長(zhǎng)期依賴的問(wèn)題。

現(xiàn)有多數(shù)文本相似度計(jì)算相關(guān)研究?jī)H考慮單一文本特征而進(jìn)行相似度計(jì)算。馬慧芳等人[13]融合詞項(xiàng)共現(xiàn)距離相關(guān)度和類別特征來(lái)計(jì)算短文本相似度。鄧涵等人[14]從句子結(jié)構(gòu)角度對(duì)句法和依存關(guān)系進(jìn)行分析計(jì)算。YANG等人[15]將淺層句法結(jié)構(gòu)化特征用依賴樹(shù)表示并計(jì)算相似度,但該方法不能分析句子的深層語(yǔ)義信息。張小川等人[16]融合主題相似度因子和詞語(yǔ)共現(xiàn)度因子提出基于LDA的短文本相似度計(jì)算算法,但其未考慮文本的語(yǔ)義、詞序和主題關(guān)聯(lián)性等特征。

短文本具有句子簡(jiǎn)短、詞語(yǔ)較少、語(yǔ)義豐富和特征稀疏的特點(diǎn),本文綜合考慮短文本的多種特征因素,如共現(xiàn)詞、詞頻及語(yǔ)義信息等對(duì)文本相似度的影響,在分析傳統(tǒng)文本相似度計(jì)算方法的基礎(chǔ)上,利用基于深度學(xué)習(xí)的方法計(jì)算相似度,通過(guò)閾值對(duì)相似度值進(jìn)行檢驗(yàn)篩選,并將改進(jìn)的Damerau-Levenshtein距離算法、考慮詞頻的語(yǔ)義相似度計(jì)算算法、基于Word2vec與LSTM的相似度計(jì)算算法3種考慮單因素的計(jì)算方法進(jìn)行加權(quán)融合,應(yīng)用于短文本相似度計(jì)算,從而使得計(jì)算結(jié)果更加準(zhǔn)確合理。

1 相關(guān)工作

1.1 改進(jìn)的Damerau-Levenshtein距離算法

Levenshtein距離[17]于1965年由蘇聯(lián)數(shù)學(xué)家Vladimir Levenshtein提出,其又被稱為編輯距離(Edit Distance),主要用于比較2個(gè)字符串的相似度。Levenshtein距離是指將一個(gè)字符串序列通過(guò)插入、刪除和替換等單字符操作轉(zhuǎn)變?yōu)榱硪粋€(gè)字符串所需的最小操作數(shù)量。

短文本具有句子簡(jiǎn)短的特點(diǎn),相似文本之間會(huì)有較多的共現(xiàn)詞,適合通過(guò)編輯距離計(jì)算相似度。Frederickj Damau提出了改進(jìn)Levenshtein距離的Damerau-Levenshtein距離[18],其考慮置換操作對(duì)編輯距離的影響,但本質(zhì)依然是編輯距離。Damerau-Levenshtein距離的計(jì)算方式如下:

設(shè)有2個(gè)字符串S和T,其中,S為長(zhǎng)度為m的源字符串,T為長(zhǎng)度為n的目標(biāo)字符串,用dlS,T表示S和T之間的Damerau-Levenshtein距離,則可以構(gòu)造(m+1)×(n+1)階矩陣Di,j=D(s1,s2,…,si,t1,t2,…,tj),0≤i≤m,0 ≤j≤n,通過(guò)式(1)來(lái)計(jì)算2個(gè)字符串之間的Damerau-Levenshtein距離:

由式(1)計(jì)算得到的Damerau-Levenshtein是一個(gè)正整數(shù),如果用其衡量相似度,將缺少一個(gè)限定值作為界定是否相似的標(biāo)準(zhǔn),因此,本文提出DLR(Damerau-Levenshtein-Ratio),其將2個(gè)文本的編輯距離轉(zhuǎn)化為比值形式,通過(guò)式(2)計(jì)算DLR以表示2個(gè)文本之間的相似度:

其中,Lmax表示字符串S和T長(zhǎng)度的最大值。DLR的計(jì)算過(guò)程偽代碼如算法1所示。

算法1Damerau-Levenshtein-Ratio計(jì)算算法

1.2 考慮詞頻的語(yǔ)義相似度計(jì)算算法

傳統(tǒng)基于句子形態(tài)的文本相似度計(jì)算算法[19]利用詞形、句長(zhǎng)和詞序特征計(jì)算相似度,但它們忽略了文本的語(yǔ)義信息,導(dǎo)致效果不佳且對(duì)短文本不適用。短文本會(huì)因詞語(yǔ)數(shù)量較少而引起語(yǔ)義稀疏性,因此,本文在計(jì)算語(yǔ)義信息的基礎(chǔ)上,通過(guò)詞頻對(duì)詞語(yǔ)賦予權(quán)重,并且考慮未收錄詞和文本語(yǔ)義不全對(duì)相似度的影響,分別計(jì)算只有關(guān)鍵詞和含有非關(guān)鍵詞2種情況下的文本相似度,取兩者較大值作為文本的相似度值。

定義S1、S2為2個(gè)待計(jì)算相似度的句子,令KS1={w1,w2,…,wm}為句子S1的關(guān)鍵詞集合,其中,wk表示從S1中提取到的關(guān)鍵詞,同樣地,KS2={w1,w2,…,wn}為句子S2的關(guān)鍵詞集合,則利用傳統(tǒng)基于知網(wǎng)知識(shí)庫(kù)的方式計(jì)算句子S1和S2關(guān)鍵詞的語(yǔ)義相似度如下:

短文本具有句短詞少的特點(diǎn),使得詞頻大的詞語(yǔ)對(duì)句子相似度計(jì)算有較大影響,因此,本文根據(jù)詞頻對(duì)詞語(yǔ)賦予權(quán)重,句子S1中的詞語(yǔ)w1對(duì)句子S2的相似度為w1對(duì)S2中全部詞語(yǔ)相似度的最大值。改進(jìn)后S1對(duì)S2的關(guān)鍵詞集合的相似度計(jì)算如式(4)、式(5)所示:

其中,tfi表示詞語(yǔ)i在短文本中的詞頻。

在知網(wǎng)知識(shí)庫(kù)中,一個(gè)詞語(yǔ)具有多個(gè)義項(xiàng),而每個(gè)義項(xiàng)又由多個(gè)義原組成。知網(wǎng)中2個(gè)詞語(yǔ)的義項(xiàng)相似度是通過(guò)第一基本義原、其他義原、關(guān)系義原和關(guān)系符號(hào)義原組合后加權(quán)表示的[20],義項(xiàng)相似度計(jì)算如式(6)所示。假設(shè)詞語(yǔ)w1和詞語(yǔ)w2的義項(xiàng)分別表示為w1={s11,s12,…,s1m}、w2={s21,s22,…,s2n},則詞語(yǔ)w1和詞語(yǔ)w2的相似度為詞語(yǔ)w1和詞語(yǔ)w2義原相似度的最大值,如式(7)所示。

在式(6)中,β1≥β2≥β3≥β4,sim(s1,s2)表示義項(xiàng)s1和義項(xiàng)s2的第一義原相似度,以此類推。4種因子按照文獻(xiàn)[21]取值,β1=0.4,β2=0.3,β3=0.2,β4=0.1。吳健等人[22]認(rèn)為節(jié)點(diǎn)深度對(duì)義原相似度有一定影響,通常通過(guò)2個(gè)義原之間的路徑距離來(lái)計(jì)算義原相似度,如下:

其中,d表示2個(gè)義原在層次結(jié)構(gòu)中的路徑距離,α是調(diào)節(jié)參數(shù),取值為1.6。

令句子S1和句子S2的相似度KTSim為KSim和TSim的最大值,如式(9)所示。KSim表示僅有關(guān)鍵詞時(shí)句子的相似度,計(jì)算公式如式(10)所示,TSim表示含有非關(guān)鍵詞時(shí)句子的相似度,計(jì)算公式如式(11)所示。TSim的計(jì)算方式與KSim相同,只是兩者參與計(jì)算的詞語(yǔ)數(shù)量不同。

1.3 基于Word2vec與LSTM的相似度計(jì)算算法

Word2vec即為詞向量,是由Google公司開(kāi)源的一款深度學(xué)習(xí)模型[9],作用是將自然語(yǔ)言中的詞語(yǔ)或者文字轉(zhuǎn)化為計(jì)算機(jī)可以理解和處理的向量形式。Word2vec可分為CBOW(Continue Bag-of-Word)和Skip-gram 2種模型。CBOW輸入某個(gè)特征詞的上下文關(guān)聯(lián)詞的詞向量,輸出該特征詞的詞向量,而Skip-gram相反,其輸入特征詞對(duì)應(yīng)的詞向量,輸出特征詞的上下文對(duì)應(yīng)詞的詞向量。

HOCHREITER等人[23]提出長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),其為一種特殊的RNN,使用記憶單元替換原RNN中的隱層節(jié)點(diǎn),以達(dá)到學(xué)習(xí)長(zhǎng)期依賴信息的目的。LSTM的計(jì)算過(guò)程如式(12)~式(17)所示,其中,式(12)和式(13)表示更新記憶細(xì)胞的狀態(tài),式(14)~式(16)分別為增加歷史信息的輸入門(mén)、遺忘歷史信息的遺忘門(mén)和輸出門(mén),式(17)表示利用tanh作用于當(dāng)前記憶細(xì)胞狀態(tài),再由輸出門(mén)輸出最后信息。

其中,Wxy為權(quán)重矩陣,表示從神經(jīng)元x到y(tǒng)的權(quán)重,ct表示當(dāng)前細(xì)胞狀態(tài)表示候選值,x表示記憶單元的輸入,h表示輸出,b表示偏置權(quán)重。

Skip-gram相較于CBOW模型有更高的語(yǔ)義準(zhǔn)確率,其可以通過(guò)跳躍詞匯來(lái)構(gòu)造詞組,避免因窗口大小限制而丟失文本的語(yǔ)義信息。因此,本文采用Skip-gram模型作為訓(xùn)練框架,訓(xùn)練窗口設(shè)置為5,詞向量維度設(shè)置為100。以LSTM為基礎(chǔ),由輸入層將輸入的句子按照單個(gè)詞語(yǔ)在詞典中的特定位置關(guān)系得到編號(hào)序列,嵌入層利用Word2vec模型將由輸入層得到的詞語(yǔ)編號(hào)序列映射為詞向量,再將得到的詞向量作為L(zhǎng)STM層的輸入,將LSTM層輸出的結(jié)果進(jìn)行拼接并作為全連接層的輸入,利用Dropout防止過(guò)擬合,最終由輸出層輸出2個(gè)文本的相似度值。基于Word2vec與LSTM的相似度計(jì)算模型結(jié)構(gòu)如圖1所示。

圖1 基于Word2vec與LSTM的相似度計(jì)算模型結(jié)構(gòu)Fig.1 Structure of similarity calculation model based on Word2vec and LSTM

2 多重檢驗(yàn)加權(quán)融合的相似度計(jì)算

基于改進(jìn)Damerau-Levenshtein距離的相似度計(jì)算(DLRSim)算法考慮2個(gè)短文本之間的詞序和共有詞,從短文本句短詞少的結(jié)構(gòu)特征角度計(jì)算相似度;基于語(yǔ)義的相似度計(jì)算(KTSim)算法為解決短文本的特征稀疏性問(wèn)題,加入詞頻并考慮關(guān)鍵詞和非關(guān)鍵詞對(duì)短文本相似度的影響,結(jié)合知網(wǎng)義原信息從詞語(yǔ)的義原層面計(jì)算句子的相似度;基于Word2vec與LSTM的相似度計(jì)算(WLSim)算法從深度學(xué)習(xí)的角度構(gòu)建模型,將文本轉(zhuǎn)化為詞向量然后對(duì)語(yǔ)義等特征進(jìn)行學(xué)習(xí)從而計(jì)算相似度。

為將上述3種相似度計(jì)算算法進(jìn)行有效融合并應(yīng)用于短文本的相似度計(jì)算,本文提出多重檢驗(yàn)加權(quán)融合的相似度計(jì)算(MCWFS)方法,通過(guò)實(shí)驗(yàn)對(duì)以上3種相似度計(jì)算方法分別確定一個(gè)相似度閾值,當(dāng)2個(gè)文本間的3個(gè)相似度值中至少有2個(gè)大于對(duì)應(yīng)閾值時(shí),認(rèn)為兩者可能相似,則進(jìn)行加權(quán)融合以及相似度計(jì)算,否則認(rèn)為兩者不相似。上述操作可以避免文獻(xiàn)[24]中因一種相似度小于閾值而被認(rèn)為不相似從而無(wú)法參與下一階段運(yùn)算的情況,最終使得相似度計(jì)算結(jié)果更加準(zhǔn)確。本文通過(guò)線性加權(quán)融合方法計(jì)算相似度值的公式如下:

其中,權(quán)重因子滿足α+β+γ=1,通過(guò)實(shí)驗(yàn)調(diào)節(jié)權(quán)重因子從而確定它們的最佳取值組合。

相似度計(jì)算過(guò)程偽代碼如算法2所示,MCWFS方法的計(jì)算流程如圖2所示。

算法2相似度計(jì)算算法

圖2 MCWFS方法計(jì)算流程Fig.2 Calculation flow of MCWFS method

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

為驗(yàn)證本文方法的有效性,采用螞蟻金融NLP挑戰(zhàn)數(shù)據(jù)集(https://pan.baidu.com/s/1yEeThJi_HHxwQjbrG3O ArQ),該數(shù)據(jù)集信息如表1所示,每行由序號(hào)、2句短文本和1個(gè)相似性標(biāo)志位組成,共包含102 477組句子對(duì)。首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,去除格式不正確的句子對(duì),采用百度停用詞表對(duì)文本去除停用詞,并使用HanLP工具包進(jìn)行分詞并統(tǒng)計(jì)詞頻。在預(yù)處理后剩余的102 373組句子對(duì)中,正樣本為18 668組,負(fù)樣本為83 705組。本文選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集,以進(jìn)行模型訓(xùn)練。

表1 實(shí)驗(yàn)數(shù)據(jù)集信息Table 1 Experimental dataset information

3.2 實(shí)驗(yàn)環(huán)境與度量標(biāo)準(zhǔn)

本文實(shí)驗(yàn)環(huán)境為Windows7操作系統(tǒng),使用MyEclipse作為開(kāi)發(fā)工具,數(shù)據(jù)庫(kù)采用MySql5.6版本,使用Java和Python2.7開(kāi)發(fā)語(yǔ)言實(shí)現(xiàn)本文相似度計(jì)算方法,開(kāi)發(fā)環(huán)境采用JDK1.8。

在結(jié)果分析中,本文主要采用F1值作為3種檢驗(yàn)閾值的選擇標(biāo)準(zhǔn),同時(shí)采用文本信息處理領(lǐng)域常用的召回率(Recall)和準(zhǔn)確率(Accuracy)作為相似度計(jì)算質(zhì)量評(píng)價(jià)指標(biāo),將本文方法分別與傳統(tǒng)方法、無(wú)檢驗(yàn)的相似度計(jì)算方法、未融合的相似度計(jì)算方法進(jìn)行比較,最后通過(guò)Python將實(shí)驗(yàn)對(duì)比結(jié)果進(jìn)行可視化展示。在評(píng)價(jià)指標(biāo)中,準(zhǔn)確率是指所有被正確預(yù)測(cè)為正和負(fù)的樣本數(shù)占總樣本數(shù)的概率,精確率(Precision)是指正確預(yù)測(cè)為正的樣本占全部預(yù)測(cè)為正的樣本的比例,召回率是指在實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率,F(xiàn)1值是精確率和召回率的加權(quán)調(diào)和平均。4種指標(biāo)的計(jì)算公式分別如式(19)~式(22)所示:

其中,TP表示實(shí)例是正類實(shí)際也被預(yù)測(cè)為正類的樣本數(shù)量,TN表示實(shí)例是負(fù)類實(shí)際也被預(yù)測(cè)為負(fù)類的樣本數(shù)量,F(xiàn)N表示實(shí)例是正類實(shí)際被預(yù)測(cè)為負(fù)類的樣本數(shù)量,F(xiàn)P表示實(shí)例是負(fù)類實(shí)際被預(yù)測(cè)為正類的樣本數(shù)量。

3.3 結(jié)果分析

3.3.1 檢驗(yàn)閾值選擇

實(shí)驗(yàn)通過(guò)調(diào)節(jié)相似度閾值,對(duì)比DLRSim算法、KTSim算法和WLSim算法的F1值,從而確定3種相似度的檢驗(yàn)閾值標(biāo)準(zhǔn),結(jié)果如圖3所示。從圖3可以看出,在F1值取值最大時(shí),對(duì)于DLRSim算法、KTSim算法和WLSim算法,相似度閾值分別取0.40、0.42和0.47。因此,本文將3種檢驗(yàn)閾值分別設(shè)置為t1=0.40、t2=0.42、t3=0.47。

圖3 不同算法的F1值對(duì)比結(jié)果Fig.3 Comparison results of F1 values of different algorithms

3.3.2 加權(quán)因子調(diào)節(jié)

為對(duì)滿足多重檢驗(yàn)標(biāo)準(zhǔn)的文本進(jìn)行加權(quán)融合相似度計(jì)算,本文運(yùn)用控制變量法對(duì)加權(quán)融合的加權(quán)因子進(jìn)行調(diào)節(jié),選擇相似度閾值取不同值時(shí)的召回率作為評(píng)價(jià)指標(biāo),調(diào)整α、β和γ的取值組合,通過(guò)觀察召回率來(lái)確定參數(shù)的最佳取值組合。由于實(shí)驗(yàn)數(shù)據(jù)較多,表2選取相似度閾值為0.42、0.44、0.46、0.48和0.50時(shí)的數(shù)據(jù)進(jìn)行展示。從表2可以看出:減小DLRSim算法所占權(quán)重,召回率會(huì)明顯增大,這是因?yàn)镈LRSim算法主要從文本的編輯距離角度計(jì)算相似度,影響因素主要為共有詞,因此其占比相對(duì)較小;增大KTSim算法的加權(quán)因子,召回率有所提升,因此,基于語(yǔ)義考慮詞語(yǔ)義項(xiàng)的KTSim算法對(duì)召回率影響較大;基于深度學(xué)習(xí)模型的WLSim算法具有學(xué)習(xí)能力,可有效保持對(duì)歷史信息的較長(zhǎng)記憶,獲取整個(gè)文本的語(yǔ)義特征信息,在序列化數(shù)據(jù)處理時(shí)有一定優(yōu)勢(shì),因此,其影響力更大一些。通過(guò)對(duì)比最終確定加權(quán)因子取值為:α=0.21,β=0.36,γ=0.43。

表2 不同加權(quán)因子取值組合下的召回率對(duì)比結(jié)果Table 2 Comparison results of recall under different combination of weighted factors

3.3.3 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比

本節(jié)將從以下4個(gè)方面對(duì)不同方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比:

1)詞頻對(duì)短文本相似度的影響

為驗(yàn)證詞頻對(duì)短文本相似度的影響,將KTSim算法與文獻(xiàn)[21]中的HowNet算法進(jìn)行實(shí)驗(yàn)對(duì)比,選取詞頻不同的2組短文本,分別用2種算法計(jì)算相似度,數(shù)據(jù)結(jié)果如表3所示。從表3可以看出,對(duì)于詞頻不為1的文本,2種算法相似度計(jì)算結(jié)果差異較大,而對(duì)于詞頻都為1的文本,2種算法計(jì)算結(jié)果的差異較小,但KTSim算法的計(jì)算結(jié)果優(yōu)于HowNet算法。

表3 詞頻對(duì)相似度計(jì)算結(jié)果的影響Table 3 Influence of word frequency on similarity calculation results

2)檢驗(yàn)方法對(duì)比

為驗(yàn)證本文多重檢驗(yàn)方法的準(zhǔn)確性,以不同閾值下的準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn),將本文多重檢驗(yàn)融合(MCWFS)方法與無(wú)檢驗(yàn)融合(NCWFS)方法和層層檢驗(yàn)融合(ECWFS)方法進(jìn)行實(shí)驗(yàn)對(duì)比。NCWFS即無(wú)閾值檢驗(yàn)而直接加權(quán)計(jì)算,ECWFS中只要有一種相似度值不滿足閾值則認(rèn)為不相似,不進(jìn)行加權(quán)運(yùn)算。從圖4可以看出,MCWFS方法的效果優(yōu)于NCWFS方法,這是因?yàn)闊o(wú)檢驗(yàn)融合方法無(wú)法對(duì)只有一種相似度值過(guò)大的情況進(jìn)行篩選,從而將異常值引入運(yùn)算,將實(shí)際不相似的文本判定為相似,降低了準(zhǔn)確率。ECWFS方法的效果相對(duì)較差,原因是層層檢驗(yàn)會(huì)因?yàn)橐环N相似度值不滿足閾值而無(wú)法參與加權(quán)運(yùn)算,使得計(jì)算中將較多相似文本判定為不相似,降低了準(zhǔn)確率。隨著閾值的增大,方法的準(zhǔn)確率增勢(shì)趨于平緩后開(kāi)始下降,這是因?yàn)椴幌嗨频亩涛谋緮?shù)逐漸趨于實(shí)際值,然后又大于實(shí)際值,而判斷正確的相似文本數(shù)在減少。相比ECWFS方法和NCWFS方法,MCWFS方法在準(zhǔn)確率上平均分別提高16.01%和7.39%,即多重檢驗(yàn)融合方法具有明顯優(yōu)勢(shì)。

圖4 3種檢驗(yàn)方法的準(zhǔn)確率對(duì)比結(jié)果Fig.4 Accuracy comparison results of three test methods

3)融合方法對(duì)比

為驗(yàn)證加權(quán)融合方法的有效性,將其與未融合的DLRSim、KTSim和WLSim算法進(jìn)行對(duì)比,以不用閾值時(shí)的召回率作為衡量標(biāo)準(zhǔn),結(jié)果如圖5所示。從圖5可以看出,在相同閾值情況下,MCWFS方法的召回率最大,其具有明顯優(yōu)勢(shì),原因是該方法對(duì)3種對(duì)比算法所考慮的不同角度的文本特征進(jìn)行了加權(quán)計(jì)算并篩選異常值,從而提高了召回率。

圖5 融合和未融合方法的召回率對(duì)比結(jié)果Fig.5 Comparison results of recall between fusion method and non-fusion methods

4)與傳統(tǒng)相似度計(jì)算方法的對(duì)比

將本文多重檢驗(yàn)加權(quán)融合計(jì)算方法與傳統(tǒng)的Jaccard相似度計(jì)算方法、基于Word2vec的余弦相似度計(jì)算方法[25]和利用WordNet[26]計(jì)算詞語(yǔ)和句子相似度的方法進(jìn)行實(shí)驗(yàn)對(duì)比,以不同閾值下的F1值作為評(píng)價(jià)標(biāo)準(zhǔn),結(jié)果如圖6所示。

圖6 不同方法的F1值對(duì)比結(jié)果Fig.6 Comparison results of F1 values of different methods

從圖6可以看出,4種方法的F1值變化趨勢(shì)大致相同,MCWFS方法在相似度閾值為0.46時(shí)F1取得最大值70.21%,而Word2vec方法和WordNet方法分別在閾值為0.41和0.42時(shí)F1取得最大值,分別為58.26%和66.25%,Jaccard方法在閾值為0.38時(shí)F1取得最大值53.26%。Jaccard方法的主要影響因素為2個(gè)文本之間的共有詞,其無(wú)法利用更豐富的信息進(jìn)行計(jì)算,因此,F(xiàn)1值最小。WordNet方法需要大規(guī)模的語(yǔ)料庫(kù),無(wú)法計(jì)算詞庫(kù)未收錄的詞語(yǔ)的相似度值,Word2vec方法雖然解決了文本的數(shù)據(jù)稀疏問(wèn)題,但是其將詞向量進(jìn)行余弦運(yùn)算,并不能代表語(yǔ)義關(guān)系,容易出現(xiàn)將相似詞語(yǔ)較多但語(yǔ)義相悖的文本計(jì)算為相似文本的問(wèn)題。而本文MCWFS方法具有明顯優(yōu)勢(shì),因?yàn)槠浼瓤紤]了文本的表型特征,也考慮了語(yǔ)義等信息,同時(shí)對(duì)異常值進(jìn)行篩選,使相似度計(jì)算更加準(zhǔn)確。

利用4種方法計(jì)算短文本相似度的數(shù)據(jù)結(jié)果如表4所示,從表4可以看出,本文方法計(jì)算性能最優(yōu)。

表4 不同方法的相似度計(jì)算結(jié)果對(duì)比Table 4 Comparison of similarity calculation results of different methods

4 結(jié)束語(yǔ)

針對(duì)傳統(tǒng)文本相似度計(jì)算方法準(zhǔn)確率較低的問(wèn)題,本文結(jié)合短文本句子簡(jiǎn)短、特征稀疏和語(yǔ)義豐富等特點(diǎn),提出一種多重檢驗(yàn)加權(quán)融合的短文本相似度計(jì)算方法。該方法通過(guò)改進(jìn)編輯距離從句子表型特征計(jì)算短文本相似度,考慮文本簡(jiǎn)短對(duì)相似度的影響而加入詞頻作為詞語(yǔ)權(quán)重,從語(yǔ)義角度計(jì)算相似度,同時(shí)利用深度學(xué)習(xí)模型進(jìn)行計(jì)算,解決語(yǔ)義相似度對(duì)大規(guī)模語(yǔ)料庫(kù)的依賴問(wèn)題。在此基礎(chǔ)上,將滿足多重檢驗(yàn)標(biāo)準(zhǔn)的3種相似度值進(jìn)行加權(quán)融合并用于短文本相似度計(jì)算,以降低異常值對(duì)相似度值的影響并提高計(jì)算結(jié)果的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該方法的計(jì)算性能優(yōu)于WordNet、Word2vec等方法。

受中文短文本數(shù)據(jù)集較少的影響,本文的閾值和加權(quán)因子的取值選擇對(duì)數(shù)據(jù)具有依賴性和針對(duì)性,下一步將利用不同領(lǐng)域的數(shù)據(jù)集,通過(guò)機(jī)器學(xué)習(xí)的方式對(duì)參數(shù)進(jìn)行選取。此外,基于深度學(xué)習(xí)的LSTM模型在處理短文本時(shí)具有一定優(yōu)勢(shì),但對(duì)于較長(zhǎng)文本而言其存在局限性,因此,后續(xù)考慮加入Attention機(jī)制使該模型更加靈活高效。

猜你喜歡
語(yǔ)義文本融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
主站蜘蛛池模板: 国产欧美日韩精品第二区| 国产日本一区二区三区| 四虎亚洲精品| 国产欧美在线观看一区| 午夜精品区| 亚洲精品动漫| 亚洲色图欧美一区| 一区二区欧美日韩高清免费 | 午夜福利无码一区二区| 无码电影在线观看| 国产精品 欧美激情 在线播放| 久久精品嫩草研究院| 亚洲成AV人手机在线观看网站| 亚洲欧洲日韩综合色天使| 制服丝袜 91视频| 国产乱肥老妇精品视频| 欧美黄网在线| 国产成人在线无码免费视频| 成人综合在线观看| 久久亚洲国产一区二区| 国产精品xxx| 国产高清在线观看| 欧美午夜在线视频| 国产经典在线观看一区| 国产精品综合色区在线观看| 国产资源免费观看| 99久久精品免费观看国产| 国产黑丝视频在线观看| 国产爽爽视频| 好吊日免费视频| 欧美一区福利| 99在线免费播放| 亚洲成人精品| 久久精品女人天堂aaa| 91色老久久精品偷偷蜜臀| 国产亚洲精品97在线观看| 91在线国内在线播放老师| 天堂成人在线视频| 久爱午夜精品免费视频| 青青青国产精品国产精品美女| 亚洲无码熟妇人妻AV在线| 亚洲精品爱草草视频在线| 国产成年无码AⅤ片在线 | 激情在线网| 精品国产污污免费网站| 亚洲无码37.| 日韩欧美成人高清在线观看| 亚洲综合色婷婷| 91破解版在线亚洲| 欧美午夜在线观看| 欧美综合在线观看| 欧美日韩一区二区在线免费观看| 国产精品亚洲片在线va| 狠狠综合久久久久综| 午夜福利在线观看成人| 亚洲手机在线| 日韩无码白| 久久精品无码国产一区二区三区| 四虎影视库国产精品一区| 成人午夜天| 国产在线第二页| 毛片免费视频| 麻豆精品在线播放| 国产白浆一区二区三区视频在线| 国产在线自揄拍揄视频网站| 四虎永久在线精品影院| 精品亚洲麻豆1区2区3区| 国禁国产you女视频网站| 在线看片免费人成视久网下载| 国产无码制服丝袜| 国产网站黄| 五月婷婷导航| 亚洲日韩高清在线亚洲专区| 无码电影在线观看| 精品视频91| 久久久91人妻无码精品蜜桃HD| 国产乱人伦AV在线A| 综合天天色| 久久熟女AV| 欧美日本在线观看| 国产美女精品在线| 午夜无码一区二区三区在线app|