999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多重相關信息交互的文本相似度計算方法*

2022-08-11 08:41:12野,廖
計算機工程與科學 2022年7期
關鍵詞:語義特征文本

袁 野,廖 薇

(上海工程技術大學電子電氣工程學院,上海 201620)

1 引言

隨著互聯網的發展,用戶對信息的獲取效率和質量有了更高的要求。如何在充斥著海量文本數據的互聯網中迅速且精準地獲取目標信息是自然語言處理領域的研究熱點。文本相似度計算[1]是一種解決上述問題的關鍵技術,旨在判斷和分析文本之間的語義相關性,在文本分類、問答系統和信息檢索等任務中有著重要的作用。

傳統文本相似度計算方法是基于統計機器學習的方法,首先獲取詞語和文檔的統計特征,然后進行語義相似度分析和語義搜索。文獻[2]使用加權融合共現詞相關度與區分度的方法進行語義相似度分析;詞頻-逆文本頻率TF-IDF(Term Frequency-Inverse Document Frequency)利用詞語在文檔和語料中的頻率特征,計算詞語在文檔中的重要程度[3]。LDA(Latend Dirichlet Allocation)可以對文檔隱含主題進行建模,文獻[4]將LDA模型與基于詞匯特征的文本相似度模型相結合,引入了主題特征對語義相似度計算的貢獻,取得了更好的性能?;诮y計機器學習的方法需要投入大量的人力和物力獲取特征統計信息,且難以提取文本深層的信息,限制了模型的性能與泛化能力。

隨著深度學習在計算機視覺和語音識別領域取得突破性進展,更多的研究人員將深度學習用于文本相似度計算。從模型的結構和切入角度分析,基于深度學習的文本相似度計算模型可分為面向單語義、多語義和交互語義的模型。無論是哪種方法,都需要首先獲得文本的向量表示。2013年,Mikolov等[5,6]提出的word2vec詞向量模型利用神經網絡將詞語映射到低維度的向量空間中,有良好的語義表達性能[7],使得該詞向量成為現在常用的文本嵌入方法之一。

單語義模型使用簡單的神經網絡編碼文本,然后計算文本的相似度。Yin等[8]使用卷積神經網絡CNN(Convolutional Neural Network)提取句子局部特征進行句子語義相似度計算;文獻[9]基于長短時記憶LSTM(Long and Short-Term Memory)網絡的孿生網絡結構來學習文本相似性,通過LSTM對文本進行語義特征提取和表達,充分考慮到了文本的上下文信息和序列特征。

單語義模型通常考慮文本的單一特征,語義信息不夠豐富。因此,對文本多粒度特征信息進行融合的基于多語義的相似度分析方法應運而生。文獻[10]提出將CNN與LSTM相結合的文本匹配模型,CNN捕捉句子片段向量特征,再輸入LSTM編碼得到句向量,最后計算句向量間的曼哈頓距離作為句子的相似度量。文獻[11]從文本的不同角度進行分析,融合多種詞向量模型構建初始文本語義模型,編碼器使用基于注意力的雙向長短時記憶BiLSTM(Bi-directional Long and Short-Term Memory)網絡,最后增加特征提取器提取文本的類別特征。

多語義的相似度計算模型雖然考慮了不同的分析角度,但文本的不同編碼或特征提取過程相互獨立。交互語義模型實現了文本深層信息的交互與表達。Chen等[12]提出的ESIM(Enhanced Sequential Inference Model)將注意力機制與BiLSTM結合后用于文本推理,其中BiLSTM用于提取特征,協同注意力機制用于對文本進行組合推理,最后判斷句子的相關性。文獻[13]提出一種強調文本序列之間特征對齊的匹配模型,在保持性能的同時減少了參數規模,優化了任務速度。

交互語義模型能夠得到信息較豐富的文本表征,上述模型在許多非中文公開數據集上表現出良好的性能,表明了多角度交互模型在文本相似度任務上的有效性。但是,基于中文數據集的文本相似度研究,可能受限于數據集大小、數據集語言差異或特征的提取角度,仍有進一步提升的空間。

為了解決上述問題,本文提出一種基于多重相關信息交互的文本相似度計算方法MRIIM(Multiple Related Information Interaction Method)。該方法使用一種多粒度交互的語義相似度模型,首先,采用預訓練詞向量和詞語余弦相似度拼接作為文本的向量表達;然后,使用BiLSTM對輸入文本向量進行特征編碼,通過自注意力機制和交替協同注意力機制進行多粒度語義匹配;最后,分別拼接文本的各粒度注意力特征,使用最大池化提取最顯著的特征,通過全連接層和Softmax分類器預測語義相似性標簽。實驗表明,多語義角度交互有助于模型獲得文本的深層隱含信息,從而提升相似度計算性能。

2 MRIIM模型

本文提出的MRIIM模型整體框架如圖1所示,主要包含嵌入層、編碼層、多重注意力交替交互層、特征提取層和輸出層,具體設計如下所示:

(1)嵌入層用于將文本轉換為向量形式,使用包含語義的分布式向量表示文本的每個詞語,同時與附加特征進行拼接作為最終的文本向量表示。此處選擇的附加特征為文本余弦相似度值。該層的輸入是文本對,輸出是文本向量矩陣。

Figure 1 Framework of MRIIM圖1 MRIIM框架

(2)編碼層用于學習文本的上下文信息,采用雙向長短時記憶網絡對文本進行前向和后向的雙向學習。該層的輸入是文本向量矩陣,輸出是隱層狀態編碼對。

(3)在多重注意力交替交互層中,分別對2個文本自身進行基于詞的細粒度自注意力計算,以及文本之間的交替協同注意力計算,最后得到文本對的交替向量表達。該層的輸入是隱藏狀態編碼對,輸出分別是文本對基于自注意力權重和文本間交替協同注意力權重的向量表達。

(4)特征提取層將上一步驟的輸出進行拼接,使用最大池化進行特征提取,輸出是一維特征向量。

(5)輸出層通過一個全連接層和Softmax函數判斷文本對的含義是否相同。該層的輸入是特征提取層生成的一維長向量,輸出是一個二進制值,0表示文本對含義不同,1表示文本對含義相同。

2.1 任務定義

對于給定長度為m的文本v1,v2,…,vm和長度為n的文本u1,u2,…,un,判斷其語義相似度結果y∈{0,1}。y=0表示2個文本語義不相似,y=1表示2個文本語義相似。

2.2 包含附加特征的文本嵌入層

在文本嵌入層,使用預訓練的word2vec將每個詞語映射為密集向量表示,同時,本文在每個詞向量最后增加一維附加特征值:文本對詞語之間的最大余弦相似度值,其計算如式(1)所示:

f=max cos(ai,bj),?i∈[1,m],?j∈[1,n]

(1)

其中,ai和bj分別為2個文本中詞語的向量表示,f(·)表示附加特征。則詞語的最終向量表示形式如式(2)所示:

(2)

其中,E為word2vec詞嵌入矩陣,⊕為向量拼接操作,fai表示詞語ai的附加特征,fbj表示詞語bj的附加特征。假設e為詞向量維度,則該層2個文本向量表示分別為A∈Rm×(e+1),B∈Rn×(e+1)。附加特征可以為模型提供額外的語義信息。

2.3 基于BiLSTM的文本信息編碼層

編碼層對文本的上下文信息進行編碼,MRIIM使用BiLSTM作為編碼器。

LSTM通過增加輸入門、遺忘門、輸出門和記憶狀態細胞來解決循環神經網絡存在的長依賴和梯度爆炸問題,使用門機制控制信息的保留、遺忘和狀態更新。

LSTM只能學習文本的上文信息,而不能學習文本的下文信息。而在實際中,詞語的語義可能同時受到上下文詞語的影響,因此本文通過BiLSTM結構使用2個方向相反的LSTM來捕捉文本的上下文序列特征,具體過程如式(3)~式(5)所示:

(3)

(4)

(5)

該層的文本語義表示如式(6)所示:

(6)

其中h為LSTM的隱層維度。

2.4 多重注意力交替交互層

注意力機制[14]源于對人類視覺的研究,目的是從眾多信息中學習對當前任務貢獻更大的那部分信息。為了讓文本信息有效融合,本文提出一種基于多重注意力交替交互的文本表征方法,首先,對文本自身進行詞語粒度的自注意力計算,得到含有權重的特征表示;然后,對其進行交替協同注意力計算。這種表征方法能表達更多的文本相關性,提供更豐富的交互語義信息,從而更好地表征文本信息。

2.4.1 自注意力模塊

自注意力機制能夠學習到序列的長期依賴關系,捕獲全局特征信息,通過權重來區分特征的重要程度。自注意力模塊如圖2所示。

Figure 2 Self-attention module圖2 自注意力模塊

(7)

其中,WQ,WK和WV分別為Q、K和V的權重矩陣。

(2)對Q與KT進行點積運算,打分函數S采用縮放點積函數,經過Softmax歸一化為概率分布,輸出自注意力權重向量Att,如式(8)所示。

(8)

(9)

該模塊蘊含注意力的文本語義表示,如式(10)所示:

(10)

自注意力機制的增加改變了BiLSTM輸出的隱藏狀態,在編碼結果中加入了權重的影響,能夠更加突出關鍵信息和重要特征。

2.4.2 交替協同注意力模塊

通常,自注意力機制用來計算文本自身各詞語的重要程度,而協同注意力(co-attention)用來計算文本之間的相關程度。

本文采用交替協同注意力對文本序列進行交互分析,使用交替結構有順序地計算協同注意力,即對特征序列As和Bs進行協同注意力計算,結合協同注意力矩陣與Bs中每一個詞語的加權求和來表達As,得到新的特征序列Ac;基于Ac與Bs再次進行協同注意力計算,以同樣的方式交替地表達特征序列Bs,具體過程如下所示:

(11)

(12)

(13)

(14)

(15)

2.5 特征提取層

該層將文本在多重注意力交替交互層中的自注意力特征和交替協同注意力特征進行拼接,共同考慮不同層次的注意力輸出,具體如式(16)所示:

(16)

經過最大池化提取最相關的特征,拼接2個文本序列作為文本特征的向量表示O∈R8h,如式(17)所示:

O=[Maxpooling(Aatt)⊕Maxpooling(Batt)]

(17)

2.6 輸出層與模型優化

輸出層中,文本最終的交互語義表示O輸入至全連接層,全連接層的輸出作為Softmax分類器的輸入,得到文本對相似度標簽的預測概率,計算公式如式(18)所示:

(18)

最后,通過最小化交叉熵來優化模型,如式(19)所示:

(19)

其中,T表示訓練數據集大小,C為相似度標簽類別數,yt為文本對實際標簽概率,λ為正則化參數,θ表示整個模型的訓練參數。

3 實驗與分析

3.1 數據集

數據集1:CCKS 2018微眾銀行智能客服問句匹配大賽數據集[15]。

數據集2:平安醫療科技智能患者健康咨詢問句匹配大賽數據集[16]。

上述數據集相關信息如表1所示,語義相似的文本對標簽為1,否則為0,2個數據集的正負樣本數量比例都接近1∶1。

Table 1 Information about the experimental datasets表1 實驗數據集相關信息

3.2 評價指標

本文評估指標采用準確率Acc(Accuracy)、精確率P(Precision)、召回率R(Recall)、F1值(F-score)以及ROC曲線下的面積AUC(Area Under Curve)。精確率P用于檢驗結果的有效性,召回率R用于檢驗結果的完整性,F1用于調和精確率P與召回率R。ROC曲線的橫縱坐標分別為特異性(FPR)和敏感度(TPR),曲線下的面積AUC反映了模型的分類性能,其值越接近于1,模型分類性能越好。Acc、P、R和F1的計算分別如式(20)~式(23)所示:

(20)

(21)

(22)

(23)

其中,TP表示文本對實際結果和預測結果都為語義相似的樣本數量;FN表示文本對實際結果為語義相似,但預測結果為不相似的樣本數量;FP表示文本對實際結果為語義不相似,但預測結果為相似的樣本數量;TN表示文本對實際結果和預測結果都為語義不相似的樣本數量。

3.3 參數設置

訓練word2vec詞向量模型,設置詞向量維度e為300,采用Skip-gram模型訓練,訓練窗口大小為5,未登錄詞進行隨機初始化詞向量,附加特征后的詞嵌入維度為301。同時構建領域常用術語詞典,使用jieba分詞處理時引入詞典,避免專有名詞劃分不正確或者缺失。設置文本長度為20,超出部分進行截斷,不足部分用0補齊。LSTM網絡的單元個數為150,則BiLSTM網絡的輸出向量維度為300。訓練模型時,采用大小為128的批處理,學習率設置為0.005,優化器使用Adam,迭代訓練次數epoch為20。為了防止模型過擬合,設置dropout為0.5隨機丟棄神經元。

3.4 基準方法

本文為了評估所提方法的有效性,還實現了以下幾種基準方法進行對比:

(1)BiLSTM:采用BiLSTM分別從文本前后2個方向對文本進行向量表示,通過最大池化和全連接網絡得到最后的預測標簽。

(2)BiGRU:與(1)類似,不同之處是將雙向LSTM替換為雙向門控循環神經網絡。

(3)ABCNN[17]:一種結合注意力機制和CNN的方法。該方法使用word2vec表示文本嵌入向量,然后計算文本注意力權重,采用寬卷積提取文本特征,最后進行平均池化和預測。

(4)BiMPM[18]:一種使用多視角匹配模型的方法,采用BiLSTM對文本進行編碼,然后從文本轉換的角度進行2個方向的文本匹配,最后聚合特征并預測結果。

(5)ESIM:一種基于BiLSTM和協同注意力機制的推理方法,采用BiLSTM對詞語進行編碼,采用co-attention捕捉句子之間的交互信息,最后使用另一個BiLSTM提取句子的局部和全局信息并輸出預測。

3.5 實驗結果及分析

3.5.1 性能評估

本文方法與基準方法在2個數據集上的實驗結果如表2所示。從表2可以看出,本文方法在文本相似度計算上的性能良好。單一的BiLSTM和BiGRU方法提取到的特征少于其他混合方法,所以各項指標均低于其他方法的。ABCNN通過引入注意力賦予文本不同的權重信息,并使用CNN提取局部特征,性能較前2個方法有一定提升。這說明在不使用循環神經網絡捕捉文本序列的情況下,使用注意力機制同樣能增強模型對重要信息的捕獲能力。與ABCNN的F1值相比,BiMPM在2個數據集上的F1值都有較大的提升,分別提高了3.82個百分點和2.04個百分點,說明從文本交互表達的角度有助于分析文本相關性。ESIM不僅使用協同注意力提取文本交互信息,還使用不同的BiLSTM進行文本編碼和特征提取,故性能較上述所有基準方法又有提升。

本文方法在嵌入層增加文本間余弦值相關特征,使用BiLSTM提取序列特征,使用自注意力機制解決注意力分散問題,通過交替結構的協同注意力對文本構建新的相關交互表征,因此具有更好的理解能力,整體表現最佳,在2個數據集上的性能指標達到最高,其F1值分別達到了0.916 1和0.769 5。

圖3和圖4直觀地展現了不同方法在2個數據集上準確率的變化趨勢,本文方法在迭代訓練次數達到20附近時趨于穩定,且穩定時的準確率相比于基準方法都有不同程度的提高。

Figure 3 Acc comparison on dataset1圖3 數據集1上的Acc對比圖

3.5.2 消融實驗

Figure 4 Acc comparison on dataset2圖4 數據集2上的Acc對比圖

為了驗證MRIIM中注意力特征模塊對于文本相似度任務的有效性,本文在2個數據集上進行了消融實驗。本文的消融實驗是指在其他模塊和參數不變的情況下,通過減少不同模塊進行性能分析,實驗結果如表3所示。其中,“MRIIM”表示本文提出的方法;“-SelfAttention”表示去除文本對的自注意力機制后的方法;“-Al_Structure”表示去除交替協同注意力模塊,將其替換為并行協同注意力模塊后的方法;“-Both”表示去除自注意力機制及交替協同注意力2個模塊,僅使用并行協同注意力的方法。

Table 2 Experimental results of different methods表2 不同方法的實驗結果

Table 3 Ablation experiment表3 消融實驗

從表3可以看出,減少任意一個相關性特征模塊都會降低方法的性能。這說明本文提出的最相關特征對文本學習和表征都具有重要的作用。其中,在2個數據集上,“-SelfAttention”和“-Al_Structure”的性能指標都有不同程度的降低,相比較而言,前者整體優于后者,說明交替協同注意力模塊對文本相似度計算有正面影響。“-Both”性能有明顯的下降,F1指標分別下降了3.46個百分點和3.97個百分點,由此說明2個注意力模塊對文本語義相似度計算有顯著的貢獻,有助于發現文本之間的隱藏相關性。

3.5.3 注意力可視化

對注意力權重分布進行可視化能夠更好地理解模型當前關注的重點。圖5為測試集中一組文本對的熱力圖展示,顏色表示注意力權重值的大小,顏色越深表示重要程度越高。由圖5可知,注意力機制能夠計算文本對中每個詞之間的相關性,從而更好地學習文本關聯特征。

Figure 5 Visualization of attention weight distribution圖5 注意力權重分布可視化

4 結束語

本文針對文本相似度計算任務提出了一個基于多重相關信息交互的文本相似度計算方法。包含附加相似度特征的詞嵌入層能夠將向量空間中詞語的相關性信息輸入網絡進行編碼和學習;多重注意力交替交互層不僅在詞語粒度使用自注意力機制獲取文本自身的注意力分布,還從文本粒度使用交替協同注意力有順序地捕捉文本之間的注意力分布情況,從而有效提取局部和全局交互的最明顯特征;最后對文本對進行相似度分析,判斷語義是否相似。實驗表明,所提方法的各項性能都有所提升。下一步的工作重點是在長文本數據集上評估本文方法,以及挖掘層次更加豐富的文本相關特征,比如不同的預訓練詞向量模型對該方法性能的影響。

猜你喜歡
語義特征文本
語言與語義
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日本久久网站| 中文字幕在线欧美| 五月激激激综合网色播免费| 91亚洲精选| 制服丝袜 91视频| 久久人妻xunleige无码| 色窝窝免费一区二区三区| 宅男噜噜噜66国产在线观看| 国产人碰人摸人爱免费视频| 九九视频免费在线观看| 国产成+人+综合+亚洲欧美| 中文字幕无码电影| 尤物精品国产福利网站| 欧美精品啪啪| WWW丫丫国产成人精品| 亚洲精品波多野结衣| 青青国产在线| 国产精品不卡永久免费| 欧美中文字幕在线视频| 成人在线观看不卡| 欧洲成人免费视频| 直接黄91麻豆网站| 99999久久久久久亚洲| 久久99国产综合精品1| 精品一区二区三区无码视频无码| 日韩美一区二区| 一级毛片免费观看久| 欧美日韩免费在线视频| 91人妻日韩人妻无码专区精品| 日本不卡在线视频| 55夜色66夜色国产精品视频| 国产精选小视频在线观看| 欧洲成人在线观看| 国产免费怡红院视频| 国产av一码二码三码无码| 日韩无码精品人妻| 波多野结衣AV无码久久一区| 国产91线观看| 国产v精品成人免费视频71pao| 麻豆国产在线不卡一区二区| 凹凸国产熟女精品视频| 日本91视频| 欧美日韩北条麻妃一区二区| 亚洲综合九九| 91色爱欧美精品www| 国产99热| 久久青草精品一区二区三区| 国产原创演绎剧情有字幕的| 真实国产乱子伦视频| 97视频免费看| 国产69精品久久久久孕妇大杂乱| 亚洲成在人线av品善网好看| 色噜噜狠狠狠综合曰曰曰| 国产91视频观看| 国产精品第| 丁香综合在线| 国产精品30p| 在线无码私拍| 99er这里只有精品| 污网站在线观看视频| 亚洲精品视频在线观看视频| 伊人久久婷婷五月综合97色| 91色老久久精品偷偷蜜臀| 欧美三级自拍| 国产大全韩国亚洲一区二区三区| 国产午夜无码片在线观看网站 | 日韩黄色在线| 91九色国产porny| 久久久亚洲色| 99九九成人免费视频精品 | 国产麻豆福利av在线播放| 国产福利不卡视频| 亚洲视屏在线观看| 国产在线自乱拍播放| 欧美va亚洲va香蕉在线| 欧美日韩国产系列在线观看| 丰满人妻中出白浆| 日韩a级毛片| 国产香蕉97碰碰视频VA碰碰看| 中文天堂在线视频| 亚洲精品卡2卡3卡4卡5卡区| 久久精品免费国产大片|