融合高低層語義信息的自然語言句子匹配方法

2022-01-01 00:00:00姜克鑫趙亞慧崔榮一

計算機應用研究 2022年4期

摘要：針對目前自然語言句子匹配方法未能融合公共語義信息以及難以捕獲深層次語義信息的問題，提出了一種融合高低層語義信息的自然語言句子匹配算法。該算法首先采用預訓練詞向量GloVe和字符級別的詞向量獲取句子P和句子Q的詞嵌入表示；其次，使用雙向LSTM（long-short term memory）對P和Q進行編碼，再初步融合P和Q獲取低層語義信息；然后，計算P與Q的雙向注意力，拼接得到語義表征，再計算其自注意力獲取高層語義信息；最后，采用啟發(fā)式的融合函數(shù)將低層語義信息和高層語義信息進行融合，得到最終的語義表征，使用卷積神經(jīng)網(wǎng)絡預測得到答案。在文本蘊涵識別和釋義識別兩個任務上評估了該模型。在文本蘊涵識別任務SNLI數(shù)據(jù)集和釋義識別任務Quora數(shù)據(jù)集上進行了實驗，實驗結果表明該算法在SNLI測試集上的準確率為87.1%，在Quora測試集上的準確率為86.8%，驗證了算法在自然語言句子匹配任務上的有效性。

關鍵詞：自然語言句子匹配；雙向注意力機制；自注意力機制；卷積神經(jīng)網(wǎng)絡

中圖分類號：TP391.1文獻標志碼：A

文章編號：1001-3695（2022）04-017-1060-04

doi：10.19734/j.issn.1001-3695.2021.09.0397

Natural language sentence matching method fusion of high-level and low-level semantic information

Jiang Kexin， Zhao Yahui， Cui Rongyi

（Intelligent Information Processing Laboratory， Yanbian University， Yanji Jilin 133002， China）

Abstract：This paper proposed a natural language sentence matching method that combined high-level and low-level semantic information to solve the problems about current natural language sentence matching method fail to integrate common semantic information and it is difficult to capture deep-semantic information. First of all， the method used pre-trained word vector GloVe and character-level word vector to obtained the word embedding representation of sentence P and sentence Q. Secondly， this paper encodered P and Q with bidirectional LSTM， then it contained low-level semantic information through preliminary fusion of P and Q. Thirdly， this paper calculated bidirectional attention between P and Q， then spliced them together to get semantic representation， afterwards it calculated its self-attention to obtained high-level semantic information. Finally， this paper used a heuristic fusion function to fuse the low-level semantic information with the high-level semantic information to obtain the final semantic representation， and it used a convolutional neural network to prediction answers. This paper evaluated the proposed model on two tasks， such as recognition textual entailment， paraphrase recognition. This paper conducted experiments on the SNLI dataset and the Quora dataset. The results show that the accuracy of the proposed algorithm on the SNLI test set is 87.1%， and the accuracy of the Quora test set is 86.8 %， which verifies the effectiveness of the algorithm in the task of natural language sentence matching.

Key words：natural language sentence matching; bilateral attention mechanism; self attention mechanism; convolutional neural network

0引言

自然語言句子匹配是比較兩個句子并識別它們之間關系的任務。它是各種任務的基礎技術。例如，在釋義識別任務中被用來確定兩個句子是否釋義。在文本蘊涵識別任務中，可以判斷假設句是否可以從前提句推斷出來。

文本蘊涵識別（recognizing textual entailment，RTE）由Dagan等人［1］提出，是研究前提和假設關系的問題，主要包括蘊涵、矛盾和中立。文本蘊涵識別的方法主要包括以下幾種：基于相似度的方法［2］、基于規(guī)則的方法［3］、基于對齊特征的機器學習方法［4］等。這些方法由于不能很好地提取句子的語義信息，所以其識別的性能并不理想。近年來，基于深度學習的方法在語義建模方面的效果顯著，在NLP的許多任務中都取得了很好的效果［5，6］。因此在文本蘊涵識別的任務上，基于深度學習方法的性能已經(jīng)超越早期的方法，成為主流的文本蘊涵識別方法。例如，Bowman等人［7］使用遞歸神經(jīng)網(wǎng)絡對前提和假設進行建模，然后通過softmax進行分類。其優(yōu)勢在于可以充分地利用句法信息。Yin等人［8］提出了一種基于attention的卷積神經(jīng)網(wǎng)絡來處理文本蘊涵識別任務。在對其中一個文本建模時，參照另外一個文本的信息，通過在卷積操作中加入注意力矩陣的方法來實現(xiàn)這種參照。Bowman等人［9］首次將LSTM句子模型應用于RTE領域，首先將前提和假設通過LSTM進行句子建模，然后通過三個激活層激活，最后將兩個向量的拼接輸入到MLP中，在SNLI數(shù)據(jù)集上取得了較好的結果。

釋義識別，又稱復述檢測。對于給定的兩個句子，如果它們的含義相同，就稱為釋義對。傳統(tǒng)的釋義識別方法主要關注文本特征，但是存在準確率不高等問題。因此，基于深度學習的釋義識別方法成為了研究的熱點。基于深度學習的釋義識別方法主要分為兩種：a）通過神經(jīng)網(wǎng)絡計算詞向量，然后計算詞向量距離判斷是否為釋義對，如黃江平等人［10］使用改進的EMD方法計算向量間的語義距離，獲取釋義關系;b）通過神經(jīng)網(wǎng)絡模型直接判斷文本對是否為釋義對，其本質(zhì)是一個二分類算法。Wang等人［11］提出了BIMPM模型，首先通過雙向的LSTM對句子對進行編碼，然后在兩個方向上匹配來自多個角度的編碼結果。Chen等人［12］提出了ESIM模型，使用兩層的雙向LSTM和自注意力機制編碼，然后通過平均池化層和最大池化層提取特征，最后進行分類。

上述的方法雖然能夠對句子語義進行很好的建模，但是僅僅只能提取較淺層次的語義信息，未能夠真正理解句子對之間深層次的語義信息。因此，本文提出一種基于融合高低層語義信息的自然語言句子匹配方法，借鑒了Seo等人［13］提出的雙向注意力與Vaswani等人［14］提出的自注意力思想。

1基于雙向注意力流的BIDAF模型

在抽取式機器閱讀理解的任務中，Seo等人［13］首次提出了問題到文章以及文章到問題的雙向注意力流模型BIDAF（bi-directional attention flow）。在閱讀理解任務中取得了比較好的效果，其結構如圖1所示。

模型主要由嵌入層、上下文編碼層、注意力流層、建模層以及輸出層組成。經(jīng)過字符級別的詞嵌入以及預訓練的詞向量GloVe詞嵌入之后，通過一個雙向的LSTM分別得到文章和問題的上下文表示X和Y。然后計算它們之間的雙向注意力流，計算步驟如下：

a）計算問題與文章的相似度矩陣。計算公式如式（1）所示。

Ktj=WT［X：t;Y：j;X：t⊙Y：j］（1）

其中：Ktj是第t個文章單詞與第j個問題單詞的相似度;X：t是X的第t個列向量;Y：j是Y的第j個列向量;W是待訓練權重向量。

b）計算文章到問題的注意力。首先對上述相似度矩陣進行歸一化操作，然后計算問題向量的加權和得到文章到問題的注意力，計算公式如式（2）所示。

xt=softmax（K），Y^：t=∑jxtjY：j（2）

c）計算問題到文章的注意力。首先取相似度矩陣每列的最大值，對其歸一化操作，然后再計算文章向量的加權和得到h^，計算公式如式（3）所示。

y=softmax（maxcol（K）），x^=∑tytX：t（3）

最后將其沿著列方向title T次得到問題到文章的注意力X^∈2d×T 。其中：T是文章的詞匯數(shù)，d為隱藏層維度。

d）融合雙向注意力流。將上述得到的雙向注意力流進行拼接，得到新的表征，其計算公式如式（4）所示。

L：t=［X：t;Y^：t;X：t⊙Y^：t;X：t⊙X^：t］（4）

本文在此工作的基礎上，將自然語言句子匹配任務中的句子對看做閱讀理解的文章與問題。首先通過初步融合前提與假設獲取低層語義信息。然后計算其雙向注意力流，拼接之后再計算其自注意力獲取高層語義信息。之后使用了一個啟發(fā)式函數(shù)（具體見2.6節(jié)）將高層語義信息與低層語義信息進行融合。最后使用卷積神經(jīng)網(wǎng)絡進行分類。

2融合高低層語義信息的自然語言句子匹配模型

如圖2所示，本文模型主要由嵌入層、上下文編碼層、低層語義信息層、雙向注意力層、高層語義信息層、融合層及輸出層組成。

2.1嵌入層

嵌入層的目的是將輸入的句子A和B映射成向量。傳統(tǒng)的映射方法是one-hot編碼。然而這種方法空間花銷大，且效率低下，因此本文選擇利用預訓練的詞向量GloVe進行詞嵌入。詞嵌入向量在訓練過程中是恒定不變的。由于輸入的文本中含有未登錄詞，所以本文還使用了字符級別的詞向量嵌入。每個單詞可以視做字符與字符的拼接，之后通過LSTM得到字符級別的詞向量。該方法可以有效地處理未登錄詞。

假設單詞h相應的詞向量為hw，字符級詞向量為hc。將字符向量和單詞詞向量進行拼接：［hw;hc］∈d1+d2 ，將拼接后的詞語向量經(jīng)過兩層的高速公路網(wǎng)絡［15］得到單詞h對應的詞向量hemb∈d1+d2，其中d1是詞嵌入的維度，d2是字符嵌入維度。最終分別得到句子A的詞嵌入矩陣X∈（d1+d2）×n和句子B的詞嵌入矩陣Y∈（d1+d2）×m，其中n、m分別代表A和B的單詞個數(shù)。

2.2上下文編碼層

上下文編碼層的目的是充分挖掘句子的上下文關系特征。將上述得到的詞嵌入矩陣通過一個雙向的LSTM，分別得到句子A的上下文表示H∈2d×n，句子B的上下文表示P∈2d×m，其中d為隱藏層的維度。

2.3低層語義信息層

低層語義信息層的目的是初步將兩個句子進行融合，得到低層語義信息。該層首先計算上述得到的上下文編碼信息H和P的相似度矩陣S∈n×m，計算公式如式（5）所示。

Sij=WTs［h;p;h⊙p］（5）

其中：h表示H的第i列;p表示P的第j列;Ws是一個學習的參數(shù)矩陣。之后，計算A和B的低層語義信息V∈2d×n，計算為

V=P·softmax（ST）（6）

2.4雙向注意力層

雙向注意力層的目的是將H和P進行注意力交互，分別得到H→P和P→H的注意力。這兩個方向的注意力都源于上一層得到的相似度矩陣S∈n×m，其中Sij表示H的第i個單詞和P的第j個單詞的相似性。

H→P：該注意力描述的是句子P中哪些單詞與H最相關。其計算過程如下：首先將相似度矩陣S的每一行進行歸一化處理得到每一行的注意力權重αt，然后與P的每一列進行加權求和得到q：t，拼接后得到新的文本表示Q∈2d×n，其計算為

αt=softmax（St：）∈m，q：t=∑jαtjP：j（7）

P→H：該注意力表示H中哪些單詞與P最相似。其計算過程如下：首先取相似度矩陣S中數(shù)值最大的一列，然后進行歸一化處理，得到注意力權重bt，然后對H進行加權求和，將其拓展n個時間步，得到C∈2d×n，其計算公式如式（8）所示。

b=softmax（maxcol（S））∈n，c=∑tbtHt：∈2d（8）

在得到H→P的注意力矩陣Q以及P→H的注意力矩陣C之后，通過多層感知機把這兩個方向上的注意力進行拼接，最終得到拼接后的上下文表示G∈8d×n，其計算如式（9）所示。

G：t=β（C：t，H：t，Q：t），β（c，h，q）=［h;q;h⊙q;h⊙c］∈8d（9）

2.5高層語義信息層

高層語義信息層的目的是挖掘文本深層次語義，對文本進行深入理解，生成高層次的語義信息。在上一層得到的融合雙向注意力矩陣G雖然能夠充分融合H和P之間的語義信息，但是沒有考慮它們自身內(nèi)部的信息。因此，在該層中，本文通過Vaswani等人［14］提出的自注意力機制來捕捉文本深層次的語義信息。首先，計算文本與文本之間的相似度矩陣E∈n×n;其次將其進行歸一化處理，得到注意力權重；最后再進行加權求和，得到文本的自注意力表征Z∈8d×n。然后將其通過一個雙向的LSTM，得到高層語義信息U∈2d×n，其計算為

E=GTG，Z=G·softmax（E），U=BiLSTM（Z）（10）

2.6融合層

融合層的目的是將上述得到的低層語義信息V和高層語義信息U進行融合。本文啟發(fā)式地提出了一個融合函數(shù)z=fusion（x，y），其計算公式如式（11）所示。

x=tanh（W1［x;y;x⊙y;x－y］）

g=sigmoid（W2［x;y;x⊙y;x－y］），z=g⊙x+（1－g）⊙x

（11）

其中：W1和W2是權重矩陣;g是一個門控機制，用于控制中間向量在輸出向量中所占的比重。對高層語義信息U和低層語義信息V進行融合，得到融合之后的語義信息L∈n×2d，其計算為

L=（fusion（U，V））T（12）

2.7輸出層

輸出層的目的是輸出其分類的結果。由于卷積神經(jīng)網(wǎng)絡共享卷積核，能夠很好地處理高維數(shù)據(jù)，且能夠自動提取特征，所以本文使用卷積神經(jīng)網(wǎng)絡進行特征提取，然后通過全連接層和softmax進行分類。具體流程如下：

a）對融合之后的語義信息L進行卷積操作。令Li：i+j表示Li，Li+1，…，Li+j的連接，設卷積核為w∈h×2d，其中h為窗口滑動的單詞個數(shù)。經(jīng)過卷積運算后，產(chǎn)生一個新的特征μi，其計算為

μi=f（w·Zi：i+h－1+b）（13）

其中：f是一個非線性函數(shù);b是一個偏置項。在經(jīng)過一系列卷積操作之后，可以得到特征圖μ=［μ1，μ2，…，μn－h(huán)+1］。

其次，對特征圖進行最大池化操作，得到e=max{μ}，假設有m個卷積核，可以得到最終的語義特征如式（14）所示。

λ=［e1，e2，…，em］（14）

最后將提取的語義特征λ通過全連接層和softmax函數(shù)進行分類，其計算公式如式（15）所示。

y=softmax（W·λ+b）（15）

2.8訓練與預測

該模型采用算法1進行訓練，訓練的損失函數(shù)采用交叉熵損失函數(shù)，如式（16）所示。

loss（θ）=－∑Ni=1∑Kk=1y（i，k）log （i，k）（16）

其中：θ是模型所有可訓練的參數(shù);N是樣本個數(shù);K是類別總數(shù);（i，k）是第i個樣本的真實標簽。

算法1融合高低層語義信息的自然語言句子匹配模型訓練算法

輸入：句子對A和B。

輸出：A和B的分類標簽。

數(shù)據(jù)預處理，構建訓練集S（A，B，label）；

設置超參數(shù)，初始化模型參數(shù)θ。

while當前輪數(shù)lt;=最大訓練輪數(shù) do

for （a，b，）in S do

//嵌入層；

X=embedding（a） and Y=embedding（b）;

//上下文編碼層；

H=BiLSTM（X） and P=BiLSTM（Y）;

//低層語義信息層

S：t=WTs［H：t：;P：t;H：t⊙P：t］and V=P·softmax（ST）;

//雙向注意力層

G=Bi-attention（H，P）

//高層語義信息層

Z=self-attention（G） and U=BiLSTM（Z）;

//融合層

L=funsion（U，V）

//輸出層

O=CNN（L） and Y=softmax（linear（O））;

loss=loss（y，）;

更新參數(shù)；

end

3實驗

3.1數(shù)據(jù)集

本文使用了自然語言推理數(shù)據(jù)集SNLI和釋義識別數(shù)據(jù)集Quora。其中，SNLI數(shù)據(jù)集包含57萬個由人工標注且分類平衡的句子對，包括蘊涵、中立、矛盾標簽。Quora問題對數(shù)據(jù)集包含超過40萬對真實數(shù)據(jù)，每個問題對都有二進制注釋，1表示重復，0表示不重復。SNLI和Quora數(shù)據(jù)的分布如表1所示。

3.2評價指標

本文采取的評價指標為準確率，其計算公式如式（17）所示。

acc=NM（17）

其中：M為預測的句子對總數(shù)量;N為預測正確的句子對數(shù)量。

3.3實驗參數(shù)設置

本實驗在顯卡RTX5000，顯存為16 GB的硬件環(huán)境下進行。系統(tǒng)為Ubuntu 20.04，開發(fā)語言為Python 3.7，深度學習框架為PyTorch 1.8。在模型訓練過程中，使用300維的GloVe詞向量進行詞嵌入，在SNLI和Quora數(shù)據(jù)集上，文本句子的最大長度分別設置為300和50個單詞，具體的超參數(shù)設置如表2所示。

3.4實驗結果與分析

將融合高低層語義信息的自然語言句子匹配模型在SNLI數(shù)據(jù)集上的實驗結果與其他公開方法進行對比。結果如表3所示。由表3可以看出，本文方法在SNLI數(shù)據(jù)集上達到了87.1%的準確率，超越了許多經(jīng)典的模型，取得了比較好的效果。證明了本文方法能夠充分地挖掘更深層次的語義信息，并且能夠有效地融合低層與高層的語義信息。

在Quora數(shù)據(jù)集上的實驗結果如表4所示。由表4可知，本文方法在測試集上的準確率為86.8%。實驗效果相較于當前一些流行的深度學習方法取得了不錯的效果。本文方法在兩個任務中都取得了相對較好的結果，說明了本文方法的有效性。

為了探究各個模塊所起到的作用，本文在SNLI數(shù)據(jù)集上進行了一個消融實驗，不使用融合函數(shù)是指將低層語義信息與高層語義信息直接拼接。實驗結果如表5所示。

為了驗證字符嵌入的有效性，在詞嵌入層，在原有的模型上去掉字符級詞嵌入，其準確率下降了1.5個百分點，證明了字符級別詞嵌入在提升模型的性能上起到了重要作用。

為了驗證融合函數(shù)以及高低層語義信息的有效性，在原有模型上去掉了低層語義信息的準確率下降了1.2個百分點，去掉了高層語義信息的準確率下降了大概7個百分點，直接拼接低層語義信息與高層語義信息降低了1個百分點，說明了融合函數(shù)以及高層語義信息有利于提高模型的準確率。

為了驗證各個注意力對模型起到的作用，在原有模型上，分別去掉H到P的注意力，P到H的注意力，以及自注意力。它們的準確率分別下降了0.9個百分點、2.5個百分點和1.3個百分點。說明了各種注意力機制均對模型的性能有所提升，其中P到H的注意力對模型的作用更為明顯。

為了驗證模型能夠捕獲深層次的語義信息，以文本蘊涵識別任務為例，本文輸出模型中前提與假設句子之間的注意力權重，并繪制成熱力圖，圖中顏色越深代表相關性越大。如圖3所示，輸入前提句子為“a women playing games with dog”，當假設句子為“The woman is playing games with animals”時，除了相同的單詞顏色較深以外，“dog”和“animals”的顏色也較深，說明模型能夠推理出其意思相同，因此判斷其為蘊涵關系。

當假設句子為“The woman is very beautiful”時，如圖4所示，除了相同的單詞顏色較深以外，其余的單詞之間幾乎沒有什么聯(lián)系，說明模型能夠推理出兩個文本之間沒有太大聯(lián)系，因此判斷其為中立關系。

當假設句子為“The woman is watching a movie with her friend”時，如圖5所示，除了相同的單詞顏色較深以外，前提句子中，顏色比較深的單詞是“play”“games”。而假設句子重點關注的單詞為“watching”“movie”。同時單詞“dog”和“friend”的顏色較淺，表明兩者相似度很低。說明模型能夠推理出兩個文本表達的意思相反，因此判斷其為矛盾關系。

4結束語

本文對自然語言句子匹配方法進行了研究，提出了基于融合注意力機制的自然語言句子匹配方法。該方法首先通過預訓練詞向量以及字符級詞向量進行詞嵌入，然后通過雙向LSTM進行上下文編碼，再計算句子對間的相似度矩陣以獲取低層語義信息。之后計算句子對之間的雙向注意力，將其進行拼接，再計算其自注意力獲取高層語義信息。最后融合高低層語義信息并利用卷積神經(jīng)網(wǎng)絡進行分類，在SNLI和Quora數(shù)據(jù)集上進行了實驗。結果顯示本文模型能夠在兩個任務中都取得較好的結果。在今后的工作中將考慮引入外部知識。例如引入外部知識庫WordNet，WordNet庫包含很多同義詞集合，對每個輸入的單詞，從WordNet中檢索出其同義詞，并嵌入到該詞的詞向量表示中以進一步提升模型的性能。

參考文獻：

[1]Dagan I， Glickman O. Probabilistic textual entailment： generic applied modeling of language variability［M］//Learning Methods for Text Understanding and Mining.2004：26-29.

［2]任函，盛雅琦，馮文賀，等.基于知識話題模型的文本蘊涵識別［J］.中文信息學報，2015，29（6）：119-126.（Ren Han， Sheng Yaqi， Feng Wenhe， et al. Recognizing textual entailment based on knowledge topic models［J］.Journal of Chinese Information Processing，2015，29（6）：119-126.）

［3]胡超文，鄔昌興，楊亞連.基于擴展的S-LSTM的文本蘊涵識別［J］.計算機研究與發(fā)展，2020，57（7）：1481-1489.（Hu Chaowen， Wu Changxing， Yang Yalian. Extended S-LSTM based textual entailment recognition［J］.Journal of Computer Research and Deve-lopment，2020，57（7）：1481-1489.）

［4]Sultan M A， Bethard S， Sumner T. Feature-rich two-stage logistic regression for monolingual alignment［C］//Proc of Conference on Empirical Methods in Natural Language Processing.2015：949-959.

［5]Jin Jing， Zhao Yahui， Cui Rongyi. Research on multi-granularity ensemble learning based on Korean［C］//Proc of the 2nd International Conference on Computing and Data Science.2021：1-6.

［6]Li Feiyu， Zhao Yahui， Yang Feiyang， et al. Incorporating translation quality estimation into Chinese-Korean neural machine translation［C］//Proc of China National Conference on Chinese Computational Linguistics.2021：906-915.

［7]Bowman S，Potts C，Manning C D. Recursive neural networks can learn logical semantics［C］//Proc of the 3rd Workshop on Continuous Vector Space Models and their Compositionality.2015：12-21.

［8]Yin Wenpeng，Schütze H，Xiang Bing，et al. Erratum： “ABCNN： attention-based convolutional neural network for modeling sentence pairs” ［J］.Trans of the Association for Computational Linguistics，2016，4：566-567.

［9]Bowman S，Angeli G，Potts C，et al.A large annotated corpus for lear-ning natural language inference［C］//Proc of Conference on Empirical Methods in Natural Language Processing.2015：632-642.

［10]黃江平，姬東鴻.基于卷積網(wǎng)絡的句子語義相似性模型［J］.華南理工大學學報：自然科學版，2017，45（3）：68-75.（Huang Jiangping，Ji Donghong.Convolutional network-based semantic similarity model of sentences［J］.Journal of South China University of Technology：Natural Science Edition，2017，45（3）：68-75.）

［11]Wang Zhiguo，Hamza W，F(xiàn)lorian R.Bilateral multi-perspective matching for natural language sentences［C］//Proc of the 26th International Joint Conference on Artificial Intelligence.2017：4144-4150.

［12]Chen Qian，Zhu Xiaodan，Ling Zhenhua，et al.Enhanced LSTM for natural language inference［C］//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.2017：1657-1668.

［13]Seo M，Kembhavi A，F(xiàn)arhadi A，et al.Bidirectional attention flow for machine comprehension［EB/OL］.（2016-11-05）.https：//arxiv.org/abs/1611.01603.

［14]Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need［C］//Proc of the 31st International Conference on Neural Information Processing Systems.2017：6000-6010.

［15]Zilly J G，Srivastava R K，Koutnik J，et al.Recurrent highway networks［C］//Proc of International Conference on Machine Learning.2017：4189-4198.

［16]Bowman S R，Gupta R，Gauthier J，et al.A fast unified model for parsing and sentence understanding［C］//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.2016：1466-1477.

［17]Han Kun，Chen Junwen，Zhang Hui，et al.DELTA： a deep learning based language technology platform［EB/OL］.（2019）.https：//arxiv.org/abs/1908.01853.

［18]Shen Dinghan，Wang Guoyin，Wang Wenlin，et al. Baseline needs more love： on simple word-embedding-based models and associated pooling mechanisms［C］//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018：440-450.

［19]Borges L，Martins B，Calado P. Combining similarity features and deep representation learning for stance detection in the context of checking fake news ［J］.Journal of Data and Information Quality，2019，11（3）：1-26.

［20]Guo Qipeng，Qiu Xipeng，Liu Pengfei，et al. Star-transformer［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.2019：1315-1325.

［21]Mu N，Yao Zhewei，Gholami A，et al.Parameter re-initialization through cyclical batch size schedules［EB/OL］.（2018）.https：//arxiv.org/abs/1812.01216.

［22]楊德志，柯顯信，余其超，等.基于RCNN的問題相似度計算方法［J］.計算機工程與科學，2021，43（6）：1076-1080.（Yang Dezhi，Ke Xianxin，Yu Qichao，et al.A question similarity calculation method based on RCNN［J］.Journal of Computer Engineering and Science，2021，43（6）：1076-1080.）

［23]He Hua，Lin J. Pairwise word interaction modeling with deep neural networks for semantic similarity measurement［C］//Proc of Confe-rence of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies.2016：937-948.

［24]趙琪，杜彥輝，蘆天亮，等.基于Capsule-BiGRU的文本相似度分析算法［J］.計算機工程與應用，2021，57（15）：171-177.（Zhao Qi，Du Yanhui，Lu Tianliang，et al.Algorithm of text similarity analysis based on Capsule-BiGRU［J］.Journal of Computer Enginee-ring and Applications，2021，57（15）：171-177.）

收稿日期：2021-09-25；

修回日期：2021-11-10

基金項目：國家語委“十三五”科研項目（YB135-76）；延邊大學外國語言文學一流學科建設資助項目（18YLPY13）

作者簡介：姜克鑫（1997-），男，江西九江人，碩士研究生，主要研究方向為自然語言處理；趙亞慧（1974-），女（通信作者），吉林長春人，教授，碩導，碩士，主要研究方向為自然語言處理（yhzhao@ybu.edu.cn）；崔榮一（1962-），男（朝鮮族），吉林延吉人，教授，碩導，博士，主要研究方向為模式識別、智能計算.

計算機應用研究2022年4期

計算機應用研究的其它文章: 融合多路特征和注意力機制的強化學習關鍵幀提取算法; 基于對抗學習的醫(yī)學圖像分割領域自適應研究; 基于多級上下文引導的實時語義分割網(wǎng)絡; 基于卷積特征聚合的細粒度圖像檢索方法; 顏色恢復和邊緣保持的低照度圖像超分辨率重建方法; 輕量級多信息圖卷積神經(jīng)網(wǎng)絡動作識別方法