基于BERT的短文本相似度判別模型

2021-04-13 08:46:36方子卿陳一飛

電腦知識與技術 2021年5期

方子卿陳一飛

摘要：短文本的表示方法和特征提取方法是自然語言處理基礎研究的一個重要方向，具有廣泛的應用價值。本文提出了BERT_BLSTM_TCNN模型，該神經網(wǎng)絡模型利用BERT的遷移學習，并在詞向量編碼階段引入對抗訓練方法，訓練出包括句的語義和結構特征的且泛化性能更優(yōu)的句特征，并將這些特征輸入BLSTM_TCNN層中進行特征抽取以完成對短文本的語義層面上的相似判定。在相關數(shù)據(jù)集上的實驗結果表明：與最先進的預訓練模型相比，該模型在有著不錯的判定準確率的同時還有參數(shù)量小易于訓練的優(yōu)點。

關鍵詞：詞向量模型;自然語言處理;短文本相似度;卷積神經網(wǎng)絡;循環(huán)神經網(wǎng)絡

Abstract： Short text representation methods and feature extraction methods are an important direction of basic research in natural language processing， and have a wide range of applications. This paper proposes the BERT_BLSTM_TCNN model. The neural network model uses BERT's transfer learning and introduces an adversarial training method in the word vector encoding stage to train sentence features that include the semantic and structural features of the sentence and have better generalization performance， and combine these The feature is input into the BLSTM_TCNN layer for feature extraction to complete the similarity determination on the semantic level of the short text. The experimental results on the relevant data set show that： compared with the most advanced pre-training model， this model has a good judgment accuracy rate and also has the advantages of small parameters and easy training.

Key words： word embedding model; natural language processing; short text similarity; convolutional neural networks; recurrent neural networks

近些年來隨著個人計算機的普及和各種網(wǎng)絡信息技術的快速進步，數(shù)字化的文本數(shù)量也隨之呈現(xiàn)爆炸式的增長。其中很大一部分是短文本，如微信、微博等社交網(wǎng)絡上的信息和博文、京東、淘寶等網(wǎng)絡商城上關于出售商品的評價、電子政務平臺里的群眾意見反饋等。雖然數(shù)據(jù)量的激增對現(xiàn)行的信息處理系統(tǒng)是一種挑戰(zhàn)，但大數(shù)據(jù)的出現(xiàn)也使得新方法的研究成為可能。如何將這些語料資源進行篩選分類，使之成為有用的、真正有價值的素材，成為最需要解決的核心問題。文本的相似度判定是自然語言處理領域中的一個基礎任務，研究準確快速的相似度判定方法對信息的初步篩選分類和更進一步的處理都有重大意義。

文本相似度判定可以被看成是一種特殊的文本分類任務，即一個二分類（相似或者不相似）問題。近幾年的機器學習尤其是深度學習快速發(fā)展也使得其成為研究文本分類的一個熱門方向。目前深度學習中主流的神經網(wǎng)絡模型結構有卷積神經網(wǎng)絡（CNN）和循環(huán)神經網(wǎng)絡（RNN）兩種。卷積神經網(wǎng)絡在提取特征方面具有不錯的效果并首先在圖像領域取得突破，然后逐步應用于文本領域。Kim Y[1]首次將卷積神經網(wǎng)絡應用于句子分類任務的模型設計中，并通過一系列實驗證明了方法的有效性。Lei等[2]為了使CNN更好地適應文本處理，在標準卷積層基礎上進行非線性化改造。Wang等[3]利用聚類算法進行語義擴展，再通過CNN進行分類。Joulin等[4]將訓練好的詞向量進行加權求和形成可以良好表示句子的句向量。循環(huán)神經網(wǎng)絡能夠很好地處理任意長度的序列并捕獲上下文信息，LSTM（長短期記憶網(wǎng)絡）是循環(huán)神經網(wǎng)絡的一種改進模型，其具有能夠存儲上下文信息的特點。Arevian[5]在實際文本分類任務中應用了循環(huán)神經網(wǎng)絡。Yang Z等[6]在LSTM的基礎上通過引入了注意力機制進行改進并在文本分類任務上獲得了不錯的效果。Tang等[7]在處理情感分類任務時結合使用了卷積神經網(wǎng)絡和門控神經網(wǎng)絡來進行文本表示。Zhou等[8]使用卷積神經網(wǎng)絡對向量化的詞語進特征抽取后輸入長短時記憶網(wǎng)絡形成句子的表示。Lai等[9]在使用RNN構建文本表示后直接進行最大池化操作以獲取最有效的分類信息。上述研究表明CNN與RNN（尤其是LSTM等改進模型）已經在文本分類領域取得一定的進展，利用深度學習的方法構建模型表示文本和文本相似度判定，已經被證明可以獲得了良好的效果。

如何將短文本的信息更加有效的表示是進行相似句對判定的基礎。基于統(tǒng)計學知識的文本表示模型等模型雖然簡單有效，但是在處理短文本時由于本身的維度過高和數(shù)據(jù)稀疏的問題使得其無法更進一步提升。2013年，Mikolov等[10]人提出了基于word embedding（即詞嵌入方法）的word2vec模型。相比于其他文本表示方法word2vec不僅可以從根本上解決了“維度災難”問題，訓練獲得的向量還能夠在語義層面上體現(xiàn)詞間的關系 [11]。用這種方法訓練出來的詞向量，能從根本上來提升文本分類任務的效果。ELMo[12]和BERT[13]兩種最新的詞向量模型在2018相繼被提出。尤其是后者，剛一問世就在多個自然語言處理任務上取得了突破。目前，BERT預訓練模型由于其靈活的訓練方式和不錯效果，在許多任務中被深入的研究和應用。因此，在一系列BERT預訓練模型中選用小參數(shù)量的BERT-base作為模型的向量編碼層，采用了遷移學習中fine-tune（微調）的方法來調整預訓練模型，使得訓練出來的模型可以更好地適應金融領域的短文本相似句對判定任務。

1 BERT_BLSTM_TCNN模型

基于BERT預訓練模型提出了BERT_BLSTM_TCNN模型，該模型主要由詞嵌入階段的BERT-base層和用于特征抽取的BLSTM_TCNN層兩大部分組成。將文本預處理后的相似句對，對輸入BERT-base層。在詞嵌入階段利用BERT-base預訓練模型并引入對抗訓練的FGM（快速梯度方法）訓練相似句對進行詞向量編碼，再將訓練好的[CLS]向量輸入進入BLSTM_TCNN層，該階段主要對其進行特征抽取，過濾掉對相似度判定任務沒有幫助的特征，使得效果相比于直接利用BERT-base模型連接全連接層（Dense層），在相似句對判定表現(xiàn)上有所提高。BERT_BLSTM_TCNN模型結構如圖1所示。

1.1文本預處理

文本預處理是進行詞嵌入之前的重要步驟，對詞嵌入生成的向量有較大的影響。中文文本與拉丁語系文本不同的是，中文文本中既沒有空格作為天然分詞符號，同時也存在大量的單字成詞現(xiàn)象。所以使用分詞的方式處理中文短文本雖然可行，但是由于中文詞語數(shù)量巨大，如果對其進行向量化則需要大量相關語料，同時也容易導致維度災難。對于中文短文本來說，基于字的編碼方式直接利用BERT遷移學習進行向量化已經被實踐證明是十分有效的。

經過對數(shù)據(jù)集的分析，實驗所用數(shù)據(jù)集較為干凈且由于大多數(shù)句子為問句，所以在句尾一般包含更多的有效信息。因此在數(shù)據(jù)預處理階段，主要工作是對數(shù)據(jù)集中的長句進行處理。因為長句包含的信息干擾較多，這給其核心含義的提取增加了難度，所以對于一些長句需要進行截斷操作來限制其長度從而達到消除干擾的目的，提高文本表示的效率。

1.2 BERT-base層

將預處理后的相似句對進行拼接，在拼接時在首位添加[CLS]向量和兩句之間增加[SEP]向量，并進行相應的初始化后輸入BERT預訓練模型。BERT采用了Transformer進行編碼，預測詞或者字的時候通過在訓練中引入了Self-attention（自注意力）機制 [14]雙向綜合的考慮了上下文特征，這樣可以使訓練出的句向量更加準確的獲得語義層面的信息（Token embeddings）。同時BERT還通過判斷給定的兩個句子是否是連續(xù)的方式捕捉句子級別的特征（Segment Embeddings）。此外BERT還通過對句中每個字符獨立編碼的設計，在訓練后可以獲得字符間相對位置的信息（Position embeddings）。最后得到的句向量為Token embeddings（包含詞或者字的信息）、Segment Embeddings（包含句子和句間信息）和Position embeddings（包含位置信息）三者相加的結果。該向量可以直接作為相似句對的表示輸入后續(xù)的BLSTM_TCNN層完成特征提取。

1.3 對抗學習生成對抗樣本

對抗訓練是通過正則化的手段增強模型的抗干擾能力的一種訓練技巧，目前已經有多種算法可以實現(xiàn)。其目的是通過對攻擊樣本的構造，讓模型在不同的攻擊樣本中訓練得到較強的識別性。選擇在Token embeddings階段引入Fast Gradient Method（快速梯度方法，F(xiàn)GM）[15]技術來生成對抗樣本并加入訓練集中一同訓練，使得訓練得到的模型擁有識別對抗樣本的能力，其增加的擾動為：

通過在訓練中添加擾動生成對抗樣本并輸入，可以幫助優(yōu)化模型參數(shù)來提高魯棒性，從而實現(xiàn)對干擾的防御。實驗結果顯示，在Token embedding階段進行對抗擾動能有效提高模型的性能。

1.3 BLSTM_TCNN層

長短時記憶網(wǎng)絡（LSTM）是一種特殊的RNN，其既保持了傳統(tǒng)RNN能夠接受任意長度序列的輸入，又規(guī)避了傳統(tǒng)RNN存在的梯度消失和梯度爆炸的缺陷。雙向長短時記憶網(wǎng)絡（BLSTM）則在原有基礎上加強了上下文的關聯(lián)性，實際應用中證明有著更好的效果。利用卷積神經網(wǎng)絡（CNN）進行卷積和池化操作來提取對文本相似度判定任務有用的特征，來提高準確率。通過對BLSTM_TCNN設計和構建，在使用BERT-base預訓練模型進行文本表示后將BLSTM與CNN相結合進行特征抽取，使之更好地適應短文本相似句對判定任務。

BLSTM_TCNN模型主要由兩大部分組成：雙向長短時記憶網(wǎng)絡（BLSTM）和文本卷積神經網(wǎng)絡（TCNN）。其中，BLSTM 層捕捉輸入的句向量中可能相關的上下文信息，TCNN層用于篩選和提取對相似判定有效的特征。

1.3.1 BLSTM

前向LSTM和后向LSTM分別捕捉輸入序列的上下文信息，二者之間沒有信息交換，僅在輸出時將二者進行拼接，形成最終的輸出。其對應轉換函數(shù)公式如下：

1.3.2 TCNN層

卷積神經網(wǎng)絡最先應用于計算機視覺領域，其優(yōu)點是可以很好地提取對象的局部特征，比如相同的一個物體，雖然可能周邊環(huán)境發(fā)生改變但是物體本身的特征沒有發(fā)生改變，可以通過這個特點識別出物體 [18]。輸入的文本信息經過前述BERT-base層和BLSTM層后，已經有相當多的信息被向量化，此時需要CNN來進行特征抽取以篩選出對相似度判定有效的特征。通常來說，單層卷積捕捉的特征是有限的，因此為了獲取較為全面的特征需要根據(jù)文本特點對卷積層和池化層進行設計。在單個通道中，輸入的向量在卷積層進行一維卷積得到特征，然后在池化層選取這些特征中的最大值。最后將每個通道中得到的特征進行拼接構成新的向量來表示文本。重復前述卷積與池化操作若干次，直至提取的特征滿足相似度判定要求后輸入下一層。經過閱讀相關資料和實驗測試，在前三次卷積層池化層交替設置后，模型效果都有一定提升，而再往上堆疊卷積層和池化層后效果下降。綜合BLSTM輸出向量的維度，以及對有效特征的估計，需要利用三層尺度遞減的卷積核捕捉向量有效的特征，這樣既保證了信息的全面性也在一定程度上減輕了過擬合的影響。設輸入的向量為M，其中的維度為d，卷積操作如式（12）所示。

1.3.3 SoftMax層

最后選用SoftMax作為判定層，并使用交叉熵函數(shù)（式13所示）作為代價函數(shù)進行訓練：

2實驗結果和分析

2.1數(shù)據(jù)集介紹

螞蟻金融語義相似度數(shù)據(jù)集 AFQMC（Ant Financial Question Matching Corpus），該數(shù)據(jù)集是金融領域（阿里螞蟻金融）的專業(yè)數(shù)據(jù)集，對研究金融領域的相似度判定以及后續(xù)的真實性驗證有很強的相關性。同時它也開放了模型得分排行榜方便比較模型的優(yōu)劣。數(shù)據(jù)示例如表1所示。

其中l(wèi)abel 為1代表短文本句對相同，label為 0代表短文本句對不同。這類的短文本相似句對的數(shù)據(jù)量為訓練集34334，驗證集4316，測試集3861。

2.2實驗設置和評估指標

實驗設備為個人臺式電腦（PC），在Windows 10專業(yè)版系統(tǒng)下的Anaconda虛擬環(huán)境下進行的實驗，內存16GB，利用GPU加速，GPU為 RTX2060。訓練時長根據(jù)模型大小的不同和參數(shù)的不同在40分鐘至3小時不等。

檢驗輸出的結果和標準答案對比。測評指標為準確率，計算公式為：

準確率 = 正確預測數(shù)目 / 總問題對數(shù)目

2.4實驗結果

2.4.1在CLUE benchmark進行與其他模型對比

其中 RoBERTa-wwm-large [19]和BERT-wwm-ext [19]模型是哈工大訊飛實驗室基于BERT和Roberta[21]訓練方法引入全詞遮蓋和中文語料訓練等改進的模型。NEZHA-large[20]和NEZHA-base[20]則是華為諾亞方舟實驗室在BERT訓練方法的基礎上增加了相對位置編碼函數(shù)、全詞掩碼、混合精度訓練、優(yōu)化器改進等優(yōu)化的模型。BERT-base[13]是谷歌提出的小參數(shù)預訓練模型。ALBERT-xxlarge[21]是在BERT訓練方法的基礎上通過參數(shù)共享的方式降低了內存，從而達到提升訓練速度效果的改進模型。RoBERTa-large[22] 是Facebook提出的模型，其主要改進是在更多語料和訓練時長下，通過在訓練方法上使用動態(tài)Masking機制代替BERT原有的靜態(tài)Masking機制、引入輸入多個句子判斷連續(xù)性任務代替雙句連續(xù)性判斷任務等。ERNIE-base[23]則是百度提出的基于知識增強的模型，其主要通過對實體概念的建模學習更加符合實際應用中的語義關系。通過在測試集上表現(xiàn)已認證模型排行榜可以看出以下幾點結論：①與BERT-base模型相比，BERT_BLSTM_TCNN模型因為附加特征提取層的緣故，參數(shù)量有較小的增加，而準確率卻提高了0.6%，在小參數(shù)模型中擁有比較優(yōu)秀的表現(xiàn);②盡管提出的模型在最終準確率上并沒有做到最高的準確率，與表中最好的RoBERTa-wwm-large相比準確率差2.2%左右，但是由于在詞向量階段使用的預訓練模型BERT-base參數(shù)量較小，最終參數(shù)量卻僅僅是其三分之一。小參數(shù)量意味了更快的訓練速度和更低的運算資源需求，其訓練和使用也是更加方便的;③模型的參數(shù)量對最終相似句對判定準確率有一定的影響，但是并不是參數(shù)越多結構越復雜的模型效果就越好。例如RoBERTa-wwm-large表現(xiàn)要比 NEZHA-large和NEZHA-base要好，其參數(shù)量卻遠小于后兩者。因為大參數(shù)模型擁有更多的層數(shù)和更復雜的結構，其綜合性能可能更優(yōu)，但是在某些特定任務中，其中一些參數(shù)對最終結果會產生一定干擾致使模型性能下降。

2.4.2不同模型結構比較

由上表可以明顯看出，相比于直接加入全連接層，加入TCNN和BLSTM效果都有所提升，并且BERT_BLSTM_TCNN的效果最好。說明經過一定的結構設計，是能夠在特征抽取階段對BERT訓練出的[CLS]向量在相似度相關的維度上進行修正以提高相似度判定的準確度。

2.4.3預處理和對抗學習對模型效果的影響

與沒有引入擾動和進行短文本的句子截斷相比，引入擾動后，在合適的擾動權重下效果有所提升。同時截斷長句也能在一定程度上提高模型的對相似度判定的準確率。

3結論

相比于直接使用大參數(shù)的預訓練模型進行微調來適配任務，對小參數(shù)模型進行改良來獲得一個比較良好的效果是更具有應用價值的。使用大參數(shù)模型意味著更多的計算資源的需求，這無疑是在無形中增加模型研究和應用的成本。雖然大數(shù)據(jù)量和大參數(shù)量的模型也有著調試方便、特征多樣等優(yōu)點，但是其研究和使用門檻也會隨著參數(shù)量的增加越來越高，阻礙了其的實際應用。尤其在涉及語義相似度的任務研究時，基于大參數(shù)預訓練模型進行調試可以較快地獲得較好的效果，但是如果一個任務用簡單模型就可以達成相對不錯的效果，其應用價值無疑是更為廣泛的。提出的BERT_BLSTM_TCNN模型利用小參數(shù)的預訓練模型附加特征抽取層等方法，可以在小參數(shù)量的前提下在相似句對判定任務中達到較好的效果，說明小參數(shù)的預訓練模型仍有很大的潛力可以挖掘。相比于近年來大熱且不斷更新的大參數(shù)量模型設計，對已經發(fā)布小參數(shù)詞嵌入模型的調優(yōu)改良的關注度相對較低，但是這并不代表BERT-base甚至是參數(shù)量更小的預訓練模型已經沒有研究價值。未來，如何特定任務場景下取得計算資源和模型參數(shù)量之間的平衡，使模型最具研究和應用價值會是一個值得給予關注的方向。

參考文獻：

[1] Kim Y. Convolutional Neural Networks for Sentence Classification[EB/OL]. [2014-9-3]. https：//arxiv.org/abs/1408.5882.

[2] Lei T， Barzilay R， Jaakkola T. Molding CNNs for text： non-linear， non-consecutive convolutions[J]. Indiana University Mathematics Journal， 2015， 58（3）：1151-1186.

[3] Wang P. Semantic Clustering and Convolutional Neural Network for Short Text Categorization[J]. 數(shù)字內容技術與服務研究中心， 2015：352-357.

[4] Joulin A，Grave E，Bojanowski P， et a1. Bag of tricks for efficient text classification[C].Proceedings of the 15th Conference ofthe European Chapter of the Association for Computational Linguistics.2017： 427-431.

[5] Arevian G. Recurrent Neural Networks for Robust Real-World Text Classification[C].IEEE/WIC/ACM International Conference on Web Intelligence. IEEE， 2007：326-329.

[6] Yang Z， Yang D， Dyer C， et al. Hierarchical Attention Networks for Document Classification[C]. Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. 2017.

[7] Tang D， Qin B， Liu T . Document Modeling with Gated Recurrent Neural Network for Sentiment Classification[C]. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.

[8] Zhou C， Sun C， Liu Z， et al. A C-LSTM Neural Network for Text Classification[J]. Computer ence， 2015， 1（4）：39-44.

[9] Lai S W，Xu L H，Liu K，et a1. Current convolutional neural networks for text lassification[C]. oceedings of the Twenty-Ninth A AAI Conference Oil rtificial Intelligence，2016：2268-2273.

[10] Mikolov T， Sutskever I， Chen K， et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems， 2013： 3111-3119.

[11] 牛雪瑩，趙恩瑩. 基于Word2Vec的微博文本分類研究[J]. 計算機系統(tǒng)應用， 2019（8）：256-261.

[12] Peters M E， Neumann M， Iyyer M， et al. Deep contextualized word representations[C]. Proceedings of the 56th Annual Meeting of the Azssociation for Computational Linguistics， Stroudsburg： ACL press，2018：2227-2237.

[13] Devlin J ， Chang M W ， Lee K ， et al. BERT： Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL].[2019-5-24]. https：//arxiv.org/abs/1810.04805.

[14] Vaswani A， Shazeer N， Parmar N， et al. Attention Is All You Need[C]. Advances in neural information processing systems. Stroudsburg： MIT Press，2017： 5998-6008.

[15] Goodfellow I J， Shlens J， Szegedy C. Explaining and harnessing adversarial examples[EB/OL]. [2015-3-20]. https：//arxiv.org/abs/1412.6572.

[16] 徐銘輝，姚鴻勛. 基于句子級的唇語識別技術[J]. 計算機工程與應用， 2005（08）：89-91.

[17] Nowak J， Taspinar A， Scherer R. LSTM recurrent neural networks for short text and sentiment classification[A]. International Conference on Artificial Intelligence and Soft Computing[C]. Cham， 2017： 553-562.

[18] 周飛燕，金林鵬，董軍. 卷積神經網(wǎng)絡研究綜述[J]. 計算機學報， 2017，40（6）：1229-1251.

[19] Cui Y， Che W， Liu T， et al. Pre-Training with Whole Word Masking for Chinese BERT[EB/OL]. [2019-10-29]. https：//arxiv.org/abs/1906.08101.

[20] Wei J， Ren X， Li X， et al. NEZHA： Neural Contextualized Representation for Chinese Language Understanding[EB/OL]. [2019-9-5]. https：//arxiv.org/abs/1909.00204.

[21] Lan Z， Chen M， Goodman S， et al. ALBERT： A Lite BERT for Self-supervised Learning of Language Representations[EB/OL]. [2020-2-9]. https：//arxiv.org/abs/1909.11942.

[22] Liu Y， Ott M， Goyal N， et al. RoBERTa： A Robustly Optimized BERT Pretraining Approach[EB/OL].[2019-7-26]. https：//arxiv.org/abs/1907.11692.

[23] Sun Y， Wang S， Li Y， et al. ERNIE： Enhanced Representation through Knowledge Integration[EB/OL].[2019-4-19]. https：//arxiv.org/abs/1904.09223.

【通聯(lián)編輯：王力】

電腦知識與技術2021年5期

電腦知識與技術的其它文章: 基于深度殘差注意力的圖像事件描述; 結合卷積神經網(wǎng)絡與OpenCV的人臉表情識別; 程序設計課程實驗教學的改革與實踐; 智慧醫(yī)院信息化平臺架構設計探究; 采用可信計算技術為政務云平臺構建一體化防護模型; 雪亮工程項目通用集成策略研究???