999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的短文本相似度判別模型

2021-04-13 08:46:36方子卿陳一飛
電腦知識與技術 2021年5期

方子卿 陳一飛

摘要:短文本的表示方法和特征提取方法是自然語言處理基礎研究的一個重要方向,具有廣泛的應用價值。本文提出了BERT_BLSTM_TCNN模型,該神經網絡模型利用BERT的遷移學習,并在詞向量編碼階段引入對抗訓練方法,訓練出包括句的語義和結構特征的且泛化性能更優的句特征,并將這些特征輸入BLSTM_TCNN層中進行特征抽取以完成對短文本的語義層面上的相似判定。在相關數據集上的實驗結果表明:與最先進的預訓練模型相比,該模型在有著不錯的判定準確率的同時還有參數量小易于訓練的優點。

關鍵詞:詞向量模型;自然語言處理;短文本相似度;卷積神經網絡;循環神經網絡

Abstract: Short text representation methods and feature extraction methods are an important direction of basic research in natural language processing, and have a wide range of applications. This paper proposes the BERT_BLSTM_TCNN model. The neural network model uses BERT's transfer learning and introduces an adversarial training method in the word vector encoding stage to train sentence features that include the semantic and structural features of the sentence and have better generalization performance, and combine these The feature is input into the BLSTM_TCNN layer for feature extraction to complete the similarity determination on the semantic level of the short text. The experimental results on the relevant data set show that: compared with the most advanced pre-training model, this model has a good judgment accuracy rate and also has the advantages of small parameters and easy training.

Key words: word embedding model; natural language processing; short text similarity; convolutional neural networks; recurrent neural networks

近些年來隨著個人計算機的普及和各種網絡信息技術的快速進步,數字化的文本數量也隨之呈現爆炸式的增長。其中很大一部分是短文本,如微信、微博等社交網絡上的信息和博文、京東、淘寶等網絡商城上關于出售商品的評價、電子政務平臺里的群眾意見反饋等。雖然數據量的激增對現行的信息處理系統是一種挑戰,但大數據的出現也使得新方法的研究成為可能。如何將這些語料資源進行篩選分類,使之成為有用的、真正有價值的素材,成為最需要解決的核心問題。文本的相似度判定是自然語言處理領域中的一個基礎任務,研究準確快速的相似度判定方法對信息的初步篩選分類和更進一步的處理都有重大意義。

文本相似度判定可以被看成是一種特殊的文本分類任務,即一個二分類(相似或者不相似)問題。近幾年的機器學習尤其是深度學習快速發展也使得其成為研究文本分類的一個熱門方向。目前深度學習中主流的神經網絡模型結構有卷積神經網絡(CNN)和循環神經網絡(RNN)兩種。卷積神經網絡在提取特征方面具有不錯的效果并首先在圖像領域取得突破,然后逐步應用于文本領域。Kim Y[1]首次將卷積神經網絡應用于句子分類任務的模型設計中,并通過一系列實驗證明了方法的有效性。Lei等[2]為了使CNN更好地適應文本處理,在標準卷積層基礎上進行非線性化改造。Wang等[3]利用聚類算法進行語義擴展,再通過CNN進行分類。Joulin等[4]將訓練好的詞向量進行加權求和形成可以良好表示句子的句向量。循環神經網絡能夠很好地處理任意長度的序列并捕獲上下文信息,LSTM(長短期記憶網絡)是循環神經網絡的一種改進模型,其具有能夠存儲上下文信息的特點。Arevian[5]在實際文本分類任務中應用了循環神經網絡。Yang Z等[6]在LSTM的基礎上通過引入了注意力機制進行改進并在文本分類任務上獲得了不錯的效果。Tang等[7]在處理情感分類任務時結合使用了卷積神經網絡和門控神經網絡來進行文本表示。Zhou等[8]使用卷積神經網絡對向量化的詞語進特征抽取后輸入長短時記憶網絡形成句子的表示。Lai等[9]在使用RNN構建文本表示后直接進行最大池化操作以獲取最有效的分類信息。上述研究表明CNN與RNN(尤其是LSTM等改進模型)已經在文本分類領域取得一定的進展,利用深度學習的方法構建模型表示文本和文本相似度判定,已經被證明可以獲得了良好的效果。

如何將短文本的信息更加有效的表示是進行相似句對判定的基礎。基于統計學知識的文本表示模型等模型雖然簡單有效,但是在處理短文本時由于本身的維度過高和數據稀疏的問題使得其無法更進一步提升。2013年,Mikolov等[10]人提出了基于word embedding(即詞嵌入方法)的word2vec模型。相比于其他文本表示方法word2vec不僅可以從根本上解決了“維度災難”問題,訓練獲得的向量還能夠在語義層面上體現詞間的關系 [11]。用這種方法訓練出來的詞向量,能從根本上來提升文本分類任務的效果。ELMo[12]和BERT[13]兩種最新的詞向量模型在2018相繼被提出。尤其是后者,剛一問世就在多個自然語言處理任務上取得了突破。目前,BERT預訓練模型由于其靈活的訓練方式和不錯效果,在許多任務中被深入的研究和應用。因此,在一系列BERT預訓練模型中選用小參數量的BERT-base作為模型的向量編碼層,采用了遷移學習中fine-tune(微調)的方法來調整預訓練模型,使得訓練出來的模型可以更好地適應金融領域的短文本相似句對判定任務。

1 BERT_BLSTM_TCNN模型

基于BERT預訓練模型提出了BERT_BLSTM_TCNN模型,該模型主要由詞嵌入階段的BERT-base層和用于特征抽取的BLSTM_TCNN層兩大部分組成。將文本預處理后的相似句對,對輸入BERT-base層。在詞嵌入階段利用BERT-base預訓練模型并引入對抗訓練的FGM(快速梯度方法)訓練相似句對進行詞向量編碼,再將訓練好的[CLS]向量輸入進入BLSTM_TCNN層,該階段主要對其進行特征抽取,過濾掉對相似度判定任務沒有幫助的特征,使得效果相比于直接利用BERT-base模型連接全連接層(Dense層),在相似句對判定表現上有所提高。BERT_BLSTM_TCNN模型結構如圖1所示。

1.1文本預處理

文本預處理是進行詞嵌入之前的重要步驟,對詞嵌入生成的向量有較大的影響。中文文本與拉丁語系文本不同的是,中文文本中既沒有空格作為天然分詞符號,同時也存在大量的單字成詞現象。所以使用分詞的方式處理中文短文本雖然可行,但是由于中文詞語數量巨大,如果對其進行向量化則需要大量相關語料,同時也容易導致維度災難。對于中文短文本來說,基于字的編碼方式直接利用BERT遷移學習進行向量化已經被實踐證明是十分有效的。

經過對數據集的分析,實驗所用數據集較為干凈且由于大多數句子為問句,所以在句尾一般包含更多的有效信息。因此在數據預處理階段,主要工作是對數據集中的長句進行處理。因為長句包含的信息干擾較多,這給其核心含義的提取增加了難度,所以對于一些長句需要進行截斷操作來限制其長度從而達到消除干擾的目的,提高文本表示的效率。

1.2 BERT-base層

將預處理后的相似句對進行拼接,在拼接時在首位添加[CLS]向量和兩句之間增加[SEP]向量,并進行相應的初始化后輸入BERT預訓練模型。BERT采用了Transformer進行編碼,預測詞或者字的時候通過在訓練中引入了Self-attention(自注意力)機制 [14]雙向綜合的考慮了上下文特征,這樣可以使訓練出的句向量更加準確的獲得語義層面的信息(Token embeddings)。同時BERT還通過判斷給定的兩個句子是否是連續的方式捕捉句子級別的特征(Segment Embeddings)。此外BERT還通過對句中每個字符獨立編碼的設計,在訓練后可以獲得字符間相對位置的信息(Position embeddings)。最后得到的句向量為Token embeddings(包含詞或者字的信息)、Segment Embeddings(包含句子和句間信息)和Position embeddings(包含位置信息)三者相加的結果。該向量可以直接作為相似句對的表示輸入后續的BLSTM_TCNN層完成特征提取。

1.3 對抗學習生成對抗樣本

對抗訓練是通過正則化的手段增強模型的抗干擾能力的一種訓練技巧,目前已經有多種算法可以實現。其目的是通過對攻擊樣本的構造,讓模型在不同的攻擊樣本中訓練得到較強的識別性。選擇在Token embeddings階段引入Fast Gradient Method(快速梯度方法,FGM)[15]技術來生成對抗樣本并加入訓練集中一同訓練,使得訓練得到的模型擁有識別對抗樣本的能力,其增加的擾動為:

通過在訓練中添加擾動生成對抗樣本并輸入,可以幫助優化模型參數來提高魯棒性,從而實現對干擾的防御。實驗結果顯示,在Token embedding階段進行對抗擾動能有效提高模型的性能。

1.3 BLSTM_TCNN層

長短時記憶網絡(LSTM)是一種特殊的RNN,其既保持了傳統RNN能夠接受任意長度序列的輸入,又規避了傳統RNN存在的梯度消失和梯度爆炸的缺陷。雙向長短時記憶網絡(BLSTM)則在原有基礎上加強了上下文的關聯性,實際應用中證明有著更好的效果。利用卷積神經網絡(CNN)進行卷積和池化操作來提取對文本相似度判定任務有用的特征,來提高準確率。通過對BLSTM_TCNN設計和構建,在使用BERT-base預訓練模型進行文本表示后將BLSTM與CNN相結合進行特征抽取,使之更好地適應短文本相似句對判定任務。

BLSTM_TCNN模型主要由兩大部分組成:雙向長短時記憶網絡(BLSTM)和文本卷積神經網絡(TCNN)。其中,BLSTM 層捕捉輸入的句向量中可能相關的上下文信息,TCNN層用于篩選和提取對相似判定有效的特征。

1.3.1 BLSTM

前向LSTM和后向LSTM分別捕捉輸入序列的上下文信息,二者之間沒有信息交換,僅在輸出時將二者進行拼接,形成最終的輸出。其對應轉換函數公式如下:

1.3.2 TCNN層

卷積神經網絡最先應用于計算機視覺領域,其優點是可以很好地提取對象的局部特征,比如相同的一個物體,雖然可能周邊環境發生改變但是物體本身的特征沒有發生改變,可以通過這個特點識別出物體 [18]。輸入的文本信息經過前述BERT-base層和BLSTM層后,已經有相當多的信息被向量化,此時需要CNN來進行特征抽取以篩選出對相似度判定有效的特征。通常來說,單層卷積捕捉的特征是有限的,因此為了獲取較為全面的特征需要根據文本特點對卷積層和池化層進行設計。在單個通道中,輸入的向量在卷積層進行一維卷積得到特征,然后在池化層選取這些特征中的最大值。最后將每個通道中得到的特征進行拼接構成新的向量來表示文本。重復前述卷積與池化操作若干次,直至提取的特征滿足相似度判定要求后輸入下一層。經過閱讀相關資料和實驗測試,在前三次卷積層池化層交替設置后,模型效果都有一定提升,而再往上堆疊卷積層和池化層后效果下降。綜合BLSTM輸出向量的維度,以及對有效特征的估計,需要利用三層尺度遞減的卷積核捕捉向量有效的特征,這樣既保證了信息的全面性也在一定程度上減輕了過擬合的影響。設輸入的向量為M,其中的維度為d,卷積操作如式(12)所示。

1.3.3 SoftMax層

最后選用SoftMax作為判定層,并使用交叉熵函數(式13所示)作為代價函數進行訓練:

2實驗結果和分析

2.1數據集介紹

螞蟻金融語義相似度數據集 AFQMC(Ant Financial Question Matching Corpus),該數據集是金融領域(阿里螞蟻金融)的專業數據集,對研究金融領域的相似度判定以及后續的真實性驗證有很強的相關性。同時它也開放了模型得分排行榜方便比較模型的優劣。數據示例如表1所示。

其中label 為1代表短文本句對相同,label為 0代表短文本句對不同。這類的短文本相似句對的數據量為訓練集34334,驗證集4316,測試集3861。

2.2實驗設置和評估指標

實驗設備為個人臺式電腦(PC),在Windows 10專業版系統下的Anaconda虛擬環境下進行的實驗,內存16GB,利用GPU加速,GPU為 RTX2060。訓練時長根據模型大小的不同和參數的不同在40分鐘至3小時不等。

檢驗輸出的結果和標準答案對比。 測評指標為準確率,計算公式為:

準確率 = 正確預測數目 / 總問題對數目

2.4實驗結果

2.4.1在CLUE benchmark進行與其他模型對比

其中 RoBERTa-wwm-large [19]和BERT-wwm-ext [19]模型是哈工大訊飛實驗室基于BERT和Roberta[21]訓練方法引入全詞遮蓋和中文語料訓練等改進的模型。NEZHA-large[20]和NEZHA-base[20]則是華為諾亞方舟實驗室在BERT訓練方法的基礎上增加了相對位置編碼函數、全詞掩碼、混合精度訓練、優化器改進等優化的模型。BERT-base[13]是谷歌提出的小參數預訓練模型。ALBERT-xxlarge[21]是在BERT訓練方法的基礎上通過參數共享的方式降低了內存,從而達到提升訓練速度效果的改進模型。RoBERTa-large[22] 是Facebook提出的模型,其主要改進是在更多語料和訓練時長下,通過在訓練方法上使用動態Masking機制代替BERT原有的靜態Masking機制、引入輸入多個句子判斷連續性任務代替雙句連續性判斷任務等。ERNIE-base[23]則是百度提出的基于知識增強的模型,其主要通過對實體概念的建模學習更加符合實際應用中的語義關系。通過在測試集上表現已認證模型排行榜可以看出以下幾點結論:①與BERT-base模型相比,BERT_BLSTM_TCNN模型因為附加特征提取層的緣故,參數量有較小的增加,而準確率卻提高了0.6%,在小參數模型中擁有比較優秀的表現;②盡管提出的模型在最終準確率上并沒有做到最高的準確率,與表中最好的RoBERTa-wwm-large相比準確率差2.2%左右,但是由于在詞向量階段使用的預訓練模型BERT-base參數量較小,最終參數量卻僅僅是其三分之一。小參數量意味了更快的訓練速度和更低的運算資源需求,其訓練和使用也是更加方便的;③模型的參數量對最終相似句對判定準確率有一定的影響,但是并不是參數越多結構越復雜的模型效果就越好。例如RoBERTa-wwm-large表現要比 NEZHA-large和NEZHA-base要好,其參數量卻遠小于后兩者。因為大參數模型擁有更多的層數和更復雜的結構,其綜合性能可能更優,但是在某些特定任務中,其中一些參數對最終結果會產生一定干擾致使模型性能下降。

2.4.2不同模型結構比較

由上表可以明顯看出,相比于直接加入全連接層,加入TCNN和BLSTM效果都有所提升,并且BERT_BLSTM_TCNN的效果最好。說明經過一定的結構設計,是能夠在特征抽取階段對BERT訓練出的[CLS]向量在相似度相關的維度上進行修正以提高相似度判定的準確度。

2.4.3預處理和對抗學習對模型效果的影響

與沒有引入擾動和進行短文本的句子截斷相比,引入擾動后,在合適的擾動權重下效果有所提升。同時截斷長句也能在一定程度上提高模型的對相似度判定的準確率。

3結論

相比于直接使用大參數的預訓練模型進行微調來適配任務,對小參數模型進行改良來獲得一個比較良好的效果是更具有應用價值的。使用大參數模型意味著更多的計算資源的需求,這無疑是在無形中增加模型研究和應用的成本。雖然大數據量和大參數量的模型也有著調試方便、特征多樣等優點,但是其研究和使用門檻也會隨著參數量的增加越來越高,阻礙了其的實際應用。尤其在涉及語義相似度的任務研究時,基于大參數預訓練模型進行調試可以較快地獲得較好的效果,但是如果一個任務用簡單模型就可以達成相對不錯的效果,其應用價值無疑是更為廣泛的。提出的BERT_BLSTM_TCNN模型利用小參數的預訓練模型附加特征抽取層等方法,可以在小參數量的前提下在相似句對判定任務中達到較好的效果,說明小參數的預訓練模型仍有很大的潛力可以挖掘。相比于近年來大熱且不斷更新的大參數量模型設計,對已經發布小參數詞嵌入模型的調優改良的關注度相對較低,但是這并不代表BERT-base甚至是參數量更小的預訓練模型已經沒有研究價值。未來,如何特定任務場景下取得計算資源和模型參數量之間的平衡,使模型最具研究和應用價值會是一個值得給予關注的方向。

參考文獻:

[1] Kim Y. Convolutional Neural Networks for Sentence Classification[EB/OL]. [2014-9-3]. https://arxiv.org/abs/1408.5882.

[2] Lei T, Barzilay R, Jaakkola T. Molding CNNs for text: non-linear, non-consecutive convolutions[J]. Indiana University Mathematics Journal, 2015, 58(3):1151-1186.

[3] Wang P. Semantic Clustering and Convolutional Neural Network for Short Text Categorization[J]. 數字內容技術與服務研究中心, 2015:352-357.

[4] Joulin A,Grave E,Bojanowski P, et a1. Bag of tricks for efficient text classification[C].Proceedings of the 15th Conference ofthe European Chapter of the Association for Computational Linguistics.2017: 427-431.

[5] Arevian G. Recurrent Neural Networks for Robust Real-World Text Classification[C].IEEE/WIC/ACM International Conference on Web Intelligence. IEEE, 2007:326-329.

[6] Yang Z, Yang D, Dyer C, et al. Hierarchical Attention Networks for Document Classification[C]. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2017.

[7] Tang D, Qin B, Liu T . Document Modeling with Gated Recurrent Neural Network for Sentiment Classification[C]. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.

[8] Zhou C, Sun C, Liu Z, et al. A C-LSTM Neural Network for Text Classification[J]. Computer ence, 2015, 1(4):39-44.

[9] Lai S W,Xu L H,Liu K,et a1. Current convolutional neural networks for text lassification[C]. oceedings of the Twenty-Ninth A AAI Conference Oil rtificial Intelligence,2016:2268-2273.

[10] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013: 3111-3119.

[11] 牛雪瑩, 趙恩瑩. 基于Word2Vec的微博文本分類研究[J]. 計算機系統應用, 2019(8):256-261.

[12] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[C]. Proceedings of the 56th Annual Meeting of the Azssociation for Computational Linguistics, Stroudsburg: ACL press,2018:2227-2237.

[13] Devlin J , Chang M W , Lee K , et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL].[2019-5-24]. https://arxiv.org/abs/1810.04805.

[14] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[C]. Advances in neural information processing systems. Stroudsburg: MIT Press,2017: 5998-6008.

[15] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[EB/OL]. [2015-3-20]. https://arxiv.org/abs/1412.6572.

[16] 徐銘輝, 姚鴻勛. 基于句子級的唇語識別技術[J]. 計算機工程與應用, 2005(08):89-91.

[17] Nowak J, Taspinar A, Scherer R. LSTM recurrent neural networks for short text and sentiment classification[A]. International Conference on Artificial Intelligence and Soft Computing[C]. Cham, 2017: 553-562.

[18] 周飛燕, 金林鵬, 董軍. 卷積神經網絡研究綜述[J]. 計算機學報, 2017,40(6):1229-1251.

[19] Cui Y, Che W, Liu T, et al. Pre-Training with Whole Word Masking for Chinese BERT[EB/OL]. [2019-10-29]. https://arxiv.org/abs/1906.08101.

[20] Wei J, Ren X, Li X, et al. NEZHA: Neural Contextualized Representation for Chinese Language Understanding[EB/OL]. [2019-9-5]. https://arxiv.org/abs/1909.00204.

[21] Lan Z, Chen M, Goodman S, et al. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations[EB/OL]. [2020-2-9]. https://arxiv.org/abs/1909.11942.

[22] Liu Y, Ott M, Goyal N, et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach[EB/OL].[2019-7-26]. https://arxiv.org/abs/1907.11692.

[23] Sun Y, Wang S, Li Y, et al. ERNIE: Enhanced Representation through Knowledge Integration[EB/OL].[2019-4-19]. https://arxiv.org/abs/1904.09223.

【通聯編輯:王力】

主站蜘蛛池模板: 无码AV高清毛片中国一级毛片| 天天操天天噜| 婷婷五月在线| 国产拍在线| 国产免费黄| 国产色婷婷视频在线观看| 国产玖玖玖精品视频| 成人在线不卡| 茄子视频毛片免费观看| 国产91丝袜在线播放动漫| 永久成人无码激情视频免费| 国产精品 欧美激情 在线播放| 永久免费AⅤ无码网站在线观看| 欧美精品成人一区二区视频一| 久久九九热视频| 福利视频久久| 亚洲精品国产综合99久久夜夜嗨| 呦女亚洲一区精品| 国产永久无码观看在线| 亚洲第一极品精品无码| 五月天综合婷婷| 国产鲁鲁视频在线观看| 深夜福利视频一区二区| 国产成人AV大片大片在线播放 | 免费Aⅴ片在线观看蜜芽Tⅴ| 中文字幕亚洲第一| 国产99在线观看| 欧美日韩专区| 精品小视频在线观看| 99久视频| av在线5g无码天天| 少妇露出福利视频| 人人91人人澡人人妻人人爽| 免费看av在线网站网址| 国产精品第页| 久久国产精品电影| 岛国精品一区免费视频在线观看 | 亚洲人成网站色7777| 精品国产电影久久九九| 久久国产精品嫖妓| 无码福利视频| 国产91视频观看| 91麻豆精品国产高清在线| 制服丝袜国产精品| 欧美一区日韩一区中文字幕页| 亚洲国产精品国自产拍A| 国产a网站| 91探花在线观看国产最新| 国产高清无码麻豆精品| 在线观看视频一区二区| 久久国产香蕉| 亚洲精品日产AⅤ| 中文字幕在线免费看| 国产主播在线一区| 国产精品夜夜嗨视频免费视频| 成人午夜视频免费看欧美| 欧美国产日产一区二区| 玖玖精品在线| 美女内射视频WWW网站午夜| 亚洲人妖在线| 精品欧美日韩国产日漫一区不卡| 国产亚洲精品资源在线26u| 国产乱视频网站| 国产人妖视频一区在线观看| 国内精品自在自线视频香蕉| 国产精品主播| 亚洲最大在线观看| 青草娱乐极品免费视频| 国产成人亚洲精品无码电影| 欧美精品伊人久久| 欧美一区二区自偷自拍视频| 丰满人妻久久中文字幕| 欧美区国产区| 直接黄91麻豆网站| 夜夜操国产| 午夜精品久久久久久久无码软件 | 久久久久人妻一区精品色奶水| 国产玖玖视频| 18黑白丝水手服自慰喷水网站| 就去色综合| 日韩欧美视频第一区在线观看| 中文字幕啪啪|