999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的孿生網絡計算句子語義相似度

2021-01-12 11:15:25李景玉
科技資訊 2021年32期

李景玉

摘? 要:孿生網絡因自身特點被應用于句子相似度計算,但若模型只關注構成句子本身的詞語,是無法獲得該詞語更多的語義信息的。針對這一問題,該文基于BERT模型,提出基于BERT的孿生網絡計算句子語義相似度的方法,該方法通過BERT模型,得到具有豐富語義信息的句子向量,再利用該向量在孿生網絡中計算相似度。在公開數據集LCQMC上的實驗結果表明,基于BERT的孿生網絡計算句子語義相似度方法的Accuracy優于基于卷積孿生網絡計算句子語義相似度方法。

關鍵詞:BERT? 孿生網絡? 句子向量? 句子相似度

中圖分類號: TP312? ? ? 文獻標識碼:A

Abstract: The Siamese network is applied to sentence similarity computation due to its characters. However, if observe the words of sentence, it can’t get more semantic information from words. According to this problem, A sentence semantic similarity computation based on BERT in Siamese network. Through BERT model, the sentence vector with more semantic information is get. Then using this vector compute sentence similarity in Siamese network. Experimental results on LCQMC datasets shows that the sentence semantic similarity computation method based on BERT in Siamese network is better than the sentence semantic similarity computation method in Siamese CNN architecture.

Key Words: BERT; Siamese network; Sentence vector; Sentence similarity

1? 相關工作

計算句子語義相似度是自然語言處理中的一個重要的基礎問題,這項技術被廣泛地應用于信息檢索、問答系統、機器翻譯等方面。比如:在信息檢索中,需要計算查詢項和數據庫中文檔的匹配,而問答系統中,需要計算查詢問題和候選答案之間的匹配程度。而計算句子語義相似度這項基礎技術直接影響著上層應用系統的效能,因此目前仍有眾多學者熱衷于改進句子語義相似度的計算方法。

傳統的句子語義相似度計算方法主要有基于編輯距離的句子相似度計算方法[1]、基于詞的句子相似度計算方法[2-3]、基于本體詞典的句子相似度計算方法[4]等。而隨著機器學習的發展,以及深度學習的廣泛應用,越來越多的學者開始利用神經網絡構建模型來計算句子語義相似度。常用的人工神經網絡結構包括卷積神經網絡(CNN,Convolutional Neural Networks)和循環神經網絡(RNN,Recurrent Neural Network),學者們會利用卷積神經網絡獲取句子中的局部和全局語義相關關系,以得到文本的綜合語義表示,從而計算句子語義相似度[5],同時也會利用依存句法等語義信息構建網絡計算句子語義相似度[6-7]。但是使用一個網絡結構來學習兩個句子需要分成兩步,這有可能會造成不一致的問題,因此能夠在同一時間同時學習兩個句子的孿生網絡,走入研究學者的視野。在計算英文句子的語義相似度時,基于字符級別變長序列的雙向長短期記憶(LSTM,Bidirectional Long Short-Term Memory)的孿生網絡結構[8]表現良好。最近一項研究將基于CNN的孿生網絡結構應用于中文句子語義相似度的計算[9]。

該文在文獻[9]的研究成果基礎上,提出一種通過BERT獲取詞嵌入向量作為輸入,采用孿生網絡結構計算句子相似度的方法,該文的主要貢獻如下:(1)該文引入句子中詞語的詞向量作為輸入,增強了句子的語義表示;(2)該文在改進了向量間距離的計算公式;(3)該文在孿生網絡架構的基礎上,應用詞向量,有效提升了句子相似度計算的性能。

2 基于BERT的孿生網絡算法

2.1 BERT

Devlin等人[10]于2018年提出一種基于深層Transformer的預訓練語言模型——BERT(Bidirectional Encoder Representation from Transformers)。BERT一經問世,就在多個自然語言處理任務中表現優異,比如信息抽取[11]、文本分類[12]等。而這正是由于BERT能夠在大規模無標注文本中挖掘出豐富的語義信息,通過BERT模型可以得到上下文語義表示,再進一步進行后續計算。BERT預訓練模型的基本模型結構是由多層Transformer構成,該文在BERT模型結構基礎上,結合自身任務設計的網絡架構如圖1所示。

BERT模型共分為三層:輸入層、編碼層、輸出層。輸入層的初始輸入為句子和句子開頭標識[CLS]、結尾標識[SEP],其中句子根據詞表劃分后的字符串,記為,由此得到,句子可以表示成字符串的集合。由字嵌入向量、分段嵌入向量、位置編碼向量組合而成后,得到BERT輸入向量。輸入向量經過由多層Transformer構成的編碼層后,得到BERT模型的輸出向量。該文將若干字符串的輸出向量經過計算轉換成句子的句子級表示。

2.2 孿生網絡架構

該文構建的孿生網絡架構如圖2所示。在這個網絡架構中,輸入數據是通過BERT模型得到句子的句子級表示和句子的句子級表示,通過向量間距離的計算公式得到最終的相似度。

該文在文獻[7]采用的距離公式基礎上,通過實驗比對,得出改進版的曼哈頓距離公式:

其中公式(1)中和是兩個句子的句子級表示,設置為BERT模型中超參數隱藏層大小。該文采用文獻[7]中公式(1)進行實驗時,發現損失率并沒有呈現出減小的趨勢,故對公式(1)進行了改進,變成對向量差的和求平均值。此時進行實驗,發現損失率呈減小的趨勢,說明模型學習到了知識,該方法可行。

在向量間相似度計算完成后,使用MSE(mean-square error)作為損失函數,經過計算后得到最終的相似度結果。

3 實驗

3.1 實驗數據

句子相似度是指兩個句子的語義匹配程度,該文將該問題轉化為判斷兩段文本是否相似的二分類任務,即結果采用0和1分別表示句子語義相似和句子語義不相似。該文實驗所采用的數據來自哈爾濱工業大學(深圳)[13] LCQMC(A Large-scale Chinese Question Matching Corpus),該數據集由從百度知道不同領域的用戶問題中抽取構建,是百度知道領域的中文問題匹配數據集。

數據集中包括238766條訓練數據和12500條測試數據,如表1中數據樣例所示,標簽1表示兩個句子為相似文本,標簽0表示兩個句子為不相似文本。

3.2實驗環境

實驗計算機硬件配置:Intel Core i9處理器,32GB內存,NVIDIA RTX 2060顯卡。

實驗計算機軟件配置:Windows10 操作系統,Python 3.8,torch 1.9.0,CUDA 11.1。

3.3 評價指標

該文實驗用于判斷文本的相似度,采用評價指標Accuracy。

3.4 實驗結果及分析

該文使用PyTorch版bert-base-chinese構建字符串向量。當設定迭代次數為6次時,分別采用不同的學習率進行對測試集進行預測,得到結果如表1。從表1中我們可以看到,學習率2e-5到3e-5的accuracy的提升并不多,更大的學習率將會使得模型Accuracy降低,故該文模型最終采用學習率3e-5。

在通過BERT模型獲得句子級表示時,分為兩種主要的處理方式,一種叫作CLS,是指取CLS標志的最后一層輸出作為句子向量;另一種叫作AVG,是指句子向量通過取序列最后一層的輸出求平均獲得。該文分別用兩種方式對測試集進行了預測,同時與文獻[7]的最好結果進行比較,實驗結果如表2。實驗發現,使用AVG方式得到的句子級表示在進行相似度計算后,得到的Accuracy最高,達到83.94%。

4 結語

句子相似度計算作為自然語言處理的基礎任務,一直受到研究學者的關注。該文通過引入BERT詞嵌入向量作為輸入,再利用孿生網絡架構計算句子相似度。實驗結果表明,基于BERT的孿生網絡計算句子相似度的方法要優于基于卷積孿生網絡計算句子相似度的方法,最終Accuracy達到83.94%,提高6.63%。

參考文獻

[1] 車萬翔,劉挺,秦兵,等.基于改進編輯距離的中文相似句子檢索[J].高技術通訊,2004,14(7):15-19.

[2] 呂學強,任飛亮,黃志丹,等.句子相似模型和最相似句子查找算法[J].東北大學學報:自然科學版,2003(6):531-534.

[3] 楊思春.一種改進的句子相似度計算模型[J].電子科技大學學報,2006(6):956-959.

[4] 劉宏哲.一種基于本體的句子相似度計算方法[J].計算機科學,2013,40(1):251-256.

[5] 李霞,劉承標,章友豪,等.基于局部和全局語義融合的跨語言句子語義相似度計算模型? [J].中文信息學報,2019,33(6):18-26.

[6] 楊萌,李培峰,朱巧明.一種基于Tree-LSTM的句子相似度計算方法[J].北京大學學報:自然科學版,2018,54(3):481-486.

[7] 胡艷霞,王成,李弼程,等.基于多頭注意力機制Tree-LSTM的句子語義相似度計算[J].中文信息學報,2020,34(3):23-33.

[8] NECULOIU P.VERSTEEGH M,ROTARU M.Learning Text Similarity with Siamese Recurrent Networks[C]//Proceedings of the 1st Workshop on Representation Learning for NLP.2016:148-157.

[9] SHI H X,WANG C,SAKAI T. A Siamese CNN Architecture for Learning Chinese Sentence Similarity[C]//Proceedings of the 1st Conference of the Asia-Pacifific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing: Student Research Workshop.2020:24-29.

[10]DEVLIN J,CHANG M W,LEEK,et al. BERT:Pre-training of Deep Bidirectional Transformer for Language Understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.2019:4171-4186.

[11]杜慧祥,楊文忠,石義樂,等.基于BERT和卷積神經網絡的人物關系抽取研究[J].東北大學學報:自然科學版,2021,53(3):49-55.

[12]楊文浩,劉廣聰,羅可勁.基于BERT和深層等長卷積的新聞標簽分類[J].計算機與現代化,2021(8):94-99.

[13]LIU X,CHEN Q C,DENG C,et al.LCQMC:A Large-scale Chinese Question Matching Corpus[C]//Proceedings of the 27th International Conference on Computational Linguistics.2018:1952-1962.

主站蜘蛛池模板: 成人国产精品2021| 日韩高清欧美| 国内精品九九久久久精品| 国产成人高清亚洲一区久久| 在线国产你懂的| 成人精品免费视频| 色综合日本| 国产91无码福利在线| 网久久综合| 99色亚洲国产精品11p| 毛片免费在线| 97免费在线观看视频| 国产午夜人做人免费视频| 91福利在线看| 91年精品国产福利线观看久久 | 久久久91人妻无码精品蜜桃HD| 91在线一9|永久视频在线| 亚洲AV永久无码精品古装片| 无码内射在线| 91精品视频播放| 国产欧美在线| 久久国产黑丝袜视频| 亚洲午夜综合网| 91成人在线观看| 国产性猛交XXXX免费看| 亚洲精品国产乱码不卡| 99精品视频在线观看免费播放| 久久国产成人精品国产成人亚洲| 天天婬欲婬香婬色婬视频播放| 亚洲成aⅴ人片在线影院八| 久久综合九九亚洲一区| 欧美日韩中文字幕在线| 精品综合久久久久久97超人| 国产理论最新国产精品视频| 日韩最新中文字幕| 国产精品久久久久久影院| 美女一级毛片无遮挡内谢| 91国语视频| 在线欧美日韩国产| 动漫精品啪啪一区二区三区| 视频二区亚洲精品| 中文字幕一区二区视频| 国产精品刺激对白在线| 在线精品亚洲国产| 成年av福利永久免费观看| 日韩欧美国产三级| 天天综合网色| 欧美精品亚洲日韩a| 免费观看男人免费桶女人视频| 国产成人精品亚洲77美色| 91色在线观看| 亚洲国产中文精品va在线播放| 国产黄在线观看| 国产在线专区| 日本精品影院| 久久一级电影| 视频二区中文无码| 中文字幕在线播放不卡| 美女无遮挡拍拍拍免费视频| 极品性荡少妇一区二区色欲| 亚洲无线视频| 欧美日韩国产精品综合| 日韩国产一区二区三区无码| 米奇精品一区二区三区| 亚洲日韩在线满18点击进入| 亚洲精品视频网| 欧美精品一区二区三区中文字幕| 久久久噜噜噜| 欧美日一级片| 国产亚洲视频中文字幕视频 | 国产精品无码翘臀在线看纯欲| 中文字幕欧美日韩| 天堂va亚洲va欧美va国产| 青青草91视频| 日本欧美成人免费| 日本在线欧美在线| 久久国产精品影院| 亚洲精品国产首次亮相| 亚洲精品第1页| 91偷拍一区| 在线国产毛片| 国内精品伊人久久久久7777人|