999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

孿生網絡中文語義匹配方法的研究

2021-03-13 06:00:46于碧輝王加存
小型微型計算機系統 2021年2期
關鍵詞:語義實驗模型

于碧輝,王加存

(中國科學院大學,北京 100049)

(中國科學院 沈陽計算技術研究所,沈陽 110168)

1 引 言

基于自然語言理解的問答系統在過去幾年的人工智能中一直是一個熱門話題,而問答系統的基本任務,通常被認為是語義匹配任務,該任務的目標是從現有的數據庫中搜索與輸入問題具有相似意圖的問題,語義匹配任務通常可以被視為二元分類問題,其輸入是問題Q和候選答案A,系統被要求判斷兩個句子是否表達相同的含義.

1990年Bromley和LeCun提出孿生(Siamese)[1]神經網絡模型用于解決公鑰數字簽名的驗證問題.Siamese 神經網絡是指結構相似或者結果相同的兩個神經網絡,模型的特點為:在訓練過程中,兩個結構相同的神經網絡會被分開訓練,然而,神經網絡模型的參數權重是共享的,最后將兩個神經網絡的輸出連接起來,將拼接結果輸入到一個全連接層或其他層,最后連接一個全連接層或者其他層.孿生神經網絡在人臉識別等相似度問題中,效果非常好,而句子與句子之間的語義匹配問題在本質上和圖像領域中的人臉識別比較相似,所以在語義匹配任務中,應用孿生網絡來計算句子相似度也是可行的.

為了訓練孿生神經網絡模型,需要定義模型的目標函數,由于語義匹配不是常規的分類問題,因此,常用的目標函數并不適合孿生神經網絡模型.目前,孿生神經網絡常用的損失函數為對比損失函數(Contrastive Loss),令句子S1和句子S2 為孿生神經網絡的輸入,Y為指示 S1 和 S2 是否匹配的標簽,其中Y?0,1.如果句子S1 和 S2是匹配的,則Y=1,如果句子S1和S2是不匹配的,則Y=0.對比損失函數如公式(1)所示.

(1)

其中Dw為孿生神經網絡輸出的兩個特征向量的距離,即Dw(s1,s2)=‖Gw(s1)-Gw(s2)‖.由Gw表示孿生神經網絡對輸入向量編碼之后的輸出的特征向量,m代表對于Gw的懲罰的邊界值,只有距離Dw小于m的負樣本才會被加入到損失函數中.所有樣本的損失函數如公式(2)所示.

(2)

圖1表示的就是損失函數值與樣本特征的歐式距離之間的關系,其中虛線表示的是相似樣本的損失值,實線表示的不相似樣本的損失值.從圖1可以看出目標函數很好的表現出文本的匹配程序,但是其有一個缺點,由于采用歐式距離,因此分類邊界比較寬泛,因此,在語義匹配任務中,對比代價損失函數是有缺點的.

圖1 代價交叉熵Fig. 1 Cost cross entropy

在語義匹配模型中,除了需要考慮分類的正確性,還需要考慮答案的排序性,所以在使用交叉熵和對比代價損失函數的時候,其分類限制比較寬泛,導致相近的一些在邊界存在誤差,對于這種問題,其解決方法為margin loss,常見的改進的margin loss有L-softmax,A-softmax、AM-softmax等等,由于AM-softmax對損失邊界誤差的限制,使得類間的邊界更加清晰,因此,在本文中,使用am-softmax替換代價損失函數應用到孿生網絡來進行短文本語義匹配.

2 相關工作

目前,已經有很多研究者探索關于孿生神經網絡的語義匹配模型.一個最早的將孿生神經網絡應用到文本匹配的模型是深度語義結構模型(Deep Struc-tured Semantic Model,DSSM)[2],該模型建模對象是查詢內容和文檔之間的相似度,每個文檔對象和查詢內容都是分別通過5層神經網絡進行向量化編碼,然后將輸出結果拼接輸入到一個全連接層中,計算查詢內容和文檔之間的相似度.Tan等人[3]嘗試將CNN和LSTM等模型應用到孿生神經網絡中,實驗結果證明,在孿生神經網絡模型中應用LSTM網絡要比CNN網絡效果更好.為了進一步提供孿生神經網絡的匹配能力,有一些研究者[4,5]將注意力機制引入到孿生神經網絡模型中,并證明了注意力機制的有效性.深度模型中存在有限記憶的瓶頸問題,而注意力機制可以通過引入額外的權重參數來矯正兩個向量序列之間的相關性.Santos等人將注意力應用到孿生神經網絡模型模型中,提出Attentive Pooling-Convolutional Neural Network(AP-CNN)和 AP-BiLSTM 模型,這是一種雙向注意力模型,模型通過在兩個句子編碼的表示層后面加上注意力池化層,使得聚合層能夠感知到兩個輸入句子之間的相互依存關系,這樣能夠加深兩個句子間的聯系,可以影響彼此的表示計算.Wang[5]等人提出了“匹配融合”結構,首先在表示層使用BiLSTM層對輸入的句子向量進行編碼,然后對兩個編碼向量進行匹配運算,最后將運算結果通過BiLSTM進行聚合運算,將匹配結果聚合成向量.模型最大的特點是采用了雙向多角度匹配,這種結構可以在多個角度捕捉兩個句子之間的交互信息.Yichen Gong[6]等人提出Densely Interactive Inference Network (DIIN)模型,DIIN模型和其他匹配模型的結構都很接近,也是采用CNN與LSTM來做特征提取,但是在其輸入層,作者提出了很多想法,同時采用了詞向量、字向量,并且添加了一些額外的特征例如詞性等,其本意在于能額外輸入一些句法特征,CNN部分也采用了DenseNet的結構,實驗表明DIIN具有比所有其他模型更好的性能,并且集合得分也比較高.Seonhoon Kim[7]提出了,Densely-Connected Co-attentive Recurrent Neural Network(DRCN),DRCN模型和DIIN的結構十分相似,包括輸入層與特征提取層,DRCN在特征提取階段結合了DenseNet的連接策略與Attention機制,在interaction階段,也采取了更加多樣化的交互策略,論文的主要創新點有兩點:1.借鑒ResNet和DenseNet,運用到stack RNN中;2. 利用AutoEncoder來壓縮向量,減少參數迅速增加的壓力.實驗結果證明,DRCN比DIIN有小幅度的提升.

孿生神經網絡在人臉識別領域除了修改網絡結構之外,損失函數的改進也會對結果有很大的提升,傳統的softmax損失函數會將整個分類超空間,按照類別個數進行劃分,確保類別是分開的,然而,對于每個類別的類間距離和類內距離不做要求.對于損失函數的優化,Sun[8]等人提出了雙約束loss function,該損失函數的優化目標是希望同一類別的類內距離盡可能小,不同類別的類間距離大于margin,Schroff[9]等人提出了Triple Loss,在模型的輸入層輸入 三元組(a,p,n),在模型的最后一層去除softmax,該模型的優化目標是不同類別的類間距離要比相同類別的類間距離大于margin,這樣能夠獲得類內距離緊湊和類間距離分離的效果.Liu[10]等人開創性的提出一種新的損失函數-large softmax,L-softmax加強分類條件,強制讓對應類別的W和x夾角增加到原來的m倍,L-softmax用乘性margin使不同類別更加分離,特征相似度采用cos距離,由于此loss函數會導致loss很難收斂,因此需要在實際訓練過程中使用退火方法來加速收斂.Wang[11]等人基于L-softmax損失函數,使用乘性margin距離替換加性margin距離,即使用cosθ-m替換cos(mθ),并同時對權重W和特征F做歸一化,采用固定尺度因子s=30,實驗結果證明,與L-softmax相比,模型的性能有所提升,此方法最大的特點是訓練難度比L-softmax低,收斂速度也快.

在語義匹配的任務里面,我們期望每個匹配的句子對,都是一個類別,也就是匹配的句子對,相似度盡可能的大,不匹配的句子對,相似度盡可能的小.所以代價損失函數和am-softmax損失函數比原始的softmax損失函數更適合.在本論文中,我們以孿生神經網絡為基礎,引入注意力機制和am-softmax損失函數,將其應用在語義匹配任務上.

3 Siamese Network and Am-Softmax

3.1 基礎孿生神經網絡模型

基本的孿生神經網絡模型,由以下幾部分構成:

3.1.1 預處理

通過預處理獲得包含上下文信息的句子S1和句子S2的表示,句子中的每個詞語都將得到一個詞向量表示.

3.1.2 共享神經網絡

在得到句子的向量表示后,首先會經過一個LSTM層,通過LSTM可以得到句子向量的編碼信息,這里使用標準的LSTM,其公式如下所示.

(3)

詞語在句子的位置不同,其重要程度也不一樣,而每個句子在文檔的位置和表達的語義不同,重要程度也不同.除此之外,相同的詞語和句子在不同的文本語境中的重要性也不相同.因此在改進模型的LSTM層后面,加入了注意力機制. 權值共享的孿生神經網絡包含上面的LSTM層以及注意力機制層.

3.1.3 信息聚合

經過注意力機制層之后的兩個句子信息,需要進行信息融合,常用的融合方法有前饋神經網絡的全連接,兩個向量的歐式距離以及余弦相似度.

3.2 改進模型

在本論文中,改進的Siamese network如圖2所示.

圖2 模型結構圖Fig.2 Model structure diagram

考慮到中文語言本身的特性,中文的單個字也蘊含了大量的語義信息,因此在輸入層,不只是單單使用句子的詞向量,同時也需要考慮句子的字向量,句子的詞向量包含了句子的粗粒度的語義信息,句子的字向量包含了與子的細粒度語義信息.

在傳統的循環網絡模型中,隱藏層的狀態是從上一時刻向下一時刻傳遞的,是單向傳遞的.然而,實際上,隱藏層當前時刻的輸出不但和上一時刻的狀態有關聯,也和下一時刻的狀態有關聯.因此,使用單向的循環神經網絡,會只編碼單向的信息,忽略了反向的信息,因此,為了更好的編碼信息,可以使用雙向RNN(Bi-RNN)來解決此問題.Bi-RNN是由前向RNN和后向RNN組成的,在每個t時刻,輸入信息xt分別輸入到前向RNN和后向RNN中,而輸出信息這是由兩個RNN共同編碼組成.因此在本論文中的改進模型里面,我們在使用雙向LSTM(BiLSTM)替換單向的LSTM.

BiLSTM層編碼的在一定程度上可以有效地涵蓋文本語義信息,但是由于這種辦法很難將輸入文本的所有信息編碼在一個固定長度的向量中,降低了文本信息中重要詞匯的貢獻度,因此在本文中,我們在BiLSTM層后面加入注意力(Attention)機制,用Attention機制來提取對句子含義重要的詞的信息,對BiLSTM輸出結果重新編碼.

孿生神經網絡常用的損失函數是對比代價函數,而在對比代價損失函數中,需要定義距離函數,常見的有:曼哈頓距離、歐式距離和余弦相似度.在本文的模型中,我們將使用am-softmax來替換對比代價損失函數.Am-softmax公式如下所示.

(4)

(5)

其中θi代表z和ci的夾角,z是樣本,ci是分類的類別,s是縮放因子,m是margin.

所以,在本實驗中,模型改進的地方有以下幾點:

1)字向量加詞向量的輸入表示;

2)使用Bi-LSTM替換單向LSTM;

3)修改損失函數,用am-softmax損失函數代替對比代價損失函數.

4 實 驗

4.1 實驗數據與實驗設置

本文的實驗采用的數據集是哈爾濱工業大學在自然語言處理國際頂會COLING2018 構建的中文問題語義匹配數據集(LCQMC)[12],此數據集用搜索引擎收集來自不同領域的高頻詞相關的大規模問題對,然后通過Wasserstein距離過濾不相關的問題對,最后通過手工驗證,因此是一個高質量的數據集.數據集的大小為260068,其中包含238766個問題對的訓練集和12500個問題對的測試集.

在本論文中,既用到詞向量又用到字向量,因此,我們使用整個語料庫來自行訓練詞向量和字向量.雖然每個句子長度不相同,但是基本上比較接近,在實驗中,我們設置句子的詞語的個數為40,句子的字的個數為100,孿生網絡中的LSTM和Bi-LSTM的輸出維度均設置為128,在LSTM后面加入dropout,學習方法使用Adam,學習率設置為0.001,在實驗中,使用EarlyStop來防止過擬合.

4.2 實驗結果與分析

在本實驗中,我們采用準確率,召回率以及精確率以及F1值,為將本文模型與其它模型效果進行對比實驗,所有模型均采用LCQMC數據集,模型用到的詞向量用W表示,字向量用C表示,實驗結果如表1所示.

表1 Test resultTable 1 Test result

·連續詞匯(CBOW)模型[13]:首先用詞向量來表示一個句子中的每個字符或單詞.詞向量使用原始句子預先訓練的.其次,每個句子表示為詞向量的總和.最后,將兩個句子的輸出連接表示送到softmax分類器來預測輸出.

·卷積神經網絡(CNN)[14]:每個句子都表示為一個詞向量矩陣,該矩陣經過一個卷積神經網絡. 在本實驗中,兩個句子向量矩陣共享相同的卷積層權重.

·雙向長期短期記憶(BiLSTM)[15]:首先,兩個句子經過相同的LSTM單元,并使用LSTM編碼器在向前和向后方向編碼為句子向量. 其次,連接兩個句子的向量表示,使用softmax進行分類.

·雙邊多視角匹配(BiMPM)[16]:BiMPM在其輸入表示層使用基于字符的LSTM,BiLSTM層用于計算上下文信息,4種不同類型的多視角匹配層,附加到BiLSTM聚合層,然后輸入兩層前饋網絡進行預測.

以上4種模型相比,本文提出的方法在準確率上達到86.8%,精確率為81.3%,召回率為94.1%,F1值達到87.2%,均高于其他3個模型.本文的模型與以上3個模型相比,在Embedding層面,聯合使用詞向量與字向量,與CNN模型相比,本文神經網絡結果采用雙向LSTM,比CNN更能捕獲具有長期依賴的信息,更適合文本序列,與BiLSTM模型相比,本文在BiLSTM層后面加入了Attention機制,進一步提高了模型的特征表達能力.與BiMPM模型相比,本文采用am-softmax損失函數,與contrastive loss函數和softmax函數相比,am-softmax對分類邊界限制更嚴格,收斂速度更快,通過實驗驗證,本文方法進一步提高了文本匹配的準確度.

5 結 論

本文從現有的孿生神經網絡出發,基于基礎的孿生神經網絡,使用詞向量與字向量聯合表示輸入,并使用Bi-LSTM對文本進行建模,同時為了提升模型的準確度,引入am-softmax損失函數替換contrastive loss函數,在公共評測語料上的實驗結果證明該方法相較于其他深度學習模型性能有進一步提升.未來的工作可考慮如何進一步修改網絡結構,以及嘗試其他更好的損失函數應用到模型上.

猜你喜歡
語義實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
主站蜘蛛池模板: 精品人妻系列无码专区久久| 国产精品任我爽爆在线播放6080| 久久黄色毛片| 亚洲欧美综合精品久久成人网| 亚洲AⅤ波多系列中文字幕| JIZZ亚洲国产| 搞黄网站免费观看| 中文字幕在线一区二区在线| 一区二区偷拍美女撒尿视频| 99r在线精品视频在线播放| 一级不卡毛片| www.国产福利| 激情六月丁香婷婷| 亚洲av无码久久无遮挡| 99久久成人国产精品免费| 日韩精品资源| 免费人成视网站在线不卡| 国产欧美自拍视频| 国产精品自拍合集| AV色爱天堂网| 国产精品亚洲综合久久小说| 欧美精品不卡| 91在线播放免费不卡无毒| 丝袜美女被出水视频一区| 国产原创演绎剧情有字幕的| 视频二区欧美| 一级毛片基地| 久久这里只有精品国产99| 最新午夜男女福利片视频| 亚洲视频二| 亚洲日韩图片专区第1页| 日韩成人在线网站| 国产网站免费看| 亚洲中久无码永久在线观看软件 | 久久国产香蕉| 亚洲成人在线免费观看| AV老司机AV天堂| 日韩 欧美 小说 综合网 另类| 毛片免费高清免费| 91av成人日本不卡三区| 亚洲欧美国产视频| …亚洲 欧洲 另类 春色| 欧美一级特黄aaaaaa在线看片| 国产精品国产主播在线观看| 亚洲欧洲日韩综合色天使| 亚洲第一天堂无码专区| 国产成人免费| 国产一区自拍视频| 女人18一级毛片免费观看 | 国产最爽的乱婬视频国语对白 | 中日韩一区二区三区中文免费视频| 92午夜福利影院一区二区三区| 中文字幕天无码久久精品视频免费| 婷婷成人综合| 99热最新网址| 日韩在线播放中文字幕| 亚洲无线国产观看| 国产另类视频| 亚洲第一成年人网站| 日本91在线| 91伊人国产| 人妻中文字幕无码久久一区| 久久99热66这里只有精品一| 99这里只有精品免费视频| 国产主播在线一区| 亚洲精品第一页不卡| 亚洲网综合| 亚洲国产成人精品青青草原| 国产欧美精品一区aⅴ影院| 亚洲av色吊丝无码| 天天色天天操综合网| 视频二区国产精品职场同事| 国产色婷婷| 成人精品在线观看| 成人国产小视频| 99久久精品视香蕉蕉| a级毛片一区二区免费视频| 91精选国产大片| 九九热视频在线免费观看| 色噜噜狠狠狠综合曰曰曰| 国产精品深爱在线| 狠狠躁天天躁夜夜躁婷婷|