999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于正負樣本和Bi-LSTM的文本相似度匹配模型①

2021-04-23 13:00:30周艷平朱小虎
計算機系統(tǒng)應用 2021年4期
關鍵詞:語義單詞模型

周艷平,朱小虎

(青島科技大學 信息科學技術學院,青島 266061)

隨著自然語言處理技術的快速發(fā)展,問答系統(tǒng)已經成為人工智能的前沿領域[1],例如小米公司的“小愛同學”、蘋果公司的“Siri”,它們能夠為用戶提供良好的人機交互體驗.相似度匹配[2]是問答系統(tǒng)抽取答案的重要途徑之一,抽取答案的準確性決定了一個問答系統(tǒng)的質量[3].

Kumar 等[4]通過DMN (動態(tài)內存網絡)構造了一個改進的問答系統(tǒng),該系統(tǒng)主要用于處理輸入序列并進行訓練.Wang 等[5]提出了一種基于注意力機制的Bi-GRU-CapsNet 模型,該模型采用了一種新的“向量輸入、輸出”傳遞方案,其中神經元的輸入和輸出是向量.Santos 等[6]提出了一個具有特征權重的問題和答案的注意力集中雙向注意力機制(Attentive pooling).Peters 等[7]提出了一種新的深層語境化單詞表示方法ESIM + ELMo,其中詞向量是學習深度雙向語言模型(biLM)內部狀態(tài)的函數.Zhou 等[8]提出了一種多視圖響應選擇模型(Multiview),該模型集成了來自兩個不同視圖(單詞序列視圖和話語序列視圖)的信息.盡管上述方法注意力機制等方法提高了問答匹配的準確性,但包含語義層次信息的相似度匹配和中文分詞錯誤仍然沒有解決.

根據實驗研究,本文針對問答系統(tǒng)中的上述問題提出一種基于正負樣本和Bi-LSTM[9]的文本相似度匹配模型(PN-Bi-LSTM),該模型不僅解決了包含語義層次信息的相似度匹配和中文分詞錯誤造成的問題,還提高了中文問答系統(tǒng)問答匹配的準確性.

1 模型框架

為了最大化問題與正確答案之間的相似度,并且與錯誤答案之間的相似度最小,構建的數據集中,問答對存在的形式如表1所示.

表1 數據集中問答對的形式

Q是一個問題陳述,A+是正確答案,A?是錯誤答案.通過神經網絡計算每個句子的特征,然后輸出問題和答案之間的相似度差.目標函數是保證相似區(qū)間最大.當用戶輸入問題時,系統(tǒng)將輸出最合適的答案.本文采用正負答案樣本訓練神經網絡模型,模型輸入是問題和正負答案樣本的代表向量.我們需要截斷或補充問答語句,使句子長度一致并用于神經網絡的訓練.

問答系統(tǒng)中的句子分詞錯誤會對實驗結果產生很大的影響,使用雙層嵌入向量[10]表示方法,可以有效地減少分詞引起的實驗誤差.

另外,在提取句子特征之前,我們采用了內部注意力機制(IARNN)[11],避免了特征的向后偏移力問題.然后,將注意機制處理的時間序列信息輸入到Bi-LSTM模型中,通過LSTM[12]選擇序列特征.

在問答對匹配過程中,對于給定的問題(Q)和答案池{a1,a2,…,am}(m是答案池中的答案數,且至少包括一個正確答案),則需要檢索答案池中與問題(Q)相關的正確答案(an)(1≤n≤m).因此需要計算Q與每個候選答案之間的相似度,并將最相似的候選答案記錄為最佳答案.如果最佳答案恰好是在基本事實中,則該問題的答案將被成功地檢索出來,并算做top-1 準確率[13].

我們提出模型的總體框架如圖1所示.

圖1 模型總體框架

2 主要方法

2.1 雙層嵌入向量表示

問答系統(tǒng)中的句子的向量表示是文本特征生成的重要步驟.利用LSTM 神經網絡處理匹配任務時需要獲得句子的向量表示,而句子分詞錯誤會對實驗結果產生很大的影響,因此采用雙層嵌入向量模型表示方法,可以有效地減少分詞引起的實驗誤差.雙層嵌入向量模型如圖2所示.

如圖2所示,在對所有的問答句子進行分詞后,通過Word2Vec[14]模型進行單詞和字符向量訓練,得到所有單詞和字符的訓練模型.利用單詞嵌入和字符嵌入模型,得到了字符向量和單詞向量.最后,將句子中的字符向量和單詞向量進行策略性組合,得到每個句子的向量.

圖2 雙層嵌入向量模型

由于單詞嵌入和字符嵌入長度不一致,我們首先采用零向量來補充單詞嵌入,再加權單詞和字符的向量表示,改進模型的最終句子向量由Sen表示:其中,S enword表示單詞嵌入向量表示,S encharacter表示字符嵌入向量表示.α與β 之和為常數1,本文將α 設為0.6.通過雙層嵌入將句子表示為100 維向量,然后通過內部注意力機制提取句子向量的特征.

2.2 內部注意力機制

句子中的單詞之間可能存在協(xié)同效應,這會降低測試集中模型的準確性.由于RNN[15]注重時序性,所以t時刻的神經網絡模型包含了所有先前時刻的序列信息.在RNN 框架中加入注意力機制以獲得更多的加權信息.

由于框架中包含了更多的前向信息,因此會選擇靠近句尾的文本特征,從而導致特征向后偏移和權重偏差.為了解決上述問題,在特征提取之前,采用內部注意力機制.在計算句子時間信息方面過程時,內部注意力機制結構如圖3所示.

如圖3所示,在LSTM 訓練之前,注意力機制提取了表示句子的xt的時間信息.該算法將每次的平均特征輸出作為最后一次輸出,避免了特征信息的丟失.此過程中進行了最大值池化操作,這使每個時刻都會增加注意力機制的權重.在注意力機制計算 αt后,我們得到如下輸出:

其中,xt是時間t處的原始輸入時序特征向量,αt定義如下:

其中,σ是一個Sigmoid 函數,因此αt的值介于0和1 之間;rq是關于注意力機制的隱藏層的權重;Mqi是一個注意力矩陣,它將問答句子轉換為單詞嵌入空間.

圖3 內部注意力機制結構

2.3 Bi-LSTM 神經網絡模型

RNN是一種能夠存儲歷史狀態(tài)的時間序列網絡結構.然而,由于梯度爆炸和梯度消失,多層RNN在計算上下文信息時往往會受到限制.LSTM是RNN的一種變體,主要解決RNN 長距離梯度計算的問題.在LSTM結構中,隱藏層向量為ht時,時刻t的狀態(tài)更新如下:

其中,it,ft,ot,Ct分別是輸入門的輸出值、遺忘門的輸出值、輸出門的輸出值和存儲單元的輸出值,σ是Sigmoid函數;W,U,R是LSTM 神經網絡的參數.

Bi-LSTM 可以解決單向LSTM 無法計算逆序上下文信息的問題.將正向序列和反向序列組合以獲得輸出:

2.4 目標函數與相似度計算

訓練后的神經網絡模型能最大化問題與正確答案之間的相似度,最小化問題與錯誤答案之間的相似度.目標函數是使正樣本和負樣本之間的差異最大化.其他問答系統(tǒng)一般只計算向量間的余弦相似度,而不涉及語義層面的深度相似度計算,這有相當大的局限性.因此,我們提出一種包含語義的相似度計算[16]來定義一個目標函數:

其中,M為最大區(qū)間值,取值為0.1,Sim為問答語句的語義和文本聯(lián)合相似度計算方法,定義如下:

其中,Simtext是向量的余弦相似度計算方法,Simsemantic是向量的語義相似度計算方法.θ1與θ2之和是常數1,本文設置 θ1為0.6.語義相似度計算方法的簡化過程如圖4所示.

圖4 語義相似度計算過程

兩行圓形分別表示問答語句,每個圓形代表一個單詞.語義相似度計算方法解釋為:問句Q中有m個詞向量,分別是{q1,q2,…,qm};答案語句A中有n個詞向量,分別是{a1,a2,…,an}.首先計算量q1和a1–an之間的余弦相似度,記錄q1和a1–an之間相似度最大的相似度值,同理計算q2–qm和a1–an之間最大相似度值,然后再計算問句Q中所有詞向量的最大相似度值之和.

同理對于答案語句A,計算出A中所有詞向量最大相似度值之和,最后將兩個最大相似度相加除以兩個句子的長度之和,得到Q和A之間的語義相似度,解釋如下:

式中,Qmax為問題句中每個詞的最大相似度之和,Amax為回答句中每個詞的最大相似度之和:

為了避免局部最優(yōu)解的問題,我們選擇Adam 作為優(yōu)化器.在Bi-LSTM 層中,我們添加Dropout[17]機制來避免過擬合問題.

3 實驗及結果

3.1 實驗數據集

本文使用的數據集是公共數據集DuReader[18],并提取了其中50 000個問題樣本和90 563個答案樣本.問題陳述的平均長度為60個字符,回答語句的平均長度為80個字符.在整個答案庫中,每個問題平均有2個正確答案.在訓練集中,我們選擇4 萬個問題組成24 萬個訓練樣本,其中4 萬個是正樣本,20 萬個是負樣本,每個問題有1個正樣本和5個負樣本.正樣本是一個問題和它的正確答案的配對.負樣本是一個問題和從90 563個答案中隨機抽取一個錯誤答案的配對.在測試集中,剩余的10 000個問題被用來構建100 萬個樣本,其中1 萬個是正樣本,99 萬個是負樣本,每個問題有一個正樣本和99個負樣本.我們將每個問題的答案池大小設置為100,并根據每個答案池記錄top-1的準確率.我們采用top-k準確率和訓練、測試集的損失作為模型的評價標準.

3.2 實驗設置

本文提出的模型是用Python 語言和TensorFlow[19]神經網絡框架實現的.使用Jieba和Gensim 工具進行分詞和詞向量預訓練.單詞向量預訓練窗口設置為5,向量維數設置為100.此外,我們將問題語句的長度設置為60,將答案語句的長度設置為80.目標函數的最大區(qū)間值M設為0.1.

在神經網絡超參數設置方面,我們選擇Adam 作為Bi-LSTM 網絡的優(yōu)化器,并將LSTM 層數設為兩層.我們的Dropout 參數的值設置為0.5,隱層節(jié)點數設置為200,學習率設置為0.1,LSTM 輸出特征通過最大池化層進行選擇.

3.3 實驗結果

在詞向量的預訓練階段,我們對字符嵌入、單詞嵌入和雙層嵌入進行了一系列比較實驗.雙層嵌入在訓練集上的準確度比其他方法高1~4個百分點,且損失函數性能更好,在測試集上的準確度比其他方法高1~2個百分點.因此,改進的雙層嵌入可以解決分詞導致的誤差和序列信息丟失的問題.實驗結果如表2所示.

表2 預訓練方法實驗對比

在相似度計算階段,語義相似度計算方法在訓練集上比余弦相似度計算方法高2個百分點,在測試集上高出7個百分點,所以語義相似度計算方法優(yōu)于余弦相似度計算方法,實驗結果如表3所示.

表3 不同相似度計算方法比較

本文提出的模型PN-Bi-LSTM與其他現有的方法相比具有很大的優(yōu)勢良好的性能.實驗結果如表4所示.

表4 各模型Top-1 準確率和損失對比

為了驗證PN-Bi-LSTM在不同應用需求下的有效性,我們在測試集上采用F1 值[20]、召回率、top-2 準確率、top-3 準確度作為我們的性能指標.PN-Bi-LSTM和其他6 種比較模型的實驗結果見表5.

表5 模型在測試集上性能指標對比

如表5所示,無論top-k準確率的k值如何,PNBi-LSTM的性能都優(yōu)于其他幾種模型.PN-Bi-LSTM在F1和召回率下也表現良好,表明我們提出的方法在不同的性能指標下都是有效.

為了驗證PN-Bi-LSTM的有效性,我們提出了一種新的評價標準.當一個模型在訓練集上top-1 準確率第一次達到50%時,記錄訓練步數.使用較少步數的模型可以更快地從問答語句中提取有用的信息.表6顯示了模型首次達到50%準確率時所采取的步驟數.

表6 準確率達到50%所用的步數

如表6所示,PN-Bi-LSTM 可以用最少的步數top-1達到50%的準確率.從這個角度看,該方法是有效的,對問答語句有較高的敏感性.

4 結論與展望

本文基于正負樣本,提出了一個包含語義信息的雙層嵌入Bi-LSTM 模型,該模型大大提高了中文問答匹配的準確性.

實驗結果表明,本文提出的方法模型優(yōu)于其他幾種問答方法.在測試集上top-1的準確度可達78.34%,在訓練集上損失可降至0.98.此外,我們采用F1 值、召回率和top-k準確率來驗證PN-Bi-LSTM的有效性,實驗結果表明,PN-Bi-LSTM在不同的性能指標下具有魯棒性并且是有效的.最后,我們提出了一個新的性能指標來驗證PN-Bi-LSTM在語句信息提取方面比其他幾種方法更有效.因此,本文的研究具有應用和實用價值.

在未來,我們將進一步使用不同問答系統(tǒng)評估提出的模型,例如基于文章內容的答案預測.此外,我們將增加數據量,來進一步驗證PN-Bi-LSTM在不同數據集上的性能.

猜你喜歡
語義單詞模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
單詞連一連
看圖填單詞
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
最難的單詞
主站蜘蛛池模板: 日韩在线第三页| 色哟哟精品无码网站在线播放视频| 日本人妻一区二区三区不卡影院| 国产呦视频免费视频在线观看| 成人福利在线看| 欧美在线中文字幕| 欧美亚洲另类在线观看| 亚洲浓毛av| 手机在线国产精品| 亚洲成人一区二区| 奇米影视狠狠精品7777| 欧美日韩va| 国产91成人| 亚洲国产成人综合精品2020 | 欧美无专区| 日韩精品成人网页视频在线| 青青青国产视频| 国产福利免费视频| 2048国产精品原创综合在线| 亚洲第一精品福利| 欧美午夜视频在线| 在线观看国产精品一区| 在线观看欧美精品二区| 中文字幕首页系列人妻| 全色黄大色大片免费久久老太| 欧美黑人欧美精品刺激| 97久久人人超碰国产精品| 亚洲码在线中文在线观看| 国产在线八区| 国产人成午夜免费看| 2020极品精品国产| 久久免费观看视频| www亚洲天堂| 欧美日韩资源| 国产高潮流白浆视频| 亚洲第一页在线观看| 久久免费精品琪琪| 999国产精品永久免费视频精品久久| 日本不卡在线| 国产成人精品亚洲日本对白优播| 成年人国产视频| 国产精品开放后亚洲| 亚洲性一区| 九九九精品视频| 久久公开视频| 亚洲国产午夜精华无码福利| 1024国产在线| 亚洲精品午夜天堂网页| 国产a网站| 亚洲美女一级毛片| 国产无码精品在线| 中文字幕 日韩 欧美| 亚洲天堂网站在线| 香蕉久久永久视频| 久久综合亚洲鲁鲁九月天| 久久精品国产精品青草app| 亚洲欧美精品日韩欧美| 思思99思思久久最新精品| 精品欧美一区二区三区久久久| 狠狠综合久久| 亚洲精选无码久久久| 97成人在线观看| 91av成人日本不卡三区| 国内精品一区二区在线观看| 四虎国产在线观看| 欧美人人干| 日韩在线欧美在线| 亚洲色图欧美| 国内熟女少妇一线天| 91精品人妻一区二区| 亚洲综合中文字幕国产精品欧美| 狠狠亚洲婷婷综合色香| 99伊人精品| 欧美一级高清片久久99| 二级特黄绝大片免费视频大片| 91九色视频网| 国产成人一级| 国产无遮挡猛进猛出免费软件| 人妻21p大胆| 在线观看精品自拍视频| 在线视频一区二区三区不卡| 91国内视频在线观看|