999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合Attention多粒度句子交互自然語言推理研究

2019-06-06 06:18:04程淑玉郭澤穎
小型微型計算機系統 2019年6期
關鍵詞:語義特征融合

程淑玉,郭澤穎,劉 威,印 鑒

1(安徽電子信息職業技術學院,安徽 蚌埠 233060)2(中山大學 數據科學與計算機學院 廣東省大數據分析與處理重點實驗室,廣州 510006)

1 引 言

近來年,隨著自然語言處理技術的發展,人們開始研究讓機器理解人類自然語言的方法,希望計算機不僅能夠快速獲取并處理語言中的表層信息,更能實現對文本的深層次 “理解”.在自然語言“理解”過程中重要的一部分就是對語義的推理,通過語義推理能夠讓計算機判斷出句子之間的邏輯關系.

自然語言推理(NLI)定義為句子對之間的有向推理關系,是自然語言處理領域一項基礎性工作[1],其基本任務是判斷由前提句子(P)的語義是否能推斷出假設句子(H)的語義,如果句子H的語義能從句子P的語義中推斷出來,則句子對P與H之間是蘊含關系,如表1所示.

傳統自然語言推理方法主要依賴人工的文本特征,結合機器學習方法對特征向量進行分類;基于深度學習的方法主要在深度網絡中,通過將句子映射到向量空間的方式,使句子特征的計算和句子特征之間的關聯性更容易被挖掘,從而能夠很好的學習句子特征,包括序列學習、句子的表示學習和句子匹配等相關工作.

表1 自然語言推理任務樣本
Table 1 Samples of NLI task

示例類型P:希拉里是前任美國總統奧巴馬的妻子.H:希拉里是位女性.蘊含(Entailment)P:希拉里是前任美國總統奧巴馬的妻子.H:希拉里是總統.矛盾(Contradic-tion)P:希拉里是前任美國總統奧巴馬的妻子.H:希拉里有兩個女兒.獨立(Neutral)

句子匹配主要任務是聚合前提句子和假設句子之間的組合特征,傳統方法都是針對兩個句子進行向量間匹配[2],或先對兩個句子之間的詞語或者上下文向量做匹配,匹配結果通過一個神經網絡聚集為一個向量后再做匹配[3,4],也有引入注意力機制[5,6]加以考慮,現階段都取得了不錯的效果,但是還存在以下問題:

1)基于詞語級別或者句子級別的匹配都是單粒度同層次的匹配,這種匹配方式只關注捕捉句子自身的語義信息,忽略了句子之間的組合信息和交互特征,造成句義損失,不能有力的辨別句子對的蘊含關系.

2)一般的序列輸入方式捕捉的是句子的全局特征分布,沒有兼顧到句子局部特征的定位,導致句子語義信息不足,且基于文本相似度的方法容易丟失語義信息,降低模型的質量.

針對以上問題,本文提出融合Attention的多粒度句子交互自然語言推理模型,主要貢獻如下:

1.針對句子間組合信息和交互特征問題,提出多粒度和不同層次的句子交互策略,對詞語和句子進行交互建模,捕捉兩個句子之間的交互特征,減少句義信息損失,提高蘊含關系識別準確度.

2.針對全局特征和局部特征兼顧問題,利用BiLSTM模型對序列信息處理優勢,融合Attention機制捕句子交互過程中單詞級特征的重要性,并將向量元素的對應計算作為兩個句子向量的匹配度量,能有效的補充句子信息,提升模型效果.

2 相關研究

傳統的自然語言推理方法有基于詞袋模型[7]、 基于 WordNet 詞典[8]、基于 FrameNet 框架[9]、基于句法樹[10],這些方法都是基于特征分類的方法,對句子自身包含的語義研究并不多,而且基于文本相似度方法不具備推理性,“相似≠ 蘊含”,因此無法捕捉深層的句子含義.隨著Word2Vec(2013)[11]和GloVe(2014)[12]模型為代表的基于深度學習的詞向量的興起掀開了基于深度學習的自然語言推理研究浪潮.Bowman[2]等人提出了LSTM模型,首先嘗試使用基于句子編碼的深度學習方法和基于詞語級別的分類器方法來解決自然語言處理問題,驗證了深度學習在自然語言推理上的有效性,但是在輸入長句時,編碼成的中間向量的信息損失也加大,生成的句子精確率也隨之降低.Attention方法有效的緩解了上述問題,Rockt?schel[13]等人提出了word-by-word Attention模型,該模型分別用兩個LSTM來學習前提句子和假設句子,通過在編碼前提句子時考慮假設句子中每個詞的信息,將假設句子中每個詞與前提句子中的詞產生對應的軟對齊,獲得假設句子中每個詞對應的前提句子中的上下文信息,這種方法能緩解長句信息損失,其本質還是通過兩個句子向量匹配來推斷蘊含關系,無法匹配到細粒度的詞語匹配關系,對中立關系的識別不是很好.為了更好的推斷句子間詞和短語級別的匹配情況,Wang等人[14]提出mLSTM模型,該模型對前提文本和假設文本建模的兩個LSTM模型產生的注意力向量拼接,進行匹配后再預測,這個方法可以很好的識別詞和短語的匹配情況,卻無法兼顧句子的全局特征的分布與局部特征的定位.Liu等人[15]提出使用雙向的LSTM模型(BiLSTM)有利于提取句子的全局信息而不受句子語序影響,同時融合“Inner-Attention”機制,利用句子本身的表示來進行指導Attention,進一步提升了模型的識別效果,但是沒有考慮句子間的組合特征.Wang等人[16]的BiMPM模型提出了對句子匹配工作進行多視角的計算方法,從多個視角去提取句子的特征,通過對給定的兩個句子分別編碼,從多個方向進行匹配,能夠充分提取句子的語義信息.本文借鑒了多視角匹配的思想,提出了多粒度、不同層次的句子交互策略,利用深度神經網絡模型(BiLSTM)獲取句子的全局特征,融合注意力機制提取句子的局部特征,在對句子進行編碼的過程中,采用不同的交互策略對輸出的上下文向量進行多樣性匹配,通過最大池化、加權平均池化等操作,完成句子對的建模,其中最大池化僅保留給定范圍的最大特征值,有助于強化重要語義,如公式(1)所示;平均池化是對給定范圍的所有值取平均,全面考慮每個方面的局部信息,避免信息丟失,如公式(2)所示;最后整合句子間的匹配向量進行蘊含關系的預測.這種方法能夠捕捉兩個句子之間的多樣性交互特征,減小句子損失,側重關注前提文本到假設文本之間的正向蘊含關系的識別,提高模型預測質量.

(1)

(2)

3 模型設計

為了能獲取自然語言推理所需的更多語義信息,降低句子的語義損失,本文從句子匹配角度,提出一個多粒度、不同層次句子交互自然語言推理模型.整個模型框架如圖1所示,從下至上分別是輸入層、句子編碼層、交互層、MLP和Softmax分類層,下面簡單描述下該模型.

圖1 融合Attention多粒度句子交互自然語言推理模型框架Fig.1 Architecture of multi-granularity sentence interaction natural language inference model based on Attention mechanism

在該模型中,輸入層首先將前提句子P和假設句子H獨立進行編碼,將句子中的每個單詞表示為d維向量;編碼層利用BiLSTM模型融合Attention機制對輸入的單詞序列逐個進行編碼生成句子向量,但保留每個隱藏層單元輸出的上下文向量,將上下文信息融合到P和H每個時間步的表示中;交互層就是比較P和H每個時間步的上下文向量和所有向量,為了比較上下文向量,我們設計多粒度、不同層次的交互匹配方法,對P和H在編碼過程中進行文本語義對齊,利用不同的交互策略,得到融合注意力權重上下文向量,結合最大池化或者平均池化的方法進行句子匹配生成新的表示向量.本文提出的交互策略是融合注意力機制利用句子間交互特征的加權對句子建模,交互的基本單位是BiLSTM模型的每個時刻的輸出向量yt,即每個時刻上下文的語義信息;最后將輸出的匹配向量傳入MLP層進行聚合處理后傳至分類層,使用3-way Softmax函數為激活函數,輸出分類的結果,標簽即蘊含、中性和矛盾.

(3)

3.1 編碼層

本層的主要工作是利用BiLSTM模型融合Attention機制對輸入層的單詞向量序列進行編碼,將其轉換為一個獨立的句子表示向量.融合Attention機制的自然語言推理模型有基于靜態Attention[13]和基于動態Attention[14],其核心思想都是根據一句話的信息自動地關注另一句話中重要的信息,但在現實生活中,人在接收一句話時,會憑經驗判斷出這句話哪些詞比較重要,而不需要根據其他句子信息,借鑒該思想,我們利用句子本身的表示來指導Attention.

Attention機制為輸入特征向量計算一個注意力分布,對不同的特征向量賦予不同權重,從而實現注意力的分配,計算方法如公式(4)-公式(6)所示.

yt=G(yt-1,st,ct)

(4)

st=f(st-1,yt-1,ct)

(5)

(6)

其中st為t時刻編碼器的隱藏狀態,即隱藏層的輸出,ct為注意力得分,包含了輸入序列對當前輸出重要性權重分布.

通過注意力權重的計算,最終得到是參數對歷史隱藏層狀態加權求和的結果向量.因此,注意力機制側重于對某個輸出結果辨識出輸入序列中不同元素的貢獻度,即捕捉句子對中不同特征的重要性,能減少計算任務的復雜度.

3.2 交互層

句子經過BiLSTM編碼后生成句子表示向量,傳入到交互層進行句子匹配工作,句子匹配是指比較兩個句子并判斷句子間關系,其主要工作是聚合前提句子和假設句子之間的組合特征.傳統的匹配方法主要采用同一層次的詞與詞交互匹配[13]或者句子與句子交互匹配[2],這種單粒度同一層次的匹配方法只關注捕捉句子自身的語義信息,忽略了句子內部詞語之間及不同層級句子之間的組合特征,造成語義損失.在自然語言推理任務中,判斷句子對蘊含關系是否成立要考慮前提句子P對假設句子H的影響,所以在對假設句子H建模時通過對每個時間步的匹配計算,從不同粒度和層次引入P的交互信息,能減少語義損失.本文考慮了推理關系涉及的方向性特征和句子自身具備的多粒度信息,結合Attention機制在BiLSTM模型基礎上提出一種多粒度不同層次的句子交互匹配方法.

本文提出的方法從詞語和句子兩種粒度出發,將詞語、句子之間的注意力權重作為前提句子與假設句子之間的交互信息,通過多樣性交互策略獲得更豐富的語義組合特征,與上下文向量進行加權,池化輸出句子新的表達向量.為了比較前提句子P與假設句子H,本文設計了6種交互策略,分別是同一層次單粒度的3種交互和跨層次多粒度的3種交互,并將各種策略生成的句子表達向量拼接進行策略融合.

3.2.1 單粒度交互

單粒度交互是指詞語粒度或者句子粒度的交互,通過對句子對建模過程中產生的上下文向量進行全匹配,能夠抽取詞語之間的交互特征.包括句子內詞粒度交互、句子間詞粒度交互、句子間句粒度交互,如圖2所示.

1)句子內詞粒度交互

如圖2(a)所示,句子內詞粒度交互是指對句子本身的上下文向量之間進行注意力權重的計算,這種方法能捕捉到句子內的語義特征,突出每個詞語在句子中的重要性,計算方法如公式(7)-公式(8)所示,其中yP和yH為前提句子P和假設句子H本身的上下文向量,fm表示匹配函數,用來度量向量之間的匹配度.

(7)

(8)

圖2 單粒度交互,圖中并行網絡結構的最左側灰色矩形表示該句子的某個時刻上下文向量,右側所有的矩形表示該句子每個時刻上下文向量,下同Fig.2 Single-granularity interaction,the left gray rectangular of the parallel network architecture depicts context vector at a certain moment and all of the right rectangular depicts context vector at each moment of the sentence,the same as below

(9)

(10)

2)句子間詞粒度交互

SP×H=(yP)T·(yH)

(11)

(12)

(13)

(14)

3)句子間句粒度交互

如圖2(c)所示,句子間句粒度交互就是直接對BiLSTM層建模后的兩個句子表示向量作對應元素的匹配計算,僅保留最大的匹配結果.該方法能夠獲得句子級別的交互信息,得到句子對語義關系推斷的貢獻度,計算方法如公式(15)所示,利用最大池化篩選特征值.

y=(m)max-polling=max[yP⊙yH]

(15)

3.2.2 多粒度交互

多粒度句子交互是指詞語與句子粒度交互,將句子向量和詞語的上下文向量匹配,抽取跨層級的詞語和句子特征,包括詞語-句子全交互、融合注意力機制的交互兩種方法,如圖3所示.這種方法不僅豐富了句子建模中的語義信息,同時強化了自然語言推理任務中正向蘊含的推斷.

圖3 多粒度交互Fig.3 Multi-granularity interaction

1)詞語與句子全交互

如圖3(a)所示,詞語與句子全交互就是將句子P的每一個前向(反向)上下文向量和句子H的表示向量作比較,計算方法如公式(16)所示.這種方法能夠得到句子P中每個詞語和句子H的語義相似性.

(16)

2)融合注意力的平均池化匹配

如圖3(b)所示,融合注意力機制的交互能夠得到句子 P與H的交叉粒度信息,同時利用注意力機制進行特征篩選.

首先計算句子P和句子H中每一個上下文向量之間的匹配值s,如公式(17)所示.

(17)

隨后利用s對句子H中的每個前向(反向)上下文向量做加權求平均操作,得到句子H的表示向量,再用句子P中的每個前向(反向)上下文向量與句子H的表示向量匹配.

(18)

公式(18)表示對句子H的所有上下文向量加權取平均,最后通過公式(19)比較句子P的上下文向量和這個平均值向量:

(19)

3)融合注意力的最大池化匹配

融合注意力的最大池化交互如圖3(b)所示,整個交互過程可以參考平均池化匹配,只是平均變成了取最大計算公式如公式(20)-公式(21)所示.

(20)

(21)

3.2.3 匹配函數

句子間匹配本質就是對句子對向量進行距離的計算,本文采用的距離計算方法是向量相減后對應元素相乘(Element-wise Subtraction),該方法是Tai等人[17]在2015年提出的一種向量距離計算方式,能夠將交互匹配計算更為精細,同時又免去參數引入的問題,計算方法如公式(22)所示.

fm(v1,v2)=(v1-v2)⊙(v1-v2)

(22)

4 實驗結果及分析

4.1 實驗數據集及評價指標

數據集:本文實驗采用的是斯坦福大學發布的SNLI[6]語料,該語料一共包含570,000的人工手寫英文句子對,其中549367 對用于訓練數據,9842對用于驗證數據,9824對用于測試數據,對測試數據每個句子對除了前提文本、假設文本、標簽外還包含五個人工標注,數據集樣例如表2所示.

表2 SNLI數據集樣例
Table 2 Sample dataset on SNLI

前提文本標簽/人工標注假設文本A man inspects the uniform of a figure in some East A-sian country.contradictionC C C C CThe man is sleep-ing.An older and younger man smiling.neutralN N E N NTwo men are smil-ing and laughing at the cats playing on the floor.A black race car starts up in front of a crowd of peo-ple.contradictionC C C C CA man is driving down a lonely road.A soccer game with multi-ple males playing.entailmentE E E E ESome men are pla-ying a sport.A smiling costumed woman is holding an um-brella.neutralN N E C NA happy woman in a fairy costume holds an umbrella.

我們對實驗數據集進行了分析,發現訓練集中包含“蘊含”標簽句子有183187個,“中性”標簽句子有182764個,“矛盾”標簽數據有183187個;驗證集中包含“蘊含”標簽句子有3329個,“中性”標簽句子有3235個,“矛盾”標簽數據有3278個;測試集中“蘊含”標簽句子有3368個,“中性”標簽句子有3219個,“矛盾”標簽數據有3237個,由此判斷整個數據集的標簽分布較均衡,因此實驗過程中不需要考慮不同標簽的權重.

評價指標:自然語言推理任務的評價指標是分類準確度,計算方法如公式(23)所示.

(23)

4.2 交互策略對比及分析

在實驗中我們采用300D GloVe來作為預訓練詞向量,且在訓練的過程中詞向量不予更新,采用Adam優化方法更新參數,設置單詞的最大長度為15,句子最大長度為40,字符向量維度為20D,batch大小設為128,BiLSTM層維度為300,學習率設為0.0001.為了緩解模型過擬合問題,我們在模型輸入輸出處應用dropout,設dropout設為0.3,在損失函數中加入了一個l2正則項,應用Early stopping保持模型的泛化能力,設Early stopping為5.

我們將BiLSTM模型作為基準模型,通過對不同粒度交互策略的貢獻度進行實驗分析,可以發現不同粒度融合模型在訓練過程中的表現優于BiLSTM模型,如圖4和圖5所示.

圖4 SNLI交互策略的對比實驗(準確率)Fig.4 Interaction strategy comparison experiment on SNLI(Accuracy)

針對3.2節的交互策略,我們進行了詳細的實驗,對比分析不同策略下的性能,結果如表3所示,我們可以得到如下結論.

1)無論是單粒度交互還是多粒度交互,不同粒度的交互策略融合都能夠提升模型的表現.

2)在SNLI語料上單粒度策略融合模型準確率分別比句子內交互策略提高3.6%、比句子間交互策略提高2.4%,多粒度策略融合模型比詞語-句子交互策略提高0.4%、比融合注意力的池化提高0.5%,說明句子間的交互信息對模型的提升效果大于句子內交互,且詞語與句子的交互信息對句子推理最為重要.

3)整個組合模型準確率比單粒度策略融合模型提高1.8%,比多粒度策略融合準確率提高0.2%,說明本文提出的交互策略能有效提升模型表現效果.

圖5 SNLI交互策略的對比實驗(平均損失)Fig.5 Interaction strategy comparison experiment on SNLI(Average Loss)

4.3 模型性能分析

在本節,我們將本文設計模型與下面幾種優秀的模型進行了對比:

LSTM[18]:采用word-by-word方法進行前提句子和假設句子的匹配.

Tree-based CNN[19]:采用基于樹的卷積過程提取句子結構特征然后通過最大池化聚合并分類.

mLSTM + Attention[20]:將對前提句子和假設句子建模的兩個LSTM模型產生的注意力向量拼接,進行匹配后再預測.

表3 交互策略對比實驗結果表
Table 3 Result of the interaction strategy comparison experiment

實驗內容匹配策略Acc(%)單粒度 句子內交互82.1句子間交互83.3單粒度策略融合85.7多粒度 詞語-句子交互86.9融合注意力的池化86.8多粒度策略融合87.3組合模型不同粒度融合87.5

可分解的注意力模型[6]:對前提句子和假設句子的每一個單詞對應匹配,結合神經網絡和矩陣運算將兩個文本的注意力機制求解問題分解為兩個子問題.

表4 模型對比實驗結果表
Table 4 Comparison results of related model

來源模型Acc(%)Bowman LSTM80.6Mou Tree-based CNN82.1WangmLSTM + Attention86.1Parikh 可分解的注意力模型86.8Wang BiMPM86.9本文多粒度信息交互87.5

BiMPM[16]:對前提句子和假設句子分別編碼,從兩個方向P→ H,H→P對其匹配.在匹配過程中,從多視野的角度,一個句子的每一步都與另一個句子的所有time-step對應匹配.最后用一個BiLSTM被用來集合所有匹配結果到一個固定長度的向量,連上一個全連接層得到匹配的結果.

表4為不同模型的在SNLI語料上的實驗結果,可以看出引入Attention機制的模型準確率比沒有引入的要高,說明Attention機制的引入對模型的表現效果具有提升作用,在同時也可以看到本文模型的準確率達到了87.5%,優于同類最優模型.

5 結束語

本文從句子匹配角度對自然語言推理進行了研究,針對傳統同一層次的單粒度匹配中存在句子語義損失和信息不足問題,首先我們引入了Attention機制捕獲句子的局部特征,對不同特征計算概率分布,減小處理高維輸入數據的計算負擔,同時提高模型的預測質量;其次提出了多粒度不同層次的句子交互匹配方法,在句子建模過程中運用不同的交互策略,利用不同層次和不同粒度之間的信息交互獲取豐富的語義信息,這種方法在計算過程中會直接將句子中任意兩個上下文向量、或兩個層次的表示向量之間的關系通過一個計算步驟直接聯系起來,所以序列中不同位置、不同粒度的特征之間的距離可以被極大地縮短,通過實驗驗證這種不同粒度不同層次融合方法要優于單粒度和多粒度交互方法.最后將本文的方法與其他優秀的自然語言推理模型進行了實驗比較,準確率達到87.5%,說明了本方法在最佳配置下的表現要優于同類其他最優模型.

猜你喜歡
語義特征融合
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲不卡无码av中文字幕| 亚洲视频在线青青| 黄色在线网| 久久香蕉国产线看观看精品蕉| 国产成人福利在线视老湿机| 九九热免费在线视频| 亚洲日韩Av中文字幕无码| 国产亚洲精品97AA片在线播放| 国产精品播放| 久久久久人妻一区精品色奶水 | 亚洲视频无码| 亚洲欧美一区二区三区图片| 在线中文字幕网| 久久精品娱乐亚洲领先| 国产美女无遮挡免费视频| 国内视频精品| 亚洲精品va| 新SSS无码手机在线观看| 18禁黄无遮挡网站| 无码一区二区三区视频在线播放| 国产午夜福利在线小视频| 丁香五月婷婷激情基地| 国产成人91精品| 亚洲色图欧美在线| 亚洲AⅤ永久无码精品毛片| 亚洲一级毛片免费看| 精品欧美一区二区三区久久久| 国产91在线|日本| 无码网站免费观看| 亚欧成人无码AV在线播放| 久久综合九色综合97网| 久久精品日日躁夜夜躁欧美| 3D动漫精品啪啪一区二区下载| 国产在线自乱拍播放| 欧美黄网站免费观看| 精品久久蜜桃| 亚洲视频免费在线| 日本免费福利视频| 亚洲国产在一区二区三区| 日本高清有码人妻| 欧美成人午夜视频| 成人91在线| 亚洲AV人人澡人人双人| 992Tv视频国产精品| 无码综合天天久久综合网| 国产一区二区三区精品欧美日韩| 久热中文字幕在线| 欧美日韩国产一级| 亚洲日本韩在线观看| 日韩欧美在线观看| 日韩一级毛一欧美一国产| 久久6免费视频| 免费不卡在线观看av| 亚洲免费福利视频| 亚洲中文字幕久久精品无码一区| 亚洲成年网站在线观看| 亚洲国产精品成人久久综合影院| 波多野结衣的av一区二区三区| 欧美日韩国产综合视频在线观看| 2021国产乱人伦在线播放 | 无码有码中文字幕| 日韩欧美中文字幕一本| 好吊妞欧美视频免费| 伊人中文网| 欧美日韩va| 国产精品亚洲一区二区在线观看| 高清久久精品亚洲日韩Av| 青青青视频蜜桃一区二区| 中美日韩在线网免费毛片视频 | 色综合中文综合网| 欧美成人A视频| 在线看片国产| 精品亚洲欧美中文字幕在线看| 国产成人精品男人的天堂 | 亚洲国产精品不卡在线| 无码国产伊人| 亚洲综合片| 色成人亚洲| 国产色婷婷视频在线观看| 欧美色亚洲| 激情综合激情| 欧美亚洲激情|