摘 要:答案選擇是問答系統中的關鍵組成部分,提升其準確性是問答系統研究的重要內容之一。近年來深度學習技術廣泛應用于答案選擇,獲得了良好效果,但仍舊有一定的局限性。其中模型對問題語義信息利用度低、缺乏局部語義重視、句子間交互感知能力差等問題尤為突出。針對上述問題提出了一種基于Transformer和雙重注意力融合的答案選擇模型NHITAS(new hierarchical interactive Transformer for answer selection)。首先,在信息預處理部分提取問題類別和關鍵詞對答案進行初步篩選,并引入外部知識作為句子額外語義補充;其次,采用分層交互的Transformer對句子進行語義上下文建模,提出了UP-Transformer(untied position-Transformer)和DA-Transformer(decay self-attention-Transformer)兩種結構學習語義特征;最后,通過雙重注意力融合過濾句子噪聲,增強問題和答案之間的語義交互。在WikiQA和TrecQA數據集上對NHITAS的性能進行測試,實驗結果表明所提模型對比其他模型,能夠有效提升答案選擇任務的效果。
關鍵詞:答案選擇;Transformer;雙重注意力機制;問答系統;深度學習
中圖分類號:TP391.1 文獻標志碼: 文章編號:1001-3695(2022)11-019-3320-07
doi: 10.19734/j.issn.1001-3695.2022.04.0183
New hierarchical interactive answer selection model based on Transformer and dual attention fusion
Zheng Qiaoyue, Duan Youxiang, Sun Qifeng
(College of Computer Science amp; Technology, China University of Petroleum, Qingdao Shandong 266580, China)
Abstract:Answer selection is a key part of question answering system, and improving its accuracy is also one of the important contents of question answering. In recent years, answer selection task has achieved good results using deep learning techniques. But there are still some limitations. Among them, model’s low utilization of semantic information, lack of local semantic attention, and poor ability to perceive the interaction between sentences are particularly prominent. Regarding the issue above, this paper proposed an answer selection model NHITAS based on Transformer and dual attention fusion. Firstly, this model extracted question categories and keywords for preliminary screening of answers in the information preprocessing part, and introduced external knowledge as additional semantic supplements for sentences. Secondly, it used a hierarchical interactive transformer to model the semantic context of sentences, and proposed two structures to learn semantic features, respectively UP-Transformer and DA-Transformer. Finally, dual attention fusion layers not only filtered sentence noise but also enhanced semantic interaction between question and answer. This paper tested the performance of NHITAS on the WikiQA and TrecQA datasets. The experimental results show that this model can effectively improve the effect of the answer selection task compared with other models.
Key words:answer selection; Transformer; dual attention mechanism; question answering; deep learning
基金項目:中石油重大科技專項資助項目(ZD2019-183-006);中央高校基礎科研業務專項資金資助項目(20CX05017A)
作者簡介:鄭巧月(1998-),女,四川樂山人,碩士研究生,主要研究方向為自然語言處理(z20070091@s.upc.edu.cn);段友祥(1964-),男,山東東營人,教授,博士,主要研究方向為知識圖譜;孫岐峰(1976-),男,山東東營人,副教授,博士,主要研究方向為知識圖譜.
0 引言
問答系統作為用戶方便快捷獲取信息的高級方式,旨在根據問題返回正確答案。給定一個問題,問答系統處理過程如圖1所示。問答系統首先分析問題的類型和語義信息,然后從數據集中選出與問題相關的候選答案集,最終根據問題和候選答案句子的更深層次語義關聯進行答案選擇將最佳答案返回給用戶。
答案選擇作為問答系統組成部分的作用至關重要,同時也是自然語言處理中活躍的研究方向。答案選擇的關鍵點在于如何從多個候選答案中找到最貼合問題的答案。如表1所示,三個候選答案中只有一個是最符合問題的答案(A3),其余兩個雖然與問題相關但不是正確答案(A1,A2),答案選擇任務就是從中選擇出正確答案(A3)。研究人員通常采用計算語義相似度方法來進行復雜語義匹配,進而從候選答案中選擇出最適合的答案。
答案選擇任務經歷了多個階段的研究與發展。早期出現的答案選擇方法主要基于問題和答案之間的詞匯特征[1]。由于很多問題與答案之間語義上相關聯,但是詞匯上卻沒有相同的地方,所以該類方法很難準確捕獲語義信息。隨著深度學習廣泛深入的發展,答案選擇領域涌現出大量基于卷積神經網絡CNN[2]等技術的深度學習方法,該類方法可以自動學習特征,無須人工標注的同時能夠更有效地獲取語義信息。隨后引入注意力表征,對不同的單詞分配不同權重,答案選擇性能有了進一步的提升,然而此類方法對句子嵌入方式固定而忽略了句子的上下文表示,效果受到限制。Vaswani等人[3]于2017年提出了一種新的神經網絡Transformer,在自然語言處理任務中取得了突破性進展[4]。基于Transformer結構[3]的模型在答案選擇研究中有著更良好的效果,對于句子的編碼以及語義的獲取更有效。
現如今答案選擇任務依然存在如下問題:對于句子上下文建模固定單一,對于句子語義學習不夠全面,并且忽略句子間交互和全局上下文作用。針對這些問題,本文在Transformer結構的基礎上提出一種新的答案選擇模型NHITAS。主要工作如下:a)提出了一種基于Transformer和雙重注意力融合的答案選擇模型NHITAS,以分層交互的方式對問答對句子建模,有效提升模型對語義的學習;b)在NHITAS中提出UP-Transformer和DA-Transformer兩種新型Transformer結構進行句子語義提取,采用雙重注意力融合層對句子信息進行過濾降噪,有效增強句子之間的交互。針對NHITAS模型與其他基準模型,本文在WikiQA和TrecQA數據集上進行了實驗與分析,并對本文模型進行了消融實驗,結果表明NHITAS取得了較好的性能。
1 相關工作
1.1 傳統答案選擇方法
傳統的答案選擇基于特征工程,包括編輯距離、支持向量機等,通過對問答對進行詞法、句法分析選出答案。由于自然語言固有的模糊性,簡單的單詞匹配方法預測精度較差[5]。Surdeanu等人[6]提取了問題與候選答案的詞頻、詞語之間的相似度等多種特征對候選答案進行排序,從而選出最佳答案;Guzmn等人[7]將答案選擇任務看做是翻譯任務,通過翻譯模型來對問答對進行相似度計算配對;Yih等人[8]利用基于WordNet的語義特征對答案進行排序。盡管基于特征的方法在一定程度上能夠計算問題和答案的語義,但是該方法對人工標注特征十分依賴,模型效果受數據集質量影響較大;此外,該方法泛化能力較差,難以應對數據變化情況[9]。因此,為解決傳統答案選擇方法存在的不足,不少研究人員嘗試將深度學習方法應用于答案選擇。
1.2 基于深度學習的答案選擇方法
近年來深度學習在答案選擇方面取得了良好的效果[10]。不同于傳統方法的是,基于深度學習的答案選擇方法擯棄了人工提取特征的弊端,通過將問答句建模表示為連續向量而不再需要繁瑣的特征工程構建,已成為了解決答案選擇問題的主流方法。深度學習方法的核心是利用神經網絡模型來衡量問題和候選答案之間的相似性[11],這種方法主要利用卷積神經網絡[2]或者雙向長短期記憶網絡[12]等結構將問答句子對進行向量化表示,計算相似度。Yu等人[13]采用CNN提取問答特征,第一次利用深度學習來解決答案選擇問題;Wang等人[14]使用雙向長短記憶網絡來表示句子對。
由于注意力機制在句子表征中體現出良好的性能[15],近期大量研究者提出基于注意力機制和Transformer[3]的答案選擇方法。例如Lai等人[16]提出一種新的用于答案選擇的門控自注意力記憶網絡結構;Bao等人[17]提出結合自注意力和交叉注意力結合的雙注意力遞歸卷積神經網絡DARCNN用于答案選擇;李志超等人[18]采用動態注意力機制結合多角度匹配策略進行答案選擇,在此基礎上Huang[19]引入多尺度神經網絡、注意力機制及其組合進行答案選擇;張仰森等人[20]在答案選擇中融合語義信息和問題關鍵信息;Shao等人[21]采用Transformer結合BiLSTM以獲取問題或答案句子中的全局信息和序列特征,該模型更側重于句子嵌入;Laskar等人[22]提出了基于特征和基于微調兩種答案選擇方法,利用Transformer編碼器的上下文詞嵌入在答案選擇任務中進行問答對相似性建模;文獻[23,24]通過基于Transformer結構的BERT預訓練模型完成句子上下文建模和答案預測;Iyer等人[25]通過圖神經網絡進行答案選擇任務。然而大多數研究側重于整體的答案和問題相關性計算,而忽略了句子局部單詞作用和問題關鍵信息對答案的影響。
2 NHITAS模型
NHITAS模型整體框架如圖2所示。首先通過數據預處理部分提取關鍵詞和詞義解釋以及答案的過濾標記。然后通過堆疊多層NHI-Transformer對句子語義進行學習表征,其中NHI-Transformer由UP-Transformer、DA-Transformer和最后一層Transformer總共三層結構搭建。其中,UP-Transformer中采用位置編碼和單詞編碼解耦的新型位置編碼方式,單詞和位置關系中用不同的投影矩陣進行建模,對位置信息有更好的歸納偏置,有效改進了模型性能;DA-Transformer加入衰減自注意力增強句子局部語義獲取。最后通過雙重注意力融合層對問題句和答案句進行交互融合以及噪聲過濾來預測答案。
2.1 數據預處理
在進行語義相似度計算時,模型無法充分理解問題的最終目的,即無法明確問題的類型,無法理解問題關鍵詞的含義。比如“What”表示提問什么事物,而“When”表示提問什么時間,不同類別的問題對應的答案側重點不同。除此之外,即使是同樣的提問詞也會表達截然不同的含義,例如問題“How old are you ”中的“How”表示的是“多少”,而“How a water pump works”中的“How”表示的是“怎樣”。這些情況無疑會加重模型的計算難度,干擾正確答案的尋找;并且有的問題中關鍵詞術語比較專業和抽象,且在沒有額外上下文信息的情況下語言模型很難理解其含義。針對這些問題,本文模型預先對問題和答案進行數據處理,并利用在線詞典Wiktionary為模型數據提供外部知識支持。首先通過問題分析部分識別問題類別和關鍵詞,根據關鍵詞從外部詞典Wiktionary檢索相關定義描述作為上下文語義補充。問題類別連同候選答案送入答案標記中,篩選符合問題類別的答案進行標記輸出。具體輸出如下:
問題分析:
When was the computer invented?=gt;(When was the computer invented ,When,computer)
根據關鍵詞的Wiktionary檢索:
Computer:a programmable device that stores, retrieves, and processes data.
根據問題類別的答案標記:
The computer was invented on 1946=gt; (The computer was invented on [1946])
2.2 NHI-Transformer
本文模型搭建新的編碼層結構NHI-Transformer,分別采用三層不同的Transformer來對句子進行編碼建模,詳細結構如圖2所示。首先通過UP-Transformer對數據預處理得到的問題、描述、關鍵詞和答案句子進行上下文建模,然后通過DA-Transformer捕獲句子間上下文的交互和句子局部語義的關注,最后一層Transformer利用句子關聯信息和全局上下文信息對句子建模進行增強。整體上通過堆疊N層NHI-Transformer實現句子完全建模,利用pooling獲得最終的句子語義表征。
首先將輸入的每個語句開頭位置加入[CLS]標記,用來代表傳遞整個句子的上下文信息,通過單詞編碼層轉換為嵌入序列[qi,c,qi,1,qi,2,…,qi,n],i為1~4,表示對應四個句子的序列。將得到的序列依次輸入到對應的UP-Transformer中進行轉換,得到句中每個單詞的上下文表示[ti,c,ti,1,ti,2,…,ti,n],其中tc為句子的整體表示。
然后通過DA-Transformer對句子表示進行全局建模,增強模型對于句子上下文感知學習,同時增加句子內部局部語義的學習捕獲。該層將四個句子語義表示為[l1,c,l2,c,l3,c,l4,c]。接下來將該層輸出結果輸入另一個Transformer中,為每個句子增加全局交互和局部上下文表示。
2.2.1 UP-Transformer
傳統的Transformer中采用絕對位置編碼的方式來表示語句中單詞的順序,在不同位置使用不同的學習參數進行向量表示,如式(1)所示。
其中:d是縮放項;WQ和WL是投影矩陣;qi和qj分別為i和j位置的單詞嵌入;pi和pj代表i、j的可學習位置向量。
然而在絕對位置編碼中,位置嵌入和單詞嵌入會一同作為神經網絡的輸入,由于這兩種信息是異構的,會產生混合相關性,為模型帶來不必要的隨機性,從而影響模型性能。同時,從以上公式中可以知道單詞和位置的投影矩陣WQ和WL是共享的,而位置和單詞并不是同一概念,共享對于模型的學習沒有益處。受文獻[26]的啟發,本文為解決以上問題采用一種新的位置編碼方式NUPE(new untied position encoding),并據此提出UP-Transformer結構,如圖3所示。
圖3中左邊虛線框為僅用單詞嵌入作為輸入的Transformer結構,右邊為位置相關性計算。有別于傳統位置編碼中直接將位置嵌入和單詞嵌入結合計算相關性,先將單詞嵌入qi和qj輸入self-attention計算相關性,然后對位置向量pi和pj計算相關性,最后輸入self-attention進行組合相加,實現了位置編碼和單詞編碼的解耦,并且對單詞和位置之間采用不同的投影矩陣進行關系建模,可以為模型提供更多學習表達能力。NUPE的計算公式如下:
其中:2d為縮放項用于保留xij的大小;WQ和WL是單詞嵌入的投影向量;RQ和RL為位置嵌入的投影向量,實現了單詞關系和位置關系的單獨嵌入。NUPE的具體圖解如圖4所示。
2.2.2 DA-Transformer
Transformer采用多頭self-attention確定單個序列的注意權重,計算其特征向量,并捕獲序列中每個單詞和其他單詞之間的關聯,完成兩個句子的雙向交叉注意力作用。然而self-attention主要針對全局的單詞作用,缺乏對每個單詞周邊單詞語義的特殊重視。而事實上距離越靠近的單詞會有更加相近的語義聯系,采用傳統Transformer則會忽略這一部分的關鍵作用,造成模型對句子語義的關聯學習不充分。為了使模型不僅能夠學習句子全局上下文關聯,并且可以增加對局部信息的關注,本文對傳統Transformer進行改進提出了增加多頭衰減自注意力(decay self-attention)的DA-Transformer結構。
decay self-attention是自注意力機制的一種變體,該機制在考慮句子中的所有單詞時通過分配不相等的注意權重來關注局部語義信息特征,可以給每個單詞周圍距離更近的單詞分配更多的注意力。DA-Transformer結構采用self-attention和decay self-attention交疊替換的方式搭建。本研究中注意力頭數設置為8,因此self-attention和decay self-attention頭數各為4。具體如圖5所示。
DA-Transformer中每個單詞嵌入經過self-attention輸出為Z,計算過程如式(3)(4)所示。
其中:Q、K、V是輸入的嵌入向量分別乘以三個不同的權值矩陣得到的向量;dk為向量K的維度。
decay self-attention的注意力權重隨著當前單詞距離增加而衰減,經過該層的輸出為decayAtt,具體計算過程如式(5)所示。
其中:Mdecay是衰減矩陣;α是衰減參數。設計的衰減矩陣如圖6所示。
矩陣中的值代表(-|i-j|),即第i個單詞和第j個單詞之間的衰減程度,距離越大權重越小。
在DA-Transformer中通過self-attention和decay self-attention的交替融合能夠有效地提高對句子全局和局部語義的學習,加強句子間的關聯交互,對于答案選擇模型的效果有提升。
2.3 雙重注意力融合層
NHI-Transformer的輸出經過pooling層聚合成最終的句子上下文表示[d1,d2,d3,d4]。其中,d1為問題句的上下文表示,d2為句子描述上下文表示,d3為關鍵詞上下文表示,d4為答案句上下文表示。經過編碼的問題句和答案句中仍然含有大量的噪聲信息,對模型理解句子語義造成干擾,降低模型對正確答案選擇的效果。本文構建雙重注意力融合層自適應融合句子特征,過濾噪聲,并利用關鍵詞表示和句子描述表示對問題句和答案句的相關信息進行合并增強。式(6)和(7)中的question和answer表示為該層的輸入。由于描述表示為問題中單詞的語義描述,對于問題語義完善有積極的補充作用。除此之外,關鍵詞能夠對答案進行過濾,并且能增強答案中與之相關單詞的權重,可以有效提升問題和答案之間的語義計算準確度。因此將問題表示和描述表示連接作為question,關鍵詞表示和答案表示連接作為answer。
其中:[,]表示向量連接。利用雙重注意力機制淡化答案中不相關的信息,對于該層輸入的question和answer分別計算兩重注意力權重。具體計算過程如下:
其中:Т為第一重注意力權重;P為第二重注意力權重;σ為注意力函數;Ai和Qi分別為答案和問題向量中第i個位置的單詞向量;n為問題的單詞個數;m為答案的單詞個數。
將T和P結合得到最終的權重表示為,如下所示:
其中:表示0~1的數,用于調節注意力權重,這里使用神經網絡控制參數,根據不同情況自適應分配不同的值,以此選出最好的結果。的求解公式如下:
其中:σ為sigmoid函數;[T,P]為權重拼接;X和C為學習參數。最終模型輸出融合問題和答案的語義表示向量為
將最終H向量輸入分類器預測答案正確得分,判斷答案正確性,如式(13)所示。
其中:Y為候選答案的概率;Wh1、Wh2、bh1、bh2為可訓練參數。
3 實驗結果與分析
3.1 數據集
為了驗證研究模型的有效性,本文在TrecQA[27]和WikiQA數據集[28]上進行實驗,兩個數據集的問題答案統計數據如表2所示。其中,WikiQA是一個開放域數據集,問題和答案分別來自Bing和維基百科。WikiQA 數據集共有3 000多個問題,以及候選答案的句子29 000多條,其中絕大部分的句子被標注為無對應答案,只剩約1 250個句子被標注為有對應的正確候選答案。本實驗中刪除了無答案的問句,保證每個問題包含一個以上答案,并且問句的平均長度為7.1個單詞,答案的平均長度為22.3個單詞,設置問答對句子長度的差異增加答案選擇的復雜。TrecQA來自Text Retrieval Conference QA Track,包括raw和cleaned兩個版本。兩者的區別是raw中有的問題沒有答案,而cleaned版本的每個問題都包含正確和錯誤的答案。對比WikiQA數據集,TrecQA數據集的問題長度相對較短,平均6.8個單詞,本文采用cleaned版本實驗。除此之外,本文分別對兩個數據集的問題類型分布進行了統計,統計結果如圖7所示。可以看出WikiQA中實物類型的問句占比最多,最少的是原因問句;TrecQA中最多的也是實物類型問句,最少的是其他類型問句。
3.2 評價指標
答案選擇任務中常用的評估指標是MAP和MRR,用于評估模型和方法的性能。MAP度量相關答案的順序,MRR考慮第一個相關答案的排名。MAP和MRR公式如下所示:
其中:Q是問題;mi是第i個問題的候選答案的數量;Rik是前k個候選答案組成的列表;precision精度函數是正確答案數量和總候選答案數量的比例。
其中:ri是正確答案排名的倒數。
3.3 實驗參數設置
實驗在PyTorch 1.9.1[29]和Python 3.6下進行,數據預處理部分中采用文獻[30]提取問題類別,Spacy名詞短語提取工具提取問題關鍵詞,Spacy NER對答案過濾標記。采用GloVe[31]對單詞嵌入初始化,詞向量維度設置為300,編碼層設置為4層,每一層中的UP-Transformer和Transformer注意力頭數設置為8,DA-Transformer中注意力頭數和衰減自注意力頭數分別設置為4。用二元交叉熵損失函數來計算損失,dropout設置為0.3以防止過擬合;使用Adam[32]作為優化器。句子最大長度為128,批次大小為32,學習率為1E-4。
3.4 實驗結果分析
為了驗證本文方法對于答案選擇的有效性,分別在WikiQA和TrecQA上與多個基線模型進行實驗對比,其中基線模型包括早期基于深度學習方法如AP-CNN[33]和近期提出的關于答案選擇方法如KAAS[34] 等,實驗結果如表3所示。
從表3可以看出,基于預訓練BERT模型的方法相比早期的一些基于深度學習的方法有更好的效果。BERT-ABCN[36]模型使用BERT取代word2vec作為嵌入層,效果優于其他基于CNN和LSTM的模型。近期方法中,KAAS[34]應用一個交互式知識增強型注意網絡,可在多個層次上提取句子信息的豐富特征,可以看出提升了模型效果。LMPF-IE[24]相比于BERT效果更優,在于該模型增加了對BERT多層嵌入的利用,進行多視角權值融合提升答案選擇的效果。本文的NHITAS在兩個數據集上效果優于其他模型,原因在于本文構建的三層Transformer編碼層能夠充分提取單個句子語義信息,同時能利用句子全局和局部上下文建模來增強句子對之間的交互感知。堆疊多層編碼層加強句子語義的充分獲取,并且雙重注意力融合能夠有效降低問答對之間的噪聲,有利于模型對答案句的學習判斷。對比傳統的深度學習方法,本文方法在WikiQA數據集上MAP提高了2.46,在TrecQA數據集上MAP提高了2.54。對比基于BERT預訓練模型的答案選擇方法,本文模型的MAP和MRR提高了5%~8%;與近期答案選擇方法相比,本文方法的效果依然最優。
為了確定編碼層層數a的合理性,本文在TrecQA數據集上對參數a進行研究,a的取值對模型的性能有影響,分別給a設定不同的值來對比MAP和MRR的結果,結果如圖8所示,其中橫軸表示層數a,縱軸表示MAP或MRR的值。從圖8可以看出,當a=4時,MAP和MRR的值最高,也就是模型的表現效果最好。一定程度上編碼層層數越多,對于句子語義學習更精確全面,對于語句的信息提取越豐富,但是當層數過大時,模型的計算復雜度也會增加,對于模型的性能會起到負作用。因此本文選取使模型效果最佳的4層編碼層數。
本文在WikiQA數據集中分別對不同類別問題進行了實驗,以此驗證模型在不同類別問句中的表現效果,其中包括六個問題類型,分別是人物、地點、時間、實物、數量、原因。具體效果如表4所示,從圖中可以看出實物類型的問句效果最好,原因是實物問句的特點比較鮮明容易識別,并且有充足的數據集用于模型學習特征;人物和地點類型的結果差異不大;但是數量和原因類型問句效果不理想,尤其是原因類型,具體原因除了數據集比較小以外,原因類型的句子語義比較復雜,并且答案和問句之間的聯系并不確定,有的甚至答案中的單詞都不與問句直接相關,所以導致模型對于正確答案的判斷能力較差。綜合所有問句類型來看,本文模型的效果還是比較良好,依然能夠判斷各個類型的問題句對應的答案。
本文從TrecQA數據集中隨機選擇一組問答對樣本來進行案例研究,以此定性評定本文方法的有效性。如問題:“What is the monetary value of the Nobel prize?” 對應的答案以及各模型預測效果如表5所示,其中左邊為該問題對應的答案選項,右邊為正確與否以及不同模型預測出的效果,正確為1,錯誤為0。表中結果表明,本文模型對于答案的預測效果更準確,其中BERT[39]和DASL[40]對于句子語義獲取不夠全面,存在正確答案預測錯誤的情況;而KAAS[34]能夠預測出全部的正確答案,但是存在預測錯誤的情況,對于句子語義計算依然不準確;而本文方法能夠準確預測問題的正確答案。
3.5 消融實驗
為了驗證模型結構的有效性,本研究在WikiQA上進行了消融實驗。參與對比的模型有去除預處理中的外部知識引入、去除數據預處理整體、將NHI-Transformer結構中去除DA-Transformer保留其他結構、UP-Transformer替換為傳統絕對位置編碼的Transformer模型、去除雙重注意力融合采用簡單組合模型以及去除NHI-Transformer結構換為一層Transformer直接編碼,以上模型的其余條件都不變。用以上六種模型和本文提出的NHITAS全模型進行對比,實驗結果如表6所示。在保留NHI-Transformer結構的基礎上如果去除DA-Transformer對模型性能影響最大,MAP和MRR分別下降了3.5%和4.3%。這是因為單個句子的上下文信息不足以進行精確的上下文建模,并且句子缺乏交互以及局部和全局上下文感知,所以模型性能降低。去除雙重注意力融合層采用簡單組合模型性能也有大幅下降,原因是答案中大量噪聲的干擾,并且問答對之間的語義交互降低。從表中數據還可以看出解開位置和單詞之間的關聯有助于模型訓練,并且消除位置和單詞隨機性關聯造成的噪聲影響模型性能。相比之下,數據預處理部分對于模型的影響比較小,但是這部分依然對模型有著積極的作用。從表6可以看出,NHI-Transformer結構對于模型的效果有直接的影響,如果沒有NHI-Transformer結構,MAP和MRR分別降低了9.2%和10%,甚至效果不如其他答案選擇方法,由此可以看出由三層不同Transformer構建的分層交互結構NHI-Transformer的重要性和有效性。
4 結束語
本文提出了一種新的基于分層Transformer編碼的答案選擇模型,通過數據預處理對模型輸入進行過濾,利用WikTiatory為問題關鍵詞提供明確的文本信息,為模型提供額外的知識支撐。編碼層采用分層Transformer對句子進行上下文建模,使得模型可以學習句子內部和句子之間的表示,有助于模型準確理解問題和答案句之間的聯系;采用雙重注意力對編碼的最終句子表示進行融合,同時對問題和候選答案語義強化和噪聲過濾,增加問答對交互。通過實驗對比證明了本文模型在答案選擇任務中有更好的效果。在未來工作中,可以嘗試在中文數據集中調整模型,驗證模型的一般性。
參考文獻:
[1]Wang Mengqiu,Manning C D. Probabilistic tree-edit models with structured latent variables for textual entailment and question answe-ring [C]// Proc of the 23rd International Conference on Computatio-nal Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2010: 1164-1172.
[2]Feng Minwei,Xiang Bing,Glass M R,et al. Applying deep learning to answer selection: a study and an open task [C]// Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway,NJ: IEEE Press,2015: 813-820.
[3]Vaswani A,Shazeer N,Parmar N, et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6000-6010.
[4]Devlin J,Chang Mingwei,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2019: 4171-4186.
[5]Bilotti M W,Ogilvie P,Callan J, et al. Structured retrieval for question answering [C]// Proc of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press,2007: 351-358.
[6]Surdeanu M,Ciaramita M,Zaragoza H. Learning to rank answers to non-factoid questions from Web collections [J]. Computational Linguistics, 2011,37(2): 351-383.
[7]Guzmán F,Màrquez L,Nakov P. Machine translation evaluation meets community question answering [C]// Proc of the 54th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2016: 460-466.
[8]Yih W T,Chang M W,Meek C,et al. Question answering using enhanced lexical semantic models [C]// Proc of the 51st Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2013: 1744-1753.
[9]Chen Qin,Hu Qinmin,Huang J X,et al. CAN: enhancing sentence similarity modeling with collaborative and adversarial network[C]// Proc of the 41st International ACM SIGIR Conference on Research amp; Development in Information Retrieval. New York: ACM Press,2018: 815-824.
[10]Tran N K,Niedereée C. Multihop attention networks for question answer matching [C]// Proc of the 41st International ACM SIGIR Conference on Research amp; Development in Information Retrieval. New York: ACM Press,2018: 325-334.
[11]Rao Jinfeng,Liu Linqing,Tay Y,et al. Bridging the gap between relevance matching and semantic matching for short text similarity mode-ling [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2019: 5370-5381.
[12]Hochreiter S,Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997,9(8): 1735-1780.
[13]Yu Lei,Hermann K M,Blunsom P,et al. Deep learning for answer sentence selection [EB/OL]. (2014-12-04). https://arxiv.org/pdf/1412.1632.pdf.
[14]Wang Di,Nyberg E. A long short-term memory model for answer sentence selection in question answering [C]// Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2015: 707-712.
[15]Deng Yang,Xie Yuexiang,Li Yaliang,et al. Contextualized know-ledge-aware attentive neural network: enhancing answer selection with knowledge [J]. ACM Trans on Information Systems, 2022,40(1):article No.2.
[16]Lai Tuan,Tran Q H,Bui T,et al. A gated self-attention memory network for answer selection [EB/OL]. (2019-09-13). https://arxiv.org/pdf/1909.09696.pdf.
[17]Bao Ganchao,Wei Yuan,Sun Xin,et al. Double attention recurrent convolution neural network for answer selection [J]. Royal Society Open Science, 2020,7(5): 191517.
[18]李志超,吐爾地·托合提,艾斯卡爾·艾木都拉. 基于動態注意力和多角度匹配的答案選擇模型 [J].計算機應用,2021,41(11): 3156-3163. (Li Zhichao,Turdi ·Tohti,Askar· Hamdulla. Answer selection model based on dynamic attention and multi-perspective matching[J]. Journal of Computer Applications, 2021,41(11): 3156-3163. )
[19]Huang Jie. A multi-size neural network with attention mechanism for answer selection [EB/OL]. (2021-04-24). https://arxiv.org/ftp/arxiv/papers/2105/2105.03278.pdf.
[20]張仰森,王勝,魏文杰,等. 融合語義信息與問題關鍵信息的多階段注意力答案選取模型 [J]. 計算機學報,2021,44(3): 491-507. (Zhang Yangsen,Wang Sheng,Wei Wenjie,et al. An answer selection model based on multi-stage attention mechanism with combination of semantic information and key information of the question [J]. Chinese Journal of Computers,2021,44(3): 491-507.)
[21]Shao Taihua,Guo Yupu,Chen Honghui,et al. Transformer-based neural network for answer selection in question answering [J]. IEEE Access, 2019,7: 26146-26156.
[22]Laskar M T R,Huang J,Hoque E. Contextualized embeddings based transformer encoder for sentence similarity modeling in answer selection task [C]// Proc of the 12th Language Resources and Evaluation Conference. Stroudsburg,PA: Association for Computational Linguistics,2020: 5505-5514 .
[23]Mozafari J,Fatemi A,Nematbakhsh M A. BAS: an answer selection method using BERT language model [J].Journal of Computing and Security, 2021,8(2): 1-18.
[24]Gu Yu,Yang Meng,Lin Peiqin. Lightweight multiple perspective fusion with information enriching for BERT-based answer selection [C]// Proc of the 9th CCF International Conference on Natural Language Processing and Chinese Computing. Berlin: Springer-Verlag,2020: 543-554.
[25]Iyer R G,Vu T,Moschitti A,et al.Question-answer sentence graph for joint modeling answer selection [EB/OL]. (2022-02-16). https://arxiv.org/pdf/2203.03549.pdf.
[26]Shaw P,Uszkoreit J,Vaswani A. Self-attention with relative position representations [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2018: 464-468.
[27]Wang Mengqiu,Smith N A,Mitamura T. What is the jeopardy model? A quasi-synchronous grammar for QA [C]// Procs of Joint Confe-rence on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Stroudsburg,PA: Association for Computational Linguistics,2007: 22-32.
[28]Yang Yi,Yih S W,Meek C. WikiQA: a challenge dataset for open-domain question answering [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2015: 2013-2018.
[29]Subramanian V. Deep learning with PyTorch : a practical approach to building neural network models using PyTorch [M]. Birmingham: Packt Publishing,2018.
[30]Madabushi H T,Lee M,Barnden J. Integrating question classification and deep learning for improved answer selection [C]// Proc of the 27th International Conference on Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2018: 3283-3294.
[31]Pennington J,Socher R,Manning C. GloVe: global vectors for word representation [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2014: 1532-1543.
[32]Kingma D P,Ba J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30). https://arxiv.org/pdf/1412.6980v8.pdf.
[33]Dos Santos C,Tan Ming,Xiang Bing,et al. Attentive pooling networks [EB/OL]. (2016-02-11). https://arxiv.org/pdf/1602.03609.pdf.
[34]Huang Weiyi,Qu Qiang,Yang Min. Interactive knowledge-enhanced attention network for answer selection [J]. Neural Computing and Applications, 2020,32(15): 11343-11359.
[35]Yi T,Phan M C,Tuan L A,et al. Learning to rank question answer pairs with holographic dual LSTM architecture [C]// Proc of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM Press,2017: 695-704.
[36]Yin Wenpeng,Schütze H,Xiang Bing, et al. ABCNN: attention-based convolutional neural network for modeling sentence pairs [J]. Trans of the Association for Computational Linguistics,2016,4: 259-272.
[37]Khorashadizadeh H,Monsefi R,Foolad S. Attention-based convolutional neural network for answer selection using BERT [C]// Proc of the 8th Iranian Joint Congress on Fuzzy and intelligent Systems. Piscataway,NJ: IEEE Press,2020.
[38]Moravvej S V,Kahaki M J M,Sartakhti M S,et al. A method based on attention mechanism using bidirectional long-short term memory (BLSTM) for question answering [C]// Proc of the 29th Iranian Conference on Electrical Engineering. Piscataway,NJ: IEEE Press,2021: 460-464.
[39]Devlin J,Chang Mingwei,Lee K,et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2019: 4171-4186.
[40]Wang Qunbo,Wu Wenjun,Qi Yuxing,et al. Combination of active learning and self-paced learning for deep answer selection with Bayesian neural network [C]// Proc of the 24th European Conference on Artificial Intelligence. Amsterdam: IOS Press,2020: 1587-1594.