基于多尺度相似度特征的答案選擇算法

2018-06-07 08:30:37陳柯錦侯俊安

系統工程與電子技術 2018年6期

陳柯錦, 侯俊安, 郭智, 梁霄

(1. 中國科學院電子學研究所, 北京 100190; 2. 中國科學院大學, 北京 100049;3. 中國科學院空間信息處理與應用系統技術重點實驗室, 北京 100190;4. 中國人民解放軍92269部隊, 北京 100141)

0 引言

隨著互聯網的發展,迎來了大數據時代,互聯網已經成為人們獲取信息和知識的重要途徑。數據的豐富給用戶帶來便利的同時,也使得用戶獲取到真實需要信息的難度增加,亟需一種快速、準確的信息獲取方法。傳統的搜索引擎基于關鍵字匹配,采取排序算法向用戶呈現相關信息,這種方法帶來了大量冗余的信息,需要用戶花費大量時間從中篩選答案。智能問答系統理解用戶自然語言方式的提問,直接返回用戶所需答案,能夠更好地滿足用戶的需求。

近年來,隨著神經網絡的發展,基于深度學習的問答系統成為當前自然語言處理及相關領域的研究熱點之一。基于相關技術,許多有影響力的問答系統相繼誕生,比如蘋果的Siri,百度的小度,微軟的小冰以及IBM的Watson等等。根據問答系統依賴的數據組織形式不同,問答系統分為基于Web檢索的問答系統、基于社區的問答系統以及基于知識圖譜的問答系統。3種問答系統都會通過分析問題,對答案粗篩選,得到一些候選答案,而如何對候選答案排序,從中獲取正確答案,這就需要答案選擇技術。答案選擇是問答系統中的關鍵技術,該任務定義為針對一個給定的問題,在眾多的候選答案中選出最佳候選答案。從定義可以看出,答案選擇可以歸結為排序問題,目標是計算問題與候選答案的相似度,通過相似度對候選答案排序。本文重點研究檢索式問答和社區問答中的答案選擇任務,該類答案選擇任務的候選答案通常以短文本形式給出,其示例如圖1所示。

圖1 答案選擇示例

Fig.1 Example of question answer selection

答案選擇是自然語言處理中典型的語義相似度計算任務,目前存在兩大難點。第一,問題和答案的長度不對稱,通常情況下,答案中冗余信息較多。答案選擇中的問題長度通常較短,一般在5～15個單詞,而候選答案長度往往大于問題長度,主要在20～50個字符。其主要原因在于答案通常會對問題的相關背景進行詳細描述。正如圖1所示,對于問題“陶淵明出生在什么朝代？”,正確答案不僅給出了陶淵明的出生朝代,還給出了陶淵明的相關介紹。傳統的模型通常學習問題和答案句子級的特征向量,通過計算向量的相似度對候選答案排序。該類方法學習到的聯合特征包含了大量的冗余特征,通常情況下,冗余特征的相似度較低,鑒于此,考慮問題和答案的局部相似度對消除冗余特征尤為重要。第二,候選答案之間的語義相似度較高。如圖1所示,錯誤答案同樣屬于在陶淵明背景下的描述,其與正確答案的語義關聯性較強,因此,基于關鍵字匹配或者基于詞袋模型分類的方法很難解決此類問題。

本文為了解決以上難點,基于深度學習的方法,提出一種基于多尺度相似度的深度學習模型。本文將在第2部分介紹答案選擇的相關工作;第3部分將詳細介紹模型的具體設計;第4部分介紹答案選擇的評價方法和實驗結果;第5部分對全文進行總結。

1 相關工作

答案選擇受到了學術界和工業界的廣泛關注,相關研究工作主要分為兩類:一類是基于特征工程,通常借助于語言工具或者其他外部資源對特征進行抽取;另一類是基于深度學習模型,使用深度學習模型生成問題和答案的分布式表示,從而計算其相似度。

1.1 基于特征工程的答案選擇方法

由于最初的詞袋模型無法理解深層的語義特征,因此第一類工作相繼而出。第1類工作主要基于特征工程挖掘問題和答案的語法和語義特征,例如,文獻[1]利用問題和答案的依存句法樹(dependency parse trees,DPT)對問題和答案進行特征提取。類似的,文獻[2]提出一種判別模型來計算問題和答案的句法樹的編輯距離,基于編輯距離特征訓練分類器,最后完成問答對的分類。文獻[3]首次將WordNet引入答案選擇任務中,通過挖掘語義關系完成問題和答案中詞的對齊,然后使用淺層語義分析得到同義詞的語義相似度,從而提升答案選擇的準確率。

1.2 基于深度學習的答案選擇方法

基于特征工程的答案選擇方法雖然取得了較好的效果,但由于其無法挖掘問題和答案的深層次的非線性特征,再者,模型的泛化能力較差。因此,近年來,基于深度學習的答案選擇方法成為學術界研究的主流方法。文獻[4]首次將卷積神經網絡(convolutional neural network,CNN)[5]應用到答案選擇任務,模型主要通過卷積網絡學習問題和答案的二元語法特征,將問題和答案的特征通過相似矩陣聚合得到相似度。文獻[6]的基本思想與文獻[4]相同,模型主要由全連接網絡和卷積網絡構成,并對全連接網絡和卷積網絡的連接順序以及問答相應網絡權重是否共享進行實驗與分析。隨著長短期記憶單元(long short-term memory,LSTM)[7]和注意力機制[8]在自然語言處理諸多任務上廣泛應用,相關工作也相繼涌現。文獻[9]采用雙向長短期記憶單元(bidirectional LSTM,BiLSTM)提取問題和答案的語義特征,并通過答案學習問題的注意力權重,顯著提升了答案選擇的準確率。在此之后,文獻[10]提出一種CNN和LSTM的混合網絡模型,并對CNN和LSTM的連接順序以及是否引入注意力機制進行了對比實驗。文獻[11]為了解決以往答案選擇中池化方法丟失較多信息的不足,提出一種注意力池化的方法,取得了較好的效果。

第2類方法目前的工作通常直接提取問題和答案的整句特征來計算相似度,本文則從挖掘問答各個尺度下特征的相似度出發,對生成的相似度矩陣進行學習,從局部相似度得到最終的聯合相似度。

2 本文方法

2.1 方法概述

本文方法通過CNN或BiLSTM提取問題和答案各個尺度下特征,與以往直接計算問答句子級特征相似度不同,本文采用一種相似度計算方法計算問答相應尺度下特征相似度,進而得到相似度矩陣,最后通過3種不同模型對相似度矩陣學習,從局部特征相似度得到問答整體相似度。

本文模型整體框架如圖2所示。

圖2 模型整體框架圖Fig.2 Framework of our model

2.2 卷積神經網絡

傳統的神經網絡采用全連接的方式導致網絡的訓練參數過多,為了解決該問題,卷積網絡采取局部連接和參數共享方式,極大減少了網絡訓練參數,此外,卷積神經網絡更擅長于提取局部特征。

本文采用卷積網絡作為特征提取的底層模型,對問題和答案的詞嵌入矩陣分別采取一維卷積神經網絡對特征提取,卷積核的長度等于詞嵌入維度,特征提取示意圖如圖3所示。

圖3 不同窗口大小下卷積神經網絡特征提取示意圖Fig.3 Illustration of extracted features by the CNN model in different filter length

圖3中左側是對問題或答案進行詞嵌入初始化后的矩陣Xn×k,其中n表示句子中單詞的個數,k表示詞嵌入維度。當使用卷積核Wh×k對矩陣Xn×k進行卷積操作可以得到n-h+1個特征,其具體表達式為

ci=f(Wh×k*Xi∶i+k-1+b)

(1)

式中,Wh×k表示卷積網絡卷積核;h表示窗口大小;k為詞嵌入維度；Xi∶i+k-1為語句中第i到i+k-1單詞的詞向量構成的矩陣；b為網絡偏置向量;f為激活函數,本次實驗中采用tanh;ci為最終提取到的特征。通過對整個特征矩陣進行卷積操作后,得到特征向量f={c1,c2,…,cn-h+1}。類似的,通過設定卷積網絡的窗口大小和濾波器個數,可以得到問題和答案不同尺度下的特征向量,即

(2)

式中,j表示卷積網絡窗口大小;m表示第m組濾波器。由于卷積網絡窗口大小不同,所以特征的尺度也不同。本文實驗中將問題各尺度特征聚合得到如式(3)所示問題特征矩陣,同理,可以得到答案特征矩陣。以往的方法通過池化對特征降維得到聯合特征,最后直接計算問答聯合特征的相似度,本文實驗則是將問題和答案相應尺度下的特征聚合成相似度矩陣,通過對相似度矩陣學習得到最終的相似度,即

(3)

2.3 雙向長短期記憶單元

對于自然語言的理解,需要關注上下文信息,循環神經網絡(recurrent neural network,RNN)[12]當前時刻的輸出跟其前面時刻的輸出有著緊密聯系,其具備一定記憶能力,能有效解決序列化問題。而LSTM則是為了解決RNN中的梯度消失的問題,由文獻[13]提出改進模型。LSTM結構圖如圖4所示。

圖4 LSTM結構圖Fig.4 LSTM architecture

本文采用的LSTM為Graves 等[14]使用的改進模型,對于輸入t時刻序列xt={x1,x2,…,xn},其在本文模型中表示為第t個單詞的詞嵌入向量,隱狀態向量ht在t時刻的更新公式為

it=σ(Wixt+Uist-1+bi)

(4)

ft=σ(Wfxt+Ufst-1+bf)

(5)

ot=σ(Woxt+Uost-1+bo)

(6)

(7)

ht=ot*tanh(Ct)

(8)

LSTM當前時刻的輸出能有效利用前面時刻的信息,為了充分利用文本上下文信息,采取雙向LSTM,即對輸入從正反兩個方向使用LSTM學習,最后將其聚合得

(9)

QBiLSTM=[h1,h2,…,ht]

(10)

2.4 相似度矩陣學習模型

本文提出3種相似度矩陣學習模型,分別為相似度矩陣特征聚合(similarity matrix feature concatenating，SMFC)模型,相似度矩陣特征分開學習(similarity matrix separate learning，SMSL)模型,相似度矩陣問題特征學習(similarity matrix question learning，SMQL)模型,3種模型對相似度矩陣學習得到聯合相似度,相似度矩陣的計算方法如式(11)～式(14)所示,其物理意義為問題和答案各尺度特征的余弦相似度矩陣,相似度矩陣的行向代表問題特征,列向代表答案特征,矩陣元素大小代表該行問題特征和該列答案特征的余弦相似度大小。

Qsum=row_sum(Q⊙Q)

(11)

Asum=col_sum(A⊙A)

(12)

Pqa=element_max(QsumAsum,ε)

(13)

SIMQA=element_div(QAT,Pqa)

(14)

式中,Q代表問題特征矩陣;A為答案特征矩陣,當特征提取層為CNN時,特征矩陣如式(3)所示;當特征提取層為BiLSTM時,特征矩陣如式(10)所示。ε為精度矩陣,防止式(14)中出現運算異常情況,col_sum表示對矩陣列向求和得到行向量,row_sum表示對矩陣行向求和得到列向量,element_max為矩陣與矩陣之間對應元素取最大值運算,element_div為矩陣與矩陣之間對應元素相除,SIMQA為相似度矩陣,其中Pqa、SIMQA和QAT的維度為n×n,n為式(3)或式(10)中特征矩陣的特征向量總數。

2.4.1 相似度矩陣特征聚合模型

該模型的基本結構是對相似度矩陣分別進行列向最大池化和行向最大池化,然后聚合得到聯合特征,最后將其送入全連接層學習得到相似度。本文采取3種方法對特征聚合,其分別為向量對應相加(sum)、向量對應相乘(mul)和向量拼接(concat),其方法如式(15)～式(19)所示,SMFC模型如圖5所示。

x1={a0,a1,…,an}

(15)

x2={b0,b1,…,bn}

(16)

sum(x1,x2)={a0+b0,a1+b1,…,an+bn}

(17)

mul(x1,x2)={a0×b0,a1×b1,…,an×bn}

(18)

concat(x1,x2)={a0,a1,…,an,b0,…,bn}

(19)

對相似度矩陣做行向最大池化,可以得到問題特征在答案中的最大相似度。同理,列向量最大池化可以得到答案中特征在問題中的最大相似度。相似度的大小直接反映了該局部特征的匹配程度,通過對局部特征的最大相似度學習可以有效抑制冗余特征,得到更為準確的聯合相似度,這是一種從局部相似度解決全局相似度的學習模型。

圖5 相似度矩陣特征聚合模型Fig.5 SMFC model

2.4.2 相似度矩陣特征分開學習模型

SMFC中采用最大池化方法得到局部特征的最大相似度,該方法忽略了局部特征出現的頻次。如圖6所示,“F-35”在答案中出現次數為兩次,而“戰斗機”出現次數為一次,通常頻次較高的特征對問答相似度計算的重要程度更高。基于上述問題,本模型使用卷積網絡代替最大池化,對相似特征矩陣和轉置后的相似特征矩陣分別進行卷積神經網絡學習,得到問題和答案的相似度分布特征,然后放入全連接網絡得到最終特征,最后通過GESD計算特征相似度,GESD為文獻[6]提出的相似度計算方法,如式(20)所示,SMSL模型結構如圖7所示。

(20)

式中,x和y分別表示SMSL模型中兩個全連接層輸出的特征向量,其分別代表問題和答案的相似度分布特征;γ和c分別為公式超參,實驗中γ和c都設置為1。

圖6 采用不同顏色表示問答局部相似特征

Fig.6 Different colors indicate the local similarity degree between the question and answers

2.4.3 相似度矩陣問題特征學習模型

答案選擇中,對于判斷答案是否是該問題的正確匹配,人們通常會關注問題的特征在答案中是否有相似特征,而對于答案中的冗余信息并不關注。例如,在圖6的問題中“F-35”“戰斗機”和“多少”此類局部特征的相似度的大小對整體相似度的影響遠遠大于答案中“美國”“洛希德·馬丁”等特征,所以只對相似度矩陣的問題相似度學習,可以減少冗余,消除噪聲,與此同時,簡化了模型,降低了模型復雜度。

圖7 相似度矩陣特征分開學習模型Fig.7 SMSL model

本文采用3種方式對問題相似度學習,分別為最大池化、平均池化和CNN模型,最后將其接入全連接層學習，其模型結構如圖8所示。

圖8 相似度矩陣問題特征學習模型Fig.8 SMQL model

2.5 模型訓練方法與損失函數

本文采取噪聲對比估計方法對模型進行訓練,其方法描述如下:對給定問題Q,在訓練中選取正確答案A+和錯誤答案A-,應用本文模型分別計算(Q,A+)和(Q,A-)的相似度得到S+和S-,本文模型的訓練的目標是使得正確問答對的相似值大于錯誤問答對的相似值,因此本文將問答相似度的距離與間隔M比較,得到如式(24)所示的損失函數,當S+-S->M時,不更新網絡參數,反之采用隨機梯度下降法更新。

S+=sim(Q,A+)

(21)

S-=sim(Q,A-)

(22)

(23)

Loss=max(0,M-S++S-)

(24)

對于間隔M,與以往采取固定間隔的方法不同,本文采取如式(23)所示的方法,其中α、β為模型超參。該方法使得間隔M與相似度的距離有關,當S+-S->β時,間隔M隨著S+-S-的增大而快速減小,與此同時,訓練誤差也相應減小,而當S+-S-≤β時,M值最大,模型得到較大的訓練誤差。

3 實驗結果與分析

3.1 實驗數據

本次實驗采用百度的公開數據集WebQA[15]。WebQA是一個大規模的中文人工標注問答數據集,其來源主要為百度知道。所有問題的候選答案由搜索引擎對問題檢索的前3頁結果清洗得到,最后通過人工將候選答案標注為正確答案和錯誤答案。本次實驗對WebQA數據集進一步清洗,主要清洗工作為糾正錯誤標注,最終形成如表1所示規模的訓練數據集。

表1 WebQA數據集

其中驗證集是訓練數據集隨機抽取10% 獲得,測試集為WebQA數據集的Test_lr清洗得到,Test_lr為WebQA人工標注測試集,其候選答案包含正確答案和同等語義背景下的錯誤答案。圖1為WebQA數據集示例。

3.2 實驗評價指標

本文實驗評價指標采用信息檢索中的平均準確率均值(mean average precision,MAP)和平均倒數排名(mean reciprocal rank,MRR),在本文實驗中,MAP代表問答對相似度排序中準確率的均值,其計算方法如式(25)所示。MRR代表的是問答對相似度排序中的第一個正確答案的位置得分平均值,即關注系統返回正確答案的位置,位置越靠前評分越高,位置的倒數為單個評分值,最后統計求和,其計算方法為

(25)

(26)

式中,n為問題總數;qi為第i個問題;prec(qi)為第i個問題的候選答案相似度排序的準確率,正確答案排在第一位則得分為1,否則為0。rank(qi)為第i個問題的候選答案排序結果中正確答案的排名。

3.3 實驗設計

本文在整理后的WebQA數據集上,應用文獻[6]提出的CNN模型和文獻[9]提出的BiLSTM方法作為實驗的基線模型,并在此基礎上分別添加SMFC,SMSL和SMQL方法作對比驗證實驗。對于SMFC方法,本文采用向量求和,向量拼接和向量相乘3種聚合方法,而對于SMQL的方法采取CNN、最大池化和平均池化3種方法對相似度矩陣進行特征提取。

3.4 實驗結果

本次實驗的實驗環境為GeForce GTX 1080、Intel Core i7-6700k 4.0GHZ、內存16G的PC。本文模型詞向量采用WebQA中已訓練好的詞向量初始化,該詞向量是通過五元語法的神經語言模型[16]訓練得到,詞向量維度為64維。本次實驗網絡學習采用隨機梯度下降法(stochastic gradient descent,SGD),其初始學習率設置為lr=0.1,網絡訓練的批大小設置為100,問題截取長度設置為50,答案截取長度設置為50。網絡迭代次數設置為200,采取早停止(early-stop)[17]策略。最后相似度計算公式采用GESD,文獻[6]在之前實驗已經證明,采用GESD作為相似度計算公式的實驗結果優于其他相似度計算公式。

本實驗將CNN作為底層特征提取的實驗結果如表2所示,其中CNN使用的是一維的卷積網絡,其窗口大小設置為1、2、3和5,濾波器個數設置為500,激活函數使用tanh。對于SMQL中相似度特征學習的1-CNN網絡參數設置,本文將窗口大小設置為1,濾波器個數200。SMSL中對相似度特征學習的CNN參數設置與SMQL相同,但網絡參數不共享。SMQL和SMFC的全連接網絡采用dropout機制,dropout設置為0.5,網絡的激活函數設置為tanh。

表2 基于CNN的相似特征學習模型實驗結果

實驗結果表明,添加了相似度特征學習方法有效地提升了實驗結果,其中采用SMQL和SMFC方法提升明顯,相比于基線模型,其MAP值提升了3.2%～4.7%,SMFC采取向量對應相加聚合(sum)方式優于其他聚合方式,其MAP值提升了4.3%,SMQL采取最大池化方法對問題的相似度特征學習得到了本次實驗的最優結果,MAP值提升了4.7%,這也證實了問答相似度矩陣中問題的相似度特征的重要性,抽取問題特征實質為一種粗糙的特征篩選,能夠防止模型過擬合,除此之外,相比與本文其他方法,SMQL訓練周期也較短,模型復雜度更低。

為了進一步驗證相似度特征學習方法的有效性,本文將BiLSTM作為底層特征抽取,添加相似度特征學習方法進行對比實驗。實驗中LSTM的隱層維度設置為141,添加dropout機制,dropout設置為0.5。實驗結果如表3所示。

從實驗結果可以看到,添加了相似度特征學習方法同樣適用于BiLSTM模型,基于相似度特征學習的BiLSTM模型的MAP值相比于基線模型都有提升,SMFC采取向量拼接方式聚合特征的實驗結果最好,相比于基線模型提升了1.9%,這也證實了本文模型的有效性。

表3 基于BiLSTM的相似特征學習模型實驗結果

4 結論

答案選擇是問答系統中的關鍵技術,本文提出了一種基于相似度特征的深度學習模型。該方法相比于傳統的深度學習模型,不僅對問題和答案的特征進行提取,而且對各個尺度的特征的相似度進行訓練,從局部相似度得到聯合相似度。從特征學習、特征聚合和特征篩選3個方面出發,本文提出了3種相似度特征訓練模型,其分別為SMSL模型、SMFC模型和SMQL模型。實驗證明,本文方法在CNN和BiLSTM模型的基礎上都有明顯提升,其中CNN模型采用SMQL方法得到68.2%的MAP值,相比于基線模型提升了4.7%。

參考文獻：

[1] WANG M, SMITH N A. What is the jeopardy model? a quasi-synchronous grammar for QA[C]∥Proc.of the Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007: 22-32.

[2] HEILMAN M, SMITH N A. Tree edit models for recognizing textual entailments, paraphrases, and answers to questions[C]∥Proc.of the Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2010: 1011-1019.

[3] YIH W, CHANG M W, MEEK C, et al. Question answering using enhanced lexical semantic models[C]∥Proc.of the 51st Annual Meeting of the Association for Computational Linguistics, 2013: 1744-1753.

[4] YU L, HERMANN K M, BLUNSOM P, et al. Deep learning for answer sentence selection[J]. Computer Science, 2014.

[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[6] FENG M, XIANG B, GLASS M R, et al. Applying deep learning to answer selection: A study and an open task[C]∥Proc.of the IEEE Automatic Speech Recognition and Understanding, 2015: 813-820.

[7] GERS F A, SCHMIDHUBER J, CUMMINS F. Learning to forget: continual prediction with LSTM[J]. Neural Computation, 2000, 12(10): 2451-71.

[8] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. Computer Science, 2014.

[9] TAN M, SANTOS C D, XIANG B, et al. LSTM-based deep learning models for non-factoid answer selection[J]. Computer Science, 2015.

[10] TAN M, DOS SANTOS C, XIANG B, et al. Improved representation learning for question answer matching[C]∥Proc.of the 54th Annual Meeting of the Association for Computational Linguistics, 2016.

[11] DOS SANTOS C N, TAN M, XIANG B, et al. Attentive pooling networks[J]. CoRR, abs/1602.03609, 2016, 2(3): 4.

[12] MEDSKER L, JAIN L. Recurrent neural networks[J]. Design and Applications, 2001.

[13] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.

[14] GRAVES A. Generating sequences with recurrent neural networks[J]. Computer Science, 2014.

[15] LI P, LI W, HE Z, et al. Dataset and neural recurrent sequence labeling model for open-domain factoid question answering[J]. arXiv Preprint arXiv:160706275,2016.

[16] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(2): 1137-1155.

[17] PRECHELT L. Early stopping-but when?[M]. Berlin Heidelberg: Springer,1998: 55-69.